نوشته های ایردا - IRDA

هفت کتابخانه مهم مصورسازی داده در پایتون

ایردا - IRDA — Tue, 22 Jun 2021 10:14:23 +0430

ابزاری که به شما کمک می‌کند درک بسیار خوبی از داده‌ ها به دست آورید.مصورسازی داده فرآیند به تصویر کشیدن داده‌ها و اطلاعات با استفاده از نمودار ها و گراف‌هاست به نحوی که بیننده قادر به درک سریع‌تر و بهتر اطلاعات نهفته در داده‌ها بشود. کتابخانه‌های زیادی در پایتون وجود دارد که به ما کمک می کند تا این کار را انجام دهیم. یکی از مشهورترین کتابخانه‌ها، Matplotlib است که تقریباً می‌تواند هر نوع شکلی را ترسیم کند. تنها مشکل کتابخانه این است که تسلط بر آن برای مبتدیان بسیار سخت است. در این مقاله، هفت کتابخانه مصورسازی داده که به جای matplotlib می‌توان استفاده کرد، معرفی خواهد شد.1. Seabornکتابخانه Seaborn روی matplotlib ساخته می‌شود و قابلیت‌های پیشرفته بسیاری در رابطه با مصورسازی داده ارائه میکند که با استفاده از آنها می‌توانید نمودارهای زیبایی را فقط با نوشتن چند خط کد ساده ایجاد کنید. کتابخانه Seaborn را جهت رسم انواع نمودارها مانند نمودارهای جعبه ای (box plots) ، نمودار ویلونی (violin plots)، نمودارهای توزیعی (dist plots)، نمودارهای مشترک ((Joint plots، نمودارهای جفتی (Pair plots)، نقشه‌های حرارتی (heatmaps) و غیره می توان مورد استفاده قرار داد.ویژگی های کلیدی:· می توان از آن برای تعیین رابطه بین دو متغیر استفاده کرد.· تمایز میان تحلیل توزیع‌های تک متغیر یا دو متغیر· رسم مدل رگرسیون خطی برای متغیر وابسته· تهیه نمودارهای شبکه‌ای (multi-grid plotting)فرمان مورد استفاده برای دانلود این کتابخانه: pip install seabornیک کد ساده برای نمایش روندها و توزیع داده‌ها در دیتاست‌ با استفاده از نمودارهای جفتی seaborn:2. Plotlyکتابخانه Plotly یک کتابخانه پیشرفته تحلیل پایتون است که به ساخت داشبوردها و نمودارهای تعاملی کمک می کند. نمودارهای ساخته شده با استفاده از Plotly ، نمودارهای تعاملی هستند، بدین معنی که شما به راحتی می توانید در هر نقطه خاص از نمودار، مقدار پیدا کنید. به طور کلی تولید داشبورد و استقرار آنها در سرور با استفاده از این کتابخانه بسیار آسان است. این برنامه از پایتون، R و زبان برنامه نویسی Julia پشتیبانی می کند.با استفاده از Plotly می توانید طیف گسترده ای از نمودارها را ایجاد کنید:1. نمودارهای پایه (Basic charts)2. نمودارهای آماری (Statistical charts)3. نمودارهای علمی (Scientific charts)4. نمودارهای مالی (Financial charts)5. نقشه ها (Maps)6. Subplots7. Transforms8. Jupyter Widgets Interactionکد یک نمودار پراکندگی ساده با استفاده از Plotly برگرفته از منابع معتبر:3. Geoplotlibاین کتابخانه برای ترسیم داده‌های جغرافیایی و تهیه نقشه در پایتون مورد استفاده قرار می‌گیرد. با استفاده از این کتابخانه می‌توانید نقشه‌های متنوعی از جمله نقشه‌های حرارتی (Heatmaps)، نقشه‌های تراکم نقطه (dot-density maps)، نقشه‌های جغرافیایی و غیره را ترسیم کنید.فرمان مورد استفاده برای دانلود این کتابخانه: pip install geoplotlib4. Gleamکتابخانه Gleam از پکیج R’s Shiny الهام گرفته شده است. به شما امکان می دهد نمودارهای خود را فقط با استفاده از کد پایتون به وب اپلیکیشن‌ تبدیل کنید. برای افرادی که دانش HTML و CSS ندارند مفید است. کتابخانه Gleam در واقع یک کتابخانه مصورسازی نیست؛ اما با هر کتابخانه‌ مصورسازی می‌تواند کار می کند.5. ggplotاین کتابخانه متفاوت از matplotlib عمل می کند. به شما امکان می دهد چندین جزء را به صورت لایه لایه اضافه کنید تا در انتها یک نمودار کامل ایجاد شود. به عنوان مثال، در ابتدا می توانید یک محور ایجاد کنید، سپس نقاط و سایر اجزا مانند خط روند (trend line) را اضافه کنید.توصیه می‌شود همیشه قبل از استفاده از ggplot ، داده های خود را در یک data frame ذخیره کنید تا نتایج ساده تر و مفیدتری بدست آورید.فرمان مورد استفاده برای دانلود این کتابخانه: pip install ggplot6. Bokehکتایخانه Bokeh توسط Continuum Analytics برای ایجاد تصویری مناسب در وب و مرورگرها ایجاد شده است. این کتابخانه امکان مصور سازی داده‌ها به صورت interactive را فراهم می آورد و باعث می‌شود بتوانید اطلاعات بیشتری را منتقل کنید.آموزش‌هایی که به شما در شروع کار با این کتابخانه کمک می‌کند:1. Interactive Data Visualization With Bokeh- Real Python ( مصورسازی داده‌های تعاملی با بوکه - پایتون واقعی)2. Python Data Visualization With Python (مصورسازی داده‌‌های پایتون - Traversry Media (Youtube))7. Missingnoعلم داده به معنای یافتن اطلاعات مفید از داده‌ها و قابل مشاهده ساختن آنها برای همه است. بهترین راه برای این کار مصورسازی داده‎ها است. این بسته می تواند برای همه دانشمندان داده، بسیار مفید باشد. به شما کمک می کند تا تمام مقادیر از دست رفته را پیدا کنید و آنها را فقط با استفاده از یک خط کد به صورت تصویری زیبا نمایش دهید. این برنامه، نمودارهای میله‌ای، چارت‌ها، نقشه‌های حرارتی، dendrograms و موارد دیگر را پشتیبانی می کند.فرمان مورد استفاده برای دانلود این برنامه: pip install missingnoبا استفاده از این بسته میتوان همه مقادیر صفر (null) را در دیتاست معروف titanic نمایش دهیم. کد آن در زیر آمده است:مصورسازی دیتای از دست رفته (missing data) با استفاده از missingno در titanic dataset

توزیع‌های پیوسته

ایردا - IRDA — Tue, 15 Jun 2021 15:05:27 +0430

در این مطلب، به معرفی توزیع‌های مهم و پرکاربرد برخی از متغیرهای پیوسته میپردازیم.توزیع یکنواخت پیوسته:ساده ترین توزیع پیوسته، توزیع یکنواخت است. اگر تمام نقاط در بازه (a,b) دارای امکان وقوع یکسان باشند، در این صورت متغیر تصادفی X را که برد آن مقادیر موجود در بازه (a,b) است، متغیر تصادفی یکنواخت می نامند که با نماد X~U(a,b) نشان داده میشود. تابع چگالی احتمال متغیر تصادفی یکنواخت برابر است با:و تابع توزیع آن به صورت زیر می‌باشد.مثال: شخصی هر روز صبح رأس ساعت ۸:۰۰ به ایستگاه اتوبوس می‌آید. اگر اتوبوس در لحظه‌ای تصادفی بین ساعت ۸:۰۰ تا ۸:۳۰ صبح به ایستگاه برسد، متوسط مدت زمان انتظار این شخص چقدر است؟پاسخ : اگر اتوبوس X دقیقه بعد از ساعت ۸:۰۰ به ایستگاه برسد، در این صورت X متغیر تصادفی یکنواخت روی بازه‌ی (0,30) است. در نتیجه متوسط زمان انتظار این شخص به صورت زیر بدست می‌آید:توزیع نمایی:اگر متغیر تصادفی X دارای تابع چگالی احتمال زیر باشدگوییم X دارای توزیع نمایی با پارامتر λ است و آن را با نماد X ~ E(λ) نشان می‌دهیم. در یک آزمایش تصادفی پواسن، اگر متغیر تصادفی را زمان رسیدن به اولین رخداد (موفقیت یا شکست) در نظر بگیریم یک متغیر تصادفی پیوسته ایجاد شده که دارای توزیع نمایی است. به عنوان مثال، زمان سپری شده تا سوختن اولین قطعه ی الکترونیکی در یک کارخانه دارای توزیع نمایی است. مثال: فرض کنید به طور متوسط هر سه ماه یکبار زمین‌لرزه‌ای در یک شهر رخ می‌دهد. احتمال اینکه زمین‌لرزه‌ی بعدی بعد از سه ماه و قبل از هفت ماه آینده رخ دهد، چقدر است؟پاسخ: فرض می‌کنیم X زمان لازم برای وقوع زمین لرزه‌ی بعدی باشد( بر حسب ماه ). همچنین می‌توان فرض کرد که X متغیر تصادفی نمایی با λ=1/3 است. برای محاسبه‌ی (P(3

چرا هزینه‌ی استخدام دانشمند داده بسیار زیاد است؟

ایردا - IRDA — Wed, 09 Jun 2021 16:45:10 +0430

تصور شما از یک شخص با عنوان شغلی "دانشمند داده " چیست؟ احتمالاً آدمی با پیراهن یقه سفید و ظاهری خشن و سخت گیر در ذهنتان می‌آید. درسته؟ شاید به همین دلیل است که Harvard Business Review "دانشمند داده" را "جذاب‌ترین شغل قرن 21" نامیده است. آنها اینگونه نوشته‌اند، "اگر "جذاب" به معنای داشتن ویژگی های کمیاب اما پر تقاضا باشد، دانشمند داده یکی از آنها است. استخدام آنها سخت و پرهزینه است و با توجه به بازار بسیار رقابتی برای جذب آنها، نگهداریشان دشوار است.دانشمندان داده افرادی هستند با دانش فنی بالا که توانایی جستجو و اکتشاف در دنیای داده‌ها را دارند. اگرچه واژه "دانشمند داده" اخیرا یکی از محبوب‌ترین گزینه‌های مورد جستجو در لینکدین برای کسانی که با داده کار می کنند بوده است؛ اما شغل جدیدی نیست. زمانی که HBR مقاله‌اش را منتشر کرد، هزاران دانشمند داده در استارتاپ‌ها و شرکت‌ها مشغول به کار بودند. علاوه بر این، هوشمند سازی کامپیوترها در حد انسان، هدفی است که نزدیک به یک چهارم قرن روی آن کار شده است. دلایل مختلفی برای این که چرا اخیراً دانشمندان داده بسیار محبوب شده‌اند، وجود دارد. دلیل اول این است که شرکت‌ها سال‌های زیادی‌ست که به طور فزاینده‌ای در حال جمع‌آوری داده هستند. این کار عمدتا برای شرکت‌های بزرگ در زمینه تکنولوژی بسیار سودمند است. دلیل دوم به خاطر پیشرفت تکنولوژی است که جمع‌آوری داده را به اقتصاد پیوند زده است.مقادیر زیادی از داده‌ها هم اکنون به راحتی در دسترس بوده و فقط در انتظار تحلیل هستند:در حال حاضر، حجم عظیمی از داده‌ها در دسترس اکثر شرکت‌های بزرگ در تمام صنایع است؛ اما بسیاری از آنها از داده‌ها به طور موثری استفاده نمی‌کنند. شرکت ها اکنون متوجه شده‌اند که باید از این حجم عظیم از داده‌ها که از طریق پایگاه داده‌ای‌شان در دسترس است، استفاده کنند. چه مقدار داده؟ 44 تریلیون گیگابایت تا سال 2020 نسبت به تنها 4.4 تریلیون در سال 2013.حجم و تنوع داده‌ها فرصتی را هم برای افرادی که مهارت استفاده از آنها را دارند و هم برای مشاغلی که می‌توانند این داده‌ها را جمع‌آوری کنند ایجاد کرده است. با این حال، این صنعت با کمبود مهارت و تخصص برای برآورده کردن تقاضای فزاینده شرکت‌هایی که به دنبال استفاده موثر از داده‌های خود هستند، مواجه است. به حدی که حتی افرادی که علوم کامپیوتر و رشته‌های فنی را در دانشگاه ‌گذرانده‌اند، مجبور به تحلیل داده‌های مورد نیاز در محل کار می شوند.کمبود ساختاری افراد با مهارت‌های علم داده:طبق آمار دانشگاه کالیفرنیا، ریورساید، یک سوم از صد دانشگاه برتر طبق گزارشات US News & World ، در زمینه علم داده مدرک ارائه می‌دهند. از میان 29 دانشگاه، تنها شش عدد دوره‌های کارشناسی در این زمینه را دارند، بقیه دانشگاه‌ها فقط دارای تحصیلات تکمیلی هستند. میانگین تعداد دانشجو در یک کلاس علم داده، فقط 23 نفر است. طبق پیش بینی دانشگاه کالیفرنیا، بعید به نظر می‌رسد که این تعداد کم دانشجویان و این تعداد محدود از دانشگاه‌هایی که برنامه‌های علم داده را ارائه می دهند بتوانند پاسخگوی نیاز به افراد متخصص در علم داده باشد. به عبارت ساده اقتصادی، تقاضا از عرضه پیشی می‌گیرد و در این مورد با یک حاشیه معنی دار پیشی خواهد گرفت . IBM در سال 2017 پیش بینی کرده بود که تقاضای سالانه برای دانشمندان داده، توسعه‌دهندگان داده (data developers) و مهندسان داده تا سال 2020 به 700،000 مورد خواهد رسید. بنابراین، یک کلاس 23 نفره و تقریباً 700 دانشجوی فارغ التحصیل از همه آن دانشگاه‌هایی که رشته علم داده را دارند، نمی‌تواند پاسخگوی نیاز روزافزون برای متخصصان علم داده باشد.در سال 2018 متوسط حقوق برای دانشمند داده سطح پایه 115000 دلار بوده است و افرادی که تیمی متشکل از 10-15 عضو را مدیریت می کردند، حقوق‌هایی بالغ بر 350،000 دلار دریافت کرده‌اند. در همین حال، متوسط تجربه کاری یک دانشمند داده از نه سال در سال 2014 به شش سال در سال 2015 کاهش یافته است. پیش بینی شده است تا سال 2019، تقاضا برای دانشمندان داده 50 درصد بیشتر از عرضه باشد. با توجه به اینکه بیشتر از 40 درصد شرکت ها اعتقاد دارند که ناتوانی آنها در جذب دانشمندان داده باعث عدم موفقیت‌شان در صحنه رقابت می‌شود، جای تعجب نیست كه بیش از 60٪ مشاغل كارمندانشان را خود آموزش دهند.دو راه حل برای پر کردن خلاء:دو روش اصلی برای کاهش این کمبود مهارت وجود دارد.· راه حل اول که توسط یکی از بزرگان هوش مصنوعی به نام Andrew NG مطرح شده است، تربیت متخصصان علم داده با استفاده از روش های غیر سنتی مانندMOOCs (Massive Open Online Courses) است. اگرچه این روش برای data developers فعلی و سایر کارمندان داده محور، روش موثری برای افزایش مهارت در این زمینه است؛ اما هنوز راه حل مشکل بزرگتر نیست. من می گویم "هنوز" زیرا این اساساً نیاز به تغییر رفتار دارد. کارفرمایان هنوز برای این نوع آموزش به اندازه کافی ارزش قائل نیستند. هنوز بسیاری از کارفرمایان هنگام استخدام فقط به نام دانشگاه‌ها نگاه می‌کنند. در حالی که این ذهنیت به آرامی در حال تغییر است ، اما به اندازه کافی سریع حل نخواهد شد تا بتواند این مشکل را در کوتاه مدت و میان مدت حل کند.· راه حل دوم این است که تعداد بیشتری از افراد بدون مهارت علمی در علم داده بتوانند به راحتی از تکنیک‌های پیچیده در تحلیل داده‌های شرکت استفاده کنند. در حقیقت، اجازه دهید هوش مصنوعی و یادگیری ماشین خودشان، مشکلات خود را حل کنند. با استفاده از تکنیک‌های توسعه یافته می‌توان دانشمند داده را تقلید کرد، به طوری که حتی یک فرد غیر فنی می تواند تحلیل داده را فقط با چند خط کد یا چند کلیک انجام دهد .این دو راه حل منحصر به فرد نیستند و به طور همزمان به شرکت‌ها کمک می‌کنند تا از داده‌های خود به طور موثرتری استفاده کنند. باعث صرفه‌جویی در هزینه‌ها و یا باعث رشد و افزایش درآمد می‌شوند. برای اینكه این امر به طور موثر اتفاق بیفتد، باید تغییرات فرهنگی در سازمان‌ها ایجاد شود که در نهایت باعث ایجاد سیاست‌گذاری بهتر در روند استخدام و همچنین باعث استفاده بهتر از ابزارها و نرم افزارهایی كه موجب حل بسیاری از مشكلات داده بدون نیاز به استخدام دانشمند داده می‌شود، خواهد گردید.

توزیع های گسسته

ایردا - IRDA — Mon, 07 Jun 2021 17:06:25 +0430

در این مطلب به معرفی توزیعهای گسسته و بیان برخی از ویژگی‌هایشان می‌پردازیم.توزیع برنولی یا دودویی (Bernoulli distribution):توزیع برنولی را می‌توان به عنوان ساده‌ترین نوع توزیع گسسته شناخت که از دو برآمد شکست یا موفقیت تشکیل می‌شود . آزمایش پرتاب سکه یک آزمایش برنولی است . اگر p احتمال موفقیت باشد ، آنگاه 1-p (که گاهی با q نمایش داده می‌شود) احتمال شکست است. تابع جرم احتمال این توزیع به صورت زیر می‌باشد : x=0,1توجه داریم که منظور از موفقیت، نتیجه هایی از آزمایش است که می‌خواهیم روی آن تحلیل انجام دهیم. برای این توزیع که با نماد x~ber(p) نشان داده می شود، داریم:اگر X1,X2,......Xnمتغیرهای تصادفی برنولی حاصل از آزمایشهای مستقل و با پارامتر p باشند، داریم:مثال : اگر در ریختن یک تاس سالم پیشامد مشاهده‌ی خال ۲ یا ۳ را موفقیت و وقوع پیشامد‌های ۱،۴،۵،۶ را شکست بنامیم ، آنگاه :یک متغیر تصادفی برنولی با پارامتر p=1/13 است. بنابراین تابع جرم احتمال آن عبارت است از :میانگین و واریانس X به صورت زیر می‌باشند :توزیع دوجمله‌ای (Binomial distribution)اگر n آزمایش برنولی ، همه با احتمال‌های موفقیت p ، به صورت مستقل انجام شوند .، آنگاه X تعداد موفقیت ها در این n آزمایش را متغیر دوجمله‌ای با پارامتر‌های n و p می‌نامند. که مجموعه مقادیر آن به صورت x = 0,1,...,n می‌باشد.تعداد موفقیت ها در n آزمایش مستقل برنولی با پارامتر p را متغیر تصادفی دوجمله ای می نامند که نماد آن X~B (n,p) و تابع احتمال آن به صورت زیر است:x=0,1,...,nتابع توزیع تجمعی این متغیر برابر است با:x=0,1,2,...,nکه برای محاسبه آن از رابطه زیر استفاده می‌شود:اگر X یک متغیر تصادفی دوجمله‌ای با پارامترهای n و p باشد داریم:مثال : رستورانی دارای ۸ نوع گوشت قرمز ، ۱۲ نوع خوراک ماهی و ۱۰ نوع خوراک مرغ می‌باشد . اگر مشتریان از بین این غذاها به تصادف یک مورد را انتخاب کنند ، احتمال اینکه دو نفر از ۴ مشتری بعدی خوراک ماهی سفارش دهند چقدر است ؟پاسخ : فرض کنید X تعداد خوراک‌های ماهی باشد که ممکن است چهار مشتری بعدی آن را انتخاب کنند . پس X یک متغیر تصادفی دو جمله‌ای با پارامتر‌های است در نتیجه ، تقریب توزیع دوجمله‌ای به وسیله توزیع نرمال:اگر X متغیر تصادفی دوجمله‌ای با پارامترهای n و p را باشد:یعنی در n های بزرگ می‌توان توزیع دو جمله‌ای را با توزیع نرمال تقریب زد.قضیه حدی دموار-لاپلاس:اگر Sn نشان دهنده تعداد موفقیتها در n آزمایش ساده مستقل هر کدام با احتمال موفقیت P باشد، آنگاه برای هر a∞:که در این قضیه عبارت ، تابع توزیع تجمعی نرمال استاندارد است که به صورت زیر می‌باشد:توزیع پواسون :(Poisson distribution)متغیر تصادفی است که برای مدل سازی تعداد پیشامد‌ها در طول زمان استفاده می‌شود و تابع احتمال آن به صورت زیر است:i=0,1,...λ نرخ وقوع اتفاق یا متوسط تعداد اتفاق ها در واحد زمان یا مکان است.اگر X یک متغیر تصادفی پواسون با پارامترλ باشد، میانگین و واریانس آن با هم برابر است و داریم:مثال :در یک کارخانه تولید خودرو، احتمال اینکه خودرو به خاطر نقص فنی در بخش کنترل کیفیت بازگردانده شود،‌ برابر ۲٪ است. احتمال آنکه در بین ۳۰۰ دستگاه تولیدی ۵ دستگاه برگشت داده شود، چقدر است؟پاسخ : در اینجا متوسط تعداد برگشتی‌ها همان پارامتر توزیع پواسون است. یعنی λ= 300X0.02=6و در نهایت به صورت زیر احتمال مورد نظر را بدست می‌آوریم.فرایند پواسون: اگر تعداد اتفاق ها در واحد زمان دارای توزیع پواسون با پارامترλ باشد، تعداد اتفاق‌ها در t واحد زمانی از توزیع پواسون با پارامترλt پیروی می نماید.N(0)=0این فرایند را به صورت نمایش داده می‌شود با نرخ λ>0این فرایند افزایشی مستقل است .تعداد رویداد‌های رخ داده در بازه‌ی زمانی به طول t دارای توزیع پواسون است و میانگین آن برابر با λt می‌باشد. در واقع برای تمام s ها (یک نقطه زمانی دلخواه) :یا-در فرآیند پواسون تعداد اتفاق ها در فواصل زمانی مجزا مستقل هستند.-اگر تعداد دفعات رخ دادن یک اتفاق در واحد زمان، از توزیع پواسون با پارامترλ پیروی نماید و هر اتفاق از این توزیع با احتمال Pi از نوع i باشد، آنگاه تعداد دفعات رخ دادن اتفاق نوع i در واحد زمان از توزیع پواسون با پارامتر λpi پیروی می‌نماید.-توزیع تعداد موفقیت‌ها در n آزمایش مستقل برنولی با پارامتر p را می‌توان با متغیر تصادفی پواسون با پارامتر λ=np تقریب زد، به شرطی که n بزرگ و p کوچک باشد.مثال ( فرایند پواسون ): فرض کنید در یک زایشگاه نوزادان با نرخ پواسون ۵ نوزاد در روز متولد شوند. مطلوب است محاسبه احتمال این که طی ۶ ساعت آینده حداقل دو نوزاد متولد شوند.پاسخ: فرض کنید کنید توزیع پواسونی برای تعداد نوزادان متولد شده در زمان t و قبل از آن داریم. اگر واحد زمان را روز در نظر بگیریم آنگاه λ=5. بنابراین : پس احتمال مورد نظر به صورت زیر بدست می‌آید.توزیع هندسی(Geometric distribution):آزمایش‌های مستقل برنولی با پارامتر p تا رسیدن به اولین موفقیت را متغیر تصادفی هندسی با نماد X~G(p)می‌نامند که تابع احتمال آن به صورت زیر است:اگر X یک متغیر تصادفی هندسی با پارامتر p باشد، داریم:نکته : توزیع هندسی بی حافظه است. یعنی در آزمایش‌های متوالی و مستقل برنولی اطلاع از این موضوع که m برآمد متوالی مشاهده شده تاکنون، همگی شکست بوده‌اند در احتمال اینکه n برآمد بعدی همه شکست باشند، بی‌اثر است. دلیل این موضوع استقلال آزمایش‌های بدیهی‌ است. اما از این نظر که توزیع هندسی، تنها توزیع گسسته بی‌حافظه است، جالب است.به طور مثال فرض کنید دستگاهی داریم که X طول عمر آن تا زمان خرابی باشد اگر بدانیم دستگاه تا زمان m خراب نشده باشد ، احتمال اینکه تا زمان n+m هم خراب نشود مستقل از طول عمر گذشته خود است و برابر است با احتمال اینکه دستگاه تا زمان n خراب نشود.مثال :از بین ۱۳ کارت که از ۱ تا ۱۳ شماره گذاری شده‌اند ، به صورت متوالی و به تصادف همراه با جایگذاری کارتی بیرون می‌کشیم تا زمانی که کارت با شماره ۱ را انتخاب کنیم . احتمال این‌که برای رسیدن به اولین کارت با شماره‌ی ۱ ، ۱۰ بار کارت بکشیم؟پاسخ :‌ فرض کنید X تعداد کارت های کشیده‌شده تا مشاهده اولین شماره ۱ باشد . X یک متغیر تصادفی هندسی با پارامتر p=1/13 است . پس :این احتمال برابر است با :توزیع دوجمله‌ای منفی: (Negative binomial distribution)تعداد آزمایش‌های مستقل برنولی با پارامتر p تا رسیدن به rامین موفقیت را متغیر تصادفی دوجمله‌ای منفی با نماد x~nb(r,p)می‌نامند که تابع احتمال آن به صورت زیر است:امید ریاضی و واریانس متغیر تصادفی دو جمله ای منفی برابر است با:میانگین و واریانس توزیع دوجمله‌ای منفی r برابر میانگین و واریانس توزیع هندسی است.اگر X یک متغیر تصادفی دوجمله‌ای منفی با پارامترهای r و p باشد و Y یک متغیر تصادفی دوجمله‌ای با پارامترهای n و p باشد، آنگاه: (rامین موفقیت بعد از آزمایش nام رخ دهد یعنی در n آزمایش اول کمتر از r موفقیت داشته باشیم)اگر در توزیع دوجمله‌ای منفی مقدار r برابر یک باشد توزیع حاصل توزیع هندسی است.اگر x1,...xr متغیرهای تصادفی مستقل هندسی با پارامترهای pi باشند، آنگاه:مثال :احمد و مرتضی یه تعداد دفعات با یکدیگر تخته‌نرد بازی می‌کنند تا اینکه بالاخره یکی از آن‌ها ۵ بار برنده شود . فرض کنید بازی‌ها مستقل و احتمال اینکه احمد در یک بازی پیروز شود برابر با ۰.۵۸ باشد . مطلوب است محاسبه احتمال این که بازی در دور هفتم خاتمه یابدپاسخ :فرض کنید X تعداد دفعات بازی تا برنده‌ شدن احمد در ۵ دور باشد . همچنین فرض کنید Y تعداد دفعات بازی تا برنده شدن رضا در ۵ دور باشد . متغیرهای تصادفی X و Y متغیر‌های دوجمله‌ای منفی به ترتیب با پارامترهای (۰.۵۸ ، ۵) و (۰.۴۲ ، ۵) هستند. احتمال اینکه این بازی در دور هفتم خاتمه پیدا کند برابر است با :توزیع فوق هندسی (hypergeometric distribution)فرض کنید از جعبه‌ای که دارای m قطعه معیوب و N-m قطعه سالم است، n قطعه به تصادف و بدون جایگذاری انتخاب شود. اگر X تعداد قطعات معیوب خارج شده باشد، این متغیر تصادفی را فوق هندسی با نماد X~HG(N,m,n) می‌نامند و تابع احتمال آن به صورت زیر است:امید ریاضی و واریانس متغیر فوق هندسی برابر است با:مثال :پژوهشگری در انجام ۵۰۰ محاسبه مستقل مرتکب ۲۵ اشتباه شده است . اگر پژوهشگر دیگری ۷ محاسبه از آن‌ها را به تصادف کنترل کند ، احتمال این که دو اشتباه پیدا کند چقدر است ؟( فرض کنید پژوهشگر دوم کاملا به صحت محاسبات آگاه است. )پاسخ : فرض کنید X تعداد اشتباهاتی باشد که پژوهشگر دوم پیدا می‌کند . X یک متغیر فوق هندسی‌ست با پارامتر های n=۷ , N=۵۰۰ , D= ۲۵ . احتمال مورد نظر به صورت زیر محاسبه می‌شود .نکته : هرگاه در متغیر تصادفی فوق هندسی نسبت n به N کوچک باشد، آنگاه توزیع فوق هندسی به توزیع دو جمله ای با پارامترهای n و p=m/N میل می‌نماید.نکته : فرض کنید از جعبه‌ای که دارای m قطعه معیوب و N-m قطعه سالم است، n قطعه به تصادف و با جایگذاری انتخاب شود. اگر X تعداد قطعات معیوب خارج شده باشد، آنگاه X یک متغیر دوجمله‌ای است و داریم:توزیع یکنواخت گسسته( discrete uniform distribution):فرض کنید متغیر تصادفی x دارای n نقطه و تکیه‌گاه اعداد طبیعی از ۱ تا n باشد . اگر تابع احتمال آن به صورت زیر باشد به آن تابه یکنواخت گسسته گوییم.در این توزیع احتمال انتخاب هر نقطه از ۱ تا n ، احتمالی برابر و یکسان است . در نتیجه برای بیان این توزیع نیاز به n داریم. برای نمایش تابع توزیع احتمال تجمعی این متغیر تصادفی از رابطه‌ی زیر بهره می‌بریم: در صورت این رابطه منظور از جزء صحیح x ، بزرگترین مقدار صحیحی‌ست که از x کوچک‌تر باشد.مثال : تاسی را پرتاب می‌کنیم. اگر X بیانگر عدد مشاهده شده در هر پرتاب باشد، توزیع این متغیر را می‌توان توزیع یکنواخت گسسته دانست زیرا با فرض n=۶، هر پیشامد دارای احتمال یکسان بوده و همچنین تابع توزیع آن به صورت زیر می‌باشد.در حالت قبل تکیه‌گاه متغیر تصادفی از ۱ شروع می‌شد و به n ختم میشد. همانطور که گفته شد در این حالت فقط نیاز به مقدار n خواهیم داشت. اما حالتی دیگر نیز وجود دارد که در آن تکیه گاه، تعداد اعداد صحیح در فاصله‌ی [a,b] در نظر می‌گیریم و آن را به صورت زیر می‌نویسیم.و می‌گوییم X دارای توزیع یکنواخت گسسته با پارامتر‌های a و b می‌باشد. در این توزیع مقدار n به صورت زیر بدست می‌آید:n= b - a + ۱در این حالت همواره مقدار b از a بزرگتر است و تابع چگالی احتمال و تابع توزیع احتمال تجمعی آن را به صورت زیر می‌نویسیم:نمودار تابع احتمال و تابع توزیع تجمعی برای این متغیر تصادفی به ترتیب به صورت زیر است:امید ریاضی و واریانس این توزیع برابر است با:نکته: در این توزیع میانه و میانگین با هم برابرند.مثالی از این توزیع انداختن تاس سالم است که تمام شش وجه آن با احتمال یکسان 1/6 ظاهر می‌شوند.

ده دوره آنلاین علم داده (رایگان)

ایردا - IRDA — Tue, 01 Jun 2021 10:09:23 +0430

ده دوره آنلاین علم داده به صورت رایگان برای مبتدیان در سال 2021مجموعه‌ای از بهترین دوره‌های آنلاین رایگان علم داده برای مبتدیان ازUdemy ، Coursera ، Datacamp ، freeCodeCamp و سایر پرتال‌های آنلاین معروف.نوشته شده توسط: Javinpaul21 مارس 2021سلام دوستان، علم داده یکی از مهمترین مهارت‌های مورد تقاضا در دنیای فناوری فعلی است و همه شرکت‌ها به دنبال دانشمندان داده با مهارت بالا هستند تا از حجم عظیمی از داده‌ها که هر روز جمع آوری می‌شود، در جهت افزایش فروش، سود و بهبود روند کلی کار شرکت استفاده کنند. اگر می خواهید علم داده و تحلیل داده را بیاموزید و به دنبال برخی دوره‌های آموزشی آنلاین رایگان برای شروع یادگیری این مهارت مفید هستید، این مطلب مناسب شماست.پیش از این، من بهترین دوره های علم داده را به اشتراک گذاشته‌ام و در این مطلب قصد دارم دوره‌های علم داده رایگان را ازUdemy ،Coursera ، DataCamp و freeCodecamp برای همه برنامه نویسان چه مبتدی و چه با تجربه به اشتراک بگذارم.علم داده چیست، چرا اینقدر محبوب است و چرا Harvard Business Review از آن به عنوان "جذاب‌ترین کار در قرن 21" یاد کرده است؟ شما می توانید برای یادگیری علم داده از ابتدا در این دوره‌های آنلاین رایگان شرکت کنید. این دوره‌ها همچنین برای پر کردن خلاء اطلاعات شما در مورد علم داده بسیار مفید خواهند بود، با توجه به این نکته که آنها کاملا رایگان هستند.اگر به اطراف خود نگاه کنید، اکثر شرکت‌ها در جستجوی داده‌ها هستند. برخی به دنبال اطلاعات شخصی کاربر هستند در حالی که برخی به دنبال جزئیات حرفه‌ای کاربر هستند.هر شرکتی برای فروش محصولات خود به داده نیاز دارد. داده‌ها در فرآیندهای صنعتی مختلف به کار می‌آیند. محصولات پس از تحلیل داده‌های مربوط به مصرف کنندگان ارزیابی می‌شوند. این روزها شرکت ها به دنبال متخصصانی هستند که بتوانند داده‌ها را برای آنها مدیریت کنند. آنها به تحلیلگران داده احتیاج دارند و از آنجا که این یک حرفه کاملاً جدید است، رقابت کمی در آن وجود دارد. علاوه بر این، شرکت‌ها حقوق خوبی به تحلیلگران داده پرداخت می‌کنند.اگر به دنبال شغل در این زمینه هستید، باید اصول تحلیل داده را بیاموزید. قبلا من دوره‌های رایگان برای یادگیری ماشین و مایکروسافت اکسل ( برای جزئیات بیشتر به دوره‌های رایگان ماشین لرنینگ و همچنین دوره اکسلمراجعه شود. ) را به اشتراک گذاشته ام و در این مقاله شما با ده دوره رایگان علم داده و تحلیل داده آشنا خواهید شد که می‌توانید برای شروع کار خود به عنوان تحلیلگر داده در 2021 از آنها استفاده کنید.همه این دوره‌ها رایگان هستند و در نوع خود بهترین‌اند. علاوه بر این، همه این دوره‌ها توسط صدها دانشجو امتیازدهی شده‌اند و رتبه بالایی کسب کرده‌اند.به هر حال، اگر به یک دوره جامع نیاز دارید و پرداخت هزینه ناچیز برای یادگیری مهارت ارزشمندی مثل علم داده برایتان مقدور است، من قویا دوره Data Science A-Z™: Real-Life Data Science Exercises Included ارائه شده توسط Kirill Eremenko و تیمش بر روی Udemy را پیشنهاد می‌کنم .ده دوره رایگان آنلاین علم داده در سال 2021:در اینجا لیستی از بهترین دوره های آنلاین رایگان را می‌توانید مشاهده کنید. این دوره‌های آنلاین رایگان از سایت‌هایی مانندUdemy ، ‌Coursera ، DataCamp و... انتخاب شده اند. این دوره‌های آنلاین توسط متخصصان ایجاد شده و مورد اعتماد بسیاری از توسعه دهندگان این علم در سراسر جهان هستند و برای اهداف آموزشی رایگان ساخته شده‌اند. شما می‌توانید در یکی از این دوره‌ها ثبت نام کنید تا علم داده را از ابتدا یاد بگیرید و مهارت مورد نیاز را به رزومه خود اضافه کنید.１. مقدمه بر علوم داده - An Introduction to Data Science (دوره رایگان Udemy):این دوره یکی از بهترین دوره‌های رایگان Udemy برای یادگیری علم داده است. در این دوره، شما یاد خواهید گرفت که چگونه از داده‌ها به طور موثر استفاده کنید. در تحلیل داده، شما باید مهارت‌هایی داشته باشید که بتوانید مهمترین داده‌ها را از یک مجموعه داده فیلتر و جدا کنید. این دوره به شما در پرورش و توسعه این مهارت‌ها کمک می کند. علاوه بر این، در مورد علم داده و تاریخچه آن یاد خواهید گرفت. همچنین، این دوره یک نقشه راه برای تسلط بر تحلیل داده فراهم می‌آورد. بعد از این دوره به راحتی می‌توانید تفاوت‌های بین داده‌های که نمی‌خواهید (noise) و داده‌های واقعی را دریابید. مهمترین ویژگی این دوره کوتاه و ساده بودن آن است و که باعث باارزش بودن هر ثانیه آن می‌شود.. این دوره ویدیویی، 44 دقیقه است و تاکنون بیش از 2000 دانشجو در آن ثبت نام کرده‌اند.لینک دوره2. اصول علوم داده - Essentials of Data Science (دوره رایگان Udemy):این یک دوره آنلاین رایگان دیگر از Udemy برای یادگیری و درک علم داده است. اگر به صنعتی که با داده ها سر و کار دارد نگاهی بیاندازید، اهمیت کار با داده‌ها را خواهید دریافت. هر شرکت دپارتمانی دارد که با داده‌ها سر و کار دارد و از این دپارتمان به عنوان دپارتمان تحلیلگر داده یاد می شود. برای اینکه بتوانید به عنوان یک تحلیلگر داده، فعالیت حرفه‌ای موفقی داشته باشید، باید در مورد اکسل اطلاعاتی داشته باشید. این دوره یک دید کلی در مورد سه حیطه اساسی در علم داده به شما ارائه می‌دهد. حیطه هایی که هر دانشمند داده باید به خوبی آنها را بشناسد و در آنها مهارت کسب کند. پس از اتمام این دوره، شما درک روشنی از علم داده خواهید داشت و می توانید تصمیم بگیرید که آیا علم داده برای شما مناسب است یا خیر. همچنین با شرکت در این دوره، خواهید دانست که در علم داده چه موضوعات و زمینه‌هایی اهمیت بیشتری دارند و بنابراین تمرکز خود را بر روی یادگیری آنها خواهید گذاشت.لینک دوره３. علم داده چیست ؟ - What is Data Science? (دوره رایگان Udemy):اگر به دنبال یک دوره مقدماتی رایگان در مورد علم داده هستید، این دوره مناسب شماست. این دوره به صورت رایگان در Coursera یعنی یکی از پیشروترین پورتال‌های یادگیری آنلاین و احتمالاً بهترین مکان برای اموزش علم داده و یادگیری ماشین برگزار می‌شود .این دوره مقدمه‌ای کامل برای علم داده است، کار روزانه دانشمندان داده را به شرکت کنندگان در دوره نشان می دهد و معنای علم داده را به طور ساده بیان می‌کند. این دوره همچنین بخشی از بهترین برنامه هایCoursera Specialisations یاCertificates Professional است و پس از تکمیل این دوره می‌توانید در هر یک از برنامه‌های زیر شرکت کنید:· IBM Data Science Professional Certificate· Key Technologies for Business Specialization· Introduction to Data Science Specialization· IBM AI Foundations for Business Specializationپس از گذراندن این دوره، شما ایده بسیار بهتری درباره چگونگی توصیف علم داده و اصطلاحات رایج مرتبط با این رشته (مانند یادگیری ماشین) خواهید داشت.لینک دوره４. آشنایی با داده‌ها برای علوم داده - Intro to Data for Data Science (دوره رایگان Udemy):این دوره یکی دیگر از دوره‌های آنلاین Udemy است که به صورت رایگان برگزار می‌شود. در تحلیل داده، شما با داده‌ها سر و کار خواهید داشت و اگر نتوانید درک درستی از داده‌ها داشته باشید، نمی توانید یک تحلیلگر داده موفق باشید.این دوره به شما کمک می کند، داده ها و دانش پشت آن را بهتر بشناسید.در این دوره، شما نحوه استفاده از داده‌ها و نحوه آماده سازی برای کار با آنها را یاد خواهید گرفت. در این دوره فرآیند کامل استخراج اطلاعات مهم از یک مجموعه داده، آموزش داده خواهد شد.در اینجا مفاهیم اصلی که در این دوره یاد داده خواهد شد، آورده شده است:1. داده چیست و چرا داده‌ها مهم هستند.2. نحوه استفاده از داده در علم داده3. انواع داده‌هایی که در علم داده وجود دارد.4. نحوه نمایش داده‌ها در رایانه5. نحوه استخراج اطلاعات از جدول داده‌هابه طور کلی، این دوره به شما کمک می کند تا جنبه های کلیدی مربوط به داده‌ها را بیاموزید و مهارت‌هایتان در ارتباط با تحلیل داده را ارتقاء دهید.لینک دوره５. مقدمه‌ای بر علوم داده با استفاده از پایتون - Introduction to Data Science using Python (دوره رایگان Udemy):این دوره یکی از ساده‌ترین دوره‌های آنلاین است که می‌توانید در مورد علم داده در اینترنت پیدا کنید. این یک دوره ویدیویی 2.5 ساعته است که شما با استفاده از زبان برنامه نویسی پایتون، محبوب‌ترین زبان برنامه نویسی برای علم داده در جهان، علم داده را یاد خواهید گرفت.این یک دوره مقدماتی است، بنابراین انتظار نداشته باشید که اطلاعات خیلی دقیق و کاملی در مورد موضوع بدست آورید. این یک مرحله پایه است که شما برای اینکه بتوانید به عنوان یک تحلیلگر داده موفق باشید، باید بگذرانید.در این دوره ، مفاهیم زیر را خواهید آموخت:· مبانی علم داده و تجزیه و تحلیل· نحوه استفاده ازPython و Scikit· درک همه کلمات مهم مانند "علم داده"، "یادگیری ماشین"، "دانشمند داده" و ...همه این مفاهیم در مورد تحلیل داده بسیار مهم هستند. شما باید در این دوره کوتاه و آموزنده شرکت کنید.لینک دوره６. IBM Data Science Professional Certificate (دوره رایگان توسط Coursera):این دورهCoursera به طور خاص برای سیستم عامل IBM طراحی شده است. این دوره به شما کمک می کند علم داده را در محیط ابری IBM به همراه تمام عناصر پایه آن بشناسید.در این دوره شما مفاهیم کلیدی زیر برای تحلیل داده را خواهید آموخت:· همه فیلترهای مهم برای مرتب سازی، گروه بندی و تولید نتایج دلخواه.· عباراتSQL برای دستکاری داده‌ها.· تحلیل زمان واقعی مجموعه دیتااین یک دوره کامل است که باعث می‌شود شما به دوره‌های دیگر در مورد تحلیل داده نیازی نداشته باشید. به یاد داشته باشید درCoursera ، یک Professional Certification یا Specialization مجموعه‌ای از دوره‌ها است. بیشتر دوره‌ها free-to-audit است؛ به این معنی که می‌توانید به صورت رایگان در آنها ثبت نام کنید؛ اما به آزمون‌ها و سنجش ها دسترسی نخواهید داشت. همچنین هیچ گواهی پایان کار (certificate) دریافت نخواهید کرد. برای دریافت گواهی باید در Professional Certification یا Specialization با پرداخت هزینه ثبت نام کنید یا عضویت Coursera Plus را بگیرید.لینک دوره７. Data Science for Everyone(دوره رایگان توسط DataCamp):این دوره نیز یکی دیگر از بهترین دوره‌های آنلاین رایگان است که می توانید برای یادگیری علم داده در آن ثبت نام کنید. این دوره توسط DataCamp ، یکی از بهترین وب سایت‌های یادگیری مهارت‌های داده مانند تحلیل داده، علم داده و... ارائه می شود.این دوره مقدمه‌ای در علم داده است و هیچ برنامه نویسی‌ای در آن وجود ندارد. این دوره فنی نیست و شما بدون نیاز به نوشتن یک خط کد، با هر آنچه که در این زمینه وجود دارد، حتی چیزهایی که می‌ترسیدید در موردشان سوال بپرسید، آشنا خواهید شد.از طریق تمرینات عملی، شما اطلاعات خوبی در مورد نقش‌های مختلف یک دانشمند داده، مباحث بنیادی مانند تست A/B، تحلیل سری زمانی، یادگیری ماشین و نحوه بدست آوردن نتیجه از داده‌های دنیای واقعی به دست خواهید آورد.بنابراین شروع به یادگیری کنید، در این زمینه پرکاربرد مهارت کسب کنید و علت اینکه چرا علم داده برای همه مناسب است را دریابید!لینک دوره８. Learn Data Science in 6 Hours for FREE (دوره رایگان توسط Youtube و CodeCamp):این دوره نیز برای مبتدیان در علم داده بسیار مناسب است. در این دوره شش ساعته در کانالFreeCodeCamp یوتیوب، شما با اجزای مهم علم داده آشنا خواهید شد. شما با اصول، روش‌ها و ابزاری آشنا خواهید شد که علم داده را به عنوان رسانه‌ای قدرتمند در تجارت و تحقیقات در می آورند. با شرکت در این دوره پایه شما قوی خواهد شد. با علم داده می‌توانید به نحو بهتری کاری را که می‌خواهید انجام دهید. این دوره شامل مبانی علم داده، پیدا کردن منابع داده، کدگذاری، ریاضیات و آمار می‌شود.لینک دوره９. Learn Data Science With R Part 1 of 10(دوره رایگان Udemy):شاید ندانید اما پایتون تنها زبان برنامه نویسی برای علم داده نیست. اگرچه که بهترین زبان برنامه نویسی محسوب می‌شود؛ اما شما می‌توانید از R برای علم داده نیز استفاده کنید و این همان چیزی است که در این دوره به شما آموزش داده می‌شود R .به اندازه پایتون محبوب نیست؛ اما یک زبان برنامه نویسی مناسب برای تحلیل داده‌، آمار و علم داده است. اگر می خواهید علم داده را با استفاده از زبان برنامه نویسی R بیاموزید، قطعاً این دوره رایگان در Udemy گزینه بسیار مناسبی است. برخلاف بسیاری از دوره‌های رایگان که بسیار کوتاه هستند، این یک دوره هشت ساعته در مورد R است. این دوره همچنین بسیار واضح و کامل است و اصول اولیه بسیار خوب آموزش داده می‌شود. به این معنی که شما در مورد علم داده و همچنین برنامه نویسی R موارد زیادی خواهید آموخت.لینک دوره１０. NumPy for Data Science Beginners: 2021 (دوره رایگان Udemy):NumPy یک کتابخانه مهم هم برای علم داده و هم برای یادگیری ماشین است و دانستن اطلاعات کافی در مورد این کتابخانه پایتون به شما به عنوان یک دانشمند داده بسیار کمک می‌کند.چیزهایی که در این دوره یاد خواهید گرفت:1. عملکرد مختلف NumPy در ماتریس و آرایه که به عنوان عملگر استفاده می‌شود.2. عملکرد مختلف توابع NumPy برای جبر خطی، آمار، ریاضی3. NumPy برای تصویرسازی Matplotlib4. NumPy Quizzesاگر به دنبال یک دوره رایگان NumPy هستید، در Udemy به دنبال آن نباشید. در این دوره از چگونگی نصب NumPy گرفته تا نحوه حل مشکلات پیچیده شامل ایجاد آرایه، تبدیل و نمونه‌گیری تصادفی را خواهید آموخت. مجموعه‌ای از ویدیوهای درسی به سبک سخنرانی با تعداد زیادی مثال تصویری، نمایش کد و مشکلات چالشی برای آزمودن شما در این دوره ارائه می‌شود که نه تنها تماشای آن را جالب می‌کند؛ بلکه به شما این امکان را می‌دهد که با سرعت مناسب خودتان یاد بگیرید.لینک دورهتمامی این دوره‌ها جزء بهترین دوره‌های آنلاین رایگان علم داده برای مبتدیان در سال 2021 هستند. اگر می خواهید دانشمند داده شوید، شرکت در یکی از این دوره‌ها ایده بسیار خوبی است. تحلیل داده‌ نیاز هر ساعت است. شما می توانید به عنوان یک تحلیلگر داده آینده روشنی داشته باشید؛ اما باید بدانید که تحلیل داده کاری پیچیده و بسیار مهم است. در این حرفه شما نمی‌توانید حواس پرت باشید. به منظور افزایش تمرکز، توصیه می‌شود حداقل 2-3 دوره مربوط به تحلیل داده را گذرانده و سپس تصمیم بگیرید که آیا واقعاً می خواهید تحلیلگر داده باشید یا صرفا یک علاقه زودگذر است.

زبان برنامه نویسی R

ایردا - IRDA — Tue, 25 May 2021 09:39:39 +0430

زبان برنامه نویسی R بهترین ابزار برای پیکربندی مجدد داده‌ها و تحلیل آماری است. زبان R ، مخصوص رشته آمار تهیه شده است و برای دانشمندان داده که به دنبال تحلیل رفتاری با استفاده از داده‌های کاربران هستند، گزینه‌ای ایده آل محسوب می‌شود.R زبان برنامه نویسی منتخب آمارشناسان و متخصصان کلان داده (Big Data) است و به گونه‌ای طراحی شده است که ایجاد مدل‌های پیچیده با حداقل کد را برای کاربر آسان می کند. این برنامه به صورت متن باز (open-source) است که به سیستم عامل‌های خاصی محدود نمی‌شود. از آنجا که متن‌باز است، کاملاً تحت لیسانس GNU (General Public License Agreement) قرار دارد. این‌ها یکی از هزاران دلیلی است که باعث شده است این برنامه و زمان برنامه‌نویسی، برای پروژه‌هایی با ابعاد کوچک یا بزرگ، مقرون به صرفه باشد.با توجه به اینکه تحلیل کلان داده تقریباً برای همه سازمان‌ها به یک اولویت تبدیل شده است، بدیهی است که آنها به متخصصان بیشتری در زمینه برنامه نویسی R نیاز دارند. نتایج حاصل از یک نظرسنجی با موضوع " تحلیل نیاز ما به تحلیل داده در هر ساعت " نشان داد که بیش از 60 درصد افراد شرکت کننده بر این باورند که در واقع تقویت استراتژی‌های بازاریابی سازمان، به ویژه بازاریابی در شبکه های اجتماعی به تحلیل داده‌ها بستگی دارد.چرا R برای تحلیل کلان داده انتخاب می شود؟نمی دانید برای تحلیل داده باید چه چیزی انتخاب کنید؟ نگران نباشید، ما در ادامه این مطلب به طور خلاصه در مورد اینکه چرا R یک گزینه ایده آل برای متخصصان داده است، صحبت خواهیم کرد.· آماده‌سازی‌ داده‌ها (Data Wrangling):آماده‌سازی داده‌ هنر تبدیل داده‌ از قالب یک داده خام به ساختار دیگر، با هدف ایجاد داده مناسب‌تر و با ارزش‌تر است. سه قسمت در آن وجود دارد، وارد کردن ، مرتب کردن و تبدیل.· تصویرسازی داده (Data Visualization):R حاوی دستورات رسم است و برای توسعه نمودار استفاده می شود. برای کسی که هیچ علمی در مورد داده‌ها ندارد، توضیح نتایج حاصل از داده‌ها چالش برانگیز است. بنابراین، با استفاده از ابزارهای تصویر سازی داده، می‌توان به راحتی داده‌ها را در قالب نمودار، عکس یا چارت درآورد. مصورسازی به ارائه نتایج حاصل از داده‌ها برای مخاطبان به شکل واضح و قابل فهم، کمک شایانی می‌کند. برخی از ابزارهای تصویر سازی داده شامل ggplot2 ، Tableau، FusionCharts و D3.js است.· تحلیل داده (Data Analysis):زبان برنامه نویسی R یک زبان قدرتمند در تحلیل داده است و اصطلاح استفاده شده در تحلیل کاوشگرانه داده (EDA) است. این فرآیند شامل چندین تکنیک مانند به حداکثر رساندن عملکرد در مجموعه داده، استخراج متغیرهای معنی دار و ازمون فرض‌ها است.· RHadoop:Rhadoop یک چارچوب نرم‌افزاری متن‌باز است که توانایی تحلیل و مدیریت داده‌ها را با استفاده ازHadoopاز محیط R به کاربران ارائه می دهد. شما به عنوان یک دانشمند داده یا یک متخصص کلان داده، باید با نحوه استفاده از R برای استفاده از قابلیت های توزیع MapR Hadoop در سطح سازمانی آشنا شوید. در لیست زیر پکیج‌های RHadoop که عملکردهای مختلفی را به کاربران ارائه می‌دهد، آمده است:rhbase: از اتصال به پایگاه داده توزیع شده HBase با کمک سرور Thrift مراقبت می کند.ravro: یک قابلیت افزودنی‌ست که به کاربر در خواندن یا نوشتن فایل‌های Avro کمک می کند. این فایل‌ها از سیستم فایل محلی و HDFS استخراج می شوند. ورودی Avro برای rmr2 نیز اضافه می شود.rhdfs: امکان اتصال به HDFS (سیستم فایل توزیع شده Hadoop) را فراهم می‌کند.plyrmr: کاربر R این امتیاز را دارد که عملیات معمول ایجاد تغییرات در داده‌ را در دیتاست‌های بزرگ ذخیره شده در Hadoop انجام دهد.rmr2: متخصص با استفاده از قابلیت Hadoop MapReduce موجود در دسته Hadoop، به راحتی می تواند تحلیل آماری را در R با استفاده از این بسته انجام دهد.· RHIPE:RHIPE به طور کلی به عنوان محیط برنامه نویسی یکپارچه R و Hadoop تعریف می شود. این پکیج نرم افزاری به توسعه دهنده این امکان را می دهد تا وظایفMapReduce را که از طریق R expression به خوبی در محیط R کار می کنند، توسعه یا طراحی کند.تکنیک به کار رفته در پکیج شاملRecombine و Divide است که تحلیل داده‌ها را امکان پذیر می کند. ادغام R در MapReduce یک تغییر قابل تبدیل است و به تحلیلگر اجازه می دهد با انعطاف پذیری و توان کامل، Maps و Reduces را مشخص کند.· ORCH:ORCHبه معنای اتصال Oracle R برای Hadoop است. این بسته‌های R برای ارائه روش‌های تحلیل پیش بینی کننده که به زبان برنامه نویسی جاوا یا R نوشته شده‌اند، ایده آل هستند. می‌تواند به عنوان Hadoop MapReduce jobs شناخته شود که برای داده‌های موجود در فایل‌های HDFS اعمال می‌شود.علاوه بر این روش‌ها، ORCH همچنین به کاربران این امکان را می‌دهد که با محیط R لوکال، جداول Hive و زیرساخت Apache Hadoop و غیره کار کنند. همچنین ORCH چندین الگوریتم را در بر می گیرد، شبکه های عصبی برای پیش بینی، فاکتور‌گیری ماتریس غیر منفی، دسته بندی (clustering) و غیره. به دنبال زبان دیگری نباشید، R همیشه گزینه مورد نظر برای تحلیل داده خواهد بود.

معرفی مدل رگرسیون چندگانه

ایردا - IRDA — Sat, 22 May 2021 14:16:14 +0430

معرفی مدل رگرسیون چندگانه و بررسی مفروضات آن در نرم افزار R:رگرسیون در آمار به عنوان ابزاری برای پیش‌بینی مقدار یک متغیر وابسته از روی مقادیر یک یا چند متغیر مستقل، مورد استفاده قرار می‌گیرد. کاربردهای رگرسیون متعدد است و تقریباً در هر زمینه‌ای از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی و علوم اجتماعی صورت می‌پذیرد.متغیر وابسته را معمولاً با y و متغیرهای مستقل را با x نمایش می‌دهند. به طور کلی، اهداف تحلیل رگرسیون عبارت اند از:توصیف داده‌ها: معمولاً محققان برای خلاصه کردن و توصیف داده‌ها، از معادلات ریاضی استفاده می‌کنند. تحلیل رگرسیونی برای گسترش چنین معادلاتی بسیار کاربردی و مؤثر است و چه بسا ابزاری بسیار مناسب‌تر از جدول و حتی نمودار خواهد بود.برآورد پارامترها: اهمیت نسبی هر یک از متغیرهای مستقل در پیش‌بینی متغیر وابسته از طریق برآورد ضرایب آنها با استفاده از مدل‌های رگرسیونی صورت می‌گیرد.پیشگویی: از کاربردهای مهم مدل‌های رگرسیونی، پیشگویی متغیر وابسته با توجه به متغیرهای مستقل است. در حقیقت، پیشگویی، در شاخه‌های بسیار کاربردی از آمار، مانند داده‌کاوی، مورد استفاده قرار می‌گیرد. به عنوان یک مثال کاربردی، می‌توان با استفاده از اطلاعاتی مانند داشتن کارت اعتباری، جنسیت، سن و میزان درآمد سالانه افراد، پیش بینی کرد که آیا این فرد از بیمه‌ی عمر استفاده می‌کند یا خیر.کنترل: مدل‌های رگرسیونی ممکن است به منظور کنترل نیز مورد استفاده قرار گیرند. در واقع، با استفاده از مدل رگرسیون چندگانه، می‌توان اثر منحصر به فرد یک یا چند متغیر مستقل را پس از کنترل یک یا چند متغیر کمکی مورد بررسی قرار داد.اگر در مدل رگرسیونی حضور بیش از یک متغیر مستقل معنادار باشد، در این صورت، مدل را مدل رگرسیونی چندگانه می‌نامیم. در حالت کلی متغیر پاسخ y ممکن است به k متغیر مستقل بستگی داشته باشد. بنابراین مدلیک مدل رگرسیون چندگانه خطی با k متغیر مستقل نامیده می‌شود. پارامترهایضرایب رگرسیون نامیده می‌شوند. این مدل یک ابرصفحه در فضای k بُعدی از متغیرهای رگرسیونی x است. پارامتر βj نشان دهنده تغییرات مورد انتظار متغیر پاسخ به ازای یک واحد تغییر در xj است، وقتی که همه متغیرهای رگرسیونی دیگر، ثابت باشند. به همین جهت پارامترهایضرایب جزئی رگرسیون نامیده می‌شوند. همچنین ε عبارت خطا یا «مانده» نام دارد که اختلاف بین مقدار مشاهده شده و مقدار برازش شده‌ی متغیر وابسته را نشان می‌دهد:فرض می‌شود که خطاها، «متغیر تصادفی» (Random Variable) با میانگین صفر و انحراف استاندارد σ هستند و به علاوه مقادیر آنها ناهمبسته‌اند، یعنی اینکه مقدار یک خطا، بستگی به مقدار هر خطای دیگر ندارد. همچنین در فرضیات این مدل، تغییرات خطا، مستقل از متغیر x‌ است.برآورد پارامترهای مدل:روش‌های مختلفی برای تعریف خطا و حداقل کردن آن وجود دارد. معیاری که در مدل رگرسیون چندگانه به کار می‌رود، کمینه کردن مجموع مربعات خطا است. فرض کنید n (بزرگتر از k) مشاهده در دسترس است.در این صورت با توجه به مدل رگرسیون چندگانه، تابع مجموع مربعات خطا به صورت زیر است:سپس برای برآورد ضرایب رگرسیونی، تابع S را نسبت بهمینیمم می‌کنیم. به این منظور، مشتق تابع S نسبت به ضرایب رگرسیونی را برابر صفر قرار می‌دهیم:در این صورت p=k+1 معادله‌ی نرمال برای برآورد k+1 ضریب رگرسیونیوجود دارد.همچنین برای سادگی بیشتر، می‌توان این ضرایب را با استفاده از فرم ماتریسی مدل رگرسیونی چندگانه، برآورد کرد. فرم ماتریسی مدل به صورت زیر خواهد بود:که در آن y یک بردار n*1 از مشاهدات و X یک ماتریس n*p از سطوح متغیرهای رگرسیونی، β یک بردار p*1 از ضرایب رگرسیون و ε یک بردار n*1 از خطاهای تصادفی است. در این صورت تابع S به فرماست و همچنین برآورد بردار β به صورتخواهد بود.مفروضات مدل رگرسیونی چندگانه:رابطه بین x و y خطی است.جملات خطا ( ε ) مستقل و دارای توزیع نرمال با میانگین صفر و واریانس ثابت می‌باشند .لازم به ذکر است به دلیل نرمال و ناهمبسته بودن جملات خطا ،می‌توان نتیجه گرفت که خطاها، متغیرهای تصادفی مستقل هستند.یک مثال کاربردی در نرم افزار R:در این بخش از دیتاست "marketing" که در بسته‌ی "datarium" از نرم افزار R قرار دارد، استفاده خواهیم کرد. در این مجموعه داده، تأثیر سه رسانه تبلیغاتی یوتیوب، فیس بوک و روزنامه بر میزان فروش یک شرکت، مورد بررسی قرار گرفته است. در واقع از مقدار هزینه شده در این رسانه‌های تبلیغاتی در پیش‌بینی واحدهای فروش، استفاده می‌شود. همچنین مشاهدات مربوط به میزان فروش، پس از ۲۰۰ بار تکرار با استفاده از بودجه‌های مختلف برای تبلیغات (به هزار دلار)، جمع آوری شده‌اند.برای تحلیل این دیتاست، ابتدا بسته ی "datarium" را به صورت زیر در نرم افزار R، نصب می‌کنیم:سپس دیتاست "marketing" را بارگذاری خواهیم کرد:به منظور بررسی اثرات اصلی و متقابل سه متغير مستقل شامل یوتیوب (youtube)، فیس بوک (facebook) و روزنامه (newspaper) بر متغير وابسته میزان فروش شرکت (sales) از يك تابع خطي OLS (که مخفف عبارت "ordinary least squares" به معنای «ﻛﻤﺘﺮﻳﻦ ﺗﻮان‌های دوم ﻋﺎدي») استفاده می‌کنیم. به منظور برازش خط رگرسيوني نيز از دستور lm بهره گرفته شد.در خروجی دستور summary برای مدل کامل اطلاعات زیر مشاهده می‌شود:برآورد (Estimate): مقدار برآورد ضرایب رگرسیونی در مدل را گزارش می‌کند.خطای استاندارد (Std. Error): خطای استاندارد برآورد ضرایب رگرسیونی را گزارش می‌دهد که نشان دهنده‌ی دقت ضرایب است. هرچه خطای استاندارد بزرگتر باشد، اطمینان در مورد برآورد، کمتر است.آماره‌ی t-student : این آماره از طریق تقسیم برآورد ضرایب (ستون دوم) بر خطای استاندارد (ستون سوم) به دست می‌آید.p-مقدار: p-مقدار متناظر با آماره‌ی t است. هرچه p-مقدار کوچکتر باشد، معناداری برآورد ضرایب بیشتر است و برای مثال اگر می‌خواهیم معنی‌داری را با اطمینان ۹۵ درصد بررسی کنیم در صورتی که p-مقدار از ۰.۰۵ کمتر باشد فرض برابری ضرایب با صفر رد شده و ضریب مورد نظر معنی‌دار است.بنابراین با توجه به خروجی نرم افزار، می‌توان نتیجه گرفت که بودجه تبلیغاتی هزینه شده در رسانه‌ی یوتیوب بر میزان فروش شرکت مورد بررسی، تاثیرگذار است. زیرا مقدار p-value که در جدول فوق نشان داده شده است، کمتر از ۰/۰۵ است. همچنین اثر متقابل بین یوتیوب و فیس‌بوک نیز تاثیر معناداری بر میزان فروش شرکت دارد. مقادیر R-squared و Adjusted R-squared به منظور بررسی مناسبت مدل، در خروجی دستور فوق محاسبه شده‌اند. این کمیت‌ها، واریانس یا پراکندگی داده‌ها را که توسط مدل شناسایی شده، بیان می‌کنند و بزرگ بودن مقدار آنها (نزدیک به ۱)، دلیل بر مناسب بودن مدل است. در اینجا مقدار Adjusted R-squared برای مدل فوق برابر با 0.97 برآورد شده است.در ادامه به منظور بررسی مفروضات مدل رگرسیون خطی چندگانه، از تابع plot در نرم افزار R استفاده می‌کنیم. این تابع، چهار نمودار در خروجی ارائه می‌دهد:نمودار باقی‌مانده در مقابل مقدارهای پیش‌بینی شده.نمودار Q-Q plot برای بررسی نرمال بودن مانده‌ها که در آن چندک‌های توزیع نرمال در مقابل مانده‌های استاندارد شده، ترسیم می‌شود.ثابت بودن واریانس باقی‌مانده‌ها با رسم مقدارهای پیش‌بینی شده در مقابل ریشه دوم باقی‌مانده‌های استاندارد.رسم نمودار باقی‌مانده در مقابل میزان حساسیت مشاهدات که نقش هر مشاهده در صحت مدل رگرسیونی را نشان می‌دهد.اکنون مفروضات مدل را با استفاده از خروجی تابع plot مورد تحلیل قرار م‌یدهیم:نمودار مقدارهای برازش شده در برابر مانده‌ها (Residuals vs Fitted):با توجه به روند تصادفی مشاهدات در این نمودار(داده‌ها بدون هیچ الگویی در نمودار پراکنده هستند)، مشخص است که مانده‌ها به طور تصادفی، حول میانگین صفر تغییر می‌کنند. پس فرض تصادفی بودن و صفر بودن میانگین مانده‌ها، تایید می‌شود.نمودار چندک‌های توزیع نرمال (Normal Q-Q):در این نمودار، چندک‌های توزیع نرمال با چندک‌های حاصل از مانده‌های استاندارد شده ترسیم شده است. اگر توزیع مانده‌ها مانند توزیع متغیر تصادفی نرمال باشد، نقطه‌های ترسیمی باید روی یک خط راست قرار گرفته باشند. همانطور که مشخص است برخی از مشاهدات انحراف جزئی از نیمساز ربع اول و سوم را گزارش می‌دهند. در نتیجه برای بررسی دقیق‌تر از آزمون شاپیرو استفاده می‌کنیم:با توجه به p-value ، فرض صفر این آزمون یعنی نرمال بودن مانده ها در سطح معناداری 0.01 پذیرفته می‌شود.نمودار مقیاس-مکان (Scale-Location):برای بررسی فرض ثابت بودن واریانس مانده‌ها، از این نمودار استفاده می‌شود. اگر مشاهدات در این نمودار، به صورتی باشند که شکل یک قیف افقی را نمایش دهند، مشخص است که واریانس مانده‌ها با افزایش مقادیر برازش شده، افزایش می‌یابد و فرض ثبات واریانس برای مانده‌ها را نمی‌توان تایید کرد. همچنین برای بررسی دقیق تر می‌توان از تبدیل باکس کاکس به صورت زیر استفاده کرد:ابا توجه به بازه اطمینانی که باکس کاکس برای lambda بدست آورده، چون 1 در این بازه نمی‌افتد، ثبات واریانس در این مدل برای مانده‌ها وجود ندارد. برای رفع این مشکل از تبدیل باکس کاکس استفاده خواهیم کرد.با توجه به خروجی نرم افزار برای تبدیل باکس کاکس، اگر متغیر وابسته sales را به توان دوم برسانیم و سپس مدل را برازش دهیم، در این صورت ثبات واریانس حاصل خواهد شد. در نتیجه مدل جدید به صورت زیر برازش داده می‌شود:در این مدل اثرات اصلی متغیرهای مستقل یوتیوب و فیس بوک و همچنین اثر متقابل این دو متغیر بر میزان فروش شرکت تاثیر معنادار دارند. زیرا مقدار p-value که در جدول فوق نشان داده شده است، کمتر از ۰/۰۵ است.همچنین چهار نمودار فوق را برای مدل جدید ترسیم می‌کنیم:در نتیجه با توجه به خروجی نرم افزار، فرض تصادفی بودن و نرمال بودن مانده‌ها و همچنین ثبات واریانس برای مدل جدید برقرار است.نمودار مانده‌ها در برابر مشاهدات نافذ (Residuals vs Leverage):در این نمودار تحلیل حساسیت مورد بررسی قرار می‌گیرد. همچنین برای سنجش فاصله بین نقطه‌ها از فاصله کوک (Cook’s distance) استفاده شده است. در حقیقت در این نمودار به دنبال مشاهدات دورافتاده هستیم که باید از مدل حذف شوند. داده دور افتاده (داده پرت یا داده نویزی هم گفته می‌شود) داده‌هایی هستند که نسبت به سایر داده‌های در دست بررسی، تفاوت قابل ملاحظه‌ای داشته باشد و همچنین رفتار متفاوتی ارائه کنند. با توجه به نمودار فوق داده‌ای که فاصله ی خیلی زیاد از دیگر مشاهدات داشته باشد، مشاهده نمی‌گردد.به این ترتیب در این مقاله مفهوم رگرسیون خطی چندگانه، برآورد ضرایب رگرسیونی و همچنین بررسی مفروضات این مدل را با استفاده از یک مثال کاربردی در نرم افزار R، بررسی و تحلیل کردیم.ایردا مرجع تخصصی آمار ایران

۵ معیار ارزیابی دسته‌بندی که هر کارشناس علوم داده باید بداند.

ایردا - IRDA — Sun, 16 May 2021 15:45:27 +0430

(و این که چه زمانی باید از آن‌ها استفاده کرد ؟)چرا می‌خواهیم بهینه‌سازی کنیم ؟بیشتر کسب و کار ها در پاسخ به این سوال ساده موفق نیستند .مشکل هر کسب و کاری با دیگری فرق دارد و به همین دلیل بهینه‌سازی متفاوتی نیاز دارد. همه‌ی ما مدل طبقه‌بندی را درست کرده‌ایم و در کنار آن وقت زیادی را صرف افزایش دقت مدل خود کردیم .اما آیا واقعا دقت را می‌توان به عنوان یک معیار مناسب برای تعیین عملکرد مدل دانست ؟چه می‌شد اگر تعداد سیارک‌هایی به زمین می‌خورند را پیش‌بینی کنیم . اگر مرتبا بگوییم صفر این مدل در ۹۹٪ مواقع درست خواهد بود. می‌توان گفت این مدل منطقی است اما به هیچ وجهی دارای ارزش نیست .در چنین مواردی باید چه کاری انجام داد ؟طراحی یک پروژه علوم داده بسیار مهم تر از مدل‌سازی است .این مقاله درباره‌ی معیار‌های مختلف ارزیابی مدل ، چگونگی و زمان استفاده از آن‌هاست .صحت ( Accuracy ) ، دقت ( Precision ) و بازخوانی ( Recall )مثبت صحیح (TP , True Positive) : وقتی نمونه عضو دسته مثبت باشد و به عنوان عضو همین دسته تشخیص داده شود .منفی کاذب (FN , False Negative) : وقتی نمونه عضو دسته مثبت باشد و به عنوان عضو دسته منفی تشخیص داده شود .منفی صحیح (TN , True Negative) :‌ وقتی نمونه عضو دسته منفی باشد و به عنوان عضو همین دسته تشخیص داده شود .مثبت کاذب (FP , False Positive) : وقتی نمونه عضو دسته منفی باشد و به عنوان عضو دسته مثبت تشخیص داده شود .صحت ( Accuracy )اساسی‌ترین معیار اندازه‌گیری کیفیت یک دسته بند است . درک أن بسیار ساده است و به راحتی برای مشکل طبقه بندی باینری یا دو حالته و چند حالته مناسب است .Accuracy = ( TP + TN ) / (TP + TN + FP + FN)صحت یعنی نسبت نتایج واقعی به کل موارد بررسی شده .چه موقع باید از صحت استفاده کرد ؟صحت یک انتخاب معتبر ارزیابی برای مشکلات طبقه بندی است که کاملا متعادل است و دارای انحراف یا عدم تعادل طبقاتی نباشد .معایب:فرض کنید دسته یا کلاس هدف ما بسیار پراکنده است . آیا صحت را به عنوان معیار عملکرد خود استفاده می‌کنیم ؟ اگر پیش‌بینی کنیم یک سیارک به زمین برخورد خواهد کرد چطور ؟ فقط باید گفت نه . و این جواب ۹۹٪ دقیق خواهد بود . در نتیجه این مدل می‌تواند منطقی و دقیق باشد اما ارزشمند نیست .دقت ( Precision )معیار دقت به سوال زیر پاسخ می‌دهد .چه نسبتی از مثبت پیش‌بینی شده واقعا مثبت است ؟Precision = (TP) / (TP + FP)در مساله پیش‌بینی برخورد سیارک، هرگز یک مثبت واقعی را پیش‌بینی نکردیم . و بنابرایندقت برابر صفر است.چه زمانی باید از معیار دقت استفاده کرد ؟هرگاه بخواهیم از پیش‌بینی خود بسیار مطمئن باشیم، دقت یک انتخاب مناسب در بین معیار‌های ارزیابی است برای مثال :‌اگر در حال ساخت سیستمی باشیم که پیش‌بینی کند که باید حد اعتباری یک حساب خاص را کاهش داد، می‌خواهیم در مورد پیش بینی خود بسیار مطمئن باشیم وگرنه این کار منجر به کاهش رضایت مشتری خواهد شد .معایب:این که این معیار بسیار بالا باشد یعنی بسیار مطمئن باشیم ، منجر به این امر می‌شود که بسیاری از متخلفان اعتباری را بدون بررسی باقی خواهند ماند و از این رو منجر به ضرر خواهد شد .بازخوانی (Recall)یکی دیگر از معیارهای بسیار مفید بازخوانی است که به سوالی متفاوت پاسخ می‌دهد .چه نسبتی از مثبت ها به درستی به عنوان مثبت دسته‌بندی شده‌اند ؟Recall = (TP) / (TP + FN)در مساله پیش‌بینی برخورد سیارک از آنجایی که هیچ مثبتی را پیش‌بینی نکردیم، Recall برابر صفر است.چه زمانی باید از بازخوانی استفاده کرد ؟یادآوری : هنگامی که می‌خواهیم تا آنجا که ممکن است موارد مثبت را به دست آوریم ، بازخوانی یه انتخاب درست از معیارهای ارزیابی است .برای مثال:اگر ما در حال ساخت سیستمی باشیم که مبتلا بودن یا نبودن به سرطان را پیش‌بینی کند ، می‌خواهیم این بیماری را جدی بگیریم حتی اگر باز هم خیلی مطمئن نباشیم .معایب:اگر همه‌ی پیش‌بینی ها 1 باشند ، بازخوانی نیز 1 خواهد بود .و به همین ترتیب بر اساس ایده ترکیب و مبادله دقت در مقابل بازخوانی ،‌ معیار F1 بدست خواهد آمد .امتیاز F1نمره F1 عددی بین 0 تا 1 است و حاصل از میانگین هارمونیک دقت و بازخوانی است .اکنون یک مسئله ی پیش بینی باینری را مورد بررسی قرار خواهیم داد.میخواهیم پیش‌بینی کنیم که آیا یک سیارک به زمین برخورد خواهد کرد یا نه .بنابراین اگر برای کل مجموعه‌ی آموزشی خود قرار دهیم “نه” ،دقت ما برابر با صفر خواهد بود .در نتیجه اگر معیار F1 برابر با 0 خواهد بود و بنابراین می‌دانیم که دسته‌بندی که دارای صحت 99% است ، اساسا برای مورد ما بی‌ارزش است.چه زمانی استفاده کنیم ؟می‌خواهیم مدلی داشته باشیم که هر دو معیار دقت و بازخوانی آن خوب باشد .به زبان ساده F1 تعادل بین دقت و بازخوانی را برای دسته بند شما حفظ می‌کند .اگردقت کم باشد ،‌ F1 کم است . و اگر بازخوانی کم باشد ، باز هم F1 کم است .اگر یک بازرس پلیس باشید و بخواهید مجرمان را بگیرید ، می‌خواهید مطمئن باشید که شخص دستگیر شده یک مجرم است (دقت یا Precision) و همچنین می‌خواهید تا آنجا که ممکن است بیشتر این مجرمان را دستگیر کنید ( بازخوانی یا Recall ) .معیار F1 این معادله را مدیریت می‌کند .چگونه استفاده کنیم ؟شما می‌توانید F1 را برای پیش‌بینی مسائل باینری به صورت زیر محاسبه کنید .این تابعی‌ست که می‌توان از آن برای بدست آوردن بهترین آستانه برای به حداکثر رساندن نمره F1 در پیش‌بینی های باینری یا دو حالته ، استفاده کرد. این تابع از طریق مقادیر آستانه احتمالی تکرار می‌شود تا بهترین F1 را بدست آورد .معایب:مشکل اصلی F1 این است که هنگام محاسبه میانگین به دقت و بازخوانی وزن یکسانی را اختصاص می‌دهد.برای حل این مشکل می‌توانیم یک F1 وزن دار به صورت زیر درست کنیم که در آن بتا تعادل معادله بین بازخوانی و دقت را مدیریت کند .لگاریتم تابع زیان / دوحالتی آنتروپی متقاطعلگاریتم تابع زیان معیاری کاملا مناسب برای ارزیابی دسته‌بندی‌های دو حالتی است و گاهی اوقات برای بهینه‌سازی رگرسیون لجستیک و شبکه عصبی استفاده می‌شود .یک مثال لگاریتم تابع زیان دوحالتی فرمول زیر است که در آن p ، احتمال پیش‌بینی ۱ است . همانطور که مشاهده می‌کنید لگاریتم تابع زیان در حال کاهش است با این که به طور منصفانه در مورد پیش‌بینی ۱ مطمئن هستیم و برچسب واقعی هم ۱ است . چه زمانی استفاده کنیم ؟هنگامی که خروجی یک دسته‌بندی به صورت احتمالات پیش‌بینی است . لگاریتم تابع زیان عدم اطمینان پیش‌بینی را بر اساس تفاوت آن با برچسب واقعی در نظر می‌گیرد . این کار به ما دید عمیق‌تری نسبت به عملکرد مدل خود می‌دهد . به طور کلی مینیمم کردن لگاریتم تابع زیان صحت بیشتری برای دسته‌بندی می‌دهد .چگونه استفاده کنیم ؟معایباین تابع در مقابل مواردی که مجموعه داده ها نامتعادل هستند ، تایید ناپذیر است . شما ممکن است مجبور شوید دسته‌ی وزن‌دار را معرفی کنید تا خطا‌های اقلیت را بیشتر جریمه کنید یا ممکن است پس از تعادل مجموعه داده‌های خود از این مورد استفاده کنید .آنتروپی متقاطع رسته ای:لگاریتم تابع زیان به مسئله دسته‌بندی چند‌کلاسه تعمیم پیدا می‌کند . دسته‌بند در تنظیم موارد چند کلاسه باید در تمامی مثال‌ها به هر کلاس یک احتمال را اختصاص دهد . اگر N نمونه متعلق به M دسته باشد ، آنتروپی متقاطع رسته ای مجموع مقادیر ( -y log p ) می‌باشد :Yij مقدار یک را اختیار میکند اگر نمونه iام به دسته‌ی jام متعلق باشد . در غیر این صورت مقدار صفر را می‌گیرد .( pij ) احتمال این است که دسته‌بند ما پیش‌بینی کند نمونه i متعلق به دسته‌ی j است .چه زمانی استفاده کنیم ؟زمانی که خروجی یک دسته‌بند احتمالات پیش‌بینی چند کلاسه است. به طور کلی از آنتروپی متقاطع رسته ای برای موارد شبکه عصبی استفاده می‌کنیم. در کل با به حداقل رساندن آنتروپی متقاطع رسته ای ، به صحت بزرگتری دست پیدا خواهیم کرد .چگونه استفاده کنیم ؟معایبدر صورت متعادل نبودن داده‌ها تاییدناپذیر است .AUCAUCناحیه زیر منحنی ROC است .AUC ROC نشان می‌دهد که احتمال دسته‌های مثبت از دسته‌های منفی تا چه حد مجزا است .منحنی ROC چیست ؟ما احتمالات را از دسته‌بندی خودمان بدست می‌آوریم . ما می‌توانیم از مقادیر مختلف آستانه استفاده کنیم تا حساسیت (TPR) و ( نرخ مثبت غلط) ( FPR ) خود را بر روی درمان به صورت پلات ترسیم کنیم که به آن منحنی ROC می گوییم .زمانی که نرخ مثبت واقعی ( TPR ) فقط نسبتی واقعی است که ما با استفاده از الگوریتم خودمان ثبت کرده‌ایم .Sensitivty = TPR(True Positive Rate)= Recall = TP/(TP+FN)و نرخ مثبت غلط یا ( FPR ) فقط نسبتی نادرست است که ما با استفاده از الگوریتم خودمان ثبت کرده‌ایم.1- Specificity = FPR(False Positive Rate)= FP/(TN+FP)منحنی ROC :در اینجا می‌توانیم از منحنی ROC برای تصمیم گرفتن در مورد مقدار آستانه استفاده کنیم .مقدار آستانه هم به این بستگی دارد که قبل‌تر از دسته‌بند چطور استفاده شده است .اگر یک برنامه دسته‌بندی سرطان داشته باشید ، نمی‌خواهید مقدار آستانه به بزرگی ۰.۵ باشد . اگر یک بیمار ۰.۳ احتمال سرطان دارد ، تمایل دارید او را به عنوان ۱ دسته‌بندی کنید .در غیر این صورت در برنامه‌ای برای محدودیت گذاشتن برای کارت‌های اعتباری، نمی‌خواهید مقدار آستانه کمتر از ۰.۵ باشد . شما نگران این هستید که کم کردن حد کارت اعتباری ، تاثیر منفی بر رضایت مشتری داشته باشد .چه زمانی استفاده کنیم ؟AUC یک مقیاس ثابت است . این مقیاس رتبه‌بندی پیش‌بینی ها را به جای مقادیر مطلق آن‌ها اندازه‌گیری می‌کند . پس به عنوان مثال ، شما به عنوان یک بازاریاب می‌خواهید یک لیست از کاربرانی که به یک کمپین بازاریابی پاسخ می‌دهند ، پیدا کنید . در اینجا AUC یک معیار مناسب است زیرا پیش بینی های رتبه بندی شده بر اساس احتمال ، ترتیبی است که در آن شما لیستی از کاربران را برای ارسال کمپین بازاریابی ایجاد خواهید کرد.چگونه استفاده کنیم ؟معایبگاهی اوقات به احتمال خروجی های به خوبی کالیبره شده از مدل خود نیازمندیم و AUC پاسخگوی این نیاز نیست .نتیجه گیری:یک گام مهم در ایجاد خط تولید یادگیری ماشین خود ،ارزیابی مدل های مختلف در برابر یکدیگر است. انتخاب نامناسب یک معیار ارزیابی می تواند کل سیستم را خراب کند.بنابراین ، همیشه مراقب پیش بینی خود و این که انتخاب معیار ارزیابی ممکن است پیش بینی های نهایی شما را تحت تأثیر یا تغییر قرار دهد ، باشید .همچنین ، انتخاب معیار ارزیابی باید با هدف تجاری مطابقت داشته باشد و از این رو کمی وابسته به تفکر شخصی هر فرد است و حالا می توانید به معیار ارزیابی خود برسید.

۱۱ کتابخانه برتر پایتون که باید در مورد علوم داده بدانید

ایردا - IRDA — Sun, 09 May 2021 16:57:29 +0430

Mikhail RaevskiyAug 18, 2020یکی از دلایل ارزشمند بودن زبان پایتون برای علوم داده وجود مجموعه‌های عظیم از کتابخانه‌های تحلیل و تصویرسازی داده‌ است . در این مقاله به شرح محبوب‌ترین‌ها خواهیم پرداخت .TensorFlowفریم ورک ( چهارچوب ) یادگیری عمیق TensorFlow که توسط گوگل توسعه داده شده است ، بدون شک محبوب‌ترین ابزار برای آموزش شبکه عصبی است . گوگل به طور فعال از چهارچوب خاص خود در خدمات گسترده‌ای مانند gmail و google Translate استفاده می‌کند . همچنین TensorFlow توسط برند‌هایی مانند Dropbox ، Xiaomi ، Airbnb ، Uber و ... استفاده می‌شود .با TensorFlow می‌توانید قسمت‌های جداگانه یک شبکه عصبی را تصویرسازی تصویر سازی کنید.ماژول‌های TensorFlow می‌توانند به صورت مستقل ساخته شوند .TensorFlow به شما این امکان را می‌دهد که شبکه عصبی را هم بر روی CPU و هم بر روی GPU آموزش دهید .یک تیم بزرگ همواره در تلاش هستند تا هم ویژگی ها را با ثبات اثبات کنند و هم ویژگی‌های جدید به آن اضافه کنند .Scikit-Learnیک کتابخانه محبوب یادگیری ماشین است که در زبان‌های پایتون ، C و C++ نوشته شده است . با یک انتخاب مشترک برای حل مشکلات کلاسیک یادگیری ماشین که هم در سیستم‌های صنعتی و هم در تحقیقات علمی استفاده می‌شود .دارای طیف گسترده‌ای از الگوریتم‌های یادگیری تحت نظارت و بدون نظارت .Scikit-Learn به طور تخصصی در الگوریتم‌های یادگیری ماشین حضور دارد . وظایف کتابخانه بارگیری ، پردازش ، دستکاری داده‌ها و تصویرسازی را شامل نمی‌شود .دارای جامعه‌ی بزرگ و مستندات دقیقNumPyNumPy یکی از محبوب ترین کتابخانه های پایتون برای یادگیری ماشین است. TensorFlow و سایر کتابخانه ها از آن برای اجرای عملیات روی آرایه‌های چند بعدی به صورت داخلی استفاده می‌کنند.الگوریتم های ریاضی اجرا شده در زبان های گزاره‌ای و تفسیر شده (پایتون) اکثرا بسیار کندتر از آن‌هایی است که در زبان های کامپایل شده و محاسباتی اجرا می شوند. کتابخانه NumPy پیاده سازی الگوریتم محاسباتی بهینه شده برای کار با آرایه های چند بعدی را فراهم می کند.Kerasاگر شما نیاز دارید که با سرعت و به راحتی یک مدل یادگیری عمیق را جمع کنید ، Keras یک انتخاب عالی است . P یک الحاقیه ( add-on ) در چهارچوب TensorFlow و Theano است. هدف این کتابخانه کار عملیاتی با شبکه های یادگیری عمیق است ، در حالی که به صورت فشرده ، مدولار و قابل توسعه طراحی شده است . Keras جدا از کتابخانه محاسبات علمی که به عنوان محاسبات بک‌اند استفاده می‌شود ، یک مجموعه انتزاعی بصری با سطح بالا را فراهم کرده که ساخت شبکه های عصبی را آسان می‌کند .هم روی CPU و هم GPU به خوبی کار می‌کند.تقریباً از تمام مدل‌های شبکه عصبی پشتیبانی می‌کند که می‌توانند برای ساخت مدل‌های پیچیده‌تر ترکیب شوند.این پلتفرم به طور کامل در پایتون نوشته شده است ، یعنی می توانید از ابزارهای دیباگ استاندارد استفاده کنید.PyTorchیکی از بهترین گزینه‌ها برای کار با شبکه‌های عصبی است که رقیبی دیرینه برایTensorFlow است. در درجه اول توسط گروه هوش مصنوعی فیس بوک توسعه یافته است. PyTorch به عنوان چارچوب یادگیری عمیق در شبکه خصمانه مولد استفاده شد.پشتیبانی ساده از GPUدر حالت GPU ، PyTorch بهینه سازی با کیفیت بالا را فراهم می‌سکند ، یک محیط زمان اجرا ( runtime ) با رابط برنامه نویسی کاربردی در ++ C وجود دارد.پشتیبانی از اجرای محاسبات ناهمزمان.دسترسی مستقیم به فریم‌ورک‌های ( چهارچوب نرم‌افزاری ) مبتنی بر ONNX ، ارائه دهنده ها و زمان اجرا ( runtimes ).LightGBMچارچوبی برای تقویت کردن گرادیان است ، یکی از محبوب ترین الگوریتم ها در رقابت ها و چالش‌های Kaggle . افزایش گرادیان یک روش یادگیری ماشین برای طبقه بندی و مشکلات رگرسیون است که یک مدل پیش بینی را در قالب مجموعه‌ای از مدل های پیش بینی (معمولاً درختان تصمیم گیری ) می سازد.سرعت یادگیری سریع و کارایی بالا.مصرف حافظه کمپشتیبانی از محاسبات GPU و موازیمی توانید با مقدار بزرگی از داده‌ها کار کنید.Pandasکتابخانه‌ای است که ساختارهای با سطح بالا را برای کار با داده‌ها و طیف وسیعی از ابزار برای تجزیه و تحلیل آن‌ها را فراهم می‌کند. این کتابخانه این امکان را می‌دهد بسیاری از دستورات پیچیده را با مقدار کمی کد اجرا کرد : مرتب سازی و گروه بندی داده ها ، کار با داده‌های از دست‌رفته ، سری‌های زمانی و ... همه داده ها در قالب جدول‌های داده ارائه می‌شوند.SciPySciPy برای محاسبات علمی و مهندسی از جمله کارهای مربوط به یادگیری ماشین ضروری است.ویژگی ها : جستجوی مینیمم‌ها و ماکسیمم‌های توابع ، محاسبه انتگرال ، پشتیبانی از توابع خاص ، پردازش سیگنال و تصویر ، حل معادلات دیفرانسیل و ...SciPy ارتباط نزدیک با NumPy دارد ، بنابراین از آرایه های NumPy به طور پیش فرض پشتیبانی می‌شود.کتابخانه SciPy می تواند با PyTables ، یک پایگاه داده سلسله مراتبی که برای مدیریت مقدار زیادی داده در پرونده های HDF5 طراحی شده است ، تعامل داشته باشد.Eli5یک کتابخانه پایتون برای تصویرسازی و دیباگ کردن مدل‌های یادگیری ماشین با استفاده از API Unified است. پشتیبانی داخلی برای چند فریم‌ورک یادگیری ماشین و کتابخانه ها وجود دارد مانند : Scikit-Learn ، Keras، LightGBM که در بالا ذکر شده‌اند ذکر شده در بالا، و همچنین Xgboost، lightning و CatBoost.NLTK (Natural Language Toolkit)یک پکیج کتابخانه ها و برنامه‌های پردازشی نمادین و آماری Natural Language است. این کتابخانه با مستندات گسترده‌ای همراه است ، از جمله یک کتاب توضیح مفاهیم درون وظایف پردازشی Natural Language که می‌تواند با این پکیج انجام شود.PillowPillow یک نسخه بهبود یافته کتابخانه تصویر PIL (کتابخانه‌ای در Python) است و از انواع انواع فایل ها پشتیبانی می‌کند مانند PDF، WebP، PCX، PNG، JPEG، GIF، PSD، WebP، PCX، GIF، IM، EPS، ICO، BMP و ...تعداد زیادی از ابزارهای فیلتر‌کردن را در خود دارد که می‌تواند برای وظایف بصری کامپیوتر مورد استفاده قرار گیرد.

آیا علم داده برای من مناسب است؟

ایردا - IRDA — Wed, 05 May 2021 09:43:27 +0430

چهارده سوال خودآزمایی که باید در نظر گرفته شوداین سوالات به شما کمک می کنند که آمادگی خود را برای چالش ها و فرصت ها قبل از ورود به حیطه علم داده ارزیابی کنید.نوشته شده توسط: Benjamin Obi Tayo18 نوامبر 2020در حال حاضر داده‌ها به عنوان یکی از سریعترین صنایع با رشد چند میلیارد دلاری محسوب می‌شوند. در نتیجه شرکت‌ها و سازمان‌ها در تلاش هستند تا حداکثر استفاده را از داده‌هایی که در حال حاضر دارند ببرند و همچنین بفهمند که به چه داده‌هایی نیاز دارند. علاوه بر این، نیاز مبرمی به دانشمندان داده برای درک اعداد و کشف راه حل‌های پنهان برای مشکلات پیچیده تجاری وجود دارد. اخیرا در مطالعه‌ای که با استفاده از ابزار جستجوی شغل درلینکدین (LinkedIn) انجام شده است، نشان داده شده است که اکثر مشاغل برتر در حوزه فناوری در سال 2020 مشاغلی هستند که نیاز به مهارت در علم داده دارند. با اینکه راه‌های زیادی برای ورود به حوزه علم داده وجود دارد؛ اما خودآموزی در مورد علم داده راهی عالی برای به دست آوردن مهارت ها و تجربیات مورد نیاز برای کسب برتری در این فیلد رقابتی است. قبل از ورود به حیطه علم داده مهم است که سوالات زیر را بررسی کنید تا دریابید که آیا علم داده واقعاً برای شما مناسب است یا خیر.1. علم داده چیست؟علم داده یک زمینه گسترده شامل چندین زیرمجموعه است؛ مانند تهیه و اکتشاف داده، نمایش و تبدیل داده‌ها ، تصویرسازی و ارائه داده‌ها، تحلیل پیش بینی، یادگیری ماشین، یادگیری عمیق، هوش مصنوعی و غیره.برای علم داده می توان سه سطح در نظر گرفت (سه سطح براساس مباحثی که در یکی از بهترین کتاب‌های درسی یادگیری ماشین وجود دارد:یادگیری ماشین پایتون نوشته شده توسط Raschka Sebastien ، نسخه سوم)، یعنی: سطح یک (سطح پایه)، سطح دو (سطح متوسط) و سطح سه (سطح پیشرفته). پیچیدگی مباحث از سطح یک به سه افزایش می یابد، همانطور که در شکل زیر نمایش داده شده است.شکل 1 – سه سطح دانش در علم داده2. یک دانشمند داده چه کاری انجام می‌دهد؟یک دانشمند داده از داده‎‌ها در جهت معنا بخشیدن و روشن شدن نتیجه‌ی یک کار استفاده می‌کند که در نهایت به تصمیم گیری یک موسسه یا سازمان می‌انجامد. شغل آنها بیشتر جمع آوری داده‌ها، تبدیل داده‌ها، مصورسازی و تحلیل داده‌ها، ساخت مدل‌های پیش‌بینی کننده و ارائه اقدامات اجرایی براساس یافته‌های حاصل از داده‌هاست.دانشمندان داده در بخش‌های مختلفی مانند مراقبت های بهداشتی، دولت، صنایع، انرژی، دانشگاه، فناوری، سرگرمی و غیره می‌توانند فعالیت کنند. دانشمندان داده بسیاری در مطرح‌ترین شرکت‌های دنیا مانند آمازون، گوگل، مایکروسافت، فیس بوک، لینکدین، توییتر، NetVix ، IBM و غیره، جذب و استخدام شده‌اند.3. آینده شغلی یک دانشمند داده چیست؟آینده شغلی دانشمندان داده بسیار روشن است. بر طبق پیش‌بینی IBM تقاضا برای دانشمند داده تا سال 2020 به 28% افزایش می‌یابد. اخیرا مطالعه‌ای که با استفاده از لینکدین انجام گرفته است نشان داد که اکثر مشاغل برتر فناوری در سال 2020 مشاغلی هستند که نیاز به مهارت در علم داده، تحلیل تجارت، یادگیری ماشین و پردازش یا رایانش ابری دارند (شکل 2).شکل 2 – تعداد شغل‌های مرتبط با علم داده در دنیا با استفاده از ابزار جستجوی شغل در لینکدین4. درآمد دانشمندان داده چقدر است؟میزان درآمد شما به عنوان دانشمند داده به سازمان یا شرکتی که در آن کار می کنید، سوابق تحصیلی و میزان تجربه کاریتان بستگی دارد. دانشمندان داده از 50،000 تا 250،000 دلار و به طور متوسط حدود 120،000 دلار درآمد دارند. در آینده این موضوع تحت عنوان مقاله‌ای با عنوان دانشمندان داده چقدر درآمد دارند؟، ("How Much do Data Scientists Make") به درآمد دانشمندان داده بیشتر پرداخته خواهد شد.5. چگونه می توانم برای یک شغل مرتبط با علم داده آماده شوم؟بیشتر برنامه‌های علم داده یا تحلیل تجارت به موارد زیر نیاز دارند:الف) سطح بالایی از توانایی تحلیلب) طرز فکر حل مسئلهج) مهارت برنامه نویسید) توانایی برقراری ارتباط موثره) توانایی کار تیمیاز این رو برای آماده شدن برای یک حرفه در علم داده بهتر است در زمینه‌هایی مانندعلوم (science)، فناوری ،مهندسی، ریاضیات، تجارت یا اقتصاد، لیسانس بگیرید.6. چه زبان‌های برنامه نویسی را باید یاد بگیریم؟اگر علاقه مند به یادگیری اصول علم داده هستید باید از یک جا شروع کنید. در لیست‌های مضحک زبان‌های برنامه نویسی در تبلیغات شغلی دانشمند داده غرق نشوید. اگرچه یادگیری هرچه بیشتر ابزار علم داده مهم است‌؛ اما توصیه می شود برای شروع فقط یک یا دو زبان برنامه نویسی را یاد بگیرید. پس از آنکه زمینه خوبی در علم داده پیدا کردید، می توانید زبان‌های مختلف برنامه نویسی یا سیستم عامل‌های مختلف را بیاموزید. طبق این مقاله، پایتون و R همچنان مهمترین زبان‌های برنامه نویسی در علم داده محسوب می شوند. توصیه می‌کنیم که با پایتون شروع کنید؛ زیرا در دانشگاه و صنعت از آن به عنوان زبان پیش فرض برای علم داده بیشتر استفاده می‌شود.7. چقدر زمان می‌برد تا به یک دانشمند داده تبدیل شویم؟اگر در یک رشته تحلیلی مانند فیزیک، ریاضیات، مهندسی، علوم کامپیوتر، اقتصاد یا آمار سابقه خوبی دارید، می توانید اصول علم داده را به خود یاد دهید. شما می توانید با گذراندن دوره های آنلاین رایگان از بستر هایی مانند edX ، Coursera یا DataCamp شروع کنید. سطح یک علم داده (شکل 1 را ببینید) در طی 6 تا 12 ماه قابل دستیابی است. سطح دو را می توان طی 7 تا 18 ماه و سطح سه را می توان طی 18 تا 48 ماه به دست آورد. مدت زمان مورد نیاز برای به دست آوردن سطح خاصی از توانایی به سابقه شما و مدت زمانی که برای یادگیری آن می‌گذارید بستگی دارد. به طور معمول افرادی که در یک رشته تحلیلی مانند فیزیک ، ریاضیات ، آمار ، علوم، مهندسی، حسابداری یا علوم کامپیوتر تجربه دارند در مقایسه با افراد دیگر، به زمان کمتری نیاز دارند.8. آیا آنقدر صبور خواهم بود که حتی وقتی پروژه‌ای به بن‌بست می‌خورد همچنان به کار خود ادامه دهم؟پروژه‌های علم داده می توانند بسیار طولانی و طاقت فرسا باشند. از حل مسئله گرفته تا ساخت مدل و کاربرد آن، بسته به مقیاس مشکل، روند کار ممکن است هفته‌ها و حتی ماه‌ها طول بکشد. به عنوان یک دانشمند داده فعال در این حوزه، برخورد با مشکلات راه در یک پروژه امری اجتناب ناپذیر است. صبرو استقامت از ویژگی‌های اساسی و لازم برای موفق شدن در شغل علم داده است.9. آیا من از تیزهوشی تجاری‌ (Business acumen) که نهایتا بتواند منجر به یک تصمیم گیری مهم برای سازمانم شود، برخوردار هستم ؟علم داده یک فیلد بسیار کاربردی است. به یاد داشته باشید که ممکن است در مدیریت داده‌ها و همچنین ساختن الگوریتم‌های یادگیری ماشین بسیار ماهر باشید؛ اما به عنوان یک دانشمند داده، کار در دنیای واقعی مهم است. هر مدل پیش بین باید نتایج معنی دار و قابل تفسیری از موقعیت‌ها در واقعیت ایجاد کند تا مفید واقع شود. نقش شما به عنوان یک دانشمند داده این است که از داده‌ها استفاده کنید که در نهایت بتوانید تصمیماتی مهم در جهت بهبود عملکرد شرکت و کمک به افزایش منافع شرکت، بگیرید.10. آیا مهارت ارتباطی خوبی دارم؟دانشمندان داده باید بتوانند ایده‌های خود را با سایر اعضای تیم یا با مدیران بازرگانی در سازمان‌های خود به نحو موثری به اشتراک بگذارند. مهارت‌های ارتباطی خوب این امکان را به وجود می‌آورد تا بتوانید اطلاعات بسیار فنی را به افرادی كه مفاهیم فنی در علم داده را بسیار كم یا اصلاً درك نمی كنند منتقل کنید. مهارت‌های ارتباطی خوب به تقویت فضای وحدت و اتحاد با سایر اعضای تیم مانند تحلیلگران داده، مهندسان داده، مهندسان رشته و غیره کمک می کند.11. آیا من همیشه باید در حال یادگیری باشم؟علم داده همیشه در حال پیشرفت است، بنابراین برای پذیرش و یادگیری فن آوری‌های جدید بایستی آماده باشید. یکی از راه‌های آشنایی با تحولات علم داده ارتباط با دیگر دانشمندان داده است. برخی از پلتفرم‌های موثر در این زمینه لینکدین، GitHub و medium می‌تواند باشد. این پلتفرم‌ها در به‌دست آوردن بروزترین اطلاعات در مورد آخرین پیشرفت‌های موجود در زمینه علم داده بسیار مفید هستند.12. آیا روحیه کار تیمی در من بالا است؟شما به عنوان یک دانشمند داده، در تیمی متشکل از تحلیلگران، مهندسان و مدیران داده کار خواهید کرد؛ بنابراین به مهارت های ارتباطی خوبی نیاز دارید. شما باید شنونده خوبی نیز باشید، مخصوصاً در مراحل اولیه توسعه پروژه که باید به مهندسان یا سایر پرسنل اعتماد کنید تا بتوانید یک پروژه علمی خوب را طراحی کنید.13. آیا من اصول اخلاقی را در این زمینه رعایت می‌کنم ؟رعایت اصول اخلاقی و حریم خصوصی در علم داده ضروری و واجب است. شما نیاز دارید مفاهیم پروژه خود را درک کنید. با خود صادق باشید. از دستکاری داده‌ها یا استفاده از روشی که عمدا باعث ایجاد اریبی (Bias) در نتایج می‌شود، اجتناب کنید. در تمامی مراحل از جمع آوری داده‌ها گرفته تا تحلیل داده‌ها، مدل سازی، آزمایش و کاربرد، اخلاق را رعایت کنید. همچنین در هنگام تفسیر داده‌ها، اخلاق مدار باشید.14. منابع آموزشی در زمینه علم داده چیست؟شاید شما به دنبال گرفتن مدرک کارشناسی ارشد در علم داده یا در تحلیل تجارت باشید، اگر شرایط به شما اجازه می دهد این کار را انجام دهید. اگر نمی‌توانید مدرک کارشناسی ارشد در این‌ رشته‌ها دریافت کنید، پس مسیر خودآموزی را شروع کنید. به طور کلی، اگر پیش زمینه جامعی در رشته‌هایی مانند فیزیک، ریاضیات، آمار، اقتصاد، مهندسی یا علوم رایانه داشته باشید و علاقه‌مند در زمینه علم داده هستید، بهترین راه این است که با دوره‌های آنلاین شروع کنید و پس از ایجاد یک پایه یا پیش زمینه، به دنبال راه‌های دیگری برای افزایش دانش و تخصص خود باشید. برای مثال مطالعه کتب درسی در این زمینه، مشارکت در پروژه‌های مرتبط و تعامل با دیگر افراد مشتاق در حوزه علم داده.خلاصه و نتیجه گیری:به طور خلاصه، در این مقاله 14 سوال متداول و مهم برای مشتاقان علم داده بررسی شد. مسیر علم داده برای هر فرد بر اساس سوابقش می‌تواند بسیار متفاوت باشد؛ اما در این مقاله راهکارهای متعددی برای آنها ارائه شد.دیگر منابع موجود در مورد علم داده / یادگیری ماشین:· تا چه حد دانش ریاضی در علم داده لازم است؟ (How Much Math do I need in Data Science?)· برنامه درسی علم داده (Data Science Curriculum)· پنج مدرک برتر برای ورود به علم داده (5 Best Degrees for Getting into Data Science)· مبانی نظری علم داده (Theoretical Foundations of Data Science)· برنامه ریزی پروژه یادگیری ماشین (Machine Learning Project Planning)· چگونه پروژه علم داده خود را سازماندهی کنیم؟ (How to Organize Your Data Science Project)· ابزارهای بهره وری برای پروژه‌های علم داده در مقیاس بزرگ (Productivity Tools for Large-scale Data Science Projects)· یک پورتفولیو در زمینه علم داده از یک رزومه بسیار ارزشمندتر است. (A Data Science Portfolio is More Valuable than a Resume)

چگونه سریعتر یاد بگیریم حتی اگر استعدادی در این زمینه نداشته باشیم؟

ایردا - IRDA — Mon, 26 Apr 2021 14:56:37 +0430

بزاری که باعث افزایش سرعت یادگیری شما می شود.نوشته شده توسط: Younes Henni11 نوامبر 2020برخی از افراد با بهبود سرعت یادگیری خود به شاهکارهایی به ظاهر غیرممکن دست یافتند. یک دانشجو رشته علوم کامپیوتر در دانشگاه MITبه جای چهار سال درس خواندن، در مدت زمان یک سال آن را به پایان رساند. فردی دیگر هنگام سفر به اروپا نُه زبان را آموخت.نکته عجیب این است که این افراد از بدو تولد خود اینگونه نبوده‌اند، آنها یاد گرفته‌اند که چگونه سریعتر یاد بگیرند. بله، پس شما هم می‌توانید سرعت یادگیری خود را افزایش دهید.اتمام دانشگاه در یک سال و صحبت به نُه زبان از موارد بسیار خارق العاده است. با این حال، افزایش سرعت یادگیری حتی به طور آهسته و کم کم، مزایای بسیار زیادی برای شما در طولانی مدت خواهد داشت.اگر چگونگی سریع آموختن را یاد بگیرید، شغل و کسب و کارتان سریع‌تر از دیگران رشد خواهد کرد. شما از رقبای خود پیشی می‌گیرید و حتی در راس جدول رقابت قرار خواهید گرفت.چگونه می‌توانید سریعتر یاد بگیرید؟ روشی موسوم به فرایادگیری/ یادگیری متا (meta-learning) در این زمینه می‌تواند بسیار کمک کننده باشد. اجازه دهید توضیح دهم.تکنیکی که به شما کمک می‌کند بتوانید هرچیزی را سریع یاد بگیرید:نکته اصلی: فقط با گذراندن دوره‌های مربوطه مستقیما وارد آنچه می‌خواهید یاد بگیرید، نشوید. بیشتر این دوره‌های آموزشی چه به صورت آنلاین و چه در مدرسه، برای نیازهای شخصی شما بهینه نشده‌اند.شما باید یک نقشه یادگیری طراحی کنید که شما را در رساندن هرچه سریعتر به نتیجه مورد نظرتان کمک کند. تکنیک ساختن نقشه‌های یادگیری به عنوان یادگیری متا شناخته می شود.اسکات یانگ (Scott Young) در کتاب خود در مورد یادگیری متا توضیح می‌دهد: یادگیری فوق العاده (Ultralearning). بسیاری از کارآفرینان مشهور مانند ایلان ماسک (Elon Musk) و گابریل وینبرگ (Gabriel Weinberg)از آن استفاده می کنند.برای مثال شما تصور کنید که باید صد بطری آب را با بیشترین سرعت ممکن تخلیه کنید. اگر ترفند تخلیه سریع (چرخاندن بطری) را ندانید، همان کاری را انجام خواهید داد که اکثر مردم انجام می‌دهند، بطری را درون ظرفشویی وارون کرده و فشارش می‌دهید، این یک اتلاف وقت عظیم است.یادگیری متا مانند ترفند تخلیه سریع بطری آب است، همه اینها در مورد روش‌هایی است که می تواند به شما در سرعت بخشیدن به یادگیری کمک کند.در اینجا یک استراتژی سه مرحله‌ای برای ساختن نقشه‌های یادگیری آورده شده است که به شما کمک می‌کند هر موضوعی را خیلی سریع یاد بگیرید.1. شما دو نوع انگیزه محرک دارید:انگیزه شما برای یادگیری یک چیز جدید یا درونی است یا بیرونی .انگیزه درونی: شما یاد می‌گیرید؛ زیرا واقعاً از موضوع لذت می‌برید. شما به آن علاقه درونی دارید. به عنوان مثال، شما می‌خواهید فرانسوی صحبت کنید چون عاشق آواهای این زبان هستید .انگیزه بیرونی: شما می‌خواهید یاد بگیرید که به یک نتیجه خاص برسید که لزوما ارتباطی به موضوعی که می‌خواهید بیاموزید ندارد. به عنوان مثال، شما می‌خواهید نرم افزار، نوشتن یا کارآفرینی یاد بگیرید تا درآمد بیشتری کسب کنید.اولین قدم: بدانید کدام نوع انگیزه شما را به سمت آموختن و یادگیری سوق می‌دهد.چرا؟ زیرا یک مبحث دارای بخش‌های زیادی است و بیشترشان ارتباطی به هدف شما ندارند.وقتی واقعا فهمیدید که چه می‌خواهید، سپس وقت و انرژی خود را بر روی بهترین بخش‌ها بگذارید و از چیزهای بی اهمیت موقتا یا برای همیشه بگذرید.2. روش ساختن ساختار آن قبل از شروع:یادگیری یک مهارت مانند گشتن در ساختمان برای جستجوی گنج است.اگر ساختار یک ساختمان را بهتر از همه بدانید، سریعترین مسیر را طی خواهید کرد تا به آنچه که می‌خواهید در داخل آن ساختمان برسید.مرحله دوم: برای سرعت بخشیدن به درک مطلب، ساختار موضوع را بیاموزید.برای انجام این کار، یک جدول با سه ستون ایجاد کنید: مفاهیم، حقایق و روش‌ها.مفاهیم مواردی هستند که شما برای درک موضوع نیاز دارید. آنها اصول اولیه و تئوری‌ها هستند.حقایق چیزهای صادقانه‌ای هستند که شما باید در مورد موضوع بدانید و به خاطر بسپارید. آنها به صورت قوانین، تکنیک‌ها یا بیانیه‌ها ارائه می شوند.روش‌ها همه اقداماتی است که شما باید برای بهتر شدن موضوع انجام دهید. آنها سطح مهارت و دانش عملی شما را افزایش می دهند.1. تمام مفاهیم، حقایق و روش‌های ممکن را پیدا کرده و آنها را یادداشت کنید.2. موارد را از هر ستون بر اساس سطح چالش و اهمیت مرتب کنید ، به هر مورد یک ضریب اثر اختصاص دهید.3. منابع مربوط به هر مفهوم، حقیقت و روش را جمع آوری کنید.پس از پایان کار، یک درخت دانش خوب برای موضوع خواهید داشت. موانع پیش رو و بهترین راه‌های غلبه بر آنها را کاملا درک خواهید کرد."مهم است که دانش را به عنوان یک درخت در نظر بگیرید. اطمینان حاصل کنید که اصول اساسی (تنه و شاخه های بزرگ) را قبل از ورود به برگها (جزئیات) درک کرده‌اید. "ایلان ماسک (Elon Musk)3. از کجا شروع کنیم و چه چیزی را برای آینده بگذاریم؟دانستن اینکه از کجا شروع کنید و چه چیزی را برای بعد بگذارید، تفاوت زیادی در سرعت یادگیری شما ایجاد می‌کند. روش B.E.E (نقطه مرجع (Benchmark)، تأکید (Emphasis)و حذف (Exclude)) به شما در انجام این کار کمک می کند. مرحله سوم شامل این روش است.نقطه مرجع (Benchmark):· بهترین منابع را پیدا کنید، بهترین دوره‌های آنلاین، کتاب‌ها، مقالات و دوره‌های برتر دانشگاهی.· سر فصل منابعی که جمع‌آوری کردید را یادداشت کنید.· الگوهای مشترک در این سرفصل‌ها را پیدا کنید.· روی قسمت‌هایی که با هم بیشترین همپوشانی را دارند تمرکز کنید.تأکید (Emphasis) و حذف (Exclude):برای رسیدن به سطح تسلط مطلوب در سریعترین حالت ممکن، باید برنامه درسی خود را متناسب با هدف شخصی‌تان تنظیم کنید. برای اینکه به این هدف دست یابید باید آنچه که برایتان مهم است را نگه دارید و بقیه را حذف کنید. در اینجا دو مثال آورده شده است:· اگر می خواهید در سفر به فلورانس ایتالیایی صحبت کنید، بر روی تلفظ‌‌تان تمرکز کنید و یادگیری در مورد املای کلمات را حذف کنید.· اگر می‌خواهید اپلیکیشنی را سریع بسازید، به جای تمرکز بر روی مباحث تئوری‌ علوم کامپیوتر، بر روی توسعه اپلیکیشن کار کنید.یادگیری زیاد و سریع یک استعداد یا نبوغ نیست. این مهارتی است که می توانید یاد بگیرید تا سرعت یادگیری خود را بسیار بالا ببرید.یک راه مطمئن برای اینکه به یک یادگیرنده ماهر تبدیل شوید، استفاده از یادگیری متا meta-learning)) است. برای یادگیری‌تان نقشه و مسیری طراحی کنید تا به شما کمک کند بخش‌های موضوع خود را سریعتر از افراد عادی درک کنید. رشته‌ای که می‌خواهید در آن تسلط داشته باشید مهم نیست؛ یادگیری متا در مقایسه با همکاران و رقبا سرعت یادگیری شما را افزایش می دهد و هرچه بیشتر از آن استفاده کنید، مهارت بیشتری در یادگیری کسب می‌کنید. با استفاده از این روش شما قطعا به یک یادگیرنده فوق‌العاده (super learner) تبدیل خواهید شد.

بهترین شهرها برای کار به عنوان دانشمند داده

ایردا - IRDA — Tue, 20 Apr 2021 15:04:03 +0430

شهر سیلیکون ولی (Silicon Valley) تنها گزینه نیست. کار برای دانشمندان داده در سرتاسر جهان زیاد است، مخصوصا اگر بتوانید به هر دو زبان انگلیسی و فرانسه صحبت کنید.نوشته شده توسط: رناتو بومر (Renato Boemer)چشم انداز شغلی برای دانشمندان داده امیدوار‌کننده است. طبق اداره آمار کار ایالات متحده (US Bureau of Labour Statistics)، تا سال 2026 تقریباً 11.5 میلیون فرصت شغلی وجود خواهد داشت. این اعداد نشان می‌دهد که شرکت‌های دیگری نیز خارج از سیلیکون ولی خواهان جذب دانشمندان داده هستند و اهمیت این شغل را به خوبی خواهند فهمید. در نتیجه، هم متخصصین باتجربه و هم کسانی که شغل‌شان را به Data Science تغییر می‌دهند، می توانند امیدوار باشند. اگرچه که سیلیکون ولی هنوز منطقه شماره یک به لحاظ بیشترین متوسط حقوق برای متخصصان داده است؛ اما تنها گزینه نیست. بر اساس تقاضای روزافزون در صنایع مختلف، لیست شهرهای زیر برای دانشمندان داده روند مثبتی دارد.لیست زیر بر اساس تعداد شرکت های استخدام کننده، سرمایه گذاری دولت، همکاری بین دانشگاه و صنعت و همچنین میزان حقوق و دستمزد تهیه شده است. جالب اینجاست که شهرهای پیشرو منحصراً انگلیسی زبان نیستند و ممکن است روند زبان فرانسوی پس از خروج انگلیس از اتحادیه اروپا تقویت شود . بسیاری از مناطق فرانسوی زبان نیز برای متخصصان داده و هوش مصنوعی سرمایه گذاری می‌کنند. در اینجا لیستی از بهترین شهرهای انگلیسی زبان و فرانسوی زبان برای کار در آنها به عنوان دانشمند داده آورده شده است.شهرهای انگلیسی زبان:· بوستون (Boston)، آمریکا :بوستون به وجود تعداد بالای دانشگاه‌هایی مانند MIT و هاروارد، شركت‌های بیمه و امنیت سایبری، شهرت دارد. طبق گفته شرکت مشاوره مدیریت KPMG ، بوستون در میان ده شهر برتر جهانی است که در چهار سال آینده به مرکز اصلی نوآوری در فن آوری تبدیل میشود. البته چندین استارت آپ هم در AngelList وجود دارد که دانشمندان داده را استخدام می کنند. متوسط حقوق و دستمزد سالانه 141000 دلار است که با توجه به هزینه زندگی، قدرت خرید بالاتر از حد متوسط محسوب می‌شود .· دهلی (Delhi)، هند:هند یکی از مراکز فناوری با رشد سریع در جهان است که شهر پیشگام در آن دهلی ، با کارآفرینان جوان است. تعداد زیادی از شرکت های آمریکایی به دنبال خرید استارتاپ های محلی برای ورود به این بازار پیچیده و مهم هستند. اگرچه در مقایسه با کشورهای غربی میزان حقوق کمتر است؛ اما در عین حال هزینه‌های زندگی نیز پایین‌تر است و میلیون‌ها نفر به اینترنت دسترسی دارند. جای تعجب نیست که شرکت‌های جهانی مانند Alibaba و Google بر بستر دیجیتال این کشور سرمایه‌گذاری کرده‌اند.· لندن (London)، انگلستان:شهر لندن قطب جهان برای ارتباط بین هوش مصنوعی (AI) و صنعت فناوری مالی (FinTech) است. دولت انگلستان با بیش از 50 شرکت فناوری در سراسر جهان که در زمینه هوش مصنوعی تخصص دارند، معامله ای معادل یک میلیارد پوند، ) تقریباً معادل 1.35 (میلیون دلار انجام داد. همچنین موسسه Alan Turing در این شهر قرار گرفته است. لندن اغلب میزبان کنفرانس‌های بین المللی مانند کنفرانس یادگیری عمیق، کنفرانسAI ، کنفرانس ODSC’s European و کنفرانس داده‌های Strata (Strata Data Conference ) است. فرصت برای استفاده از این شبکه ها کم نیست .هزینه زندگی در لندن بالا است و این بالا بودن عمدتا به دلیل اجاره است که می تواند تا 60٪ از درآمد ماهانه فرد را به خود اختصاص دهد . با این حال متوسط حقوق و دستمزد یک دانشمند داده 61،543 پوند یعنی ده درصد بیشتر از متوسط حقوق ملی کار دانشمند داده است. همچنین لندن فقط 50 دقیقه با کمبریج فاصله دارد، شهری که دانشگاه کمبریج در ان قرار گرفته است و یکی از قطب‌های تحقیقاتی پزشکی در اروپا محسوب می شود.· رالی-دورهام (Raleigh-Durham)، ایالات متحده آمریکا:مثلث Raleigh، Durham و Chapel Hill برای هر دو مراکز تحقیقاتی و مراکز فناوری شناخته شده است. این مثلث خانه Lenovo ، Citrix و Cisco در میان دیگر شرکت‌های برتر است. رالی-دورهام جمعیت جوان با سن متوسط 36 سال دارد. این شهرها به عنوان یکی از مکان‌های برتر برای متخصصان داده شناخته شده اند. همچنین هزینه ‌های زندگی در آن‌ها بسیار کمتر از سانفرانسیسکو است. تقاضا برای دانشمندان داده بیشتر از سوی آزمایشگاه‌های تحقیقات بهداشتی و فناوری اطلاعات است.Bank،HSBC ، رویال بانک کانادا، Scotiabank و غیره. میانگین حقوق و دستمزد سالانه یک دانشمند داده سطح متوسط، بین 80،000 تا 85،000 دلار کانادا است. دانشگاه تورنتو یکی از دانشگاه‌های برتر دنیا در زمینه علوم کامپیوتر است و یک محیط تحقیقاتی بین رشته‌ای را پرورش می دهد. در نتیجه این شهر برای همکاری در طیف گسترده ای از رشته‌های علمی و نوآوری های تجاری شامل Big Data مورد توجه قرار گرفته است. همچنین موسسه Vector در تورنتو قرار گرفته است که پیشرو در زمینهAI است و باعث بهبود رشد اقتصادی و سطح زندگی کانادایی‌ها است.شهرهای فرانسوی زبان:· ژنو (Geneva )، سوئیس:اگر شما به عنوان دانشمند داده در ژنو کار می کنید، علی رغم اینکه سوئیس یکی از گران ترین شهرها برای زندگی در اروپا محسوب می‌شود ، این مورد برای شما مشکلی به حساب نمی‌آید . این شهر با افزایش پاداش‌های مالی، دانشمندان داده با استعداد را جذب می کند؛ متوسط حقوق خالص در ژنو می تواند 75 درصد بیشتر از حقوق در لندن باشد. دفاتر بسیاری از شرکت‌های برتر فناوری شامل Dell ، HP ، IBM ، Microsoft ، Google و Oracle در ژنو قرار دارد.· مونترال (Montréal) ، کانادا:شهر مونترال ممکن است برای بسیاری از دانشمندان داده و متخصصان هوش مصنوعی در خارج از کانادا تعجب آور باشد. با این حال، مونترال به عنوان یک قطب هوش مصنوعی ظاهر شده است. به گفته مجله Forbes و نویسنده کتاب Deep Learning، پروفسور یوشوا بنگیو (Yoshua Bengio) "مونترال ترکیبی از دانشگاه‌های بزرگ، شرکت‌های نوآور (از جمله چندین شرکت در سیلیکون ولی که دفاتر خود را در این شهر تاسیس کرده‌اند) و فرهنگ همکاری در کانادا برخلاف فرهنگ رقابتی و فردگرایانه در آمریکای شمالی است."همچنین دلیل دیگر کار در مونترال وجود موسسه Montréal Institute of Learning Algorithms (MILA) است. این مؤسسه مشابه یک استارت آپ بزرگ است و به مرکز توسعه هوش مصنوعی در مونترال تبدیل شده است.· پاریس (Paris)، فرانسه:هزینه زندگی پاریس نسبت به برخی دیگر از مراکز اروپایی مانند ژنو کمتر است. از سال 2014 این شهر توسط شرکت های برجسته فناوری مانند IBM و Amazon برای توسعه آزمایشگاه‌های نوآوری انتخاب شده است. در این بین Deepmind برای توسعه آزمایشگاه هوش مصنوعی خود برنامه بلند مدت دارد. پاریس قطعاً یک شهر تاریخی و پر جنب و جوش است و باعث جذابیت بیشتر آن می شود. حقوق متوسط سالانه در آن حدود 55000 دلار است که ممکن است با تعهد دولت فرانسه برای سرمایه گذاری در فناوری و تحقیقات افزایش یابد. همچنین با یک قطار و صرف 2 ساعت وقت می‌توان از پاریس به مرکز لندن رسید. پاریس همچنین دسترسی راحتی به ژنو دارد.نتیجه‌گیری:تقاضا برای جذب متخصصان داده زیاد است و حداقل تا سال‌های آینده ادامه خواهند داشت. کار به عنوان دانشمند داده در سیلیکون ولی ممکن است یک رویا باشد و می تواند همینطور نیز باقی بماند. با این وجود شهرهای زیادی در سراسر جهان وجود دارند که به دنبال استخدام متخصصان داده، سرمایه گذاری در زمینه یادگیری ماشین و ایجاد قطب‌های تحقیقاتی AI هستند. در سال‌های اخیر شهرهای فرانسوی زبان به مراکز بالقوه برای متخصصان داده تبدیل شده‌اند و برای کار در آنها باید به زبان فرانسوی تسلط بالایی داشت.

چرا Covid-19 برای مردان مرگبارتر است؟

ایردا - IRDA — Tue, 09 Mar 2021 15:25:30 +0330

ژن‌ها، هورمون‎های جنسی و استرس یک سه گانه خطرناک را تشکیل می دهند.دانا جی اسمیت25 ژانویه 2021مردان در معرض خطر بیشتری برای ابتلا به عفونت های شدید کووید 19 و در نهایت مرگ بر اثر این ویروس هستند. علاوه بر اینکه پزشکان از همان ابتدای همه‌گیری این موضوع را مشاهده کردند، اخیرا مطالعه‌ای که بر روی بیش از سه میلیون نفر از 47 کشور انجام شد نیز این موضوع را تایید می‌کند.این مقاله که در ماه دسامبر در ژورنال Nature Communications منتشر شد، نشان داد که مردان 2.84 برابر بیشتر در بخش مراقبت های ویژه بستری می شوند و 1.39 برابر بیشتر از زنان احتمال دارد که در اثر کووید 19 بمیرند. نکته قابل توجه اینست که تعداد یکسانی از مردان و زنان با SARS-CoV-2 آلوده شدند، بنابراین وجود این اختلاف، ناشی از قرار گرفتن بیشتر مردان در معرض ویروس نبوده است پس نتایج بیشتری پس از مبتلا شدن آن‌ها به این ویروس حاصل می‌شود .سابرا کلین (Sabra Klein) ، PhD و استاد دانشکده بهداشت عمومی جان هاپکینز بلومبرگ می گوید: "وقتی انواع داده های اپیدمیولوژیک را می‌بینم که در همه کشورها، همه سنین و همه نژادها و فرهنگ‌ها اتفاق می‌افتد، آن وقت است که به این فکر می‌افتم که یک اتفاق بیولوژیکی در جریان است".سوال این است، چرا؟سلول‌های T و سیتوکین‌ها:یک پاسخ خوب به این سوال ایمنی بدن است.مطالعه ای که تابستان سال گذشته در ژورنال Nature منتشر شد نشان داد كه زنان و مردان پاسخ‌های ایمنی متفاوتی نسبت به Covid-19 دارند كه بر شدت عفونت آن‌ها تأثیر می گذارد. برای تحقیق در این باره، پروفسور آکیکو ایواساکی (Akiko Iwasaki)، پی اچ دی ایمونوبیولوژی دانشکده پزشکی Yale و تیمش از افرادي با علائم Covid-19 که به بیمارستان مراجعه کرده بودند، نمونه خون گرفتند و سپس پیشرفت بیماری آن‌ها را دنبال کردند. دانشمندان کشف کردند که مردان در مقایسه با زنان ، فعالیت سلول‌های T (سلول های ایمنی لازم برای مقابله با ویروس و کمک به تولید آنتی بادی) کمتری دارند. بنابراین مردان به علت کاهش فعالیت سلول‌های T به بیماری شدیدتری مبتلا می شوند.در عوض مردان دارای سطح بالاتری از دو سایتوکاین خاص (پروتئین های ایمنی) نسبت به زنان بوده‌اند. این سیتوکین‌ها، IL-8 وIL-18 ، نشانگر یک واکنش ایمنی بیش فعال هستند که می توانند باعث التهاب و آسیب به بافت شوند. جالب توجه است که هنگامی که سطح این پروتئین‌های ایمنی التهابی در زنان نیز بالا می رود، شدت بیماری ناشی از کووید 19 نیز افزایش می‌یابد. بنابراین می‌توان گفت که IL-8و IL-18ممکن است در شدت بیماری و آسیب نقش داشته باشند. ایواساکی حدس می زند که پاسخ ضعیف سلول Tدر مردان ممکن است منجر به تولید بیش از حد این سیتوکین‌های التهابی به عنوان یک پاسخ ایمنی در بدن شود؛ اما در نهایت بیش از آنکه کمک کننده باشد، آسیب‌رسان است. او همچننین بیان کرد: "ما قویاً این فرضیه را مطرح می كنیم كه اگر مردان نتوانند پاسخ سلولی Tخوبی ایجاد کنند بنابراین قادر به از بین بردن سریع ویروس نیز نخواهند بود و این منجر به همانند سازی و تولید بیشتر ویروس می شود" ."از آنجا که هیچ سلول T برای مبارزه با عفونت وجود ندارد، سلول‌های ایمنی دیگری به پاسخ تحریک خواهند شد. این راهی برای جبران نداشتن سلول‌های T است اما این مکانیسم جبرانی در واقع نتیجه معکوس خواهد داد زیرا این سایتوکاین‌ها برای خود میزبان بسیار سمی هستند. " پروفوسور ایواساکی که اخیراً مقاله ای مروری درباره تفاوت های جنسی در پاسخ های ایمنی منتشر کرده است، این را افزود که : "این روند مانند یک چرخه معیوب است."جهش های ژنی:عامل احتمالی دیگر جهش های ژنی است که بیشتر در مردان دیده می شود و پاسخ ایمنی را مختل می کند.یک مطالعه موردی که تابستان سال گذشته در مجله انجمن پزشکی آمریکا (Journal of the American Medical Association) منتشر شد، دو جفت برادر هلندی با رنج سنی بیست الی سی سال و مبتلا به عفونت شدید Covid-19 که نیاز به بستری ، دستگاه تنفس و هوا‌رسانی (ventilation) داشتند را مورد بررسی قرار داد. دانشمندان هلندی دریافتند که هر چهار مرد که در نهایت یکی از آنها بر اثر این بیماری درگذشت، جهش ژنی یکسانی داشتند. این نوع جهش ژنتیکی باعث می‌شود که مردان گروه مهمی از پروتئین‌ها به نام اینترفرون‌ها که RNA ویروس‌ها مانند SARS-CoV-2 را بررسی و شناسایی می کنند، تولید نکنند. این اولین قدم مهم در فعال سازی پاسخ ایمنی است. بدون وجود این اینترفرون‌ها، شناسایی ویروس‌ها و پاسخ به انها توسط سیستم ایمنی بدن کندتر خواهد بود که در نهایت می تواند منجر به شدید تر شدن عفونت شود.ژن درگیر TLR7 نام دارد که بر روی کروموزوم X قرار گرفته است. جهش در ژن‌های کروموزوم X در مردان بسیار بیشتر از زنان تأثیر می گذارد؛ زیرا زنان دارای دو کروموزوم X هستند در حالی که مردان دارای یک کروموزوم X و یک Y هستند. این بدان معناست که اگر ژن جهش یافته در یک کروموزوم X که از یکی از والدین به ارث رسیده است باشد، زنان نسخه دوم ژن را از والد دیگر روی آن کروموزوم دیگر دارند که می تواند آن را جبران کند. اما مردان از هر ژنی که روی کروموزوم X قرار دارد تنها یک نسخه دارند، بنابراین اگر جهش پیدا کند تنها همان یک نسخه برایشان موجود است.تحقیقات دیگر نیز تایید کننده این موضوع هستند که افراد مبتلا به موارد شدید Covid-19 به احتمال زیاد دچار جهش های ژنی می شوند که باعث مهار تولید وعملکرد اینترفرون‌ها می‌شود. با تأیید نقش مهم پروتئین‌ها، یک مطالعه دیگر نشان داد که 10٪ از افراد مبتلا به Covid-19 دارای واکنش غیرطبیعی اینترفرون هستند که در آن سیستم ایمنی اقدام به تخریب خود می کند و در واقع به جای ویروس به اینترفرون‌ها حمله می کند. اکثریت قریب به اتفاق (94٪) افرادی که پاسخ معیوب داشتند مرد بودند."ممکن است که زنان دارای واکنش‌های ایمنی انطباقی قوی باشند که شاید منجر به عدم آسیب رساندن به سلول‌های میزبان یا ایجاد نوعی ایمنی خود فعال شود."هورمون های جنسیهورمون های جنسی مانند تستسترون و استروژن همچنین می توانند در واکنش‌های مختلف زنان و مردان به ویروس کرونا نقش داشته باشندSARS-CoV-2 . از طریق دو گیرنده مختلف به بدن وارد می شود: گیرنده ACE2که معروف و بدنام است و گیرنده TMPRSS2 که کمتر شناخته شده است. به نظر می رسد که این دو گیرنده به ترتیب توسط استروژن و تستسترون تعدیل می‌شوند.دانشمندان در ایتالیا کشف کردند که تنها 20% از مردانی که برای درمان سرطان پروستات تحت درمان محرومیت از آندروژن بودند (آندروژن باعث سرکوب تستوسترون می‌شود) در مقایسه با سایر بیماران سرطانی به کووید 19 مبتلا شدند. دانشمندان تصور می كنند كه این محافظت به دلیل تأثیر تستسترون بر TMPRSS2 است، از این رو با مهار سطح هورمون جنسی تعداد گیرنده های TMPRSS2 موجود برای اتصال ویروس نیز كاهش می یابد. محققان U.S. Veteran’s Administration اکنون در حال انجام یک مطالعه بالینی برای آزمایش این تئوری بر روی مردان مبتلا به کووید 19 با درمان محرومیت از آندروژن هستند.برعکس، گیرنده‌های ACE2تا حدی توسط سطح استروژن در بدن تنظیم می شوند. هرچه سطح استروژن در بدن بالاتر باشد، تعداد کمتری از گیرنده های ACE2 وجود خواهد داشت. از آنجا که سطح استروژن در زنان بالاتر از مردان است، گیرنده های ACE2 کمتری برای ویروس در دسترس هستند. این امر می‌تواند دلیل اینکه چرا بسیاری از زنان از عفونت های شدیدتر در امان هستند ، باشد.پاسخ‌های استرس:عواملی همچون استرس نیز می‌تواند باعث بروز درصد مرگ و میر بیشتری در مردان مبتلا به کووید 19 باشد. درک گریفیت (Derek Griffith)، بنیانگذار و مدیر مرکز تحقیقات سلامت در دانشگاه وندربیلت (Center for Research on Men’s Health at Vanderbilt University) می گوید: با اینکه زنان و مردان سطح استرس مشابهی را تجربه می کنند؛ اما بسیاری از مردان در مقابله با استرس ضعیف‌تر عمل می‌کنند.او می گوید: "زنان روش موثرتری در پاسخ روانی به استرس دارند که از طریق معاشرت و تعامل به طرز موثرتری بر استرس خود غلبه می‌کنند. " همین‌طور افزود که " مردان تمایل دارند که آن چیزهای استرس زا را درونی کنند و در واقع آن را بیان نکنند و به اشتراک نگذارند. بنابراین این روش‌های مفید و موثر برای غلبه بر احساسات منفی در زنان بیشتر از مردان دیده می شود " . میزان بالای مصرف مواد مخدر و خودکشی اغلب مصادیق ناشی از افسردگی و دشواری کنار آمدن با استرس در مردان است.استرس مزمن می‌تواند بر روی بسیاری از سیستم‌های بدن اثر مخرب داشته باشد و منجر به التهاب، فشار خون بالا و افزایش قند خون شود. افزایش استرس‌های مزمن در مردان که پاسخ های ایمنی ضعیف تری دارند، می‌تواند باعث ایجاد اثرات منفی جدی بر بدن شود. لازم به ذکر است که Covid-19اولین بیماری‌ای نیست که مردان را بیشتر از زنان تحت تاثیر و زیان قرار می‌دهد. امید به زندگی در مردان کوتاه تر است. نرخ مرگ و میر زودرس (مرگ قبل از 60 سالگی)، مرگ و میر ناشی از بیماری‌های مزمن مانند بیماری‌های قلبی ، سرطان و دیابت در مردان بالاتر است."ارگانیسم‌های مردان به طور کلی ضعیف‌تر از ارگانیسم‌های زنان هستند؛ به همین دلیل است مشاهده می‌شود که تا حدودی میزان مرگ و میر در مردان نسبت به زنان بیشتر است، به ویژه از نظر مواردی مانند نرخ بیماری‌های مزمن، امید به زندگی و ... ".گریفیت می گوید: "منظور من از ضعیف بودن ارگانیسم‌های مردان این است که هر فرد دارای بسیاری از فاکتورهای ایمنی‌ست که در بدن زنان قوی‌تر هستند و بنابراین هنگام استرس، ارگانیسم‌های زن توانایی بیشتری برای واکنش دارند."این موضوع فقط در مورد کووید 19 نیست:این تقسیم جنسیتی در سایر عفونت‌های ویروسی نیز مشاهده شده است. به عنوان مثال کرونا ویروس SARS و MERS منجر به عفونت‌های شدیدتر و مرگ و میر بیشتر در مردان شد.جالب اینجاست که در مورد ابتلا به موارد شدید آنفولانزا به نظر می‌رسد تعاملی بین جنسیت و سن وجود دارد. در کودکان، پسر ها بیشتر از دختر ها در بیمارستان برای آنفلوانزا بستری می شوند. همین الگو در مراحل بعدی زندگی ظاهر می‌شود، مردان 65 سال به بالا نسبت به زنان هم سن بیشتر در بیمارستان بستری می‌شوند و حتی از آنفلوانزا می‌میرند. با این حال شدت بیماری در زنان در دوران بلوغ و جوانی (به ویژه سال‌های باروری) بیشتر است که نشان می دهد هورمون‌های جنسی زنانه بر واکنش ایمنی به آنفلوانزا تأثیر می گذارند.کلین (Klein) ایمونولوژیست در دانشگاه جان هاپکینز می گوید در این سن پاسخ ایمنی قوی زنان گاهی اوقات می تواند بیشتر از این که مفید باشد ، آسیب برساند. او می گوید: "این ایمنی بیشتر از اینکه برای از بین بردن ویروس مفید باشد، می تواند با کمک به ایجاد طوفان سایتوکاین و ایجاد آسیب در بافت خطرناک باشد". " حتی در مطالعات مربوط به حیوانات می‌بینیم که بافت ریه‌ها آسیب بیشتری می‌بیند و باعث طولانی شدن روند بهبودی در ماده‌ها (از آنفلوانزا) می‌شود." اما جالب است که کلین می گوید این روند در مطالعات مربوط به حیوانات Covid-19 در همه گیری کنونی مشاهده نشده است. دانشمندان مطمئن نیستند که چرا پاسخ ایمنی به این دو ویروس از این طریق متفاوت است.پاسخ ایمنی شدیدتر در زنان می‌تواند در شرایطی دیگر نتیجه معکوس دهد. به عنوان مثال احتمال ابتلا به بیماری‌های خود ایمن در زنان بیشتر است که در آن سیستم ایمنی بدن به جای عوامل بیماری‌زای خارجی به سلول‌های خود حمله می کند. زنان همچنین دارای نرخ بالاتری از نوع طولانی مدت کووید هستند که در حال حاضر نظریه برخی از دانشمندان بر این است که می‌تواند نوعی خود ایمنی باشد.ایواساکی می گوید: ممکن است آن روی دیگر سکه هم دیده شود، یعنی بیماران بستری شده زنانی باشند که بدنشان پاسخ‌های ایمنی شدیدتری تولید کرده است که نهایتا منجر به آسیب به سلول‌های میزبان شده است. "تولید آنتی بادی یا سلول‌های T خود ایمن در زنان ممکن است بیشتر باشد."به عبارت دیگر، فقط به این دلیل که احتمال مرگ و میر در اثر کووید 19 در زنان کمتر است به این معنی نیست که عواقب جدی دیگری از این بیماری برای آنها وجود ندارد. ( و البته میلیون‌ها زن در سراسر جهان در طی همه گیری جان خود را از دست داده‌اند. )همه انسان‌ها،چه زن و چه مرد، باید مراقب این ویروس باشیم، ماسک بزنیم، فاصله اجتماعی را رعایت کنیم و در صورت امکان حتما واکسن بزنیم.

پانزده وب سایت برتر برای دانشمندان داده در سال 2021

ایردا - IRDA — Tue, 23 Feb 2021 14:10:28 +0330

دنیای علم داده بسیار وسیع است و یادگیری آن می‌تواند بسیار طولانی باشد؛ اما با دنبال کردن منظم یک برنامه محکم و کامل می‌تواند این روند یادگیری را بسیار آسان کند.به همین علت لیستی از وبلاگ‌های علم داده در زیر تهیه شده است که می‌توانند در زمینه‌های مختلف الهام‌بخش شما باشند: هوش مصنوعی ((AI و یادگیری ماشین (Machine Learning)، مهندسی داده (Data Engineering)، مصورسازی داده‌ها (Data Visualization) و شم تجاری یا شم کسب و کار (Business Acumen).هوش مصنوعی ((AI و یادگیری ماشین (Machine Learning): Towards Data ScienceTowards Data Science جامعه بزرگی از متخصصان را با ایده‌های نو گرد هم آورده است که به طریقی منظم پروژه‌های جدید و ابتکاری و مطالب آموزشی پیشرفته خود را به اشتراک می گذارند. Towards Data Science طیف گسترده ای از مباحث علم داده به طور عمیق مانند هوش مصنوعی، یادگیری ماشین، آمار، برنامه نویسی و مصورسازی را پوشش می‌دهد. از آنجا که در حال حاضر وب سایت مستقلی ندارد، بهترین کار برای استفاده بهینه از آن مشترک شدن در این کانال (به عنوان مثال درMedium ، Feedly) یا ثبت نام در خبرنامه آن است.Analytics VidhyaAnalytics Vidhya نیز یک پورتال علمی است که متخصصان علم داده بینش خود ، پروژه‌ها و تجربه‌هایشان را به اشتراک می‌گذارند. همچنین این وبسایت به طور خاصی بر روی موضوعات پیشرفته علم داده مانند هوش مصنوعی ( AI ) و یادگیری ماشین ( ML ) تمرکز دارد. بسیاری از مقالات این وبسایت راهنمای جامعی در مورد اجرای یادگیری ماشین پیشرفته ارائه می دهند مانند یادگیری عمیق، پردازش تصویر و پردازش زبان طبیعی.KDnuggets:KDnuggets یکی دیگر از سایت های معروف علم داده با 500000 بازدید کننده غیرتکراری در ماه است. این سایت در درجه اول در مورد پیاده سازی تکنیک‌های آماری و الگوریتم های پیچیده صحبت می کند. اگرچه به نظر من طراحی وب سایتش چندان جذاب نیست ، اما مکانی عالی برای الهام گرفتن در مورد پروژه ‌های علم داده و استفاده کردن از راهنمایی‌های کاربردی و دقیق در این مورد است.Springboard:وبلاگ‌های Springboard طیف گسترده‌ای از موضوعات از جمله تحلیل داده‌ها، مهندسی داده، علم داده و طراحی (DESIGN) را پوشش می دهند. این بلاگ عمدتاً مقالاتی درباره نکات شغلی و نکات و ترفند‌های آموزشی (study hacks) ارائه می‌دهد که باعث می شود یکی از بهترین وبلاگ‌ها در زمینه هوش مصنوعی و یادگیری ماشین برای مبتدیان باشد.مهندسی داده (Data engineering):Uber Engineering BlogNetflix Tech BlogAirbnb Engineering & Data Scienceمطمئنا به خوبی با این سه شرکت آشنایی دارید. آنها صرفا فقط به عنوان غول‌های فناوری شناخته نمی‌شوند. آن ها به علت داشتن پایگاه کاربری گسترده و داده‌های وسیع کاربران، قادر به انجام تحلیل فشرده داده‌های بزرگ و آموزش هوش مصنوعی هستند (AI training) . موفقیت در تجارت تا حدودی مقیاس‌پذیری ، پایداری معماری داده ها را در آن‌ها اثبات می‌کند . آن‌ها استراتژی‌هایشان را برای مدیریت این حجم وسیع از داده به اشتراک گذاشته‌اند. بهترین و بروزترین روش‌های مدیریت داده در مطالب آموزشی آنها گنجانده شده است و به ما این امکان را می‌دهد تا از تکنولوژی پیشرفته‌شان در سیستم مسائل بهینه سازی (Optimization problem) و recommendation system و ... استفاده کنیم.مصورسازی داده‌ها (Data Visualization):.Storytelling with Dataاین وبسایت بر اساس کتاب "Storytelling with data" ساخته شده است. این کتاب فرد را بیشتر از منظر مصورسازی داده‌ها و همچنین نحوه ارائه موثر بینش تحلیلی خود به مخاطبان با زمینه‌های مختلف تحت تاثیر قرار داده است. همچنین این وب سایت همچنین یک راهنما شامل برنامه‌های موثر و مشکلات مربوط به چارت‌های معمول مورد استفاده را ارائه می‌دهد. استفاده از این وبلاگ برای توسعه مهارت‌های تعاملی و ارتباطی که برای دانشمندان داده ضروری است، توصیه می شود: ارتباط موثر و ارائه جذابTableau Viz of the DayTableau یکی از پرکاربردترین ابزارها در مصورسازی داده است و تقریباً یک مهارت لازم برای هر دانشمند داده است. Tableau Viz of the Day مصورسازی‌های جدید و نو را در کنار هم گردآوری می‌کند. قطعا از اینکه چقدر می توانید با استفاده از Tableau به ایده‌های نو و خلاقانه دست پیدا کنید ، شگفت زده خواهید شد.Information is Beautifulاین یک وبسایت زیبایی شناسی است که با تصاویر جذاب و متفکرانه‌ای همراه است. یک نمونه کامل از گردآوری هنر و علم در کنار هم . با کلیک بر روی هر قسمت بصری می‌توانید داستان و انگیزه پشت کار را پیدا کنید. منبعی عالی برای کسب دانش در مورد ارائه افکار و دستاوردها به روشی جذاب.Nightingaleوبلاگ دیگری است که بر پایه انجمن هاست و در دامنه Medium قرار دارد. هر مقاله فراتر از یک داده است؛ در واقع هر مبحث یک نقشه جامع از نحوه جمع آوری داده ‌ها، ابزارهای استفاده شده و در اخر تصویر نهایی می‌باشد. در این وبلاگ علاوه بر تصاویر پروژه، در مورد اصول طراحی و مشاوره شغلی نیز صحبت شده است.شم تجاری یا شم کسب و کار (Business Acumen):EntrepreneurForbesBusiness Insiderهمانطور که می‌دانید در اکثر موارد هدف نهایی پروژه‌های علم داده ارائه ارزش تجاری و همینطور ایجاد تأثیر تجاری است. در نتیجه شم تجاری یک مهارت لازم برای متخصصان داده است. دریافت روزانه اخبار کسب و کار می تواند مکمل خوبی برای دانش فنی شما باشد. این سه وبسایت پیشرو در حوزه تجارت و کسب و کار به شما امکان می دهد بیشتر با اصطلاحات تجاری و KPI و همینطور معیار‌های متداول مورد استفاده آشنا شوید.Hubspotاین وبسایت با سه وبسایت قبلی کمی متفاوت است. Hubspot یک منبع عالی برای کسب اطلاعات جامع در مورد بازاریابی دیجیتال و تحقیقات بازار است. اگر به بازاریابی، فروش، تحلیل وبسایت یا خدمات دیجیتال علاقه دارید، این وبسایت مناسب شما است.

جایزه بین المللی آمار:

ایردا - IRDA — Wed, 17 Feb 2021 15:52:01 +0330

جایزه بین المللی آمار (The International Prize in Statistics) هر دو سال یکبار به یک شخص یا یک تیم برای ارائه " دستاوردهای برجسته علمی با استفاده از آمار در جهت پیشرفت علم، فناوری و رفاه انسان" اعطا می شود. جایزه بین المللی آمار به همراه جایزه COPSS Presidents' Award، بالاترین افتخارات در زمینه آمار محسوب می‌شوند.این جایزه از جوایز نوبل (Nobel prizes)، جایزه آبل (Abel Prize)، مدال فیلدز (Fields Medal) و جایزه تورینگ (Turing Award) الگوبرداری شده است و مبلغ این جایزه 80000 دلار است. مراسم اهدای جایزه در کنگره جهانی آمار انجام می شود.برندگان:قوانین:این جایزه یک اثر یا یک مجموعه کار که دارای ایده‌ای جدید و قدرتمند باشد و در سایر رشته‌ها یا در جهان نیز به طور عملی تاثیرگذار باشد را می‌پذیرد. دریافت کننده جایزه هنگام اعطای جایزه باید زنده باشد.سازمان:این جایزه توسط جایزه بین المللی بنیاد آمار (International Prize in Statistics Foundation) اهدا می شود که متشکل از نمایندگان جوامع بزرگ زیر است:انجمن آمار آمریکا (American Statistical Association)انجمن بین المللی بیومتریک (International Biometric Society)موسسه آمار ریاضی (Institute of Mathematical Statistics)موسسه بین المللی آمار (International Statistical Institute)انجمن سلطنتی آمار (Royal Statistical Society)هدف این بنیاد علاوه بر ایجاد مشارکت برای متخصصان آمار، ارائه آموزش به عموم در مورد دستاوردهای آماری و تأثیر این دستاوردها بر جهان و همچنین شناخت گسترده تر این رشته است.دریافت کننده جایزه توسط کمیته انتخابی متشکل از متخصصان بین المللی در این زمینه انتخاب می شود. برای مثال اعضای کمیته سال 2016 عبارت بودند از:Xiao-Li Meng (دانشگاه هاروارد)Sally Morton (ویرجینیا تک)Stephen Senn (موسسه بهداشت لوکزامبورگ)Bernard Silverman (دانشگاه آکسفورد)Stephen Stigler (دانشگاه شیکاگو)Susan Wilson (دانشگاه ملی استرالیا)Bin Yu (دانشگاه کالیفرنیا، برکلی)

آزمون ANOVA (آنالیز واریانس) در علم آمار

ایردا - IRDA — Tue, 09 Feb 2021 15:51:26 +0330

مقدمه:ANOVA (آنالیز واریانس) یک آزمون آماری برای تعیین تفاوت موجود بین میانگین‌های دو یا چند جامعه آماری مستقل است. به عبارت دیگر، تکنیک آنالیز واریانس برای مقایسه دو یا چند گروه مورد استفاده قرار می‌گیرد تا بررسی شود که تفاوت قابل توجهی دارند یا خیر.در عمل معمولاً از آزمون T-Student برای مقایسه دو گروه استفاده می‌شود. در حالی که آزمون ANOVA تعمیمی از آزمون T-Student است و بنابراین برای مقایسه ۳ گروه یا بیشتر، کاربرد دارد.توجه داشته باشید که انواع متفاوتی از ANOVA وجود دارد. به عنوان مثال؛ تحلیل واریانس یک طرفه (One-way ANOVA)، تحلیل واریانس دو طرفه (Two-way ANOVA)، تحلیل واریانس آمیخته (Mixed ANOVA)، تحلیل واریانس با اندازه‌گیری‌های مکرر (repeated measures ANOVA) و غیره. در این مقاله، ساده‌ترین فرم این آزمون، یعنی تحلیل واریانس یک طرفه (One-way ANOVA) را ارائه می‌دهیم. سپس، تحلیل واریانس دو طرفه (Two-way ANOVA) را مورد بررسی قرار می‌دهیم. همچنین در انتها طرح بلوک‌بندی تصادفی شده (Randomized Blocks) را معرفی خواهیم کرد.اگرچه از ANOVA برای استنباط در مورد میانگین گروه‌های مختلف استفاده می‌شود، اما این روش «تحلیل واریانس» نامیده می‌شود. علت این نامگذاری آن است که ANOVA، واریانس «بین گروه‌ها» را با واریانس «درون گروه‌ها»، مقایسه می‌کند. اگر واریانس «بین گروه‌ها» (Between Groups) نسبت به واریانس «درون گروه‌ها» (Within Groups) به طور معناداری زیاد نباشد، می‌توان به یکسان بودن میانگین گروه‌ها رای داد. در تصویر زیر واریانس درون گروهی و بین گروهی به طور کامل نشان داده شده است.مانند هر آزمون دیگر، آنالیز واریانس نیز احتیاج به یک آماره آزمون دارد. آماره آزمون برای ANOVA دارای توزیع F است. این آماره نسبت تغییرات «بین گروه‌ها» به «درون گروهی» را اندازه‌گیری می‌کند.بزرگ بودن مقدار F نشانه‌ای برای رد فرض صفر است، زیرا مشخص است که صورت بزرگتر از مخرج است. در نتیجه گروه‌ها دارای پراکندگی بین گروهی بیشتری نسبت به پراکندگی درون گروه‌ها هستند. به این ترتیب متوجه می‌شویم که جوامعی که این گروه‌ها را تشکیل می‌دهند، یکسان نیستند. از آنجایی که توزیع نرمال و واریانس نیز ثابت در نظر گرفته شده است، تنها عاملی که باعث تفاوت بین جامعه‌ها است، میانگین است. پس فرض صفر که برابری میانگین گروه‌ها را نشان می‌هد، رد خواهد شد.به طور خلاصه، به تئوری گفته شده در مورد روش ANOVA، بسنده می‌کنیم. در ادامه این مقاله، از دیدگاه عملی‌تر به بحث در مورد آن می‌پردازیم و به طور خاص، موارد زیر را پوشش خواهیم داد:هدف از اجرای آزمون ANOVA، چگونگی فرض صفر و فرض مقابل.مفروضات اساسی ANOVA و نحوه بررسی آنها.نحوه انجام ANOVA در R.نحوه تفسیر نتایج ANOVA.مفهوم آزمون post-hoc و تفسیر نتایج آن.معرفی داده‌ها:در این مقاله از مجموعه داده‌های پنگوئن‌ها استفاده شده است که از طریق کتابخانه {palmerpenguins} قابل دسترسی است:این مجموعه داده شامل اطلاعات ۳۴۴ پنگوئن از ۳ گونه مختلف (Adelie ،Chinstrap و Gentoo) است. مجموعه داده شامل ۸ متغیر است اما ما فقط از متغیرهای طول باله (flipper length) و گونه‌های پنگوئن‌ها (species) در تحلیل واریانس یک طرفه (One-way ANOVA) استفاده می‌کنیم ، بنابراین در این بخش، فقط این ۲ متغیر را نگه می‌داریم:قبل از اجرای آزمون ANOVA، در ادامه برخی از آماره‌های توصیفی مهم و یک نمودار (با استفاده از کتابخانه {ggplot2}) از دیتاست را بررسی می‌کنیم:طول باله‌ها از ۱۷۲ تا ۲۳۱ میلی‌متر متغیر است و میانگین آنها ۲۰۰/۹ میلی‌متر است. همچنین به ترتیب ۱۵۲، ۶۸ و ۱۲۴ پنگوئن از گونه‌های Adelie ،Chinstrap و Gentoo وجود دارد.در اینجا، متغیر گونه‌ها (species) را به عنوان عامل (Factor) در نظر می‌گیریم که شامل ۳ سطح (Adelie ،Chinstrap و Gentoo) است.اهداف و مفروضات آزمون ANOVA:همانطور که در مقدمه ذکر شد، از ANOVA برای مقایسه‌ی گروه‌ها (در عمل، ۳ گروه یا بیشتر) استفاده می‌شود. به طور کلی، موارد استفاده از آزمون ANOVA عبارت‌اند از:مطالعه‌ی آنکه آیا اندازه‌گیری‌ها در سطوح مختلف از یک متغیر رده‌ای، مشابه هستند یا خیر.مقایسه‌ی تأثیر سطوح مختلف یک متغیر رده‌ای بر یک متغیر کمیتوضیح یک متغیر کمی بر اساس یک متغیر کیفیبرای آزمون ANOVA، برخی مفروضات وجود دارد که باید برای دستیابی به تفسیر نتایج، برقرار باشند. اگر یک یا چند فرض برآورده نشود، اگرچه انجام این تست‌ها از نظر عملی امکان پذیر است، اما در تفسیر نتایج و اعتماد به نتیجه‌گیری با مشکل روبه‌رو خواهیم بود. فرضیات ANOVA و نحوه آزمون آنها، عبارت‌اند از:نوع متغیرها: آزمون ANOVA به یک متغیر وابسته کمی (مربوط به اندازه‌گیری‌های سوال مدنظر) و یک متغیر مستقل کیفی (با حداقل ۲ سطح که گروه‌ها را برای مقایسه تعیین می‌کند) نیاز دارد.استقلال: داده‌هایی که از کل جامعه به تصادف انتخاب شده‌اند، باید مستقل باشند. فرض استقلال اغلب بر اساس طراحی آزمایش و کنترل کامل شرایط تجربی، در نظر گرفته می‌شود. اگر بر اساس طرح آزمایش هنوز درباره استقلال اطمینان ندارید، از خود بپرسید که آیا یک مشاهده به مشاهدات دیگر ارتباطی دارد؟ اگر پاسخ، منفی است، به احتمال زیاد شما نمونه‌های مستقلی دارید. به صورت دقیق‌تر می‌توان این فرض را با استفاده از آزمون دوربین-واتسون (Durbin-Watson) در نرم افزار R، تست کرد.نرمال بودن: مانده‌ها باید دارای توزیع نرمال باشند. فرض نرمال بودن را می‌توان به استفاده از هیستوگرام و QQ-plot و یا به طور دقیق‌تر از طریق آزمون‌هایی مانند Shapiro-Wilk یا Kolmogorov-Smirnov در نرم افزار R، تست کرد.برابری واریانس‌ها: واریانس گروه‌های مختلف در جامعه، باید با یکدیگر برابر باشند (این فرض با نام همگن بودن واریانس‌ها نیز شناخته می‌شود). برای بررسی این فرض، می‌توان از نمودار جعبه‌ای یا به صورت دقیق‌تر از آزمون‌هایی مانند لون (Levene) و بارتلت (Bartlett) در نرم افزار R، استفاده کرد.آزمون آنالیز واریانس یک طرفه (One-way ANOVA):در مثال مربوط به دیتاست پنگوئن ها، به کمک آزمون آنالیز واریانس یک طرفه، می‌خواهیم بررسی کنیم که «آیا گونه‌های متفاوت از پنگوئن‌ها دارای طول باله‌های متفاوت هستند یا خیر؟»برای پاسخ به این پرسش آزمون فرض را به این صورت در نظر می‌گیریم:فرض صفر: میانگین طول باله‌ها برای هر سه گونه‌ی Adelie ،Chinstrap و Gentoo یکسان است.فرض مقابل: حداقل میانگین طول باله‌ها برای یک گونه، متفاوت از دو گونه‌ی دیگر است.توجه کنید که فرض مقابل این نیست که همه میانگین‌ها متفاوت هستند. نقیض فرض صفر به این معنی است که حداقل یک میانگین با دیگر میانگین‌ها متفاوت باشد. از این نظر، اگر فرض صفر رد شود، به این معنی است که حداقل یک گونه با ۲ گونه دیگر متفاوت است اما لزوماً میانگین هر ۳ گونه با یکدیگر متفاوت نیستند. ممکن است طول باله‌ها برای گونه Adelie نسبت به گونه‌های Chinstrap و Gentoo متفاوت باشد، اما طول باله‌ای دو گونه Chinstrap و Gentoo مشابه باشد. برای بررسی تفاوت هر سه گونه از آزمون‌های دیگری، معروف به post-hoc کمک می‌گیریم که در ادامه معرفی می‌شوند.همچنین برای اجرای آزمون فرض فوق، مدل آماری آنالیز واریانس یک طرفه به صورت زیر خواهد بود:که در آن، μ میانگین کل، τi اثر سطح iآُم متغیر عامل (تیمار) و ε به عنوان خطا تعریف می‌شود. همچنین مجموع مربعات برای این آزمایش به صورت زیر تجزیه می‌شود:بنابراین جدول آنالیز واریانس به صورت زیر خواهد بود:اکنون مفروضات اساسی آزمون ANOVA را به طور خاص برای دیتاست پنگوئن بررسی می‌کنیم.نوع متغیرها:متغیر وابسته flipper_length_mm، یک متغیر کمی است و متغیر مستقل species، یک متغیر کیفی (با سه سطح) است. بنابراین ما ترکیبی از دو نوع متغیر داریم و این فرض برقرار است.استقلال:فرض بر این است که مشاهدات در دیتاست پنگوئن به طور تصادفی از جامعه انتخاب شده‌اند و بنابراین فرض استقلال برای این مشاهدات برقرار است و همچنین اندازه گیری‌های مربوط به هر یک از سه گروه، به گروه دیگر ارتباطی ندارد.نرمال بودن:برای بررسی نرمال بودن مانده‌ها، ابتدا آزمون ANOVA را اجرا می‌کنیم و سپس مانده‌ها را در res_aov ذخیره می‌کنیم:اکنون می‌توانیم هیستوگرام و QQ-plot را برای مانده‌ها رسم کنیم:با توجه به هیستوگرام و QQ-plot، می‌توان فرض نرمال بودن را پذیرفت. در واقع، هیستوگرام تقریباً یک منحنی زنگوله‌ای شکل است که نشان می‌دهد باقیمانده‌ها از توزیع نرمال پیروی می‌کنند. علاوه بر این، نقاط در QQ-plot، تقریباً بر روی نیمساز ربع اول و سوم، قرار گرفته‌اند و از توزیع نرمال پیروی می‌کنند. همچنین می‌توان برای اطمینان بیشتر از آزمون شاپیرو در نرم افزار R، استفاده کرد. فرض صفر این آزمون بیان می‌کند که مشاهدات دارای توزیع نرمال هستند.با توجه به خروجی نرم افزار، p-value برای آزمون شاپیرو بیشتر از سطح معناداری ۰/۰۵ است و بنابراین می‌توان فرض نرمال بودن را برای مانده‌ها پذیرفت.برابری واریانس‌ها:برای بررسی این فرض ابتدا نمودار جعبه‌ای را برای مشاهدات رسم می‌کنیم:نمودار جعبه‌ای واریانس مشابهی برای گونه‌های مختلف پنگوئن، نشان می‌دهد. از این نمودار، می‌توان فهمید که جعبه‌ها اندازه‌ی یکسانی برای همه گونه‌ها دارند و این واقعیت، تاییدی بر همگنی واریانس در سه گروه است. همچنین می‌توان برای اطمینان بیشتر از آزمون لون در نرم افزار R، استفاده کرد. فرض صفر این آزمون بیان می‌کند که واریانس همه‌ی گروه‌ها با هم برابر است.با توجه به خروجی نرم افزار، p-value برای آزمون لون بیشتر از سطح معناداری ۰/۰۵ است و بنابراین می‌توان فرض همگنی واریانس را برای هر سه گروه پذیرفت.اجرای آزمون آنالیز واریانس یک طرفه در نرم افزار R:به این ترتیب نشان دادیم که تمام مفروضات آزمون آنالیز واریانس یک طرفه برای دیتاست پنگوئن برقرار است. بنابراین می‌توانیم برای پاسخ به پرسش «آیا گونه‌های متفاوت از پنگوئن‌ها دارای طول باله‌های متفاوت هستند یا خیر؟»، به اجرای ANOVA در R بپردازیم. به همین منظور از دو تابع summary و aov استفاده می‌کنیم:با توجه به خروجی نرم افزار، p-value برای آزمون آنالیز واریانس یک طرفه کمتر از سطح معناداری ۰/۰۵ است و در نتیجه فرض صفر را نمی‌توان پذیرفت. بنابراین این فرض که همه میانگین‌ها برابر هستند، را رد می‌کنیم و می‌توان نتیجه گرفت که حداقل یک گونه از نظر طول باله با گونه‌های دیگر متفاوت است.اکنون که فرض برابری میانگین طول باله‌ها برای سه گونه‌ی متفاوت از پنگوئن‌ها، رد شد، علاقه‌مند هستیم که بدانیم میانگین کدام گروه از گونه‌های Adelie ،Chinstrap و Gentoo متفاوت است؟ برای بررسی این موضوع، باید از انواع دیگر آزمون‌ها، با عنوان آزمون‌های post-hoc (به معنای «پس از این» یا «پس از به دست آوردن نتایج معنادار ANOVA») استفاده کرد.آزمون Post-hoc:همانطور که در خروجی دستور aov دیده شد، تحلیل واریانس، مشخص نمی‌کند که کدام یک از گروه‌ها باعث ایجاد اختلاف هستند. بنابراین برای تشخیص گروه متفاوت، میانگین گروه‌ها را دو به دو با یکدیگر مقایسه می‌کنیم.میانگین گونه‌ی Chinstrap در مقایسه با میانگین گونه‌ی Adelieمیانگین گونه‌ی Chinstrap در مقایسه با میانگین گونه‌ی Gentooمیانگین گونه‌ی Adelie در مقایسه با میانگین گونه‌ی Gentooیکی از انواع آزمون‌های post-hoc، آزمون معروف توکی (TukeyHSD) است که مقایسه میانگین‌ها به صورت دو به دو را برای ما در نرم افزار R، اجرا می‌کند. همچنین لازم به ذکر است که آزمون توکی، پس از اجرای آزمون ANOVA، صورت می‌گیرد و خروجی aov را به عنوان ورودی می‌گیرد:در خروجی آزمون Tukey HSD، یک جدول نمایش داده شده است. مقایسه‌های دوتایی در ستون اول این جدول مشخص شده است. براساس ستون آخر که p-value را برای آزمون اختلاف میانگین دو گروه نشان می‌دهد، متوجه می‌شویم که هر سه p-value، کوچکتر از ۰/۰۵ هستند و بنابراین فرض صفر را برای همه مقایسه‌ها رد می‌کنیم. این بدان معنی است که همه گونه‌ها از نظر طول باله تفاوت قابل توجهی دارند.مصورسازی آزمون‌های ANOVA و Post-hoc در نرم افزار R:اگر علاقه‌مند هستید که نتایج آزمون‌های ANOVA و post-hoc را مستقیماً با استفاده از یک نمودار جعبه‌ای مشاهده کنید، می‌توانید از کدهای زیر استفاده کنید!همانطور که در نمودار فوق مشاهده می‌کنید، نمودار جعبه‌ای بر اساس گونه‌ها، همراه با p-value حاصل از آزمون‌های ANOVA و post-hoc، ارائه شده است.تحلیل واریانس دو طرفه (Two-way ANOVA):در تحلیل واریانس دو طرفه، یک متغیر عامل دیگر نیز به مدل اضافه می‌شود. به این ترتیب تاثیر دو متغیر عامل بر روی متغیر پاسخ را بررسی می‌کنیم.در ادامه مثال قبلی، فرض کنید که متغیر جنسیت را به عنوان متغیر دوم، به مدل اضافه کرده‌ایم. به کمک آزمون آنالیز واریانس دو طرفه، می‌خواهیم بررسی کنیم که «آیا گونه‌های متفاوت از پنگوئن‌ها و همچنین جنسیت پنگوئن‌ها، تاثیری بر طول باله‌های پنگوئن‌ها دارند یا خیر؟»برای پاسخ به این پرسش باید سه آزمون فرض، به صورت زیر را در نظر بگیریم:همچنین برای اجرای آزمون فرض فوق، مدل آماری آنالیز واریانس دو طرفه به صورت زیر خواهد بود:که در آن، μ میانگین کل، τi اثر سطح iآُم متغیر عامل A و βj اثر سطح jآُم متغیر عامل B و τβ)ij) اثر متقابل بین عامل A و عامل B، همچنین ε به عنوان خطا تعریف می‌شود. مجموع مربعات برای این آزمایش به صورت زیر تجزیه می‌شود:بنابراین جدول آنالیز واریانس به صورت زیر خواهد بود:برای دیتاست پنگوئن‌ها، با استفاده از نرم افزار R، هر سه آزمون را با استفاده از کدهای زیر اجرا می‌کنیم:با توجه به خروجی نرم افزار و p-value، هر دو متغیر گونه‌های متفاوت از پنگوئن‌ها و همچنین جنسیت پنگوئن‌ها، به طور مستقل بر روی متغیر طول باله‌های پنگوئن‌ها، تاثیر گذارند. همچنین اثر همزمان و متقابل متغیرهای عامل (گونه‌های متفاوت و جنسیت پنگوئن‌ها)، بر روی متغیر پاسخ (طول باله‌های پنگوئن‌ها)، معنادار است.طرح بلوک‌بندی تصادفی شده (Randomized Blocks):در اغلب آزمایش‌ها، تغییرپذیری ناشی از یک عامل اغتشاش می‌تواند بر نتایج تاثیر گذارد. به طور کلی، یک عامل اغتشاش، به عنوان یکی از عوامل طرح تعریف می‌شود که احیاناً بر پاسخ تاثیرگذار است ولی ارزیابی اثر آن مورد نظر نیست. در مواردی که منبع تغییرپذیری، مربوط به عامل اغتشاش شناخته شده و قابل کنترل باشد آنگاه می‌توان از طریق روش بلوک‌بندی اثر چنین عاملی را به‌ طور ساختار یافته از مقایسه‌های آماری بین تیمارها حذف نمود. طرح بلوک بندی کامل تصادفی شده یکی از متداول‌ترین طرح‌های آزمایش است. این طرح دارای کاربردهای وسیع است. ابزارها یا دستگاه‌های آزمایش غالباً از لحاظ عملکرد با یکدیگر متفاوت هستند و معمولاً به عنوان عامل بلوک‌بندی در نظر گرفته می‌شوند. دسته‌های مواد خام، افراد و زمان نیز از متداول‌ترین منابع ایجاد تغییرات در یک آزمایش محسوب می‌شوند که می‌توان آنها را به طور ساختاریافته با استفاده از روش بلوک‌بندی کنترل کرد.در مثال مربوط به دیتاست پنگوئن‌ها، فرض کنید می‌خواهیم بررسی کنیم که «آیا گونه‌های متفاوت از پنگوئن‌ها که در جزیره‌های متفاوت زیست می‌کنند، طول باله‌های متفاوتی دارند یا خیر؟» برای پاسخ به این پرسش، متغیر پاسخ، طول باله‌ی پنگوئن‌ها، متغیر عامل، گونه‌های متفاوت از پنگوئن‌ها و متغیر جزیره (island) که دارای سه سطح Biscoe، Dream و Torgersen است را به عنوان عامل بلوک‌بندی در نظر می‌گیریم. طرح بلوک‌بندی تصادفی شده، حالت خاصی از آنالیز واریانس دو طرفه است. به عبارت دیگر، اگر در طرح آنالیز واریانس دو طرفه، اثر متقابل بین عامل‌ها وجود نداشته باشد، مدل بلوک تصادفی به دست خواهد آمد. بنابراین برای آزمون فرض‌هایمدل آماری طرح بلوک‌بندی تصادفی شده، به صورت زیر خواهد بود:که در آن، μ میانگین کل، τi اثر سطح iآُم متغیر عامل A و βj اثر بلوک jآُم و ε به عنوان خطا تعریف می‌شود. مجموع مربعات برای این آزمایش به صورت زیر تجزیه می‌شود:همچنین، جدول آنالیز واریانس به صورت زیر خواهد بود:برای اجرا دو آزمون فرض فوق، به کمک نرم افزار R، از کدهای زیر استفاده می‌‌شود:با توجه به خروجی نرم افزار و p-value، متغیر گونه‌های متفاوت از پنگوئن‌ها به طور مستقل بر روی متغیر طول باله‌های پنگوئن‌ها، تاثیر گذار است. اما برای متغیر island، از آنجا که p-value بزرگتر از مقدار ۰/۰۵ است، بنابراین فرض صفر این آزمون، مبنی بر برابر بودن میانگین طول باله‌ی پنگوئن‌ها در جزیره‌های متفاوت Biscoe، Dream و Torgersen، پذیرفته می‌شود.به این ترتیب در این مقاله، با اهداف و پیش فرض‌های آزمون ANOVA (استقلال، نرمال بودن و همگنی واریانس‌ها) آشنا شدید. همچنین مدل‌های آنالیز واریانس یک طرفه، آنالیز واریانس دو طرفه و طرح بلوک‌بندی تصادفی شده را مورد تحلیل قرار دادیم. طریقه‌ی اجرای این آزمون‌ها، در نرم افزار R مورد بررسی قرار گرفت و برای مقایسه‌ی میانگین‌ها به صورت دو به دو از آزمون توکی استفاده کردیم.

چرا برخی از خاطرات به سادگی از بین می روند؟

ایردا - IRDA — Wed, 03 Feb 2021 16:34:30 +0330

علم به خاطر سپردن ... و فراموش کردندانا جی اسمیت (Dana G Smith)"این مقاله گزیده‌ای از Inside Your Head است، یک روزنامه هفتگی نوشته شده توسط من به عنوان نویسنده ارشد Elemental و یک دانشمند سابق مغز در مورد اینکه چرا مغزتان باعث می‌شود شما فکر کنید، احساس کنید و عمل کنید.. من یک حافظه کاملاً بد دارم. مثلاً لیست‌ خرید مواد غذایی و کارهای روزمره را به خاطر می‌آورم؛ اما وقتی دوستانم به گفتگوها یا رویدادهای سالهای قبل اشاره می‌کنند، خاطرات کمی از آنها به یاد می‌آورم. این مساله چندی پیش تکرار شد هنگامی که مادر هفتاد ساله‌ام که به لحاظ سنی قاعدتاً باید حافظه بدتری نسبت به من داشته باشد، به این موضوع اشاره کرد که هم اتاقی دانشگاهم در مراسم شکرگذاری اخیر با ما بوده است. اما من چیزی به خاطر نداشتم (متاسفم ، ملیسا!). من واقعا فکر می کردم این ساخته ذهن مادرم است؛ تا اینکه عکس هایی از ما دو نفر را که در آشپزخانه با هم مشغول پختن پای بودیم را به من نشان داد. چرا ذهن بعضی از افراد آهنی است در حالیکه برخی دیگر اصطلاحاً حافظه‌ ماهی مانند دارند؟ در مورد حافظه سه فرآیند اصلی وجود دارد: رمزگذاری، تلفیق و بازیابی و در هر یک از این مراحل ممکن است مشکلاتی ایجاد شود که باعث فراموشی شما می‌شود. رمزگذاری ارتباط نزدیکی با توجه دارد و حافظه ضعیف اغلب بازتابی از توجه ضعیف است. دلیلی که شما (من) همیشه نام شخصی که تازه ملاقات کرده‌اید را فراموش می کنید اینست که به آن توجه نکردید. ممکن است در آن لحظه در حال فکر کردن به این هستید که کلمه بعدی که قرار است بگوید چیست یا اینکه برای شام چه چیزی آماده کنید. به هر دلیلی که باشد، نتیجه اینست که اطلاعات مهم یعنی نام آنها به اندازه کافی به مغز شما نفوذ نکرده است تا در حافظه شما ذخیره شود. همین اتفاق در کلاس، به هنگام مکالمه یا خواندن کتاب می افتد مادامی که توجه نمی کنید. اگر روی کاری که انجام می دهید تمرکز نکنید، نمی‌توانید آن را به خاطر بسپارید. قسمت ادغام زمانی است که خاطره‌ای که در حافظه کوتاه مدت شما پردازش می شود و فقط 30 ثانیه طول می کشد، به حافظه بلند مدت شما منتقل می شود. بعضی اوقات این مساله از طریق تکرار اتفاق می افتد، نامی را به اندازه کافی تکرار می کنید تا زمانی که نهایتاً آن را به خاطر بسپارید. برخی مواقع، یک واقعه به احساسی گره خورده است که به ایجاد آن در مغز کمک می کند. به عنوان مثال، بیشتر مردم وقتی كه برج های دوقلو در یازده سپتامبر سقوط كردند به وضوح به یاد می آورند كه كجا بودند؛ زیرا آن روز بسیار آسیب‌زا و ترسناک بود و احساساتی مانند ترس و استرس رو به افزایش بود. این احساسات و هورمون های استرس مربوط به آن باعث می شود که شما بیشتر توجه کنید. در مغز، حافظه کوتاه مدت در قشر جلوی پیشانی (prefrontal cortex) پردازش می شود در حالی که ادغام در حافظه طولانی مدت در هیپوکامپ (hippocampus) اتفاق می افتد، البته که سایر قسمت‌های مغز نیز درگیر هستند. به عنوان مثال، خاطرات احساسی، بخش آمیگدال(Amygdala)، مرکز ترس و انگیختگی (arousal) مغز را نیز فعال می کند، که باعث می شود آنها عمیق‌تر جاسازی شوند و طولانی‌تر شوند. در آخرین مرحله، حافظه های طولانی مدت از هیپوکامپ به نئوکورتکس، لایه بالایی مغز، که ظرفیت ذخیره سازی بیشتری دارد منتقل می شوند. قسمت آخر حافظه، بازیابی است، وقتی چیزی را که قبلاً ذخیره کرده‌اید به یاد می‌آورید. در طی این فرآیند، حافظه به عقب برمی‌گردد و همان سلول‌های موجود در هیپوکامپ و نئوکورتکس دوباره فعال می‌شوند. خاطراتی که مرتباً به یاد می‌آیند با گذشت زمان قوی‌تر می شوند، این دلیل دیگری است که خاطرات احساسی بیشتر به یاد آورده می‌شوند؛ زیرا به احتمال زیاد آنها را بارها و بارها مرور می کنید. مرگ سلولي در هيپوكامپ،، آن قطب مهم حافظه كه هم در تثبيت و هم در بازيابي نقش دارد، يكي از علل از دست دادن حافظه است. این اتفاق می‌تواند به دلیل بیماری‌هایی مانند زوال عقل، افسردگی شدید ، مصرف زیاد الکل و حتی پیری طبیعی رخ دهد. با این حال، دانشمندان کشف کرده اند که نورون‌های جدیدی می‌توانند در هیپوکامپ نیز متولد شوند، خصوصاً در اثر ورزش که به طور بالقوه می تواند مانع از دست رفتن برخی از سلول‌ها و از دست دادن حافظه شود. اگرچه شایع ترین علت از دست دادن حافظه به موضوع ساده ذخیره سازی برمی‌گردد. مانند رایانه، مغز شما دارای یک فضای محدود و ظرفیت پردازش است. به منظور ایجاد فضا برای خاطرات جدید، خاطرات قدیمی که مرتباً به خاطر نمی‌آیند و بنابراین احتمالاً خیلی مهم نیستند (مانند ظاهراً شکرگذاری ام با هم اتاقی قدیمی ام) رو به زوال می روند. این اتفاق در اثر از بین رفتن اتصالاتی به نام سیناپس بین سلولهای مغزی رخ می‌دهد که هنگام یادگیری چیزی یا تجربه جدیدی ایجاد می‌شوند. هرچه حافظه را بیشتر فعال کنید، آن سیناپس‌ها قوی‌تر می شوند و یادآوری خاطرات راحت‌تر خواهد بود. اگر از حافظه غافل شوید، این اتصالات از بین می‌روند تا جایی برای اتصالات جدید ایجاد شود. جالب اینجاست که به نظر می رسد تلفن های هوشمند حافطه ما را تغییر می دهند. آنجلا لشبروک (Angela Lashbrook) در اوایل سال جاری مقاله جالبی برای Elemental نوشت درباره اینکه چگونه عکس گرفتن از وقایع در واقع خاطرات شما از آنها را کاهش می کند. دلیل این امر این است که اگر شما متمرکز بر گرفتن عکس یا نوشتن کپشن اینستاگرام هستید، به خود رویداد توجه نمی کنید. او نوشته است "همچنین ممکن است ناخودآگاه به دوربین وابسته شوید تا آن به جای شما به خاطر بسپارد". با این حال، خود این عکس‌ها می‌توانند بعداً جرقه‌ای در حافظه شما ایجاد کنند و در نهایت به شما کمک کنند با نگاه کردن به عکس‌ها خاطرات را به یاد بیاورید. در واقع، شما حافظه خود را به حافظه تلفنتان منتقل کرده‌اید. امیدواریم حساب iCloud گوشی شما فضای ذخیره سازی بیشتری نسبت به مغزتان داشته باشد."مرجع آمار ایران

بهترین لپ تاپ‌ها برای یادگیری ماشین (Machine Learning)، علم داده (Data Science) و یادگیری عمیق (Deep Learning)

ایردا - IRDA — Wed, 27 Jan 2021 09:05:09 +0330

در طول یک سال گذشته، ما بیش از 2000 لپ تاپ را بررسی کرده ایم و بهترین لپ تاپ ها برای یادگیری ماشین، علم داده و یادگیری عمیق، متناسب با هر بودجه‌ای را انتخاب کردیم.کارآموزان یادگیری ماشین، کارآموزان یادگیری عمیق و دانشمندان داده به طور مداوم به دنبال دستگاه های عملکرد‌گرا و پرقدرت هستند. به همین دلیل ما بیش از 2000 لپ تاپ را بررسی کردیم تا بهترین لپ تاپ‌ها در زمینه یادگیری ماشین، یادگیری عمیق و علم داده را به شما ارائه دهیم.صندوق پستی ما پر است از ایمیل‌هایی که از ما بهترین لپ تاپ‌ها را برای پروژه های هوش مصنوعی می خواهند. به همین دلیل تصمیم گرفتیم این لیست را تهیه کنیم. اگر پیشنهادی برای افزودن به لیست دارید، لطفاً از طریق این ایمیل pub@towardsai.net به ما اطلاع دهید.برای بودجه‌های زیر 1,000.00 دلار:ایسر نیترو 5 (Acer Nitro 5)بهترین لپ تاپ زیر هزار دلار. ایده‌آل برای کسانی که به دنبال پردازشگر Intel، سایز مناسب RAM و RTX GPUs با بودجه زیر یک هزار دلار هستند.مشخصات:پردازشگر: Intel Core i7–9750h up to 4.5 GHzحافظه: 16 GB DDR4هارد درایو: 256 GB NVMe SSDGPU: NVIDIA GeForce RTX 2060 6 GBقدرت پردازش: 7.5پرت‌ها (Ports): 1x HDMI 2.0, 1x USB 3.1 Type-C, 2x USB 3.1, 1x USB 2.0.OS: ویندوز 10وزن: 4.85Ibsنمایش: 15.6, 1920 X 1080اتصال: WiFi 802.11ax, Gigabit LAN (Ethernet), Bluetooth.عمر باتری: به طور متوسط چهار ساعتایسوس Asus TUF)TUF)بهترین لپ تاپ برای بودجه زیر یک هزار دلار؛ اما همچنان قدرتمند در RTX GPU و با یک فضای ذخیره‌سازی بزرگتر.مشخصات:پردازشگر: AMD Ryzen 7–4800H up to 4.2 GHzحافظه: 8GB RAM DDR4 SDRAMهارد درایو: 512 GB SSDGPU: NVIDIA GeForce RTX 2060 6 GBقدرت پردازش: 7.5پرت‌ها (Ports): 1x HDMI 2.0, 1x USB 3.1, 1x USB 3.2 Gen 2OS: ویندوز 10وزن: 5.07 Ibsنمایش: 15.6, 1920 x 1080 60Hzاتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetooth.عمر باتری: به طور متوسط پنج ساعتبرای بودجه‌های بین 1,000.00 تا 2,000.00 دلار:CUK GP65 Leopard by MSIبهترین لپ تاپ برای کسانی که به دنبال فضای ذخیره‌سازی بالاتری هستند.مشخصات:پردازشگر: Intel Core i7–10750H [3] up to 5GHzحافظه: 64GB RAM DDR4 SDRAMهارد درایو: 1TB NVMe SSD, 2 TB HDDGPU: NVIDIA GeForce RTX 2070 8 GBقدرت محاسبه: 7.5پورت‌ها (Ports): 1x HDMI 2.0, 1x Thunderbolt 3, 1x USB-A 3.2, 2x USB 2.0.OS: ویندوز 10 پرو 64 بایتوزن: 5.14 Ibsنمایش: 15.6, 1920 x 1080 144Hzاتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetoothعمر باتری: به طور متوسط پنج ساعتدل فلگشیپ G5 (Flagship Dell G5)بهترین گزینه برای کسانی که به دنبال عملکرد Max-Q در GPUشان هستند. علاوه بر این دارای پورت Thunderbolt 3 برای قابلیت‌های کاری است.مشخصات:پردازشگر: Intel Core i7–10750H up to 5GHzحافظه: 64GB RAM DDR4 SDRAMهارد درایو: 1TB SSDGPU: NVIDIA GeForce RTX 2070 8 GB Max-Qقدرت پردازش: 7.5پورت‌ها (Ports): 1x HDMI 2.0, 1x Thunderbolt 3, 1x USB-A 3.2, 2x USB 2.0OS: ویندوز 10 پرو 64 بایتوزن: 5.18 Ibsنمایش: 15.6, 1920 x 1080 144Hzاتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetoothعمر باتری: به طور متوسط پنج ساعتاینتل وایت بوک (Intel Whitebook)بهترین لپ تاپ زیر دو هزار دلار. بهترین گزینه برای کسانی که به برند اهمیت نمی دهند، بلکه وزن لپ تاپ ، بودجه و قابلیت های ورک استیشن (backports) و داشتن پورت thunderbolt 3 برایشان اهمیت دارند.مشخصات:پردازشگر: Intel Core i7–9750H [2] up to 4.5 GHzحافظه: 64GB RAM SODIMM.هارد درایو: 2TB NVMe SSDGPU: NVIDIA GeForce RTX 2070 8 GBقدرت پردازش: 7.5پورت‌ها (Ports): 1x HDMI, 1x Thunderbolt 3, 2x USB 3.1, 1x USB 3.1 Gen 2OS: ویندوز 10 پرو 64 بایتوزن: 4.2 Ibsنمایش: 15.6, 1920 x 1080اتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetoothعمر باتری: به طور متوسط پنج ساعتبرای بودجه‌های بین 2,000.00 تا 4,000.00 دلار:Lenovo Legion 7iبهترین لپ تاپ برای کسانی که به دنبال عملکرد عالی همه جانبه هستند.مشخصات:پردازنده: Intel Core i9 10980 HK up to 5.30 GHz.حافظه: 64GB RAM DDR4هارد درایو: 1TB PCIe SSD, 512 GB PCIe SSDGPU: NVIDIA GeForce RTX 2080 Super Max-Q 8GBقدرت محاسبه: 7.5پورت‌ها (Ports): 1x HDMI, 1x Thunderbolt 3, 1x USB-C, 2x USB 3.2OS: ویندوز 10 پرو 64 بایتوزن: 4.6 Ibsنمایش: 15.6, 1920 x 1080 144Hzاتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetoothعمر باتری: به طور متوسط پنج ساعتMSI GE66 DragonShieldبهترین لپ تاپ برای کسانی که به دنبال عملکرد عالی و قابلیت‌های ورک استیشن هستند. فقط بهتر می‌بود که به جای RTX2070، RTX2080 داشت. بنابراین قبل خرید به این نکته توجه کنید.مشخصات:پردازنده: Intel Core i9 10980 HK up to 5.30 GHzحافظه: 64GB RAM DDR4هارد درایو: 2TB PCIe SSDGPU: NVIDIA GeForce RTX 2070 Super Max-Q 8GBقدرت پردازش: 7.5پورت‌ها (Ports): 1x HDMI, 1 mini Display Port 2, 2x USB-C, 2x USB 3.2OS: ویندوز 10 پرو 64 بایتوزن: 5.25 Ibsنمایش: 15.6, 1920 x 1080 144Hzاتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetoothعمر باتری: به طور متوسط پنج ساعتCUK WF75 by MSIبهترین گزینه برای کسانی که به دنبال لپ تاپ با مشخصات عالی هستند و هنوز به بودجه خود اهمیت می دهند. نکته خوب این لپ تاپ عملکرد بهتر RTX 2080نسبت به Quadro RTX 3000 است.مشخصات:پردازنده: Intel Core i7–10750H up to 5 GHzحافظه: 64GB RAM DDR4هارد درایو: 1TB NVMe SSDGPU: NVIDIA Quadro RTX 3000 6GBقدرت پردازش: 7.5پورت‌ها (Ports): 1x HDMI, 1x USB 3.2 Type-C, 1x USB 3.2 Type-A, 2x USB 3.1OS: ویندوز 10 پرو 64 بایتوزن: 4.85 Ibsنمایش: 15.6, 1920 x 1080اتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetooth.عمر باتری: به طور متوسط پنج ساعتEluktronics Max-17بهترین لپ تاپ زیر سه هزار دلار. طراحی لپ تاپ Eluktronics شبیه به Intel Whitebook است؛ اما GPUs و پردازنده های آنها بروزتر و کارآمدتر هستند و همچنین یک ورک استیشن قدرتمند ایجاد می کند.مشخصات:پردازنده: Intel Core i7–10875H up to 5.1 GHzحافظه: 64GB RAM DDR4هارد درایو: 1TB NVMe SSDGPU: NVIDIA RTX 2080 Super Max-Q 8GBقدرت پردازش: 7.5پورت‌ها (Ports): 1x HDMI, 1x Thunderbolt 3, 1USB 3.1 Gen 2, 2x USB 3.1OS: ویندوز 10 پرو 64 بایتوزن: 3.82 Ibsنمایش: 15.6, 1920 x 1080 144Hzاتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetoothعمر باتری: به طور متوسط پنج ساعتCUK Rog by ASUSبهترین لپ تاپ به لحاظ قیمت. پردازشگرهای مشابهی با intel whitebook دارد؛ اما اگر برند اهمیت زیادی برایتان دارد قطعاً ایسوس را انتخاب کنید. thunderbolt 3 port ندارد.مشخصات:پردازشگر: Intel Core i7–10875H up to 5.1 GHzحافظه: 64GB RAM DDR4هارد درایو: 2TB NVMe SSDGPU: NVIDIA RTX 2070 8GBقدرت پردازش: 7.5پورت‌ها (Ports): 1x HDMI, 1USB 3.2 Gen 2 Type C, 3x USB 3.2 Type-AOS: ویندوز 10 پرو 64 بایتوزن: 5.3 lbsنمایش: 15.6, 1920 x 1080 144Hzاتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetoothعمر باتری: به طور متوسط پنج ساعتبهترین لپ تاپ برای کسانی که مک (Macs) را ترجیح می‌دهند:اپل مک بوک پرو (Apple MacBook Pro)، 2449.00 دلاراگر سیستم عامل مک را ترجیح می دهید و زیاد به GPU اعتماد ندارید، بهترین انتخاب این لپ تاپ است. مک بوک‌ها به دلیل داشتن پورت‌های Thunderbolt 3 ورک استیشن‌های بسیار قدرتمندی هستند و عمر باتری بسیار خوبی دارند.مشخصات:پردازشگر: Intel Core i9–10875H up to 4.8 GHzحافظه: 16GB RAM DDR4هارد درایو: 1TB NVMe SSDGPU: AMD Radeon Pro 5500M 4 GBپورت‌ها (Ports): Four Thunderbolt 3 (USB-C) portsOS: Mac OSوزن: 4.3 Ibsنمایش: 15.6, 1920 x 1080 144Hzاتصال: WiFi 802.11ac, Gigabit LAN (Ethernet), Bluetoothعمر باتری: به طور متوسط 7-11 ساعتنتیجه گیری:امیدواریم این لیست برای جستجوی یک لپ تاپ مفید برای یادگیری عمیق، یادگیری ماشین و پروژه های علوم داده مفید باشد. اگر با لپ تاپ های خارق العاده ای مانند موارد ذکر شده در این لیست روبرو شدید ، لطفاً از طریق ایمیل با ما در میان بگذارید.

آزمون‌های پارامتری

ایردا - IRDA — Tue, 12 Jan 2021 15:38:00 +0330

اگر با علم آمار آشنایی داشته باشید، باید بدانید که استنباط آماری در یک نمونه‌ی تصادفی با یک یا چند پارامتر مجهول، معمولاً با معلوم بودن نوع توزیع احتمال یک متغیر تصادفی، صورت می‌گیرد. به عنوان مثال فرض کنید که نمونه‌ای تصادفی از نمرات دانشجویان کلاس درس ریاضی داشته باشیم و نمره یک دانشجو، متغیری تصادفی با توزیع نرمال باشد. می‌خواهیم میانه‌ی این متغیر (یعنی پارامتری که نمرات ۵۰ درصد از دانشجویان، کمتر از آن است) را برآورد کنیم. چون در توزیع نرمال، میانگین و میانه با هم برابر هستند، در نتیجه میانگین نمونه‌ی تصادفی، هم میانگین و هم میانه را برآورد می‌کند. بنابراین در این مسئله، برآوردیابی را با دانستن نوع توزیع جامعه، انجام داده‌ایم. از اینرو این شاخه از علم آمار را «آمار پارامتری» گوییم.تصور کنید در حال اجرای آزمایشی هستید که می‌خواهید دو گروه را با هم مقایسه کنید و تفاوت بین آنها را تعیین کنید. مثلاً می‌خواهید بدانید:آیا مردم یک کشور از افراد کشور دیگر بلندتر هستند؟آیا مغز یک فرد هنگام تماشای فیلم‌های شاد بیشتر از فیلم‌های غمگین فعال است؟این مقایسه‌ها را می‌توان با انجام تجزیه و تحلیل آماری مختلف، مانند آزمون Z و آزمون T انجام داد. ازآزمون‌های Z و T در آزمون فرض مربوط به میانگین یک یا دو جامعه‌ی مستقل استفاده می‌شود. با استفاده از یک بلاک کد سریع، تولید نتایج از این تست‌ها آسان است اما در این وبلاگ، در مورد ریاضیات و مفروضات پشت هر یک از این آزمون‌ها بحث خواهیم کرد. همچنین فرض می‌کنیم شما اصول اجرای آزمون فرض آماری را درک کرده‌اید.آزمون Z :وقتی می‌خواهیم آزمون کنیم که نمونه‌ای از جمعیت مشخصی آمده است، از آزمون Z استفاده می‌شود. به عبارت دیگر، می‌خواهیم آزمون کنیم که آیا نمونه با آنچه از جمعیت معینی انتظار داریم متفاوت است یا خیر.مفروضات آزمون Z :برای اجرای آزمون Z ابتدا به یک نمونه نیاز داریم. در آزمون Z ، نمونه ما به طور کلی بزرگ است (حجم نمونه باید بزرگتر یا مساوی با ۳۰ باشد). ما همچنین باید اطمینان حاصل کنیم که نمونه ما به طور تصادفی انتخاب شده و روند انتخاب نمونه، مستقل است. مورد دیگری که باید به آن توجه داشت و در آزمون Z شرط اساسی محسوب می‌شود، معلوم بودن واریانس جامعه است. اگر این شرط برقرار نباشد، از آزمون T استفاده خواهیم کرد.انواع آزمون Z :آزمون Z تک نمونه‌ای: آزمون و استنباط در مورد میانگین یک جامعه.آزمون Z برای نمونه‌هایی از دو جامعه‌ی مستقل: آزمون و استنباط در مورد میانگین دو جامعه مستقل.آزمون Z تک نمونه‌ای:پس از اطمینان حاصل کردن از تحقق مفروضات فوق در مسئله، می¬توانیم آزمون Z را اجرا کنیم. برای شروع، آماره Z را محاسبه می‌کنیم. آماره Z استاندارد‌سازی میانگین نمونه شما نسبت به توزیع نرمال استاندارد است. برای یادآوری، یک توزیع نرمال استاندارد دارای میانگین صفر و واریانس واحد است. فرمول محاسبه آماره Z به صورت زیر است:پس از داشتن آماره‌ی Z ، برای محاسبه‌ی p-value به جدول Z نگاه می‌کنیم. در این جداول، اندازه‌ی مساحت زیر منحنی نرمال استاندارد، محاسبه شده است. برای آشنایی بیشتر با p-value و نحوه محاسبه آن، پیشنهاد می‌شود مطالب مربوط به آن را که در همین وبلاگ تهیه شده، مشاهده کنید. برای یافتن p-value، باید فرض مقابل را در نظر بگیریم. اگر فرضیه مقابل شما بیان می‌کند:میانگین نمونه بیشتر از میانگین جمعیت است: احتمالی را که با استفاده از جدول نرمال استاندارد به دست آورده‌اید، از ۱ کم کنید تا p-value به دست آید.میانگین نمونه کمتر از میانگین جمعیت است: از احتمالی که با استفاده از جدول نرمال استاندارد به دست آورده‌اید، به عنوان p-value استفاده کنید.میانگین نمونه با میانگین جمعیت برابر نیست: هر کدام از احتمال‌های بالا که کمتر بود را انتخاب کرده و سپس در دو ضرب کنید تا p-value به دست آید.اگر مقدار p-value شما از مقدار آلفای شما کمتر باشد، در این صورت می‌توانید فرض صفر را رد کرده و بیان کنید که اختلاف آماری وجود دارد. در غیر این صورت، شما نمی‌توانید فرض صفر را رد کرده و بگویید که نمونه با جمعیت متفاوت است. اگر مقدار آلفا یا خطای نوع اول مشخص نباشد، به صورت قراردادی از مقدار ۰/۰۵ برای آلفا استفاده می‌کنیم.آزمون Z برای نمونه‌هایی از دو جامعه‌ی مستقل:برای آزمون در مورد میانگین دو جامعه‌ی مستقل، با فرض نرمال بودن مشاهدات و مشخص بودن واریانس دو جامعه، می‌توان از آماره‌ Z با توزیع نرمال استاندارد استفاده کرد. در چنین حالتی برای آزمون فرض دو طرفه‌یآماره آزمون به صورت،تعریف می‌شود.فرض کنید دانشجویی می‌خواهد بفهمد کدام یک از اساتید زیست شناسی یا اساتید زبان انگلیسی الگوهای رفتاری (memes) بیشتری می‌دانند. این دانشجو یک مسابقه الگوی رفتاری می‌نویسد و آن را در ساعت‌های اداری بر روی ۱۴ استاد بی‌خبر زیست شناسی و ۱۸ استاد بی‌خبر زبان انگلیسی پیاده‌سازی می‌کند.اساتید زیست شناسی نمرات زیر را کسب می‌کنند:و همچنین اساتید زبان انگلیسی نمرات زیر را کسب می‌کنند:فرض کنید مشاهدات دارای توزیع نرمال و به ترتیب دارای واریانس معلوم ۳ برای گروه ۱ (اساتید زیست‌شناسی) و واریانس ۲ برای گروه ۲ (اساتید زبان انگلیسی) باشند. می‌خواهیم آزمون کنیم که بین نمرات اساتید زیست‌شناسی و نمرات اساتید زبان انگلیسی تفاوت معناداری وجود دارد یا خیر. بنابراین آزمون فرض زیر را برای اساتید زیست شناسی به عنوان گروه یک و اساتید زبان انگلیسی به عنوان گروه دو در نظر بگیرید:برای اجرای آزمون در نرم افزار R به صورت زیر عمل می‌کنیم:با توجه به خروجی نرم افزار، مقدار آماره‌ی آزمون Z برابر با 3756/0- به دست آمد. برای محاسبه‌ی p-value از جدول توزیع نرمال استاندارد استفاده می‌کنیم. بنابراین داریم:همچنین اگر به جدول توزیع نرمال استاندارد دسترسی ندارید، می‌توان برای محاسبه‌ی p-value از نرم افزار R به صورت زیر کمک گرفت:بنابراین با توجه به خروجی نرم افزار p-value برای این آزمون برابر با ۰/۷۱ بوده و چون بیشتر از سطح معناداری ۰/۰۵ است، فرض صفر را قبول می‌کنیم. به عبارت دیگر تفاوت معناداری بین میانگین نمرات اساتید زیست شناسی و اساتید زبان انگلیسی وجود ندارد.آزمون T چیست؟آزمون T یک نوع آمار استنباطی است که برای مطالعه اختلاف آماری موجود بین دو گروه و یا دو متغیر وابسته در یک گروه مورد استفاده قرار می‌گیرد.آزمون T در اصل بر پایه‌ی توزیع T شکل می‌گیرد. این توزیع در سال ۱۹۰۸ توسط و.س.گوست (W.S. Gossett, 1876-1937) با نام مستعار «استیودنت» گسترش یافت. گوست، زندگی حرفه‌ای خود را صرف تأسیس شرکت آبجوسازی گینس، ابتدا در دوبلین و سپس در لندن کرد. علاقه‌ی او به آمار، ریشه در مسایلی داشت که به کنترل کیفیت مواد تشکیل دهنده‌ی آبجو مربوط می‌شد. او در تدوین و تنظیم روش‌های آماری و طرح‌های آزمایشی، سهم بسزایی داشت. اگرچه نامبرده به عنوان ریاضیدانی برجسته مورد توجه قرار نگرفت، اما به علت قابلیت مورد ملاحظه و استنباط شهودی که در حل مسائل آماری داشت، از او به عنوان فارادی آمار نام برده‌اند.انواع آزمون T-Student :متناسب با فرضیات مسئله، انواع مختلفی از آزمون‌های آماری وجود دارد. بنابراین فرضیاتی که باید هنگام تصمیم گیری درباره نوع آزمون به آنها توجه کنید، عبارت‌اند از:زوجی یا مستقل بودن مشاهدات: آیا داده‌های هر دو گروه از یک آزمودنی حاصل می‌شوند یا خیر.روش استنباط پارامتری یا ناپارامتری: آیا توزیع داده‌ها مشخص است یا خیر.سه نوع متفاوت از آزمون T وجود دارد:آزمون T تک نمونه‌ای (One Sample T Test): آزمون و استنباط در مورد میانگین یک جامعه.آزمون T برای نمونه‌های از متغیرهای زوجی(Paired Sample T Test) : آزمون و استنباط در مورد میانگین دو متغیر از یک جامعه.آزمون T برای نمونه‌هایی از دو جامعه مستقل (Unpaired Two Sample T Test) : آزمون و استنباط در مورد میانگین دو جامعه مستقل.آزمون T کلاسیک : اگر فرض برابری واریانس‌های دو جامعه برقرار باشد.آزمون T-Welch : اگر واریانس‌های دو جامعه، نابرابر باشند.همانطور که گفته شد، تفاوت‌هایی که آزمون T را از سایر آزمون‌ها متفاوت می‌سازد، مفروضات مهم مسئله است:داده‌ها باید از مقیاس پیوسته یا ترتیبی پیروی کنند.داده‌ها باید به طور تصادفی انتخاب شوند.داده‌ها باید دارای توزیع نرمال باشند.داده‌ها باید دارای واریانس ثابت باشند.آزمون T تک نمونه‌ای (One Sample T Test):این آزمون، میانگین (μ) جامعه‌ای با توزیع نرمال را با مقدار مشخص شده‌ای، مقایسه می‌کند. بنابراین برای آزمون فرضآماره آزمون برای آزمون T تک نمونه‌ای به صورتتعریف می‌شود که این آماره دارای توزیع T با (n-1) درجه‌ی آزادی است.پس از به دست آوردن مقدار آماره‌ی آزمون، p-value را از طریق جدول آماری T جستجو کنید. در نرم افزار R، تابع t.test این کار را برای ما انجام می‌دهد. اگر p-value از مقدار معناداری از پیش تعیین شده کمتر بود، فرض صفر را رد کنید و فرض مقابل را بپذیرید.به عنوان مثال، نمونه‌ی تصادفی از پرونده‌های شرکتی نشان می‌دهد که سفارشات برای قطعه‌ی معینی از ماشین‌ها به ترتیب در ۱۰، ۱۲، ۱۹، ۱۴، ۱۵، ۱۸، ۱۱ و ۱۳ روز بایگانی شده است. مدیر شرکت ادعا می‌کند که میانگین زمان بایگانی چنین سفارشاتی ۱۰/۵ روز است. اگر تعداد روزهای بایگانی از توزیع نرمال پیروی کند، آیا در سطح معناداری ۰/۰۱ می‌توان چنین ادعایی را پذیرفت؟در این مثال با آزمونمواجه هستیم که در واریانس جامعه نامعلوم است. پس برای انجام آزمون، می‌توان از آزمون T تک نمونه‌ای کمک گرفت. به همین منظور از تابع t.test در نرم افزار R استفاده می‌کنیم:با توجه به خروجی نرم افزار، p-value بیشتر از سطح معناداری ۰/۰۱ است. پس می توانیم فرض صفر را قبول کنیم و در نتیجه ادعای مدیر شرکت را در مورد میانگین روزهای بایگانی سفارشات، بپذیریم.آزمون T برای نمونه‌ای از متغیرهای زوجی(Paired Sample T Test)از این آزمون برای مقایسه میانگین بین دو گروه در یک نمونه استفاده می‌شود. به عبارت دیگر، اگر شما می‌خواهید در مورد میانگین یک گروه از آزمودنی‌ها، قبل و بعد از یک آزمایش یا یک تمرین و... استنباطی انجام دهید، می‌توانید از آزمون T جفتی استفاده کنید. در این حالت، در واقع، برای هر مشاهده دوبار اندازه‌گیری یک متغیر کمی صورت گرفته است.به عنوان مثال، فرض کنید در آزمایشی، ۲۰ موش در طی ۳ ماه تحت درمان X قرار گرفتند. ما می خواهیم بدانیم که آیا درمان X بر وزن موش‌ها تاثیر دارد یا خیر. برای پاسخ به این سوال، وزن ۲۰ موش قبل و بعد از درمان اندازه‌گیری شده است. بنابراین مشاهدات به صورت ۲۰ مجموعه مقادیر قبل از درمان و ۲۰ مجموعه مقادیر بعد از درمان X، حاصل از دوبار اندازه‌گیری وزن هر موش، جمع‌آوری شده است. در چنین شرایطی، می‌توان از آزمون T زوجی برای مقایسه میانگین وزن قبل و بعد از درمان موش‌ها استفاده کرد.تجزیه و تحلیل آزمون T زوجی به شرح زیر انجام می‌شود:اختلاف (d) بین هر جفت از مشاهدات را محاسبه کنید.میانگین (m) و انحراف استاندارد (s) مربوط به مشاهدات d را محاسبه کنید.اختلاف میانگین را با صفر مقایسه کنید. اگر تفاوت معنی داری بین دو جفت نمونه وجود داشته باشد، انتظار می‌رود که میانگین d از صفر فاصله داشته باشد.به این ترتیب برای آزمون فرض،مقدار آماره‌ی آزمون T زوجی را می‌توان با استفاده از فرمول زیر محاسبه کرد:که این آماره دارای توزیع T با (n-1) درجه‌ی آزادی است.تابع R برای محاسبه آزمون T زوجی:برای اجرای آزمون T نمونه‌های جفتی (x , y) ، می‌توان از تابع t.test در نرم افزار R، به صورت زیر استفاده کرد:با توجه به مثال گفته شده، از یک مجموعه داده نمونه استفاده خواهیم کرد که شامل وزن ۱۰ موش قبل و بعد از درمان است.برای مشاهده‌ی داده‌ها از نمودار جعبه‌ای در نرم افزار R استفاده می‌کنیم:سپس فرضیات آزمون T جفتی، شامل نرمال بودن داده‌ها را بررسی می‌کنیم. به این منظور از آزمون شاپیرو در نرم افزار R استفاده می‌کنیم.با توجه به خروجی نرم افزار، p-value بیشتر از سطح معناداری ۰/۰۵ است که نشان می‌دهد توزیع اختلافات (d) تفاوت معناداری با توزیع نرمال ندارد. به عبارت دیگر ، ما می‌توانیم فرض نرمال بودن مشاهدات (d) را بپذیریم.اکنون می‌توانیم با استفاده از تابع t.test، آزمون T جفتی را بر روی مشاهدات پیاده‌سازی کنیم:با توجه به خروجی نرم افزار، p-value کمتر از سطح معناداری ۰/۰۵ است. پس می‌توانیم فرض صفر را رد کنیم و نتیجه بگیریم که میانگین وزن موش‌ها قبل از درمان با میانگین وزن بعد از درمان، تفاوت معناداری دارد.آزمون T برای نمونه‌هایی از دو جامعه مستقل (Unpaired Two Sample T Test) از این آزمون برای مقایسه میانگین دو گروه مستقل استفاده می‌شود. به عنوان مثال، فرض کنید در شرکتی، وزن ۱۰۰ فرد را اندازه‌گیری کرده‌ایم: ۵۰ کارمند خانم (گروه A) و ۵۰ کارمند آقا (گروه B). می‌خواهیم بدانیم که آیا میانگین وزن خانم‌ها با میانگین وزن آقایان تفاوت معناداری دارد یا خیر. در این حالت، دو گروه نمونه مستقل (یا جفت نشده) داریم. بنابراین، می‌توان از آزمون T مستقل برای ارزیابی متفاوت بودن میانگین‌ها استفاده کرد.برای استفاده از آزمون T مستقل، فرض صفر به صورتتعریف می‌شود و فرض مقابل را به صورت یکی از حالت زیردر نظر می‌گیریم. در اینجا فرض کنید، فرض مقابل دو طرفه را در نظر گرفته‌ایم.آزمون T کلاسیک :در صورتی که واریانس دو گروه برابر باشد، آماره‌ی آزمون T مستقل برای مقایسه‌ی میانگین دو نمونه (A و B) به صورت زیر تعریف می‌شود:که در آن S2 واریانس آمیخته برای دو جامعه A و B است که به صورت زیر محاسبه می‌شود:در این حالت آماره آزمون دارای توزیع T بادرجه‌ی آزادی است.آزمون T-Welch :در صورتی که واریانس دو گروه برابر نباشد، برای مقایسه‌ی میانگین دو نمونه (A و B) از آماره‌یT-Welch استفاده می‌شود که به صورت زیر تعریف می‌شود:این آماره نیز دارای توزیع T با درجه آزادی زیر است:تابع R برای محاسبه آزمون T مستقل:با توجه به مثال گفته شده، از یک مجموعه داده نمونه استفاده خواهیم کرد که شامل وزن ۹ کارمند خانم و ۹ کارمند آقا در یک شرکت است:برای مشاهده‌ی داده‌ها از نمودار جعبه‌ای در نرم افزار R استفاده می‌کنیم:سپس فرضیات آزمون T مستقل، شامل نرمال بودن داده‌ها و برابری واریانس دو جامعه را بررسی می‌کنیم. برای بررسی نرمال بودن مشاهدات از آزمون شاپیرو در نرم افزار R استفاده می‌کنیم.با توجه به خروجی نرم افزار، p-value بیشتر از سطح معناداری ۰/۰۵ است که نشان می‌دهد توزیع مشاهدات تفاوت معناداری با توزیع نرمال ندارد.همچنین برای آزمون برابری واریانس‌ها نیز می‌توان از تابع var.test استفاده کرد. این آزمون از آماره‌ی فیشر (F) برای انجام آزمون نسبت واریانس‌ها استفاده می‌کند.با توجه به خروجی نرم افزار، p-value برای آزمون فیشر، بیشتر از سطح معناداری آلفا یعنی ۰/۰۵ است. در نتیجه، تفاوت معنی‌داری بین واریانس دو مجموعه داده، وجود ندارد. بنابراین، می‌توانیم از آزمون T کلاسیک برای مقایسه میانگین‌های دو نمونه‌ی مستقل استفاده کنیم.اکنون می‌توانیم با استفاده از تابع t.test، آزمون T جفتی را بر روی مشاهدات پیاده‌سازی کنیم:با توجه به خروجی نرم افزار، p-value کمتر از سطح معنا داری آلفا یعنی ۰/۰۵ است. پس می‌توان نتیجه گرفت که میانگین وزن کارمندان آقا با میانگین وزن کارمندان خانم، تفاوت معناداری دارد.به این ترتیب در این مقاله با دو روش کلی از آزمون‌های پارامتری به نام‌های آزمون Z و آزمون T، برای استنباط در مورد میانگین جامعه، آشنا شدیم.

5 کتاب رایگان یادگیری آمار برای علم داده

ایردا - IRDA — Wed, 06 Jan 2021 09:23:14 +0330

ربکا ویکری (Rebecca Vickery)آمار یک مهارت اساسی و پایه است که دانشمندان داده هر روز از آن استفاده می کنند. آمار به عنوان شاخه ای از ریاضیات به ما این امکان را می دهد که داده‌ها را جمع آوری، توصیف، تفسیر و تجسم کرده و در آخر بتوانیم از آنها نتیجه گیری کنیم. دانشمندان داده از آمار برای تجزیه و تحلیل داده‌ها (data analysis)، طراحی آزمایش (experiment design) و مدل سازی آماری (statistical modeling) استفاده می کنند. آمار همچنین برای یادگیری ماشین (machine learning) ضروری است. از آمار قبل از ترینینگ (training) یک مدل، برای درک داده ها استفاده خواهد شد. هنگامی که برای train و تست مدل‌ها از داده‌ها استفاده می‌شود، برای اطمینان از fairness باید از تکنیک های آماری بهره جست. به آمار هنگام ارزیابی عملکرد یک مدل، برای ارزیابی تغییرپذیری پیشگویی‌ها و ارزیابی درستی (accuracy) نیاز داریم.ادوارد تافت (Edward Tufte) مي‌گويد: "اگر آمار برایتان خسته کننده شد، نشاندهنده اينست كه اعداد شما اشتباه است".اینها تنها برخی از روش‌های مورد استفاده دانشمندان داده از آمار است. اگر شما در حال يادگيري علوم داده هستید، بايد بتوانيد درک خوبی از این تکنیک‌های آماری داشته باشيد. کتاب‌هايي با مفاهیم آماری می توانند در اين زمينه بسيار كمك كننده باشند. در اینجا پنج کتاب برتر در زمينه یادگیری آمار برای علوم داده آورده شده است.1. آمار كاربردي برای دانشمندان داده (Practical Statistics for Data Scientists):نوشته شده توسط پیتر بروس (Peter Bruce) و اندرو بروس (Andrew Bruce)مناسب برای: كاملاً مبتديموضوعات اصلی پرداخته شده:ساختارهای داده ((Data structuresآمار توصیفی (Descriptive statistics)احتمال (Probability)آمار یک فیلد بسیار گسترده است و تنها بخشی از آن مربوط به علم داده است. این کتاب فقط در زمینه‌های مربوط به علم داده بسیار خوب است. بنابراین اگر به دنبال کتابی هستید که سریعاً بتواند درکی کافی در مورد علم داده به شما بدهد، این کتاب به طور کلی انتخاب خوبی است. مثال‌های رمزگذاری شده کاربردی (که در R نوشته شده است) بسیاری در این کتاب آورده شده است و توضیحات بسیار روشنی را برای هر اصطلاح آماری استفاده شده ارائه می دهد و همچنین برای مطالعه بیشتر به منابع دیگر لینک می‌دهد. در مجموع این کتاب یک کتاب عالی در مورد اصول اولیه است و برای یک مبتدی مطلق در این زمینه بسیار مناسب است.2. آماری فکر کنید:نوشته شده توسط آلن بی. داونی (Allen B. Downey)موضوعات اصلی پرداخته شده به آنها:تفکر آماری (Statistical thinking)توزیع‌ها (Distributions)تست فرضیه (Hypothesis testing)همبستگی (Correlation)مناسب برای: مبتدیان پایتون پایهدر مقدمه این کتاب آمده است که "این کتاب در مورد تبدیل دانش به داده است" و به خوبی به معرفی مفاهیم آماری از طریق مثال‌های عملی آنالیز داده ها می‌پردازد." این کتاب در مورد تبدیل دانش به داده است"این کتاب دیگری است که فقط مفاهیمی را که به طور مستقیم به علوم داده مربوط می شوند را پوشش می دهد و همچنین شامل بسیاری از مثال‌های رمزگذاری شده کاربردی که این بار در پایتون نوشته شده است می‌شود. برنامه نویسان به شدت به آن نیاز دارند که متکی به استفاده از این مهارت برای درک مفاهیم کلیدی آماری است. بنابراین این کتاب به طور ایده آل برای کسانی مناسب است که حداقل یک درک اولیه از پایتون دارند.3. روش‌های بیزی برای هکرها:نوشته شده توسط: کامرون دیویدسون-پیلون (Cameron Davidson-Pilon)موضوعات اصلی پرداخته شده: استنباط بیزیLoss functionsیادگیری ماشین بیزی Pirorsمناسب برای: افراد غیر آماری که از پایتون آگاهی دارند.استنباط بیزی شاخه ای از آمار است که با درک عدم حتميت (uncertainty) کار می کند. عدم حتميت چیزی است که شما به عنوان يك دانشمند داده باید به طور منظم از آن الگو بگیرید. به عنوان مثال، اگر در حال ساخت یک مدل یادگیری ماشین هستید، باید بتوانید عدم حتميت موجود در پیشگویی‌هایی که مدل شما ارائه می دهد را بفهمید. روش های بیزی می توانند کاملاً انتزاعی و دشوار در فهم باشند. این کتاب به طور خاص برای برنامه نویسان (مقداری پایتون به عنوان پیش نیاز)، تنها مطلبی است که این مفاهیم را به روشی ساده برای یک فرد غیرآماری توضیح می دهد. مثال‌های رمزگذاری شده ای در سرتاسر این کتاب وجود دارد و مخزنGithub ، جایی که فصل ها در آن قرار دارند، شامل نوت بوک‌هاي زيادي است. بنابراین، این كتاب یک مقدمه عالی برای این موضوع است.4. آمار به زبان انگلیسی ساده:نوشته شده توسط تیموتی سی آردن (Timothy C. Urdan)موضوعات اصلی:رگرسيونتوزیع‌هاتحلیل عاملی (Factor analysis)احتمالمناسب برای: افراد غیر آماری با هر سطح تجربه برنامه نویسی.این کتاب بيشتر از آنكه فقط دانشمندان داده یا برنامه نویسان را هدف قرار دهد، به تکنیک های آماری عمومی می‌پردازد. با این حال، به سبک بسیار روان نوشته شده و مفاهیم آماری بسیاری را به روشی کاملاً ساده برای فهمیدن توضیح می دهد. این کتاب در اصل برای دانشجویان رشته‌های تجربی یا انسانی (غیر ریاضی)، جایی که درک درستی از آمار مورد نیاز است مانند علوم اجتماعی نوشته شده است. بنابراین، اگر می‌خواهید بدون داشتن مدرک با پایه ریاضیات وارد علوم داده شوید، این کتاب می‌تواند مناسب شما باشد.5. استنباط آماری عصر کامپیوتر:نوشته شده توسط: بردلی افرون (Bradley Efron) و ترور هستی (Trevor Hastie)موضوعات اصلی:استنباط بیزی و استنباط فراوانی گرایانه (frequentist inference)آزمون فرضیه در مقیاس بزرگیادگیری ماشینیادگیری عمیقمناسب برای: اشخاص با درک اساسی از آمار و نمادگذاری آماری. برنامه نویسی لازم نیست.این کتاب شامل تئوری بسیاری از الگوریتم های معروف یادگیری ماشین که امروزه دانشمندان داده از آن استفاده می کنند، می‌شود. همچنین مقدمه کاملی از هر دو روش استنباط آماری بیزی و استنباط فراوانی گرایانه ارائه می دهد. نیمه دوم کتاب که در مورد الگوریتم های یادگیری ماشین است، به عقیده من از بهترین مطالب موجود در این زمینه است. هر توضیحی عمیق و مفصل است و از مثال‌های کاربردی مانند طبقه بندی داده های اسپم (spam) استفاده می کند که هضم ایده‌های کاملاً پیچیده را آسان می کند. این کتاب بیشتر برای کسانی مناسب است که قبلاً مبانی آماری برای تجزیه و تحلیل داده ها را خوانده‌اند و با برخی از نماد‌های آماری آشنا هستند. کتابهایی که در این مقاله به آنها اشاره شده است، هر آنچه كه يك فرد كاملاً مبتدي براي يادگيري آمار نياز دارد تا بتواند از آن براي علم داده استفاده كند را در بر مي‌گيرد. همه آنها به صورت رایگان مي‌توانند خوانده شوند؛ اما در اکثر موارد نسخه چاپی نیز وجود دارد که اگر ترجیح می دهید نسخه فیزیکی كناب را بخوانید می‌توانید خریداری کنید. آمار یک جز ضروري و لازم از مجموعه ابزارهای علم داده است و چیزی است که برای درک واقعی مفاهیم اغلب به خواندن عمیق نیاز دارد. چیزی که دقيقاً این کتاب‌ها می‌توانند ارائه دهند.