آمار یک مهارت اساسی و پایه است که دانشمندان داده هر روز از آن استفاده می کنند. آمار به عنوان شاخه ای از ریاضیات به ما این امکان را می دهد که دادهها را جمع آوری، توصیف، تفسیر و تجسم کرده و در آخر بتوانیم از آنها نتیجه گیری کنیم. دانشمندان داده از آمار برای تجزیه و تحلیل دادهها (data analysis)، طراحی آزمایش (experiment design) و مدل سازی آماری (statistical modeling) استفاده می کنند. آمار همچنین برای یادگیری ماشین (machine learning) ضروری است. از آمار قبل از ترینینگ (training) یک مدل، برای درک داده ها استفاده خواهد شد. هنگامی که برای train و تست مدلها از دادهها استفاده میشود، برای اطمینان از fairness باید از تکنیک های آماری بهره جست. به آمار هنگام ارزیابی عملکرد یک مدل، برای ارزیابی تغییرپذیری پیشگوییها و ارزیابی درستی (accuracy) نیاز داریم.
ادوارد تافت (Edward Tufte) ميگويد: "اگر آمار برایتان خسته کننده شد، نشاندهنده اينست كه اعداد شما اشتباه است".
اینها تنها برخی از روشهای مورد استفاده دانشمندان داده از آمار است. اگر شما در حال يادگيري علوم داده هستید، بايد بتوانيد درک خوبی از این تکنیکهای آماری داشته باشيد. کتابهايي با مفاهیم آماری می توانند در اين زمينه بسيار كمك كننده باشند. در اینجا پنج کتاب برتر در زمينه یادگیری آمار برای علوم داده آورده شده است.
نوشته شده توسط پیتر بروس (Peter Bruce) و اندرو بروس (Andrew Bruce)
مناسب برای: كاملاً مبتدي
موضوعات اصلی پرداخته شده:
آمار یک فیلد بسیار گسترده است و تنها بخشی از آن مربوط به علم داده است. این کتاب فقط در زمینههای مربوط به علم داده بسیار خوب است. بنابراین اگر به دنبال کتابی هستید که سریعاً بتواند درکی کافی در مورد علم داده به شما بدهد، این کتاب به طور کلی انتخاب خوبی است. مثالهای رمزگذاری شده کاربردی (که در R نوشته شده است) بسیاری در این کتاب آورده شده است و توضیحات بسیار روشنی را برای هر اصطلاح آماری استفاده شده ارائه می دهد و همچنین برای مطالعه بیشتر به منابع دیگر لینک میدهد. در مجموع این کتاب یک کتاب عالی در مورد اصول اولیه است و برای یک مبتدی مطلق در این زمینه بسیار مناسب است.
نوشته شده توسط آلن بی. داونی (Allen B. Downey)
موضوعات اصلی پرداخته شده به آنها:
مناسب برای: مبتدیان پایتون پایه
در مقدمه این کتاب آمده است که "این کتاب در مورد تبدیل دانش به داده است" و به خوبی به معرفی مفاهیم آماری از طریق مثالهای عملی آنالیز داده ها میپردازد.
" این کتاب در مورد تبدیل دانش به داده است"
این کتاب دیگری است که فقط مفاهیمی را که به طور مستقیم به علوم داده مربوط می شوند را پوشش می دهد و همچنین شامل بسیاری از مثالهای رمزگذاری شده کاربردی که این بار در پایتون نوشته شده است میشود. برنامه نویسان به شدت به آن نیاز دارند که متکی به استفاده از این مهارت برای درک مفاهیم کلیدی آماری است. بنابراین این کتاب به طور ایده آل برای کسانی مناسب است که حداقل یک درک اولیه از پایتون دارند.
نوشته شده توسط: کامرون دیویدسون-پیلون (Cameron Davidson-Pilon)
موضوعات اصلی پرداخته شده:
مناسب برای: افراد غیر آماری که از پایتون آگاهی دارند.
استنباط بیزی شاخه ای از آمار است که با درک عدم حتميت (uncertainty) کار می کند. عدم حتميت چیزی است که شما به عنوان يك دانشمند داده باید به طور منظم از آن الگو بگیرید. به عنوان مثال، اگر در حال ساخت یک مدل یادگیری ماشین هستید، باید بتوانید عدم حتميت موجود در پیشگوییهایی که مدل شما ارائه می دهد را بفهمید. روش های بیزی می توانند کاملاً انتزاعی و دشوار در فهم باشند. این کتاب به طور خاص برای برنامه نویسان (مقداری پایتون به عنوان پیش نیاز)، تنها مطلبی است که این مفاهیم را به روشی ساده برای یک فرد غیرآماری توضیح می دهد. مثالهای رمزگذاری شده ای در سرتاسر این کتاب وجود دارد و مخزنGithub ، جایی که فصل ها در آن قرار دارند، شامل نوت بوکهاي زيادي است. بنابراین، این كتاب یک مقدمه عالی برای این موضوع است.
نوشته شده توسط تیموتی سی آردن (Timothy C. Urdan)
موضوعات اصلی:
مناسب برای: افراد غیر آماری با هر سطح تجربه برنامه نویسی.
این کتاب بيشتر از آنكه فقط دانشمندان داده یا برنامه نویسان را هدف قرار دهد، به تکنیک های آماری عمومی میپردازد. با این حال، به سبک بسیار روان نوشته شده و مفاهیم آماری بسیاری را به روشی کاملاً ساده برای فهمیدن توضیح می دهد. این کتاب در اصل برای دانشجویان رشتههای تجربی یا انسانی (غیر ریاضی)، جایی که درک درستی از آمار مورد نیاز است مانند علوم اجتماعی نوشته شده است. بنابراین، اگر میخواهید بدون داشتن مدرک با پایه ریاضیات وارد علوم داده شوید، این کتاب میتواند مناسب شما باشد.
نوشته شده توسط: بردلی افرون (Bradley Efron) و ترور هستی (Trevor Hastie)
موضوعات اصلی:
مناسب برای: اشخاص با درک اساسی از آمار و نمادگذاری آماری. برنامه نویسی لازم نیست.
این کتاب شامل تئوری بسیاری از الگوریتم های معروف یادگیری ماشین که امروزه دانشمندان داده از آن استفاده می کنند، میشود. همچنین مقدمه کاملی از هر دو روش استنباط آماری بیزی و استنباط فراوانی گرایانه ارائه می دهد. نیمه دوم کتاب که در مورد الگوریتم های یادگیری ماشین است، به عقیده من از بهترین مطالب موجود در این زمینه است. هر توضیحی عمیق و مفصل است و از مثالهای کاربردی مانند طبقه بندی داده های اسپم (spam) استفاده می کند که هضم ایدههای کاملاً پیچیده را آسان می کند. این کتاب بیشتر برای کسانی مناسب است که قبلاً مبانی آماری برای تجزیه و تحلیل داده ها را خواندهاند و با برخی از نمادهای آماری آشنا هستند. کتابهایی که در این مقاله به آنها اشاره شده است، هر آنچه كه يك فرد كاملاً مبتدي براي يادگيري آمار نياز دارد تا بتواند از آن براي علم داده استفاده كند را در بر ميگيرد. همه آنها به صورت رایگان ميتوانند خوانده شوند؛ اما در اکثر موارد نسخه چاپی نیز وجود دارد که اگر ترجیح می دهید نسخه فیزیکی كناب را بخوانید میتوانید خریداری کنید. آمار یک جز ضروري و لازم از مجموعه ابزارهای علم داده است و چیزی است که برای درک واقعی مفاهیم اغلب به خواندن عمیق نیاز دارد. چیزی که دقيقاً این کتابها میتوانند ارائه دهند.