دو مبحث آمار و احتمال معمولاً در کنار هم تدریس میشوند. اما اکثر کسانی که این درس را در مدرسه یا دانشگاه گذراندهاند، به طور دقیق نمیدانند مرز بین آمار و احتمال چیست؟ چه مباحثی مربوط به دید آماری و کدام مفاهیم با دید احتمالاتی است و چه ارتباطی بین این دو وجود دارد؟
بحث این پست دربارهی تفاوت آمار و احتمال است و منبع اصلیِ این نوشته، درس آمار و احتمال دانشگاه شریف در مکتب خونه است.
هرگاه در یک مسئله، توزیع دادهها را بدانیم و بتوانیم پارامترهایی چون امید ریاضی و واریانسِ واقعی دادهها را محاسبه کنیم، آنگاه با احتمال (probability) سروکار داریم. به عنوان مثال میتوانیم شانس اتفاق افتادن رویدادهای مختلف را با دانستن توزیع واقعی دادهها به سادگی محاسبه کنیم. در واقع در احتمال از کل به جز میرویم.
هرگاه توزیع واقعی دادهها را ندانیم و فقط بخش کوچکی از دادهها را در اختیار داشته باشیم، با علم آمار (statistics) مواجه میشویم. در این حالت سعی میکنیم که توزیع دادهها و پارامترهایی چون امید ریاضی و واریانس را تخمین بزنیم. دقت کنید که در آمار، نمیتوانیم به توزیعِ واقعی -که از نظر ما پنهان است- برسیم؛ اما ممکن است بتوانیم توزیعی مشابه آن را پیدا کنیم. بر عکس احتمال، در آمار نگاه ما از جز به کل است (مشت نمونه خروار).
این همانند کاری است که در الگوریتمهای هوش مصنوعی و یادگیری ماشین انجام میشود. مثلاً در الگوریتمهای طبقهبندی، ما تلاش میکنیم که کلاسها را با کمترین خطا از هم تفکیک کنیم. در صورتی که ما همهی دادههای جهان را در اختیار نداریم و مجبوریم با دادههای محدود، مسئله را حل کنیم. به همین دلیل است که در مسائل یادگیری ماشین امکان دارد به انواع خطاها، دادههای پرت و استثناهای مختلف برخورد کنیم.
حال که تفاوت آمار و احتمال را درک کردیم، این سوال به وجود میآید که ما در دنیای واقعی، دسترسی به همهی دادهها و توزیع واقعی آنها نداریم. پس چه نیازی به مطالعهی احتمال داریم؟ پاسخ این است که ما ابتدا با استفاده از علم آمار، دادههای محدود خود را بررسی میکنیم و سعی میکنیم که برای آن یک توزیع (مدل) را تخمین (estimate) بزنیم. سپس با کمک احتمال، سعی میکنیم که در دنیای واقعی، شانس احتمال رخداد یک رویداد را پیشبینی (predict) کنیم (منبع):