یادگیری ماشین و مدل سازی آماری(شباهت ها و تفاوت ها)

از اون جایی که رشته من آماره و توی زمینه دیتاساینس فعالیت دارم؛ دوست دارم دانسته هام و برخی از نوشته هام در این حوزه رو توی ویرگول به اشتراک بذارم. در این مطلب قصد دارم یادگیری ماشین و مدل سازی آماری رو باهم مقایسه کنم.

یادگیری ماشین در برابر مدل سازی آماری (شباهت ها و تفاوت ها)
یادگیری ماشین در برابر مدل سازی آماری (شباهت ها و تفاوت ها)

یادگیری ماشین

همه تقریبا میدونن که یادگیری ماشین شاخه‌ای از هوش مصنوعی هست. توی این حوزه برنامه رو به صورتی که بتونه به صورت خودکار یاد بگیره طراحی می‌کنند. در واقع یادگیری ماشین یک الگوریتمه که می‌تونه از داده ها یاد بگیره، بدون این که نیاز به پایه‌ی قانون برنامه نویسی خاصی داشته باشه. یک مثال ساده از یادگیری ماشین می‌تونه مورد زیر باشه:

فرض کنید یک برنامه‌ای با هدف تشخیص پرتقال و سیب باید طراحی بشه. مجموعه داده‌ای که به برنامه داده می‌شه دارای دو مشخصه وزن و نوع پوست هست. در این مجموعه داده وزن پرتقال ها بین 150 تا 200 گرم و وزن سیب ها بین 100 تا 130 گرم متغیره؛ و همچنین نوع پوست نیز دو مقدار صاف و زبر رو اختیار می‌کنه. برنامه با این داده ها آموزش داده می‌شه و احتمالا میوه‌ای با وزن 115 گرم و پوست صاف رو سیب پیش بینی می‌کنه. همچنین ممکنه میوه‌ای با وزن 175 گرم و پوست زبر رو پرتقال پیش بینی کنه. برنامه هر چیزی خارج ازین مرز ها رو نمی‌تونه پیش بینی کنه. مثلا اگه داده‌ای مربوط به میوه‌‍‌ای با وزن 99 و پوست صاف رو به ماشین بدیم؛ احتمالا برنامه نمی‌تونه اون رو پیش بینی کنه.

بنابراین هرچقدر تعداد داده هایی که به برنامه داده می‌شه بیشتر باشه، دقت اون هم بیشتر می‌شه.

حتی برنامه ممکنه از پیش بینی های گذشته برای اطلاعات بیشتر خود استفاده کنه. برنامه به تنهایی یاد می‌گیره که پرتقال یا سیب چیه. این مثالی از یادگیری ماشین بود.

مدل سازی آماری

مدل سازی آماری فرمول بندی کردن رابطه های متغیر ها در قالب معادلات ریاضی هست که معادلات و فرمول ها واقعیت رو تخمین می‌زنند. اگه بخوایم ساده تر تعریف کنیم مدل آماری، معادله ریاضی هست که به کار برده می‌شود. یک مثال ساده از مدل سازی آماری می‌تونه مورد زیر باشه:

فرض کنید می خواید وزن یک گونه خاص سیب زمینی رو گزارش کنین. دو راه پیشنهادی برای این کار به این صورته:

راه اول: سال های زیادی رو برای وزن کردن سیب زمینی های این گونه در جهان سپری کنید و داده های خودتون رو به صورت یک اکسل تمام نشدنی ثبت و گزارش کنید.

راه دوم: یک نمونه 30 تایی به نمایندگی از کل این نوع سیب زمینی رو انتخاب ‌کنید و میانگین و انحراف معیار این نمونه رو محاسبه کنید و فقط این دو مقدار رو به عنوان نماینده توصیف وزن این نوع سیب زمینی گزارش بدید.

گزارش دادن یک مقدار با دو مشخصه میانگین و انحراف معیار یکی از ساده ترین روش های مدل سازی آماری هست.

تفاوت ها

منشاء پیش بینی ها مبتنی بر مدل سازی آماری در آمار کلاسیکه. درحالی که منشاء یادگیری ماشین در علوم کامپیوتر هست. یادگیری ماشین فرضیات کمتری بر روی داده ها اعمال می‌کنه و بنابراین می‌تونه برای "انواع مختلف داده ها" به کار برده بشه. مدل سازی آماری بعضی مواقع مستلزم فرضیه هایی برای توزیع داده ها هست که این می‌تونه محدودیتی در نوع داده باشد. این نکته که از مدل های آماری در یادگیری ماشین استفاده می‌شه رو نباید نادیده گرفت.

شباهت ها

یادگیری ماشین و مدل سازی آماری هر دو نیازمند این هستند که خطا رو به حداقل برسانند؛ بنابراین از استراتژی های مختلف بهینه سازی برای بهبود الگوریتم ها و مدل های خود استفاده می‌کنند. این دو، قابلیت این رو دارند که مشکلات مشابهی رو برطرف کنند اما هر یک بنا به مساله‌ی خاص نقاط قوت خود رو دارند و در نتیجه ممکن است راهکار های مکمل در نظر گرفته بشن.