آمار شهید بهشتی خوندم. حوزه فعالیتم دیتاساینسه. عضو کوچیکی از خانوادهی شتابدهنده سنجیده و شرکت علم داده ارزیاب ام. پروفایل من در ارزیاب: https://arz-yab.com/our-teams/personalpage.php?uid=2
یادگیری ماشین و مدل سازی آماری(شباهت ها و تفاوت ها)
از اون جایی که رشته من آماره و توی زمینه دیتاساینس فعالیت دارم؛ دوست دارم دانسته هام و برخی از نوشته هام در این حوزه رو توی ویرگول به اشتراک بذارم. در این مطلب قصد دارم یادگیری ماشین و مدل سازی آماری رو باهم مقایسه کنم.
یادگیری ماشین
همه تقریبا میدونن که یادگیری ماشین شاخهای از هوش مصنوعی هست. توی این حوزه برنامه رو به صورتی که بتونه به صورت خودکار یاد بگیره طراحی میکنند. در واقع یادگیری ماشین یک الگوریتمه که میتونه از داده ها یاد بگیره، بدون این که نیاز به پایهی قانون برنامه نویسی خاصی داشته باشه. یک مثال ساده از یادگیری ماشین میتونه مورد زیر باشه:
فرض کنید یک برنامهای با هدف تشخیص پرتقال و سیب باید طراحی بشه. مجموعه دادهای که به برنامه داده میشه دارای دو مشخصه وزن و نوع پوست هست. در این مجموعه داده وزن پرتقال ها بین 150 تا 200 گرم و وزن سیب ها بین 100 تا 130 گرم متغیره؛ و همچنین نوع پوست نیز دو مقدار صاف و زبر رو اختیار میکنه. برنامه با این داده ها آموزش داده میشه و احتمالا میوهای با وزن 115 گرم و پوست صاف رو سیب پیش بینی میکنه. همچنین ممکنه میوهای با وزن 175 گرم و پوست زبر رو پرتقال پیش بینی کنه. برنامه هر چیزی خارج ازین مرز ها رو نمیتونه پیش بینی کنه. مثلا اگه دادهای مربوط به میوهای با وزن 99 و پوست صاف رو به ماشین بدیم؛ احتمالا برنامه نمیتونه اون رو پیش بینی کنه.
بنابراین هرچقدر تعداد داده هایی که به برنامه داده میشه بیشتر باشه، دقت اون هم بیشتر میشه.
حتی برنامه ممکنه از پیش بینی های گذشته برای اطلاعات بیشتر خود استفاده کنه. برنامه به تنهایی یاد میگیره که پرتقال یا سیب چیه. این مثالی از یادگیری ماشین بود.
مدل سازی آماری
مدل سازی آماری فرمول بندی کردن رابطه های متغیر ها در قالب معادلات ریاضی هست که معادلات و فرمول ها واقعیت رو تخمین میزنند. اگه بخوایم ساده تر تعریف کنیم مدل آماری، معادله ریاضی هست که به کار برده میشود. یک مثال ساده از مدل سازی آماری میتونه مورد زیر باشه:
فرض کنید می خواید وزن یک گونه خاص سیب زمینی رو گزارش کنین. دو راه پیشنهادی برای این کار به این صورته:
راه اول: سال های زیادی رو برای وزن کردن سیب زمینی های این گونه در جهان سپری کنید و داده های خودتون رو به صورت یک اکسل تمام نشدنی ثبت و گزارش کنید.
راه دوم: یک نمونه 30 تایی به نمایندگی از کل این نوع سیب زمینی رو انتخاب کنید و میانگین و انحراف معیار این نمونه رو محاسبه کنید و فقط این دو مقدار رو به عنوان نماینده توصیف وزن این نوع سیب زمینی گزارش بدید.
گزارش دادن یک مقدار با دو مشخصه میانگین و انحراف معیار یکی از ساده ترین روش های مدل سازی آماری هست.
تفاوت ها
منشاء پیش بینی ها مبتنی بر مدل سازی آماری در آمار کلاسیکه. درحالی که منشاء یادگیری ماشین در علوم کامپیوتر هست. یادگیری ماشین فرضیات کمتری بر روی داده ها اعمال میکنه و بنابراین میتونه برای "انواع مختلف داده ها" به کار برده بشه. مدل سازی آماری بعضی مواقع مستلزم فرضیه هایی برای توزیع داده ها هست که این میتونه محدودیتی در نوع داده باشد. این نکته که از مدل های آماری در یادگیری ماشین استفاده میشه رو نباید نادیده گرفت.
شباهت ها
یادگیری ماشین و مدل سازی آماری هر دو نیازمند این هستند که خطا رو به حداقل برسانند؛ بنابراین از استراتژی های مختلف بهینه سازی برای بهبود الگوریتم ها و مدل های خود استفاده میکنند. این دو، قابلیت این رو دارند که مشکلات مشابهی رو برطرف کنند اما هر یک بنا به مسالهی خاص نقاط قوت خود رو دارند و در نتیجه ممکن است راهکار های مکمل در نظر گرفته بشن.
مطلبی دیگر از این انتشارات
علم داده یا دیتاساینس چیست؟(نگاهی جامع به علم داده)
مطلبی دیگر از این انتشارات
پاکسازی داده یا Data Cleaning چیست؟ چطوری باید داده هامون رو تمیز کنیم؟
مطلبی دیگر از این انتشارات
بررسی آماری ویروس کرونا از زوایای دیگر