درس اول: از کجا وارد یادگیری ماشین شویم که وقتمان نسوزد؟

یادداشت های یک دیتاساینتیست: یادگیری ماشین آن طور که در دنیای واقعی کار می کند

اگر بخواهم از تجربه شخصی خودم بگویم، بیشتر کسانی که وارد یادگیری ماشین می شوند و پس از مدتی مطالعه احساس سرخوردگی میکنند، مشکلشان کم کاری یا نداشتن هوش نیست.
مشکل اصلی این است که از مسیر اشتباه شروع می کنند.

من این را به عنوان کسی می گویم که سال ها با داده واقعی، در پروژه های واقعی، تحت فشار زمانی، روی مدل هایی که باید در عمل جواب بدهند کار کرده؛ نه صرفاً در محیط آکادمیک یا تمرین های تر و تمیز و بی دردسر.

این مجموعه مقاله قرار نیست یادگیری ماشین را شبیه یک دنیای شیک و بی نقص نشان بدهد.
هدفش این است که نشان بدهد اگر بخواهی واقعاً با Python و داده کار کنی، چه چیزهایی مهم اند و چه چیزهایی نه.

یادگیری ماشین به روشی که خیلی ها انجام می دهند (و البته معمولاً جواب نمی دهد)

الگوی رایج این است:

اول می روند سراغ Python و سعی می کنند در Syntax و جزئیات زبان غرق شوند.
بعد می افتند دنبال تئوری الگوریتم ها و پارامترهایشان.
و وقتی به یک دیتاست واقعی می رسند، نمی دانند از کجا شروع کنند.

این مسیر شاید علمی به نظر برسد، اما در عمل کند، فرسایشی و کم بازده است.

یادگیری ماشین فقط انتخاب الگوریتم نیست.
مدل ساختن فقط fit() کردن نیست.
و حل مسئله فقط بلد بودن scikit-learn نیست.

یادگیری ماشین در عمل یعنی ساختن مدل پیش بینی کننده (Predictive Modeling)

چیزی که در صنعت بیشترین کاربرد را دارد و بیشترین ارزش را ایجاد می کند، ساختن مدل پیش بینی کننده (Predictive Modeling) است.

در این رویکرد:

تمرکز روی پیش بینی درست داده های جدید است
توضیح دقیق چرایی پیش بینی همیشه اولویت اول نیست
اغلب با داده های جدولی (Tabular Data) مثل CSV، اکسل یا دیتابیس سروکار داریم

ابزارهای اصلی هم معمولاً pandas، numpy و scikit-learn هستند.

پروژه یادگیری ماشین از نگاه کسی که پروژه واقعی دیده

تقریباً هر پروژه یادگیری ماشین کاربردی را می توان به این مراحل تقسیم کرد:

تعریف مسئله (Problem Definition)
تحلیل داده (Data Analysis)
آماده سازی داده (Data Preparation)
ارزیابی الگوریتم ها (Algorithm Evaluation)
بهبود مدل (Model Improvement)
ارائه نتیجه و پیش بینی (Presentation & Prediction)

اشتباه رایج این است که خیلی ها مستقیم می پرند وسط مرحله چهارم.
در حالی که اگر مراحل قبل درست انجام نشود، بهترین الگوریتم هم نتیجه خوبی نمی دهد.

این سری مقاله ها دقیقاً قرار است چه کاری بکند؟

در این سری مقاله ها قرار نیست با ده ها روش مختلف گیج شوی.
برعکس، هدف این است که یک مسیر ساده، منطقی و تکرارپذیر یاد بگیری.

برای هر مرحله:

بدانیم دقیقاً چه کاری باید انجام دهیم
بدانیم در Python چطور انجامش دهیم
بدانیم خروجی قابل قبول چیست

ساختار این سری مقاله ها

بخش اول: آموزش

در این بخش، هر مقاله روی یک وظیفه مشخص (Task) تمرکز دارد.
مثلاً:

بارگذاری داده از فایل CSV
شناخت داده با آمار توصیفی (Descriptive Statistics)
مصورسازی داده (Visualization)
پیش پردازش داده (Data Preprocessing)
انتخاب ویژگی ها (Feature Selection)
معیارهای ارزیابی (Evaluation Metrics)
خط لوله ها (Pipelines)
مدل های ترکیبی (Ensemble Methods)
تنظیم پارامترها (Hyperparameter Tuning)

هر درس طوری نوشته می شود که بشود در مدت کوتاهی خواند و اجرا کرد.

بخش دوم: پروژه ها

اینجا مثال ها به هم وصل می شوند و یک پروژه کامل شکل می گیرد.

در این بخش با دیتاست هایی کار می کنیم که:

کوچک هستند
تمیز و قابل مدیریت اند
و Benchmark دارند

Benchmark یعنی چه؟
یعنی قبلاً افراد زیادی روی این دیتاست ها کار کرده اند، نتایجشان منتشر شده، و ما حدوداً می دانیم چه دقتی منطقی است و چه الگوریتم هایی معمولاً خوب جواب می دهند. این موضوع کمک می کند:
بفهمیم مدل ما خوب است یا نه
بدانیم در مسیر درستی هستیم یا نه
و تجربه دیگران را به عنوان مرجع استفاده کنیم

بخش سوم: دستورالعمل ها (Recipes)

دستورالعمل ها مثال های کوتاه و مستقل هستند.

هر دستورالعمل:

یک کار مشخص را انجام می دهد
بدون توضیح اضافه
اجرا می شود
و نتیجه می دهد

این ها همان چیزهایی هستند که در پروژه واقعی، وقتی زمان کم است، به کارت می آیند.

این سری مقاله ها چه چیزی نیست؟

شفاف بگویم:

این ها آموزش تئوری یادگیری ماشین نیست
وارد جزئیات ریاضی مثل Bias-Variance Tradeoff نمی شویم
آموزش مقدماتی Python هم نیست

اگر کسی بخواهد از صفر مطلق شروع کند، احتمالاً جای مناسبی نیست.
اما اگر کمی با Python و مفاهیم کلی ML آشناست و می خواهد راه بیفتد، اینجا دقیقاً برای اوست.

اگر تا آخر این مسیر را بروی

بعد از این سری مقاله ها:

می دانی با یک دیتاست جدید از کجا شروع کنی
می توانی یک مدل قابل استفاده تحویل بدهی
و ذهنت ساختار پیدا می کند

بعد از آن، رفتن به سراغ الگوریتم های پیشرفته تر یا Deep Learning خیلی منطقی تر و راحت تر می شود.

قدم بعدی

در درس بعدی می رویم سراغ اکوسیستم پایتون برای یادگیری ماشین (Python Ecosystem for Machine Learning)
و بررسی می کنیم pandas، numpy، scikit-learn و SciPy دقیقاً چه نقشی دارند و چطور باید ازشان استفاده کرد.