ویرگول
ورودثبت نام
مجتبی میر یعقوب زاده
مجتبی میر یعقوب زادهفارغ التحصیل علوم کامپیوتر
مجتبی میر یعقوب زاده
مجتبی میر یعقوب زاده
خواندن ۵ دقیقه·۶ سال پیش

مقدمه‌ای بر برازش مدل در ماشین لرنینگ

دیتا ساینس یعنی استفاده از داده برای پیش‌بینی وقوع یک پدیده در شرایط مختلف. برای انجام این کار، ما یک مدل بر اساس داده های موجود ارائه می‌کنیم و از آن مدل استفاده می‌کنیم تا وقوع یک پدیده را در شرایط نزدیک به داده های‌مان پیش‌بینی کنیم. مشخص است که برای اینکه مدل ما یک پیش‌بینی دقیق انجام دهد، باید به خوبی با داده های اولیه آموزش تطبیق داده شده باشد.

چطور یک مدل نمی‌تواند با داده ها تطبیق بیابد

در حالت کلی، دو نوع تطبیق نیافتن برای مدل وجود دارد:

کم‌برازش: کم‌برازش یا Underfitting حالتی است که مدل آنقد پیچیده نیست که روی داده ها تطبیق بیابد. در این حالت عملکرد مدل روی داده های فعلی مناسب نیست و نمی‌تواند بین آنها ارتباطی برقرا کند. یک مثال از مدل کم‌برازش می‌توان مدلی را مثال زد که می‌خواهد نرخ مالیات را در کشوری که نرخ مالیات در حال افزایش است، پیش‌بینی کند. در این حالت، مدل فکر می‌کند که نرخ مالیات برای همه افراد در حال افزایش است و میزان درآمد مردم در آن تاثیری ندارد، در نتیجه میزان نرخ مالیات را برای همه افراد یکسان در نظر می‌گیرد.

بیش‌برازش: بیش‌برازش یا Overfitting حالتی است که مدل بیش از حد پیچیده است. این پیچیدگی به این معناست که مدل برای هر داده موجود دیتاست، تغییرات زیادی را اعمال می‌کند. عملکرد این مدل ها بر روی داده های موجود یعنی داده هایی که آنها را قبلا دیده و تطبیق داده شده، عالی است اما در پیش‌بینی های آینده عملکرد بدی دارد.

این دو مفهوم را می‌توانید در شکل زیر ببینید. نقاط مشکی را داده های موجود در نظر بگیرید. نرخ مالیات نقطه ده هزار دلار، ده درصد، بیست هزار دلار بیست درصد و سی هزار دلار سی درصد است. چند نقطه رندوم هم وجود دارند که نشان دهنده این موضوع است که ممکن است میزان مالیات یک خانه، از این قاعده پیروی نکند و شرایط برای آنها فرق کند. خط آبی رنگ را که نشان دهنده مدل کم‌برازش است در نظر بگیرید. این نوع مدل فکر می‌کند که نرخ مالیات یک روند خطی دارد. مدل بیش برازش با رنگ قرمز، یک مدل پیچیده است که فکر می‌کند باید دلیلی برای هر نرخ مالیات داشته باشد.


همانطورکه پیداست مدل کم‌برازش عملکرد ضعیفی دارد و کلاً سه نقطه را می‌تواند درست حدس بزند. همچنین در فهمیدن اینکه نرخ مالیات با افزایش میزان درآمد رابطه مستقیم دارد، ضعیف عمل کرده است.

مدل بیش‌برازش عملکرد عالی ای دارد. همه نقاط را توانسته تطبیق دهد و شکل داده ها را هم درست درآورده است. اما این روند تا جایی صادق است که به چهل هزار دلار می‌رسد. در بازه 40 تا 44 هزار دلار هیچ افزایشی در نرخ مالیات را پیش‌بینی نکرده است. اما مشکل اصلی در بازه 45 تا 50 هزار دلار اتفاق می‌افتد. پیش‌بینی مدل این است که وقتی درآمد از 45 به 49 هزار دلار افزایش می‌یابد، نرخ مالیات هم با افزایش 22 هزار دلاری همراه می‌شود. این در حالی است که هیچ داده ای موجود نیست تا این حدس را اثبات کند! این مدل افزایش هایی را حدس می‌زند که در واقع اصلا واقعی نیستند.

چه چیز هایی کم‌برازش یا بیش‌برازش بودن را نشان می‌دهند

برای فهمیدن اینکه مدل شما کم‌برازش است یا بیش‌برازش، می‌توان توضیحات بالا را مدنظر قرار داد. در پایین خلاصه ای از آن را می‌توانید بخوانید.

مدل های کم‌برازش را می‌توان شناسایی کرد چون:

  • در تطبیق دادن داده های موجود ضعیف هستند
  • شکل واقعی داده ها را نمی‌توانند درک کنند

مدل های بیش‌برازش را می‌توان شناسایی کرد چون:

  • عملکرد آنها روی داده های موجود عالی است ( البته این مورد به تنهایی به معنای بیش‌برازش نیست اما زنگ خطر خوبی است )
  • روند هایی را در پیش‌بینی نشان می‌دهند که اصلا وجود ندارند

یک مدل خوب‌برازش چگونه است

یک مدل خوب‌برازش یا Well Fit Model باید داده های موجود را به خوبی تطبیق دهد و شکل داده ها را هم به خوبی نشان دهد. در شکل زیر می‌تواند عملکرد چنین مدلی را روی همان داده های شکل قبلی ببینید.


همانطور که می‌بینید این مدل در پیش‌بینی همه داده ها عملکرد خوبی ندارد اما با توجه به وجود داده های رندوم و پرت در دیتاست، چنین چیزی انتظار می‌رود. نکته دیگر این است که شکلی که مدل نشان می‌دهد به خوبی با داده ها مطابقت دارد. این شکل مانند خط آبی، نه خیلی ساده است، نه مثل منحنی قرمز خیلی پیچیده است. از این مدل می‌توان انتظار داشت که پیش‌بینی های خوبی را انجام دهد.

خلاصه

ارائه مدل و اعتبارسنجی آن یکی از مفهوم های اصلی و مهم در دیتا ساینس است. برای انجام هر نوع کار دیتا ساینس، باید مطمئن باشیم مدل ما روی داده های موجود به خوبی تطبیق داده شده است و همچنین پیش‌بینی خوبی را در داده هایی که تا به حال ندیده انجام می‌دهد.



منبع


هوش مصنوعیماشین لرنینگیادگیری ماشین
۱۳
۱
مجتبی میر یعقوب زاده
مجتبی میر یعقوب زاده
فارغ التحصیل علوم کامپیوتر
شاید از این پست‌ها خوشتان بیاید