آکادمی ساینس آرمان
آکادمی ساینس آرمان
خواندن ۱ دقیقه·۱ سال پیش

تقسیم مجموعه داده در یادگیری ماشین

تقسیم داده یک گام مهم و اساسی در فرآیند یادگیری ماشین هست که به شما در ارزیابی و بهینه سازی مدل‌هایتان به طور مناسبی کمک می‌کند. تقسیم داده نوعا شامل سه بخش اساسی خواهد بود: مجموعه آموزش، مجموعه اعتبار سنجی و مجموعه آزمون.


۱. مجموعه آموزش: قسمت عظیم و بزرگ مجموعه داده مربوط به مجموعه آموزش است که معمولا حدود ۷۰ تا ۸۰ درصد آن را در بر می‌گیرد. از این مجموعه برای آموزش مدل استفاده می‌شود. در حین آموزش، مدل، الگوها و روابط بین نقاط داده را یاد می‌گیرد. خیلی مهم است که اطمینان حاصل شود، مجموعه آموزش، نماینده خوبی از کل داده هست.



۲. مجموعه اعتبار سنجی: چیزی در حدود ۱۰ تا ۱۵ درصد مجموعه داده را شامل شده و از آن در حین توسعه مدل و تنظیم ابرپارامترها استفاده می‌شود. به عنوان یک مجموعه داده مقاوم شناخته می‌شود که کمک می‌کند از طریق آن کارایی مناسب مدل خود را برآورده کنید. شما می‌توانید ابرپارامترها و انواع مختلف مدل را تعیین و ارزیابی کرده تا بهترین تنظیمات و مدل را انتخاب کنید.



۳. مجموعه داده آزمون: مجموعه آزمون، بخش کوچکتر مجموعه داده هست که چیزی حدود ۱۰ تا ۱۵ درصد آن را شامل می‌شود. این مجموعه داده از مجموعه داده آموزش و اعتبار سنجی جدا و مجزا است. این مجموعه داده برای ارزیابی کارایی مدل نهایی بعد از آموزش و تنظیم پارامترهای آن مورد استفاده قرار می‌گیرد. در واقع به عنوان تخمینی از کارایی مورد انتظار از مدل در حین مواجه شدن با داده‌های دیده نشده و واقعی جهان امروزی است.

یادگیری ماشین
آکادمی ساینس آرمان یک بستر مناسب جهت آموزش مفاهیم و کاربرد‌های واقعی آنها در حوزه‌های هوش مصنوعی و توسعه وب هست. این پلتفرم آموزشی توسط آرمان دانش دوست تاسیس شده است.
شاید از این پست‌ها خوشتان بیاید