هنگام آموزش یک مدل-شما به آموزش، اعتباردهی و مجموعه داده‌های Holdout نیاز خواهید داشت

منتشر‌شده در towardsdatascience به تاریخ ۲۱ آگوست ۲۰۲۱
لینک منبع When training a model — you will need Training, Validation, and Holdout Datasets

مقدمه

هنگامی که من برای اولین بار شروع به ساخت مدل‌های یادگیری ماشینی کردم، من مدل خود را بر روی 2 مجموعه داده آموزش می‌دادم - مجموعه داده‌های آموزشی و مجموعه داده‌های اعتبار سنجی با قاعده تقسیم مشترک (۸۰٪ برای داده آموزشی، ۲۰٪ برای داده اعتبارسنجی). با این حال، هنگامی که مدل مستقر می‌شود و به مجموعه جدید داده‌ها اعمال می‌شود، عملکرد مدل شروع به تنزل می‌کند. یکی از دلایلی که این اتفاق می‌افتد این است که مدل با مجموعه داده Holdout اعتبار بیشتری پیدا نکرده است، که مهم است زیرا عملکرد مدل را در طول فرایند آموزش معتبر می‌کند تا اعتبار نهایی عملکرد مدل را تأیید کند.

در این مقاله، بیایید بیشتر بدانیم که چرا هنگام ایجاد یک مدل یادگیری ماشینی نیاز به مجموعه داده‌های مختلف داریم، از جمله تابع و اهمیت هر یک از این مجموعه داده‌ها - مجموعه داده‌های آموزشی، مجموعه داده‌های اعتبار سنجی و مجموعه داده‌هایHoldout.

تقسیم‌بندی داده‌ها

قبل از شروع سفر خود برای ایجاد یک مدل یادگیری ماشینی، اگر در حال آموزش یک مدل یادگیری تحت نظارت هستید، تقسیم‌بندی داده‌ها مورد نیاز است. هدف از داشتن مجموعه داده‌های مختلف، داشتن زیرمجموعه‌ای از داده‌های در دسترس برای تایید عملکرد مدل است. بیایید ۳ مجموعه از داده‌هایی که برای افراز نیاز دارید را درک کنیم:

(۱) مجموعه داده‌های آموزشی

(۲) مجموعه داده اعتبارسنجی

(۳) مجموعه داده Holdout (که به عنوان مجموعه داده تست نیز شناخته می‌شود)

آموزش مجموعه داده‌ها و اعتبار سنجی مجموعه داده‌ها چیست؟

شکل ۲: مجموعه داده آموزشی مجموعه داده اعتبارسنجی (تصویر نویسنده)
شکل ۲: مجموعه داده آموزشی مجموعه داده اعتبارسنجی (تصویر نویسنده)

مجموعه داده آموزشی مجموعه‌ای از داده‌های مورد استفاده برای آموزش یک مدل است و این بزرگ‌ترین مجموعه داده خواهد بود. این مجموعه‌ای از داده‌هایی است که مدل از آن‌ها استفاده خواهد کرد و رفتار را از آن‌ها یاد می‌گیرد. این مدل به طور مداوم براساس مجموعه داده‌های آموزشی برای درک رفتار و الگوهای موجود در آن آموزش داده خواهد شد.

مجموعه داده اعتبارسنجی برای ارزیابی مدل و تنظیم دقیق پارامترهای مدل در طول فرآیند آموزش استفاده می‌شود. این مدل عملکرد و دقت خود را براساس این مجموعه از داده‌ها تایید می‌کند اما از مجموعه داده‌های اعتبارسنجی یاد نمی‌گیرد.

یک مجموعه داده Holdout چیست؟

شکل ۳: اضافه کردن مجموعه دادهHoldout (تصویر نویسنده)
شکل ۳: اضافه کردن مجموعه دادهHoldout (تصویر نویسنده)

مجموعه داده holdout در فرآیند آموزش مدل مورد استفاده قرار نمی‌گیرد و هدف، ارائه یک برآورد بی‌طرفانه از عملکرد مدل در طول فرآیند آموزش است. این مجموعه از داده‌ها تنها زمانی مورد استفاده قرار می‌گیرند که مدل آموزش را با مجموعه داده آموزشی و مجموعه داده اعتبارسنجی به پایان برساند. مجموعه داده holdout نقش مهمی را ایفا می‌کند زیرا تضمین می‌کند که مدل می‌تواند به خوبی به داده‌های نادیده تعمیم یابد. بنابراین مهم است که اطمینان حاصل شود که مجموعه داده Holdout شامل هیچ مجموعه داده آموزشی یا اعتبارسنجی به منظور اطمینان از دقت مدل نمی‌باشد.

علاوه بر این، دقت مدل در مجموعه داده Holdout نیز باید با دقت در طول آموزش مقایسه شود تا اطمینان حاصل شود که مدل بیش برازش شده نیست. اگر دقت در طول آموزش در مقایسه با دقت مجموعه داده Holdout به طور قابل‌توجهی بهتر عمل کند، در این صورت این نشان می‌دهد که مدل ممکن است بیش برازش شده باشد.

پیکربندی نسبت شکاف

شکل ۴: نسبت تقسیم رایج برای آموزش، اعتبار سنجی و مجموعه داده Holdout (تصویر نویسنده)
شکل ۴: نسبت تقسیم رایج برای آموزش، اعتبار سنجی و مجموعه داده Holdout (تصویر نویسنده)

به طور کلی، نسبت تقسیم مورد استفاده اغلب ۶۰: ۲۰: ۲۰ (۶۰٪ برای داده‌های آموزشی، ۲۰٪ برای داده‌های اعتبارسنجی و ۲۰٪ برای داده‌های Holdout) یا ۵۰: ۲۵: ۲۵ است. با این حال، این امر به اندازه و نوع داده‌های مورد استفاده نیز بستگی دارد. مهم است که اطمینان حاصل شود که مجموعه داده با هر مجموعه‌ای از داده‌ها که شامل الگوها یا روندهای داده اصلی است، به خوبی تقسیم بندی شده است یا ممکن است در نهایت مدلی را انتخاب کنیم که بر اساس الگوها یا روندهای داده‌های اعتبار سنجی جانبدارانه باشد.

نتیجه‌گیری

این مقاله کوتاه اهمیت تقسیم داده‌های شما به سه مجموعه داده آموزش داده، مجموعه داده اعتبارسنجی و مجموعه داده holdout را خلاصه می‌کند. مجموعه داده‌های holdout به عنوان برآورد نهایی عملکرد مدل عمل می‌کند و تنها باید پس از آموزش و تنظیم مدل براساس مجموعه داده‌های اعتبارسنجی مورد استفاده قرار گیرد.

با تشکر از خواندن این مقاله، امیدوارم این اطلاعات خوبی برای هر کسی باشد.

این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.