من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
هنگام آموزش یک مدل-شما به آموزش، اعتباردهی و مجموعه دادههای Holdout نیاز خواهید داشت
منتشرشده در towardsdatascience به تاریخ ۲۱ آگوست ۲۰۲۱
لینک منبع When training a model — you will need Training, Validation, and Holdout Datasets
مقدمه
هنگامی که من برای اولین بار شروع به ساخت مدلهای یادگیری ماشینی کردم، من مدل خود را بر روی 2 مجموعه داده آموزش میدادم - مجموعه دادههای آموزشی و مجموعه دادههای اعتبار سنجی با قاعده تقسیم مشترک (۸۰٪ برای داده آموزشی، ۲۰٪ برای داده اعتبارسنجی). با این حال، هنگامی که مدل مستقر میشود و به مجموعه جدید دادهها اعمال میشود، عملکرد مدل شروع به تنزل میکند. یکی از دلایلی که این اتفاق میافتد این است که مدل با مجموعه داده Holdout اعتبار بیشتری پیدا نکرده است، که مهم است زیرا عملکرد مدل را در طول فرایند آموزش معتبر میکند تا اعتبار نهایی عملکرد مدل را تأیید کند.
در این مقاله، بیایید بیشتر بدانیم که چرا هنگام ایجاد یک مدل یادگیری ماشینی نیاز به مجموعه دادههای مختلف داریم، از جمله تابع و اهمیت هر یک از این مجموعه دادهها - مجموعه دادههای آموزشی، مجموعه دادههای اعتبار سنجی و مجموعه دادههایHoldout.
تقسیمبندی دادهها
قبل از شروع سفر خود برای ایجاد یک مدل یادگیری ماشینی، اگر در حال آموزش یک مدل یادگیری تحت نظارت هستید، تقسیمبندی دادهها مورد نیاز است. هدف از داشتن مجموعه دادههای مختلف، داشتن زیرمجموعهای از دادههای در دسترس برای تایید عملکرد مدل است. بیایید ۳ مجموعه از دادههایی که برای افراز نیاز دارید را درک کنیم:
(۱) مجموعه دادههای آموزشی
(۲) مجموعه داده اعتبارسنجی
(۳) مجموعه داده Holdout (که به عنوان مجموعه داده تست نیز شناخته میشود)
آموزش مجموعه دادهها و اعتبار سنجی مجموعه دادهها چیست؟
مجموعه داده آموزشی مجموعهای از دادههای مورد استفاده برای آموزش یک مدل است و این بزرگترین مجموعه داده خواهد بود. این مجموعهای از دادههایی است که مدل از آنها استفاده خواهد کرد و رفتار را از آنها یاد میگیرد. این مدل به طور مداوم براساس مجموعه دادههای آموزشی برای درک رفتار و الگوهای موجود در آن آموزش داده خواهد شد.
مجموعه داده اعتبارسنجی برای ارزیابی مدل و تنظیم دقیق پارامترهای مدل در طول فرآیند آموزش استفاده میشود. این مدل عملکرد و دقت خود را براساس این مجموعه از دادهها تایید میکند اما از مجموعه دادههای اعتبارسنجی یاد نمیگیرد.
یک مجموعه داده Holdout چیست؟
مجموعه داده holdout در فرآیند آموزش مدل مورد استفاده قرار نمیگیرد و هدف، ارائه یک برآورد بیطرفانه از عملکرد مدل در طول فرآیند آموزش است. این مجموعه از دادهها تنها زمانی مورد استفاده قرار میگیرند که مدل آموزش را با مجموعه داده آموزشی و مجموعه داده اعتبارسنجی به پایان برساند. مجموعه داده holdout نقش مهمی را ایفا میکند زیرا تضمین میکند که مدل میتواند به خوبی به دادههای نادیده تعمیم یابد. بنابراین مهم است که اطمینان حاصل شود که مجموعه داده Holdout شامل هیچ مجموعه داده آموزشی یا اعتبارسنجی به منظور اطمینان از دقت مدل نمیباشد.
علاوه بر این، دقت مدل در مجموعه داده Holdout نیز باید با دقت در طول آموزش مقایسه شود تا اطمینان حاصل شود که مدل بیش برازش شده نیست. اگر دقت در طول آموزش در مقایسه با دقت مجموعه داده Holdout به طور قابلتوجهی بهتر عمل کند، در این صورت این نشان میدهد که مدل ممکن است بیش برازش شده باشد.
پیکربندی نسبت شکاف
به طور کلی، نسبت تقسیم مورد استفاده اغلب ۶۰: ۲۰: ۲۰ (۶۰٪ برای دادههای آموزشی، ۲۰٪ برای دادههای اعتبارسنجی و ۲۰٪ برای دادههای Holdout) یا ۵۰: ۲۵: ۲۵ است. با این حال، این امر به اندازه و نوع دادههای مورد استفاده نیز بستگی دارد. مهم است که اطمینان حاصل شود که مجموعه داده با هر مجموعهای از دادهها که شامل الگوها یا روندهای داده اصلی است، به خوبی تقسیم بندی شده است یا ممکن است در نهایت مدلی را انتخاب کنیم که بر اساس الگوها یا روندهای دادههای اعتبار سنجی جانبدارانه باشد.
نتیجهگیری
این مقاله کوتاه اهمیت تقسیم دادههای شما به سه مجموعه داده آموزش داده، مجموعه داده اعتبارسنجی و مجموعه داده holdout را خلاصه میکند. مجموعه دادههای holdout به عنوان برآورد نهایی عملکرد مدل عمل میکند و تنها باید پس از آموزش و تنظیم مدل براساس مجموعه دادههای اعتبارسنجی مورد استفاده قرار گیرد.
با تشکر از خواندن این مقاله، امیدوارم این اطلاعات خوبی برای هر کسی باشد.
این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
توصیهنامه کنترل و پیشگیری آمریکا برای مقابله با ویروس کرونا در اماکن بهداشتی
مطلبی دیگر از این انتشارات
تحقیقات جدید نشان میدهد که خوردن انگور میتواند از پوست در برابر آسیب اشعه فرابنفش محافظت کند
مطلبی دیگر از این انتشارات
مورچهها در مورد بیماریهای همهگیر چه چیزی به ما میآموزند؟