تقسیم داده یک گام مهم و اساسی در فرآیند یادگیری ماشین هست که به شما در ارزیابی و بهینه سازی مدلهایتان به طور مناسبی کمک میکند. تقسیم داده نوعا شامل سه بخش اساسی خواهد بود: مجموعه آموزش، مجموعه اعتبار سنجی و مجموعه آزمون.
۱. مجموعه آموزش: قسمت عظیم و بزرگ مجموعه داده مربوط به مجموعه آموزش است که معمولا حدود ۷۰ تا ۸۰ درصد آن را در بر میگیرد. از این مجموعه برای آموزش مدل استفاده میشود. در حین آموزش، مدل، الگوها و روابط بین نقاط داده را یاد میگیرد. خیلی مهم است که اطمینان حاصل شود، مجموعه آموزش، نماینده خوبی از کل داده هست.
۲. مجموعه اعتبار سنجی: چیزی در حدود ۱۰ تا ۱۵ درصد مجموعه داده را شامل شده و از آن در حین توسعه مدل و تنظیم ابرپارامترها استفاده میشود. به عنوان یک مجموعه داده مقاوم شناخته میشود که کمک میکند از طریق آن کارایی مناسب مدل خود را برآورده کنید. شما میتوانید ابرپارامترها و انواع مختلف مدل را تعیین و ارزیابی کرده تا بهترین تنظیمات و مدل را انتخاب کنید.
۳. مجموعه داده آزمون: مجموعه آزمون، بخش کوچکتر مجموعه داده هست که چیزی حدود ۱۰ تا ۱۵ درصد آن را شامل میشود. این مجموعه داده از مجموعه داده آموزش و اعتبار سنجی جدا و مجزا است. این مجموعه داده برای ارزیابی کارایی مدل نهایی بعد از آموزش و تنظیم پارامترهای آن مورد استفاده قرار میگیرد. در واقع به عنوان تخمینی از کارایی مورد انتظار از مدل در حین مواجه شدن با دادههای دیده نشده و واقعی جهان امروزی است.