در هنگام صلح بیشتر عرق بریز تا در خلال جنگ کمتر خون بریزی. سان تزو
تصور کنید که مدل یادگیری ماشینی طراحی کردهاید که روی دادههای آزمون تقریباً دقت کامل دارد. طبیعی است که خوشحال شدهاید و قصد استقرار مدل را در عمل دارید. با این حال، در عمل مدل دقت بسیار ضعیفی از خود بروز میدهد. ایراد از کجاست و چگونه میتوان آن را حل کرد؟
یک دلیل این تناقض در عملکرد مدل میتواند به علت پدیدهای باشد به نام نشت دادهها. نشت دادهها یکی از خطاهای مهم در یادگیری ماشین است. نشت دادهها زمانی رخ میدهد که دادههایی که ما برای آموزش الگوریتم یادگیری ماشین استفاده کرهایم، حاوی اطلاعاتی است که مدل قرار است پیشبینی کند. این امر موجب نتایج غیر قابل اعتماد و پیشبینیهای بد در استقرار مدل میشود.
نشت دادهها زمانی رخ میدهد که طراح مدل یادگیری ماشین به صورت تصادفی دادههایی بین مجموعه آموزش و مجموعه آزمون به اشتراک میگذارد. هدف اصلی از شکستن دادهها به مجموعههای آموزش و آزمون این است که هیچ داده مشترکی بین این دو زیر مجموعه وجود نداشته باشد. در واقع قرار است مدل در دنیای واقعی روی دادههای نادیده اعمال شود. چون مدل در اثر اشتباه طراح، بخشی از دادههای آزمون را در قالب دادههای آموزش مشاهده کرده و از آنها آموخته است، بنابراین، در فاز آزمون دقت بسیار بالایی از خود نشان میدهد.
پیش از پرداختن به مثالها، لازم است تا با دو مفهوم "ویژگیها" (Features) و "متغیر هدف" (Class) آشنا شویم.
متغیر هدف: خروجی که مدل قصد دارد پیشبینی کند.
ویژگیها: دادههای مورد استفاده برای پیشبینی متغیر خروجی.
مثال 1 - سادهترین حالت نشت دادهها زمانی است که ما در الگوریتم خود، متغیر هدف را نیز در مجموعه آموزش به عنوان ویژگی لحاظ میکنیم.
مثال 2 - حالت دیگر زمانی است که مجموعههای آموزش و آزمون در برخی دادهها همپوشانی دارند.
مثال 3 - برخی ویژگیها در مجموعه داده، حاوی اطلاعاتی در مورد متغیر هدف هستند. این ویژگیها را ویژگیهای بدل (Giveaway Features) مینامند. مثلا در مجموعه داده مدلی که قرار است داشتن یک بیماری را پیشبینی کند، متغیری که نشان دهد بیمار یک عمل جراحی مربوطه انجام داده است، ویژگی بدل محسوب میشود که منجر به نشت دادهها میشود.
حالت 1 - در کل اگر مدل خیلی کامل جواب میدهد و نتایج ارزیابی فاز آزمون به فاز آموزش بسیار نزدیک است، باید به نشت دادهها شک کرد.
حالت 2 - در مرحله تحلیل کاوشی دادهها (DEA) باید ویژگیهایی را که بشدت با متغیر هدف همبستگی دارند کشف کرد. این متغیرها را بسته به شرایط باید حذف یا ادغام کرد.
در انتخاب ویژگیها باید اطمینان حاصل کرد که ویژگیهای انتخاب شده با متغیر هدف همبسته نباشند، یا حاوی اطلاعاتی در مورد متغیر هدف نباشند.
برای کاهش احتمال نشت دادهها، یک راه ایجاد مجموعه اعتبارسنجی علاوه بر مجموعه آموزش و مجموعه آزمون است. هدف از ایحاد مجموعه اعتبارسنجی، تقلید سناریوی دنیای واقعی است و میتواند به عنوان گام آخر مورد استفاده قرار گیرد. با انجام این کار، اگر بیشبرازش (Overfitting) مشاهده شد، مدل قطعا در دنیای واقعی عملکرد نامناسیی خواهد داشت و احتمال نشت دادهها بسیار است.
در پیشپردازش دادهها، مرسوم است که نرمالسازی انجام شود. در نرمالسازی، مقدار داده بر میانگین آن تقسیم میشود. اغلب واقع این نرمالسازی بر کل مجموعه داده اعمال میشود، که ممکن است اطلاعات آزمون روی دادههای آموزش تاثیر بگذارد و در نهایت منجر به نشت دادهها شود. بنابراین، برای پرهیز از نشت دادهها، نرمالسازی روی هر دو مجموعه، آموزش و آزمون، مستقلا صورت میگیرد.
در برخورد با دادههای سری زمانی، باید توجه بیشتری به نشت دادهها داشت. برای مثال، اگر به نحوی از دادههای آینده در محاسبات ویژگیهای فعلی یا پیشبینیها استفاده شود، به احتمال زیاد مدل نهایی دارای نشت داده خواهد بود. معمولا این کار با تقسیم تصادفی دادهها به زیر مجموعههای آموزش و آزمون اتفاق میافتد. پس در کار با سری زمانی، ایجاد یک نقطه برش (Cutoff) در زمان میتواند بسیار مفید باشد، زیرا مانع از افشای اطلاعات پس از زمان پیشبینی میشود.
وقتی دادههای محدودی برای آموزش الگوریتم داریم، بهتر است که از اعتبارسنجی متقاطع در فاز آموزش بهره بریم. در اعتبارسنجی متقاطع، کل دادهها به k بخش شکسته میشوند و در طی k مرحله، هر بار k-1 بخش برای آموزش و یک بخش باقیمانده برای آزمون مدل استفاده میشود.
مزیت این رویکرد این است که از کل مجموعه داده برای اهداف آموزش و آزمون استفاده میشود.
میتوان گفت که نشت دادهها در حوزه تحلیل پیشگو، پدیدهای شایع است.ما مدل خود را با دادههای معلوم آموزش میدهیم و انتظار داریم روی دادههای نادیده در عمل و به عنوان هدف نهایی عملکرد خوبی از خود بروز دهد. بنابراین، اگر مدل در پیشبینی خوب عمل کند، قابل تعمیم است. اما، نشت دادهها از این تعمیم جلوگیری میکند و باعث ایجاد فرضیات نادرست در مورد عملکرد مدل میشود. بنابراین، برای ساختن مدلهای پیشگوی محکم و قابل تعمیم، باید توجه خاصی به کشف و پرهیز از نشت دادهها مبذول داشت.