payamsalimian.eng
payamsalimian.eng
خواندن ۲۶ دقیقه·۵ سال پیش

نمونه گیری به روش smote

نمونه گیری به روش smote

چکیده:

روشی برای ساخت طبقه بندها از مجموعه داده‌های نامتعادل توضیح داده شده‌است.

در صورت عدم تعادل دسته‌ها یک مجموعه داده نامتعادل است.

اغلب مجموعه‌های داده واقعی غالباً از نمونه‌های " عادی " با درصد کمی از نمونه‌های " غیرعادی " یا " جالب " تشکیل شده‌اند. همچنین این حالت وجود دارد که هزینه یک مثال عادی (جالب) به عنوان مثال عادی اغلب بسیار بیشتر از هزینه خطای معکوس است. طبقه اکثریت (معمولی) به عنوان ابزاری خوب برای افزایش حساسیت نسبت به طبقه اقلیت پیشنهاد شده‌است. این مقاله نشان می‌دهد که ترکیبی از روش بیشن نمونه گیری در طبقه اقلیت (غیر عادی) و تحت نمونه‌گیری اکثریت (معمولی) می‌تواند به طبقه‌بندی بهتری از طبقه اکثریت (در فضای roc) منجر شود.

این مقاله همچنین نشان می‌دهد که ترکیبی از روش بیش نمونه گیری طبقه اقلیت و طبقه زیر - طبقه اکثریت می‌تواند به طبقه‌بندی بهتری (در فضای roc) نسبت به تغییر نسبت زیان موجود در (roc یا گروه) در بیز ساده دست یابد. روش ما نسبت به طبقه اقلیت شامل ایجاد نمونه‌های کلاس اقلیت ترکیبی است.

آزمایش‌ها با استفاده از c4. الگوریتم Ripper and a Naive Bayesripper به‌کار می‌رود. این روش با استفاده از سطح زیر منحنی مشخصه عملکرد گیرنده (auc) و استراتژی پوسته محدب ارزیابی می‌شود.

مقدمه

یک مجموعه داده نامتعادل است اگر کلاس تقریباً به همان اندازه نمایش داده نشده باشد. نامتعادل به ترتیب ۱۰۰ تا ۱ متداول است در تشخیص تقلب و عدم تعادل بین ۱۰۰۰۰۰ تا ۱ در کاربردهای دیگر گزارش شده‌است (Provost Fawcett، ۲۰۰۱). تلاش‌هایی برای رسیدگی به داده‌های نامتعادل در حوزه‌هایی مانند تماس‌های تلفنی جعلی (Fawcett & Provost، ۱۹۹۶)، مدیریت ارتباطات راه دور (Ezawa، Singh، & Norton، ۱۹۹۴؛ Dumais، Grobelnik، ۱۹۹۴؛ Lewis، ۱۹۹۵) و کشف نشت نفت در تصاویر ماهواره‌ای انجام شده‌است (قباد، Holte، & Matwin، ۱۹۹۸).

کارایی الگوریتم‌های یادگیری ماشین معمولاً با استفاده از دقت پیش‌بینی ارزیابی می‌شود. با این حال، این کار زمانی مناسب نیست که داده‌ها نامتعادل باشند و یا هزینه‌های خطاهای مختلف به طور قابل‌توجهی متفاوت باشند. به عنوان مثال، طبقه‌بندی پیکسل را در تصاویر ماموگرافی که احتمالاً سرطانی هستند در نظر بگیرید (وودز، Doss، بائر، Solka، &، ۱۹۹۳). یک مجموعه داده ماموگرافی، ممکن است شامل ۹۸ درصد پیکسل معمولی و ۲ درصد نقطه غیر عادی باشد. یک استراتژی پیش‌فرض ساده برای حدس زدن طبقه اکثریت، دقت پیش‌بینی ۹۸ % را می‌دهد. با این حال، ماهیت برنامه نیاز به نرخ نسبتاً بالایی از تشخیص درست در طبقه اقلیت دارد و اجازه می‌دهد تا نرخ خطای کمی در کلاس اکثریت برای رسیدن به این هدف وجود داشته باشد. دقت پیش‌بینی ساده در چنین شرایطی مناسب نیست.

منحنی مشخصه گیرنده (ROC) یک تکنیک استاندارد برای خلاصه کردن عملکرد طبقه‌بندی کننده در محدوده‌ای از تعادل بین نرخ‌های خطای مثبت و مثبت کاذب (Swets، ۱۹۸۸) است. مساحت تحت این منحنی یک متریک عملکرد سنتی برای یک منحنی ROC است (Duda، هارت، & Stork، ۲۰۰۱؛ بردلی، ۱۹۹۷؛ لی، ۲۰۰۰). بدنه محدب ROC نیز می‌تواند به عنوان روشی قوی برای شناسایی کننده‌های بهینه بالقوه بالقوه مورد استفاده قرار گیرد (Provost Fawcett، ۲۰۰۱). اگر یک خط از یک نقطه بر روی بدنه محدب عبور کند، پس هیچ خط دیگری با شیب یک‌سان در یک نقطه دیگر با یک نقطه تقاطع مثبت حقیقی مثبت (TP) وجود ندارد. بنابراین، طبقه‌بندی کننده در این نقطه، تحت هر فرض توزیعی در کنار آن شیب بهینه است.

جامعه یادگیری ماشین مساله عدم تعادل کلاس را به دو روش مورد خطاب قرار داده‌است.

یکی برای تعیین هزینه‌های متمایز برای آموزش مثال‌ها است (Pazzani، Merz، مورفی، علی، هیوم، & Brunk، ۱۹۹۴؛ Domingos، ۱۹۹۹). دیگری برای نمونه مجدد مجموعه داده اصلی، یا با نمونه‌گیری از طبقه اقلیت و / یا تحت نمونه‌گیری از طبقه اکثر (قباد & Matwin، ۱۹۹۷؛ Japkowicz، ۲۰۰۰؛ Lewis & catlett، ۱۹۹۴؛ لینگ & لی، ۱۹۹۸). رویکرد ما (Chawla، بائر، هال، & Kegelmeyer، ۲۰۰۰) با نمونه‌ای خاص از نمونه‌گیری بیش از حد از طبقه اقلیت، تحت نمونه‌گیری طبقه‌ای اکثریت قرار گرفته‌است. آزمایش‌ها با مجموعه داده‌های مختلف و C۴. طبقه‌بندی کننده درخت تصمیم‌گیری (Quinlan، ۱۹۹۲)، ری پر (کوهن، ۱۹۹۵)، و یک مدل Naive بیز، نشان می‌دهد که رویکرد ما نسبت به دیگر رویکردهای نمونه‌گیری مجدد، تغییر نسبت تلفات، و استفاده از بدنه محدب و AUC (AUC) بهبود می‌یابد.

معیارهای عملکرد

عملکرد الگوریتم‌های یادگیری ماشین معمولاً توسط یک ماتریس درهم‌ریختگی که در شکل ۱ نشان‌داده شده‌است، ارزیابی می‌شود (برای یک مساله کلاس ۲). ستون‌ها طبقه پیش بینی شده هستند و سطرها کلاس واقعی هستند. در ماتریس درهم‌ریختگی، TN تعداد نمونه‌های منفی است.

مثبت پیش بینی شده

منفی پیش بینی شده

FP

TN

منفی واقعی

TP

FN

مثبت واقعی

در طبقه‌بندی صحیح (منفی‌های درست), fp تعداد نمونه‌های منفی است که به‌اشتباه دسته‌بندی شده‌اند (مثبت‌های کاذب), fn تعداد نمونه‌های مثبت طبقه‌بندی شده منفی (منفی کاذب) و tp (مثبت‌های درست) است.

دقت پیش‌بینی معیار عملکرد عموماً مرتبط با الگوریتم‌های یادگیری ماشین است و به صورت دقت = tp + tn) / (tp + fp + tn + fn) تعریف می‌شود. در زمینه داده‌های متعادل و هزینه‌های یک‌سان خطا, استفاده از نرخ خطا به عنوان یک معیار عملکرد منطقی است. میزان خطا از دقت بالایی برخوردار است. در حضور مجموعه داده‌های نامتوازن با هزینه خطای نابرابر, استفاده از منحنی roc یا روش‌های مشابه دیگر مناسب‌تر است.

منحنی ROC می‌تواند به عنوان نماینده خانواده بهترین محدوده‌های تصمیم‌گیری برای هزینه‌های نسبی TP و FP انتخاب شود. در منحنی ROC، X نشان‌دهنده % FP = FP / (TN + FP) و محور Y نشان‌دهنده % TP / (TP + فرست) است. نقطه ایده‌آل در منحنی ROC می‌تواند (۰،۱۰۰) باشد، که همه نمونه‌های مثبت به درستی طبقه‌بندی می‌شوند و هیچ مثال‌های منفی به عنوان مثبت نیستند. یکی از روش‌های منحنی ROC می‌تواند با دستکاری تعادل نمونه‌های آموزشی برای هر کلاس در مجموعه آموزشی باشد. شکل ۲ یک تصویر را نشان می‌دهد.

خط y = x سناریوی تصادفی کلاس را نشان می‌دهد. مساحت زیر ROC (AUC) یک معیار مفید برای عملکرد طبقه‌بندی کننده است زیرا مستقل از معیار تصمیم‌گیری انتخاب‌شده و احتمالات قبلی است. مقایسه AUC را می‌توان یک رابطه غالب بین طبقه‌بندی کننده‌ها ایجاد کرد. اگر منحنی ROC مقطعی باشد، میانگین AUC یک مقایسه میانگین بین مدل‌های (لی، ۲۰۰۰) است. با این حال، برای برخی توزیع‌های هزینه و هزینه خاص، طبقه‌بندی کننده‌ها که بیش‌ترین AUC را دارند ممکن است در واقع نیمه بهینه باشند. از این رو، ما همچنین بدنه محدب ROC را نیز محاسبه می‌کنیم، چون نقاط نشان‌داده‌شده روی بدنه محدب جمهوری چین به طور بالقوه بهینه هستند (Provost، Fawcett، & Kohavi، ۱۹۹۸؛ Provost Fawcett، ۲۰۰۱).

کار قبلی: مجموعه داده نامتعادل

Kubat و Matwin (۱۹۹۷) به طور انتخابی از طبقه اکثریتی استفاده کرده‌اند در حالی که جمعیت اصلی طبقه اقلیت را حفظ می‌کنند. آن‌ها از میانگین هندسی به عنوان یک معیار عملکرد برای طبقه‌بندی کننده استفاده کرده‌اند که می‌تواند به یک نقطه واحد در منحنی ROC مرتبط باشد.

نمونه‌های اقلیت به چهار دسته تقسیم شدند: برخی از نویز در منطقه تصمیم‌گیری طبقه مثبت، نمونه‌های مرزی، نمونه‌های تکراری و نمونه‌های ایمن تقسیم شدند. مثال‌های مرزی با استفاده از مفهوم لینک‌های Tomek شناسایی شدند (Tomek، ۱۹۷۶).

?

یکی دیگر از کارهای مرتبط، سیستم SHRINK را پیشنهاد داد که یک منطقه همپوشانی کننده اقلیت (مثبت) و اکثریت (منفی) را به عنوان مثبت طبقه‌بندی می‌کند؛ آن به دنبال "بهترین منطقه مثبت" است (قباد و همکاران، ۱۹۹۸).

Japkowicz (۲۰۰۰) در مورد تاثیر عدم تعادل در مجموعه داده‌ها بحث و تبادل نظر کرد. او سه استراتژی را ارزیابی کرد: نمونه‌برداری، نمونه‌گیری مجدد و یک طرح القای تشخیص مبتنی بر بازشناسی. ما بر رویکردهای نمونه‌گیری او تمرکز می‌کنیم. او داده‌های ۱ بعدی مصنوعی را برای اندازه‌گیری آسان و ساخت پیچیدگی مفهوم آزمایش کرد. دو روش نمونه‌گیری مجدد در نظر گرفته شد.

نمونه‌گیری مجدد تصادفی شامل نمونه‌گیری مجدد از کلاس کوچک‌تر تصادفی تا زمانی که تعداد زیادی از نمونه‌ها به عنوان نمونه بیشتر و "نمونه‌گیری مجدد متمرکز" شامل نمونه‌گیری مجدد فقط آن نمونه‌های اقلیت که در مرز بین اقلیت و اقلیت رخ داد، بود. نمونه‌گیری تصادفی به صورت تصادفی در نظر گرفته شد، که نمونه‌های رده اکثریت را به طور تصادفی نمونه‌گیری کرد تا تعداد آن‌ها با تعداد نمونه‌های طبقه اقلیت مطابقت داشته باشد. او اشاره کرد که هر دو روش نمونه‌گیری موثر بودند، و همچنین مشاهده کرد که با استفاده از تکنیک‌های نمونه‌گیری پیچیده، هیچ مزیت روشنی در این حوزه وجود ندارد (Japkowicz، ۲۰۰۰).

یک رویکرد که به ویژه مربوط به کار ما است این است که لینگ و لی (۱۹۹۸).

آن‌ها با نمونه‌گیری بیش از حد از طبقه اقلیت با نمونه‌گیری از طبقه اقلیت، ترکیب شدند. آن‌ها از آنالیز بالابر به جای دقت برای اندازه‌گیری عملکرد طبقه بندی استفاده کردند. آن‌ها پیشنهاد کردند که نمونه‌های تست با یک اندازه‌گیری مطمئن رتبه‌بندی شوند و سپس به عنوان معیارهای ارزیابی مورد استفاده قرار گیرند.

منحنی بالابر شبیه منحنی ROC است، اما برای مساله تحلیل بازاریابی مناسب‌تر است (لینگ & Li، ۱۹۹۸). در یک آزمایش، آن‌ها گروه اکثریت را نمونه‌گیری کردند و اشاره کردند که بهترین شاخص بالابر در زمانی بدست می‌آید که کلاس‌ها به همان اندازه نمایش داده شوند (لینگ & Li، ۱۹۹۸). در یک آزمایش دیگر، آن‌ها نمونه‌های مثبت (اقلیت) را با جایگزینی برای مطابقت با تعداد نمونه‌های مثبت (اکثریت) نمونه‌های مثبت آزمایش کردند. روش نمونه‌گیری بیش از نمونه‌گیری و نمونه‌برداری تحت نمونه‌گیری بهبود قابل‌توجهی در شاخص بالابر ارایه نداد. با این حال، رویکرد ما نسبت به نمونه‌گیری از نمونه‌گیری متفاوت است.

Solberg و Solberg (1996) به بررسی مساله مجموعه داده‌های نامتعادل در طبقه‌بندی روغن نرم از تصاویر SAR پرداخت. آن‌ها از تکنیک‌های نمونه‌گیری بیش از نمونه‌گیری و زیر نمونه‌گیری استفاده کردند تا طبقه‌بندی محصولات نفتی را بهبود بخشند. داده‌های آموزشی آن‌ها دارای توزیع ۴۲ شرکت نفت slicks و ۲,۴۷۱ شبیه بود که احتمال بیشتری از آلفای کرونباخ برای نگاه کردن به مشابهت ها داشت. این عدم تعادل باعث می‌شود که یاد گیرنده (بدون هیچ کدام از توابع خسارت مناسب و یا یک روش برای اصلاح و دسته‌بندی) به طور درست به هزینه نادرست بسیاری از نمونه‌های لغزنده نفت (Solberg & Solberg, 1996) هدایت شود. برای غلبه بر این مشکل عدم تعادل, آن‌ها نمونه‌گیری بیش از ۱۰۰ نمونه از لیز نفتی را به طور تصادفی نمونه‌برداری کردند و آن‌ها به طور تصادفی ۱۰۰ نمونه از کلاس غیر لغزنده را نمونه‌برداری کردند تا یک مجموعه داده جدید با احتمالات مساوی ایجاد کنند.

آن‌ها یک درخت طبقه‌بندی کننده را بر روی این مجموعه داده متوازن آموختند و به نرخ خطای ۱۴ % روی لیز نفتی در یک روش (یکی را خارج قرار دادن) برای تخمین خطا دست یافتند؛ در حالت شبیه به نرخ خطای ۴ % دست یافتند (Solberg & Solberg، ۱۹۹۶).

یک رویکرد دیگر که مشابه کار ما است مربوط به Domingos (1999) است. او رویکرد " metacost " را با هر کدام از اکثریت تحت نمونه‌گیری و اقلیت مقایسه می‌کند.

وی دریافته است که metacost در هر دو مورد بهبود یافته‌است، و این روش نمونه‌گیری ترجیح داده می‌شود که از نمونه‌گیری بیش از اندازه اقلیت برخوردار باشد. طبقه‌بندی کننده‌های مبتنی بر خطا نسبت به هزینه حساس هستند. احتمال هر کلاس برای هر نمونه تخمین زده می‌شود و مثال‌های آن به طور بهینه با توجه به هزینه‌های طبقه‌بندی طبقه‌بندی می‌شوند. برچسب‌دار مثال‌های فضای تصمیم را گسترش می‌دهد چون نمونه‌های جدیدی را ایجاد می‌کند که طبقه‌بندی کننده ممکن است یاد بگیرند (Domingos، ۱۹۹۹).

یک شبکه عصبی که در مجموعه داده نامتعادل آموزش‌دیده است ممکن است یادگیری بین کلاس‌ها را یاد بگیرد (DeRouin، Brown، fausett، & اشنایدر، ۱۹۹۱). نویسندگان پیشنهاد کردند که سرعت یادگیری شبکه عصبی با آمار نمایش کلاس در داده‌ها تطبیق داده شود. آن‌ها یک عامل توجه را از نسبت نمونه ارائه‌شده به شبکه عصبی برای آموزش محاسبه کردند. سرعت یادگیری عناصر شبکه براساس فاکتور توجه تنظیم شد. آن‌ها یک مجموعه آموزشی تولید شده مصنوعی و در یک مجموعه آموزشی واقعی، هم با چند کلاس (بیش از دو کلاس) را امتحان کردند. آن‌ها این مساله را با رویکرد تکرار نمونه‌های کلاس اقلیت برای متعادل کردن مجموعه داده مورد استفاده برای آموزش مقایسه کردند. دقت طبقه‌بندی در طبقه اقلیت بهبود یافت.

Lewis و catlett (۱۹۹۴) نمونه‌گیری عدم قطعیت ناهمگن برای یادگیری نظارت شده را بررسی کردند. این روش برای آموزش نمونه‌های آموزشی با کلاس‌های نامشخص مفید است. نمونه‌های آموزشی به صورت افزایشی در دو فاز برچسب گذاری می‌شوند و نمونه‌های نامشخص به فاز بعدی منتقل می‌شوند. آن‌ها C۴ را تغییر دادند. ۵ برای اضافه کردن نسبت تلفات برای تعیین مقادیر کلاس در برگ‌ها. ارزش‌های کلاس با مقایسه با آستانه احتمال LR / (LR + ۱) تعیین شدند، که در آن LR نسبت تلفات است (لوئیس & catlett، ۱۹۹۴).

بازیابی اطلاعات (IR) (Dumais و همکاران, 1998; Mladenic & Grobelnik, 1999; لوییس & Ringuette, 1994) نیز با مشکل عدم تعادل طبقاتی در مجموعه داده‌ها مواجه است. یک سند یا صفحه وب به یک نمایش از کلمات تبدیل می‌شود; یعنی, یک بردار ویژگی که منعکس‌کننده وقایع کلمات در صفحه است ساخته شده‌است. معمولا, نمونه‌های بسیار کمی از این گروه جالب در طبقه‌بندی متن وجود دارد. این حضور بیش از حد طبقه منفی در مشکلات بازیابی اطلاعات می‌تواند باعث بروز مشکلاتی در ارزیابی عملکرد طبقه‌بندی کننده‌ها شود. از آنجا که نرخ خطا, معیار خوبی برای مجموعه داده‌های انحرافی نیست, عملکرد طبقه‌بندی الگوریتم در بازیابی اطلاعات معمولاً با دقت اندازه‌گیری می‌شود و اینطور بیان می کند:

?

Mladenic و Grobelnik (۱۹۹۹) یک رویکرد انتخاب زیرمجموعه ویژگی را برای رسیدگی به توزیع نامتعادل در کلاس IR پیشنهاد کردند. آن‌ها روش‌های مختلف انتخاب ویژگی را امتحان کردند و دریافتند که نسبت احتمالات (ون Rijsbergen، هار پر، & پرتر، ۱۹۸۱) در ترکیب با یک طبقه‌بندی کننده بیز، بهترین عملکرد را در حوزه خود انجام می‌دهد. نسبت احتمال، معیار احتمالاتی است که برای رتبه‌بندی اسناد مطابق با ارتباط آن‌ها با طبقه مثبت (کلاس اقلیت) مورد استفاده قرار می‌گیرد. از طرف دیگر، کسب اطلاعات برای یک کلمه، به طبقه هدف خاص توجه نمی‌کند؛ در هر کلمه برای هر کلاس محاسبه می‌شود. در مجموعه داده‌ها نامتعادل (با فرض ۹۸ تا ۹۹ %، کلاس منفی است)، اغلب ویژگی‌ها مرتبط با طبقه منفی هستند. نسبت شرط، اطلاعات کلاس هدف را در معیار خود، در مقایسه با کسب اطلاعات برای طبقه‌بندی متن، نتایج بهتری می‌دهد.

Provost و Fawcett (1997) روش بدنه محدب ROC را برای تخمین عملکرد طبقه‌بندی کننده در مجموعه داده‌های نامتعادل معرفی کردند. آن‌ها توجه دارند که مشکلات توزیع طبقه نابرابر و هزینه‌های خطای نابرابر به هم مربوط هستند و این کار کوچک برای رسیدگی به این مشکل انجام شده‌است (Provost &, 2001). در روش ROC محدب, فضای ROC برای جدا کردن عملکرد طبقه‌بندی از کلاس و اطلاعات توزیع هزینه استفاده می‌شود.

برای خلاصه کردن متون درسی، طبقه متوسط ممکن است طبقه کننده‌های بهتری ساخته شوند تا نمونه‌گیری بیش از حد از طبقه اقلیت. ترکیبی از دو روش انجام‌شده در کار قبلی منجر به طبقه‌بندی کننده‌ها نمی‌شود که بهتر از آن‌هایی که تنها با استفاده از زیر نمونه گیری ساخته شده‌اند، عملکرد بهتری داشته باشند.

با این حال، نمونه‌گیری بیش از حد از طبقه اقلیت با نمونه‌گیری از داده‌های اصلی انجام شده‌است. رویکرد ما از روش متفاوتی از نمونه‌گیری بیش از نمونه‌گیری استفاده می‌کند.

SMOTE: تکنیک اقلیت مصنوعی بیش نمونه گیری

(لینگ & لی، ۱۹۹۸؛ Japkowicz، ۲۰۰۰) در مورد نمونه‌برداری با جایگزینی بحث و بررسی کرده و اشاره کرد که این موضوع به طور قابل‌توجهی به رسمیت شناختن طبقه اقلیت نیست.

ما تاثیر زیربنایی بر حسب مناطق تصمیم‌گیری در فضای ویژگی را تفسیر می‌کنیم. اساساً، همانطور که طبقه اقلیت با افزایش مقادیر نمونه‌گیری شد، تاثیر آن مشخص کردن مناطق خاص اما بیشتر در فضای ویژگی به عنوان منطقه تصمیم‌گیری برای طبقه اقلیت است این اثر برای درختان تصمیم‌گیری را می‌توان از قطعات در شکل زیر فهمید.

.?

شکل 3

داده‌های طرح در شکل 3 از a Mammography استخراج شد (وودز و همکاران، ۱۹۹۳). نمونه‌های طبقه اقلیت نشان داده می‌شود و نمونه‌های درجه اکثریت در نمودار نشان داده می‌شود. در شکل 3 (a)، منطقه‌ای که توسط مستطیل خط توپر نشان داده شده‌است، منطقه تصمیم‌گیری طبقه اکثریت است. با این وجود، این شامل سه نمونه طبقه اقلیت است که در "+" به عنوان نقاط منفی کاذب نشان‌داده شده‌است. اگر ما طبقه اقلیت را تکرار کنیم، منطقه تصمیم‌گیری برای طبقه اقلیت بسیار خاص می‌شود و باعث ایجاد شکاف جدید در درخت تصمیم‌گیری خواهد شد. این امر منجر به nodes بیشتر گره‌ها (برگ‌ها) به عنوان الگوریتم یادگیری برای یادگیری بیشتر و بیشتر در طبقه اقلیت، در اصل، بیش از حد پوشش داده می‌شود. تکرار کلاس اقلیت باعث نشد که مرز تصمیم‌گیری در منطقه اکثریت فراگیر شود. بنابراین، در شکل ۳ (b)، سه نمونه قبلی در منطقه تصمیم‌گیری طبقه اکثریت در حال حاضر مناطق تصمیم‌گیری بسیار ویژه‌ای دارند.

SMOTE

ما روش نمونه‌گیری بیش از اندازه را پیشنهاد می‌کنیم که در آن طبقه اقلیت با ایجاد نمونه‌های " مصنوعی " به جای نمونه‌گیری بیش از نمونه‌گیری مجدد نمونه‌گیری می‌شود. این رویکرد از تکنیکی الهام‌گرفته شده که در بازشناسی شخصیت دست‌نویس موفق شد (Ha & Bunke, 1997). آن‌ها داده‌های آموزشی اضافی را با انجام عملیات خاص بر روی داده‌های واقعی ایجاد کردند. در مورد آن‌ها, عملیاتی مانند چرخش و انحراف روش‌های طبیعی برای آشفته کردن داده‌های آموزشی بودند. ما مثال‌های ترکیبی را در یک روش کم‌تر با کاربرد کم‌تر, با عمل در " فضای ویژگی " به جای " فضای داده ", تولید می‌کنیم. طبقه اقلیت با در نظر گرفتن نمونه کلاس اقلیت و معرفی مثال‌های ترکیبی در امتداد بخش‌های خطی که به هر یک از نزدیک‌ترین همسایگان طبقه اقلیت ملحق می‌شوند, بیش از حد مورد نمونه‌گیری قرار می‌گیرد. بسته به مقدار مورد نیاز, همسایگان از نزدیک‌ترین همسایه به طور تصادفی انتخاب می‌شوند. در حال حاضر اجرای ما از پنج همسایه نزدیک استفاده می‌کند. به عنوان مثال, اگر مقدار نمونه‌گیری مورد نیاز ۲۰۰ % باشد, تنها دو همسایه از نزدیک‌ترین همسایه انتخاب می‌شوند و یک نمونه در جهت هر کدام ایجاد می‌شود. نمونه‌های مصنوعی به روش زیر تولید می‌شوند: تفاوت بین بردار ویژگی (نمونه) تحت بررسی و نزدیک‌ترین همسایه آن را در نظر بگیرید. این تفاوت را با اعداد تصادفی بین ۰ و ۱ ضرب کنید و آن را به بردار ویژگی اضافه کنید. این امر منجر به انتخاب یک نقطه تصادفی در امتداد بخش خطی بین دو ویژگی خاص می‌شود. این رویکرد به طور موثر منطقه تصمیم‌گیری طبقه اقلیت را تقویت می‌کند تا کلی‌تر شوند.

الگوریتم smote, در صفحه بعد, شبه کد است. جدول ۴.۲ نمونه‌ای از محاسبه نمونه‌های مصنوعی تصادفی را نشان می‌دهد. مقدار نمونه‌گیری بیش از نمونه‌گیری, پارامتری از سیستم است و یک سری از منحنی‌های ROC می‌تواند برای جمعیت‌های مختلف و تحلیل ROC ایجاد شود.

مثال‌های ترکیبی باعث می‌شود که طبقه‌بندی کننده برای ایجاد مناطق تصمیم‌گیری خاص و کم‌تر در شکل ۳ (c), به جای مناطق کوچک‌تر و بیشتر, مناطق تصمیم‌گیری خاص کم‌تر و کم‌تر را ایجاد کنند. در حال حاضر مناطق عمومی بیشتری برای نمونه کلاس اقلیت یاد گرفته می‌شوند و نه آن‌هایی که توسط نمونه‌های رده اکثریت در اطراف آن‌ها طبقه‌بندی شده‌اند. نتیجه این است که درخت‌های تصمیم‌گیری بهتر تعمیم می‌یابند. شکل‌های ۴ و ۵ گروه اقلیت را با جایگزینی و smote مقایسه می‌کنند. آزمایش‌ها بر روی مجموعه داده‌های ماموگرافی انجام شد.

نمونه‌های ۱۰۹۲۳ در کلاس اکثریت و ۲۶۰ نمونه در طبقه اقلیت وجود داشت. ما تقریباً ۹۸۳۱ نمونه در کلاس اکثریت و ۲۳۳ نمونه در کلاس اقلیت برای مجموعه آموزشی مورد استفاده در اعتبار سنجی متقابل ۱۰ برابر داریم. کلاس اقلیت به طور بیش از ۱۰۰ %, ۲۰۰ %, ۳۰۰ % و ۵۰۰ % از اندازه اصلی آن نمونه‌گیری شد. نمودارها نشان می‌دهند که اندازه درخت برای نمونه‌گیری بیش از اندازه با جایگزینی در درجات بالاتر کپی بسیار بزرگ‌تر از نمونه‌های smote است, و به رسمیت شناختن اقلیت بیش از حد با تکنیک جایگزینی در درجات بالاتر تکرار به اندازه smote خوب نیست.

Algorithm SMOTE(T, N, k)

Input: Number of minority class samples T; Amount of SMOTE N%; Number of nearest

neighbors k

Output: (N/100) * T synthetic minority class samples

1. (∗ If N is less than 100%, randomize the minority class samples as only a random

percent of them will be SMOTEd. ∗)

2. if N < 100

3. then Randomize the T minority class samples

4. T = (N/100) ∗ T

5. N = 100

6. endif

7. N = (int)(N/100) (∗ The amount of SMOTE is assumed to be in integral multiples of

100. ∗)

8. k = Number of nearest neighbors

9. numattrs = Number of attributes

10. Sample[ ][ ]: array for original minority class samples

11. newindex: keeps a count of number of synthetic samples generated, initialized to 0

12. Synthetic[ ][ ]: array for synthetic samples

(∗ Compute k nearest neighbors for each minority class sample only. ∗)

13. for i ← 1 to T

14. Compute k nearest neighbors for i, and save the indices in the nnarray

15. Populate(N, i, nnarray)

16. endfor

Populate(N, i, nnarray) (∗ Function to generate the synthetic samples. ∗)

17. while N 6= 0

18. Choose a random number between 1 and k, call it nn. This step chooses one of

the k nearest neighbors of i.

19. for attr ← 1 to numattrs

20. Compute: dif = Sample[nnarray[nn]][attr] − Sample[i][attr]

21. Compute: gap = random number between 0 and 1

22. Synthetic[newindex][attr] = Sample[i][attr] + gap ∗ dif

23. endfor

24. newindex++

25. N = N − 1

26. endwhile

27. return (∗ End of Populate. ∗)

End of Pseudo-Code.

منابع:

References

Blake, C., & Merz, C. (1998). UCI Repository of Machine Learning Databases

http://www.ics.uci.edu/∼mlearn/∼MLRepository.html. Department of Information

and Computer Sciences, University of California, Irvine.

Bradley, A. P. (1997). The Use of the Area Under the ROC Curve in the Evaluation of

Machine Learning Algorithms. Pattern Recognition, 30(6), 1145–1159.

Chawla, N., Bowyer, K., Hall, L., & Kegelmeyer, P. (2000). SMOTE: Synthetic Minority

Over-sampling TEchnique. In International Conference of Knowledge Based Com-

puter Systems, pp. 46–57. National Center for Software Technology, Mumbai, India,

Allied Press.

Chawla, N., & Hall, L. (1999). Modifying MUSTAFA to capture salient data. Tech. rep.

ISL-99-01, University of South Florida, Computer Science and Eng. Dept.

Cohen, W. (1995a). Learning to Classify English Text with ILP Methods. In Proceed-

ings of the 5th International Workshop on Inductive Logic Programming, pp. 3–24.

Department of Computer Science, Katholieke Universiteit Leuven.

Cohen, W. W. (1995b). Fast Effective Rule Induction. In Proc. 12th International Confer-

ence on Machine Learning, pp. 115–123Lake Tahoe, CA. Morgan Kaufmann.

Cohen, W. W., & Singer, Y. (1996). Context-sensitive Learning Methods for Text Categorization.

In Frei, H.-P., Harman, D., Sch¨auble, P., &Wilkinson, R. (Eds.), Proceedings

of SIGIR-96, 19th ACM International Conference on Research and Development in

Information Retrieval, pp. 307–315Z¨urich, CH. ACM Press, New York, US.

Cost, S., & Salzberg, S. (1993). A Weighted Nearest Neighbor Algorithm for Learning with

Symbolic Features. Machine Learning, 10(1), 57–78.

DeRouin, E., Brown, J., Fausett, L., & Schneider, M. (1991). Neural Network Training on

Unequally Represented Classes. In Intellligent Engineering Systems Through Artificial

Neural Networks, pp. 135–141New York. ASME Press.

Domingos, P. (1999). Metacost: A General Method for Making Classifiers Cost-sensitive.

In Proceedings of the Fifth ACM SIGKDD International Conference on Knowledge

Discovery and Data Mining, pp. 155–164San Diego, CA. ACM Press.

Drummond, C., & Holte, R. (2000). Explicitly Representing Expected Cost: An Alternative

to ROC Representation. In Proceedings of the Sixth ACM SIGKDD International

Conference on Knowledge Discovery and Data Mining, pp. 198–207 Boston. ACM.

Duda, R., Hart, P., & Stork, D. (2001). Pattern Classification. Wiley-Interscience.

Dumais, S., Platt, J., Heckerman, D., & Sahami, M. (1998). Inductive Learning Algorithms

and Representations for Text Categorization. In Proceedings of the Seventh

International Conference on Information and Knowledge Management., pp. 148–155.

Chawla, Bowyer, Hall & Kegelmeyer

Ezawa, K., J., Singh, M., & Norton, S., W. (1996). Learning Goal Oriented Bayesian

Networks for Telecommunications Risk Management. In Proceedings of the Interna-

tional Conference on Machine Learning, ICML-96, pp. 139–147Bari, Italy. Morgan

Kauffman.

Fawcett, T., & Provost, F. (1996). Combining Data Mining and Machine Learning for Effective

User Profile. In Proceedings of the 2nd International Conference on Knowledge

Discovery and Data Mining, pp. 8–13Portland, OR. AAAI.

Ha, T. M., & Bunke, H. (1997). Off-line, Handwritten Numeral Recognition by Perturbation

Method. Pattern Analysis and Machine Intelligence, 19/5, 535–539.

Hall, L., Mohney, B., & Kier, L. (1991). The Electrotopological State: Structure Information

at the Atomic Level for Molecular Graphs. Journal of Chemical Information and

Computer Science, 31(76).

Japkowicz, N. (2000). The Class Imbalance Problem: Significance and Strategies. In Pro-

ceedings of the 2000 International Conference on Artificial Intelligence (IC-AI’2000):

Special Track on Inductive Learning Las Vegas, Nevada.

Kubat, M., Holte, R., & Matwin, S. (1998). Machine Learning for the Detection of Oil

Spills in Satellite Radar Images. Machine Learning, 30, 195–215.

Kubat, M., & Matwin, S. (1997). Addressing the Curse of Imbalanced Training Sets: One

Sided Selection. In Proceedings of the Fourteenth International Conference on Machine

Learning, pp. 179–186Nashville, Tennesse. Morgan Kaufmann.

Lee, S. (2000). Noisy Replication in Skewed Binary Classification. Computational Statistics

and Data Analysis, 34.

Lewis, D., & Catlett, J. (1994). Heterogeneous Uncertainity Sampling for Supervised Learning.

In Proceedings of the Eleventh International Conference of Machine Learning, pp.

148–156 San Francisco, CA. Morgan Kaufmann.

Lewis, D., & Ringuette, M. (1994). A Comparison of Two Learning Algorithms for Text

Categorization. In Proceedings of SDAIR-94, 3rd Annual Symposium on Document

Analysis and Information Retrieval, pp. 81–93.

Ling, C., & Li, C. (1998). Data Mining for Direct Marketing Problems and Solutions. In

Proceedings of the Fourth International Conference on Knowledge Discovery and Data

Mining (KDD-98) New York, NY. AAAI Press.

Mladeni´c, D., & Grobelnik, M. (1999). Feature Selection for Unbalanced Class Distribution

and Naive Bayes. In Proceedings of the 16th International Conference on Machine

Learning., pp. 258–267. Morgan Kaufmann.

O’Rourke, J. (1998). Computational Geometry in C. Cambridge University Press, UK.

Pazzani, M., Merz, C., Murphy, P., Ali, K., Hume, T., & Brunk, C. (1994). Reducing

Misclassification Costs. In Proceedings of the Eleventh International Conference on

Machine Learning San Francisco, CA. Morgan Kauffmann.

Provost, F., & Fawcett, T. (2001). Robust Classification for Imprecise Environments. Ma-

chine Learning, 42/3, 203–231.

Provost, F., Fawcett, T., & Kohavi, R. (1998). The Case Against Accuracy Estimation

for Comparing Induction Algorithms. In Proceedings of the Fifteenth International

Conference on Machine Learning, pp. 445–453Madison, WI. Morgan Kauffmann.

Quinlan, J. (1992). C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo,

CA.

Solberg, A., & Solberg, R. (1996). A Large-Scale Evaluation of Features for Automatic

Detection of Oil Spills in ERS SAR Images. In International Geoscience and Remote

Sensing Symposium, pp. 1484–1486Lincoln, NE.

Stanfill, C., & Waltz, D. (1986). Toward Memory-based Reasoning. Communications of

the ACM, 29(12), 1213–1228.

Swets, J. (1988). Measuring the Accuracy of Diagnostic Systems. Science, 240, 1285–1293.

Tomek, I. (1976). Two Modifications of CNN. IEEE Transactions on Systems, Man and

Cybernetics, 6, 769–772.

Turney, P. (1996). Cost Sensitive Bibliography. http://ai.iit.nrc.ca/bibiliographies/costsensitive.

html.

van Rijsbergen, C., Harper, D., & Porter, M. (1981). The Selection of Good Search Terms.

Information Processing and Management, 17, 77–91.

Woods, K., Doss, C., Bowyer, K., Solka, J., Priebe, C., & Kegelmeyer, P. (1993). Comparative

Evaluation of Pattern Recognition Techniques for Detection of Microcalcifications

in Mammography. International Journal of Pattern Recognition and Artificial Intel-

ligence, 7(6), 1417–1436.

تحقیقات بازاریابیتحقیقات بازار
من پیام سلیمیان هستم،مربی توسعه کسب و کار و مهارتهای مدیران، نویسنده بیش از چهار کتاب، به صاحبان کسب وکارهای کوچک کمک می کنم درآمدشان را افزایش دهند و بدون حضور خودشان کارها به بهترین نحو انجام شود.
شاید از این پست‌ها خوشتان بیاید