توضیح یادگیری جمعی، کیسه گذاری و تقویت در ۳ دقیقه

منتشرشده در towardsdatascience
لینک مقاله اصلی: Ensemble Learning, Bagging, and Boosting Explained in 3 Minutes

قبلا در مقاله دیگری توضیح دادم که نمونه‌گیری بوت استرپ چیست و چرا مفید است. اگر نمی‌دانید نمونه‌گیری بوت استرپ چیست، توصیه می‌کنم این مقاله را در مورد نمونه‌گیری بوت استرپ چک کنید زیرا این مقاله بر اساس آن نوشته شده است!

زمانی که سفر خود را در زمینه علوم داده آغاز می‌کنید، قطعا در مورد یادگیری جمعی، کیسه گذاری و تقویت خواهید شنید. چون من هیچ راهنمایی نداشتم، کمی طول کشید تا بفهمم منظور از کیسه گذاری و تقویت در واقع چیست. و بنابراین، هدف من این است که این عبارات را تا جایی که ممکن است ساده و به طور مستقیم توضیح دهم!

یادگیری جمعی چیست؟

یادگیری جمعی روشی است که در آن از الگوریتم های یادگیری چندگانه به طور همزمان استفاده می‌شود. هدف از انجام این کار این است که به شما این امکان را بدهد تا به عملکرد پیش گویانه بهتری نسبت به زمانی که می‌خواهید فقط از یک الگوریتم منفرد استفاده کنید، دست یابید.

مثال ۱: «دو سر بهتر از یک سر هستند»

یک راه ساده برای فکر کردن در این مورد این است که یک فرد در حال حل یک سوال ریاضی را در مقابل گروهی از افراد که یک سوال ریاضی را حل می‌کنند در نظر بگیرید. اگر آن یک نفر سوال را اشتباه حل کند، کس دیگری را نخواهد داشت که پاسخ او را بررسی کند. از طرف دیگر، آن گروه از افراد می‌توانند آن را به طور مشترک حل کنند، به دنبال اشتباهات یکدیگر بگردند و درباره پاسخ نهایی به اتفاق نظر برسند.

مثال ۲: جنگل‌های تصادفی

جنگل‌های تصادفی یک تکنیک یادگیری جمعی هستند که از درخت‌های تصمیم‌گیری ساخته می‌شوند. جنگل‌های تصادفی شامل ایجاد درخت‌های تصمیم‌گیری چندگانه با استفاده از مجموعه داده بوت استرپ شده از داده‌های اصلی است. سپس مدل حالت (اکثریت) تمام پیش‌بینی‌های هر درخت تصمیم‌گیری را انتخاب می‌کند. این کار چه فایده‌ای دارد؟ با تکیه‌ بر مدل «اکثریت برنده است»، ریسک خطا از یک درخت به تنهایی را کاهش می‌دهد.

برای مثال، اگر ما یک درخت تصمیم‌گیری، درخت سوم، را ایجاد کنیم،‌ مقدار آن ۰ خواهد بود. اما اگر ما بر حالت هر ۴ درخت تصمیم‌گیری تکیه کنیم، مقدار پیش‌بینی‌شده ۱ خواهد بود. این قدرت یادگیری جمعی است!

حالا که شما می‌دانید یادگیری جمعی چیست، بیایید درباره دو روش جمعی محبوب نیز صحبت کنیم: کیسه گذاری و تقویت.

کیسه گذاری چیست؟

کیسه گذاری (bagging)، که به عنوان تجمیع بوت استرپ نیز شناخته می‌شود، فرآیندی است که در آن چندین مدل از همان الگوریتم یادگیری با نمونه‌های بوت استرپ شده از مجموعه داده اصلی آموزش داده می‌شوند. سپس، مانند مثال جنگل تصادفی در بالا، در مورد تمام خروجی‌های مدل‌ها رای‌گیری می‌شود.

فرآیند کیسه گذاری
فرآیند کیسه گذاری


تقویت چیست؟

تقویت (boosting) یک نوع از کیسه گذاری است که در آن هر مدل منفرد به طور متوالی ساخته می‌شود و تکرار آن بر مدل قبلی است. به طور خاص، هر نقطه داده‌ای که به اشتباه توسط مدل قبلی طبقه‌بندی می‌شود در مدل بعدی مورد تاکید قرار می‌گیرد. این کار برای بهبود دقت کلی مدل انجام می‌شود. در اینجا یک نمودار برای درک بیشتر از این فرآیند ارائه شده‌است:

هنگامی که مدل اول ساخته شد، نقاطی که به اشتباه طبقه‌بندی‌/پیش‌بینی‌ شده‌اند نیز علاوه بر نمونه بوت استرپ شده دوم برای آموزش مدل دوم گرفته می‌شوند. سپس، مدل جمعی (مدل‌های ۱ و ۲) در مقابل مجموعه داده آزمایشی مورد استفاده قرار می‌گیرد و فرآیند ادامه می‌یابد.

و این خلاصه‌ای از یادگیری جمعی، کیسه گذاری و تقویت است!

این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.