نمونه‌گیری بوت‌استرپ

منتشرشده در towardsdatascience
لینک مقاله اصلی: What is Bootstrap Sampling in Machine Learning and Why is it Important?

روش نمونه‌گیری بوت‌استرپ یک مفهوم بسیار ساده و یک بلوک سازنده برای برخی از الگوریتم‌های پیشرفته یادگیری ماشین مانند آدابوست (AdaBoost) و XGBoost است. با این حال، زمانی که من سفر خود به علم داده را آغاز کردم، نمی‌توانستم دقیقا نکته و مفهوم آن را درک کنم. بنابراین هدف من از این مطلب این است که توضیح دهم روش بوت‌استرپ چیست و چرا دانستن آن مهم است!

روش نمونه‌گیری بوت‌استرپ چیست؟

به لحاظ فنی، روش نمونه‌گیری بوت‌استرپ یک روش نمونه‌گیری مجدد است که از نمونه‌گیری تصادفی با جایگزینی استفاده می‌کند.

نگران نباشید اگر این جملات گیج‌کننده به نظر می‌رسد، اجازه دهید آن را با یک نمودار توضیح دهم:

فرض کنید یک نمونه اولیه با ۳ مشاهده دارید. با استفاده از روش نمونه‌گیری بوت‌استرپ، شما یک نمونه جدید با ۳ مشاهده نیز ایجاد خواهید کرد. هر مشاهده یک شانس برابر برای انتخاب شدن دارد (۱/۳). در این مورد، مشاهده دوم به طور تصادفی انتخاب شد و اولین مشاهده در نمونه جدید ما خواهد بود.

بعد از انتخاب یک مشاهده به صورت تصادفی، شما مشاهده سبز را انتخاب کردید.


در نهایت، مشاهده زرد دوباره به صورت تصادفی انتخاب می‌شود. به یاد داشته باشید که نمونه‌گیری بوت‌استرپ از نمونه‌گیری تصادفی با جایگزینی استفاده می‌کند. این بدان معنی است که انتخاب مجدد یک مشاهده از قبل انتخاب‌شده بسیار امکان پذیر است.

و این اساس نمونه‌گیری بوت‌استرپ است!

اهمیت نمونه‌گیری بوت‌استرپ

عالیه، حالا متوجه شدید که نمونه‌گیری بوت‌استرپ چیست و می‌دانید که مفهوم آن چقدر ساده است، اما حالا احتمالا در این فکر هستید که چه چیزی آن را اینقدر مفید می‌کند.

۱. بخش سازنده بسیاری از الگوریتم های یادگیری ماشین مدرن است

هرچه که بیشتر در مورد یادگیری ماشین یاد می‌گیرید، قطعا اصطلاح «تجمیع بوت‌استرپ» را خواهید دید، که به «کیسه گذاری» یا همان bagging نیز معروف است. کیسه گذاری تکنیکی است که در بسیاری از الگوریتم‌های یادگیری ماشین گروهی مانند جنگل‌های تصادفی، AdaBoost، گرادیان تقویتی و XGBoost استفاده می‌شود.

۲. می‌توان از آن برای تخمین پارامترهای یک جامعه استفاده کرد

گاهی اوقات هنگام تخمین پارامترهای یک جامعه (به عنوان مثال میانگین، خطای استاندارد)، شما ممکن است نمونه‌ای داشته باشید که آنقدر بزرگ نباشد که فرض کنید توزیع نمونه به طور نرمال توزیع شده‌است. همچنین، در برخی موارد، تعیین خطای استاندارد تخمین دشوار است. در هر صورت، نمونه‌گیری بوت‌استرپ می‌تواند برای کار در مورد این مسائل استفاده شود.

در اصل، تحت این فرض که نمونه نماینده‌ای از جامعه است، نمونه‌گیری بوت‌استرپ برای ارائه تخمینی از توزیع نمونه‌گیری آماره‌های نمونه مورد نظر انجام می‌شود.

این نکته کمی آماری است، بنابراین اگر متوجه نشدید، نگران نباشید. تمام چیزی که باید بدانید این است که نمونه‌گیری بوت‌استرپ به عنوان پایه‌ای برای «کیسه گذاری» عمل می‌کند که تکنیکی است که بسیاری از مدل‌های یادگیری ماشین از آن استفاده می‌کنند.

این متن با استفاده از ربات ترجمه مقاله علمی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.