چرا بوت استرپینگ واقعا کار می‌کند

عکس ۱: از ناتان دام لو درUnsplash
عکس ۱: از ناتان دام لو درUnsplash
منتشر‌شده در towardsdatascience به تاریخ ۲۰ سپتامبر ۲۰۲۱
لینک منبع Why Bootstrapping Actually Works

ما همیشه داده‌های فراوانی برای پروژه‌های خود نداریم. اغلب، ما فقط یک مجموعه داده نمونه داریم که به دلیل کمبود منابع برای انجام آزمایشات مکرر (مانند آزمایش A/B) با آن کار کنیم.

خوشبختانه، ما روش‌های نمونه‌گیری مجدد داریم تا از هر داده‌ای که داریم بیش‌ترین استفاده را بکنیم. بوت استرپینگ یک تکنیک نمونه گیری مجدد است که در صورتی که مدل خود را فقط یکبار بر روی نمونه اصلی قرار دهیم، اطلاعات دیگری در اختیار ما قرار می‌دهد.

در حالی که ممکن است ما با «چه» و «چگونه» پشت بوت استرپینگ آشنا باشیم، هدف این مقاله ارائه «چرایی» بوت استرپینگ به شیوه‌ای غیر انسانی است.

جمع‌بندی سریع بوت استرپینگ

هدف از بوت استرپ ایجاد یک تخمین (به عنوان مثال میانگین نمونه x) برای پارامتر جمعیت (به عنوان مثال، میانگین جامعه θ) براساس چند نمونه داده به‌دست‌آمده از نمونه اصلی است.

بوت استرپینگ با نمونه‌برداری مکرر (با جایگزینی) مجموعه داده نمونه برای ایجاد نمونه‌های شبیه‌سازی شده انجام می‌شود. هر نمونه بوت استرپ شبیه‌سازی شده برای محاسبه تخمین پارامتر استفاده می‌شود و سپس این برآوردها ترکیب می‌شوند تا یک توزیع نمونه‌برداری را تشکیل دهند.

سپس توزیع نمونه‌گیری بوت استرپ به ما اجازه می‌دهد تا استنتاج‌های آماری مانند برآورد خطای استاندارد پارامتر را بدست آوریم.

روند خودراه انداز | تصویر از نویسنده

عکس ۲:
عکس ۲:

چرا بوت استرپینگ کار می‌کند؟

شما باید تعجب کنید، چگونه عمل نمونه‌گیری مکرر از یک مجموعه داده نمونه به ما اجازه می‌دهد تا در مورد آمار جمعیت استنتاج کنیم؟

در حالت ایده‌آل، ما می‌خواهیم چندین نمونه مستقل از دنیای واقعی را از جمعیت واقعی بگیریم تا آمار جمعیت را درک کنیم. با این حال، ما قبلا ثابت کرده‌ایم که این کار ممکن است همیشه ممکن نباشد.

بنابراین، ما باید با مجموعه داده‌های نمونه خود کار کنیم، که تبدیل به بهترین (و تنها) اطلاعاتی می‌شود که در مورد جمعیت داریم.

منطقی است فرض کنیم که بیشتر نمونه‌ها (اگر به صورت تصادفی کشیده شوند) تقریبا شبیه جمعیتی خواهند بود که از آن منشا می‌گیرند. با در نظر گرفتن این موضوع، به این معنی است که داده‌های نمونه ما را می‌توان به عنوان جمعیتی در نظر گرفت که ما وانمود می‌کنیم جمعیت واقعی را نشان می‌دهد.

با این جمعیت تظاهر کننده می‌توانیم نمونه‌های تصادفی چندگانه (بوت استرپ) را از آن رسم کنیم. این به گونه‌ای است که گویی ما چندین نمونه از جمعیت واقعی را به دست می‌آوریم.

توجه: در حقیقت، نمونه اصلی تنها یک نمونه است که ما از جمعیت واقعی داریم.

از آنجا که نمونه‌برداری با جایگزینی مجاز است، نمونه‌های بوت استرپ را می‌توان به عنوان نمونه‌های تصادفی تولید شده تحت روش‌ها و فرضیات مختلف در نظر گرفت.

اطلاعات جمع‌آوری‌شده نمونه‌برداری شده از این نمونه‌های بوت استرپ در نهایت به ما کمک خواهد کرد تا برآوردهای دقیقی از پارامتر جمعیت، به عنوان مثال میانگین جمعیت، به دست آوریم.

عکس ۳: تصویر از یک مقدمه به یادگیری آماری-ویرایش دوم
عکس ۳: تصویر از یک مقدمه به یادگیری آماری-ویرایش دوم

پس نمونه‌برداری بوت استرپ چقدر موثر است؟ تصویر بالا برآوردهای پارامتر (α) را از ۱۰۰۰ نمونه شبیه‌سازی شده از جمعیت واقعی در مقابل ۱۰۰۰ نمونه بوت استرپ مقایسه می‌کند.

می‌توانیم ببینیم که نمودارهای میله‌ای دارای گستره‌های مشابهی هستند، که نشان می‌دهد روش بوت استرپ می‌تواند به طور موثری تغییرپذیری مربوط به برآورد پارامتر را برآورد کند.

خلاصه

در این مقاله، ما یک توضیح ساده از شهود پشت بوت استرپینگ را بررسی کردیم. امیدوارم که این نوشتن درک بهتری از بوت استرپینگ و اینکه چرا از نظر تئوری و عملی کار می‌کند، به شما بدهد.

مفهوم کلیدی این است که فرض می‌شود نمونه اصلی نماینده جمعیت باشد. با نمونه‌گیری مجدد این نمونه چندین بار، ما یک توزیع نمونه‌گیری نسبتا دقیق از تخمین نمونه پارامتر جمعیت بدست می‌آوریم.

البته، چندین هشدار در این مورد وجود دارد. برای مثال، در شرایط عادی نمونه‌گیری از جمعیت واقعی، ما هرگز یک نمونه به اندازه کل جمعیت نخواهیم گرفت. با این حال، استفاده از اندازه نمونه مشابه با مجموعه داده اصلی در بوت استرپینگ رایج است.

برای جزئیات بیشتر در مورد هشدارهای متعدد، می‌توانید این موضوع را در اینجا بررسی کنید.

این متن با استفاده از ربات مترجم مقاله علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.