حجم نمونه آماری چقدر است؟

کدام را ترجیح می‌دهید داشته باشید؟ یک نمونه بزرگ که دارای انحراف از حقیقت در مطالعه است (Bias) یا یک نمونه کوچک که معرف است؟ کمیته انجمن آماری آمریكا (The American Statistical Association committee) كه گزارش مک‌کینزی در مورد رفتارهای جنسی مردان در سال 1948 را براساس مصاحبه با بیش از 5000 مرد بررسی كرده است، ثابت کرد که نتایج آماری این گزارش بسیار مغرضانه و منحرف‌کننده است. جامعه آماری که او استفاده کرده برای اینکه ثابت کند که آمارهایش درست است، یک جامعه آماری Selective یعنی انتخاب‌شده بود! آمارشناسان؛ ویلیام كوكران (William Cochran)، فردریک مستولر (Frederick Mosteller)، جان توکی (John Tukey ) و جنكینز (W. O. Jenkins)؛ پیشتاز حرفه خود بودند و چندین منبع این آمار منحرف‌کننده را در جمع‌آوری داده‌های مک‌کینزی شناسایی كردند. مشارکت داوطلبانه بود و تا حدی به صورت مراجعه به آن‌جا بود که منجر به تورش یا سوگیری خود انتخابی (self-selection bias) شد. مک‌کینزی بیش از اندازه زندانیان و روسپیان را در نمونه پژوهشی خود شرکت داده بود که ممکن است برآیند مطالعاتش را مخدوش کرده باشد. یکی از نتایج تحقیقات مک‌کینزی شیوع فراتر از انتظار هم‌جنس‌گرایی در بین مردان بود. توکی به طرز قاطعی گفت که یک نمونه تصادفی انتخاب‌شده از بین سه نفر بسیار معتبرتر از نمونه انتخاب شده 300 تایی توسط مک‌کینزی است.

با این وجود، آیا حجم نمونه آماری مهم است؟

از سوی دیگر، حجم نمونه آماری اهمیت دارد. اعتماد بیش از حد در نمونه‌های کوچک تنها یک مثال از یک باور عمومی اشتباه است. ما بیش‌تر به محتوای پیام‌ها توجه می‌کنیم تا اطمینان از صحت اطلاعاتشان؛ در نتیجه دنیای اطراف خود را ساده‌تر و منسجم‌تر از آن چیزی که واقعیت داده‌هاست می‌بینیم. هر چه نمونه کوچک‌تر باشد؛ بیش‌تر در معرض سوء تفسیر قرار می‌گیرد.

چقدر بزرگ؟

حجم نمونه آماری شما چقدر باید بزرگ باشد؟ شما می‌توانید راهنمای کلی مرتبط با کارهای خاص (رای گیری، حسابرسی، مطالعات رفتاری) را بیابید؛ اما یک رویکرد تحلیلی‌تر و مبتنی بر اصول استنباط آماری نیز وجود دارد. این رویکرد فرض می‌کند که شما در حال جمع‌آوری داده‌ها برای تحقیق در مورد یک فرضیه هستید؛ به طور معمول در مورد تأثیر برخی از شرایط یا رفتارها بر روی افراد، تاثیری که در تفاوت بین گروه‌هایی که درمان یا شرایط مختلفی را تجربه می‌کنند بروز می‌یابد. ایده اصلی این است که نمونه‌ای را جمع کنید که به اندازه کافی بزرگ باشد تا به شما اطمینان دهد اگر اثری که بر روی آن تحقیق می‌کنید وجود داشته باشد، مطالعه شما آن را پیدا خواهد کرد. بنابراین نیازمند تنظیم سه پارامتر توسط کاربر است:

• سایز اثر

• سطح معناداری

• قدرت

تنظیم پارامترها

سایز اثر

هرچه سایز اثر مورد نظر شما کوچک‌تر باشد به نمونه بزرگ‌تری نیاز دارید. یک مثال خوب در این زمینه یافتن ستارگان با تلسکوپ است؛ هرچه ستاره کم رنگ‌تر شود، تلسکوپ بزرگ‌تر برای تشخیص آن نیاز است. سایز اثر تفاوتی است که شما امیدوار هستید در جمعیت مورد تحقیق وجود داشته باشد. برای داده‌های عددی پیوسته می‌تواند به عنوان تفاوت در میانگین توزیع‌ها بیان شود. «یافتن» به چه معنی است؟ در اینجا به این معنی است که بتوان نتیجه گرفت تفاوت آماری یا تاثیر آماری وجود دارد. به عنوان مثال، اگر شما در حال تست کردن دو رنگ مختلف برای دکمه خرید در وب سایت هستید؛ پیدا کردن یک تفاوت به این معنی است که تفاوت بین دو گروه از کاربران وب که رنگ‌های مختلفی را تجربه می‌کنند از نظر آماری معنی‌دار است.

سطح معناداری

هرچه دامنه تعریف معناداری آماری (مثلاً 0.01 به جای 0.05) تنگ‌تر باشد، نمونه مورد نیاز بزرگ‌تر است. اهمیت P-values و کل ایده معناداری آماری کمی کم‌رنگ شده است؛ زیرا تعداد محققان دانشگاهی که به دنبال انتشار مقالات هستند رو به افزایش است و P-values به یک معیار ضروری و لازم برای انتشار مقالات تبدیل شده است. مقالات منتشرشده‌ای که فقط دربرگیرنده یک سری نتایج معنی‌دار به لحاظ آماری‌اند و فاقد هرگونه اهمیت عملی یا طراحی مناسب مطالعه هستند. با این وجود، تعیین معناداری آماری در تعیین سایز نمونه به عنوان شاخص تأیید مورد نیاز است.

قدرت

قدرت یعنی دستیابی به یک نتیجه معنی‌دار به لحاظ آماری در صورتی که سایز اثرِ مشخص‌شده در جمعیت مورد مطالعه واقعی باشد. به عنوان مثال، اگر یک دارو دارای اثر واقعی 10٪ در کاهش فشار خون باشد و شما یک مطالعه بین یک گروه دارویی و یک گروه کنترل انجام دهید، قدرت یعنی احتمال نتیجه معناداری که این مطالعه به شما باز خواهد گرداند. توجه داشته باشید که این مطالعه لزوماً نباید 10٪ اختلاف را بین دو گروه ایجاد کند؛ بلکه باید تفاوت آماری معنی‌داری ایجاد کند. هرچه قدر به دنبال قدرت بیشتری در مطالعه تان باشید، نمونه بزرگ‌تری نیز نیاز خواهید داشت.

Tradeoffs

مشخص کردن این سه پارامتر یک تمرین در tradeoffs است. هر چه اثری را که می‌خواهید پیدا کنید کوچک‌تر باشد و قدرت (احتمال یافتن آن اثر) آن بیش‌تر باشد، نمونه مورد نیاز شما نیز بزرگ‌تر خواهد بود. اگر اهداف اولیه شما با توجه به این پارامترهای کلیدی نیازمند نمونه‌ای فراتر از بودجه یا توانایی شما باشد، باید چیزهای دیگری را تغییر دهید. یعنی یا سایز اثر بزرگ‌تری را تعیین کنید (به این معنی که ممکن است یک اثر دلخواه را از دست بدهید) یا قدرت کم‌تری را تحمل کنید یا هر دو. سطح معناداری آماری چندان انعطاف‌پذیر نیست. معمولاً توسط عوامل خارجی تنظیم می‌شود؛ به عنوان مثال تنظیم‌کننده یا ناشران مجله‌ای که اغلب سطح قدیمی 5٪ را مشخص می‌کنند.

واریانس (Variance)

تنظیم این سه پارامتر برای یافتن سایز نمونه یک شرط لازم است؛ اما کافی نیست. چهارمین عامل مؤثر بر سایز نمونه واریانس داده‌ها است. البته این پارامتری نیست که توسط کاربر تنظیم شود. هرچه واریانس داده‌ها بیشتر باشد سایز نمونه مورد نیاز برای شناسایی اثر مورد نظر بیش‌تر است. بنابراین، هر برآوردی از سایز نمونه مورد نیاز لزوماً باید فرضی در مورد واریانس داده‌ها را در بر بگیرد. این ممکن است از نمونه‌های اولیه داده‌ها یا از اطلاعات مربوط به پروسه یا جمعیت درگیر برآورد شود.

جمع‌بندی

هنگامی که واریانس داده‌ها را ارزیابی می‌کنید، می‌توانید سایز نمونه را از طریق بازنمونه‌گیری محاسبه کنید، که در این جا برای دو نمونه با داده‌های عددی پیوسته نشان داده شده است:

1. سایز اثر مورد نظر، سطح معناداری و قدرت را مشخص کنید.

2. دو مولد تصادفی داده را مشخص کنید برای ایجاد داده‌های توزیع نرمال از جمعیت با دو معنی (mean) كه در سایز اثر مورد نظر با هم متفاوت هستند.

3. دو نمونه از سایز n1 ایجاد کنید، از هر یک از تولیدکنندگان داده.

4. انجام یک آزمایش معناداری بر روی هر دو نمونه؛ ببینید که آیا این تفاوت معنی‌دار است یا خیر.

5. مراحل 3-4 را 1000 بار تکرار کنید. توجه داشته باشید که چه نسبت از زمان تفاوت معنادار است؛ این قدرت است.

6. اگر قدرت دقیقاً مناسب باشد، n1 نیز یک سایز نمونه مناسب است؛ اگر قدرت خیلی کم باشد باید اندازه نمونه را افزایش دهید و اگر قدرت بالاتر از حد مورد نیاز باشد می توانید اندازه نمونه را کاهش دهید.

7. سطوح مختلف n را امتحان کنید تا جایی که قدرت همان شود که شما به آن نیاز دارید.

اگر شما در واقع داده‌های واقعی متناسب با مطالعه دارید، می‌توانید دو bootstrap generators را برای مولد داده‌های توزیع نرمال جایگزین کنید (سایز اثر یکی را تغییر دهید). در اغلب موارد، قدرت با استفاده از نرم‌افزار محاسبه فرمول تعیین می‌شود؛ اگرچه که روش بوت‌استرپینگ در جایی استفاده می‌شود که شرایط و وضعیت آماری مورد نظر با داده مورد نیاز نرم‌افزار متناسب نباشد. بوت‌استرپینگ می‌تواند با ساخت تعدادی بازنمونه پیاده‌‌سازی شود که هر کدام از این بازنمونه‌ها در واقع نمونه‌هایی تصادفی با جایگذاری از مجموعه داده‌های اصلی هستند.

منبع: STATISTICS