مرجع تخصصی آمار ایران
انواع روش های آماری - تفاوت آمار توصیفی و آمار استنباطی
آمار توصیفی و آمار استنباطی دو مقوله گسترده در علم آمار هستند. در این پست وبلاگ به شما نشان خواهیم داد که هر دو نوع آمار برای اهداف مختلف، مهم هستند. جالب است که برخی از اقدامات آماری در هر دو مشابه هستند، اما اهداف و روشها بسیار متفاوتاند. در ادامه نگاهی دقیقتر به انواع روش های آماری میاندازیم.
انواع روش های آماری: آمار توصیفی
برای سازماندهی، خلاصهسازی و نمایش ترسیمی دادهها برای گروه انتخابی از آمار توصیفی استفاده میشود. این فرایند به شما این امکان را میدهد تا مجموعه خاصی از مشاهدات را درک کنید.
آمار توصیفی نمونهای را توصیف میکند. خیلی ساده است، شما به سادگی گروه مورد نظرتان را انتخاب می کنید، دادههای مربوط به اعضای گروه را جمعآوری کرده و سپس از خلاصه آمار و نمودارهای آماری برای ارائه ویژگیهای گروه استفاده میکنید. میتوان گفت در آمار توصیفی هیچ عدم قطعیتی وجود ندارد؛ زیرا شما فقط افراد یا مواردی را توصیف میکنید که در واقع اندازهگیری میکنید. شما در حال تلاش برای استنباط خصوصیات یک جمعیت بزرگتر نیستید. این فرایند شامل گرفتن تعداد زیادی داده در نمونه و خلاصه کردن آنها به صورت معنیدار و قابل درک و به شکل نمودار است. این روش به ما امکان میدهد بینش بیشتری به دست آوریم و دادهها را تجسم کنیم تا این که فقط با یک ُمشت اعداد خام مواجه شویم!
ابزارهای رایج آمار توصیفی
آمار توصیفی معمولا از اقدامات آماری زیر برای توصیف گروه ها استفاده می کند:
شاخص های مرکزی
برای یافتن مرکز داده ها از میانگین یا میانه استفاده کنید. این اندازه گیری به شما میگوید کجا بیشترین مقدار قرار دارد.
پراکندگی
دادهها تا چه حد از مرکز فاصله دارند؟ برای اندازهگیری پراکندگی میتوانید از دامنه یا انحراف استاندارد استفاده کنید. پراکندگی کم نشان میدهد که دادههای بیشتری نزدیک به مرکز قرار دارند. پراکندگی بالاتر نشان میدهد که نقاط دادهای از مرکز دورتر میشوند. همچنین میتوان توزیع فراوانی را ترسیم کرد.
چولگی (Skewness)
این معیار به شما میگوید که توزیع مقادیر یکپارچه است یا نامتقارن. میتوانید این اطلاعات خلاصه را در قالب اعداد و یا نمودار ارائه دهید. اینها آمار توصیفی استاندارد هستند؛ اما آنالیز توصیفی دیگری نیز وجود دارد که میتوانید انجام دهید؛ مانند ارزیابی روابط دادههای زوجی با استفاده از همبستگی و پراکندگی.
نمونهای از آمار توصیفی
فرض کنید میخواهیم نمرات امتحان یک کلاس 30 نفره از دانشآموزان را شرح دهیم. ما تمام نمرات امتحانی را جمعآوری کرده و با استفاده از آمار توصیفی دادهها را خلاصهسازی میکنیم و سپس یک نمودار ترسیم میکنیم. در اینجا فایل دادهای CSV وجود دارد.
هیستوگرام توزیع نمره آزمون برای نمونه آمار توصیفی.
آمار نمره کلاسی
میانگین 79.18
محدوده 66.21 – 96.53
نسبت >= 70 %86.7
این نتایج نشان می دهد که میانگین نمره این کلاس 79/18 است. محدوده نمرات از 66.21 تا 96.53 است و توزیع به صورت متقارن در حدود میانگین است. نمره حداقل 70، در آزمون قابل قبول است. دادهها نشان میدهد که ٪86.7 دانشآموزان دارای نمره قابل قبول هستند.
در مجموع، این اطلاعات تصویر خوبی از این کلاس را به ما میدهد. هیچ مشکلی در مورد این آمار وجود ندارد؛ زیرا ما نمرات تک تک دانشآموزان در کلاس را جمعآوری کردیم. با این حال نمیتوانیم این نتایج را به جمعیت بزرگتری از دانشآموزان تعمیم دهیم. بعدا این کار را خواهیم کرد.
انواع روش های آماری: آمار استنباطی
آمار استنباطی دادههای مربوط به یک نمونه کوچک را جمعآوری کرده و بر طبق آن ویژگیهای جامعههایی که نمونه از آن انتخاب شده است را استنباط میکند. از آنجا که هدف از آمار استنباطی نتیجهگیری از یک نمونه و تعمیم آنها به یک جامعه است، باید اطمینان حاصل کنیم که نمونه ما به صورت دقیق ویژگیهای جمعیت را منعکس میکند. در سطح گسترده باید موارد زیر را انجام دهیم:
- تعریف جامعه هدف
- ارائه یک نمونه معرف جامعه
- استفاده از روشها و آنالیزهایی که خطای نمونه برداری را شامل میشوند
ما نمیتوانیم یک گروه ساده و راحت را انتخاب کنیم؛ در عوض، جهت استنباط خصوصیات جامعه از روی خصوصیات نمونه، مدل آماری ایجاب میکند که اعضای گروه نمونه به صورت تصادفی انتخاب شوند. این روش یک روش اصلی و ابتدایی برای به دست آوردن نمونههایی است که به طور متوسط بازگوکننده خصوصیات جامعه باشند. نمونهگیری تصادفی آماری مانند میانگین تمایل ندارد که یا خیلی زیاد باشد یا خیلی کم. با استفاده از یک نمونه تصادفی میتوان نمونه را به یک جامعه گستردهتر تعمیم داد. متاسفانه جمعآوری نمونه به شکل واقعا تصادفی میتواند یک روند بسیار پیچیده باشد.
مزایا و معایب کار با نمونهها
استفاده از یک نمونه تصادفی از یک جامعه مزایای فوقالعادهای دارد. در بیشتر موارد، اندازهگیری کل جمعیت برای درک خصوصیات آن غیرممکن است. راه حل دیگر جمعآوری نمونه تصادفی و استفاده از روشهای آمار استنباطی برای تجزیه و تحلیل دادههای نمونه است. در حالی که نمونهها بسیار کاربردیتراند و کار با آنها مقرون به صرفهتر و ارزانتر خواهد بود؛ اما معایبی هم دارند. معمولا با انتخاب یک نمونه نسبتا کوچک از جامعه مورد مطالعه، اطلاعاتی در مورد آن کسب می کنیم؛ اما در واقع ما فاصله بسیار زیادی برای اندازهگیری همه افراد یا اشیاء آن جمعیت داریم. در نتیجه هنگامی که خصوصیات یک جامعه را از یک نمونه برآورد میکنید، احتمال دارد که نمونه آماری دقیقا با ارزش واقعی جامعه برابر نباشد.
به عنوان مثال، احتمال دارد که میانگین نمونه شما به طور دقیق با میانگین جامعه برابر نباشد. تفاوت بین نمونه آماری و جامعه در خطای نمونه گیری است. آمار استنباطی این خطا را در نتایج آماری تخمین می زند.
در مقابل، تفسیر مقادیر و دادههای خلاصهشده در آمار توصیفی ساده است. میانگین نمره در یک کلاس یک مقدار شناختهشده است؛ زیرا ما تمامی افراد در آن کلاس را اندازهگیری میکنیم. هیچ عدم قطعیتی وجود ندارد.
ابزارهای رایج آمار استنباطی
متداولترین روشها در آمار استنباطی آزمون فرض، فاصله اطمینان و تحلیل رگرسیون است. جالب اینجاست که این روشهای استنباطی میتوانند مقادیر خلاصه مشابهی با آمار توصیفی مانند میانگین و انحراف معیار تولید کنند. با این حال، همانطور که به شما نشان خواهم داد، هنگام استنباط به طور بسیار متفاوتی از آنها استفاده میکنیم.
آزمون فرض
در آزمون فرض از سوالات پاسخ داده نمونه مانند موارد زیر استفاده می شود:
آیا میانگین جمعیت بیشتر از یک مقدار خاص است یا کمتر؟ آیا میانگین های دو یا چند جمعیت با یکدیگر متفاوت هستند؟ به عنوان مثال، اگر با مقایسه نتایج در یک گروه درمانی و کنترل تأثیر یک داروی جدید را بررسی کنیم، آزمون فرض میتواند به ما بگوید که آیا این تاثیر دارویی مشاهده شده در نمونه، در جامعه هم وجود دارد یا خیر. و اگر این تاثیر تنها مختص به نمونه آماری باشد بنابراین ما از دارو استفاده نمیکنیم. اما نیاز به شواهدی داریم که بتواند اثبات کند این دارو میتواند برای کل جمعیت بیماران مفید باشد. آزمون فرض به ما امکان میدهد به این گونه نتیجهگیریها راجع به کل جمعیت دست یابیم.
فواصل اطمینان (CI)
در آمار استنباطی، هدف اصلی تخمین پارامترهای جمعیت است. این پارامترها مقادیر ناشناخته برای کل جمعیت مانند میانگین جمعیت و انحراف استاندارد هستند. این پارامترها تقریبا همیشه مقادیر ناشناختهای هستند. اندازهگیری کل جمعیت معمولا غیرممکن است. خطای نمونه برداری که قبلا به آن اشاره کردیم، عدم اطمینان یا حاشیه خطا را در برآوردهای ما ایجاد میکند.
فرض کنید همه بازیکنان بسکتبال دبیرستان به عنوان یک جامعه تعریف شود. سپس یک نمونه تصادفی از این جمعیت انتخاب کرده و میانگین قد 181 سانتیمتر را محاسبه میکنیم. این برآورد 181 سانتیمتری قد از نمونه بهترین تخمین میانگین قد جامعه است. با این حال، تقریبا ثابت شده است که برآورد ما از ویژگی های جمعیت دقیقا درست نیست.
فواصل اطمینان شامل عدم اطمینان و خطای نمونه برای ایجاد طیفی از مقادیر هستند که مقدار واقعی جمعیت با احتمال زیاد درون آن محدوده قرار می گیرد. به عنوان مثال، یک فاصله اطمینان از [186 176] نشان میدهد که میتوانیم اطمینان داشته باشیم میانگین واقعی جمعیت در این محدوده قرار دارد.
تجزیه و تحلیل رگرسیون
تجزیه و تحلیل رگرسیون رابطه بین مجموعهای از متغیرهای مستقل و یک متغیر وابسته را توصیف میکند. این تجزیه و تحلیل شامل آزمونهای فرضیه است که نشان میدهد آیا روابط موجود بین دادههای نمونه در واقع در جمعیت نیز وجود دارد.
به عنوان مثال، نمودار Fitted line plot زیر رابطهی بین قد و وزن دختران نوجوان را در مدل رگرسیون نشان میدهد. از آنجا که این رابطه از نظر آماری معنادار است ما می توانیم نتیجه بگیریم که این رابطه نه فقط در نمونه ما، بلکه در کل جامعه وجود دارد.
نمودار Fitted line plot که رابطه بین قد و وزن را نشان می دهد. این مثالی از آمار استنباطی است.
نمونه ای از آمار استنباطی
برای این مثال، فرض کنید که مطالعه ما بر روی نمرات آزمون در یک کلاس خاص است. همانطور که در بخش آمار توصیفی به تفصیل توضیح دادم. اکنون میخواهیم یک مطالعه آماری استنباطی را برای همان تست انجام دهیم. فرض کنیم این یک آزمون استاندارد در سطح کشور است. با استفاده از همان آزمون، اما اکنون با هدف ترسیم استنباطها در مورد یک جمعیت، میتوانم به شما نشان دهم که چگونه این امر نحوه انجام مطالعه و نتایج حاصله را تغییر میدهد.
در آمار توصیفی، کلاس خاصی را که میخواستیم توصیف کنیم انتخاب کرده و تمام نمرات امتحانی برای آن کلاس را جمعآوری کردیم. خیلی ساده و زیبا. برای آمار استنباطی در ابتدا باید جامعه تعریف شود و سپس یک نمونه تصادفی از آن جمعیت انتخاب گردد.
بیایید دانش آموزان کلاس هشتم در مدارس دولتی ایالت پنسیلوانیا در ایالت متحده را به عنوان جامعه در نظر بگیریم. در ابتدا باید یک طرح نمونه گیری تصادفی تهیه کنیم. این روند در واقع می تواند دشوار باشد. برای این مثال، فرض کنید که ما لیستی از اسامی را برای کل جمعیت تهیه کرده و نمونه تصادفی از 100 دانشآموز را انتخاب میکنیم و سپس نمرات آزمون آنها را هم جمعآوری میکنیم. توجه داشته باشید که این دانشآموزان در یک کلاس قرار نمیگیرند بلکه از کلاسهای مختلف در مدارس مختلف کل ایالت هستند.
نتایج آمار استنباطی
برای آمار استنباطی ما میتوانیم میانگین، انحراف استاندارد و درصد را برای نمونه تصادفی خود محاسبه کنیم. با این حال، احتمال زیادی وجود دارد که هیچ کدام از این تخمینها صحیح نباشد و به هر حال هیچ راهی هم برای اطمینان از این قضیه وجود ندارد. از آنجا که ما نمیتوانیم تمام افراد موجود در این جمعیت را اندازهگیری کنیم بنابراین خطای آماری وجود دارد. در نتیجه من فواصل اطمینان را برای میانگین، انحراف معیار و درصد نمرات قبولی (=> 70) گزارش خواهم کرد. در اینجا فایل دادهای CSV ارائه شده است.
آمار ارزیابی پارامتری جمعیت (CIs)
میانگین 77.4 - 80.9
انحراف معیار 7.7 – 10.1
نسبت >= 70 77% - 92%
با توجه به عدم اطمینان مرتبط با این ارزشیابیها، می توانیم ٪95 اطمینان داشته باشیم كه میانگین جمعیت بین 77.4 و 80.9 است. انحراف معیار جمعیت (معیار اندازه گیری پراکندگی) بین 7.7و 10.1است و انتظار میرود که درصد نمرات قبولی در جمعیت بین 77 تا 92 درصد باشد.
تفاوت آمار توصیفی و آمار استنباطی
همانطور که میبینید، تفاوت بین آمار توصیفی و استنباطی بیشتر در روش انجام آن است.
برای آمار توصیفی ابتدا گروهی که میخواهیم آن را توصیف کنیم انتخاب کرده و سپس کلیه افراد آن گروه را ارزیابی میکنیم. نتایج آماری با اطمینان کامل (خارج از خطای اندازه گیری) تفسیر میشود.
برای آمار استنباطی در ابتدا باید یک جامعه هدف تعریف شود و سپس یک نمونه تصادفی از جمعیت که معرف تمامی خصوصیات آن جامعه باشد انتخاب گردد. یک عدم قطعیت در نتایج آمار استنباطی به خاطر استفاده از یک نمونه کوچک برای درک کل جمعیت وجود دارد.
انجام یک مطالعه با استفاده از آمار توصیفی ساده تر است. با این وجود اگر می خواهید ببینید که تاثیر یا رابطه بین متغیرها در کل جمعیت وجود دارد و فقط مختص به نمونه نیست باید از آمار استنباطی استفاده کنید.
منبع: STATISTICSBYJIM
مسیرهای شغلی در علم داده
هر آنچه که باید درباره پی-مقدار یا p-value در علم آمار بدانید
آزمون فرض چیست؟