مرجع تخصصی آمار ایران
5 مورد از مهم ترین روش های آنالیز آماری داده ها
در عصر اطلاعات، دادهها دیگر کمیاب نیستند. برعکس، امروزه دادهها بسیار زیاد و پرقدرتاند. نکته اصلی این است که بتوانیم از میان این حجم عظیم از دادههای موجود، دادههای درست را پیدا کرده و معانی و عملکرد آنها را به خوبی دریابیم. اما برای مرتبسازی تمام این اطلاعات، به ابزارهای تحلیل آماری مناسب نیاز داریم. تحلیلگران، ابزارها و تکنیک های فانتزی زیادی درباره Big Data یا همان «کلان داده» به سازمانهای بزرگ ارائه دادهاند. با این حال، تعداد کمی از سازمانها از ابزارهای اصلی و پایهای تجزیه و تحلیل دادهها استفاده میکنند که البته به ضرر آنها است. پیشنهاد ما این است که آنالیز دادهها را با پنج اصل بنیادی زیر شروع کنید و قبل از ورود به تکنیکهای پیشرفتهتر نقایص و مشکلات آنها را فرا بگیرید. در ادامه 5 مورد از مهم ترین روش های آنالیز آماری داده ها را بررسی میکنیم.
روش های آنالیز آماری داده ها: میانگین
میانگین در ریاضی و آمار، که بیشتر به عنوان the average شناخته میشود، عبارت است از جمع اعداد، تقسیم بر تعداد آنها. میانگین برای تعیین روند کلی مجموعه دادهها یا ارائه یک دید کلی راجع به دادهها مفید است. مزیت دیگری که دارد این است که محاسبه آن بسیار آسان و سریع است.
معایب استفاده از میانگین در آنالیز آماری
استفاده از میانگین به تنهایی، میتواند یک ابزار آماری خطرناک باشد. در برخی از مجموعه دادهها، میانگین بسیار به مد و میانه شبیه است. بنابراین، در یک مجموعه داده با مقادیر زیاد داده های پرت یا توزیع ناگهانی، میانگین دقت لازم برای تشخیص تفاوتهای جزئی را ارائه نمیدهد.
روش های آنالیز آماری داده ها: انحراف معیار
انحراف معیار، که اغلب با حرف یونانی سیگما نشان داده میشود، یک معیار بـراي شناسائي پراكندگي دادهها از میانگین آنهاست. بالا بودن انحراف معیار نشان میدهد که دادهها از میانگین فاصله بیشتری دارند، در حالی که پایین بودن آن، نشاندهنده همگنتر بودن نمونه است. در روشهای آنالیز آماری داده ها، انحراف معیار برای تعیین سریع پراکندگی نقاط دادهای کاربرد دارد.
معایب استفاده از انحراف معیار در آنالیز آماری
درست مثل میانگین، انحراف معیار اگر به تنهایی استفاده شود فریبنده است. به عنوان مثال، اگر الگوی دادهها به صورت یک منحنی غیرنرمال باشد یا مقادیر زیادی دادههای پرت داشته باشد، در این صورت انحراف معیار شاخص درستی برای ارزیابی اطلاعات موجود نخواهد بود.
روش های آنالیز آماری داده ها: رگرسیون
رگرسیون روابط بین متغیرهای وابسته با متغیرهای توصیفی را مدل میکند که معمولا در یک نمودار پراکنده ترسیم میشوند. همچنین خط رگرسیون تعیین میکند که این روابط قوی هستند یا ضعیف. رگرسیون و کاربردهایش در علوم یا بیزینس معمولا در درسهای آمار دوره دبیرستان یا کالج تدریس میشود.
معایب استفاده از رگرسیون در آنالیز آماری
رگرسیون خیلی دقیق نیست. بعضی اوقات، داده های پرت روی یک نمودار پراکنده (و علت آنها) اهمیت قابل توجهی دارند. به عنوان مثال، یک داده دورافتاده ممکن است نمایانگر اصلیترین منبع تامین کننده یا بالاترین محصول فروش شما باشد. با این حال، ماهیت یک خط رگرسیون، شما را وسوسه میکند تا این موارد را نادیده بگیرید. به عنوان نمونه، تصویری از ANSCOMBE’S QUARTET را در نظر بگیرید، که در آن مجموعه دادهها خط رگرسیون یکسانی دارند اما نقاط دادهای کاملا متفاوتی را شامل میشوند.
روش های آنالیز آماری داده ها: تعیین اندازه نمونه
هنگام اندازهگیری یک مجموعه دادهی بزرگ یا یک جمعیت بزرگ مانند نیروی کار، نیازی به جمعآوری اطلاعات از تکتک اعضاء آن جمعیت ندارید؛ یک نمونه نیز همین کار را انجام میدهد. منتها نکته اصلی این است که اندازه مناسب یک نمونه را تعیین کنید. با استفاده از روشهای تناسب و انحراف معیار، شما میتوانید اندازه مناسب نمونه مورد نیاز برای جمعآوری دادههای معنیدار را مشخص کنید.
معایب استفاده از نمونه در آنالیز آماری
هنگام مطالعه یک متغیر جدید و آزمایشنشده در یک جمعیت، ممکن است معادلات تناسبی شما به فرضیات خاصی نیاز داشته باشد. با این حال، این فرضیات ممکن است کاملا نادرست باشند. سپس این خطا بر روی تعیین اندازه نمونه و سپس بر روی بقیه تجزیه و تحلیل داده های آماریتان تاثیر میگذارد.
روش های آنالیز آماری داده ها: آزمون فرضیه
آزمون فرضیه که معمولا به آن t test گفته میشود، ارزیابی میکند که آیا فرضیه خاصی در واقع برای مجموعه داده یا جمعیت شما صادق است یا خیر. در تجزیه و تحلیل دادهها و آمار، نتیجه آزمون فرضیه تصادفی تلقی میشود. آزمون فرضیه در شاخههاي مختلف از علم و تحقیقات گرفته تا تجارت و اقتصاد استفاده میشود.
معایب استفاده از آزمون فرضیه در آنالیز آماری
برای کسب نتایج دقیق، باید مراقب خطاهای رایج در آزمونهای فرضیه بود. به عنوان مثال، اثر دارونما (placebo) هنگامی اتفاق میافتد که به شرکتکنندگان به غلط گفته میشود که یک نتیجه خاص در انتظار شماست و سپس آنها با تلقین به این نتیجه دست پیدا میکنند. خطای رایج دیگر اثر Hawthorne است که زمانی اتفاق میافتد که شرکتکنندگان نتیجه را منحرف میسازند و جنبههایی از رفتارشان را که مورد مطالعه قرار گرفته است را با توجه به اینکه میدانند بر روی آنها مطالعاتی در حال انجام است، اصلاح میکنند.
جمعبندی
به طور کلی، روش های آنالیز آماری (DATA ANALYSIS) به تصمیم گیری و تحلیل نتایج کمک بسیار زیادی میکند؛ به خصوص اگر قبلا هیچ فرآیند یا دادهای را با استفاده از روشهای آماری تجزیه و تحلیل نکرده باشید. با این حال، اجتناب از مشکلات معمول مرتبط با هر روش، به همان اندازه استفاده از این روشها مهم خواهد بود. هنگامی که شما به تکنیکهای پایهای تجزیه و تحلیل دادههای آماری مسلط شوید، آماده خواهید بود تا به سراغ روشهای پیچیدهتر آماری برای تجزیه و تحلیل دادهها بروید.
مطلبی دیگر از این انتشارات
حال غریب آمار در ایران
مطلبی دیگر از این انتشارات
مسیرهای شغلی در علم داده
مطلبی دیگر از این انتشارات
آزمون فرض چیست؟