5 مورد از مهم ترین روش های آنالیز آماری داده ها

در عصر اطلاعات، داده‌ها دیگر کمیاب نیستند. برعکس، امروزه داده‌ها بسیار زیاد و پرقدرت‌اند. نکته اصلی این است که بتوانیم از میان این حجم عظیم از داده‌های موجود، داده‌های درست را پیدا کرده و معانی و عملکرد آن‌ها را به خوبی دریابیم. اما برای مرتب‌سازی تمام این اطلاعات، به ابزارهای تحلیل آماری مناسب نیاز داریم. تحلیلگران، ابزارها و تکنیک های فانتزی زیادی درباره Big Data یا همان «کلان داده» به سازمان‌های بزرگ ارائه داده‌اند. با این حال، تعداد کمی از سازمان‌ها از ابزارهای اصلی و پایه‌ای تجزیه و تحلیل داده‌ها استفاده می‌کنند که البته به ضرر آن‌ها است. پیشنهاد ما این است که آنالیز داده‌ها را با پنج اصل بنیادی زیر شروع کنید و قبل از ورود به تکنیک‌های پیشرفته‌تر نقایص و مشکلات آن‌ها را فرا بگیرید. در ادامه 5 مورد از مهم‌ ترین روش های آنالیز آماری داده ها را بررسی می‌کنیم.

روش های آنالیز آماری داده ها: میانگین

میانگین در ریاضی و آمار، که بیشتر به عنوان the average شناخته می‌شود، عبارت است از جمع اعداد، تقسیم بر تعداد آن‌ها. میانگین برای تعیین روند کلی مجموعه داده‌ها یا ارائه یک دید کلی راجع به داده‌ها مفید است. مزیت دیگری که دارد این است که محاسبه آن بسیار آسان و سریع است.

معایب استفاده از میانگین در آنالیز آماری

استفاده از میانگین به تنهایی، می‌تواند یک ابزار آماری خطرناک باشد. در برخی از مجموعه داده‌ها، میانگین بسیار به مد و میانه شبیه است. بنابراین، در یک مجموعه داده با مقادیر زیاد داده های پرت یا توزیع ناگهانی، میانگین دقت لازم برای تشخیص تفاوت‌های جزئی را ارائه نمی‌دهد.

روش های آنالیز آماری داده ها: انحراف معیار

انحراف معیار، که اغلب با حرف یونانی سیگما نشان داده می‌شود، یک معیار بـراي شناسائي پراكندگي داده‌ها از میانگین آن‌هاست. بالا بودن انحراف معیار نشان می‌دهد که داده‌ها از میانگین فاصله بیشتری دارند، در حالی که پایین بودن آن، نشان‌دهنده همگن‌تر بودن نمونه است. در روش‌های آنالیز آماری داده ها، انحراف معیار برای تعیین سریع پراکندگی نقاط داده‌ای کاربرد دارد.

معایب استفاده از انحراف معیار در آنالیز آماری

درست مثل میانگین، انحراف معیار اگر به تنهایی استفاده شود فریبنده است. به عنوان مثال، اگر الگوی داده‌ها به صورت یک منحنی غیرنرمال باشد یا مقادیر زیادی داده‌های پرت داشته باشد، در این صورت انحراف معیار شاخص درستی برای ارزیابی اطلاعات موجود نخواهد بود.

روش های آنالیز آماری داده ها: رگرسیون

رگرسیون روابط بین متغیرهای وابسته با متغیرهای توصیفی را مدل می‌کند که معمولا در یک نمودار پراکنده ترسیم می‌شوند. همچنین خط رگرسیون تعیین می‌کند که این روابط قوی هستند یا ضعیف. رگرسیون و کاربردهایش در علوم یا بیزینس معمولا در درس‌های آمار دوره دبیرستان یا کالج تدریس می‌شود.

معایب استفاده از رگرسیون در آنالیز آماری

رگرسیون خیلی دقیق نیست. بعضی اوقات، داده های پرت روی یک نمودار پراکنده (و علت آن‌ها) اهمیت قابل توجهی دارند. به عنوان مثال، یک داده دورافتاده ممکن است نمایانگر اصلی‌ترین منبع تامین کننده یا بالاترین محصول فروش شما باشد. با این حال، ماهیت یک خط رگرسیون، شما را وسوسه می‌کند تا این موارد را نادیده بگیرید. به عنوان نمونه، تصویری از ANSCOMBE’S QUARTET را در نظر بگیرید، که در آن مجموعه داده‌ها خط رگرسیون یکسانی دارند اما نقاط داده‌ای کاملا متفاوتی را شامل می‌شوند.

روش های آنالیز آماری داده ها: تعیین اندازه نمونه

هنگام اندازه‌گیری یک مجموعه داده‌ی بزرگ یا یک جمعیت بزرگ مانند نیروی کار، نیازی به جمع‌آوری اطلاعات از تک‌تک اعضاء آن جمعیت ندارید؛ یک نمونه نیز همین کار را انجام می‌دهد. منتها نکته اصلی این است که اندازه مناسب یک نمونه را تعیین کنید. با استفاده از روش‌های تناسب و انحراف معیار، شما می‌توانید اندازه مناسب نمونه مورد نیاز برای جمع‌آوری داده‌های معنی‌دار را مشخص کنید.

معایب استفاده از نمونه در آنالیز آماری

هنگام مطالعه یک متغیر جدید و آزمایش‌نشده در یک جمعیت، ممکن است معادلات تناسبی شما به فرضیات خاصی نیاز داشته باشد. با این حال، این فرضیات ممکن است کاملا نادرست باشند. سپس این خطا بر روی تعیین اندازه نمونه و سپس بر روی بقیه تجزیه و تحلیل داده های آماری‌تان تاثیر می‌گذارد.

روش های آنالیز آماری داده ها: آزمون فرضیه

آزمون فرضیه که معمولا به آن t test گفته می‌شود، ارزیابی می‌کند که آیا فرضیه خاصی در واقع برای مجموعه داده یا جمعیت شما صادق است یا خیر. در تجزیه و تحلیل داده‌ها و آمار، نتیجه آزمون فرضیه تصادفی تلقی می‌شود. آزمون فرضیه در شاخه‌هاي مختلف از علم و تحقیقات گرفته تا تجارت و اقتصاد استفاده می‌شود.

معایب استفاده از آزمون فرضیه در آنالیز آماری

برای کسب نتایج دقیق، باید مراقب خطاهای رایج در آزمون‌های فرضیه بود. به عنوان مثال، اثر دارونما (placebo) هنگامی اتفاق می‌افتد که به شرکت‌کنندگان به غلط گفته می‌شود که یک نتیجه خاص در انتظار شماست و سپس آن‌ها با تلقین به این نتیجه دست پیدا می‌کنند. خطای رایج دیگر اثر Hawthorne است که زمانی اتفاق می‌افتد که شرکت‌کنندگان نتیجه را منحرف می‌سازند و جنبه‌هایی از رفتارشان را که مورد مطالعه قرار گرفته است را با توجه به این‌که می‌دانند بر روی آن‌ها مطالعاتی در حال انجام است، اصلاح می‌کنند.

جمع‌بندی

به طور کلی، روش های آنالیز آماری (DATA ANALYSIS) به تصمیم گیری و تحلیل نتایج کمک بسیار زیادی می‌کند؛ به خصوص اگر قبلا هیچ فرآیند یا داده‌ای را با استفاده از روش‌های آماری تجزیه و تحلیل نکرده باشید. با این حال، اجتناب از مشکلات معمول مرتبط با هر روش، به همان اندازه استفاده از این روش‌ها مهم خواهد بود. هنگامی که شما به تکنیک‌های پایه‌ای تجزیه و تحلیل داده‌های آماری مسلط شوید، آماده خواهید بود تا به سراغ روش‌های پیچیده‌تر آماری برای تجزیه و تحلیل داده‌ها بروید.