Hamed Rezaei
Hamed Rezaei
خواندن ۶ دقیقه·۴ سال پیش

آمار چیست؟



پیشگفتار

سلام دوستان من حامدم فارغ التحصیل آمار شهید بهشتی تهران؛ امروز می خوام با شما درباره آمار (Statistics)، صحبت کنم. اگه از لحاظ تاریخی بخواهیم به این علم نگاه کنیم، قدمت آن به زمان بابلی‌ها و مصری‌ها با سرشماری‌هایی درباره زاد‌ و‌ ولد برمی‌گردد، ولی وقتی بیشتر فکر کنیم متوجه می‌شویم که آمار از زمان بشر غارنشین نیز وجود داشته و انسان اولیه بر دیواره غارها، بر روی سنگ‌ها شروع به شمارش و حساب کرده است. پس هر جا سخنی از اطلاعات و داده‌ها به میان بیاید، انسان دست به گریبان آمار خواهد شد. خب الان شاید براتون سوال باشه اصلا داده یعنی چی؟ منم حق رو به شما می‌دم و اگه دوست دارین درباره آمار بدونید، پس تا انتهای این مقاله با من همراه باشید.
کانال یوتیوبمون با کلی ویدئو با حال آموزشی.
کانال یوتیوبمون با کلی ویدئو با حال آموزشی.

داده چیست؟

حتما تا الان این جمله رو زیاد شنیدید فلانی داره بدجور بهت آمار می‌ده! خب من از این تریبون می‌گم منظور ما در این مواقع داده‌ای است که از سمت فلانی مخابره می‌شه و آمار دانش تحلیل اون داده‌هاست، خب پس از لحاظ فلسفی هر شی که اطلاعات از سمت اون مخابره بشه در حال تولید داده است. این شی می‎تونه کاربری در حال سرچ گوگل ، ویدئویی از شخصی در اینستاگرام، کاربری در حال اسنپ گرفتن در یک شب بارانی، کاربری در حال خرید از دیجی‌کالا، شخصی در حال معامله کردن در بازار مالی فارکس و حتی کاربری در صف فروش بورس تهران هم، می‌تونه داده تولید کنه، خب تا اینجای کار فهمیدیم داده چیه، در ادامه برای ساماندهی به این داده‌ها نیازمند یک ساختار نظامند هستیم تا بتونیم اونها رو برای تحلیل آماده کنیم، برای این منظور ما نیازمند تعریف متغیرها هستیم؛ تا بتونیم داده‌های پردازش شده از جاهای مختلف رو تحلیل کنیم.

متغیر چیست؟

خب اسم‌ها و عناوین مختلفی برای این واژه در حال مخابره شدن هست، متغیر(Variable)، ویژگی (Feature)، صفت (Attribute) از جمله این الفاظ است، خب حالا ما کاری به این لفظ بازیا نداریم و می‌خوایم اصل مطلب رو موشکافی کنیم، شما برای پردازش داده‌های تولید شده در دنیا نیازمند تعریف متغیرها هستید، به طور مثال داده ویدئویی از کاربری در اینستاگرام چندین متغیر وجود داره که در نگاه اول اصلا به چشم نمیاد، اسم کاربر به عنوان متغیر اسم ، متغیر کار به عنوان تبلیغ برای فروش محصول، متغیر نوع داده به عنوان ویدئو در این داده است. خب برای تمرین داده‌های مثال بالارو می‌تونی متغیرهاش رو برای خودت بنویسی، خب دو مفهوم داده و متغیر و یاد گرفتیم ولی مشکل کار اینجاس دنیای ما دنیای کاربرهاست و حجم‌ داده‌ها در حال افزایش، این باعث میشه ما دست به گریبان مفاهیم جامعه و نمونه برای رسیدن به چیستی آماربشویم.
یعنی تا اینجا خوندی تو اینستاگرام نیومدی پس بزن تا بریم.
یعنی تا اینجا خوندی تو اینستاگرام نیومدی پس بزن تا بریم.

جامعه چیست؟

جامعه از مشاهدات تشکیل می‌شه، خب می‌دونم الان می‌گی نگفتی که مشاهده چیه! مشاهده تولیدات کاربرها با توجه به نوع متغیرهای اون‌ها است، وقتی این تولیدات کنار همدیگر قرار می‌گیرن، جامعه تشکیل می‌شود و به وسیله متغیرها از هم تفکیک می‌شوند، خب دنیای امروز رو انبوهی از تولیدات فراگرفته و شاید براتون جالب باشه میزان داده‌های تولید شده در هر سال نسبت به سال گذشته رشد چشم‌گیری پیدا می‌کنه، پس میشه یه جورایی فهمید نسل جدید دنیا با حجم انبوهی از داده‌ها ادغام شده، که چالش اصلی بشر حجم، سرعت پردازش و تنوع این داده‌هاست و دیگه نفت طلای سیاه نیست و این داده‌ها هستند که باید به عنوان طلا شناخته شوند؛ البته این امر نیازمند توانایی پردازش، تحلیل، مدل‌سازی، استنباط، تفسیر و نتیجه‌گیری از داده‌هاست که در مقالات بعدی به طور مفصل بهش می‌پردازیم. خب پس به این نتیجه می‌رسیم برای رفع چالش‌ها نیازمند نمونه از جامعه هستیم.

نمونه چیست؟

شنیدی می‌گن مشت نمونه خرواره، اینم دقیقا همونه کلا هر کی آماریه و با آمار سروکار داره دنبال اون مشت خوبس، برای به دست آوردن مشت خوبم، ما از روش‌های نمونه‌گیری استفاده می‌کنیم، و جایی که خیلی‌ها خواسته و ناخواسته از یک فرد عادی و حتی اساتید و دانشجوها در استفاده از اون دچار مشکل می‌شن، خب الان می‌گی چه مشکلی؟ مثلا فردی برای پایان‌نامش می‌خواد روی یک متغیری مطالعه انجام بده، پرسش‌نامش رو طراحی می‌کنه، راه میفته تو دانشگاه، خیابون، محله، تلگرام و هر جایی که شما به فکرت برسه پخش کردن این پرسش‌نامه، خب مشکل کار اینجا چیه به نظرتون؟ بله درست حدس زدید، شما برای انجام یک مطالعه پرسش‌نامه‌ای نیازمند تعیین یک چارچوب مشخص برای اون و تعیین جامعه و نمونه‌ای که قصد مطالعه آن را دارید؛ هستید، بعد از همه این کارها مهم‌ترین چالش شما تعیین روش نمونه‌گیری هست که می‌تونید در مورد اون از کتاب روش‌های نمونه‌گیری مرحوم دکتر عمیدی و همچنین کتاب نمونه‌گیری روش‌ها و کاربردهای خانم دکتر گیتی مختاری امیرمجدی از انتشارات پژوهشکده آمار استفاده کنید؛ پس تا اینجای کار یاد گرفتیم مانند کاربر مورد نظر اشتباه نکنیم، و بدونیم دنبال چه طرح نمونه‌گیری مدل مبنا یا طرح مبنا هستیم؛ بعد روش نمونه‌گیری خودمون شامل تصادفی ساده، سیستماتیک، گلوله‌برفی، قضاوتی،پیچیده، سهمیه‌ای یا هر چیزی رو تعیین کنیم، و در نهایت به کار استنباط و تحلیل و نتیجه‌گیری برسیم؛ نتیجه‎گیری اخلاقی اینکه به درستی از نمونه‌گیری در پژوهش‌هامون استقاده کنیم. خوب پیش رفتیم و کم‌کم داریم به آمار نزدیک می‌شیم، قبلش ی نمای کلی از دیتاساینس داشته باشیم بعد سراغ آمار بریم.

کانال تلگراممون ی وقت خواستی داشته باش
کانال تلگراممون ی وقت خواستی داشته باش

علم داده چیست؟

علم داده بعضیا می‌گن علوم داده، حالا ما می‎گیم دیتاساینس علمی هست که دانشمند داده در مقاله‌ای از دانشگاه هاروارد به عنوان جذاب‌ترین شغل قرن 21 شناخته شده است؛ در این مقاله از بزرگانی مانند جاناتان گلدمن از بزرگان لیندکین رید هافمن از بنیان‌گذاران لینکدین یاد شده است، علم داده دارای دو لایه درونی و بیرونی است، لایه بیرونی اون شامل بیزنس استراتژی، تحلیل بیزنس، دامنه دانش، ارتباطات، ارائه، حل مساله و کنجکاوی رسیدن به آنها است؛ لایه درونی شامل آمار، تشخیص الگو، محاسبات عصبی، هوش‌مصنوئی، یادگیری ماشین، داده‌کاوی، دانش کشف در دیتابیس یعنی (Knowledge discovery in database)، پایگاه داده و پردازش داده، تصویری‌سازی(Visualization) است، اینکه هر کدوم اینا چی هستن در مقالات بعدی بهش می‌پردازیم، هدف از مطرح کردن دیتاساینس به عنوان منبع ادعاهای این روزهای محافل علمی در تمامی رشته‌ها، در اینجا رسیدن به یکی از لایه‌های درونی اون به نام آمار بود. نتیجه‌گیری اخلاقی اینکه بیایید از این به بعد نگیم دیتاساینس همون آماره یا همون علوم کامپیوتر، ریاضی، مدیریت، مهندسی کامپیوتر و این‌ها، بیایید و قبول کنیم دیتاساینس از تک تک این علوم به عنوان ابزار استفاده می‌کنه؛ در نهایت برسیم به اینکه آمار چیه.

آمار چیست؟

آمار به عنوان یکی از لایه‌های درونی دیتاساینس علمی است که به ما در شناخت و تحلیل داده‌های تولیدی در دنیا با استفاده از ابزارهای توصیفی و استنباط کمک می‌کند.تا دسته‌بندی هر کدام از متغیرهای تولیدی داده‌ها را به درستی انجام دهیم، قدرت طبقه‌بندی را در اختیار ما می‌گذارد، ریزش طلا، دلار و سکه داخلی تا بازارهای مالی جهانی، ارزهای دیجیتال مانند بیت‌کوین، حتی با ساده‌ترین مدل‌های کلاسیک خود پیش‌بینی می‌کند، به ما در دیدن، تفکر، تصمیم‌گیری‌های صحیح کمک می‌کند، تا در زمان صرفه‌جویی کنیم و با کاربردی کردن این علم آینده‌ای بهتر بسازیم، تا اقتصاد کشور در مسیر تعالی و رفاه، جامعه‌شناسی در راستای شناسایی متغیر هنجارهای نامطلوب اجتماعی، کشاورزی و صنعت در راستای تعالی کیفیت محصول، مدیریت کشور در مسیر بهترین تصمیم‌گیری و هدایت و به صورت کلی جامعه را در یک چارچوب مشخص هدایت کنیم. پس آماری که هیچ کسی را ناراحت نکند و هیچ گزارهٔ علمی جدیدی از کاربران بیان نکند آمار نیست، گزارش روزمره اداری است! فلسفهٔ آمار، محو کردن نادانی است. نتیجه‌گیری اخلاقی اینکه بیایید از آمار به درستی استفاده کنیم، و اگر دانش کافی نداریم به متخصص آگاه مراجعه کنیم.

پایان
حامد رضائی


دانشجودیتاساینسآمارتحلیلآماری
ارشد آماراقتصادی| دیتاساینتیست|والیبالیست سابق
شاید از این پست‌ها خوشتان بیاید