سلام دوستان من حامدم فارغ التحصیل آمار شهید بهشتی تهران؛ امروز می خوام با شما درباره آمار (Statistics)، صحبت کنم. اگه از لحاظ تاریخی بخواهیم به این علم نگاه کنیم، قدمت آن به زمان بابلیها و مصریها با سرشماریهایی درباره زاد و ولد برمیگردد، ولی وقتی بیشتر فکر کنیم متوجه میشویم که آمار از زمان بشر غارنشین نیز وجود داشته و انسان اولیه بر دیواره غارها، بر روی سنگها شروع به شمارش و حساب کرده است. پس هر جا سخنی از اطلاعات و دادهها به میان بیاید، انسان دست به گریبان آمار خواهد شد. خب الان شاید براتون سوال باشه اصلا داده یعنی چی؟ منم حق رو به شما میدم و اگه دوست دارین درباره آمار بدونید، پس تا انتهای این مقاله با من همراه باشید.
حتما تا الان این جمله رو زیاد شنیدید فلانی داره بدجور بهت آمار میده! خب من از این تریبون میگم منظور ما در این مواقع دادهای است که از سمت فلانی مخابره میشه و آمار دانش تحلیل اون دادههاست، خب پس از لحاظ فلسفی هر شی که اطلاعات از سمت اون مخابره بشه در حال تولید داده است. این شی میتونه کاربری در حال سرچ گوگل ، ویدئویی از شخصی در اینستاگرام، کاربری در حال اسنپ گرفتن در یک شب بارانی، کاربری در حال خرید از دیجیکالا، شخصی در حال معامله کردن در بازار مالی فارکس و حتی کاربری در صف فروش بورس تهران هم، میتونه داده تولید کنه، خب تا اینجای کار فهمیدیم داده چیه، در ادامه برای ساماندهی به این دادهها نیازمند یک ساختار نظامند هستیم تا بتونیم اونها رو برای تحلیل آماده کنیم، برای این منظور ما نیازمند تعریف متغیرها هستیم؛ تا بتونیم دادههای پردازش شده از جاهای مختلف رو تحلیل کنیم.
خب اسمها و عناوین مختلفی برای این واژه در حال مخابره شدن هست، متغیر(Variable)، ویژگی (Feature)، صفت (Attribute) از جمله این الفاظ است، خب حالا ما کاری به این لفظ بازیا نداریم و میخوایم اصل مطلب رو موشکافی کنیم، شما برای پردازش دادههای تولید شده در دنیا نیازمند تعریف متغیرها هستید، به طور مثال داده ویدئویی از کاربری در اینستاگرام چندین متغیر وجود داره که در نگاه اول اصلا به چشم نمیاد، اسم کاربر به عنوان متغیر اسم ، متغیر کار به عنوان تبلیغ برای فروش محصول، متغیر نوع داده به عنوان ویدئو در این داده است. خب برای تمرین دادههای مثال بالارو میتونی متغیرهاش رو برای خودت بنویسی، خب دو مفهوم داده و متغیر و یاد گرفتیم ولی مشکل کار اینجاس دنیای ما دنیای کاربرهاست و حجم دادهها در حال افزایش، این باعث میشه ما دست به گریبان مفاهیم جامعه و نمونه برای رسیدن به چیستی آماربشویم.
جامعه از مشاهدات تشکیل میشه، خب میدونم الان میگی نگفتی که مشاهده چیه! مشاهده تولیدات کاربرها با توجه به نوع متغیرهای اونها است، وقتی این تولیدات کنار همدیگر قرار میگیرن، جامعه تشکیل میشود و به وسیله متغیرها از هم تفکیک میشوند، خب دنیای امروز رو انبوهی از تولیدات فراگرفته و شاید براتون جالب باشه میزان دادههای تولید شده در هر سال نسبت به سال گذشته رشد چشمگیری پیدا میکنه، پس میشه یه جورایی فهمید نسل جدید دنیا با حجم انبوهی از دادهها ادغام شده، که چالش اصلی بشر حجم، سرعت پردازش و تنوع این دادههاست و دیگه نفت طلای سیاه نیست و این دادهها هستند که باید به عنوان طلا شناخته شوند؛ البته این امر نیازمند توانایی پردازش، تحلیل، مدلسازی، استنباط، تفسیر و نتیجهگیری از دادههاست که در مقالات بعدی به طور مفصل بهش میپردازیم. خب پس به این نتیجه میرسیم برای رفع چالشها نیازمند نمونه از جامعه هستیم.
شنیدی میگن مشت نمونه خرواره، اینم دقیقا همونه کلا هر کی آماریه و با آمار سروکار داره دنبال اون مشت خوبس، برای به دست آوردن مشت خوبم، ما از روشهای نمونهگیری استفاده میکنیم، و جایی که خیلیها خواسته و ناخواسته از یک فرد عادی و حتی اساتید و دانشجوها در استفاده از اون دچار مشکل میشن، خب الان میگی چه مشکلی؟ مثلا فردی برای پایاننامش میخواد روی یک متغیری مطالعه انجام بده، پرسشنامش رو طراحی میکنه، راه میفته تو دانشگاه، خیابون، محله، تلگرام و هر جایی که شما به فکرت برسه پخش کردن این پرسشنامه، خب مشکل کار اینجا چیه به نظرتون؟ بله درست حدس زدید، شما برای انجام یک مطالعه پرسشنامهای نیازمند تعیین یک چارچوب مشخص برای اون و تعیین جامعه و نمونهای که قصد مطالعه آن را دارید؛ هستید، بعد از همه این کارها مهمترین چالش شما تعیین روش نمونهگیری هست که میتونید در مورد اون از کتاب روشهای نمونهگیری مرحوم دکتر عمیدی و همچنین کتاب نمونهگیری روشها و کاربردهای خانم دکتر گیتی مختاری امیرمجدی از انتشارات پژوهشکده آمار استفاده کنید؛ پس تا اینجای کار یاد گرفتیم مانند کاربر مورد نظر اشتباه نکنیم، و بدونیم دنبال چه طرح نمونهگیری مدل مبنا یا طرح مبنا هستیم؛ بعد روش نمونهگیری خودمون شامل تصادفی ساده، سیستماتیک، گلولهبرفی، قضاوتی،پیچیده، سهمیهای یا هر چیزی رو تعیین کنیم، و در نهایت به کار استنباط و تحلیل و نتیجهگیری برسیم؛ نتیجهگیری اخلاقی اینکه به درستی از نمونهگیری در پژوهشهامون استقاده کنیم. خوب پیش رفتیم و کمکم داریم به آمار نزدیک میشیم، قبلش ی نمای کلی از دیتاساینس داشته باشیم بعد سراغ آمار بریم.
علم داده بعضیا میگن علوم داده، حالا ما میگیم دیتاساینس علمی هست که دانشمند داده در مقالهای از دانشگاه هاروارد به عنوان جذابترین شغل قرن 21 شناخته شده است؛ در این مقاله از بزرگانی مانند جاناتان گلدمن از بزرگان لیندکین رید هافمن از بنیانگذاران لینکدین یاد شده است، علم داده دارای دو لایه درونی و بیرونی است، لایه بیرونی اون شامل بیزنس استراتژی، تحلیل بیزنس، دامنه دانش، ارتباطات، ارائه، حل مساله و کنجکاوی رسیدن به آنها است؛ لایه درونی شامل آمار، تشخیص الگو، محاسبات عصبی، هوشمصنوئی، یادگیری ماشین، دادهکاوی، دانش کشف در دیتابیس یعنی (Knowledge discovery in database)، پایگاه داده و پردازش داده، تصویریسازی(Visualization) است، اینکه هر کدوم اینا چی هستن در مقالات بعدی بهش میپردازیم، هدف از مطرح کردن دیتاساینس به عنوان منبع ادعاهای این روزهای محافل علمی در تمامی رشتهها، در اینجا رسیدن به یکی از لایههای درونی اون به نام آمار بود. نتیجهگیری اخلاقی اینکه بیایید از این به بعد نگیم دیتاساینس همون آماره یا همون علوم کامپیوتر، ریاضی، مدیریت، مهندسی کامپیوتر و اینها، بیایید و قبول کنیم دیتاساینس از تک تک این علوم به عنوان ابزار استفاده میکنه؛ در نهایت برسیم به اینکه آمار چیه.
آمار به عنوان یکی از لایههای درونی دیتاساینس علمی است که به ما در شناخت و تحلیل دادههای تولیدی در دنیا با استفاده از ابزارهای توصیفی و استنباط کمک میکند.تا دستهبندی هر کدام از متغیرهای تولیدی دادهها را به درستی انجام دهیم، قدرت طبقهبندی را در اختیار ما میگذارد، ریزش طلا، دلار و سکه داخلی تا بازارهای مالی جهانی، ارزهای دیجیتال مانند بیتکوین، حتی با سادهترین مدلهای کلاسیک خود پیشبینی میکند، به ما در دیدن، تفکر، تصمیمگیریهای صحیح کمک میکند، تا در زمان صرفهجویی کنیم و با کاربردی کردن این علم آیندهای بهتر بسازیم، تا اقتصاد کشور در مسیر تعالی و رفاه، جامعهشناسی در راستای شناسایی متغیر هنجارهای نامطلوب اجتماعی، کشاورزی و صنعت در راستای تعالی کیفیت محصول، مدیریت کشور در مسیر بهترین تصمیمگیری و هدایت و به صورت کلی جامعه را در یک چارچوب مشخص هدایت کنیم. پس آماری که هیچ کسی را ناراحت نکند و هیچ گزارهٔ علمی جدیدی از کاربران بیان نکند آمار نیست، گزارش روزمره اداری است! فلسفهٔ آمار، محو کردن نادانی است. نتیجهگیری اخلاقی اینکه بیایید از آمار به درستی استفاده کنیم، و اگر دانش کافی نداریم به متخصص آگاه مراجعه کنیم.