نوشته های جلیل علیزاده

نوشته های جلیل علیزاده https://virgool.io/feed/@jalil.alizadeh مدیرمحصول! عاشق علوم داده و محاسبات کوانتومی fa 2026-06-30 18:08:36 https://files.virgool.io/upload/users/37653/avatar/Ov2aqw.png?height=120&width=120 جلیل علیزاده https://virgool.io/@jalil.alizadeh شناسایی ناهنجاری به کمک جنگل ایزوله؛ زیر میز بزنید! https://virgool.io/SahabPardaz/isolation-forest-r2vxodzrakxd با گسترش فناوری‌های انفورماتیک، دامنهٔ فعالیت مدیران محصول نیز روز به‌ روز توسعه و تنوع بیشتری می‌یابد. امروزه در اکثر شرکت‌های مطرح نرم‌افزاری و تحلیل داده به‌خصوص آن‌هایی که محصولات لبهٔ علم تولید می‌کنند، موقعیت شغلی AI/ML Product Manager و Data Product Manager ایجاد شده است و این افراد به‌ صورت مستقیم بر فرایندهای یادگیری ماشین و هوش مصنوعی موجود در توسعهٔ محصول نظارت دارند. در این مقاله قصد داریم کمی در علوم داده عمیق‌تر شویم و با یک الگوریتم نسبتا جدید و کاربردی در زمینهٔ شناسایی داده‌های پرت و ناهنجار آشنا شویم.در تحلیل‌های آماری شناسایی ناهنجاری‌ها و یافتن نقاط پرت (Outlier Points) اهمیت بسیار زیادی دارد. در بعضی موارد وجود این نقاط باعث ایجاد خطا در طراحی مدل‌ آماری شده و دقت پیش‌بینی انجام شده را به طرز محسوسی کاهش می‌دهد. مواردی نیز وجود دارد که این نقاط نشانگر بروز نفوذ و فعالیت غیرعادی کاربران است که با بررسی آن‌ می‌توان امنیت سیستم را افزایش داد.در علم آمار، ناهنجاری یک مشاهدهٔ نامتعارف، رویداد یا مقداری است که اختلاف و انحراف قابل توجهی نسبت به سایر مقادیر و رفتار متفاوتی نسبت به دیگر نقاط داشته باشد. به طور مثال در میان توپ‌های غمگین، یک توپ خوشحال یک مشاهدهٔ ناهنجار و نامتعارف به حساب می‌آید.نقاط ناهنجار می‌توانند معانی متفاوتی داشته باشند. به طور مثال نمودار زیر نشان‌دهندهٔ ترافیک ورودی یک وب‌سایت است که بر اساس تعداد درخواست‌ها در بازه‌ی زمانی سه‌ ساعته در مدت‌ زمان یک ماه به تصویر کشیده است.در نگاه اول کاملا مشخص است که برخی از نقاط (دور آن‌ها دایره قرمز کشیده شده است) به طور غیرمعمولی بزرگ‌تر از دیگر مقادیر هستند. یعنی در آن بازهٔ زمانی درخواست‌هایی که سمت سرور وب‌سایت ارسال شده، افزایش قابل توجهی داشته است. با توجه به اینکه این درخواست‌ها به شکل مقطعی هستند و در زیر خود سطح تشکیل نداده‌اند، این‌طور به نظر می‌رسد که سرور در آن زمان مورد حمله DDos (حمله محروم‌سازی از سرویس) قرار گرفته است. البته حالت‌های احتمالاتی دیگری نظیر وجود جشنواره‌های فروش ویژه و ... را نیز می‌توان در نظر گرفت که موجب شده در یک مدت زمان اندک تعداد زیادی درخواست ارسال شود. همچنین قسمت مسطح این نمودار نیز احتمالا نشانه‌ی وجود اشکال و اختلال در عملکرد سرور است؛ چرا‌که در آن بازهٔ زمانی هیچ درخواستی دریافت نشده است.بدیهی است که شناسایی ناهنجاری‌ها و نقاط پرت تمام مجموعه‌های داده به همین سادگی امکان‌پذیر نیست و در مواردی، به‌خصوص زمانی که با مجموعه‌هایی از جنس کلان‌داده روبه‌رو هستیم، شناسایی نقاط پرت کار بسیار پیچیده‌ای است و نیازمند استفاده از الگوریتم‌های هوشمند است.روش‌های آماری متعددی برای شناسایی ناهنجاری‌ها وجود دارد که در این مقاله به بررسی الگوریتم جنگل ایزوله (Isolation Forest Algorithm) می‌پردازیم که یکی از به‌روزترین‌ و کاربردی‌ترین الگوریتم‌های علوم داده در حوزهٔ شناسایی ناهنجاری‌ها و یافتن نقاط پرت است.پیدایش الگوریتم جنگل ایزولهدر سال ۲۰۰۸ سه دانشمند علوم کامپیوتر به نام‌های «فی تونی لیو»، «کای مینگ تینگ» و «ژوی هوآ ژو» برای اولین بار الگوریتم جنگل ایزوله (به اختصار iForest) را ابداع کردند. ایده‌ی اصلی آن‌ها برای طراحی این الگوریتم دو ویژگی متداول داده‌های پرت و ناهنجار بود که عبارتند از:کم بودن تعداد این نقاط نسبت به سایر نقاطتفاوت چشمگیر مقادیر این نقاط نسبت به توده‌ی کلی (هنجار) داده‌ها از آن‌جایی که ناهنجاری‌ها تعدادشان کم و مقادیرشان متفاوت است، جداسازی و دسته‌بندی آن‌ها در مقایسه با نقاط هنجار آسان‌تر است. راهکار کلی الگوریتم جنگل ایزوله این است که گروه‌هایی از «درختان جداسازی» (Isolation Trees) در مجموعه‌ی داده ایجاد کند. بدین ترتیب ناهنجاری‌ها نقاطی هستند که به‌طور میانگین مسیر کوتاه‌تری نسبت به دیگر نقاط در «درختان جداسازی» دارند. لازم به ذکر است که نویسندگان مقاله «درختان جداسازی» را به اختصار iTrees و الگوریتم جنگل ایزوله را iForest نام‌گذاری کرده‌اند.در سال ۲۰۱۰ افزونه‌ای از این الگوریتم به نام SCiforest با تمرکز بر بررسی مباحث ناهنجاری‌های خوشه‌ای و به کارگیری از اَبرصفحه‌های تصادفی به منظور افزایش توانایی تشخیص ناهنجاری‌های موازی منتشر شد. این توانمندی‌ها در نسخهٔ اولیه این الگوریتم وجود نداشت. کمی بعدتر در سال ۲۰۱۲ نویسندگان نسخهٔ اولیه مقاله «الگوریتم جنگل ایزوله» مجموعه‌ای از آزمایش‌ها را طراحی کردند تا ثابت کنند iForest دارای ویژگی‌های زیر است:پیچیدگی زمانی اندکی دارد و برای اجرا شدن حافظهٔ کمی از دستگاه را اشغال می‌کند.قابل استفاده در داده‌های بزرگ با ویژگی‌های غیرمرتبط است.الگوریتم قابلیت یادگیری و آموزش را دارد.بدون نیاز به آموزش مجدد، توانایی ارائهٔ نتایج تشخیص با سطوح مختلف دسته‌بندی را دارد.در سال ۲۰۱۳ دو دانشمند علوم کامپیوتر به نام «ژینگو دینگ» و «مینوری فی» ساختاری را بر مبنای iForest طراحی کردند که در آن مشکل تشخیص ناهنجاری‌ها در جریان داده‌ها (streaming data) برطرف شده بود. این اتفاق نقطهٔ عطفی در توسعهٔ الگوریتم iForest به حساب می‌آمد، چرا که اکنون بسیاری از سیستم‌های کلان‌‌داده‌ای نیز می‌توانستند از این الگوریتم برای شناسایی نقاط ناهنجار و پرت استفاده کنند و همین امر سرعت انجام تحلیل‌های آتی این جنس از داده‌ها و انجام فعالیت‌هایی نظیر «داده کاوی» و «یادگیری ماشین» را به طور محسوسی افزایش می‌داد.زیر میز بزنید!احتمالا انسان‌ها پیش از آن که با مفهومی به نام علوم داده و تحلیل‌های آماری آشنا شوند، به صورت ناخودآگاه الگوسازی از نقاط هنجار را انجام می‌دادند. متداول‌ترین شیوه‌ای که برای شناسایی نقاط ناهنجاری استفاده می‌شود استفاده از الگوریتم الگوسازی (Profiling) است. در این شیوه الگوریتم با تحلیل تمام اعضای مجموعهٔ داده، یک الگو از نقاط عادی می‌سازد و داده‌هایی که تفاوت معناداری با نقاط عادی دارند را به عنوان نقاط پرت و ناهنجار شناسایی می‌کند. این در حالی است که الگوریتم جنگل ایزوله یا همان iForest با شیوه‌ی متفاوتی این‌گونه نقاط را مورد شناسایی و بررسی قرار می‌دهد.الگوریتم iForest به جای آن‌که برای ساختن یک مدل نرمال تلاش کند، ابتدا نقاط غیرعادی و ناهنجار را شناسایی و از مجموعهٔ داده جدا می‌کند. این الگوریتم در ابتدا یک ویژگی (یک بُعد) را به صورت تصادفی انتخاب می‌کند و سپس یک مقدار تصادفی در فاصلهٔ بین کمینه و بیشینهٔ مجموعهٔ داده انتخاب کرده و با یک خط جداساز آن بُعد را جدا می‌کند. بدین ترتیب یک مجموعهٔ درخت ایجاد می‌شود و درخت‌هایی که طول کمتری دارند به عنوان دادهٔ پرت و ناهنجاری شناسایی می‌شوند. لازم به ذکر است که iForest یک الگوریتم یادگیری بدون نظارت (Unsupervised Learning) به حساب می‌آید. در بخش بعدی مقاله با نحوهٔ فعالیت این الگوریتم بیشتر آشنا خواهیم شد.جنگل ایزوله زیر ذره‌بینهمان‌ طور که در بخش قبلی اشاره شد، رهیافت متداول در شناسایی ناهنجاری، الگوسازی از نقاط نرمال بود؛ اما iForest رویکرد متفاوتی را در پیش گرفته است. ایده‌ی اصلی الگوریتم این است که اگر بر روی مجموعهٔ داده یک درخت تصمیم‌گیری رسم شود، نقاط ناهنجاری طول کوتاه‌تری دارند و به ریشه نزدیک‌تر هستند.برای فهم بهتر این مفهوم با یک مثال ساده شروع می‌کنیم؛ حدودا نزدیک به ۸ میلیارد انسان بر روی کرهٔ زمین وجود دارند و آن‌ها را به عنوان یک مجموعهٔ داده در نظر می‌گیریم. این مجموعهٔ داده را می‌توان به بُعد‌هایی نظیر سن، دارایی، محل تولد، موقعیت شغلی و ... تقسیم‌بندی کرد. حال می‌خواهیم در این مجموعه‌ی داده نقاط ناهنجار را شناسایی کنیم. دقت کنید که نقاط ناهنجار لزوما داده‌های اشتباهی نیستند و تنها تفاوتی معنادار با دیگر نقاط دارند. رسم درخت تصمیم‌گیری را با بُعد «برخورداری از دارایی ۱۷۰ میلیارد دلاری» آغاز می‌کنیم.در این درخت تصمیم‌گیری «جف بزوس» بنیان‌گذار شرکت آمازون به عنوان یک نقطهٔ نامتعارف شناسایی می شود. با توجه به شکل مشخص است که او به ریشهٔ درخت بسیار نزدیک است. البته که این درخت تصمیم‌گیری هرس نشده است و احتمالا نقاط ناهنجاری دیگری نیز دارد.برای ایزوله کردن درخت جف بزوس، تنها کافی است این سوال را بپرسید که «آیا او بیش از ۱۷۰ میلیارد دلار دارایی دارد؟» اما از آن جایی که شخص جلیل علیزاده (نویسندهٔ مقاله) بسیار معمولی‌تر از جف بزوس است، برای ایزوله کردن او حداقل نیاز به پرسیدن ۱۰ سوال بله/خیر دارید.حال بهتر است به سراغ یک مثال آماری‌تر برویم و مجموعه‌ای از داده‌ها را در مختصات دو بعدی x-y قرار بدهیم. این مجموعه داده را ابتدا از طریق یک بُعد (خط آبی) جداسازی می‌کنیم، سپس جداسازی با بُعد دوم (خط نارنجی) صورت می‌گیرد و در نهایت آخرین جداسازی (خط سبز) انجام می‌شود.اگر بخواهیم این مجموعهٔ داده ‌را به صورت درخت تصمیم‌گیری رسم کنیم، شکل زیر حاصل می‌شود. همان‌طور که مشخص است نقطهٔ G کوتاه‌ترین طول مسیر (طول مسیر برابر ۱) را دارد و از همه نقاط دیگر به ریشه نزدیک‌تر است و به همین منظور نقطهٔ G یک ناهنجاری و داده پرت به حساب می‌آید. در این شکل به طور مثال نقطهٔ C طول مسیرش برابر ۳ است و بنابراین ناهنجاری نیست.برای تولید یک جنگل ایزوله باید تعداد زیادی درخت ساخته شود و هر درخت مشخص می‌کند که کدام نقاط زودتر ایزوله می‌شوند که در حقیقت نقاط ناهنجار هستند. در نهایت پس از رسم درخت‌ها به هر نقطه یک امتیاز بین ۰ تا ۱ داده می‌شود.، هر میزان امتیاز ناهنجاری به ۱ نزدیک‌تر باشد، این نقطه به احتمال بیشتری یک دادهٔ پرت و ناهنجار است. در بحث بعدی به صورت متمرکزتر به بررسی نحوهٔ محاسبهٔ نمره ناهنجاری می‌پردازیم.ویژگی‌های اصلی جنگل ایزولهاکنون نگاهی به ویژگی‌های کلی iForest می‌اندازیم و نکات مثبت و منفی آن را مورد بررسی قرار می‌دهیم:زیرنمونه‌گیری (Sub-sampling): با توجه به اینکه الگوریتم iForest نیازی به یافتن و جداسازی همهٔ نقاط نرمال ندارد، این الگوریتم می‌تواند توده‌ی عظیمی از نقاط نمونه‌ی آموزشی را نادیده بگیرد. بنابراین می‌توان ادعا کرد که iForest هنگامی که اندازهٔ نمونه کوچک نگه داشته شود، عملکرد بسیار خوب و دقت بالایی دارد. این ویژگی در میان دیگر الگوریتم‌ها کمتر دیده می‌شود.غرق شدن(Swamping): هنگامی که فاصلهٔ میان نقاط نرمال و نقاط ناهنجار بسیار کم باشد، تعداد درخت‌های موردنیاز برای جداسازی ناهنجاری‌ها افزایش می‌یابد. در این شرایط ممکن است پدیده‌ای به نام «غرق شدن» رخ دهد. این امر سبب می‌شود که iForest تفاوت میان نقاط ناهنجار و نرمال را به کندی و با اشتباه فراوان تشخیص دهد. بنابراین ممکن است با هر بار اجرای الگوریتم، نقاط متفاوتی به عنوان ناهنجاری شناسایی شوند و همین امر باعث می‌شود تا دقت الگوریتم به طرز محسوسی کاهش پیدا کند.پوشیده ماندن(Masking): زمانی که تعداد ناهنجاری‌ها زیاد باشد، این احتمال وجود دارد که برخی از نقاط در یک خوشه متراکم و بزرگ قرار بگیرند و جداسازی ناهنجاری‌ها توسط iForest بسیار سخت و دشوار شود. این امر شباهت‌های زیادی با پدیدهٔ «غرق شدن» دارد و با انجام کارهایی نظیر نمونه‌گیری فرعی می‌توان مشکل را برطرف کرد.داده‌های کلان‌بُعدی(High Dimensional Data): یکی از جدی‌ترین محدودیت‌های روش استاندارد که بر مبنای محاسبهٔ تابع فاصله کار می‌کند، ناکارآمدی الگوریتم در مواجه با مجموعه‌ٔ داده‌های کلان‌بُعدی است. در فضاهای کلان‌بُعدی، فواصل نقاط نسبت به یکدیگر تقریبا یکسان است و همین امر اندازه‌گیری مبتنی بر فاصله را عملا ناکارآمد می‌کند. بدیهی است که الگوریتم iForest نیز در مواجه با این شکل از داده‌ها عملکرد ضعیفی دارد، اما با اضافه کردن یک آزمون و انتخاب ویژگی‌های محدود می‌توان باعث افزایش دقت و عملکرد الگوریتم شد.محاسبه نمره ناهنجاریاستراتژی محاسبه نمره ناهنجاری یک نقطه، براساس معادل‌سازی مشاهدهٔ ساختاری iTrees با ساختار درختی جست‌وجوی دودویی (Binary Search Trees) است. این سخن بدین معنا است که رسیدن به یک گره خارجی از iTree برابر با یک جست‌وجوی ناموفق در BST است. بنابراین محاسبهٔ میانگین طول مسیر که همان h(x) است برای رسیدن به یک گره خارجی از فرمول زیر به‌دست می‌آید:در این رابطه n تعداد داده‌های آزمایشی، m حجم نمونه و H عدد هارمونیک است که از رابطهٔ زیر به‌دست می‌آید:همچنین γ برابر با «ثابت اویلر-ماسکرونی» است که به صورت تقریبی برابر با ۰.۵۷۷ است. همان‌طور که اشاره شد مقدار c(m) میانگین h(x) است که برحسب m نوشته شده است. بنابراین با انجام یک فرایند نرمال‌سازی می‌توانیم مقدار نمرهٔ ناهنجاری را با توجه به x و m به‌دست آوریم که برابر است با:در این رابطه E(h(x)) امید ریاضی است که برابر با مقدار میانگین h(x) بر روی مجموعه درختان iTree است. اکنون با به‌دست آوردن این رابطه می‌توانیم حالت‌بندی‌های زیر را انجام دهیم:اگر مقدار s به ۱ میل کند، آن‌گاه می‌توان گفت که نقطهٔ x یک ناهنجاری است.اگر مقدار s به ۰.۵ میل کند، آن‌گاه می‌توان گفت که نقطهٔ x یک نقطه نرمال و متعارف است.اگر به‌ازای همه مقادیر x مقدار s به ۰.۵ میل کند، می‌توان گفت که مجموعه‌ٔ داده مذکور فاقد ناهنجاری است و تمام نقاط آن متعارف و نرمال هستند.رفع مشکل نمره ناهنجاری توسط یک ایرانییکی از اصلی‌ترین مشکلات نسخهٔ اولیه الگوریتم iForest محاسبهٔ «نمرهٔ ناهنجاری» بود. این ایراد در سال ۲۰۱۸ توسط سه دانشمند علوم کامپیوتر به نام‌های «سهند حریری»، «ماتیاس کاراسکو» و «رابرت برنر» در دانشگاه ایلینوی (University of Illinois) برطرف شد. این افراد مدل جدیدی به نام «جنگل ایزوله توسعه یافته» (Extended Isolation Forest) یا به اختصار EIF را ارائه کردند. این الگوریتم محاسبهٔ نمره ناهنجاری را با دقت بیشتری انجام می‌دهد.پیاده‌سازی جنگل ایزوله در پایتوندر این مرحله یک مثال از پیاده‌سازی جنگل ایزوله در پایتون را بررسی می‌کنیم. به منظور سادگی کار یک مجموعه داده دوبعدی را مورد بررسی قرار می‌دهیم. در گام اول نیاز است که مقداری داده تولید کنیم و تمرکز بیشتری بر روی داده‌های نرمال بگذاریم که به‌عنوان مجموعهٔ داده آموزشی استفاده می‌شود. روند آموزش داده و امتیازدهی ناهنجاری استفاده شده را از scikit-learn استخراج کرده‌ایم. در نهایت خواهیم داشت:# importing libaries ---- import numpy as np import pandas as pd import matplotlib.pyplot as plt from pylab import savefig from sklearn.ensemble import IsolationForest# Generating data ---- rng = np.random.RandomState(42) # Generating training data X_train = 0.2 * rng.randn(1000, 2) X_train = np.r_[X_train + 3, X_train] X_train = pd.DataFrame(X_train, columns = ['x1', 'x2']) # Generating new, 'normal' observation X_test = 0.2 * rng.randn(200, 2) X_test = np.r_[X_test + 3, X_test] X_test = pd.DataFrame(X_test, columns = ['x1', 'x2']) # Generating outliers X_outliers = rng.uniform(low=-1, high=5, size=(50, 2)) X_outliers = pd.DataFrame(X_outliers, columns = ['x1', 'x2'مجموعه داده تولیدشده در شکل زیر قابل مشاهده است. همان گونه که در نظر داشتیم، داده‌های نرمال که به عنوان مجموعه داده آموزشی مورد استفاده قرار گرفته بودند، در کنار هم هستند. این در حالی است که داده‌های پرت به صورت پراکنده هستند.اکنون باید جنگل ایزوله را آموزش دهیم. در فرایند آموزش‌ دادن، متغیر «آلودگی» را برابر با ۰.۱ قرار دهیم که همان مقدار پیش‌فرض scikit-learn است.# Isolation Forest ---- # training the model clf = IsolationForest(max_samples=100, random_state=rng) clf.fit(X_train) # predictions y_pred_train = clf.predict(X_train) y_pred_test = clf.predict(X_test) y_pred_outliers = clf.predict(X_outliers)اکنون که الگوریتم کار پیش‌بینی و شناسایی داده‌های ناهنجار را ادامه داده است. دنبال آن هستیم که عملکرد iForest را در شناسایی داده‌های پرت بررسی کنیم. بنابراین به شکل زیر عمل می‌کنیم:# new, 'normal' observations ---- print(&quotAccuracy:&quot, list(y_pred_test).count(1)/y_pred_test.shape[0]) # Accuracy: 0.93# outliers ---- print(&quotAccuracy:&quot, list(y_pred_outliers).count(-1)/y_pred_outliers.shape[0]) # Accuracy: 0.96در نگاه اول این‌طور به نظر می‌رسد که عملکرد الگوریتم بسیار خوب و شناسایی نقاط ناهنجار با دقت بالایی انجام شده است. تنها نکته‌ای که وجود دارد این است که تعدادی از داده‌های پرت که به صورت تصادفی ایجاد شده‌اند در ناحیهٔ هنجار و نرمال قرار گرفته‌اند، اما همچنان به عنوان ناهنجاری و داده پرت شناسایی شده‌اند. برای افزایش دقت و کاهش خطاهای این‌چنینی می‌توانیم تغییراتی در متغیرهایی نظیر؛ آلودگی، تعداد تخمین‌گرها و ... ایجاد کنیم و بار دیگر خروجی را بررسی کنیم. با این حال نتایج خروجی به‌دست آمده کاملا رضایت‌بخش است.استفاده از کاربرد جنگل ایزوله در سُکانجمع‌آوری داده‌های فروش مشتریان و ارائهٔ تحلیل‌ و گزارش‌های متنوع مبتنی بر این داده‌ها یکی از مهم‌ترین فرایندهایی است که در محصول سکان رخ می‌دهد. بدیهی است که برای انجام تحلیل‌ دقیق‌تر نیاز است تا داده‌های ناهنجار و نامتعارف شناسایی و از مجموعهٔ دادهٔ نهایی حذف شوند تا دقت خروجی افزایش داشته باشد. به همین دلیل تیم فنی سکان اقدام به طراحی و توسعهٔ یک ماژول شناسایی ناهنجاری کرده است. یکی از الگوریتم‌های به کار رفته در توسعه این ماژول iForest است که با دقت و عملکرد قابل‌قبولی به شناسایی ناهنجاری‌ها و داده‌های نامتعارف می‌پردازد. از این ماژول شناسایی ناهنجاری در بخش‌های مختلفی از محصول سکان نظیر انجام تحلیل RFM و پیش‌بینی ریزش استفاده می‌شود. جلیل علیزاده جلیل علیزاده Sat, 05 Mar 2022 12:27:02 +0330 شانس یا استعداد؛ هرآنچه باید درباره «معناداری آماری» بدانید! https://virgool.io/Sahab-EPM/%D8%B4%D8%A7%D9%86%D8%B3-%DB%8C%D8%A7-%D8%A7%D8%B3%D8%AA%D8%B9%D8%AF%D8%A7%D8%AF-%D9%87%D8%B1%D8%A2%D9%86%DA%86%D9%87-%D8%A8%D8%A7%DB%8C%D8%AF-%D8%AF%D8%B1%D8%A8%D8%A7%D8%B1%D9%87-%D9%85%D8%B9%D9%86%D8%A7%D8%AF%D8%A7%D8%B1%DB%8C-%D8%A2%D9%85%D8%A7%D8%B1%DB%8C-%D8%A8%D8%AF%D8%A7%D9%86%DB%8C%D8%AF-rqtdbmfjng2y فرض کنید در جمعی نشسته‌اید و فردی ادعا می‌کند که این قدرت را دارد که اگر دو سکه بیندازد هر دو «پشت» بیایند. اگر افراد حاضر در آن جمع با مباحث ابتدایی آمار و احتمال آشنا باشند احتمالا به این ادعا می‌خندند. چرا که احتمال وقوع دو «پشت» در پرتاب دو سکه چندان غیرممکن نیست. گرچه احتمال وقوع این رویداد کمتر از ۵۰ درصد است، اما احتمال رخداد آن به حدی نیست که افراد متقاعد شوند یک اتفاق ویژه یا به بیان علمی یک «معناداری آماری» رخ داده است. حال فرض کنیم در همان جمع فردی مدعی شود که می‌تواند ۱۰ سکه را به‌ طور پیاپی بیندازد و هر ده سکه «پشت» بیایند. بدیهی است که اگر فرد موفق به انجام ادعای خود بشود، افراد حاضر در جمع همگی اذعان خواهند داشت که او استعداد و توانایی ویژه‌ای دارد. اکنون نگاهی به میزان احتمال وقوع این رویداد می‌اندازیم؛در اینجا شخص مذکور موفق به انجام کاری شده است که احتمال آن ۰.۱ درصد است. بنابراین منطقی به نظر می‌رسد که برای او استعداد و توانایی ویژه‌ای قائل باشیم. اما چه اتفاقی باعث شد که رویداد اولی را یک «معناداری آماری» به حساب نیاوریم اما رخداد دوم را یک «معناداری آماری» به حساب آورده و برای آن فرد استعداد ویژه‌ای قائل باشیم. برای آشنا شدن بیشتر درباره این مفهوم بد نیست نگاهی به تاریخچه آن بیندازیم.مهمانی سلطنتی، چای انگلیسی و کمی هم آمار و احتمال!در انگلیس مرسوم است که چای را با شیر مخلوط کرده و می‌نوشند. در یک مهمانی سلطنتی رونالد فیشر (Ronald Fisher)آماردان بریتانیایی یک فنجان چای و شیر به بانویی تعارف می‌کند. زن از فیشر می‌پرسد که آیا ابتدا چای را ریخته و سپس به آن شیر اضافه کرده است یا آن که ابتدا شیر ریخته و سپس چای را اضافه کرده است. رونالد فیشر از این سوال جا می‌خورد، چرا که معتقد است وقتی شیر و چای با هم ترکیب شوند (مستقل از آن که کدام یک در ابتدا ریخته شده است) محصول نهایی طعم و مزه یکسانی خواهد داشت و قابل تشخیص نیست چه چیزی در ابتدا ریخته شده است.زن در پاسخ به فیشر می‌گوید که با توجه به اصول خانواده سلطنتی روش صحیح آن است که ابتدا چای ریخته شود و سپس شیر به آن اضافه شود. زن در ادامه ادعا می‌کند که توانایی آن را دارد که پس از چشیدن طعم نوشیدنی نهایی، بگوید که آیا ابتدا چای به آن اضافه شده یا شیر؟رونالد فیشر که یک سوژه جذاب آمار-احتمال پیدا کرده بود (احتمالا جذاب‌تر از یک مهمانی کسل کننده)، سریعا به دنبال روشی می‌گردد تا بتواند ادعای زن را صحت‌سنجی کند. او پس از کمی تامل آزمایش زیر را طراحی کرد:او ۸ فنجان آماده کرد. در ۴ فنجان‌ ابتدا چای و سپس شیر و در ۴ فنجان دیگر ابتدا شیر و سپس چای را اضافه کرد. همچنین او سعی کرد در این هشت فنجان اصول «آزمایش کنترل‌شده تصادفی» را رعایت کند و هیچ‌کدام از فنجان‌ها تفاوت چشمگیری از لحاظ دما، میزان شیرین بودن، حجم و ... نداشته باشند. سپس او این هشت فنجان را به صورت تصادفی داخل سینی قرار داد و از زن خواست که این هشت فنجان را به ترتیب بچیند. با کمی دانش ترکیبیات می‌توانیم حساب کنیم که این ۸ فنجان می‌توانند ۷۰ چینش مختلف داشته باشند:همچنین در نظر داشته باشید تنها ۱ حالت از این ۷۰ حالت مطلوب است. بنابراین احتمال صحیح چیدن این فنجان‌ها حدودا ۱.۴ درصد است.بنابراین اگر بانوی سلطنتی داستان ما بخواهد که به صورت شانسی فنجان‌ها را بچیند ۷۰ روش احتمالی برای او وجود دارد و تنها یکی از این ۷۰ روش درست است، به عبارت دیگر، تنها ۱.۴ درصد احتمال دارد که او چینش صحیح را قرار دهد.پس از انجام آزمایش در کمال تعجب رونالد فیشر، آن زن توانست فنجان‌ها را دقیقا با چینش درست قرار دهد و با توجه به احتمال کم آن که زن موفق شود به صورت شانسی چینش صحیح را قرار دهد، برای فیشر محرز شد که او استعداد ویژه‌ای در تشخیص فنجان چای و شیر دارد.این اتفاق سبب شد تا رونالد فیشر به سراغ ایجاد مفهومی به نام «P-Value» یا «مقدار پی» برود که در سال‌های آینده آماردان‌های زیادی به تعمیم و گسترش آن پرداختند. «مقدار پی» یا «P-Value» به ما نشان می‌دهد که چه میزان احتمال دارد نتایج بدست آمده صرفا تحت تاثیر شانس یا اتفاق باشد. این موضوع یک ابزار کلیدی در فضای کسب‌وکار و آزمایشگاهی به حساب می‌آید، چرا که ابزار ریاضی نسبتا دقیقی برای صحت‌سنجی فرضیات گوناگون است.حاشیه خطا و «معناداری آماری»پس از ایجاد مفهوم «P-Value» این سوال برای اکثر آماردان‌ها پیش آمد که این مقدار pدقیقا چقدر باید باشد. به عبارت بهتر به چه مقداری احتمال کوچک گفته می‌شود؟ رونالد فیشر در ابتدا مقدار ۵ درصد را برای آن پیشنهاد داد که امروزه یک معیار پذیرفته شده است و در اکثر صنایع از آن استفاده می‌شود. به این مقدار حاشیه خطا یا «آلفا» گفته می‌شود که با علامت α نمایش داده می‌شود. به طور مثال اگر حاشیه خطا ۵ درصد باشد، بدین معنا است که با احتمال ۹۵ درصد می‌توانیم مطمئن باشیم که نتایج به‌دست‌آمده برحسب تصادف یا اتفاق حاصل نشده است.در بعضی صنایع خاص و مواقعی که دقت بالا مورد نیاز است، آزمایشگران حاشیه خطا را ۱ درصد در نظر می‌گیرند. بنابراین اگر حاشیه خطا را یک درصد در نظر بگیریم (که بسیار سخت‌گیرانه است)، با توجه به اینکه «P-Value» آزمایش شیر و چای رونالد فیشر حدود ۱.۴ درصد بود، در صورتی که زن تمام فنجان‌ها را به صورت صحیح بچیند باز هم نمی‌توان برای او استعداد خاصی قائل شد. لازم به ذکر است که در این شرایط می‌بایست نوع آزمایش را تغییر داد و شرایط آزمایشی را ایجاد کرد که متناسب با حاشیه خطای ذکر شده باشد.آشنایی با «آزمون فرضیه آماری» و «فرض صفر»به طور کلی مبحث «معناداری آماری» بر پایه سه اصل استوار است؛آزمون فرضیهتوزیع نرمالمقدار پی یا P-Valueفرض کنید که ما ادعایی را مطرح می‌کنیم، که به آن فرض صفر (null hypothesis) می‌گویند. کاری که آزمون فرضیه انجام می‌دهد آن است که با بررسی داده‌ها صحت ادعای اولیه (فرض صفر) را بررسی می‌کند. اگر فرض صفر صحیح نبود، آنگاه به دنبال فرضیه جایگزین می‌گردیم. به منظور بررسی صحت فرض صفر از «P-Value» کمک می‌گیریم. در صورتی که داده‌ها نشان از صحیح بودن فرضیه جایگزین می‌دادند، آن گاه فرض صفر را رد می‌کنیم و فرضیه جایگزین را می‌پذیریم. به منظور درک بهتر این موضوع بهتر است یک مثال را مطرح کنیم.سرویس جابجایی اکسپرسیک سرویس جابجایی مرسوله در شهر مدعی آن است که سفارش هر مشتری را در کمتر از ۳۰ دقیقه به دست او می‌رساند. بنابراین آزمون فرضیه این ادعا به شرح زیر خواهد بود:فرض صفر: مدت زمان رسیدن مرسوله به دست مشتری کمتر از ۳۰ دقیقه است.فرضیه جایگزین: مدت زمان رسیدن مرسوله به دست مشتری ۳۰ دقیقه یا بیشتر است.در اینجا هدف از آزمون فرضیه آن است که کدام ادعا (باتوجه به داده‌ها) صحیح‌تر است. برای صحت‌سنجی فرضیه‌ها می‌توان از آزمون Z استفاده کرد تا در نهایت با توجه به داده‌های به‌دست‌آمده یک فرضیه را تایید و دیگری را رد کرد.آشنایی با توزیع نرمالتوزیع نرمال یا توزیع بهنجار یک تابع چگالی احتمال است که کاربرد زیادی در بسیاری از توزیع‌های داده‌ای دارد.به طور کلی برای این تابع ۳ دسته در نظر گرفته‌ شده (قرمز-بنفش-سبز) که به شرح زیر است؛۶۸ درصد داده‌ها در دسته قرمز قرار دارند.۹۵ درصد داده‌ها در دسته قرمز و بنفش قرار دارند.۹۹.۷ درصد داده‌ها در دسته قرمز، بنفش و سبز قرار دارند.در اکثر مسائلی که بحث محاسبه «مقدار پی» یا همان «P-Value» مطرح می‌شود، مقادیر بدست آمده در قسمت سبز و در مواردی در قسمت بنفش نمودار قرار می‌گیرد. لازم به ذکر است که اگر آزمون فرضیه یک‌سویه (one-tailed test) داشته باشیم تنها قسمت سمت راست دسته سبز یا بنفش مقدار «P-Value» ما را نمایش می‌دهد، اما اگر آزمون فرضیه دو‌سویه (two-tailed test) آنگاه هم قسمت راست و هم قسمت چپ ناحیه سبز و بنفش مقدار «P-Value» را نمایش می‌دهد.نگاهی دقیق به «پی مقدار» یا «P-Value»تمام مباحث قبلی که بررسی کردیم، پیش‌زمینه‌ای برای بررسی و فهم دقیق‌تر «P-Value» بود. همان‌طور که در مباحث قبلی اشاره کردیم، هر آزمون فرضیه از دو بخش «فرض صفر» و «فرضیه جایگزین» تشکیل شده است. «مقدار پی» قرار است به ما به صورت عددی نشان دهد که آیا واقعه رخ‌داده براساس شانس و حادثه بوده یا عاملی باعث رخ دادن آن شده است. اگر «مقدار پی» حاکی از وجود عاملی در رخداد واقعه باشد که به آن همان «معناداری آماری» می‌گوییم آنگاه فرض صفر را می‌پذیریم در غیر این صورت فرض صفر را رد کرده و فرضیه جایگزین را قبول می‌کنیم. هر میزان که «مقدار پی» کمتر باشد، احتمال آن که رخداد براساس شانس یا حادثه رخ داده باشد کمتر است.در مثال فنجان چای و شیر مقدار «P-Value» حدود ۱.۴ درصد بود، این سخن بدین معنا است که تنها ۱.۴ درصد احتمال وجود دارد که این فنجان‌ها به صورت اتفاقی صحیح چیده شده باشند، بنابراین در اینجا فرض صفر را می‌پذیریم و ادعای زن (داشتن استعدادی ویژه) تایید می‌شود. پیش از آن که وارد بحث کاربردهای موضوع «مقدار پی» در فضای کسب‌و‌کار و تصمیم‌گیری داده‌محور شویم، یک مسئله جذاب و کمی چالشی از این مبحث را بررسی خواهیم کرد.سکه سالم یا خرابدر یک آزمایش آماری، پس از ۲۰ بار پرتاب سکه ۱۴ بار «رو» آمده است. حال می‌خواهیم بررسی کنیم که آیا این سکه سالم (احتمال «رو» یا «پشت» آمدن در آن یکسان باشد) است یا خیر؟ در این مسئله حاشیه خطا یا آلفا را ۵ درصد در نظر می‌گیریم.در گام اول یک آزمون آماری تعریف می‌کنیم؛فرض صفر: این سکه سالم است و احتمال «پشت» یا «رو» آمدن در آن یکسان استفرضیه جایگزین: این سکه اُریب است و متمایل به «رو» آمدن است.اکنون باید «مقدار پی» را محاسبه کنیم. با توجه به فرضیه جایگزین که سکه را اُریب و متمایل به «رو» آمدن می‌داند، «P-Value» برابر احتمال آن است که در ۲۰ بار پرتاب سکه حداقل ۱۴ بار «رو» بیاید. بنابراین «پی مقدار» به شکل زیر خواهد بود:و احتمال حاصل برابر خواهد بود:لازم به ذکر است که مقدار به‌دست‌آمده برای آزمون فرضیه یک‌سویه است و اگر آزمون فرضیه را دوسویه در نظر بگیریم، یعنی فرضیه جایگزین صرفا آن باشد که سکه اُریب است و از تمایل آن به وجه خاصی سخن نگوییم مقدار «P-Value» دو برابر خواهد شد، چرا که باید مشابه همین حالت را برای «پشت» آمدن نیز حساب کنیم.نتیجه‌گیریبا توجه به اینکه در این مسئله «P-Value» بیشتر از ۰.۰۵ است. در حقیقت «مقدار پی» این مسئله در دسته بنفش تابع نرمال قرار می‌گیرد و اگر بخاطر داشته باشید ۹۵ درصد داده‌ها در دسته قرمز و بنفش قرار داشتند. بنابراین می‌توان گفت که اتفاق عجیبی رخ نداده است و فرض صفر مبنی سالم بودن سکه صحیح است.جالب است بدانید که اگر در پرتاب ۲۰ سکه ۱۵ بار «رو» می‌آمد، «مقدار پی» برابر ۰.۰۴۱۴ می‌شد و در دسته سبز قرار می‌گرفت و باتوجه به اینکه کمتر از ۰.۰۵ می‌شد، آن‌گاه ادعای سالم بودن سکه رد می‌شد و فرضیه اُریب بودن سکه به سمت وجه «رو» تایید می‌شد. به طور کلی استفاده از مفهوم «پی مقدار» در بحث «معنا‌داری آماری» ابزار فوق‌العاده‌ کارآمدی برای صحت‌سنجی یک ادعا است و استفاده از آن یکی از اصول اولیه «تصمیم‌گیری داده‌محور» است. تصمیم‌گیری داده‌محور و استفاده از «معناداری آماری» در کسب‌وکاریکی از مهم‌ترین وظایفی که مدیران محصول و مدیران ارشد در فضای کسب‌وکار با آن روبه‌‌رو هستند، تصمیم‌گیری است. این افراد روزانه با ادعاها و فرضیات مختلفی روبه‌رو هستند و باید از صحت و درستی آن‌ها اطمینان یابند تا بتوانند بهترین تصمیم را اتخاذ کنند. بدیهی است که مجموعه‌ای از تصمیم‌ها و استراتژی‌های غلط توسط مدیران محصول و ارشد به تدریج باعث شکست و در نهایت از بین رفتن سازمان خواهد شد. بنابراین در اینجا بحثی به نام «تصمیم‌گیری داده‌محور» مطرح می‌شود، تا خطای تصمیم‌گیری مدیران را به حداقل برساند.یکی از متداول‌ترین روش‌ها برای صحت‌سنجی و ارزیابی ادعاها استفاده از «آزمون فرضیه آماری» است. به طور مثال ادعای زیر را می‌توان با «آزمون فرضیه آماری» صحت‌سنجی کرد:مدیر یک فروشگاه آنلاین ادعا می‌کند که با ارائه تخفیف‌های بیشتر می‌تواند ارزش طول عمر مشتریان (CLV) را افزایش دهد.یک باشگاه ورزشی در حال بستن قرارداد با یک تولیدی لباس است. این تولیدی لباس مدعی آن است که تنها ۲ درصد از تولیدات آن‌ها دچار نقص و ایراد است.یک شرکت سرمایه‌گذاری به شما پیشنهاد می‌کند که به جای سرمایه‌گذاری در بازار فارکس در بازار رمزارزها سرمایه‌گذاری کنید، چرا که در سه سال گذشته بازدهی بیشتری داشته است.مدیر مارکتینگ یک شرکت پوشاک باور دارد که سوییشرت‌‌ها و هودی‌های شرکت بین مردان ۱۵ تا ۳۰ سال طرفداران بیشتری دارد، بنابراین باید یک کمپین تبلیغاتی اختصاصی برای جذب این رده سنی انجام داد.مشاور مدیریت یک شرکت نرم‌افزاری توصیه می‌کند که توسعه‌دهندگان کم‌تجربه و مبتدی شرکت در دوره‌های مجزای آموزشی شرکت کنند تا در مدت زمان کمتری بتوانند باتجربه و ارشد شوند.هر یک ادعاهای ذکرشده را می‌توان با جمع‌آوری داده‌های مناسب و انجام آزمون فرضیه آماری صحت‌سنجی کرد. ایجاد فرهنگ «تصمیم‌گیری داده‌محور» در یک سازمان علاوه‌ بر اینکه باعث افزایش بازدهی و بهبود عملکرد تک‌تک بخش‌های مجموعه می‌شود، بلکه در طولانی‌مدت فرهنگ شرکت را نیز دگرگون خواهد کرد. افراد شرکت به صورت ناخودآگاه به دنبال داده‌ها و شواهد برای ادعاهای خود خواهند گشت و از بیان ادعاها‌ي شهودی و تصمیم‌گیری احساسی پرهیز خواهند کرد. جلیل علیزاده جلیل علیزاده Mon, 29 Nov 2021 12:55:18 +0330 چگونه با یک سکه نتیجه انتخابات را درست پیش‌بینی کنیم؟ https://virgool.io/Sahab-EPM/election-p8o61adrizpm پیش‌بینی رویدادها و وقایع، یکی از مهارت‌هایی است که از همان نخستین روزهای تشکیل جامعه انسانی تا به امروز برای بشریت اهمیت داشته است. این مهارت به‌ قدری برای انسان‌ها جذابیت داشته که افرادی شغل «پیشگویی» را برای خود برگزیده و از این راه، درآمد و طرفداران زیادی پیدا کرده بودند. نام تعدادی از آن افراد مانند «نوستراداموس» هنوز هم به گوش می‌رسد و بعد از گذشت قرن‌ها، همچنان عده‌ای به‌ دنبال بررسی تحقق یا عدم تحقق پیشگویی‌های وی هستند.در دنیای کسب‌وکار نیز پیشگویی و داشتن آگاهی نسبت به وقایع آینده یک هنر مهم به‌ شمار می‌آید. به‌ طور کلی به هر میزان بصیرت و آگاهی یک کسب‌‌وکار نسبت به آینده واقع‌بینانه‌تر باشد، موفق‌تر خواهد بود و پله‌های رشد را با سرعت بیشتری طی خواهد نمود. چرا که متناسب با اتفاقات آینده یک مجموعه‌ استراتژی تدوین می‌کند. به همین دلیل اکنون بیشتر شرکت‌ها به علوم داده توجه بیشتری نشان داده و اکثر کسب‌‌وکارها، سرمایه‌گذاری‌‌های کلانی برای داده‌محور شدن سازمان خود انجام می‌دهند. در بسیاری از شرکت‌ها نیز دپارتمان علوم داده ایجاد شده و تعداد زیادی دانشمند داده استخدام شده‌اند.بدیهی است که پیش‌بینی‌های جهان امروز که به کمک علوم داده صورت می‌گیرد، تفاوت ماهیتی با پیش‌بینی‌های چند قرن قبل دارد. پیش‌بینی و ایجاد بصیرتی که به کمک علوم داده صورت می‌پذیرد، ماهیت علمی داشته و مبتنی بر تحلیل و بررسی یک مجموعه داده است.حال کمی از فضای کسب‌وکار فاصله گرفته و وارد فضای زردتری به نام انتخابات شویم. پیش‌بینی این که چه کسی پیروز یک کارزار انتخاباتی خواهد بود، یکی از جذاب‌ترین کارهایی است که افراد انجام می‌دهند. بسیاری از موسسات آماری و تحقیقاتی، همه ساله پیش از برگزاری یک انتخابات، شروع به جمع‌آوری داده و تحلیل آن کرده تا بتوانند پیروز انتخابات را پیش از برگزاری رای‌گیری اعلام کنند. در بسیاری از موارد، سیاستمداران مبالغ گزافی تقدیم شرکت‌های آماری کرده تا گزارش‌های لحظه‌ای از وضعیت اقبال عمومی آن‌ها تهیه کنند و نامزد موردنظر بر اساس این گزارش‌ها، کمپین‌های تبلیغاتی خود را پیش ببرد.چالش بزرگ جمع‌آوری دادهدر پیش‌بینی‌ انتخابات یک چالش بزرگ برای اکثر آژانس‌ها و موسسات جمع‌آوری داده وجود دارد و آن هم وجود داده‌های اشتباه به مقدار زیاد است. این اتفاق، در نهایت منجر به نتیجه‌گیری اشتباه خواهد شد. یکی از بزرگ‌ترین نمودهای این موضوع در انتخابات ریاست جمهوری سال ۲۰۱۶ ایالات متحده اتفاق افتاد. در آن سال رقابت میان دونالد ترامپ و هیلاری کلینتون برقرار بود. آن زمان تقریبا تمام نظرسنجی‌ها و رسانه‌های معتبر هیلاری را فاتح بلامنازغ این کارزار می‌دانستند.این پیش‌بینی برای اکثریت مردم نیز باور پذیر بود؛ چراکه یک طرف ماجرا ترامپی ایستاده بود فارغ از هرگونه تجربه سیاسی و مواضعی به شدت تند و افراطی را در کمپین‌های انتخاباتی خود اتخاذ کرده بود و در سوی دیگر، کلینتون بیش از سه دهه حضور مستمر در سیاست را تجربه کرده و پیشتر نیز سکان وزارت امور خارجه ایالات متحده را برعهده داشت. با تمام این تفاسیر، پیروزی کلینتون بر ترامپ اتفاق چندان عجیبی به‌ نظر نمی‌رسید. بسیاری از رسانه‌های معتبر نظیر نیویورک تایمز شانس برتری کلینتون بر ترامپ را ۸۵ به ۱۵ می‌دانستند.حیرت جهان!با شروع شمارش آرا، بهت و حیرت مردم جهان را فرا گرفته بود. در حالی که خوشبین‌ترین موسسات آماری نیز شانسی برای ترامپ قائل نبودند، او یک به یک آرای الکترال ایالات‌ها را مال خود کرده و خیلی سریع به ۲۷۰ الکترال لازم برای کسب عنوان ریاست جمهوری ایالات متحده دست پیدا کرد.در پایان رای‌گیری، ترامپ ۳۰۶ به ۲۳۲ کلینتون را شکست داد تا یکی از غیرمنتظره‌ترین اتفاقات تاریخ انتخابات ایالات متحده آمریکا رقم بخورد. این شکست، بسیاری از متخصصان حوزه علوم داده را شوکه کرد. تا به امروز، مقالات متعددی درباره عوامل موثر بر رخ دادن این فاجعهٔ آماری نوشته و ابعاد مختلف این اتفاق بررسی شده است.به‌طور کلی، یکی از مهم‌ترین دلایل انحراف نتایج بسیاری از نظرسنجی‌های پیش از رای‌‌گیری این است که افراد به دلایل مختلف کاندیدای موردنظر خود را اعلام نمی‌کنند. بنابراین یا در نظرسنجی شرکت نکرده و یا گزینه‌های دیگری را به ‌عنوان منتخب خود اعلام می‌کنند. این در حالی است که چنین شخصی در روز انتخابات و پای صندوق به همان فرد موردنظرش (که نامش را اعلام نمی‌کرد) رای می‌دهد. حال اگر درصد قابل توجهی از جامعه چنین کاری را انجام دهند، بدیهی است که نتایج نظرسنجی به انحراف کشیده شده و فاجعهٔ آماری شبیه سال ۲۰۱۶ رخ می‌دهد.طرح مسئلهما در این مقاله قصد نداریم که دلایل شکست پیش‌بینی‌های انتخابات ۲۰۱۶ را بررسی کنیم. شاید در آینده در یک مقاله، مفصل به دلایل آماری و عوامل منجر به این اتفاق بپردازیم. در این مقاله قصد داریم با یک بازی ریاضی-آماری آشنا شویم.همان‌طور که اشاره شد، یکی از مهم‌ترین عواملی که منجر به اشتباه در پیش‌بینی می‌شود، داده‌های اشتباهی است که به‌ صورت انبوه وارد نظرسنجی می‌شود. حال اگر بتوانیم به طریقی و با ایجاد تغییراتی در نحوه جمع‌آوری داده، کاری کنیم که دقت داده‌های دریافتی به ‌طور قابل توجی بالا رود، در این صورت احتمالا پیش‌بینی ما از نتیجه انتخابات نیز صحیح خواهد بود. در ادامه مقاله، به بررسی چند مثال از این مدل جمع آوری داده می‌پردازیم.جنگل رویاییدر یک جنگل دورافتاده که ۲۰۰ حیوان در آن زندگی می‌کنند، انتخاباتی به‌ منظور مشخص کردن ریاست جنگل در جریان است. «درخت آموزگار» و «گراز زره‌پوش» نامزدهای اصلی این انتخابات هستند. «درخت آموزگار» سال‌ها مشغول تعلیم اهالی جنگل بوده و اعتقاد دارد که صلح و تعامل باید میان تمام اعضای جنگل و میان دیگر جنگل‌ها برقرار باشد.از سوی دیگر «گراز زره‌پوش» فردی خشن است و عقایدی جنگ‌جویانه دارد، او معتقد است که باید بخش عظیمی از منابع را صرف سرمایه‌گذاری در حوزه نظامی کرد و در صورت امکان به دیگر جنگل‌ها حمله و منابع آن‌ها را تصاحب کرد. در این میان یک آژانس سری که در جنگل به‌ طور مخفیانه فعالیت می‌کند، به ما ماموریت می‌دهد تا پیروز انتخابات را پیش از برگزاری پیش‌بینی کنیم. در صورتی که پیش‌بینی ما اشتباه باشد، جانمان در خطر است!بنابراین تصمیم می‌گیریم تا با پرسش از تک تک اعضای جنگل، قدرت پیش‌بینی پیروز واقعی انتخابات را به دست آوریم. هنگامی که از افراد درباره نامزد موردنظرشان می‌پرسیم، شرایط زیر برقرار خواهد بود:در صورتی که فرد مایل به رای دادن به «درخت آموزگار» باشد، او را به عنوان نامزد موردنظر خود انتخاب می‌کند.در صورتی که فرد مایل به رای دادن به «گراز زره‌پوش» باشد، احتمال دارد نام «درخت آموزگار» را به ما بگوید (از شانس وقوع این رخداد اطلاعی نداریم؛ اما می‌دانیم که این اتفاق به صورت متناوب رخ می‌دهد)بدین ترتیب، همان‌طور که مشخص است مهم‌ترین چالش ما جمع‌آوری داده صحیح از اهالی جنگل است. بنابراین باید روشی را برگزینیم که در آن نظر واقعی اهالی را بدون آن که آن فرد را وادار به بیان مستقیم آن کنیم، متوجه شویم. به بیان بهتر باید یک زبان واسط میان خودمان و فرد تعریف کنیم تا فرد پاسخ سوال ما را به آن زبان واسطه بدهد و در سوی دیگر، ما بتوانیم پاسخ سوال را متوجه شویم.بدین ترتیب در همان حال که ما اطلاعات صحیح را دریافت می‌کنیم، آن فرد نیز دیدگاه شخصی خود را به‌ صورت علنی بیان نکرده است و حریم شخصی او حفظ می‌شود. اما برای حل این مشکل چه استراتژی‌ای باید در نظر گرفت؟یک سکه و دنیای احتمالبرای حل این مشکل کافی است از یک سکه کمک بگیریم! می‌دانیم که در هر سکه فضای نمونه دو حالت دارد: «شیر» یا «خط» که بعضی آن را «رو» و «پشت» نیز می‌نامند. بنابراین کافی است تا به سراغ هریک از اهالی جنگل رفته و با دادن یک سکه به او از وی بخواهیم بازی زیر را در خانهٔ خود (بدون حضور ما) انجام داده و نتیجه را به ما اعلام کند. قوانین بازی به شرح زیر است:اگر سکه «شیر» آمد، نام آن فردی را که مایل به رای دادن به او هستید، اعلام کنید.اگر سکه «خط» آمد، نام «گراز زره‌پوش» را اعلام کنید.همان‌طور که اشاره شد، بزرگ‌ترین مشکل جمع‌آوری داده در انتخابات این است که تعدادی از افراد با وجود آن‌ که مایل به رای دادن به «گراز زره‌پوش» بودند، به دلایل مختلف از ابراز تمایل خود به صورت علنی خودداری می‌کردند. با این روش این مشکل حل می‌شود؛ چراکه وقتی یک فرد نام «گراز زره‌پوش» را به زبان می‌آورد، مشخص نیست که آیا این امر به دلیل تمایل قلبی وی بوده است، یا به این علت است که سکه «خط» آمده است. از آن‌جایی که ما از نتیجه شیر یا خط خبر نداریم، افراد با خیال راحت می‌توانند، نتیجه‌ی بازی را به ما اعلام کنند. پس از جمع‌آوری داده‌ها نتیجه به شکل زیر شد:مجموع آرا: ۲۰۰تعداد رأی «گراز زره‌پوش» = ۱۳۰تعداد رأی «درخت آموزگار» = ۷۰اکنون زمان آن است که ریاضیات وارد میدان شود. می‌دانیم که هنگام پرتاب یک سکه، احتمال «شیر» یا «خط» آمدن برابر و هر یک برابر ۲/۱ (یک دوم) است. بنابراین اگر یک سکه را ۲۰۰ بار پرتاب کنیم، تقریبا می‌توان گفت که ۱۰۰ بار «شیر» و ۱۰۰ بار «خط» خواهیم داشت. در حقیقت داریم:به خاطر دارید که قانون دوم بازی آن بود که اگر سکه «خط» آمد، فرد باید نام «گراز زره‌پوش» را اعلام کند. بنابراین در ۱۰۰ حالت افراد بدون آن که لزوما تمایلی به «گرازه زره‌پوش» داشته باشند نام او را اعلام کرده‌اند. بنابراین باید از ۱۳۰ رأی «گراز زره‌پوش» ۱۰۰ عدد کسر کنیم؛ چراکه در این ۱۰۰ رأی هیچ اختیاری در میان نبوده است و فرد تنها به منظور رعایت قاعده بازی نام «گراز زره‌پوش» را اعلام کرده است. پس در حقیقت تنها ۳۰ نفر از افراد واقعا به «گراز زره‌پوش» رأی داده‌اند. این در حالی است که ۷۰ رای «درخت آموزگار» همگی واقعی بوده است؛ چراکه طبق قاعده بازی، در حالتی که پس از پرتاب سکه نتیجه «شیر» آمده است، باید به نامزد مورد علاقه خود رأی بدهند. بنابراین پس از اعمال این قاعده خواهیم داشت:تعداد رأی «درخت آموزگار» : ۷۰تعداد رأی «گراز زره‌پوش» : ۳۰با توجه به فاصله معناداری که میان تعداد رأی «درخت آموزگار» و «گراز زره‌پوش» وجود دارد، با قطعیت می‌توان پیش‌بینی کرد که در روز انتخابات «درخت آموزگار» پیروز خواهد بود. بدین ترتیب توانستیم بدون آن‌ که به‌ صورت مستقیم وارد حریم شخصی افراد شویم، اطلاعات مورد نیاز خود را از آن‌ها دریافت و نتیجهٔ انتخابات را پیش‌بینی کنیم.ممکن است این سوال برای عده‌ای پیش بیاید، که ممکن است حالتی وجود داشته باشد که فردی واقعا تمایل به رأی دادن به «گراز زره‌پوش» را داشته باشد، اما به علت آن‌ که سکه «خط» آمده است، رای او عملا در نظر گرفته نشده است. چند پاسخ برای این سوال وجود دارد؛اول آن‌ که ما به دنبال آن هستیم تا پیروز انتخابات را مشخص کنیم و این که هرکس دقیقا چه میزان رأی می‌آورد، مقصود ما نیست و اساسا توانایی انجام آن را به صورت دقیق نداریم. دوم آن که این حالت در شرایط معکوس نیز صدق می‌کند؛ یعنی عده‌ای طرفدار «درخت آموزگار» هستند، اما به این دلیل که سکه «خط» آمده، نظرشان حذف شده است. بنابراین می‌توان گفت که این حالت‌ها در نتیجهٔ نهایی پیش‌بینی ما چندان تاثیرگذار نخواهد بود و پیش‌بینی ما صحیح است. در ادامه این مقاله، به کاربرد این تکنیک در فضای مدیریت محصول خواهیم پرداخت.نظرسنجی و معرفی محصولهُلدینگ شما به تازگی از یک محصول جدید رونمایی کرده است. شما مدیریت این محصول را بر عهده دارید و پس از گذشت چند وقت، برای این که آگاهی و بصیرت بیشتری دربارهٔ نظر کاربران داشته باشید، تصمیم می‌گیرید تا یک پرسشنامه طراحی کنید که در آن پاسخ سوالات دو گزینه‌ای است.جهت آن که افراد بیشتری در نظرسنجی شرکت کنند و مشارکت بالا رود، هُلدینگ به هر فردی که نظرسنجی را تا انتها انجام دهد، ۱۰ دلار پاداش می‌دهد؛ اما اعطای این پاداش ممکن است افراد را ناخودآگاه به سمت آن سوق دهد که گزینه‌هایی با بار مثبت را انتخاب کنند و از انتخاب گزینه‌های انتقادی پرهیز کنند.از طرفی اگر این ۱۰ دلار به افراد داده نشود، ممکن است مشارکت کاهش یافته و افراد، با دقت پایینی سوالات را مطالعه کنند. بنابراین باید استراتژی‌ای اتخاد کرد که علاوه‌ بر افزایش انگیزه افراد، دقت پاسخ‌ها را نیز افزایش داد. بنابراین شما به عنوان مدیرمحصول، تصمیم می‌گیرید بازی زیر را طراحی کنید.همان‌طور که گفته شد، پاسخ هر سوال دو گزینه‌ای است. بدیهی است که یک گزینه بار مفهومی مثبت و یک گزینه بار مفهومی انتقادی و منفی دارد. اکنون شما در کنار گزینه‌هایی که بار مفهومی مثبت دارند علامت «+» را قرار داده و به طریق مشابه، در کنار گزینه‌هایی با بار مفهومی انتقادی علامت«–» را قرار می‌دهید. در ابتدای نظرسنجی از فرد می‌خواهید که یک سکه در دست بگیرد و پاسخ سوالات نظرسنجی را به این شیوه بدهد:پیش از آن که سوال را بخواند، یک سکه بیندازددر صورتی که سکه «خط» آمد، بدون آن که صورت سوال را بخواند، گزینه مثبت را انتخاب کند.در صورتی که سکه «شیر» آمد، صورت سوال را تا انتها خوانده و گزینهٔ مدنظر خود را انتخاب کند.بدین ترتیب، احتمال آن را که افراد به سمت انتخاب گزینه مثبت سوق داده شوند، کاهش داده‌اید. اکنون می‌توانید نظارت دقیق‌تری بر نتیجهٔ نظرسنجی داشته باشید. به طور مثال پاسخ به یکی از سوالات که دو هزار نفر به آن پاسخ داده‌اند به شکل زیر بوده است:تعداد افراد شرکت‌کننده: ۲۰۰۰ نفرتعداد رأی به گزینه با بار معنایی مثبت: 1300 نفرتعداد رأی به گزینه با بار معنایی منفی و انتقادی: 700 نفربه مانند دفعه قبل عمل می‌کنیم. می‌دانیم که در دو هزار بار پرتاب سکه، حدودا هزار بار سکه «شیر» و هزار بار «خط» خواهد آمد. در حقیقت داریم:از آن‌جایی که طبق شیوه‌نامه اگر سکه خط بیاید افراد گزینه مثبت را انتخاب می‌کنند (بدون آن که حتی صورت سوال را بخوانند) از آن 1300 رای مثبت، تعداد ۱۰۰۰ عدد کسر می‌کنیم. اکنون خواهیم داشت:تعداد رأی به گزینه با بار معنایی مثبت: 300 نفرتعداد رأی به گزینه با بار معنایی منفی و انتقادی: 700 نفربنابراین به ‌طور کلی می‌توان نتیجه گرفت که بر خلاف چیزی که در ابتدا نشان داده می‌شد، نظر اکثریت افراد نسبت به آن سوال، منفی بوده و نیاز است تا به دنبال علت این اتفاق بگردیم. بدین ترتیب، علاوه‌ بر این که با دادن پاداش مالی، میزان مشارکت در نظرسنجی افزایش یافت، با ایجاد این بازی ساده دقت پاسخ‌ها نیز بهبود چشمگیری داشته و در آینده، می‌توان تصمیم‌گیری واقع‌بینانه‌تری متناسب با نتایج نظرسنجی انجام داد.جمع‌بندیهمان‌طور که اشاره شد، یکی از مهم‌ترین چالش‌هایی که اکثر شرکت‌های آماری در نظرسنجی‌های مردمی با آن روبه‌رو هستند این است که افراد نظر واقعی خود را بیان نمی‌کنند. همین امر باعث به انحراف کشیده شدن نتیجه نظرسنجی می‌شود. بنابراین، پیش‌بینی‌ها و نتیجه‌گیری‌ها معمولا با آن‌چه در واقعیت رخ می‌دهد، تفاوت چشمگیری دارد. اما با انجام این روش ساده به کمک یک سکه که به نوعی یک بازی ریاضی-آماری به حساب می‌آید، در عین این که فرد احساس می‌کند حریم شخصی‌اش حفظ شده و راحت‌تر اعتماد می‌کند، می‌توانیم دقت خروجی نظرسنجی را به شکل چشم‌گیری افزایش دهیم. جلیل علیزاده جلیل علیزاده Mon, 13 Sep 2021 17:49:44 +0430 وقتی دقت اندازه‌گیری، شما را گول می‌زند! https://virgool.io/Sahab-EPM/%D9%88%D9%82%D8%AA%DB%8C-%D8%AF%D9%82%D8%AA-%D8%A7%D9%86%D8%AF%D8%A7%D8%B2%D9%87-%DA%AF%DB%8C%D8%B1%DB%8C-%D8%B4%D9%85%D8%A7-%D8%B1%D8%A7-%DA%AF%D9%88%D9%84-%D9%85%DB%8C-%D8%B2%D9%86%D8%AF-xgijzon2fg33 احتمالا شما هم داستان‌هایی درباره جویندگان طلا شنیده‌اید. در اکثر این داستان‌ها افراد به کمک دستگاه‌هایی به نام طلایاب، گنج‌های عظیمی می‌یابند و به اصطلاح یک‌شبه پولدار می‌شوند.یکی از دوستان شما دستگاه طلایاب دارد. شما نیز تصمیم گرفته‌اید به جرگه‌ی جویندگان طلا پیوسته و با دوست خود همراه شوید. بنابراین همراه با دوست خود به سراغ یک معدن رفته که در آن حدود ۱۰۰۰ سنگ وجود دارد و پیش‌بینی می‌کنید که ۱ درصد از این سنگ‌ها طلا باشد. روند کار دستگاه به شرح زیر است:این دستگاه طلا را تشخیص داده و همیشه در نزدیکی آن بوق می‌زند.این دستگاه با دقت ۹۰ درصد، می‌تواند طلا را از میان دیگر سنگ‌ها تشخیص دهد.شما و دوستتان مشغول جست‌وجو در معدن می‌شوید که ناگهان دستگاه در جلوی یکی از سنگ‌ها بوق می‌زند. در صورتی که این سنگ طلا باشد، قیمت آن در بازار چیزی حدود ۱۰۰۰ دلار است. دوست شما پیشنهاد می‌دهد که ۲۵۰ دلار به او داده و سنگ را برای خود بردارید. پیشنهاد هیجان‌انگیزی به‌ نظر می‌رسد؛ چرا که اگر سنگ طلا باشد، شما سه برابر سود می‌کنید. از طرفی دقت دستگاه طلایاب نیز بالا و احتمال طلا بودن آن سنگ زیاد است. این‌ها فکرهایی هستند که در ذهن شما می‌گذرد و در نهایت منجر به این خواهد شد که ۲۵۰ دلار را به دوستتان پرداخت کرده و سنگ را برای خود بردارید.حال بد نیست کمی از دنیای جویندگان طلا فاصله گرفته، به جهان زیبای ریاضیات بازگردیم و مسئله را موشکافانه‌تر بررسی کنیم:باتوجه به این که حدود ۱۰۰۰ سنگ در این معدن وجود دارد و ۱ درصد آن‌ها طلا است، حدودا ۱۰ سنگ طلا در این معدن وجود دارد.بنابراین در این معدن حدودا ۹۹۰ سنگ وجود دارد که ارزش مادی خاصی ندارد و با توجه به دقت ۹۰ درصدی این دستگاه در تشخیص طلا از سنگ، از این ۹۹۰ سنگ، به اشتباه برای حدود ۹۹ سنگ بوق می‌زند.باتوجه به موارد یاد شده، به احتمال زیاد اگر این دستگاه را در معدن بچرخانیم، ۱۰۹ بار بوق خواهد زد که از این بین، تنها ۱۰ بوق واقعا سنگ طلا را نشان می‌دهد. این سخن بدین معنا است که تنها ۹ درصد احتمال دارد سنگی که بابت آن ۲۵۰ دلار پول داده‌ایم، طلا باشد و بدین ترتیب، معامله چندان خوبی انجام نداده‌ و به احتمال زیاد ۲۵۰ دلار پول بی‌زبان را بابت یک تکه سنگ بی‌ارزش هدر داده‌ایم. اگر بخواهیم جمع‌بندی تمام این صحبت‌ها را به صورت ریاضی نشان دهیم، خواهیم داشت:پس از بررسی این مسئله از نگاه ریاضیات، متوجه شدیم که پارامتر «دقت اندازه‌گیری» به تنهایی برای دست‌یابی به نتیجه قابل اطمینان کافی نیست و باید موارد دیگری را نیز در نظر گرفت. این بحث در علم آمار و علوم داده با نام «پارادوکس مثبت کاذب» مطرح می‌شود. این پارادوکس معمولا زمانی رخ می‌دهد که احتمال وقوع رخداد از دقت خطای ابزاری که با آن رخداد را می‌سنجیم، کمتر باشد. برای مثال در مسئله «جویندگان طلا» ما با ابزاری با دقت ۹۰ درصد (خطا ۱۰ درصد) به دنبال بررسی رخدادی هستیم که احتمال وقوع آن حدود ۱ درصد است؛ بنابراین نتایجی به دست آمد که چندان قابل اطمینان نیست.آشنایی با اصطلاحاتپیش از آن‌ که به سراغ بررسی مسائل مرتبط با «پارادوکس کاذب» بپردازیم، بهتر است با چند اصطلاح کاربردی در حوزه علم آمار آشنا شویم. برای آن که انتقال مفهوم راحت‌تر شود، فرض کنید که یک تست کرونا از شما گرفته شده است. نتیجه این تست چهار حالت دارد:مثبت صحیح (True Positive): شما به ویروس کرونا واقعا مبتلا شده‌اید و نتیجه تست نیز مثبت است.مثبت کاذب (False Positive): شما به ویروس کرونا مبتلا نشده‌اید؛ اما نتیجه تست مثبت است.منفی صحیح (True Negative): شما به ویروس کرونا مبتلا نشده‌اید و نتیجه تست نیز منفی است.منفی کاذب (False Negative): شما به ویروس کرونا مبتلا شده‌اید؛ اما نتیجه تست منفی است.لازم به ذکر است که در این‌جا تست کرونا و به‌ طور کلی تست پزشکی به‌ عنوان مثال بیان شده است و این ۴ حالت، به هر رخدادی که در آن احتمالی برای وقوع خطا وجود دارد، قابل تعمیم است. در مسئله جویندگان طلا، درصد خطای مثبت کاذب دستگاه، یعنی حالتی که سنگ طلا نباشد اما دستگاه بوق بزند، ۱۰ درصد و درصد خطای منفی کاذب دستگاه، یعنی حالتی که سنگ طلا باشد اما دستگاه بوق نزند، صفر درصد بود. در ادامه این مقاله، چند مسئله دیگر از بحث «پارادوکس مثبت کاذب» را مورد برررسی قرار می‌دهیم.ویروس ناشناختهیک ویروس ناشناخته در شهری با جمعیت حدود ۱۰۰۰۰ نفر شیوع یافته و نزدیک به ۴۰ درصد از افراد را درگیر کرده است. شما به‌ عنوان مدیرمحصول بر روی توسعه کیت شناسایی این ویروس کار می‌کنید تا بتوان هرچه سریع‌تر افراد مبتلا را از افراد سالم جدا کرد. کیت شناسایی شما حدودا ۵ درصد خطای مثبت کاذب و ۰ درصد خطای منفی کاذب دارد. اکنون این کیت جهت شناسایی افراد مبتلا در شهر مورد استفاده قرار گرفته و پیش‌بینی شما از نتایج به شرح زیر است:تعداد افراد تخمینی که به بیماری مبتلا شده‌اند:تعداد نتایج آزمایشی که به اشتباه مثبت اعلام می‌شود:همان‌طور که اشاره شد، درصد خطای منفی کاذب این کیت ۰ درصد است؛ یعنی اگر کسی به بیماری مبتلا شده باشد، حتما شناسایی می‌شود. اکنون مشخص شد که نتیجه تست حدود ۳۰۰ نفر به اشتباه مثبت اعلام شده است. در نهایت می‌توان گفت در آزمایش انجام شده، نتیجه آزمایش ۴۳۰۰ نفر مثبت اعلام شده است که در این میان ۴۰۰۰ نفر از این افراد واقعا به بیماری مبتلا شده‌اند. بنابراین دقت اندازه‌گیری این کیت چیزی حدود ۹۳ درصد است که عدد قابل قبولی است و می‌توان به آن اطمینان کرد.اما این مسئله این‌جا به پایان نمی‌رسد! اکنون پس از موفقیت‌آمیز بودن نتایج کیت شناسایی شرکت شما، این کیت برای شناسایی ویروس در شهرهای دیگر نیز مورداستفاده قرار گرفته است. در یکی از این شهرها جمعیت افراد حدود ۱۰۰۰ نفر است و نزدیک به ۲ درصد از افراد این شهر کوچیک درگیر این ویروس شده‌اند. برای شناسایی افراد مبتلا شده از کیت شناسایی استفاده کردند؛ اما نتایج نامطلوبی به دست آمد. اکثریت افرادی که نتیجه‌ی تست‌شان مثبت شده بود، کوچکترین نشانه‌ای از ابتلا به ویروس نداشتند و همین امر اعتبار و کیفیت کیت طراحی شده توسط شرکت شما را زیر سوال بُرده است. با کمی حساب و کتاب می‌توانیم به نتایج زیر برسیم:تعداد افراد تخمینی که به این بیماری مبتلا شده‌اند:تعداد نتایجی آزمایشی که به اشتباه مثبت اعلام می‌شود:کاملا مشخص است که نتایج تست معتبر نیست. در حالی که تنها ۲۰ نفر در واقعیت به این ویروس مبتلا شده‌اند، کیت شناسایی نتیجه تست ۶۹ نفر را مثبت اعلام کرد، یعنی دقت این کیت حدود ۲۹ درصد است که برای یک تست پزشکی عدد بسیار پایینی به حساب می‌آید:به بیان بهتر می‌توان گفت که اگر نتیجه‌ی تست فردی در این آزمایش مثبت اعلام شود، به احتمال بیشتر از ۷۰ درصد به بیماری مبتلا نشده است! در این‌جا نیز با «پارادوکس مثبت کاذب» روبه‌رو هستیم. همان‌طور که گفته شد در شرایطی که احتمال وقوع یک رخداد از درصد خطای ابزاری که آن رخداد را می‌سنجیم کمتر باشد، نتایج به‌دست‌آمده دارای اعتبار نیست. در این‌جا درصد خطای مثبت کاذب کیت شناسایی حدود ۵ درصد است، در حالی که احتمال وقوع رخداد (ابتلا به بیماری) در شهر کوچک حدود ۲ درصد است. بنابراین نتایج به‌دست‌آمده اعتبار چندانی ندارد. اکنون شما به‌ عنوان مدیرمحصول، برای آن‌ که از وقوع اتفاقات این‌ چنینی و ورود آسیب به اعتبار شرکت خود جلوگیری کنید، برای کیت شناسایی یک شیوه‌نامه و بازه اطمینان تعریف می‌کنید تا دقیقا مشخص شود که نتایج این کیت در چه محدوده‌ای قابل اتکا است.آژیر خطردر یکی از مراکز تجاری مهم شهری با جمعیت ۱ میلیون نفر، یک دوربین و آژیر ضدتروریست نصب شده است. این آژیر خطر یک درصد خطای مثبت کاذب و یک درصد خطای منفی کاذب دارد. به عبارت بهتر می‌توان گفت:منفی کاذب: اگر دوربین مداربسته تروریستی را شناسایی کند، به احتمال ۹۹ درصد زنگ آژیر خطر به صدا در می‌آید.مثبت کاذب: در مواردی که افراد عادی از مقابل دوربین رد می‌شوند، زنگ آژیر خطر به احتمال ۹۹ درصد به صدا در نمی‌آید؛ اما ۱ درصد احتمال به صدا در آمدن زنگ آژیر وجود دارد.اکنون این سوال مطرح می‌شود که اگر روزی زنگ آژیر خطر به صدا در بیاید، چند درصد احتمال دارد که فرد تروریستی در داخل مجتمع وجود داشته باشد؟ با توجه به این که خطای مثبت کاذب و منفی کاذب این دوربین تنها ۱ درصد بوده و این دوربین از دقتی ۹۹ درصدی برخوردار است، احتمالا پاسخ اکثریت به این سوال این است، که اگر زنگ آژیر خطر به صدا در بیاید به احتمال ۹۹ درصد یک تروریست در مجتمع وجود دارد. اما برخورد با مسائل آمار-احتمال به این سادگی نیست!فرض می‌کنیم که در شهری با حدود ۱ میلیون نفر جمعیت نزدیک به ۵۰۰ تروریست وجود داشته باشد. این فرض کاملا معقول است و با داده‌های آماری-جمعیتی سازگاری دارد. اکنون به صورت سوال باز می‌گردیم، که اگر آژیر خطر به صدا درآید چند درصد احتمال دارد تروریستی داخل مجتمع باشد. برای به‌دست‌آوردن این درصد، محاسبات زیر را انجام می‌دهیم:۵۰۰ تروریست در شهر وجود دارد که اگر همگی از جلوی دوربین رد شوند، با توجه به دقت ۹۹ درصدی دوربین شناسایی، آژیر خطر ۴۹۵ بار به صدا در می‌آید:۹۹۹۵۰۰ نفر مردم عادی هستند (کل جمعیت شهر منهای افراد تروریست) اگر همگی این افراد از جلوی دوربین رد شوند، باتوجه به خطای ۱ درصدی دوربین شناسایی، آژیر خطر ۹۹۹۵ به صدا در می‌آید:بنابراین اگر تمام جمعیت شهر از جلوی این دوربین رد شوند آژیر خطر ۱۰۴۹۰ به صدا در می‌آید. این در حالی است که تنها در ۴۹۵ موارد آژیر خطر به درستی به صدا درآمده است. اکنون به‌ راحتی می‌توان محاسبه کرد که اگر آژیر خطر به‌ صدا درآمد، چند درصد احتمال دارد که یک تروریست داخل مجموعه باشد:این محاسبات بدین معنا است که اگر آژیر خطر به صدا در بیاید، به احتمال بیش از ۹۵ درصد اشتباه بوده است و تروریستی داخل مجموعه وجود ندارد. نتیجه‌ی به‌دست‌آمده با تصور ابتدایی ما تفاوت فاحشی دارد. اکثریت افراد هنگامی که از دقت ۹۹ درصدی دوربین مطلع می‌شوند، تحت تاثیر این دقت استثنایی قرار می‌گیرند و گمان می‌کنند که غالب خروجی‌های این دستگاه صحیح خواهد بود؛ اما بار دیگر به ما ثابت شد که دقت‌ اندازه‌گیری به تنهایی کافی نیست.در این مسئله، احتمال حضور یک تروریست در میان مردم شهر نزدیک به ۰.۰۵ درصد است؛ این در حالی است که خطای این دستگاه حدود ۱ درصد است. بنابراین در این مسئله بار دیگر با پارادوکس «مثبت کاذب» روبه‌رو هستیم که باعث ایجاد یک خروجی ناکارآمد شده است.تست هوشیاریمدیریت محصول یک دستگاه هوشیاری‌سنج به شما سپرده شده است. این دستگاه قرار است توسط پلیس در جهت شناسایی رانندگانی که مشروبات الکلی یا مواد مخدر مصرف کرده‌اند، مورد استفاده قرار گیرد. محصولی که توسط تیم شما توسعه داده شده است، مشخصات زیر را دارد:خطای منفی کاذب این دستگاه صفر درصد است؛ یعنی این محصول تست تمام افرادی را که مصرف مشروبات الکلی یا مواد مخدر داشته‌اند، به ‌درستی مثبت اعلام می‌کند.خطای مثبت کاذب این دستگاه حدود ۵ درصد است؛ یعنی این محصول در ۹۵ درصد مواقع تست افرادی را که مصرفی نداشته‌اند، به درستی منفی اعلام می‌کند و در ۵ درصد مواقع، به اشتباه تست این افراد را مثبت اعلام می‌کند.از آن‌جایی که شما مسلط به علوم داده هستید و پیش از آن‌ که سمت مدیریت محصول را بر عهده بگیرید، دانشمند داده بوده‌اید، کمی در رونمایی از محصول تامل به‌ خرج می‌دهید و از اداره‌ پلیس می‌خواهید که گزارشی از میزان گسترش مصرف مشروبات الکلی و موادمخدر میان رانندگان ارسال کند.پس از بررسی گزارش متوجه می‌شوید که به‌ طور میانگین از میان هر ۱۰۰۰ راننده، ۵ نفر از آن‌ها مصرف مشروبات و مواد مخدر داشته‌اند. این موضوع کمی نگران کننده است؛ چرا که اگر پلیس با محصول فعلی شما به‌ صورت رندوم از رانندگان تست بگیرد، احتمالا یک فاجعه رخ بدهد! برای درک بهتر این موضوع محاسبات زیر را انجام می‌دهیم.از هر ۱۰۰۰ نفر، ۵ نفر مصرف مشروبات و مواد مخدر داشته‌اند و با توجه به این که خطای منفی کاذب دستگاه صفر درصد است، تست این ۵ نفر مثبت خواهد شد.همان‌طور که گفته شد، خطای مثبت کاذب این دستگاه حدود ۵ درصد است. این سخن بدین معناست که از میان ۹۹۵ نفر راننده که مصرفی نداشته‌اند، به‌ طور حدودی تست ۵۰ نفر از آن‌ها مثبت خواهد شد:یعنی از میان ۵۵ تست مثبتی که در میان ۱۰۰۰ نفر اعلام شده است، تنها تست ۵ نفر به درستی اعلام شده است. این یعنی دقت این تست چیزی حدود ۹ درصد است و اگر نتیجه‌ی تست کسی مثبت شود، به احتمال بالای ۹۰ درصد مصرفی نداشته و بی‌گناه است!بنابراین واضح است که استفاده رندوم از این دستگاه به‌ شدت پرخطا خواهد بود و به اعتبار محصول شرکت شما و اداره پلیس آسیب جدی وارد خواهد کرد. برای حل این مشکل باید دایره‌ افراد را کمی محدودتر کرد. به عبارت بهتر شیوه‌نامه‌ای طراحی کرد که در آن احتمال وجود فردی که مصرف مشروبات یا مواد داشته است، از خطای دستگاه بالاتر باشد. بنابراین شیوه‌نامه‌ای را طراحی می‌کنید که در آن رفتارهایی تعریف شده که اگر راننده‌ای تعدادی از آن‌ها را انجام دهد، به احتمال ۶۰ درصد مصرف مشروبات الکلی یا مواد مخدر داشته است. بدین ترتیب خروجی دستگاه اعتبار بیشتری خواهد داشت. برای این که از این موضوع مطمئن شویم، فرض کنید یک گروه ۱۰۰ نفره راننده که مطابق شیوه‌نامه مشکوک بودند، توسط پلیس متوقف شده‌اند.باتوجه به این که احتمال مصرف داشتن در میان این افراد ۶۰ درصد است، در یک گروه ۱۰۰ نفره، حدودا ۶۰ نفر مصرف داشته‌اند، بنابراین تست این ۶۰ نفر مثبت خواهد بود:خطای کاذب دستگاه ۵ درصد است، بنابراین از میان ۴۰ نفره باقی‌مانده، به‌ طور حدودی تست ۲ نفر به اشتباه مثبت اعلام خواهد شد:اکنون از میان ۶۲ تستی که مثبت اعلام شده‌اند، تست ۶۰ نفر به‌ درستی مثبت بوده و تنها نتیجه‌ی آزمایش ۲ نفر اشتباه شده است. این سخن بدین معناست که خروجی آزمایش دقتی حدود ۹۷ درصد دارد که عدد قابل قبولی به حساب می‌آید.بنابراین مشخص شد که وجود اندکی آگاهی نسبت به فضای نمونه، چه تاثیر شگرفی بر خروجی می‌گذارد. البته موضوع آگاهی داشتن نسبت به فضای نمونه، خود یک بحث طولانی است که در مقالات بعدی به‌ صورت متمرکز به آن خواهیم پرداخت.جمع‌بندیبا توجه به مسائلی که مورد بررسی قرار گرفت، مشخص شد که دقت اندازه‌گیری یک دستگاه به‌ تنهایی نمی‌تواند ضامن قابل اتکا بودن خروجی باشد و فضای نمونه‌ای که بررسی می‌کنیم، اهمیت چه بسا بیشتری نسبت به دقت دستگاه دارد. برای جلوگیری از وقوع «پارادوکس مثبت کاذب» باید شرایطی را فراهم کرد که در آن احتمال وقوع رخداد از خطای دستگاه بالاتر باشد. در مسئله «تست هوشیاری» با انجام چنین کاری، دقت خروجی به‌ طور شگفت‌انگیزی افزایش یافت. جلیل علیزاده جلیل علیزاده Sun, 08 Aug 2021 10:58:21 +0430 وقتی که آمار و ارقام حقیقت را نمی‌گویند! https://virgool.io/Sahab-EPM/simpson-paradox-moacv7nmfsl8 پارادوکس سیمپسون چیست؟آخر هفته است و قرار است به‌ همراه یکی از دوستانتان به رستوران رفته و شام را آن‌جا در کنار یکدیگر میل کنید. شما از کیفیت رستوران‌های اطراف خود اطلاعی ندارید؛ بنابراین تصمیم می‌گیرید سراغ یکی از سایت‌ها یا اپلیکیشن‌های بررسی رستوران رفته و با مقایسه‌ی امتیازها، تصمیم بگیرید که شام را کجا بخورید. در نهایت تصمیم می‌گیرید تا یکی از دو رستوران زیر را انتخاب کنید. نتیجه رضایت‌مندی مشتریان این رستوران‌ها در جدول زیر داده شده است:احتمالا شما پس از مشاهده این بررسی، رستوران آبی را انتخاب می‌کنید. چرا که درصد رضایت آن بالاتر بوده است. (تعداد شرکت‌کنندگان هر دور رای‌گیری برابر بوده است.)حال کمی از فضای رستوران و شام آخر هفته فاصله گرفته و مسئله را از چشم یک دانشمند داده بررسی کنیم. در گام اول افرادی که در این نظرسنجی شرکت کرده‌اند را به دو دسته‌ی «زن» و «مرد» تقسیم کرده و مسئله را تفکیک می‌کنیم. اکنون جدول زیر به‌دست می‌آید:اتفاق جالبی در حال رخ دادن است! رستوران قرمز که رضایت کلی کمتری نسبت به رستوران آبی داشت، از هر دو دسته مردان و زنان درصد رضایت بیشتری را کسب کرده است. همچنین دقت داشته باشید که تعداد کل افرادی که هر رستوران از آن‌ها رضایت‌سنجی کرده، مساوی و برابر ۴۰۰ نفر است.این پدیده را در ریاضیات پارادوکس سیمپسون می‌نامند. این موضوع در علم آمار-ریاضی اهمیت بسیار زیادی دارد؛ چرا که دقیقا در جایی که شما گمان می‌کنید داده‌محور حرکت کرده و مبتنی بر نتایج به‌دست‌آمده یک گزینه را انتخاب کرده‌اید، دچار خطا شده‌اید. در مثال بالا، اگر درصد رضایت را به‌ عنوان ملاک برتری رستوران قرار دهیم، رستوران قرمز هم در میان مردان و هم در میان زنان درصد بالاتری را کسب کرده است؛ اما درصد رضایت کل آن از رستوران آبی کمتر است.چه زمانی پارادوکس سیمپسون رخ می‌دهد؟به‌ طور کلی پارادوکس سیمپسون هنگامی رخ می‌دهد که دو رویداد را به چند دسته تقسیم کنیم و وزن دسته‌های متناظر یکسان نباشد. همچنین این پارادوکس زمانی رخ می‌دهد که متغیر پنهانی در رویداد وجود داشته و ما آن را هنگام بررسی ریاضیاتی در نظر نگرفته‌ایم. پارادوکس سیمپسون به ما نشان می‌دهد که استفاده‌ی محض از داده‌ها به تنهایی کافی نبوده و باید داستان پشت‌پرده‌ی داده‌ها را دانست تا بتوان به تصمیم درست رسید. به‌ عبارت دیگر، اگر می‌خواهیم داده‌محور عمل کنیم، نیاز است تصویر کاملی از داده‌های موجود نظیر نحوه‌ی گردآوری داده‌ها، عوامل موثر بر داده‌ها، متغیرهای پنهان و ... داشته باشیم. در غیر این صورت ممکن است، با تحلیل داد‌ه‌های ناقص، تصمیمی بگیریم که ما را به اشتباه و گمراهی بکشاند.در ادامه‌ی این مقاله چند مثال واقعی‌تر از تاثیر پارادوکس سیمپسون در حوزه‌های مختلف را مورد بررسی قرار داده و با اهمیت آن آشنا می‌شویم. در پایان نیز نگاهی جبری‌تر به بحث از منظر ریاضیات می‌اندازیم.کدام روش درمانی موثرتر است؟فرض کنید دو روش درمانی A و B برای بیماری سنگ کلیه وجود دارد. به این دو روش درمانی به عنوان محصول نگاه کرده و میزان اثربخشی هر یک را بررسی می‌کنیم تا در نهایت تصمیم بگیریم که از کدام یک استفاده کنیم. به‌ همین منظور از دستیار خود خواسته‌ایم که گزارشی از موفقیت‌آمیز بودن این دو روش درمانی در مقایسه با یکدیگر آماده کند. دستیار موفقیت‌آمیز بودن این دو روش درمانی را در ۳۵۰ عمل کلیه ارائه می‌دهد.آیا این اطلاعات برای تصمیم‌گیری در رابطه با استفاده از روش درمانی کافی است؟ قطعا خیر! این اطلاعات به‌ شدت ناقص و گمراه‌کننده است. می‌دانیم که عمل‌های سنگ کلیه به دو گروه سنگ‌های کوچک وسنگ‌های بزرگ تقسیم می‌شود. لازم به ذکر است، افرادی که سنگ‌های کوچک دارند، به طور کلی شانس موفقیت بیشتر و حال عمومی بهتری دارند. در سوی دیگر عمل سنگ‌های بزرگ سخت‌تر و پُر ریسک‌تر است و افرادی که به این نوع سنگ دچار هستند، حال عمومی‌شان نسبتا وخیم است. اکنون اطلاعات اولیه‌ را به‌ شکل دسته‌بندی‌شده بررسی می‌کنیم:نتایج بدست آمده شگفت‌انگیز است! روش درمانی A که در ابتدا ناکارمدتر از روش درمانی B به نظر می‌رسید، در هر دو عمل سنگ‌های کوچک و بزرگ موفقیت‌آمیزتر بوده است. حال این سوال پیش می‌آید که چرا درصد موفقیت روش B به‌ صورت تجمیعی بالاتر از روش A است؟ پاسخ این سوال در همان نکته‌ای است که در ابتدای مقاله ذکر کردیم؛ یعنی متغیر و دلیل پنهانی که آن را در نظر نگرفته‌ایم.روش درمانی A هجومی‌تر از روش B است؛ بنابراین بیشتر عمل‌های سنگ بزرگ با این روش انجام می‌شود. از سوی دیگر افرادی که سنگ کلیه‌ی بزرگ دارند، حال جسمی‌شان وخیم است و همین امر شانس موفقیت‌آمیز بودن عمل آن‌ها را مستقل از روش درمانی پایین می‌آورد. اگر به جدول داده‌ها دقت کنید، واضح است که از ۲۸۹ عمل موفقیت‌آمیز روش B، تعداد ۲۳۴ تا از آن‌ها بر روی افراد با سنگ کلیه‌ی کوچک انجام شده است. همین امر سبب شده است که در محاسبه‌ی درصد تجمیعی، روش درمانی B در نگاه اول روش درمانی مناسبت‌تری نسبت به روش درمانی A به حساب بیاید.حال این‌جا یک سوال محصولی-بازاریابی پیش می‌آید؛ به‌نظر شما با توجه به موفقیت‌آمیز بودن روش درمانی A در عمل سنگ‌های کوچک نسبت به روش درمانی B در این گونه عمل‌ها از کدام روش درمانی باید استفاده کرد؟البته با توجه به اطلاعات فعلی نمی‌توان پاسخ دقیقی به این سوال داد؛ اما با فرض این که روش درمانی B پُرهزینه‌تر و محدودتر بوده و وضعیت جسمی افراد با سنگ کلیه‌ی بزرگ، بسیار وخیم‌تر از افراد با سنگ کلیه‌ی کوچک است، برای انجام عمل‌های سنگ کلیه‌ی کوچک بهتر است که از روش درمانی B استفاده شود؛ چراکه با وجود آن‌که درصد موفقیت آن از روش A پایین‌تر است، به‌ طور کلی شانس موفقیت در این گونه عمل‌ها بالا است و در صورت موفقیت‌آمیز نبودن نیز جان افراد به‌خطر نمی‌افتد. بدین ترتیب با اثر پارادوکس سیمپسون در حوزه‌ی محصول پزشکی آشنا شدیم.سرمایه‌گذاری ۱۰۰ هزار دلاری!شرکت شما به تازگی یک سرمایه‌گذار جدید پیدا و در گام اول ۱۰۰ هزار دلار سرمایه جذب کرده است. همه‌چیز خوب به‌ نظر می‌رسد تا این که یک روز، یکی از اعضای هیئت مدیره (stakeholder) به اتاق شما آمده و با ناراحتی می‌گوید: پس از سرمایه‌گذاری ۱۰۰ هزار دلاری، میانگین خرید کاربران سایت از ۲۰۰ دلار به ۱۸۰ دلار رسیده و این وحشتناک است.شما لبخندی بر لب می‌زنید و به او اطمینان می‌دهید، که همه‌چیز به بهترین شکل پیش می‌رود. از آن عضو هیئت‌مدیره می‌خواهید که یک جلسه عمومی با حضور دیگر اعضا برنامه‌ریزی شود تا دلیل این موضوع را توضیح دهید. آن عضو هیئت‌مدیره از آرامش شما جا خورده است؛ چراکه او با پارادوکس سیمپسون آشنا نیست.اکنون بجای نگاه سطحی اولیه، کمی جدول داده‌ها را تفکیک کرده و خود را برای جلسه‌ی ظهر آماده می‌کنید. جدول داده‌های آماده‌شده به شرح زیر است:شما با این دو جدول وارد جلسه می‌شوید. با توجه به داده‌های به‌دست‌آمده، مشخص است که میانگین خرید کاربران جدید و کاربران فعلی افزایش داشته است. همچنین میزان خرید کلی نیز افزایش چشم‌گیری داشته است. بنابراین این سرمایه‌گذاری موفقیت‌آمیز بوده است. اکنون دیگر اثری از نگرانی اعضای هیئت‌مدیره نیست و بر صورت همگی، لبخند نشسته است.در این مسئله نیز با پارادوکس سیمپسون روبه‌رو هستیم. در مرحله اول پیش از سرمایه‌گذاری تعداد مشتریان شرکت کمتر بوده است و اصطلاحا «شرکت سهم بیشتری از یک کیک کوچک داشته است»؛ اما پس از سرمایه‌گذاری تعداد مشتریان شرکت افزایش چشم‌گیری داشته است و اکنون شرکت «سهم کمتری از یک کیک بزرگ دارد» به همین سبب میانگین خرید تجمیعی هر مشتری کاهش یافته است.لازم به ذکر است، در بسیاری از شرایط با افزایش چشم‌گیر مشتریان نیز ممکن است میانگین خرید دسته‌ها کاهش یابد و این امر، لزوما یک اتفاق منفی نیست؛ چرا که ممکن است پرسونای مخاطبان شما تغییر کرده و لزوما رفتاری شبیه به مشتریان قبلی نداشته باشند. در این شرایط باید پارامترهای دیگری را مورد ارزیابی قرار دهید.تبلیغات کلیکی و دیجیتال مارکتینگشما به عنوان مدیر دیجیتال مارکتینگ یک مجموعه در نظر دارید، تا یک کمپین تبلیغاتی اجرا کنید. برای اجرای این کمپین دو روش وجود دارد:در روش اول (روش تک کلیکی) کاربر با دیدن بنر تبلیغاتی روی آن کلیک می‌کند و به صفحه‌ی وب‌سایت هدایت می‌شود. در روش دوم (روش دو کلیکی) کاربر با دیدن بنر و کلیک بر آن، ابتدا به یک صفحه‌ی میانی که در آن کلمات کلیدی مختلف و مرتبط با تبلیغ بودند، هدایت شده و در صورتی که بر روی یکی از کلمات کلیدی کلیک کند، به صفحه‌ی وب‌سایت مورد نظر انتقال داده می‌شود.با توجه به این که در روش دو کلیکی مخاطب باید مراحل بیشتری را بگذراند تا وارد صفحه اصلی وب‌سایت شود، پیش‌بینی اولیه این است که در روش دو کلیکی نرخ تبدیل کمتری داشته باشیم؛ یعنی نسبت کسانی که به وب‌سایت نهایی هدایت می‌شوند به کسانی که تبلیغ را می‌بینند، کاهش بیابد؛ اما از سوی دیگر انتظار داریم که در این روش، کاربران با کیفیت‌تری به صفحه وب‌سایت منتقل شوند و بنابراین میزان فروش به ازای هر کاربر افزایش یابد. بنابراین کمپین به روش آزمون A/B اجرا شده و نتایج زیر بدست می‌آید:همان‌طور که پیش‌بینی می‌شد، نتایج اولیه حاکی از آن است که در روش دو کلیکی میزان فروش به ازای هر کاربر بالاتر از روش تک کلیکی باشد. اما آیا مسئله حل شده است؟ برای این که کمی بیشتر مسئله را درک کنیم، یک تفکیک میان کاربران انجام می‌دهیم و آن‌ها را به دو دسته‌ی کاربران داخل آمریکا و کاربران خارج آمریکا تقسیم می‌کنیم. بدین ترتیب جدول داده‌ها به شرح زیر خواهدبود؛اتفاق شگفت‌انگیری در حال رخ دادن است! در روش تک کلیکی میانگین خرید کاربران چه در داخل آمریکا و چه خارج از آمریکا از روش دو کلیکی بیشتر است. دانستن این موضوع برای یک مدیر دیجیتال مارکتینگ بسیار حیاتی است.متغیر پنهان در این مسئله تفاوت رفتار کاربران مناطق مختلف است. به‌ طور کلی، کاربران آمریکایی سرانه‌ی درآمد بالاتری دارند و به همین‌دلیل مصرف‌گرایی و خرید کردن میان آنان شایع‌تر است. همین امر و تفاوت فاحش میانگین خرید کاربران آمریکایی و غیرآمریکایی باعث شده است، که وقتی تجمیعی به این مسئله نگاه کنیم، میانگین خرید کاربران در روش دو کلیکی بالاتر باشد.در این جا، یک بحث قابل توجه نیز برای مدیران محصول و بازاریابی مطرح است. به‌ طور کلی اگر قرار باشد شما به ازای هر کاربری که از طریق بنر تبلیغاتی وارد وب‌سایت شما شده‌ مبلغی پرداخت کنید، بدیهی است که این مبلغ در روش دو کلیکی بیشتر خواهد بود. برای مثال اگر شرکتی که به آن تبلیغات داده‌اید، به ازای هر کاربری که در روش یک کلیکی از طریق بنر وارد وب‌سایت شود، مبلغ ۱ دلار دریافت کند، این عدد در روش دو کلیکی حداقل ۱.۵ دلار خواهد بود. بنابراین استفاده از روش دو کلیکی نه‌تنها باعث می‌شود که درآمد بالقوه‌ی بیشتری را از دست بدهید، بلکه باید هزینه بیشتری نیز بپردازید.تبعیض جنسیتی در دانشگاه UC Berkeleyدر سال ۱۹۷۳، عده‌ای از فعالان حقوق زنان از دانشگاه UC Berkeley آمریکا که جزو ۱۰ دانشگاه برتر جهان است، شکایتی را ثبت کردند. آن‌ها مدعی بودند که این دانشگاه در پذیرش دانشجوی تحصیلات تکمیلی، میان مردان و زنان تبعیض قائل شده و درصد بیشتری از مردان را قبول می‌کند. آن‌ها برای اثبات ادعای خود، جدول زیر را ارائه دادند:در نگاه اول، به‌ نظر می‌رسید که یک تبعیض جنسی ۹ درصدی میان متقاضیان آقا و خانم در دانشگاه برکلی وجود دارد؛ اما هنگامی که پژوهشگران این نتایج را تفکیک شده و دانشکده به دانشکده بررسی کردند، نتایج جالبی به دست آمد. در میان ۸۵ دانشکده‌ی این دانشگاه، ۶ دانشکده به‌ طور قابل توجهی در برابر مردان مغرضانه عمل می‌کند. این در حالی است که تنها ۴ دانشکده علیه زنان سوگیری داشته است. اکنون اطلاعات ۶ دانشکده بزرگ این دانشگاه را نمایش داده و اطلاعات آن را تفکیک‌شده بررسی می‌کنیم:همان‌طور که مشخص است، در میان این ۶ دانشکده‌ی بزرگ، ۴ دانشکده درصد بیشتری از خانم‌ها را نسبت به آقایان پذیرفته است. حتی در یک مورد (دانشکده A) اختلاف ۲۰ درصدی میان درصد پذیرش خانم‌ها و آقایان وجود دارد و احتمالا نسبت به پذیرش آقایان برخورد جهت‌گیرانه صورت گرفته است. بنابراین اعتراض فعالان حقوق زنان وارد نبوده و اساسا اگر قرار بر اعتراض باشد، با توجه به این نتایج، جامعه‌ی مردان می‌توانست مدعی ناعدالتی و تبعیض باشد.حال به سراغ علت این پارادوکس می‌رویم. به‌ نظر شما چه دلیلی سبب شده که با وجود آن‌ که در اکثر دانشکده‌ها درصد پذیرش خانم‌ها نسبت به آقایان بیشتر بوده است، با نگاه تجمیعی به موضوع درصد پذیرش آقایان حدودا ۱۰ درصد بیشتر از بانوان باشد؟دلیل رخ دادن پارادوکس سیمپسون در این مسئله نوع متقاضیان است. تعداد زیادی از خانم‌ها، متقاضی حضور در دانشکده‌هایی هستند که درصد پذیرش اندکی داشته و رقابت بیشتری در آن‌جا وجود دارد (برای مثال دانشکده‌ زبان انگلیسی)؛ در حالی که بیشتر مردان متقاضی حضور در دانشکده‌هایی هستند که درصد پذیرش بیشتری دارند و طبعا رقابت برای حضور در آن دانشکده نیز کمتر است (برای مثال دانشکده فنی-مهندسی). در جدول نیز مشخص است، برای دانشکده‌ی A که دانشکده بزرگی است، ۸۲۵ مرد متقاضی بودند در حالی که تنها ۱۰۸ خانم متقاضی حضور در آن‌جا بوده‌اند.کمی ریاضیات!حال پس از بررسی چندین مسئله و مدل‌های مختلف پارادوکس سیمپسون، بد نیست کمی ریاضیاتی به این موضوع نگاه و شرط لازم برای رخ دادن «پارادوکس سیمپسون» را از زبان ریاضی بیان کنیم.فرض کنید احتمال رخداد مجموعه‌ی A را P(A) بنامیم. اکنون A را به n دسته تقسیم کرده و احتمال موفقیت هر کدام را P(Ai) می‌نامیم. با این فرض که:حال به طریق مشابه، فرض کنید احتمال رخداد مجموعه‌ی B را P(B) بنامیم. اکنون B را به n دسته تقسیم می‌کنیم و احتمال موفقیت هر کدام را P(Bi)می‌نامیم. پارادوکس سیمپسون در صورتی رخ می‌دهد که داشته باشیم:بیان این عبارت به زبان ساده، دقیقا همان چیزی است که در این مقاله بررسی کردیم؛ یعنی شرایطی که احتمال وقوع یک رخداد در حالت کلی بالاتر از حالت دیگر است؛ اما وقتی آن رویداد را تفکیک کرده و دسته‌های تفکیک شده را با یکدیگر بررسی می‌کنیم، احتمال رخ دادن دسته‌ها از حالت اولیه پیروی نمی‌کند.همان‌طور که متوجه شدید، دامنه گستردگی پارادوکس سیمپسون بسیار وسیع است. بنابراین لازم است که برای اخذ تصمیمات داده‌محور، از تمام جوانب جمع‌آوری آن داده‌ها باخبر بوده و روابط علت و معلولی پشت‌پردهٔ آن رویداد را بدانیم. جلیل علیزاده جلیل علیزاده Tue, 22 Jun 2021 17:56:28 +0430 المپیاد فیزیک ـ حل مسئله مکانیک - مرحله ۲ (قسمت دوم) https://virgool.io/@jalil.alizadeh/%D8%A7%D9%84%D9%85%D9%BE%DB%8C%D8%A7%D8%AF-%D9%81%DB%8C%D8%B2%DB%8C%DA%A9-%D9%80-%D8%AD%D9%84-%D9%85%D8%B3%D8%A6%D9%84%D9%87-%D9%85%DA%A9%D8%A7%D9%86%DB%8C%DA%A9-%D9%85%D8%B1%D8%AD%D9%84%D9%87-%DB%B2-%D9%82%D8%B3%D9%85%D8%AA-%D8%AF%D9%88%D9%85-lawowsl7hmur المپیاد فیزیک - آیریسک تسلط در حل مسئله یکی از مهم‌ترین مهارت‌هایی است که هر دانش‌پژوه باید آن را داشته باشد. در این سری ویدیوها هر بار یکی از سوالات مرحله دوم یا سوالات مهمی که احتمال مطرح شدن آن در سال‌های آینده وجود دارد را بررسی و تحلیل می‌کنیم و سپس به حل جامع آن می‌پردازیم.قسمت دوم حل مسئله مکانیک سال ۱۳۹۳ https://www.aparat.com/v/Crj2Q جلیل علیزاده جلیل علیزاده Mon, 06 Apr 2020 14:21:38 +0430 المپیاد فیزیک ـ حل مسئله مکانیک - مرحله ۲ (قسمت اول) https://virgool.io/physicsOlympiad/%D8%A7%D9%84%D9%85%D9%BE%DB%8C%D8%A7%D8%AF-%D9%81%DB%8C%D8%B2%DB%8C%DA%A9-%D9%80-%D8%AD%D9%84-%D9%85%D8%B3%D8%A6%D9%84%D9%87-%D9%85%DA%A9%D8%A7%D9%86%DB%8C%DA%A9-%D9%85%D8%B1%D8%AD%D9%84%D9%87-%DB%B2-%D9%82%D8%B3%D9%85%D8%AA-%D8%A7%D9%88%D9%84-xhdh5ictd0e6 المپیاد فیزیک - آیریسکفیزیک و ریاضیات سال هاست که اصلی‌ترین علایق علمی من هستند. از اون جایی هر دوتا رشته‌ای که تو دانشگاه می‌خونم، ارتباط مستقیمی با ریاضیات و فیزیک داره و از طرفی از زمان دبیرستان تا به امروز، همواره المپیاد برام جذابیت خاصی داشته و دارد، چه به عنوان دانش آموز و چه اکنون به عنوان یک مدرس. تصمیم گرفتم تا یک سری آموزش‌های انلاین آماده کنم و برای علاقه‌مندان بذارم. این آموزش‌ها با همکاری موسسه ایریسک و دکتر خلینا عزیز آماده شده. امیدوارم که براتون مفید باشه. تسلط در حل مسئله یکی از مهم‌ترین مهارت‌هایی است که هر دانش‌پژوه باید آن را داشته باشد. در این سری ویدیوها هر بار یکی از سوالات مرحله دوم یا سوالات مهمی که احتمال مطرح شدن آن در سال‌های آینده وجود دارد را بررسی و تحلیل می‌کنیم و سپس به حل جامع آن می‌پردازیم. https://www.aparat.com/v/4iuJF جلیل علیزاده جلیل علیزاده Sun, 05 Apr 2020 01:32:21 +0430 مغز هنگام یادگیری مطالب جدید، به عادت‌های قدیمی وفادار است! https://virgool.io/science/%D9%85%D8%BA%D8%B2-%D9%87%D9%86%DA%AF%D8%A7%D9%85-%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%B7%D8%A7%D9%84%D8%A8-%D8%AC%D8%AF%DB%8C%D8%AF-%D8%A8%D9%87-%D8%B9%D8%A7%D8%AF%D8%AA%D9%87%D8%A7%DB%8C-%D9%82%D8%AF%DB%8C%D9%85%DB%8C-%D9%88%D9%81%D8%A7%D8%AF%D8%A7%D8%B1-%D8%A7%D8%B3%D8%AA-fuohqkyfsnbs مطالعه‌ی یادداشت در سایت FUTURE DOCTORمهم‌ترین شاخصه‌ی هوش، قابلیت یادگیری است. دهه‌ها پژوهش نشان می‌دهد؛ که مغزما انعطاف بالایی دارد. یعنی نورون‌ها در پاسخ به محرک جدید ارتباطات جدیدی میان خود ایجاد می‌کنند.به تازگی پژوهشگران دانشگاه Carnegie Mellon و دانشگاه Pittsburgh محدودیت‌های شگفت‌انگیزی را در مسیر یادگیری یافته‌اند. شاید بتوان گفت که در حالت کلی، مغز ما به شدت انعطاف‌پذیر و وفق پذیر است، اما در بازه‌های زمانی کوتاه مدت، مغز به جای یادگیری از ابتدا، مباحث را با یادآوری مهارت‌های پیشین موجود در مجموعه‌ی نورونی خود، یاد می‌گیرد!بررسی فعالیت‌های مغز هنگام یادگیری، به پژوهشگران سرنخ‌هایی را داده است، که نشان از عدم انعطاف مغز در سطح نورونی دارد. این اکتشاف و پژوهش‌های مرتبط احتمالا بتواند؛ پاسخ این سوال بنیادی را که چرا یادگیری بعضی از مباحث سخت‌تر از بعضی دیگر است را به ما بدهد!در سال ۲۰۱۴، پژوهشگران در آزمایش‌های خود مشاهده کردند، که فرآیند یادگیری مباحث هنگامی که بخشی از آن مطلب پیشتر در سیستم نورونی موجود باشد، بسیار ساده‌تر از یک مطلب کاملا جدید است.به گفته‌ی مسئول تیم پژوهشی این نتیجه‌ای قابل انتظار است. زیرا وظایفی که در داخل منیفولد ذاتی قرار می‌گیرند، نیازمند مغزی است که با ساختار عصبی اساسی سازگار است. پس از تکمیل تحقیقات، تیم پژوهشی تمرکز خود را بر یک سوال چالشی معطوف کرد. فعالیت نورون‌ها هنگام یادگیری چگونه تغییر می‌کند؟ بررسی این موضوع، به شکل مقاله در ژورنال معتبر Nature Neuroscience منتشر شده است.در این پژوهش از یک کامپیوتر پیشرفته به نام BCIs ، که مخفف واژه‌ی brain-computer interfaces به معنی رابط مغز و کامپیوتر است، استفاده شده است. در سری جدید مطالعه‌ی مغز، پژوهشگران آزمایش‌های یادگیری خود را بر روی حیوانات انجام دادند. آنان انتظار داشتند که حیوانات بر طبق استراتژی «اصلاح» مطالب را بیاموزند. چرا که استراتژی «اصلاح» بهترین روش برای یادگیری است، که در آن حیوان شروع به تکرار الگویی می‌کند، که در مقابل او قرار می‌گیرد و پس از گذشت مدتی آن را انجام می‌دهد.اما برخلاف انتظار اعضای تیم، هیچکدام از یادگیری‌ها مطابق استراتژی «اصلاح» انجام نشد! مشاهدات متعدد نشان داد، که بیشتر حیوانات مطابق با استراتژی «همکاری مجدد» به عمل یادگیری می‌پردازند. در حقیقت، حیوانات وظایف جدید را، به سادگی با تکرار الگوهای فعالیت عصبی اصلی خود و تطابق الگوهایی که به تازگی یاد گرفته‌بودند، انجام دادند.ممکن است این سوال پیش بیاید، که چرا مغز تمایل کمی به استفاده از بهترین استراتژی برای یادگیری دارد. یافته‌های پژوهشی نشان می‌دهد؛ که درست همان گونه که معماری عصبی، فعالیت را به منیفولد ذاتی محدود می کند، محدودیت دیگری فعالیت نورون‌ها را در زمان انجام آزمایش، سازماندهی می‌کند.یکی از پژوهشگران حاضر در این پروژه این پدیده را این گونه توجیح می‌کند؛انعطاف پذیری مغز، در بازه‌های زمانی کوتاه بسیار محدودتر از آن است، که ما تصورش را داشتیم.می‌دانیم که یادگیری، فراموشی را به خود به همراه دارد، بنابراین مغز تمایل چندانی به از دست دادن چیزهایی که دقیقا می‌داند چگونه انجام دهد، ندارد!این پژوهش نشان می‌دهد، که دقیقا برخلاف چیزی که انتظارش را داشتیم، مغز در کوتاه مدت انعطاف کمی دارد و بیشتر تمایل به حفظ اطلاعاتی دارد، که درونش به ثبات رسیده‌اند، تا این که مباحث جدیدی را به اندوخته‌های خود بیافزاید!برگرفته از: quantamagazineاگر تمایل دارید تا به عنوان یکی از نویسنده‌های انتشارات SCIENCE PLUS در ویرگول فعالیت کنید. به من اطلاع دهید!CONTACT INFO:MAIL: JALILRFIE98@GMAIL.COMTELE: @JALILALIZADEH جلیل علیزاده جلیل علیزاده Mon, 01 Apr 2019 17:28:47 +0430 گرمایش ۱۰۰ هزار درجه آب در کمتر از ۱۰ پیکوثانیه با لیزر اشعه ایکس https://virgool.io/science/%DA%AF%D8%B1%D9%85%D8%A7%DB%8C%D8%B4-%DB%B1%DB%B0%DB%B0-%D9%87%D8%B2%D8%A7%D8%B1-%D8%AF%D8%B1%D8%AC%D9%87-%D8%A2%D8%A8-%D8%AF%D8%B1-%DA%A9%D9%85%D8%AA%D8%B1-%D8%A7%D8%B2-%DB%B1%DB%B0-%D9%BE%DB%8C%DA%A9%D9%88%D8%AB%D8%A7%D9%86%DB%8C%D9%87-%D8%A8%D8%A7-%D9%84%DB%8C%D8%B2%D8%B1-%D8%A7%D8%B4%D8%B9%D9%87-%D8%A7%DB%8C%DA%A9%D8%B3-vnrtmthxllbg پژوهشگران با استفاده از یک لیزر قدرتمند که از خود اشعه ایکس ساطع می‌کند، مقداری آب را در کمتر از ۱۰ پیکوثانیه (هر پیکوثانیه برابر با یک تریلیونم ثانیه است) از دمای اتاق (۲۰ درجه سانتی‌گراد) به ۱۰۰ هزار درجه سانتی‌گراد رساندند. این مجموعه‌‌ی آزمایشی که می‌توان آن را سریع‌ترین گرم‌کننده‌ی آب نامید، حالتی عجیب و ناشناخته از آب را تولید کرد. از این رو پژوهشگران امیدوارند با مطالعات بیشتر، درباره خواص عجیب و ناشناخته‌ی آب که فراوان‌ترین و مهم‌ترین مایع کره‌ی زمین است، اطلاعات بیشتری کسب‌ کنند. این مشاهدات همچنین کاربردهایی در زمینه‌ی، کاوش‌های بیولوژیکی و آشنایی با لیزر‌های اشعه‌ی ایکس دارد. تیم کارل کالمان از طرف مؤسسه‌ی CFEL و دانشگاه آپسالای سوئد مسئول انجام این پژوهش بود و گزارش خود را در ژورنال PNAS منتشر کرد. پژوهشگران با استفاده از لیزر الکترون آزاد در آزمایشگاه SLAC (زیرمجموعه دانشگاه استنفورد) در آمریکا، شلیک‌های بسیار شدید و فوق‌العاده کوتاهی از اشعه‌ای ایکس به جریانی سریع از آب داشتند.کالمان می‌گوید:کار ما روش متداولی برای به جوش آوردن آب نیست!در حالت معمول، وقتی آب را گرم می‌کنیم، تکان‌ خوردن مولکول‌ها بیشتر و بیشتر می‌شود. در حالت مولکولی، گرما رابطه‌ی مستقیمی با حرکت دارد؛ هرچه جسمی گرم‌تر شود، سرعت حرکت مولکول‌هایش بیشتر خواهد شد. به‌عنوان مثال در اجاق گاز یا اگر کمی دقیق‌تر باشیم، در مایکروفر به‌وسیله‌ی گشتاور مغناطیسی که ایجاد می‌شود، سرعت حرکت مولکول‌های آب افزایش می‌یابد و آن‌ها متناوبا، جلو و عقب می‌روند که در نهایت این عمل باعث انتقال گرما و گرم یا پخته شدن غذای‌ می‌شود. کالمان در ادامه توضیح می‌دهد:سازوکار ایجاد گرمایش در پژوهش ما، اساسا متفاوت است.پرتوهای پرانرژی ایکس، الکترون را از داخل مولکول آب، خارج می‌کنند؛ بنابراین تعادل بار الکتریکی بر هم می‌خورد و اتم در واکنش به این نیروی دفع‌کننده، شروع به حرکت ناگهانی و سریع می‌کند، به بیان دیگر، با خارج شدن الکترون از داخل مولکول و برهم خوردن تعادلی که باعث شده‌ بود برآیند تمام نیروهای ذرات زیراتمی، صفر و اصطلاحا اتم در حالت پایدار باشد، پروتون‌ها شروع به دفع یک‌دیگر می‌کنند و در ادامه اتم حرکت می‌کند تا دوباره به حالت پایدار خود برسد! آب در کمتر از ۷۵ فمتوثانیه، از حالت مایع به حالت پلاسما تغییر فاز می‌دهد. پلاسما حالتی است که در آن اتم‌ها، الکترون از دست داده‌اند و به‌صورت یون گازی هستنداولوف جانسون، یکی دیگر از نگارنده‌های این مقاله، می‌افزاید:... اما هنگامی که آب از حالت مایع به پلاسما تبدیل می‌شود، تغییری در چگالی‌ آن به وجود نمی‌آید؛ زیرا اتم‌ها در این زمان اندک، جابه‌جایی قابل توجهی نداشته‌اند. این حالت عجیب از ماده، ویژگی‌های مشابه بسیاری با پلاسمای خورشید و گاز موجود در سیاره بزرگ مشتری دارد؛ اما چگالی‌ آن کمتر و در عین‌حال گرم‌تر از هسته زمین است.پژوهشگران برای اعتبار بخشیدن به روند شبیه‌سازی، اندازه‌گیری دقیق را نیز در دستور کار خود قرار دادند. اندازه‌گیری و شبیه‌سازی در کنار هم، می‌تواند ابزار مناسبی برای، افزایش اطلاعات عمومی درباره آب و در عین‌حال بررسی حالت عجیب آن باشد.جانسون تأکید می‌کند:آب، حقیقتا مایع عجیبی است. شاید اگر همین ویژگی‌های عجیب نبود، بسیاری پدیده‌ها نظیر حیات در کره‌ی زمین وجود نداشت!آب ویژگی‌های استثنایی و خاصی در خود جای داده‌ است؛ چگالی غیر عادی و بالا بودن گرمای ویژه، گوشه‌ای از ناهنجاری‌های این مایع است. باتوجه به برنامه‌ریزی‌های مرکز جهانی آب، در آینده‌ای نه‌چندان دور، ویژگی‌های خاص و منحصربه‌فرد دیگری از این مایع کشف خواهد شد و نتایج به‌دست‌آمده، اهمیت زیادی برای فعالیت‌‌های بشری دارد. کِنِت بیرین، دیگر نویسنده‌ی این مقاله، ادامه می‌دهد:این مطالعه و بررسی، جدا از اهمیتی که در زمینه‌ی بنیادی علم دارد، باعث آشنایی بیشتر با لیزر‌های پرتوی ایکس می‌شود؛ چرا که غالبا از این دستگاه برای یافتن ذرات زیرات زیراتمی استفاده می‌شود و کاربرد فراوانی در آزمایش‌هایی دارد که شامل مایعات و لیزرپرتوایکس هستند.در حقیت می‌توان گفت هرنمونه‌ای که کریستال نباشد، اگر در مقابل پرتوایکس قرار دهیم، ساختار هسته‌اش به شیوه‌ای که ما مشاهده و در مقاله تجزیه‌وتحلیل کردیم، تخریب می‌شود!نیکسور تیمنیو، یکی دیگر از پژوهشگران کلیدی حاضر در این مطالعات در پایان گفت:اندازه‌گیری‌ نشان می‌دهد که پس از شلیک پرتو ایکس و بر هم‌ زدن تعادل، در ۲۵ فمتوثانیه‌ی اول، هیچ‌گونه تغییری در ساختار ایجاد نمی‌شود؛ اما پس از ۷۵ فمتوثانیه، تغییرات کاملا مشهود و قابل دیدن است. مشاهدات‌ و بررسی‌های‌ ما، می‌تواند باعث ایجاد تکنیک‌های بهتر و مؤثرتری برای آشکارسازی تک‌مولکول‌ها یا دیگرذرات بسیار ریز، به وسیله لیزر پرتو ایکس شود!اگر تمایل دارید تا به عنوان یکی از نویسنده‌های انتشارات SCIENCE PLUS در ویرگول فعالیت کنید. به من اطلاع دهید!CONTACT INFO:MAIL: JALILRFIE98@GMAIL.COMTELE: @JALILALIZADEH جلیل علیزاده جلیل علیزاده Fri, 29 Mar 2019 22:06:51 +0430 چرا گیاهان حساسیت زیادی به گرانش دارند؟ https://virgool.io/science/%DA%86%D8%B1%D8%A7-%DA%AF%DB%8C%D8%A7%D9%87%D8%A7%D9%86-%D8%AD%D8%B3%D8%A7%D8%B3%DB%8C%D8%AA-%D8%B2%DB%8C%D8%A7%D8%AF%DB%8C-%D8%A8%D9%87-%DA%AF%D8%B1%D8%A7%D9%86%D8%B4-%D8%AF%D8%A7%D8%B1%D9%86%D8%AF-r0yxwqiotbtg گیاهان کمترین تغییر در زاویه انحراف خود را متوجه می‌شوند. در این سیستم طبیعی، گیاه گرانش را از طریق دانه‌های بسیار ریز خود احساس می‌کند. اما از دیدگاه تئوری، این سیستم توانایی اندازه‌گیری با چنین دقت بالایی ندارد. پژوهشگران CNRS و دانشگاه کلرمونت آورگن فرانسه، این تناقض عجیب را توجیه کرده‌اند: دانه‌ها همواره توسط سلول‌های گیاه به حرکت در می‌آیند.اگر یک گیاه را کج کنید، مسیر رشد خود را به گونه‌ای تغییر می‌دهد تا در همان زاویه‌ی اولیه انحراف خود قرار گیرد. اما گیاه چگونه متوجه می‌شود که زاویه‌اش تغییر کرده‌ است؟ گیاهان دارای بافت سلولی شیب‌سنج هستند، سلول‌هایی مملو از دانه‌های ریز نشاسته که استاتولیت نامیده می‌شوند. در هریک از این سلول‌ها، توده‌ای از استاتولیت‌ها در قسمت تحتانی قرار دارد. این نقاط مانند یک مرجع عمل می‌کنند و باعث توزیع مناسب هورمون رشد در داخل گیاه می‌شوند تا در نهایت، گیاه بتواند در جهت رو به بالا قرار گیرد. توده‌ای از دانه‌ها، شیب‌سنج دقیقی محسوب نمی‌شوند؛ اما گیاهان کوچکترین انحراف را نسبت به حالت اولیه‌ی خود، متوجه می‌شوند. پرسش اصلی این است که چه عاملی آنان را تا این حد حساس به گرانش کرده‌ است؟ در حالت کلی، اصطکاک و به‌تعبیری گیر کردن ذرات به یک‌‌دیگر، مانع از ایجاد جریان در دانه‌‌‌ها می‌شود. در نتیجه می‌توان گفت سیستم دانه‌ای تأثیر چندانی در ایجاد زاویه‌ی انحراف ندارد. این درحالی است که استاتولیت‌های گیاهان، به‌طرز شگفت‌آوری دقیق هستند. پژوهشگرانی از CNRS، دانشگاه آکس مارسی، INRA و دانشگاه کلرمونت آورگن فرانسه گرد آمده و گروهی تشکیل دادند تا این معما را حل کنند. در ابتدا آنان، واکنش‌های حرکتی یک استاتولیت در پاسخ به کج‌ کردن را مشاهده کردند و به این نتیجه رسیدند که استاتولیت‌ها رفتارهایشان هیچ شباهتی به سیستم استاندارد دانه‌ای ندارد. آنان مستقل از اینکه سلول در چه زاویه‌ای قرار دارد، حرکت می‌کنند و جاری هستند. سطح توده‌های استاتولیتی همواره در مسیر یک صفحه‌ی افقی قرار دارند؛ همانند یک مایع. اما سلول‌ها چگونه باعث ایجاد حالت سیالی و متحرک شدن این توده‌ها می‌شود؟ گروه پژوهشی برای توضیح‌دادن منشأ این خاصیت، با طراحی مدلی صنعتی از استاتولیت‌های گیاه که در آن از میکروبیدها (ذرات جامد پلاستیکی کوچک‌تر از یک میلی‌متر) به‌عنوان سلول‌های گیاه استفاده شده‌ بود، پژوهش خود را ادامه داد. مقایسه‌ی این دو سیستم با یکدیگر باعث شد دانشمندان سیال بودن استاتولیت‌ها را ناشی از حرکت انفرادی هرکدام از آن‌ها بیان‌ کنند. موتورهای مولکولی سلول‌ها (به‌مانند یک ماشین تولید انرژی و در حقیقت عامل اصلی حرکت در سازواره‌های زنده هستند) به‌طور مداوم استاتولیت‌ها را در هم می‌آمیزند؛ در نتیجه آن‌ها هیچ‌گاه با هم مخلوط نمی‌شوند و در طول یک بازه‌ی زمانی طولانی، توده‌‌ی استاتولیت‌ها ویژگی‌هایی همچون یک مایع از خود نشان می‌دهد. این ویژگی بدین معنا است که هیچ نوع خمیدگی در گیاه وجود نخواهد داشت؛ بنابراین کوچک‌ترین انحرافی به‌روشنی آشکار می‌شود و در عین حال، تکان‌ خوردن گیاه در اثر وزش باد، خللی در رشدش ایجاد نمی‌کند. اکتشافات تیم پژوهشی، درباره‌ی علت حساسیت بیش از حد گیاهان به گرانش، باعث ایجاد نظریه‌ای هرچند ناقص درباره‌ی حرکت استاتولیت شد. پژوهش‌های بیشتری مورد نیاز است تا متوجه شویم که گیاهان چگونه مکان استاتولیت را شناسایی می‌کنند. این یافته‌ها باعث هموارتر شدن مسیر برای ایجاد برنامه‌های صنعتی بیولوژیکی (زیست‌سازه‌شناسی) نظیر شیب‌سنجی کوچک و درعین حال قوی می‌شود، که می‌تواند جایگزین مناسبی برایژیروسکوپ و شتاب‌سنج باشد. جلیل علیزاده جلیل علیزاده Wed, 27 Mar 2019 13:14:40 +0430