ایده‌های آماری برتر در پس رونق علم داده

شکل ۱: آمار و احتمالات
شکل ۱: آمار و احتمالات
منتشر‌شده در analyticsindiamag به تاریخ ۱۲ مارس ۲۰۲۱
لینک منبع From The Vault: Top Statistical Ideas Behind The Data Science Boom

این سازمان در توسعه روش‌های گرافیکی خاص و دور کردن رشته آمار از قضیه تاثیر‌گذار بوده است- "مانند یک سیب چیده شده از درخت، تحقیق در آمار نظری پس از اینکه آن را از منبع تغذیه خود حذف کرد، خشک می‌شود."

گلمن و همکاران

علوم داده محصول آمار است. برخی حتی آن را آمار باشکوه می‌نامند. در‌حالی‌که به نظر نمی‌رسد بحث به این زودی تمام شود، ما نگاهی به برخی از ایده‌های آماری «مهم‌ترین» دانشگاه کلمبیا در ۵۰ سال گذشته می‌اندازیم. این ایده‌ها در علم داده نیز پیامدهای قابل توجهی دارند.

ممکن است مطالعه مقاله ۳ نکته که بر کیفیت اطلاعات شما در تحقیقات عددی تاثیر می‌گذارند. برای شما مفید باشد.

شرکت EDA

این سازمان از طریق کتاب «تحلیل داده‌های اکتشافی» که در دهه ۷۰ منتشر شد، توسط جان دبلیو توکی تاسیس شد. توکی پیشنهاد کرد که تاکید لازم بر استفاده از داده‌ها به منظور پیشنهاد فرضیه‌ها برای آزمایش اعمال شود. دیوید سی هواگلین که دانشجوی توکی است می‌گوید: «برای نزدیک به ۶۰ سال، آمار، علم و ملت به شدت از تلاش‌های جان دبلیو توکی سود بردند.» چنین بود تاثیر EDA، و ما هنوز هم می‌توانیم شکوفایی آن را در قلمرو علم داده ببینیم.

ای دی ای یک تکنیک گرافیکی ارائه کرد که به درک و تشخیص بهتر مشکلات مدل‌های احتمال پیچیده جدید که با داده‌ها متناسب هستند کمک کرد. ای دی، محققان دانشگاه کلمبیا را به نگارش درآورد، از هنجارهای آزمون فرضیات منحرف شد و بر جنبه کشف این فرآیند تاکید کرد. این محققان اظهار داشتند که این روش در توسعه روش‌های گرافیکی خاص و دور کردن رشته آمار از اثبات قضیه و رسیدن به یک دیدگاه بازتر در مورد نقش یادگیری از داده در علم، موثر بوده است.

دانشمند داده و استاد بزرگ کاگل مارتین هنز شروع هرگونه مشکل علم داده با یک EDA جامع (تحلیل داده اکتشافی) را به شدت توصیه می‌کنند. مارتین گفت: من یک یاد‌گیرنده تصویری هستم. این اشتباه است که خیلی سریع وارد مدل‌سازی شوید. او افزود: «فرضیات خود را به دقت مورد سوال قرار دهید و درک بهتری از داده‌ها و زمینه‌ای که در آن استخراج شده است، به دست خواهید آورد.»

استنباط علتی خلاف واقعیت

مدیرانی مانند یهودا پرل، علیت و علم کامپیوتر را با یکدیگر ترکیب کرده‌اند. . تحقیقات وی اخیرا در هوش مصنوعی اهمیت یافته است، که ضربه بدی را از نمایش نتایج غیرقابل‌تفسیر دریافت می‌کند. با این حال، از نظر تاریخی، تحقیقاتی در مورد مدل‌ها برای تخصیص علتی در ابعاد چندگانه توسط امثال یهودا پرل انجام شده است. Gelman و vhtari می‌نویسند که یک رشته مشترک از سوالات علت و معلولی مدل‌سازی از نظر عوامل متقابل یا نتایج بالقوه وجود داشته است.

چارچوب خلاف واقع، Gelman حالت و همکار نویسنده او، استنتاج علتی را در یک چارچوب آماری یا پیش‌بینی قرار می‌دهد که در آن شواهد علّی به طور دقیق تعریف می‌شوند و از نظر داده‌های مشاهده نشده در یک مدل آماری بیان می‌شوند، که به ایده‌ها در نمونه‌گیری پیمایشی و رد داده‌های از دست رفته متصل می‌شوند. مطالعه سببی، پلتفرمی را برای رد کردن توضیحات جایگزین قابل‌قبول ارائه می‌دهد.

قدرت بخشیدن به یک ماشین برای فکر کردن از نظر علیت منجر به یک شکل خاصی از هوش می‌شود، که نزدیک به چیزی است که انسان‌ها فکر می‌کنند.

برازش مدل پارامتردار بیش از حد

آن‌ها هم اکنون در حال بسته شدن به یک تریلیون مارک هستند. در‌حالی‌که بیشتر این نوآوری را می‌توان به آخرین پیشرفت‌های سخت‌افزاری نسبت داد، ایده تناسب مدل‌ها با پارامترهای بزرگ مدتی است که در حال انجام دوره‌ای است. طبق نظر گلمن و همکاران، از دهه ۱۹۷۰، آمار خود را با چالش برازش مدل‌های فوق پارامتربندی شده-گاهی اوقات پارامترهای بیشتر از نقاط داده-با کمک روش تنظیم برای به دست آوردن برآوردهای پایدار و پیش‌بینی‌های خوب محدود کردند. ایده تنظیم می‌تواند به عنوان یک تابع جریمه بر روی پارامترها یا منحنی پیش‌بینی‌شده اجرا شود.

کار اخیر، با عنوان «یادگیری متا بدون حفظ کردن»، به بررسی اهداف تنظیم می‌پردازد تا الگوریتم‌ها را با موفقیت از داده وظایف غیر‌انحصاری متقابل برای انطباق موثر با وظایف جدید استفاده کنند.

در یک کار با عنوان «تنظیم‌کننده علتی»، نویسندگان یک تنظیم‌کننده علّی را پیشنهاد دادند که مدل‌های پیش‌بینی را به سمت راه‌حل‌های قابل تفسیر علتی هدایت می‌کند. تحلیل آن‌ها بر روی پرونده الکترونیک سلامت در مقیاس بزرگ (EHR) نشان داد که مدل منظم شده علتی آن‌ها در دقت علّی از سایر روش‌ها بهتر است و در عملکرد پیش‌بینی قابل رقابت است. این امر آینده بزرگی در حوزه بهداشت و درمان دارد، که در آن بسیاری از فاکتورهای علّی باید با تاثیر بر متغیر هدف همزمان شوند.

شاید به مطالعه مقاله پاسخ به ۱۰ سوال متداول در مورد هوش مصنوعی علاقمند باشید.

بوت استرپینگ

بهبود استراتژی‌های جمع‌آوری داده (سنسورهای فکری، اینترنت) منجر به مجموعه داده‌های عظیمی شده است. اما جمع‌آوری و نظارت داده‌ها تقریبا ۸۰٪از روز معمول یک مهندس داده را مصرف می‌کند. داده هنوز هم یک مشکل است. بیش از دو دهه پیش. ایده پشت توزیع بوت‌استرپ استفاده از آن به عنوان تقریبی برای توزیع نمونه‌برداری داده‌ها است. بنا به گفته محققان، بوت استرپینگ پارامتری، بررسی پیش‌گویانه و کالیبراسیون مبتنی بر شبیه‌سازی اجازه تکرار مجموعه داده‌ها از یک مدل را به جای نمونه‌برداری مجدد مستقیم از داده‌ها می‌دهد. شبیه‌سازی تنظیم‌شده در مواجهه با حجم داده‌های نامشخص یک روش استاندارد است که ریشه در آمار دارد و به تجزیه و تحلیل مدل‌ها یا الگوریتم‌های پیچیده کمک می‌کند.

گلمن و وهاری معتقدند که تحقیقات آینده بیشتر به سمت روش‌های استنباطی متمایل خواهند شد، ایده‌هایی مانند آزمون واحد از مهندسی نرم‌افزار و اعمال آن‌ها به مشکلات یادگیری از داده‌های نویزی را در نظر می‌گیرند. نویسندگان نتیجه گرفتند: «همانطور که روش‌های آماری ما پیشرفته‌تر می‌شوند، نیاز مداوم به درک ارتباط بین داده‌ها، مدل‌ها و نظریه اساسی وجود خواهد داشت.»

ایده‌های ذکر شده در بالا پایه و اساس یادگیری عمیق مدرن و سایر ابزارها را بنا نهادند. حتی چیزی که به اندازه تصمیم‌گیری ابتدایی است، به عنوان محصول آمار در نظر گرفته می‌شود. بهینه‌سازی بیزی، یادگیری تقویتی، آزمایش A / B چند مثال دیگر هستند.

تغییردهنگان از آمار: ۱۰۰ سال در حال ساخت

  • نظریه نمونه‌برداری
  • استنباط بیزی
  • فاصله اطمینان
  • آزمایش فرضیه
  • حداکثر احتمال
  • تحلیل داده‌های اکتشافی
  • منظم‌سازی
  • بوت استرپینگ
  • تجزیه و تحلیل تصمیم انطباقی
  • استنباط علی خلاف واقع
این متن با استفاده از ربات مترجم مقاله تکنولوژی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.