من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
ایدههای آماری برتر در پس رونق علم داده
منتشرشده در analyticsindiamag به تاریخ ۱۲ مارس ۲۰۲۱
لینک منبع From The Vault: Top Statistical Ideas Behind The Data Science Boom
این سازمان در توسعه روشهای گرافیکی خاص و دور کردن رشته آمار از قضیه تاثیرگذار بوده است- "مانند یک سیب چیده شده از درخت، تحقیق در آمار نظری پس از اینکه آن را از منبع تغذیه خود حذف کرد، خشک میشود."
گلمن و همکاران
علوم داده محصول آمار است. برخی حتی آن را آمار باشکوه مینامند. درحالیکه به نظر نمیرسد بحث به این زودی تمام شود، ما نگاهی به برخی از ایدههای آماری «مهمترین» دانشگاه کلمبیا در ۵۰ سال گذشته میاندازیم. این ایدهها در علم داده نیز پیامدهای قابل توجهی دارند.
ممکن است مطالعه مقاله ۳ نکته که بر کیفیت اطلاعات شما در تحقیقات عددی تاثیر میگذارند. برای شما مفید باشد.
شرکت EDA
این سازمان از طریق کتاب «تحلیل دادههای اکتشافی» که در دهه ۷۰ منتشر شد، توسط جان دبلیو توکی تاسیس شد. توکی پیشنهاد کرد که تاکید لازم بر استفاده از دادهها به منظور پیشنهاد فرضیهها برای آزمایش اعمال شود. دیوید سی هواگلین که دانشجوی توکی است میگوید: «برای نزدیک به ۶۰ سال، آمار، علم و ملت به شدت از تلاشهای جان دبلیو توکی سود بردند.» چنین بود تاثیر EDA، و ما هنوز هم میتوانیم شکوفایی آن را در قلمرو علم داده ببینیم.
ای دی ای یک تکنیک گرافیکی ارائه کرد که به درک و تشخیص بهتر مشکلات مدلهای احتمال پیچیده جدید که با دادهها متناسب هستند کمک کرد. ای دی، محققان دانشگاه کلمبیا را به نگارش درآورد، از هنجارهای آزمون فرضیات منحرف شد و بر جنبه کشف این فرآیند تاکید کرد. این محققان اظهار داشتند که این روش در توسعه روشهای گرافیکی خاص و دور کردن رشته آمار از اثبات قضیه و رسیدن به یک دیدگاه بازتر در مورد نقش یادگیری از داده در علم، موثر بوده است.
دانشمند داده و استاد بزرگ کاگل مارتین هنز شروع هرگونه مشکل علم داده با یک EDA جامع (تحلیل داده اکتشافی) را به شدت توصیه میکنند. مارتین گفت: من یک یادگیرنده تصویری هستم. این اشتباه است که خیلی سریع وارد مدلسازی شوید. او افزود: «فرضیات خود را به دقت مورد سوال قرار دهید و درک بهتری از دادهها و زمینهای که در آن استخراج شده است، به دست خواهید آورد.»
استنباط علتی خلاف واقعیت
مدیرانی مانند یهودا پرل، علیت و علم کامپیوتر را با یکدیگر ترکیب کردهاند. . تحقیقات وی اخیرا در هوش مصنوعی اهمیت یافته است، که ضربه بدی را از نمایش نتایج غیرقابلتفسیر دریافت میکند. با این حال، از نظر تاریخی، تحقیقاتی در مورد مدلها برای تخصیص علتی در ابعاد چندگانه توسط امثال یهودا پرل انجام شده است. Gelman و vhtari مینویسند که یک رشته مشترک از سوالات علت و معلولی مدلسازی از نظر عوامل متقابل یا نتایج بالقوه وجود داشته است.
چارچوب خلاف واقع، Gelman حالت و همکار نویسنده او، استنتاج علتی را در یک چارچوب آماری یا پیشبینی قرار میدهد که در آن شواهد علّی به طور دقیق تعریف میشوند و از نظر دادههای مشاهده نشده در یک مدل آماری بیان میشوند، که به ایدهها در نمونهگیری پیمایشی و رد دادههای از دست رفته متصل میشوند. مطالعه سببی، پلتفرمی را برای رد کردن توضیحات جایگزین قابلقبول ارائه میدهد.
قدرت بخشیدن به یک ماشین برای فکر کردن از نظر علیت منجر به یک شکل خاصی از هوش میشود، که نزدیک به چیزی است که انسانها فکر میکنند.
برازش مدل پارامتردار بیش از حد
آنها هم اکنون در حال بسته شدن به یک تریلیون مارک هستند. درحالیکه بیشتر این نوآوری را میتوان به آخرین پیشرفتهای سختافزاری نسبت داد، ایده تناسب مدلها با پارامترهای بزرگ مدتی است که در حال انجام دورهای است. طبق نظر گلمن و همکاران، از دهه ۱۹۷۰، آمار خود را با چالش برازش مدلهای فوق پارامتربندی شده-گاهی اوقات پارامترهای بیشتر از نقاط داده-با کمک روش تنظیم برای به دست آوردن برآوردهای پایدار و پیشبینیهای خوب محدود کردند. ایده تنظیم میتواند به عنوان یک تابع جریمه بر روی پارامترها یا منحنی پیشبینیشده اجرا شود.
کار اخیر، با عنوان «یادگیری متا بدون حفظ کردن»، به بررسی اهداف تنظیم میپردازد تا الگوریتمها را با موفقیت از داده وظایف غیرانحصاری متقابل برای انطباق موثر با وظایف جدید استفاده کنند.
در یک کار با عنوان «تنظیمکننده علتی»، نویسندگان یک تنظیمکننده علّی را پیشنهاد دادند که مدلهای پیشبینی را به سمت راهحلهای قابل تفسیر علتی هدایت میکند. تحلیل آنها بر روی پرونده الکترونیک سلامت در مقیاس بزرگ (EHR) نشان داد که مدل منظم شده علتی آنها در دقت علّی از سایر روشها بهتر است و در عملکرد پیشبینی قابل رقابت است. این امر آینده بزرگی در حوزه بهداشت و درمان دارد، که در آن بسیاری از فاکتورهای علّی باید با تاثیر بر متغیر هدف همزمان شوند.
شاید به مطالعه مقاله پاسخ به ۱۰ سوال متداول در مورد هوش مصنوعی علاقمند باشید.
بوت استرپینگ
بهبود استراتژیهای جمعآوری داده (سنسورهای فکری، اینترنت) منجر به مجموعه دادههای عظیمی شده است. اما جمعآوری و نظارت دادهها تقریبا ۸۰٪از روز معمول یک مهندس داده را مصرف میکند. داده هنوز هم یک مشکل است. بیش از دو دهه پیش. ایده پشت توزیع بوتاسترپ استفاده از آن به عنوان تقریبی برای توزیع نمونهبرداری دادهها است. بنا به گفته محققان، بوت استرپینگ پارامتری، بررسی پیشگویانه و کالیبراسیون مبتنی بر شبیهسازی اجازه تکرار مجموعه دادهها از یک مدل را به جای نمونهبرداری مجدد مستقیم از دادهها میدهد. شبیهسازی تنظیمشده در مواجهه با حجم دادههای نامشخص یک روش استاندارد است که ریشه در آمار دارد و به تجزیه و تحلیل مدلها یا الگوریتمهای پیچیده کمک میکند.
گلمن و وهاری معتقدند که تحقیقات آینده بیشتر به سمت روشهای استنباطی متمایل خواهند شد، ایدههایی مانند آزمون واحد از مهندسی نرمافزار و اعمال آنها به مشکلات یادگیری از دادههای نویزی را در نظر میگیرند. نویسندگان نتیجه گرفتند: «همانطور که روشهای آماری ما پیشرفتهتر میشوند، نیاز مداوم به درک ارتباط بین دادهها، مدلها و نظریه اساسی وجود خواهد داشت.»
ایدههای ذکر شده در بالا پایه و اساس یادگیری عمیق مدرن و سایر ابزارها را بنا نهادند. حتی چیزی که به اندازه تصمیمگیری ابتدایی است، به عنوان محصول آمار در نظر گرفته میشود. بهینهسازی بیزی، یادگیری تقویتی، آزمایش A / B چند مثال دیگر هستند.
تغییردهنگان از آمار: ۱۰۰ سال در حال ساخت
- نظریه نمونهبرداری
- استنباط بیزی
- فاصله اطمینان
- آزمایش فرضیه
- حداکثر احتمال
- تحلیل دادههای اکتشافی
- منظمسازی
- بوت استرپینگ
- تجزیه و تحلیل تصمیم انطباقی
- استنباط علی خلاف واقع
این متن با استفاده از ربات مترجم مقاله تکنولوژی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
چگونه نرخ ترجمه خود را تعیین کنید
مطلبی دیگر از این انتشارات
مردم باعث می شوند چرخ اقتصاد دیجیتال بچرخد
مطلبی دیگر از این انتشارات
کامپیوترها برای گرفتن مدال طلا در المپیاد ریاضی آماده میشوند