ویرگول
ورودثبت نام
ای ترجمه
ای ترجمه
خواندن ۹ دقیقه·۲ سال پیش

فرصت ها و چالش ها در یادگیری ماشین (مقاله ترجمه شده)

چکیده

یادگیری ماشین (ML) به‌طور مداوم قدرت خود را در طیف گسترده‌ای از برنامه‌های کاربردی نشان می‌دهد. این مسئله در سال های اخیر تا حدودی با توجه به ظهور داده‌های بزرگ بیشتر مورد توجه قرار گرفته است. الگوریتم ML هرگز بهترین عملکرد خود را نداشت تا اینکه توسط داده‌های بزرگ به چالش کشیده شد. داده‌های بزرگ، الگوریتم ML را قادر به کشف الگوهای دقیقتر و پیش‌بینی به موقع تر و دقیق تر از قبل کردند. از سوی دیگر، چالش‌های بزرگی در ML مانند مقیاس‌پذیری مدل و محاسبات توزیع شده مطرح کرد. در این مقاله، یک چارچوب از ML در داده‌های بزرگ (MLBiD) برای هدایت بحث به فرصت‌ها و چالش‌های آن معرفی خواهد شد. چارچوب ML محور، شامل مراحل پیش پردازش، یادگیری و ارزشیابی است. علاوه براین، چارچوب شامل چهار جزء دیگر، مانند داده‌های بزرگ، کاربران، دامنه و سیستم است. مراحل ML و اجزای MLBiD برای شناسایی فرصت‌های مرتبط و چالش‌ها و روشن کردن مسیر کاری آینده در بسیاری از موارد ناشناخته و یا در پژوهش حاضر ارائه شده است.

معرفی

تکنیک‌های یادگیری ماشین (ML) تاثیرات اجتماعی بزرگی در طیف گسترده‌ای از برنامه‌های کاربردی مانند بینایی کامپیوتر، پردازش سخنرانی، درک زبان طبیعی، علوم اعصاب، بهداشت و اینترنت اشیا داشته است. ظهور عصر داده ‌ای بزرگ موجب توجه به ML گردید. الگوریتم ML هرگز بهترین نتایج را به همراه نداشت و توسط داده‌های بزرگ برای به دست آوردن بینش جدیدی در برنامه‌های کاربردی مختلف کسب و کار و رفتار انسان به چالش کشیده شد. از یک طرف، داده‌های بزرگ اطلاعات بی‌سابقه‌ای غنی برای الگوریتم ML برای استخراج الگوهای اساسی و ساخت مدل‌های پیش‌بینی فراهم می‌کند. از سوی دیگر، الگوریتم‌های سنتی ML با چالش‌های مهمی مانند مقیاس‌پذیری مقادیر واقعی و پنهان داده های بزرگ رو به رو هستند. با گسترش وسیع داده‌های بزرگ، ML در جهت تبدیل داده‌های بزرگ به هوش عملی رشد و پیشرفت کرد.

ML به این پرسش که چگونه یک سیستم کامپیوتری بسازیم که به طور خودکار از طریق تجربه بهبود یابد پاسخ می‌دهد[1]. مشکل ML به‌عنوان مشکل یادگیری از تجربه با توجه به برخی از وظایف و اندازه‌گیری عملکرد اشاره دارد. تکنیک‌های ML کاربران را قادر به کشف ساختار زیرین و پیش‌بینی از مجموعه داده‌های بزرگ می‌کند. ML در تکنیک‌های یادگیری کارآمد (الگوریتم)، داده‌های بزرگ غنی و محیط‌های محاسبات قدرتمند بسیار کارآمد است. بنابراین، ML پتانسیل زیادی دارد تا بخش مهمی از تجزیه و تحلیل داده‌های بزرگ [2] گردد.

چارچوب یادگیری ماشین در داده‌ های بزرگ

چارچوب ML در داده‌های بزرگ (MLBiD) در شکل 1 نشان داده شده است. MLBiD بر جزء یادگیری ماشین (ML) استوار است، که با چهار جزء دیگر، از جمله داده‌های بزرگ، کاربر، دامنه و سیستم تعامل برقرار می‌کند. فعل و انفعالات در هر دو جهت اتفاق می‌افتد. به عنوان مثال، داده‌های بزرگ به‌عنوان ورودی به ML وارد می‌شوند و خروجی تولید می‌شود، که به نوبه خود تبدیل به بخشی از داده‌های بزرگ می‌گردد؛ کاربر ممکن است با ML برای ارائه دامنه دانش، ترجیحات شخصی و بازخورد قابلیت استفاده و با اعمال نفوذ نتایج یادگیری به‌منظور بهبود تصمیم‌سازی تعامل برقرار می‌کند؛ دامنه می‌تواند هم به‌عنوان یک منبع دانش برای خدمت به راهنمای ML و هم به‌عنوان زمینه اعمال در مدل یادگیری استفاده شود؛ معماری سیستم بر چگونگی اجرای الگوریتم‌های یادگیری و چگونگی اجرای کارآمد آن‌ها تاثیر دارد و به‌طور همزمان پاسخگویی به نیازهای ML ممکن است به یک شرکت طراحی معماری سیستم منجر شود. سپس جزئی از MLBiD به‌طور جداگانه معرفی می‌کنیم.

یادگیری ماشین

ML معمولا از طریق پردازش داده‌ها، یادگیری و مرحله ارزیابی (شکل 1 را ببینید) پیگیری می‌شود. پیش پردازش داده‌ها کمک می‌کند تا داده‌های خام به "شکل درست" برای مراحل یادگیری‌های بعدی آماده شود. داده‌های خام به احتمال زیاد بدون ساختار، نویزدار، ناقص و متناقض هستند. گام پیش‌پردازش، داده‌ها را به شکلی که می‌توان به عنوان ورودی برای یادگیری داده‌ها از طریق، استخراج، تبدیل، و همجوشی استفاده کرد تبدیل می‌کند. فاز آموزش، الگوریتم‌های یادگیری را انتخاب و پارامترهای مدل را برای تولید خروجی مورد نظر با استفاده از پیش پردازش داده‌های ورودی به کار می‌گیرد. برخی روش‌های یادگیری، به‌ویژه یادگیری بازنمودی، نیز می‌تواند برای پیش پردازش داده‌ها استفاده شود. ارزیابی برای تعیین عملکرد مدل به دست آمده بسیار مفید است. برای مثال، ارزیابی عملکرد یک طبقه‌بندی شامل انتخاب مجموعه داده، اندازه‌گیری عملکرد، برآورد خطا و آزمون‌های آماری است [4]. بررسی نتایج ممکن است به تنظیم پارامترهای انتخاب شده در الگوریتم‌های یادگیری و / یا انتخاب الگوریتم‌های مختلف منجر شود.

فرصت‌ ها و چالش‌ های پیش‌ پردازش داده‌ ها

بخش عمده‌ای از تلاش واقعی در استقرار سیستم ML صرف طراحی پیش‌پردازش خطوط لوله و تحولات داده می‌شود که منجر به نمایش موثر اطلاعات با پشتیبانی ML می‌گردد [6]. پیش‌پردازش داده‌ها با هدف رسیدگی به تعدادی از مسائل مانند افزونگی داده، تناقض، نویز، عدم تجانس، تحول، برچسب گذای (برای ML (نیمه) نظارت شده)، عدم تعادل داده‌ها و نمایش/ انتخاب ویژگی است. آماده‌سازی داده‌ها و پردازش، با توجه به نیاز به کار انسانی و تعداد زیادی از گزینه‌های انتخاب معمولا پرهزینه است. علاوه براین، برخی از فرضیات معمولی داده برای داده‌های بزرگ کاربرد ندارد، در نتیجه برخی از روش‌های پیش‌پردازش غیرممکن می‌گردد. ازسوی دیگر، داده‌های بزرگ موجب کاهش فرصت تکیه به نظارت انسان با آموختن از منابع داده عظیم و متنوع می‌گردد.

افزونگی داده‌ ها

تکرار زمانی رخ می‌دهد که دو یا چند نمونه داده موجودیت یکسانی را نشان دهند. تاثیر تکرار داده‌ها و یا تناقض در ML می‌تواند شدید باشد. با وجود طیف وسیعی از روش‌ها برای شناسایی موارد تکراری توسعه یافته در 20 سال گذشته [11]، روش‌های سنتی مانند مقایسه دو به دو شباهت‌ها، دیگر برای داده‌های بزرگ امکان‌پذیر نیست. علاوه براین، فرض سنتی،جفت‌هایی را که در مقایسه با جفت غیرکپی دیگر در اقلیت هستند تکرار می‌کند. برای این منظور، زمان پویا می‌تواند بسیار سریعتر از الگوریتم‌های فاصله اقلیدسی عمل کند [12].

فرصت‌ های یادگیری و چالش‌ ها

توسعه الگوریتم‌های ML مقیاس‌پذیر که قادر به استفاده از مجموعه داده‌های بزرگ هستند، موضوع تحقیق طولانی مدتی در ارتباطات ML قبل از ظهور "داده‌های بزرگ" بود. برای سازماندهی بهتر بحث در مورد فرصت‌ها و چالش، یک طبقه‌بندی از روش‌ها / پلتفرم‌ها برای ML در داده‌های بزرگ پیشنهاد شده است، که در جدول 1 نشان داده شده است.

عدم موازی‌ سازی

بهینه‌سازی در قلب بسیاری از روش‌های ML قرار دارد. روش‌های بهینه‌سازی سنتی به بهینه‌سازی ترکیبی (جستجوی حریصانه، جستجو پرتو، شاخه و حد) و بهینه‌سازی پیوسته طبقه‌بندی می‌شوند [57]. سپس به بهینه‌سازی نامحدود (به‌عنوان مثال، گرادیان نزولی، گرادیان مزدوج، روش شبه نیوتن) و محدود (به‌عنوان مثال، برنامه‌ریزی خطی، برنامه‌نويسي درجه دوم) گروه‌بندی می‌شوند. زمانی که مجموعه داده آموزش بزرگ باشد بهینه‌سازی محدود اغلب پرهزینه است. یک راه‌حل ممکن محاسبه بهینه تقریبی است. الگوریتم بزرگ مقیاس بهینه‌سازی، از گرادیان نزولی تصادفی، فاصله مختصاتی تصادفی و بهینه‌سازی توزیع شده به خصوص برای یادگیری الگوریتم‌های تصادفی تقریبی از داده‌های بزرگ مقیاس [41] استفاده می‌کند. با این وجود، روش گرادیان نزولی تصادفی به برای موازی‌سازی دشوار است [58] و بعید است که عملکرد شگفت‌انگیزی برای مسائل در مقیاس بزرگ به همراه داشته باشد.

فرصت‌ های ارزیابی و چالش‌ ها

ML سنتی دارای مجموعه معیارهایی برای ارزیابی عملکرد، مانند دقت، میزان خطا، جامعیت، مربع خطا، احتمال، کسب اطلاعات، اختلافK-L، هزینه، ابزار، حاشیه، خطا بهینه‌سازی، برآورد خطا، تخمین و میانگین و بدترین نتیجه است. این معیارها بر دقت پیش‌بینی MLتمرکز دارند. علاوه براین، مقیاس‌پذیری، به صورت سنتی برای ارزیابی یک برنامه موازی، تجزیه و تحلیل داده بزرگ استفاده می‌شود. مقیاس‌پذیری به عنوان معیار داده در عملیات I / O، تحمل‌پذیری خطا، زمان واقعی استفاده از پردازش، حافظه، اندازه داده پشتیبانی، وظیفه پشتیبانی تکرارشونده، و توان استفاده می‌شود [106].

پژوهش‌ های آینده و نتیجه‌ گیری

در این مقاله یک مرور کلی در مرود فرصت‌ها و چالش‌های ML بر روی داده‌های بزرگ ارائه شده است. داده‌های بزرگ با چالش‌های متعددی برای ایجاد MLسنتی از نظر مقیاس‌پذیری، سازگاری، قابلیت استفاده، و ارائه جدید فرصت‌ها برای الهام بخشیدن به راه‌حل‌های ML و بسیاری از چالش‌های فنی مرتبط رو به رو هستند. این فرصت‌ها و چالش‌ها به‌عنوان مواردی امیدوارکننده در تحقیقات آینده به شمار می‌روند. برخی از مسائل باز مربوط به پژوهش در ML داده‌های بزرگ با توجه به اجزای چارچوب MLBiD، همانطور که در جدول 2 نشان داده شده است برجسته شده است.

بیشترین کار موجود بر روی ML برای داده‌های بزرگ به حجم و سرعت متمرکز شده است، اما کارهای بسیاری وجود دارد که به دو جنبه باقی‌مانده از داده‌های بزرگ پرداخته است: صحت و ارزش. برای رسیدگی به صحت داده‌ها، راه‌حل امیدوارکننده این مقاله توسعه الگوریتمی است که قادر به دسترسی قابل اعتماد با اعتبارسنجی به داده‌ها یا اطلاعات منابع باشد به‌طوری‌که داده‌های غیر قابل اعتماد می‌توانند در طول پردازش اولیه داده فیلتر شوند؛ یکی دیگر از جهات برای توسعه ML مدل‌های جدیدی است که می‌توانند با داده‌های غیرقابل اعتماد و یا حتی تناقض استنتاج شوند. برای پی بردن به ارزش داده‌های بزرگ در پشتیبانی تصمیم، نیازداریم تا به درک کاربران از نتایج ML و منطق پشت هر سیستم تصمیم‌گیری کمک کنیم. بنابراین، توضیح ML یک منطقه تحقیقاتی مهم در آینده خواهد بود. علاوه براین، برای حمایت از داده‌های بزرگ انسان در حلقه ML، نیاز به رسیدگی به سوالات اساسی پژوهش‌ مانند چگونگی به دست آوردن موثر مقدار زیادی اطلاعات از طریق جمعیت هستیم. علاوه براین، برخی مسائل تحقیقاتی باز در این زمینه عبارتند از: (1) چگونه از حریم خصوصی داده‎ها در حال اجرای MLمحافظت کنیم؛ (2) چگونه ML را بیشتر اعلان کنیم به‌طوری‌که برای افراد غیرمتخصص مشخص و تعامل با آن برایشان آسان‌تر باشد؛ (3) چگونه دامنه دانش کلی را با ML ترکیب کنیم و (4) نحوه طراحی داده‌های بزرگ معماری جدید ML برای پشتیبانی یکپارچه براساس تجزیه و تحلیل زمان واقعی از مقدار زیادی از داده‌های ناهمگن که ممکن است قابل اعتماد نباشد.

به طور خلاصه، ML برای مرتفع کردن چالش‌های ناشی از داده‌های بزرگ و کشف الگوهای پنهان، دانش و بینش از داده‌های بزرگ به‌منظور ایجاد ارزش واقعی کسب و کار ضروری است. همراهی ML و داده‌های بزرگ به آینده‌ای موفق در یک مرز جدید اشاره دارد.

متن علمی درباره فرصت ها و چالش ها در یادگیری ماشین (دانلود رایگان مقاله انگلیسی به همراه ترجمه فارسی)مقاله یادگیری ماشین قاله ISI در سال 2017 در نشریه الزویر و در مجله کامپیوترهای عصبی، توسط بخش سیستم های اطلاعاتی منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله فرصت ها و چالش ها در یادگیری ماشین در سایت ای ترجمه مراجعه نمایید.

مقاله یادگیری ماشینمقاله داده های بزرگمقاله پیش‌ پردازش داده‌ هامقاله ارزیابیمقاله موازی‌ سازی
خدمات ارائه مقالات علمی و سفارش ترجمه تخصصی
شاید از این پست‌ها خوشتان بیاید