چکیده
یادگیری ماشین (ML) بهطور مداوم قدرت خود را در طیف گستردهای از برنامههای کاربردی نشان میدهد. این مسئله در سال های اخیر تا حدودی با توجه به ظهور دادههای بزرگ بیشتر مورد توجه قرار گرفته است. الگوریتم ML هرگز بهترین عملکرد خود را نداشت تا اینکه توسط دادههای بزرگ به چالش کشیده شد. دادههای بزرگ، الگوریتم ML را قادر به کشف الگوهای دقیقتر و پیشبینی به موقع تر و دقیق تر از قبل کردند. از سوی دیگر، چالشهای بزرگی در ML مانند مقیاسپذیری مدل و محاسبات توزیع شده مطرح کرد. در این مقاله، یک چارچوب از ML در دادههای بزرگ (MLBiD) برای هدایت بحث به فرصتها و چالشهای آن معرفی خواهد شد. چارچوب ML محور، شامل مراحل پیش پردازش، یادگیری و ارزشیابی است. علاوه براین، چارچوب شامل چهار جزء دیگر، مانند دادههای بزرگ، کاربران، دامنه و سیستم است. مراحل ML و اجزای MLBiD برای شناسایی فرصتهای مرتبط و چالشها و روشن کردن مسیر کاری آینده در بسیاری از موارد ناشناخته و یا در پژوهش حاضر ارائه شده است.
معرفی
تکنیکهای یادگیری ماشین (ML) تاثیرات اجتماعی بزرگی در طیف گستردهای از برنامههای کاربردی مانند بینایی کامپیوتر، پردازش سخنرانی، درک زبان طبیعی، علوم اعصاب، بهداشت و اینترنت اشیا داشته است. ظهور عصر داده ای بزرگ موجب توجه به ML گردید. الگوریتم ML هرگز بهترین نتایج را به همراه نداشت و توسط دادههای بزرگ برای به دست آوردن بینش جدیدی در برنامههای کاربردی مختلف کسب و کار و رفتار انسان به چالش کشیده شد. از یک طرف، دادههای بزرگ اطلاعات بیسابقهای غنی برای الگوریتم ML برای استخراج الگوهای اساسی و ساخت مدلهای پیشبینی فراهم میکند. از سوی دیگر، الگوریتمهای سنتی ML با چالشهای مهمی مانند مقیاسپذیری مقادیر واقعی و پنهان داده های بزرگ رو به رو هستند. با گسترش وسیع دادههای بزرگ، ML در جهت تبدیل دادههای بزرگ به هوش عملی رشد و پیشرفت کرد.
ML به این پرسش که چگونه یک سیستم کامپیوتری بسازیم که به طور خودکار از طریق تجربه بهبود یابد پاسخ میدهد[1]. مشکل ML بهعنوان مشکل یادگیری از تجربه با توجه به برخی از وظایف و اندازهگیری عملکرد اشاره دارد. تکنیکهای ML کاربران را قادر به کشف ساختار زیرین و پیشبینی از مجموعه دادههای بزرگ میکند. ML در تکنیکهای یادگیری کارآمد (الگوریتم)، دادههای بزرگ غنی و محیطهای محاسبات قدرتمند بسیار کارآمد است. بنابراین، ML پتانسیل زیادی دارد تا بخش مهمی از تجزیه و تحلیل دادههای بزرگ [2] گردد.
چارچوب یادگیری ماشین در داده های بزرگ
چارچوب ML در دادههای بزرگ (MLBiD) در شکل 1 نشان داده شده است. MLBiD بر جزء یادگیری ماشین (ML) استوار است، که با چهار جزء دیگر، از جمله دادههای بزرگ، کاربر، دامنه و سیستم تعامل برقرار میکند. فعل و انفعالات در هر دو جهت اتفاق میافتد. به عنوان مثال، دادههای بزرگ بهعنوان ورودی به ML وارد میشوند و خروجی تولید میشود، که به نوبه خود تبدیل به بخشی از دادههای بزرگ میگردد؛ کاربر ممکن است با ML برای ارائه دامنه دانش، ترجیحات شخصی و بازخورد قابلیت استفاده و با اعمال نفوذ نتایج یادگیری بهمنظور بهبود تصمیمسازی تعامل برقرار میکند؛ دامنه میتواند هم بهعنوان یک منبع دانش برای خدمت به راهنمای ML و هم بهعنوان زمینه اعمال در مدل یادگیری استفاده شود؛ معماری سیستم بر چگونگی اجرای الگوریتمهای یادگیری و چگونگی اجرای کارآمد آنها تاثیر دارد و بهطور همزمان پاسخگویی به نیازهای ML ممکن است به یک شرکت طراحی معماری سیستم منجر شود. سپس جزئی از MLBiD بهطور جداگانه معرفی میکنیم.
یادگیری ماشین
ML معمولا از طریق پردازش دادهها، یادگیری و مرحله ارزیابی (شکل 1 را ببینید) پیگیری میشود. پیش پردازش دادهها کمک میکند تا دادههای خام به "شکل درست" برای مراحل یادگیریهای بعدی آماده شود. دادههای خام به احتمال زیاد بدون ساختار، نویزدار، ناقص و متناقض هستند. گام پیشپردازش، دادهها را به شکلی که میتوان به عنوان ورودی برای یادگیری دادهها از طریق، استخراج، تبدیل، و همجوشی استفاده کرد تبدیل میکند. فاز آموزش، الگوریتمهای یادگیری را انتخاب و پارامترهای مدل را برای تولید خروجی مورد نظر با استفاده از پیش پردازش دادههای ورودی به کار میگیرد. برخی روشهای یادگیری، بهویژه یادگیری بازنمودی، نیز میتواند برای پیش پردازش دادهها استفاده شود. ارزیابی برای تعیین عملکرد مدل به دست آمده بسیار مفید است. برای مثال، ارزیابی عملکرد یک طبقهبندی شامل انتخاب مجموعه داده، اندازهگیری عملکرد، برآورد خطا و آزمونهای آماری است [4]. بررسی نتایج ممکن است به تنظیم پارامترهای انتخاب شده در الگوریتمهای یادگیری و / یا انتخاب الگوریتمهای مختلف منجر شود.
فرصت ها و چالش های پیش پردازش داده ها
بخش عمدهای از تلاش واقعی در استقرار سیستم ML صرف طراحی پیشپردازش خطوط لوله و تحولات داده میشود که منجر به نمایش موثر اطلاعات با پشتیبانی ML میگردد [6]. پیشپردازش دادهها با هدف رسیدگی به تعدادی از مسائل مانند افزونگی داده، تناقض، نویز، عدم تجانس، تحول، برچسب گذای (برای ML (نیمه) نظارت شده)، عدم تعادل دادهها و نمایش/ انتخاب ویژگی است. آمادهسازی دادهها و پردازش، با توجه به نیاز به کار انسانی و تعداد زیادی از گزینههای انتخاب معمولا پرهزینه است. علاوه براین، برخی از فرضیات معمولی داده برای دادههای بزرگ کاربرد ندارد، در نتیجه برخی از روشهای پیشپردازش غیرممکن میگردد. ازسوی دیگر، دادههای بزرگ موجب کاهش فرصت تکیه به نظارت انسان با آموختن از منابع داده عظیم و متنوع میگردد.
افزونگی داده ها
تکرار زمانی رخ میدهد که دو یا چند نمونه داده موجودیت یکسانی را نشان دهند. تاثیر تکرار دادهها و یا تناقض در ML میتواند شدید باشد. با وجود طیف وسیعی از روشها برای شناسایی موارد تکراری توسعه یافته در 20 سال گذشته [11]، روشهای سنتی مانند مقایسه دو به دو شباهتها، دیگر برای دادههای بزرگ امکانپذیر نیست. علاوه براین، فرض سنتی،جفتهایی را که در مقایسه با جفت غیرکپی دیگر در اقلیت هستند تکرار میکند. برای این منظور، زمان پویا میتواند بسیار سریعتر از الگوریتمهای فاصله اقلیدسی عمل کند [12].
فرصت های یادگیری و چالش ها
توسعه الگوریتمهای ML مقیاسپذیر که قادر به استفاده از مجموعه دادههای بزرگ هستند، موضوع تحقیق طولانی مدتی در ارتباطات ML قبل از ظهور "دادههای بزرگ" بود. برای سازماندهی بهتر بحث در مورد فرصتها و چالش، یک طبقهبندی از روشها / پلتفرمها برای ML در دادههای بزرگ پیشنهاد شده است، که در جدول 1 نشان داده شده است.
عدم موازی سازی
بهینهسازی در قلب بسیاری از روشهای ML قرار دارد. روشهای بهینهسازی سنتی به بهینهسازی ترکیبی (جستجوی حریصانه، جستجو پرتو، شاخه و حد) و بهینهسازی پیوسته طبقهبندی میشوند [57]. سپس به بهینهسازی نامحدود (بهعنوان مثال، گرادیان نزولی، گرادیان مزدوج، روش شبه نیوتن) و محدود (بهعنوان مثال، برنامهریزی خطی، برنامهنويسي درجه دوم) گروهبندی میشوند. زمانی که مجموعه داده آموزش بزرگ باشد بهینهسازی محدود اغلب پرهزینه است. یک راهحل ممکن محاسبه بهینه تقریبی است. الگوریتم بزرگ مقیاس بهینهسازی، از گرادیان نزولی تصادفی، فاصله مختصاتی تصادفی و بهینهسازی توزیع شده به خصوص برای یادگیری الگوریتمهای تصادفی تقریبی از دادههای بزرگ مقیاس [41] استفاده میکند. با این وجود، روش گرادیان نزولی تصادفی به برای موازیسازی دشوار است [58] و بعید است که عملکرد شگفتانگیزی برای مسائل در مقیاس بزرگ به همراه داشته باشد.
فرصت های ارزیابی و چالش ها
ML سنتی دارای مجموعه معیارهایی برای ارزیابی عملکرد، مانند دقت، میزان خطا، جامعیت، مربع خطا، احتمال، کسب اطلاعات، اختلافK-L، هزینه، ابزار، حاشیه، خطا بهینهسازی، برآورد خطا، تخمین و میانگین و بدترین نتیجه است. این معیارها بر دقت پیشبینی MLتمرکز دارند. علاوه براین، مقیاسپذیری، به صورت سنتی برای ارزیابی یک برنامه موازی، تجزیه و تحلیل داده بزرگ استفاده میشود. مقیاسپذیری به عنوان معیار داده در عملیات I / O، تحملپذیری خطا، زمان واقعی استفاده از پردازش، حافظه، اندازه داده پشتیبانی، وظیفه پشتیبانی تکرارشونده، و توان استفاده میشود [106].
پژوهش های آینده و نتیجه گیری
در این مقاله یک مرور کلی در مرود فرصتها و چالشهای ML بر روی دادههای بزرگ ارائه شده است. دادههای بزرگ با چالشهای متعددی برای ایجاد MLسنتی از نظر مقیاسپذیری، سازگاری، قابلیت استفاده، و ارائه جدید فرصتها برای الهام بخشیدن به راهحلهای ML و بسیاری از چالشهای فنی مرتبط رو به رو هستند. این فرصتها و چالشها بهعنوان مواردی امیدوارکننده در تحقیقات آینده به شمار میروند. برخی از مسائل باز مربوط به پژوهش در ML دادههای بزرگ با توجه به اجزای چارچوب MLBiD، همانطور که در جدول 2 نشان داده شده است برجسته شده است.
بیشترین کار موجود بر روی ML برای دادههای بزرگ به حجم و سرعت متمرکز شده است، اما کارهای بسیاری وجود دارد که به دو جنبه باقیمانده از دادههای بزرگ پرداخته است: صحت و ارزش. برای رسیدگی به صحت دادهها، راهحل امیدوارکننده این مقاله توسعه الگوریتمی است که قادر به دسترسی قابل اعتماد با اعتبارسنجی به دادهها یا اطلاعات منابع باشد بهطوریکه دادههای غیر قابل اعتماد میتوانند در طول پردازش اولیه داده فیلتر شوند؛ یکی دیگر از جهات برای توسعه ML مدلهای جدیدی است که میتوانند با دادههای غیرقابل اعتماد و یا حتی تناقض استنتاج شوند. برای پی بردن به ارزش دادههای بزرگ در پشتیبانی تصمیم، نیازداریم تا به درک کاربران از نتایج ML و منطق پشت هر سیستم تصمیمگیری کمک کنیم. بنابراین، توضیح ML یک منطقه تحقیقاتی مهم در آینده خواهد بود. علاوه براین، برای حمایت از دادههای بزرگ انسان در حلقه ML، نیاز به رسیدگی به سوالات اساسی پژوهش مانند چگونگی به دست آوردن موثر مقدار زیادی اطلاعات از طریق جمعیت هستیم. علاوه براین، برخی مسائل تحقیقاتی باز در این زمینه عبارتند از: (1) چگونه از حریم خصوصی دادهها در حال اجرای MLمحافظت کنیم؛ (2) چگونه ML را بیشتر اعلان کنیم بهطوریکه برای افراد غیرمتخصص مشخص و تعامل با آن برایشان آسانتر باشد؛ (3) چگونه دامنه دانش کلی را با ML ترکیب کنیم و (4) نحوه طراحی دادههای بزرگ معماری جدید ML برای پشتیبانی یکپارچه براساس تجزیه و تحلیل زمان واقعی از مقدار زیادی از دادههای ناهمگن که ممکن است قابل اعتماد نباشد.
به طور خلاصه، ML برای مرتفع کردن چالشهای ناشی از دادههای بزرگ و کشف الگوهای پنهان، دانش و بینش از دادههای بزرگ بهمنظور ایجاد ارزش واقعی کسب و کار ضروری است. همراهی ML و دادههای بزرگ به آیندهای موفق در یک مرز جدید اشاره دارد.
متن علمی درباره فرصت ها و چالش ها در یادگیری ماشین (دانلود رایگان مقاله انگلیسی به همراه ترجمه فارسی)مقاله یادگیری ماشین قاله ISI در سال 2017 در نشریه الزویر و در مجله کامپیوترهای عصبی، توسط بخش سیستم های اطلاعاتی منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله فرصت ها و چالش ها در یادگیری ماشین در سایت ای ترجمه مراجعه نمایید.