آموختیم که یادگیری ماشین(Machine Learning) شامل ابزارها یا الگوریتمهایی است که مبتنی بر دادهها هستند. کار اصلی آنها حدس زدن بر اساس داده های گذشته و آموزشی است که به آنها ارائه شده است. بر خلاف الگوریتم های معمولی، خروجی آنها مبتنی بر داده است.
بطور خلاصه ما دستگاه را با دادههای آزمایشی بسیار زیادی آموزش داده و سپس آن را به ورودی انتقال میدهیم تا نتیجه را دریافت کنیم.
موارد زیر نمونههایی از کاربردهای توسعهیافتهتر یادگیری ماشین است که ممکن است در زندگی روزمره خود با آنها برخورد کرده باشید:
امتیازدهی اعتباری:
مؤسسات مالی، اطلاعات دقیقی را در مورد مشتریان خود در طول زمان جمع آوری می کنند - به عنوان مثال، درآمد، دارایی، شغل، سن، سابقه مالی. این داده ها را می توان تجزیه و تحلیل کرد تا مشخص شود کدام ویژگی ها بیشتر با پیامدهای منفی مانند عدم پرداخت وام ها مرتبط هستند، یا کدام ویژگی ها منجر به نتایج مثبت مانند بازپرداخت به موقع وام می شود. بنابراین، یک رابط پیش بینی می تواند ایجاد شود که می تواند مشتریان را بر اساس احتمال نکول آنها طبقه بندی کند و مؤسسه مالی می تواند از آن برای تصمیم گیری کارآمدتر در مورد وام ها استفاده کند.
تجزیه و تحلیل سبد:
هنگامی که یک مشتری در یک فروشگاه مواد غذایی یا بصورت آنلاین از طریق درگاه پرداخت خرید می کند، اطلاعات مربوط به اقلام خاص خریداری شده در یک پایگاه داده بزرگ قرار می گیرد. این پایگاه داده را می توان برای تعیین رفتارها یا ارتباطات خرید معمولی تجزیه و تحلیل کرد. به عنوان مثال، چقدر احتمال دارد مشتری که مسواک خریده است خمیر دندان هم بخرد؟ در بسیاری از موارد می توان داده های شخصی مشتری را جمع آوری کرد که می تواند به تجزیه و تحلیل چگونگی تغییر این رفتار در گروه های جمعیتی یا درآمدی خاص کمک کند. تجزیه و تحلیل این داده ها می تواند استراتژی و تصمیم گیری بازاریابی و تبلیغات را مشخص کند. همچنین میتواند منجر به تبلیغات شخصیشدهتر شود که در آن مشتری میتواند پیشنهاداتی را درباره محصولاتی که بیشتر به آنها علاقه دارد دریافت کند.
علم ژنتیک:
اعضای سرویس آنلاین یک آزمایشگاه، اطلاعات شخصی و سلامتی خود را همراه با نمونه ای از بزاق خود برای تجزیه و تحلیل DNA ارائه می دهند. به این اعضا اغلب پرسشنامه هایی در مورد سلامتی و ویژگی های شخصی آنها ارسال می شود. کدهای ژنتیکی افرادی که شرایط یا ویژگیهای سلامت مشابهی را گزارش میکنند را میتوان روی تعداد زیادی از افراد برای رشتهها یا بخشهایی که اغلب رخ میدهند، تجزیه و تحلیل کرد. اگر چنین رشته یا بخشهایی کشف شوند، میتوان از آنها برای پیشبینی ویژگیها یا مسائل پزشکی احتمالی که ممکن است پیش رو باشد استفاده کرد. این نوع یادگیری همچنین میتواند برای شناسایی روابط بیولوژیکی بین اعضای سرویس مورد استفاده قرار گیرد، در برخی موارد اعضای خانواده که از طریق فرزندخواندگی یا شرایط دیگر از هم جدا شدهاند را به هم پیوند میدهد.
ارزش گذاری:
داده های مربوط به فروش خودرو در یک دوره زمانی را می توان تجزیه و تحلیل کرد تا مشخص شود که چه ویژگی های خودرو بیشتر بر قیمت و حساسیت قیمت به این ویژگی ها تأثیر می گذارد. بر این اساس، ابزارهای ارزیابی آنلاین اکنون در دسترس هستند که می توانند محدوده قیمت یک خودرو را بر اساس اطلاعات وارد شده توسط مالک توصیه کنند. سایر کاربردهای رایج عبارتند از تشخیص پزشکی، تبدیل دست خط به متن، تشخیص گفتار، تشخیص چهره، فشرده سازی تصویر، روباتیک، وسایل نقلیه اتومات و بسیاری کاربردهای دیگر.
یادگیری ماشین را می توان به سه دسته اصلی طبقه بندی کرد:
یادگیری تحت نظارت
الگوریتم های یادگیری نظارت شده، از مجموعه آموزشی داده های ورودی و خروجی استفاده می کنند. الگوریتم، یک رابطه بین داده های ورودی و خروجی را از مجموعه آموزشی یاد می گیرد و سپس از این رابطه برای پیش بینی خروجی داده های جدید استفاده می کند. یکی از رایج ترین اهداف یادگیری تحت نظارت، طبقه بندی است.
یادگیری طبقه بندی شده
هدف یادگیری طبقه بندی، استفاده از اطلاعات آموخته شده برای پیش بینی عضویت در یک کلاس خاص است. مثال امتیازدهی اعتباری نشاندهنده یادگیری طبقهبندی است که افرادی را پیشبینی میکند که وامها را نکول میکنند.
یادگیری تقویتی
یادگیری تقویتی شکلی از یادگیری "آزمون و خطا" است که در آن، داده های ورودی الگوریتم را به یک پاسخ تحریک می کند، و در آن الگوریتم بسته به اینکه آیا پاسخ مورد نظر بوده است، "تشویق" یا "تنبیه" می شود. رباتیک و فناوری خودمختار از این شکل یادگیری استفاده زیادی می کنند.
یادگیری ماشین و "Big data(داده های بزرگ)" شهرت بیشتری پیدا کرده و در سال های اخیر مطبوعات زیادی را ایجاد کرده است. در نتیجه، بسیاری از افراد و سازمانها به این فکر میکنند که چگونه و آیا ممکن است در موقعیت خاص آنها اعمال شود و آیا ارزشی برای به دست آوردن آن وجود دارد یا خیر. با این حال، ایجاد قابلیتهای داخلی برای ماشین لرنینگ موفق (یا استفاده از تخصص خارجی) میتواند پرهزینه باشد. قبل از انجام این چالش، عاقلانه است که ارزیابی کنیم که آیا شرایط مناسب برای شانس موفقیت سازمان وجود دارد یا خیر. ملاحظات اصلی در اینجا به داده ها و بینش انسانی مربوط می شود.
سه نیاز داده مهم برای یادگیری ماشینی موثر وجود دارد. اغلب، همه این الزامات را نمی توان به طور رضایت بخش برآورده کرد و کاستی های یکی می تواند با یکی یا هر دو مورد دیگر جبران شود. این الزامات عبارتند از:
کمیت:
الگوریتم های یادگیری ماشین به تعداد زیادی مثال نیاز دارند تا بتوانند قابل اطمینان ترین نتایج را ارائه دهند. بیشتر مجموعههای آموزشی برای یادگیری تحت نظارت شامل هزاران یا دهها هزار مثال است.
تغییرپذیری:
هدف یادگیری ماشین مشاهده شباهت ها و تفاوت ها در داده ها است. اگر داده ها بیش از حد مشابه (یا خیلی تصادفی) باشند، نمی توانند به طور موثر از آنها یاد بگیرند. برای مثال، در یادگیری طبقه بندی، تعداد نمونه های هر کلاس در داده های آموزشی برای شانس موفقیت بسیار حائز اهمیت است.
ابعاد:
مشکلات یادگیری ماشین اغلب در فضای چند بعدی عمل می کنند و هر بعد با یک متغیر ورودی خاص مرتبط است. هر چه مقدار اطلاعات از دست رفته در داده ها بیشتر باشد، فضای خالی بیشتر است که مانع یادگیری می شود. بنابراین میزان کامل بودن داده ها عامل مهمی در موفقیت فرآیند یادگیری است.
یادگیری ماشین همچنین می تواند با بینش انسانی با کیفیت بالا کمک کند. جایگشتها و ترکیبهای تحلیلها و سناریوها که از مجموعه دادههای معینی قابل مطالعه است، اغلب بسیار گسترده است. با گفتگو با کارشناسان موضوع می توان وضعیت را ساده کرد. بر اساس دانش خود از موقعیت، آنها اغلب می توانند جنبه هایی از داده ها را که به احتمال زیاد بر مبنای ارائه بینش است، برجسته کنند. به عنوان مثال، یک کارشناس استخدام میتواند به شناسایی نقاط دادهای کمک کند که به احتمال زیاد تصمیمات انتخاب شرکت را بر اساس سالها مشارکت و مشاهده آن تصمیمها هدایت میکنند. دانش فرآیندهای اساسی در یک سازمان همچنین میتواند به محقق داده کمک کند تا الگوریتمی را انتخاب کند که به بهترین شکل، آن فرآیند را مدل می کند و بنابراین شانس موفقیت بیشتری دارد.
در فصل بعدی نحوه عملکرد یادگیری ماشین را مورد بحث قرار خواهیم داد.