در کتاب معروف«هوش مصنوعی، یک رویکرد مدرن» دیدگاههای مختلف از دو بعد مورد بررسی قرار گرفتهاند. از منظر اول هوشمندی یا در رفتار است یا در تفکرو از منظر دوم هوشمندی در انسانگونه بودن یا در منطقی بودن (rationality) است. اگر همهی حالات را در نظر بگیریم به چهار تعریف زیر میرسیم. هوش مصنوعی چیزی است که:
فرض کنید هوشمندی مورد نظر خود را انتخاب کردیم. قدم بعدی ساخت عامل هوشمنداست. عامل میتواند سختافزاری یا نرمافزاری باشد و بر حسب محیطی که عامل قرار است در آن مورد استفاده قرار گیرد، میتواند دارای اجزای مختلفی باشد. امروزه هر برنامهای که هوشمندی داشته باشد یا به نوعی رفتار انسان را تقلید کند، به عنوان هوش مصنوعی پذیرفته میشود. یادگیری ماشین بعد از هوش مصنوعی موضوعیت پیدا کرد و آن را میتوان زیر مجموعهی هوش مصنوعی در نظر گرفت.
یکی از مهمترین ویژگیهای یادگیری ماشین، یادگیری با استفاده از داده و بدون استفاده از دستورات مستقیم است ویژگی دیگر یادگیری ماشین، تغییر خود با دیدن دادههای جدید است؛ یعنی همانند انسان با کسب تجربیات جدید رفتار خود را تغییر میدهد. صنعت، دانشگاه، حوزهی سلامت، اقتصاد و تجارت، کسب و کارها و بسیاری دیگر، از یادگیری ماشین برای پیشبرد اهداف خود استفاده میکنند.
زبان پایتون و R از محبوبترین زبانهای قابل استفاده برای یادگیری ماشین هستند و کتابخانههای بسیار قدرتمندی در این زبانها برای رفع نیازهای علاقهمندان این حوزه در حال گسترش است.
موقعیتهای شغلی مرتبط با یادگیری ماشین
تحلیلگر داده ( (Data Analyst
تحلیلگر داده شدن، نسبت به دیگر شغلهای مرتبط با داده آسانتر است و قبل از آنها وجود داشته است.
داشتن مهارتهای برنامهنویسی برای تحلیلگر داده ضروری نمیباشد و میتواند از نرمافزارها یا سرویسهای وب برای انجام کارهای خود استفاده کند.
دانشمند داده ( (Data Scientist
دانشمند داده امور دادهکاوی را معمولا با زبانهای برنامهنویسی و کتابخانههای آن انجام میدهد ولی تحلیلگر از پلتفرمها و نرمافزارها استفاده میکند. تحلیلگر با همه در ارتباط است و معمولا سوالات را دیگران برایش مطرح میکنند اما دانشمند داده خودش سوالات را طرح میکند، سوالاتی که در تصمیمات شرکت تاثیرگذار هستند.
مهندس داده ( (Data Engineer
او پس از مشورت با دیگر اعضای شرکت انتخاب میکند که چه دادهای از میان سیل دادهی تولیدی در اختیار شرکت قرار بگیرد. پس از انتخاب منابع داده، دادههای منابع مختلف را یکپارچه میکند و برای نگهداری بهینهی آنها برنامهریزی میکند.
مهندس یادگیری ماشین در واقع نقطهی تلاقی مهندسی نرمافزار و علم دادهاست. این موقعیت بسیار حرفهای است. مهندس یادگیری ماشین علاوه بر اینکه داده را تا رسیدن به مدل همراهی میکند، مسئول رساندن خروجی به کاربر نهایی نیز هست. او مدل تولید شده را بررسی میکند و یا پس از انجام بررسیهای لازم، مدل نظری را وارد فرآیند عملیاتی میکند. او باید پیچیدگیهای محاسباتی و حافظهای را محاسبه کند و مدل طراحی شده توسط دانشمند داده را برای کار در مقیاس بزرگ آماده کند.
وظایف مهندس یادگیری ماشین جنبهی نظری و عملیاتی دارند. به این صورت که او باید دانش کاملی از الگوریتمها و روشهای یادگیری ماشین داشته باشد. هم قبل از استقرار مدل، آن را مورد بررسی و تحلیل قرار دهد و هم بر فرآیند عملیاتی ساختن آن و محاسبهی پیچیدگیها نظارت داشته باشد. سپس بعد از استقرار، مسئول نظارت و رسیدگی به آن خواهد بود.
معمولا حقوق دانشمند داده از تحلیلگر داده بیشتر است و مهندس یادگیری ماشین و مهندس داده از دوتای قبلی بیشتر.
مفاهیم پایه
یادگیری ماشین در اکثر کاربردهای فعلی، یک برنامه کامپیوتری است که به داده دسترسی پیدا میکند و از آن برای آموزش خود استفاده میکند.
دهه پنجاه میلادی یکی از مهندسان IBM که نامش آقای آرتور ساموئل بود، برای اولین بار از کلمه یادگیری ماشین استفاده کرد و تعریف زیر را برای آن ارائه داد: یادگیری ماشین زمینهای از تحقیقات است که به کامپیوترها توانایی یادگیری بدون برنامهنویسی صریح را میدهد. پس از او، آقای نیلز نیلسون کتابی تحت عنوان یادگیری ماشین منتشر کرد که اولین مدلهای یادگیری ماشین در آن مورد بررسی قرار گرفت.
با وجود اینکه به طور مستقیم در تعریف قدیمی نیامده، ویژگی اصلی یادگیری ماشین خود آموزشی یا (Self- learning) میباشد که به معنی استفاده از مدلسازی آماری و عدم استفاده از دستورات مستقیم (یا صریح) میباشد. به عقیده بسیاری در آموزش الگوریتم یادگیری ماشین، نیازی به دخالت انسان برای یادگیری نیست. به بیان دیگر، الگوریتم خود، نیازهای خود را تشخیص میدهد و خود را ارتقا میدهد. این نکته را در نظر بگیرید که تعریفی که برای یادگیری ماشین ارائه میشود ممکن است برای همه انواع آن درست نباشد. برای مثال، در یادگیری بانظارت، همانطور که از اسمش پیداست یادگیری با نظارت انسان صورت میگیرد.
داده
دادهها عنصر محوری یادگیری ماشین هستند و ماشینها از دادهها یاد میگیرند، به این صورت که ما دادهها را به عنوان ورودی به الگوریتم میدهیم تا خروجی مورد نیازمان را دریافت کنیم. آنچه داده را ارزشمند میکند نمایندگی آن از واقعیت است و اطلاعاتی که درباره آن در اختیارمان میگذارد. همچنین به ما این اجازه را میدهد که درباره ارتباط بین توصیفات مختلف یک وضعیت بپرسیم و اطلاعاتی به دست آوریم.
کلمات (زبان طبیعی): دادهای که پردازش زبان طبیعی با آن کار میکند، جملات و کلمات تولید شده توسط انسانها هستند، که ممکن است به صورت نوشتاری یا صوت در اختیار الگورتیمهای کامپیوتری قرار بگیرد. برخی از کاربردهای این حوزه عبارتند از: تشخیص گفتار، دستهبندی نوشتارها یا نظرات، پاسخ دادن به سوالات
تصاویر: توانایی استخراج اطلاعات از داخل تصاویر امکان فوقالعادهای را در اختیار یک عامل هوش مصنوعی میگذارد و هدف معمولاً تشخیص شیء یا اشیای موجود در تصاویر است. از کابردهای روزمره بینایی ماشین میتوان به تشخیص پلاک خودروها توسط پلیس، تشخیص اثر انگشت یا چهره برای باز کردن قفل گوشی یا کامپیوتر، جستجو میان تصاویر بر اساس اجسام موجود در عکس، پردازش تصاویر ماهوارهای برای هواشناسی یا تشخیص وقایع زیستمحیطی و ماشینهای خودران اشاره کرد.
همچنین بینایی ماشین در پزشکی نیز کاربرد دارد و مثلاً میتواند نیاز به متخصص رادیولوژی را برای بررسی تصاویر پزشکی اشعه ایکس، MRI یا سونوگرافی را کاهش دهد.
جداول:
نوع جدولی را داده ساختارمند مینامیم. دادههای جدولی را میتوان به طور کلی به ۲ زیردسته تقسیمبندی کرد:
سری زمانی: در مورد بعضی از انواع داده، تغییرات آن و در نتیجه مقدار آن در طول زمان اهمیت ویژهای دارد. از دیدگاه آرتور ساموئل، یادگیری ماشین با برنامه نویسی صریح تفاوت دارد. داده همان تجربهای است که به عنوان ورودی به الگوریتم داده میشود. یادگیری نظارت شده، که یکی از انواع یادگیری ماشین است، بیشترین کاربرد را در امور یادگیری ماشین دارد.
آقای تام میشل(Tom Mitchell) در کتاب یادگیری ماشین خود، یادگیری ماشین را از دید مهندسی به این شکل تعریف کرده است:
اگر کارایی برنامه در انجام تکلیف T که با سنجه P ارزیابی میشود، با تجربه E افزایش یابد، میگوییم که برنامه یاد گرفته است از تجربه E با توجه به تکلیف T و سنجه P استفاده کند.
تکلیف T : تکلیف T در واقع همان مسالهای است که ما انتظار داریم بتوانیم با یادگیری ماشین حل کنیم.
تجربه E: برای انجام فرایند یادگیری، که منجر به حل تکلیف T میشود، ما نیازمند تعدادی نمونه (sample) هستیم که اطلاعات مورد نیاز در مورد مساله را به ما میدهند.
در یادگیری بانظارت هر نمونه دارای یک برچسب (label) است و انتظار داریم الگوریتم بتواند با داشتن سایر ویژگیها، مقدار این برچسب را برای مشتری جدید پیشبینی کند.
سنجهی :P هر مدل یادگیری ماشینی که طراحی کنیم، به هرحال به طور ۱۰۰ درصدی نتیجه درست و مناسبی را ارائه نمیدهد؛ بنابراین به معیاری برای بررسی و اندازهگیری میزان دقت این الگوریتم نیاز داریم تا در صورت نامناسب بودن دقت آن، با تغییر پارامترهای الگوریتم بتوانیم به دقت بالاتری برسیم. به این معیار سنجهی P میگوییم.
به طور کلی رویکرد انجام یادگیری ماشین، دارای ۴ عنصر اساسی است:
1. یک الگوریتم (مدل) برای تصمیمگیری
2. یک معیار برای امتیازدهی اینکه عملکرد مدل چقدر خوب بوده
3. بررسی خودکار کیفیت مدل بر اساس امتیاز
4. یک روش خودکار برای بهبود امتیاز بر اساس ایجاد تغییرات در مدل
به طور کلی یادگیری ماشین به سه دسته کلی تقسیمبندی می شود.
الگوریتمهای یادگیری نظارتشده، به دو دسته طبقهبندی (classification) و رگرسیون (regression) دستهبندی میشوند. هر دو دستهی طبقهبندی و رگرسیون به دادههای برچسب خورده نیاز دارند و الگوریتم پیشبینی آنها را یاد میگیرد. اما این برچسبها، کمی با هم تفاوت دارند.
تفاوت طبقه بندی و رگرسیون: هر دو دسته یاد میگیرند تا برچسب دادهها را پیشبینی کنند و تنها تفاوت میان این دو دسته، به نوع این برچسب بستگی دارد. در الگوریتمهای طبقهبندی برچسبی که میخواهیم پیشبینی کنیم به صورت متغیری گسسته میباشد.
در الگوریتمهای رگرسیونی، برخلاف طبقهبندی، برچسبی که میخواهیم پیشبینی کنیم به صورت متغیری پیوستهاست.
یادگیری بدون نظارت: در این روش یادگیری، مدل به تنهایی و بدون کمک برچسبهایی که در روش نظارتشده دیدیم، باید الگوهای پنهان را پیدا کند. از یادگیری بینظارت اکثرا برای تحلیل اکتشافی دادهها و خوشهبندی استفاده میشود. الگوریتمهای یادگیری ماشین بینظارت، به طور کلی به سه دسته خوشهبندی (clustering)، کاهش ابعاد (dimensionality reduction) و استخراج قانون وابستگی (association rule mining) تقسیمبندی میشود.
خوشهبندی به معنی دستهبندی اتوماتیک دادهها به خوشههای همگن است، به این صورت که دادههای هر خوشه، ویژگیهای یکسانی داشته باشند. اولین گام برای خوشهبندی دادهها، انتخاب کردن معیاری برای خوشهبندی است؛ به عبارت دیگر در این گام باید معیاری برای سنجش فاصله بین دادهها انتخاب کنیم.
روش کاهش ابعاد یعنی کاهش دادن تعداد ویژگیهایی که از آنها برای آموزش مدل یادگیری ماشین خود استفاده میکنیم. مسائل و مشکلاتی که به هنگام کار با دادههای دارای ابعاد زیاد مطرح می شود تحت عنوان the curse of dimensionality شناخته میشود. زمانی که ابعاد بیشتری داریم، مدل یادگیری ماشین پیچیده شده و این باعث بهوجود آمدن بیشبرازش (overfitting) میشود. بیشبرازش باعث میشود که مدل یادگیری ماشین به دادههایی که روی آن آموزش دیده وابسته شود و روی دادههایی که تا به حال ندیده است عملکرد مطلوبی نداشته باشد.
یادگیری تقویتی، یکی از روش های یادگیری ماشین است که با ذهنیت آزمون و خطا کار میکند. عامل هوشمند (agent) طبق حالت جاری(state) ، حرکت(action) انجام میدهد و بر اساس آن حرکت بازخورد (reward) دریافت میکند؛ این بازخورد ممکن است مثبت یا منفی (پاداش یا تنبیه) باشد و عامل با این بازخورد خطمشی (policy) خود را تغییر میدهد. این روش از یادگیری نزدیکترین حالت به یادگیری انسان است. یادگیری تقویتی برخلاف یادگیری بانظارت و یادگیری بینظارت وابسته به داده نیست، بلکه به واسطه تعامل با محیط میآموزد. یادگیری تقویتی برخلاف یادگیری بانظارت و یادگیری بینظارت وابسته به داده نیست، بلکه به واسطه تعامل با محیط میآموزد.
ذخیرهسازی و پردازش بهینهی آرایههای عددی از اهمیت بسیاری برخوردار است. کتابخانه مختص این کار در پایتون نامپای نام دارد که مخفف numeric python به معنی پایتون عددی میباشد. یکی دیگر از کتابخانههای مهم اکوسیستم کار با داده پایتون، پانداس میباشد که از نامپای در بطن خود استفاده میکند. مت پلات لیب بیشتر در ساخت نمودارهای ۲ بعدی کاربرد دارد و رابط کاربری آن بسیار شبیه به متلب است. سایکتلرن حاوی ابزارهای متنوعی برای یادگیری ماشین و مدلسازی آماری است. علاوه بر موارد ذکر شده، کتابخانههای بسیار قدرتمند دیگری برای زمینههای دیگر کار با داده در پایتون وجود دارد. برای مصور سازی داده میتوان از پلاتلی (Plotly) و سیبورن (Seaborn) هم استفاده کرد. برای امور یادگیری عمیق، پایتورچ (Pytorch) ، تنسورفلو (TensorFlow) و کراس(Keras) بیشتر مورد استفاده قرار میگیرند. برای پردازش متن nltk و اسپیسی (Spacy) کارایی بیشتری دارند و در زمینه پردازش عکس میتوان از کتابخانههای اوپن سیوی (OpenCV) و سایکت ایمیج (scikit-image) نام برد.
داده اساس یادگیریماشین است و هیچ الگوریتم و مدلی با داده بد نمیتواند عملکرد خوبی داشته باشد. کمیت نامناسب داده، داده بیکیفیت و ویژگیهای نامربوط از جمله چالشهایی است که به داده مربوط میشوند.
تعداد ناکافی داده، داده بیکیفیت که پر است از مقادیر اشتباه و گمشده
چالش های الگوریتمی: بیشبرازش (Overfitting)، کمبرازش (Underfitting) و زمان نمونهای از چالشهای مربوط به مدلها و الگوریتمهای هوشمصنوعی و یادگیریماشین هستند.
مساله زمان: زمان در یادگیریماشین از دو جهت اهمیت دارد؛ هم مدت زمانی که طول میکشد تا آموزش مدل تمام شود، هم زمانی که مدل برای پیشبینی نمونهها مصرف میکند. مدت زمانی که طول میکشد تا آموزش مدل تمام شود، طول مدت توسعه محصول را تحت تاثیر قرار میدهد و زمان مصرفی توسط مدل برای پیشبینی نمونهها زمانی است که کاربر نهایی تجربه میکند. دانشمند داده همواره سعی میکند هر دو زمان را کمینه کند.
چرخهی تب تکنولوژی (Technology Hype Cycle) را اولین بار موسسهی گارتنر (Gartner) در سال ۱۹۹۵ مطرح کرد. این چرخه، نمودار رشد تکنولوژیهای مختلف را در طی زمان نشان میدهد. بر این اساس هر تکنولوژی ۵ مرحلهی اصلی را طی میکند. به این صورت که ابتدا معرفی میشود و شروع به مشهور شدن میکند. در این مرحله اغلب شرکتها به استفاده از این فناوری جدید روی میآورند. در مرحلهی دوم که اوج قله است، نام آن تکنولوژی در همهجا شنیده شده و با جذب سرمایهگذار، بسیاری از استارتآپها شروع به معرفی و استفاده از آن میکنند. اما در مرحلهی سوم محدودیتهای این تکنولوژی شناخته میشود و آهسته از شهرت آن کاسته شده و بسیاری استفاده از آن را کنار میگذارند. در مرحلهی چهارم، تنها برخی کسانی که در عرصهی آن تکنولوژی باقی ماندهاند شروع به فعالیت اصلی در این حوزه کرده و تکنولوژی شروع به رشد میکند تا زمانی که به مرحله پایانی یعنی پختگی و ثبات نسبی برسد.
عاملهای هوشمندی که امروزه ساخته میشوند معمولا در حل یک مسئلهی خاص به هوشمندی رسیدهاند. مثل تشخیص انسانهای داخل تصویر یا انجام بازی شطرنج. به این نوع از هوش مصنوعی، هوش مصنوعی محدود یا ضعیف اطلاق میشود. در مقابل، آنچه هوش مصنوعی عمومی (artificial general intelligence) و یا قوی نامیده میشود، عبارت است از ساختن عامل هوشمندی که مانند انسان از هوشی عمومی برخوردار باشد که توانایی آموختن در مواجهه با هر مسئلهی جدیدی را داشته باشد و محدود به یک زمینه یا مسئلهی خاص نباشد.
در ادامهی تحولات شگفتی که برای هوش مصنوعی پیشبینی میشود، از نقطهای نام برده میشود که هم با شکوه و هم دلهره برانگیز است و آن نقطهی تکینگی فناوری (technological singularity) است. زمانی که پیشرفت تکنولوژی به نقطهای غیرقابل کنترل و برگشتناپذیر برسد که تمدن انسانی را تحت تاثیر قرار دهد.
هربرت سایمون که از پیشگامان هوش مصنوعی به شمار میرود و هم برندهی جایزهی تورینگ (معروف به نوبل محاسبات) و هم برندهی نوبل اقتصاد است در سال ۱۹۶۵ نوشته بود: «تا بیست سال دیگر، ماشینها قادر خواهند بود هر کاری که انسان انجام میدهد را انجام دهند». با این حال قابل ذکر است که بسیاری از صاحب نظران معتقدند تا سالهای دههی ۲۰۴۰-۲۰۵۰ شاهد چنین تحولات شگرفی خواهیم بود.
منبع: https://quera.ir/college/land/college/8522/