در دهه ۲۰۰۰، مشخص شد که نیازی به تعریف کامل همه جزئیات یک ویژگی از هوش(مانند هوش مصنوعی های سنتی که با شروط تو در تو ساخته میشدند) برای قادر شدن یک هوش مصنوعی به تقلید آن وجود ندارد. این پدیده به نام "اثر نامعقول دادهها" شناخته میشد که به وضوح نشان میداد که ترفندهای آماری در مجموعه داده های بزرگ میتوانند رفتار مغز را شبیه سازی کنند. این اصطلاح اولین بار توسط Peter Norvig، دانشمند مشهور کامپیوتر و مدیر تحقیقات گوگل ابداع شد. از این سالها به بعد بود که یک تغییر الگو در دنیای هوش مصنوعی رخ داده بود، حالا هوش مصنوعی مبتنی بر داده بود. و این به این معنا بود که به جای ثابت بودن و نیاز به تعریف تمام جزئیات یک هوش مصنوعی، دائم رفتار خود را بر اساس محیط و تجاربش تغییر میداد.
شاید از مفهوم یادگیری ماشین شنیده باشید، اما دقیقاً چیست؟ شاید به سادگی بتوانیم یادگیری ماشین را به عنوان یک ابزار برای تبدیل اطلاعات به دانش توصیف کنیم. یک کامپیوتر دادهها را مشاهده کرده، بر اساس مشاهدات یک مدل ایجاد میکند و آن را به عنوان فرضیه استفاده میکند، تا نرمافزار آن بتواند مسائل را حل کند.
توسعه دهندگان هوش مصنوعی نمیتوانند هر شرایط آینده را پیشبینی کنند و همیشه نمیدانند چگونه یک راه حل را خودشان تبدیل به کد کنند و دقیقا به این دلیل است که مفهوم یادگیری ماشین به وجود آمده است. یک مجموعه داده بزرگ به همراه تکنیکهای یادگیری ماشین میتوانند به خودی خود الگوها و دانش مخفی درباره یک مسئله را کشف کنند و انواع تصمیمگیریها را انجام دهند. یادگیری ماشین بسیار جذاب است چون قدرت بهبود توانایی هوش مصنوعی در خارج شدن از سیستمهای مبتنی بر قوانین، یادگیری و بهبود تعاملات با محیطهایش از جمله ما انسان ها را دارد.
اشکال مختلفی از یادگیری ماشین وجود دارد و هیچ رویکرد واحدی برای همه وظایف کار نمی کند. یکی از این رویکرد ها یادگیری نظارت شده نام دارد که از داده های برچسب گذاری شده استفاده می کند و به ویژه برای طبقه بندی اشیاء یا درک ارتباط بین متغیرهای وابسته و مستقل موثر است. اغلب در جاهایی که اهداف واضح هستند و دقت بسیار مهم است استفاده میشود. یادگیری یک تابع با تنها تعداد متناهی دستههای خروجی ممکن به نام "طبقهبندی" شناخته میشود، در حالی که یادگیری یک تابع که خروجیاش پیوسته است (مانند قد یا دما) با عنوان "رگرسیون" توصیف میشود. رگرسیون خطی شامل یافتن بهترین تطابق بین ورودی و خروجی است. هدف یادگیری نظارت شده، پیشبینی نتایج برای دادههای جدید است. در واقع تلاش دارد تا رفتار هدف را به عنوان تابعی از مجموعهای از ویژگیها توضیح دهد.
یادگیری با نظارت نیازمند مقدار زیادی داده برچسبگذاری شده است، معمولاً ۱۰ برابر تعداد پارامترهای استفاده شده. به عنوان مثال، اگر هوش مصنوعی شما تصاویر هواپیماها و پرندگان را بر اساس ۱۰۰۰ پارامتر تشخیص دهد، حداقل نیاز به ۱۰۰۰۰ تصویر برچسبگذاریشده برای آموزش آن دارید. ایجاد این تصاویر یک فرآیند هزینهبر است هم از لحاظ زمانی و هم مالی است. با این حال، راههایی برای تسریع کار و کاهش دخالت دستی وجود دارد. فیسبوک از تعداد بسیار زیادی تصویر از اینستاگرام که با هشتگها برچسبگذاری شده بودند، استفاده کرد. در حالی که برخی از این هشتگها (مانند #عالی) توصیفهای غیربصری بودند، فیسبوک از رویکرد جدیدی تحت عنوان "ضعیفاً نظارتشده" بهرهبرداری کرد که منجر به ایجاد یک مدل هوش مصنوعی با نرخ دقت ۸۵.۴٪ شد.
از طرفی دیگر ما یادگیری بدون نظارت را نیز داریم، یادگیری بدون نظارت یکجانبه است و دادههای ورودی آن بدون برچسب فراهم میشوند. بنابراین، عامل هوش مصنوعی باید از دادههای ورودی بدون بازخورد صریح یاد بگیرد. به طور معمول این رویکرد از "خوشهبندی" استفاده میکند تا خوشههای مفیدی از اطلاعات ارائه شده را شناسایی کند. به عنوان مثال، اگر به یک کودک جوان دستهای از توپها داده شود، او ممکن است آنها را بر اساس اندازه، رنگ یا الگو مرتب کند. خوشه بندی نیز چنین کاری را انجام میدهد. رویکرد های دیگری نیز وجود دارند، به عنوان مثال رویکردی تحت عنوان ارتباط، به دنبال اتصالات میگردد که اگر اتفاق X بیفتد، احتمالاً Y نیز رخ میدهد. اما معمولا خوشهبندی پر استفاده تر است.
زمانی که دسترسی به میلیونها تصویر از اینترنت به مدل هوش مصنوعی داده شود، مدل ممکن است خود را در حال گروهبندی تصاویر به گربهها، خانهها یا سلفیها ببیند. و با این حال، ممکن است به همان اندازه در مورد تفاوت های آب و هوایی مانند ابری، آفتابی و بارانی حساس شود. یادگیری بدون نظارت برای تحلیل اکتشافی داده بسیار قدرتمند است اما ممکن است منجر به برخی نتایج غیرمنتظره شود که ما انسان ها از آن میترسیم.