با اینکه همه از هوش مصنوعی صحبت میکنند، اما سازوکار درونی آن برای بسیاری یک راز باقی مانده است. در این مقاله، ما پرده از این راز برمیداریم و پنج حقیقت شگفتانگیز و قابل فهم را در مورد نحوه عملکرد واقعی هوش مصنوعی، بر اساس مفاهیم بنیادی آن، آشکار میکنیم.

--------------------------------------------------------------------------------
هوش مصنوعی یک موجودیت یکپارچه و واحد نیست. همانطور که بخشهای مختلف مغز انسان حواس متفاوتی را مدیریت میکنند، مدلهای مختلف هوش مصنوعی نیز برای انواع متفاوتی از دادهها طراحی شدهاند.
شبکه عصبی کانولوشنی (CNN) برای پردازش دادههای مکانی مانند تصاویر تخصص یافته است. این مدل با پیدا کردن الگوهای کوچکی مانند خطوط و گوشهها شروع میکند و سپس آنها را با هم ترکیب میکند تا اشیاء بزرگتری مانند یک چهره را شناسایی کند.
شبکه عصبی بازگشتی (RNN) برای دادههای متوالی که ترتیب در آنها اهمیت دارد، مانند متن و صدا، طراحی شده است. این مدل کلمات قبلی یک جمله را به خاطر میسپارد تا بتواند مفهوم کلمه بعدی را درک کند. با اینکه RNNها برای درک توالیها بنیادی بودند، امروزه قدرتمندترین مدلهای زبانی، مانند مدلهای پشت صحنه چتباتهای پیشرفته، از معماری پیچیدهتری به نام ترنسفورمر (Transformer) استفاده میکنند تا روابط طولانیتر و پیچیدهتر را در متن ثبت کنند.
به طور خلاصه، میتوان CNN را «قشر بینایی» و مدلهای مبتنی بر توالی مانند RNN و ترنسفورمر را «مراکز شنوایی و زبان» هوش مصنوعی در نظر گرفت. البته فراتر از اینها، دنیایی کامل از معماریها وجود دارد، از GANها که میتوانند تصاویر واقعی تولید کنند تا Autoencoderها که برای فشردهسازی داده استفاده میشوند، که هر کدام «مغز» تخصصی خود را دارند.
--------------------------------------------------------------------------------
شاید این سؤال برایتان پیش آمده باشد که چرا پردازندههای گرافیکی (GPU) برای هوش مصنوعی تا این حد حیاتی هستند. پاسخ در معماری کاملاً متفاوت آنها نهفته است.
یک CPU دارای چند هسته قدرتمند است که برای انجام وظایف پیچیده و متنوع به صورت متوالی (یکی پس از دیگری) طراحی شدهاند.
در مقابل، یک GPU هزاران هسته کوچکتر دارد که برای انجام همزمان (موازی) تعداد زیادی محاسبات ریاضی ساده طراحی شدهاند.
آموزش یک مدل هوش مصنوعی شامل میلیونها عملیات ساده ضرب و جمع است. معماری موازی GPU باعث میشود این محاسبات را به شکل چشمگیری سریعتر از CPU انجام دهد و به همین دلیل، GPU به «موتور» ایدهآل برای یادگیری عمیق تبدیل شده است. این اتکا به پردازش موازی حتی منجر به ساخت تراشههای سفارشی مانند TPU (واحد پردازش تنسور) توسط شرکتهایی چون گوگل شده است که به طور خاص برای نیازهای ریاضی شبکههای عصبی طراحی شدهاند.
اما این سختافزار قدرتمند بدون روشهای هوشمندانه برای آموزش کارآمد مدلها بیفایده است. این ما را به یکی از بزرگترین پیشرفتها در یادگیری هوش مصنوعی میرساند...
--------------------------------------------------------------------------------
یکی از کارآمدترین روشهای یادگیری در هوش مصنوعی، فاینتیون (Fine-tuning) است که شباهت زیادی به یادگیری انسان دارد. توسعهدهندگان به جای ساختن و آموزش یک مدل عظیم از ابتدا برای هر کار جدید، اغلب یک مدل قدرتمند و از قبل آموزشدیده را برمیدارند و آن را با دادههای جدید و خاص تنظیم میکنند.
این فرآیند شبیه به یک سرآشپز ماهر است که اصول آشپزی را بلد است (مدل از قبل آموزشدیده) و حالا یک سبک آشپزی منطقهای جدید را یاد میگیرد (دادههای جدید)، به جای اینکه از صفر شروع به یادگیری جوشاندن آب کند. این «تنظیم» میتواند عمیق باشد و تقریباً کل مدل را بازآموزی کند (Full fine-tuning)، یا سطحی باشد و فقط چند لایه نهایی را تغییر دهد (Partial fine-tuning)، که این فرآیند را فوقالعاده انعطافپذیر میکند. این روش که با نام یادگیری انتقالی (Transfer Learning) نیز شناخته میشود، موتوری است که پیشرفت انفجاری در تواناییهای هوش مصنوعی را به پیش میراند.
--------------------------------------------------------------------------------
این تصور که هوش مصنوعی یک «جعبه سیاه» غیرقابل نفوذ است، کاملاً دقیق نیست. اگرچه این مدلها پیچیده هستند، اما توسعهدهندگان ابزارهایی برای مشاهده معماری درونی یک شبکه عصبی در اختیار دارند.
دو ابزار معروف در این زمینه TensorBoard و Netron هستند. این ابزارها به شما اجازه میدهند نموداری از لایههای مختلف مدل (ورودی، پنهان و خروجی) و نحوه اتصال آنها به یکدیگر را ببینید. این کار به توسعهدهندگان کمک میکند تا جریان داده را درک کرده و ساختار مدل را اشکالزدایی کنند.
--------------------------------------------------------------------------------
شاید شگفتانگیزترین حقیقت این باشد که سفر به سمت یادگیری عمیق پیچیده امروزی، با یک مفهوم آماری بسیار ساده آغاز شد.
این مفهوم رگرسیون خطی (Linear Regression) نام دارد؛ ایده اصلی آن پیدا کردن خطی است که به بهترین شکل مجموعهای از نقاط داده را توصیف میکند تا بتوان پیشبینی انجام داد (مثلاً پیشبینی قیمت یک خانه بر اساس متراژ آن). در قلب این مفهوم، یافتن بهترین مقادیر برای a و b در یک معادله ساده مانند y = ax + b قرار دارد.
این ایده بنیادی—استفاده از دادههای موجود برای ساخت یک مدل ریاضی که بتواند نتایج آینده را پیشبینی کند—جد فلسفی تمام مدلهای هوش مصنوعی مدرن است. شبکههای یادگیری عمیق امروزی، در واقع نسخهای بسیار قدرتمند، چندلایه و غیرخطی از همین ایده ساده هستند.
--------------------------------------------------------------------------------
در نهایت، هوش مصنوعی بیش از آنکه جادو باشد، بر پایه اصولی زیبا و قابل درک ساخته شده است. این اصول سنگ بنای سیستمهای الهامبخشی مانند AlphaZero از DeepMind که بر بازی شطرنج مسلط شد، و DALL-E که از متن، هنر خلق میکند، هستند.
با درک این اصول، فکر میکنید بزرگترین تحول بعدی که هوش مصنوعی در زندگی ما ایجاد خواهد کرد چیست؟