ویرگول
ورودثبت نام
صابر طباطبائی یزدی
صابر طباطبائی یزدیبرنامه نویس۴۴ساله. از مدرک MCSD دات نت سال 2002 شروع کردم البته بعد از لیسانس و تمام عمرم رو در مدیریت با ابزار های شیرپوینت و MSPS و CRM و غیره گذراندم. https://zil.ink/sabert
صابر طباطبائی یزدی
صابر طباطبائی یزدی
خواندن ۶ دقیقه·۱ ماه پیش

هوش مصنوعی چگونه «فکر» می‌کند؟ پنج راز مدل‌های زبانی که شما را شگفت‌زده خواهد کرد.

مقدمه: جادوی پشت کلمات

هر روز با جادوی ابزارهای مدرن هوش مصنوعی مانند Google Translate یا چت‌بات‌هایی که متون شبیه به انسان تولید می‌کنند، سروکار داریم. اما آیا تا به حال فکر کرده‌اید که این مدل‌ها چگونه تصمیم می‌گیرند که کلمه‌ی بعدی چه باشد؟ مکانیک پشت این تصمیم‌گیری‌ها پر از استراتژی‌های هوشمندانه، شگفت‌انگیز و گاهی برخلاف انتظار است که بسیار جالب‌تر از آن چیزی است که تصور می‌کنید.

--------------------------------------------------------------------------------

۱. تله انتخاب «بهترین» کلمه: چرا هوشمندانه‌ترین تصمیم در هر لحظه به نتیجه‌ای ضعیف منجر می‌شود؟

منطقی‌ترین راه برای تولید متن، یعنی انتخاب محتمل‌ترین کلمه در هر مرحله، اغلب به نتایج تکراری و بی‌معنی منجر می‌شود. این رویکرد که به آن جستجوی حریصانه (Greedy Search) می‌گویند، ساده‌ترین استراتژی ممکن است: مدل در هر قدم، کلمه‌ای را انتخاب می‌کند که بالاترین احتمال را دارد. اما این روش یک نقص بزرگ و غافلگیرکننده دارد. برای مثال، ممکن است مدل جمله‌ای مانند این تولید کند: «من از پیاده‌روی با سگ نازم لذت می‌برم، اما مطمئن نیستم که دیگر هرگز بتوانم با سگم راه بروم. مطمئن نیستم که دیگر هرگز بتوانم با سگم راه بروم.»

این تله به این دلیل رخ می‌دهد که مدل با انتخاب فوری کلمه «اما» (but)، خود را در یک مسیر تکراری حبس می‌کند. این الگوریتم هرگز این احتمال را در نظر نمی‌گیرد که شاید انتخاب یک کلمه دوم با احتمال کمی پایین‌تر (مثلاً «و») می‌توانست در قدم سوم به یک جمله کاملاً جدید و بسیار محتمل‌تر منجر شود. این کوته‌بینی، بزرگترین ضعف جستجوی حریصانه است. تناقض اصلی اینجاست: انتخاب بهترین گزینه محلی (محتمل‌ترین کلمه بعدی) در هر مرحله، لزوماً به بهترین نتیجه کلی (منسجم‌ترین جمله) منجر نمی‌شود و توالی‌های بسیار محتمل را که پشت یک کلمه با احتمال کمتر پنهان شده‌اند، نادیده می‌گیرد.

۲. دکمه تنظیم خلاقیت: چگونه با بالا و پایین بردن «دما»، هوش مصنوعی را خلاق یا محتاط می‌کنیم؟

تصور کنید یک دکمه تنظیم خلاقیت روی هوش مصنوعی وجود داشت. این دکمه در واقع وجود دارد و نام آن «دما» (Temperature) است. این پارامتر جذاب توزیع احتمال کلمات بعدی را تغییر می‌دهد و به توسعه‌دهندگان اجازه می‌دهد تا شخصیت مدل را از یک کارشناس محتاط به یک هنرمند جسور تغییر دهند.

  • دمای پایین (مثلاً کمتر از ۱.۰): دمای پایین مانند این است که مدل به محتمل‌ترین کلمات «اعتماد به نفس» بیشتری پیدا کند؛ صدای آن‌ها را تقویت کرده و زمزمه‌های گزینه‌های کمتر محتمل را نادیده می‌گیرد. این کار توزیع احتمال را «تیزتر» می‌کند و به تولید متنی متمرکز، قابل پیش‌بینی و قابل اعتماد می‌انجامد که برای کارهایی مانند خلاصه‌سازی داده‌ها ایده‌آل است.

  • دمای بالا (مثلاً بیشتر از ۱.۰): دمای بالا به تمام گزینه‌ها، حتی عجیب‌ترین آن‌ها، یک بلندگو می‌دهد و زمینه را برای خلاقیت (و گاهی هرج‌ومرج) فراهم می‌کند. این تنظیم توزیع احتمال را «مسطح» کرده و به کلمات با احتمال کمتر نیز شانس انتخاب شدن می‌دهد. نتیجه، متنی خلاقانه‌تر و شگفت‌انگیز است. اما این خلاقیت با ریسک همراه است و می‌تواند احتمال تولید محتوای بی‌ربط یا اطلاعات کاملاً نادرست (که به آن «توهم» یا hallucination می‌گویند) را به شدت افزایش دهد.

۳. انقلاب توجه: وقتی هوش مصنوعی یاد گرفت به جای خواندن کلمه‌به‌کلمه، به «تصویر بزرگ» نگاه کند

مترجم‌های ماشینی اولیه یک مشکل حافظه جدی داشتند. مدل‌های قدیمی مبتنی بر شبکه‌های عصبی بازگشتی (RNN) با یک «مشکل گلوگاه» (bottleneck problem) بزرگ مواجه بودند. آن‌ها باید تمام معنای یک جمله ورودی بلند را در یک بردار ثابت و با طول مشخص فشرده می‌کردند. این محدودیت بزرگی بود، زیرا اطلاعات ابتدای جمله، به‌خصوص در جملات طولانی، در این فرآیند فشرده‌سازی از بین می‌رفت.

راه‌حل انقلابی برای این مشکل، مکانیزم توجه (Attention Mechanism) بود. مکانیزم توجه مانند این است که به یک مترجم انسانی، به جای یک خلاصه یک‌صفحه‌ای از یک کتاب طولانی، کل کتاب را بدهیم و به او اجازه دهیم برای ترجمه هر کلمه، آزادانه به هر فصل، پاراگراف یا جمله‌ای که لازم است نگاه کند و اطلاعات مورد نیازش را استخراج کند. این مکانیزم به مدل تولیدکننده (decoder) این قابلیت را می‌دهد که در هر مرحله، به تمام بخش‌های جمله منبع «نگاه کند». این یعنی به جای یک «خلاصه کلی» ثابت از جمله مبدأ، مدل برای تولید هر کلمه در جمله مقصد، یک «خلاصه سفارشی» و منحصربه‌فرد می‌سازد که دقیقاً روی مرتبط‌ترین بخش‌های ورودی برای آن لحظه خاص تمرکز کرده است. این تواناییِ «نگاه به عقب» انقلابی در درک متون طولانی ایجاد کرد.

۴. ترفند عجیب اما مؤثر: ترجمه معکوس برای دستیابی به ترجمه بهتر!

چه می‌شد اگر به شما می‌گفتم برای ساختن یک مترجم بهتر از زبان ناواهو به انگلیسی، اولین قدم ساختن یک مترجم متوسط از انگلیسی به ناواهو است؟ این رویکرد که کاملاً معکوس به نظر می‌رسد، یکی از هوشمندانه‌ترین ترفندها در هوش مصنوعی مدرن به نام ترجمه معکوس (Back-translation) است. این تکنیک زمانی به کار می‌آید که داده‌های آموزشی موازی (جملات یکسان به دو زبان) کمیاب است، اما داده‌های تک‌زبانه در زبان مقصد به وفور یافت می‌شود.

فرآیند به این صورت است:

  1. ابتدا یک مدل ترجمه اولیه و ضعیف‌تر آموزش داده می‌شود تا از زبان مقصد به زبان مبدأ ترجمه کند (مثلاً از انگلیسی به ناواهو).

  2. سپس این مدل «معکوس» برای ترجمه حجم عظیمی از متون تک‌زبانه مقصد (مثلاً متون انگلیسی فراوان) استفاده می‌شود.

  3. این کار یک مجموعه داده موازی «مصنوعی» ایجاد می‌کند: جملات انگلیسی اصلی در کنار ترجمه‌های ماشینی ناواهوی آن‌ها.

  4. در نهایت، این داده‌های مصنوعی به مجموعه داده کوچک اصلی اضافه می‌شود تا یک مدل بسیار بهتر برای ترجمه از مبدأ به مقصد (ناواهو به انگلیسی) آموزش داده شود.

نبوغ این روش در این است که از داده‌های تک‌زبانه که به راحتی در دسترس هستند، برای تولید نمونه‌های آموزشی ناقص اما مفید در مقیاس انبوه استفاده می‌کند.

۵. یک «مغز دوم» برای بررسی حقایق: چرا آینده هوش مصنوعی به گراف دانش گره خورده است؟

یک مدل زبانی می‌تواند با اعتماد به نفس کامل، کاملاً در اشتباه باشد. با وجود توانایی‌های شگفت‌انگیزشان در تولید زبان روان، مدل‌های زبانی بزرگ (LLM) فاقد درک واقعی، استدلال عمیق و منبعی قابل اعتماد از حقایق هستند. این ضعف منجر به پدیده‌ای به نام «توهم» (hallucination) می‌شود که در آن مدل، اطلاعات نادرست را با اطمینان کامل بیان می‌کند.

برای غلبه بر این محدودیت، محققان در حال ترکیب مدل‌های زبانی با گراف دانش (Knowledge Graph) هستند. گراف دانش شبکه‌ای ساختاریافته از حقایق و روابط بین آن‌هاست (مثلاً موجودیت «تهران» با رابطه «پایتخت است» به موجودیت «ایران» متصل می‌شود). در این همکاری، گراف دانش نقش یک کتابدار یا یک متخصص حقیقت‌سنج را بازی می‌کند که حقایق خام و تاییدشده را فراهم می‌کند، و مدل زبانی نقش یک نویسنده یا سخنران ماهر را ایفا می‌کند که آن حقایق را به زبانی طبیعی، روان و قابل فهم برای انسان تبدیل می‌کند.

تصور کنید از مدل می‌پرسید: «کارگردان فیلمی که در سال تولد بازیگر نقش اول پدرخوانده برنده اسکار بهترین فیلم شد، کیست؟» یک مدل زبانی تنها ممکن است حدس بزند. اما مدل مجهز به گراف دانش، ابتدا از «مغز دوم» خود استعلام می‌گیرد: ۱. یافتن سال تولد مارلون براندو. ۲. یافتن برنده اسکار بهترین فیلم در آن سال. ۳. یافتن کارگردان آن فیلم. تنها پس از بازیابی این حقایق، مدل از مهارت زبانی خود برای ساختن یک پاسخ روان و دقیق استفاده می‌کند. این هم‌افزایی نه تنها به پاسخ‌های دقیق‌تر می‌انجامد، بلکه گامی حیاتی به سوی هوش مصنوعی توضیح‌پذیر (Explainable AI) است؛ سیستمی که می‌تواند «دلیل» پاسخ خود را با استناد به حقایق موجود در گراف دانش توضیح دهد. این ویژگی در حوزه‌های حساسی مانند پزشکی و حقوق، یک ضرورت انکارناپذیر است.

--------------------------------------------------------------------------------

نتیجه‌گیری: فراتر از الگوریتم‌ها

این پنج راز، تنها ترفندهایی مجزا نیستند؛ بلکه هر یک پله‌ای در نردبان تکامل تفکر ماشینی را نشان می‌دهند: از سادگی کورکورانه (جستجوی حریصانه) به سوی خلاقیت کنترل‌شده (دما)، از حافظه کوتاه‌مدت (مدل‌های قدیمی) به تمرکز عمیق (توجه)، و در نهایت، از تسلط بر زبان به تلاش برای دستیابی به حقیقت (گراف دانش). خروجی‌های ساده و ظریف مدل‌های زبانی، بر پایه‌ای از تکنیک‌های هوشمندانه، غیرمنتظره و دائماً در حال تکامل بنا شده‌اند.

همانطور که این مدل‌ها بیشتر در زندگی ما ادغام می‌شوند، توسعه‌دهندگان چه تکنیک‌های شگفت‌انگیز دیگری را برای هوشمندتر، قابل اعتمادتر و حتی خردمندتر کردن آن‌ها ابداع خواهند کرد؟

هوش مصنوعیمدل زبانیllmai
۵
۱
صابر طباطبائی یزدی
صابر طباطبائی یزدی
برنامه نویس۴۴ساله. از مدرک MCSD دات نت سال 2002 شروع کردم البته بعد از لیسانس و تمام عمرم رو در مدیریت با ابزار های شیرپوینت و MSPS و CRM و غیره گذراندم. https://zil.ink/sabert
شاید از این پست‌ها خوشتان بیاید