بیاید مسیر کوتاه ولی پر محتوایی که ما رو به اینجا رسونده رو از دید پژوهشی بررسی کنیم.
انقلاب (۲۰۱۲-۲۰۱۳): با اومدن AlexNet، این طرز فکر که شبکههای عمیق به درد نمیخورن، کلاً عوض شد. Krizhevsky، Sutskever و Hinton نشون دادن که اگه داده کافی (ImageNet) و GPU به اندازه کافی وجود داشته باشه، شبکههای کانولوشنی عمیق میتونن از ویژگیهای دستساز توی حوزه بینایی ماشین بهتر عمل کنن. این قضیه پاش به دنیای NLP (پردازش زبان طبیعی) هم باز شد: اگه شبکههای بزرگ میتونن الگوهای پیچیده رو از یه سری پیکسل یاد بگیرن، پس شاید بتونن الگوهای زبان رو هم یاد بگیرن! تقریباً همون موقعها بود که Word2Vec از Mikolov بازنماییهای برداری فشرده یا همون بردار های امبدینگ فشرده رو برای کلمات رو جا انداخت، طوری که روابط معنایی بین کلمات رو به شکل هندسی نشون میداد. یک دفعه، کلمات دیگه فقط یه سری نماد خشک و خالی برای شبکه های عصبی نبودن و معنی میتونست توی یک فضای برداری جریان داشته باشه و اینطوری میشد کلمات رو خیلی بهتر و بهینهتر به شبکههای عصبی داد.
بازی با کلمات (۲۰۱۴-۲۰۱۵): حوزه NLP مدلسازی عصبی توالیها رو جدی گرفت. Sutskever et al. چارچوب sequence-to-sequence (seq2seq) رو با استفاده از LSTMها معرفی کردن که توالیهای ورودی با طول متغیر رو به خروجیهایی با طول متغیر تبدیل میکرد. این اتفاق برای کارهایی مثل ترجمه ماشینی یک انقلاب بود. حدوداً در همین دوره، Bahdanau، Cho و Bengio مکانیسم توجه (attention) رو معرفی کردن. این مکانیسم به دیکودر اجازه میداد به جای اینکه کل ورودی رو توی یک امبدینگ پنهان فشرده کنن، روی بخشهای مهم ورودی تمرکز کنن. این کار مشکل بزرگی رو تویRNNها رو حل کرد و باعث شد مدلها بتونن متنهای طولانیتری رو درک کنن و زمینه رو برای چیزی که بعداً به اسم self-attention شناختیم، آماده کرد.
توجه (۲۰۱۷): مقاله Transformer از Vaswani et al. با عنوان «Attention Is All You Need»، همه چیز رو زیر و رو کرد. این معماری با جایگزین کردن ساختار بازگشتی (recurrence) با self-attention، میتونست وابستگیهای دوربرد در متن رو بدون مشکل محو شدن گرادیان (vanishing gradients) مدلسازی کنه و محاسبات رو هم کاملاً موازی انجام بده. Transformerها به هر کلمه اجازه میدادن به تمام کلمات دیگه توی یک جمله توجه کنن و به این شکل، بازنماییهای خیلی غنی و پیچیدهای از متن بسازن. این معماری تبدیل شد به اسکلت اصلی LLMهای امروزی، چون هم انعطافپذیر بود، هم مقیاسپذیر و هم بهینه. برای همین این امکان رو میداد که مدلهای خیلی بزرگ رو روی حجم عظیمی از متن آموزش داد.
ظهور غول ها (۲۰۱۸-۲۰۱۹): محققها رفتن سراغ پیشآموزش (pretraining) مدلهای زبانی خیلی بزرگ یا درواقع LLM ها. مدل BERT (که توسط Devlin et al. در سال ۲۰۱۸ معرفی شد) با استفاده از انکودر هایTransformer و روشی به نام مدلسازی زبان پوشیده (masked language modeling)، تونست متن رو به صورت دوطرفه (Bidirectional ) درک کنه و نشون داد که میشه یک مدل پیشآموزشدیده رو با کمی تنظیم دقیق (fine-tuning) برای چندین کار مختلف آماده کرد. تقریباً همزمان، Radford et al. مدل GPT-1 رو معرفی کردن که یک Transformer فقط دیکودر (decoder-only) بود و طوری آموزش دیده بود که کلمه بعدی رو به صورت خودبازگشتی (autoregressively) پیشبینی کنه. با بزرگتر کردن همین ایده، GPT-2 (۲۰۱۹) نشون داد که مدلهای بزرگتر با دادههای بیشتر، میتونن متنهای معنی دار و فوقالعاده متنوعی تولید کنن.
قدرت غول ها (۲۰۲۰): مدل GPT-3 (Brown et al., ۲۰۲۰) با ۱۷۵ میلیارد پارامتر و صدها میلیارد توکن، مقیاس رو وارد یک مرحله کاملاً جدید کرد و عملکرد خیلی خوبی در یادگیری بدون نمونه (zero-shot) و با چند نمونه (few-shot) نشون داد. همزمان، Kaplan et al. قوانین مقیاسپذیری (scaling laws) رو به فرمالیته کردن و نشون دادن که خطای مدل (loss) با افزایش اندازه مدل، حجم داده و توان محاسباتی، به طور قابل پیشبینی کم میشه. این به کل حوزه یک نقشه راه داد: با افزایش سیستماتیک اندازه مدل و داده، میشه با اطمینان عملکرد رو بهتر کرد. این طرز فکر که «کافیه فقط توان محاسباتی رو خرج معماری درست کنی» تا مدلهای زبان همهکاره بسازی، به ایده اصلی تبدیل شد.
بزرگتر همیشه بهتر نیست (۲۰۲۱-۲۰۲۲): محققها شروع کردن به بهینهسازی تعادل بین توان محاسباتی و داده. مدلChinchilla از DeepMind (Hoffmann et al., ۲۰۲۲) این ایده رو مطرح کرد که خیلی از مدلهای بزرگ، نسبت به حجم دادهای که استفاده کردن، به اندازه کافی آموزش ندیدن (undertrained) و نشون داد که مدلهای کوچیکتر اگه روی دادههای بیشتری آموزش ببینن، میتونن از مدلهای غولپیکر ولی کمآموزشدیده بهتر عمل کنن. نوآوریهای کاربردی مثل محاسبات با دقت ترکیبی (mixed precision)، gradient checkpointing و روشهای موازیسازی پیشرفته، آموزش در مقیاس بزرگ رو ممکن کردن. از طرفی، تکنیکهایی مثل RLHF (یادگیری تقویتی از بازخورد انسانی) و تنظیم با دستورالعمل (instruction tuning) (مثلاً FLAN-T5)، همسوسازی (alignment) و کاربردی بودن LLMها رو توی دنیای واقعی بهتر کردند.
چیکار کنیم ؟( ۲۰۲۳-۲۰۲۵): تمرکز اصلی روی بهتر کردن استراتژیهای مقیاسپذیری، همسوسازی و توانایی مدلها در پیروی از دستورالعملها بوده. مدلهایی مثل LLaMA، PaLM و سری GPT-4/5 نشون میدن که یک پیشآموزش حسابشده به علاوه تنظیم دقیق با دستورالعمل، LLMهای فوقالعاده توانمندی میسازه. محققها تمرکزشون رو بیشتر گذاشتن روی رفتارهای نوظهور، ارتباط مدل با دنیای واقعی (grounding)، و ورودیهای چند حالته (multi-modal) و همزمان دارن به مسائل کارایی، سوگیریها (biases) و ایمنی هم رسیدگی میکنن. این روند نشون میده که ترکیب معماری (Transformerها)، داده (متن در مقیاس وب)، توان محاسباتی (GPU/TPUهای موازی غولپیکر)، و استراتژیهای آموزش (خودنظارتی + RLHF)، در واقع دستور پخت LLMهای همهکاره امروزیه.