خواندن ۴ دقیقه·۵ ماه پیش

از AlexNet تا GPT: مسیر پژوهش

بیاید مسیر کوتاه ولی پر محتوایی که ما رو به اینجا رسونده رو از دید پژوهشی بررسی کنیم.

انقلاب (۲۰۱۲-۲۰۱۳): با اومدن AlexNet، این طرز فکر که شبکه‌های عمیق به درد نمی‌خورن، کلاً عوض شد. Krizhevsky، Sutskever و Hinton نشون دادن که اگه داده کافی (ImageNet) و GPU به اندازه کافی وجود داشته باشه، شبکه‌های کانولوشنی عمیق می‌تونن از ویژگی‌های دست‌ساز توی حوزه بینایی ماشین بهتر عمل کنن. این قضیه پاش به دنیای NLP (پردازش زبان طبیعی) هم باز شد: اگه شبکه‌های بزرگ می‌تونن الگوهای پیچیده رو از یه سری پیکسل یاد بگیرن، پس شاید بتونن الگوهای زبان رو هم یاد بگیرن! تقریباً همون موقع‌ها بود که Word2Vec از Mikolov بازنمایی‌های برداری فشرده یا همون بردار های امبدینگ فشرده رو برای کلمات رو جا انداخت، طوری که روابط معنایی بین کلمات رو به شکل هندسی نشون می‌داد. یک دفعه، کلمات دیگه فقط یه سری نماد خشک و خالی برای شبکه های عصبی نبودن و معنی می‌تونست توی یک فضای برداری جریان داشته باشه و اینطوری می‌شد کلمات رو خیلی بهتر و بهینه‌تر به شبکه‌های عصبی داد.

بازی با کلمات (۲۰۱۴-۲۰۱۵): حوزه NLP مدل‌سازی عصبی توالی‌ها رو جدی گرفت. Sutskever et al. چارچوب sequence-to-sequence (seq2seq) رو با استفاده از LSTMها معرفی کردن که توالی‌های ورودی با طول متغیر رو به خروجی‌هایی با طول متغیر تبدیل می‌کرد. این اتفاق برای کارهایی مثل ترجمه ماشینی یک انقلاب بود. حدوداً در همین دوره، Bahdanau، Cho و Bengio مکانیسم توجه (attention) رو معرفی کردن. این مکانیسم به دیکودر اجازه می‌داد به جای اینکه کل ورودی رو توی یک امبدینگ پنهان فشرده کنن، روی بخش‌های مهم ورودی تمرکز کنن. این کار مشکل بزرگی رو تویRNNها رو حل کرد و باعث شد مدل‌ها بتونن متن‌های طولانی‌تری رو درک کنن و زمینه‌ رو برای چیزی که بعداً به اسم self-attention شناختیم، آماده کرد.

توجه (۲۰۱۷): مقاله Transformer از Vaswani et al. با عنوان «Attention Is All You Need»، همه چیز رو زیر و رو کرد. این معماری با جایگزین کردن ساختار بازگشتی (recurrence) با self-attention، می‌تونست وابستگی‌های دوربرد در متن رو بدون مشکل محو شدن گرادیان (vanishing gradients) مدل‌سازی کنه و محاسبات رو هم کاملاً موازی انجام بده. Transformerها به هر کلمه اجازه می‌دادن به تمام کلمات دیگه توی یک جمله توجه کنن و به این شکل، بازنمایی‌های خیلی غنی و پیچیده‌ای از متن بسازن. این معماری تبدیل شد به اسکلت اصلی LLMهای امروزی، چون هم انعطاف‌پذیر بود، هم مقیاس‌پذیر و هم بهینه. برای همین این امکان رو می‌داد که مدل‌های خیلی بزرگ رو روی حجم عظیمی از متن آموزش داد.

ظهور غول ها (۲۰۱۸-۲۰۱۹): محقق‌ها رفتن سراغ پیش‌آموزش (pretraining) مدل‌های زبانی خیلی بزرگ یا درواقع LLM ها. مدل BERT (که توسط Devlin et al. در سال ۲۰۱۸ معرفی شد) با استفاده از انکودر هایTransformer و روشی به نام مدل‌سازی زبان پوشیده (masked language modeling)، تونست متن رو به صورت دوطرفه (Bidirectional ) درک کنه و نشون داد که می‌شه یک مدل پیش‌آموزش‌دیده رو با کمی تنظیم دقیق (fine-tuning) برای چندین کار مختلف آماده کرد. تقریباً همزمان، Radford et al. مدل GPT-1 رو معرفی کردن که یک Transformer فقط دیکودر (decoder-only) بود و طوری آموزش دیده بود که کلمه بعدی رو به صورت خودبازگشتی (autoregressively) پیش‌بینی کنه. با بزرگ‌تر کردن همین ایده، GPT-2 (۲۰۱۹) نشون داد که مدل‌های بزرگ‌تر با داده‌های بیشتر، می‌تونن متن‌های معنی دار و فوق‌العاده متنوعی تولید کنن.

قدرت غول ها (۲۰۲۰): مدل GPT-3 (Brown et al., ۲۰۲۰) با ۱۷۵ میلیارد پارامتر و صدها میلیارد توکن، مقیاس رو وارد یک مرحله کاملاً جدید کرد و عملکرد خیلی خوبی در یادگیری بدون نمونه (zero-shot) و با چند نمونه (few-shot) نشون داد. همزمان، Kaplan et al. قوانین مقیاس‌پذیری (scaling laws) رو به فرمالیته کردن و نشون دادن که خطای مدل (loss) با افزایش اندازه مدل، حجم داده و توان محاسباتی، به طور قابل پیش‌بینی کم می‌شه. این به کل حوزه یک نقشه راه داد: با افزایش سیستماتیک اندازه مدل و داده، می‌شه با اطمینان عملکرد رو بهتر کرد. این طرز فکر که «کافیه فقط توان محاسباتی رو خرج معماری درست کنی» تا مدل‌های زبان همه‌کاره بسازی، به ایده اصلی تبدیل شد.

بزرگتر همیشه بهتر نیست (۲۰۲۱-۲۰۲۲): محقق‌ها شروع کردن به بهینه‌سازی تعادل بین توان محاسباتی و داده. مدلChinchilla از DeepMind (Hoffmann et al., ۲۰۲۲) این ایده رو مطرح کرد که خیلی از مدل‌های بزرگ، نسبت به حجم داده‌ای که استفاده کردن، به اندازه کافی آموزش ندیدن (undertrained) و نشون داد که مدل‌های کوچیک‌تر اگه روی داده‌های بیشتری آموزش ببینن، می‌تونن از مدل‌های غول‌پیکر ولی کم‌آموزش‌دیده بهتر عمل کنن. نوآوری‌های کاربردی مثل محاسبات با دقت ترکیبی (mixed precision)، gradient checkpointing و روش‌های موازی‌سازی پیشرفته، آموزش در مقیاس بزرگ رو ممکن کردن. از طرفی، تکنیک‌هایی مثل RLHF (یادگیری تقویتی از بازخورد انسانی) و تنظیم با دستورالعمل (instruction tuning) (مثلاً FLAN-T5)، همسوسازی (alignment) و کاربردی بودن LLMها رو توی دنیای واقعی بهتر کردند.

چیکار کنیم ؟( ۲۰۲۳-۲۰۲۵): تمرکز اصلی روی بهتر کردن استراتژی‌های مقیاس‌پذیری، همسوسازی و توانایی مدل‌ها در پیروی از دستورالعمل‌ها بوده. مدل‌هایی مثل LLaMA، PaLM و سری GPT-4/5 نشون می‌دن که یک پیش‌آموزش حساب‌شده به علاوه تنظیم دقیق با دستورالعمل، LLMهای فوق‌العاده توانمندی می‌سازه. محقق‌ها تمرکزشون رو بیشتر گذاشتن روی رفتارهای نوظهور، ارتباط مدل با دنیای واقعی (grounding)، و ورودی‌های چند حالته (multi-modal) و همزمان دارن به مسائل کارایی، سوگیری‌ها (biases) و ایمنی هم رسیدگی می‌کنن. این روند نشون می‌ده که ترکیب معماری (Transformerها)، داده (متن در مقیاس وب)، توان محاسباتی (GPU/TPUهای موازی غول‌پیکر)، و استراتژی‌های آموزش (خودنظارتی + RLHF)، در واقع دستور پخت LLMهای همه‌کاره امروزیه.