علیرضا مدنی
علیرضا مدنی
خواندن ۴ دقیقه·۸ ماه پیش

آموزش بهینه از لحاظ محاسباتی در مدل‌های زبان بزرگ (Chinchilla)

در این پست به بررسی مقاله Training Compute-Optimal Large Language Models می پردازیم. این مقاله به بررسی اندازه‌ی بهینه مدل و تعداد توکن‌ها برای آموزش یک مدل زبان ترانسفورمر با درنظر گرفتن محدودیت منابع محاسباتی می‌پردازد. پژوهشگران دیپ مایند در این مقاله بر این باورند که مدل‌های زبان بزرگ فعلی به اندازه‌ی کافی آموزش داده نشده‌اند و با آموزش بیش از ۴۰۰ مدل زبان با پارامترها و تعداد توکن‌های مختلف، دریافتند که برای آموزش بهینه‌ی محاسباتی، اندازه‌ی مدل و تعداد توکن‌های آموزشی باید به طور مساوی افزایش یابد. آن‌ها این فرضیه را با آموزش مدلی به نام چینچیلا (Chinchilla) آزمایش می‌کنند که از همان بودجه‌ی محاسباتی مدل گوفر (Gopher) استفاده می‌کند اما با ۷۰ میلیارد پارامتر و ۴ برابر داده‌ی بیشتر. چینچیلا در مجموعه‌ای در وظایف ارزیابی پایین‌دستی، عملکردی بهتر از گوفر، GPT-3، Jurassic-1 و Megatron-Turing NLG نشان می‌دهد. همچنین چینچیلا برای تنظیم دقیق و استنتاج به محاسبات کمتری نیاز دارد و به بالاترین دقت میانگین تا به امروز یعنی ۶۷.۵٪ در بنچ‌مارک MMLU دست می‌یابد که نسبت به گوفر ۷٪ بهبود یافته است.

مقاله به بررسی رابطه بین اندازه مدل و تعداد توکن‌های آموزشی برای آموزش یک مدل زبان بزرگ با درنظر گرفتن محدودیت منابع محاسباتی می‌پردازد. این مقاله سه رویکرد مختلف را برای بررسی این رابطه ارائه می‌کند. هر سه روش با آموزش مجموعه‌ای از مدل‌ها با اندازه‌ها و تعداد توکن‌های مختلف شروع می‌شوند و سپس از داده‌های حاصل برای تخمین چگونگی مقیاس‌گذاری این عوامل با محاسبات بیشتر استفاده می‌کنند. یافته‌های حاصل از هر سه رویکرد نشان می‌دهد که افزایش متناسب تعداد پارامتر و تعداد توکن‌های آموزشی زمانی که منابع محاسباتی بیشتری در دسترس باشد، بهینه است.

رویکرد اول:

اولین رویکردی که در این مقاله ارائه شده است، ثابت نگه‌داشتن اندازه‌ی مدل و تغییر تعداد توکن‌های داده‌های آموزشی است. نویسندگان، یک گروه ثابت از مدل‌ها (با دامنه‌ی پارامتر ۷۰ میلیون تا بیش از ۱۰ میلیارد) را برای ۴ تعداد مختلف از توالی‌های آموزشی، آموزش دادند تا تخمین حداقل افت (loss) بدست آمده برای یک تعداد مشخص از فلاپ‌های آموزشی (FLOPs) را استخراج کنند. آن‌ها دریافتند که اندازه‌ی بهینه مدل و تعداد توکن‌های آموزشی برای یک محاسبات مشخص، باید به طور مساوی مقیاس‌گذاری شوند.

رویکرد دوم:

در این رویکرد، اندازه‌ی مدل برای مجموعه‌ی ثابتی از فلاپ‌های آموزشی (FLOP) تغییر می‌کند. اندازه‌ی مدل برای مجموعه‌ی ثابتی از ۹ مقدار مختلف فلاپ آموزشی (FLOP) و در نظر گرفتن افت نهایی آموزش برای هر نقطه تغییر می‌کند.

رویکرد سوم:

در این رویکرد، یک تابع ریاضی برای مدل‌سازی رابطه بین اندازه مدل، تعداد توکن‌های آموزشی و میزان خطای نهایی (افت) مدل ارائه می‌شود:

در معادله‌ی ارائه شده برای تابع افت (loss function)، سه بخش مجزا وجود دارد:

  • عبارم اول: این عبارت میزان افت مربوط به یک فرایند ایده‌آل تولید متن را بر اساس توزیع داده‌ها نشان می‌دهد. این بخش با آنتروپی متن طبیعی مرتبط است. (آنتروپی: اندازه‌گیری تصادفی بودن یا عدم قطعیت در یک سیستم)
  • عبارم دوم: این عبارت ایده‌ی محدودیت مدل ترانسفورمر را با تعداد مشخصی از پارامتر (N) نشان می‌دهد. به این معنا که حتی یک مدل ترانسفورمر کاملاً آموزش‌دیده با N پارامتر، به خوبی یک فرایند ایده‌آل تولید متن عمل نخواهد کرد.
  • عبارم سوم: این عبارت نشان‌دهنده‌ی این واقعیت است که مدل ترانسفورمر به طور کامل آموزش ندیده است. دلیل این امر استفاده از تعداد محدودی از مراحل بهینه‌سازی روی نمونه‌ای از توزیع مجموعه داده است.

به عبارت ساده‌تر، معادله‌ی ارائه شده میزان خطای مدل ترانسفورمر را در هنگام تولید متن در نظر می‌گیرد. این خطا از سه عامل ناشی می‌شود:

  1. محدودیت ذاتی فرایند تولید متن با در نظر گرفتن ماهیت تصادفی و غیرقابل پیش‌بینی بودن زبان طبیعی
  2. محدودیت مدل به دلیل تعداد محدود پارامتر
  3. عدم آموزش کامل مدل با توجه به استفاده از زیرمجموعه‌ای از کل داده‌ها و تعداد محدود مراحل بهینه‌سازی


نتیجه‌گیری مقاله:

  • اندازه‌ی مدل و تعداد توکن‌های آموزشی باید به طور مساوی با افزایش منابع محاسباتی، افزایش یابند. این بدان معناست که برای دستیابی به بهترین عملکرد، نمی‌توان فقط یکی از این دو عامل را افزایش داد.
  • مدل چینچیلا با ۷۰ میلیارد پارامتر و ۱.۴ تریلیون توکن، عملکرد بهتری نسبت به مدل‌های دیگر مانند Gopher، GPT-3 و Megatron-Turing NLG در بسیاری از وظایف NLP نشان می‌دهد. این نشان می‌دهد که با انتخاب صحیح اندازه‌ی مدل و تعداد توکن‌های آموزشی، می‌توان به عملکردهای قابل توجهی دست یافت.
  • این مقاله نشان می‌دهد که چگونه می‌توان با استفاده از منابع محاسباتی محدود، مدل‌های زبان بزرگ با عملکرد بالا آموزش داد. این امر برای کاربردهای عملی که در آن‌ها منابع محاسباتی محدود هستند، مانند دستگاه‌های تلفن همراه، بسیار مهم است.

عملکرد Gopher، چینچیلا، GPT-3 و Megatron-Turing NLG در مجموعه داده‌های مختلفی که شامل موارد زیر است، با هم مقایسه شده است:

  • پرسش و پاسخ (TriviaQA)
  • درک CommonSense (HellaSwag، PIQA، Winogrande و BoolQ)
  • درک مطلب (LAMBADA)
  • درک کلی زبان چندوظیفه‌ای (MMLU)

نتایج این مقایسه را می‌توانید در تصویر زیر مشاهده کنید.


nlpllmchatgptmachine learning
شاید از این پست‌ها خوشتان بیاید