در این پست به بررسی مقاله Training Compute-Optimal Large Language Models می پردازیم. این مقاله به بررسی اندازهی بهینه مدل و تعداد توکنها برای آموزش یک مدل زبان ترانسفورمر با درنظر گرفتن محدودیت منابع محاسباتی میپردازد. پژوهشگران دیپ مایند در این مقاله بر این باورند که مدلهای زبان بزرگ فعلی به اندازهی کافی آموزش داده نشدهاند و با آموزش بیش از ۴۰۰ مدل زبان با پارامترها و تعداد توکنهای مختلف، دریافتند که برای آموزش بهینهی محاسباتی، اندازهی مدل و تعداد توکنهای آموزشی باید به طور مساوی افزایش یابد. آنها این فرضیه را با آموزش مدلی به نام چینچیلا (Chinchilla) آزمایش میکنند که از همان بودجهی محاسباتی مدل گوفر (Gopher) استفاده میکند اما با ۷۰ میلیارد پارامتر و ۴ برابر دادهی بیشتر. چینچیلا در مجموعهای در وظایف ارزیابی پاییندستی، عملکردی بهتر از گوفر، GPT-3، Jurassic-1 و Megatron-Turing NLG نشان میدهد. همچنین چینچیلا برای تنظیم دقیق و استنتاج به محاسبات کمتری نیاز دارد و به بالاترین دقت میانگین تا به امروز یعنی ۶۷.۵٪ در بنچمارک MMLU دست مییابد که نسبت به گوفر ۷٪ بهبود یافته است.
مقاله به بررسی رابطه بین اندازه مدل و تعداد توکنهای آموزشی برای آموزش یک مدل زبان بزرگ با درنظر گرفتن محدودیت منابع محاسباتی میپردازد. این مقاله سه رویکرد مختلف را برای بررسی این رابطه ارائه میکند. هر سه روش با آموزش مجموعهای از مدلها با اندازهها و تعداد توکنهای مختلف شروع میشوند و سپس از دادههای حاصل برای تخمین چگونگی مقیاسگذاری این عوامل با محاسبات بیشتر استفاده میکنند. یافتههای حاصل از هر سه رویکرد نشان میدهد که افزایش متناسب تعداد پارامتر و تعداد توکنهای آموزشی زمانی که منابع محاسباتی بیشتری در دسترس باشد، بهینه است.
اولین رویکردی که در این مقاله ارائه شده است، ثابت نگهداشتن اندازهی مدل و تغییر تعداد توکنهای دادههای آموزشی است. نویسندگان، یک گروه ثابت از مدلها (با دامنهی پارامتر ۷۰ میلیون تا بیش از ۱۰ میلیارد) را برای ۴ تعداد مختلف از توالیهای آموزشی، آموزش دادند تا تخمین حداقل افت (loss) بدست آمده برای یک تعداد مشخص از فلاپهای آموزشی (FLOPs) را استخراج کنند. آنها دریافتند که اندازهی بهینه مدل و تعداد توکنهای آموزشی برای یک محاسبات مشخص، باید به طور مساوی مقیاسگذاری شوند.
در این رویکرد، اندازهی مدل برای مجموعهی ثابتی از فلاپهای آموزشی (FLOP) تغییر میکند. اندازهی مدل برای مجموعهی ثابتی از ۹ مقدار مختلف فلاپ آموزشی (FLOP) و در نظر گرفتن افت نهایی آموزش برای هر نقطه تغییر میکند.
در این رویکرد، یک تابع ریاضی برای مدلسازی رابطه بین اندازه مدل، تعداد توکنهای آموزشی و میزان خطای نهایی (افت) مدل ارائه میشود:
در معادلهی ارائه شده برای تابع افت (loss function)، سه بخش مجزا وجود دارد:
به عبارت سادهتر، معادلهی ارائه شده میزان خطای مدل ترانسفورمر را در هنگام تولید متن در نظر میگیرد. این خطا از سه عامل ناشی میشود:
عملکرد Gopher، چینچیلا، GPT-3 و Megatron-Turing NLG در مجموعه دادههای مختلفی که شامل موارد زیر است، با هم مقایسه شده است:
نتایج این مقایسه را میتوانید در تصویر زیر مشاهده کنید.