یک راه سریع‌تر و ارزان‌تر برای آموزش مدل‌های زبانی بزرگ وجود دارد

شکل ۱. آموزش مدل‌های زبانی
شکل ۱. آموزش مدل‌های زبانی
منتشر شده در scienceblog به تاریخ ۴ جولای ۲۰۲۳
لینک منبع: There’s A Faster, Cheaper Way To Train Large Language Models

ربات ChatGPT و سایر برنامه‌هایی که به مدل‌های زبانی بزرگ (LLM) متکی هستند، در حال استفاده گسترده هستند و توجه رسانه‌ها را به خود جلب می‌کنند. اما تعداد انگشت‌شماری از شرکت‌های بزرگ فناوری با بودجه خوب بر فضای LLM تسلط دارند، زیرا پیش‌آموزش این مدل‌ها بسیار پرهزینه است، با برآورد هزینه‌هایی که از ۱۰ میلیون دلار شروع می‌شود و احتمالا به ده‌ها یا صدها برابر آن می‌رسد.

هانگ لیو، دانشجوی کارشناسی ارشد علوم کامپیوتر در دانشگاه استنفورد، می‌گوید: «مدل‌های زبانی بزرگ برای سازمان‌های کوچک‌تر یا گروه‌های دانشگاهی چندان قابل دسترسی نیستند.

برای تغییر آن، لیو و همکارانش تصمیم گرفتند تا روش‌های بهینه‌سازی فعلی LLM را بهبود بخشند. نتیجه: رویکردی به نام سوفیا که زمان پیش‌تمرین را به نصف کاهش می‌دهد.

بهینه‌سازی اصلاح رویکرد

برای بهینه‌سازی بهتر پیش‌آموزش LLM، لیو و همکارانش، از جمله ژیوان لی، دانشجوی فوق‌دکتری استنفورد، دیوید هال، مهندس محقق استنفورد، پروفسور Tengyu Ma، دستیار علوم کامپیوتر و پرسی لیانگ، استادیار، از دو ترفند استفاده کردند. اولین مورد، که به‌عنوان تخمین انحنا شناخته می‌شود، جدید نیست، اما تیم استنفورد راهی برای کارآمدتر کردن آن پیدا کرد.

برای درک رویکرد آن‌ها، خط مونتاژ کارخانه را در نظر بگیرید. برای عملکرد مؤثر، مدیر کارخانه باید تعداد مراحلی را که برای تبدیل مواد خام به محصول نهایی طی می‌کند بهینه کند و باید حجم کار را در هر مرحله در طول خط درک کرده و به‌طور مناسب کارکنان آن را انجام دهد.

همین امر در مورد پیش‌آموزش یک LLM نیز صادق است. این مدل‌ها میلیون‌ها یا حتی میلیاردها پارامتر دارند که لیو آن‌ها را به کارگران کارخانه تشبیه می‌کند که برای رسیدن به اهداف مشابه تلاش می‌کنند. یکی از ویژگی‌های این پارامترها انحنای آن‌ها است، که لیو آن را حداکثر سرعت قابل دست‌یابی می‌داند که هنگام پیشرفت به سمت هدف نهایی یک LLM از پیش‌ آموزش دیده به آن می‌رسند. در استعاره کارخانه، خمیدگی شبیه حجم کاری کارگر کارخانه است.

اگر یک برنامه بهینه‌سازی بتواند آن انحنا (بار کاری) را تخمین بزند، می‌تواند پیش‌آموزش LLM را کارآمدتر کند. مشکل اینجاست: تخمین انحنا با روش‌های موجود بسیار دشوار و پرهزینه است. لیو می‌گوید: «در واقع، گران‌تر از انجام کار واقعی بدون پیش‌بینی انحنا است. تا حدودی به همین دلیل است که رویکردهای پیشرفته فعلی برای بهینه‌سازی پیش آموزش LLM (آدام و انواع آن) مرحله تخمین انحنا را کنار می‌گذارند.

با این حال، لیو و همکارانش متوجه ناکارآمدی احتمالی روش‌های قبلی که از تخمین انحنای پارامتریک استفاده می‌کردند، مشاهده کردند: محققان قبلی تخمین‌های انحنای خود را در هر مرحله از بهینه‌سازی به‌روزرسانی می‌کردند. تیم استنفورد تعجب کرد که آیا می‌توانند با کاهش تعداد به‌روزرسانی‌ها، این فرآیند را کارآمدتر کنند.

برای آزمایش این ایده، تیم استنفورد، سوفیا را طراحی کرد تا انحنای پارامترها را فقط در هر ۱۰ مرحله تخمین بزند. لیو می‌گوید: «این یک پیروزی بزرگ بود.

دومین ترفند بهینه‌سازی تیم، به نام بریده‌سازی، به یک مسئله مرتبط می‌پردازد: مشکل تخمین انحنای نادرست. «اگر تخمین اشتباه باشد، مانند این است که به افرادی که مشاغل سختی دارند کار بیش‌تری بدهند تا انجام دهند. اوضاع را بدتر از این می‌کند که اصلا تخمینی وجود نداشته باشد.»

برش با تعیین آستانه یا تخمین حداکثر انحنا از آن جلوگیری می‌کند. لیو می‌گوید: «در استعاره‌ی کارخانه‌ی ما، مانند تعیین محدودیت حجم کار برای همه کارمندان است. استعاره دیگری که اغلب برای بهینه‌سازی به کار می‌رود، منظره‌ای از تپه‌ها و دره‌ها است که هدف آن رسیدن به پایین‌ترین دره است. لیو می‌گوید بدون قطع کردن، می‌توان روی زینی بین دو کوه فرود آمد. او می‌گوید: «در بهینه‌سازی، این جایی نیست که می‌خواهید باشید.

تست سوفیا و افزایش مقیاس

لیو و همکارانش از سوفیا برای پیش‌آموزش یک LLM نسبتا کوچک با استفاده از همان اندازه مدل و پیکربندی استفاده کردند که برای ایجادGPT-2 OpenAI استفاده شد.

ترکیب تخمین انحنا و برش سوفیا به بهینه‌سازی پیش‌آموزشی LLM این امکان را داد که در نیمی از تعداد مراحل و نیمی از زمان مورد نیاز آدام، به آرامی به پایین‌ترین دره ادامه دهد.

لیو می‌گوید: «انطباق سوفیا آن را از آدام متمایز می‌کند. برای آدام سخت‌تر است که پارامترها را با انحناهای ناهمگن کنترل کند زیرا نمی‌تواند آن‌ها را از قبل پیش‌بینی کند.

لیو می‌گوید این اولین بار در نه سال گذشته است که کسی نسبت به آدام پیشرفت قابل‌توجهی در پیش‌آموزش مدل زبانی نشان می‌دهد. این می‌تواند به معنای کاهش شدید هزینه آموزش مدل‌های بزرگ در دنیای واقعی باشد. او می‌گوید: با افزایش مقیاس مدل‌ها، مزایای سوفیا فقط باید افزایش یابد.

در مرحله بعد، لیو و همکارانش امیدوارند با استفاده از سوفیا یک LLM بزرگ‌تر توسعه دهند. او هم‌چنین امیدوار است که سوفیا را در زمینه‌های دیگر یادگیری ماشینی مانند مدل‌های تصویر ذهنی کامپیوتری یا مدل‌های چندوجهی بکار گیرد. انتقال سوفیا به یک دامنه جدید به زمان و منابع نیاز دارد، اما از آنجایی که منبع باز است، جامعه مطمئنا می‌تواند این کار را انجام دهد.

این متن با استفاده از ربات ‌ترجمه مقالات هوش‌مصنوعی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.