من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
یک راه سریعتر و ارزانتر برای آموزش مدلهای زبانی بزرگ وجود دارد
منتشر شده در scienceblog به تاریخ ۴ جولای ۲۰۲۳
لینک منبع: There’s A Faster, Cheaper Way To Train Large Language Models
ربات ChatGPT و سایر برنامههایی که به مدلهای زبانی بزرگ (LLM) متکی هستند، در حال استفاده گسترده هستند و توجه رسانهها را به خود جلب میکنند. اما تعداد انگشتشماری از شرکتهای بزرگ فناوری با بودجه خوب بر فضای LLM تسلط دارند، زیرا پیشآموزش این مدلها بسیار پرهزینه است، با برآورد هزینههایی که از ۱۰ میلیون دلار شروع میشود و احتمالا به دهها یا صدها برابر آن میرسد.
هانگ لیو، دانشجوی کارشناسی ارشد علوم کامپیوتر در دانشگاه استنفورد، میگوید: «مدلهای زبانی بزرگ برای سازمانهای کوچکتر یا گروههای دانشگاهی چندان قابل دسترسی نیستند.
برای تغییر آن، لیو و همکارانش تصمیم گرفتند تا روشهای بهینهسازی فعلی LLM را بهبود بخشند. نتیجه: رویکردی به نام سوفیا که زمان پیشتمرین را به نصف کاهش میدهد.
بهینهسازی اصلاح رویکرد
برای بهینهسازی بهتر پیشآموزش LLM، لیو و همکارانش، از جمله ژیوان لی، دانشجوی فوقدکتری استنفورد، دیوید هال، مهندس محقق استنفورد، پروفسور Tengyu Ma، دستیار علوم کامپیوتر و پرسی لیانگ، استادیار، از دو ترفند استفاده کردند. اولین مورد، که بهعنوان تخمین انحنا شناخته میشود، جدید نیست، اما تیم استنفورد راهی برای کارآمدتر کردن آن پیدا کرد.
برای درک رویکرد آنها، خط مونتاژ کارخانه را در نظر بگیرید. برای عملکرد مؤثر، مدیر کارخانه باید تعداد مراحلی را که برای تبدیل مواد خام به محصول نهایی طی میکند بهینه کند و باید حجم کار را در هر مرحله در طول خط درک کرده و بهطور مناسب کارکنان آن را انجام دهد.
همین امر در مورد پیشآموزش یک LLM نیز صادق است. این مدلها میلیونها یا حتی میلیاردها پارامتر دارند که لیو آنها را به کارگران کارخانه تشبیه میکند که برای رسیدن به اهداف مشابه تلاش میکنند. یکی از ویژگیهای این پارامترها انحنای آنها است، که لیو آن را حداکثر سرعت قابل دستیابی میداند که هنگام پیشرفت به سمت هدف نهایی یک LLM از پیش آموزش دیده به آن میرسند. در استعاره کارخانه، خمیدگی شبیه حجم کاری کارگر کارخانه است.
اگر یک برنامه بهینهسازی بتواند آن انحنا (بار کاری) را تخمین بزند، میتواند پیشآموزش LLM را کارآمدتر کند. مشکل اینجاست: تخمین انحنا با روشهای موجود بسیار دشوار و پرهزینه است. لیو میگوید: «در واقع، گرانتر از انجام کار واقعی بدون پیشبینی انحنا است. تا حدودی به همین دلیل است که رویکردهای پیشرفته فعلی برای بهینهسازی پیش آموزش LLM (آدام و انواع آن) مرحله تخمین انحنا را کنار میگذارند.
با این حال، لیو و همکارانش متوجه ناکارآمدی احتمالی روشهای قبلی که از تخمین انحنای پارامتریک استفاده میکردند، مشاهده کردند: محققان قبلی تخمینهای انحنای خود را در هر مرحله از بهینهسازی بهروزرسانی میکردند. تیم استنفورد تعجب کرد که آیا میتوانند با کاهش تعداد بهروزرسانیها، این فرآیند را کارآمدتر کنند.
برای آزمایش این ایده، تیم استنفورد، سوفیا را طراحی کرد تا انحنای پارامترها را فقط در هر ۱۰ مرحله تخمین بزند. لیو میگوید: «این یک پیروزی بزرگ بود.
دومین ترفند بهینهسازی تیم، به نام بریدهسازی، به یک مسئله مرتبط میپردازد: مشکل تخمین انحنای نادرست. «اگر تخمین اشتباه باشد، مانند این است که به افرادی که مشاغل سختی دارند کار بیشتری بدهند تا انجام دهند. اوضاع را بدتر از این میکند که اصلا تخمینی وجود نداشته باشد.»
برش با تعیین آستانه یا تخمین حداکثر انحنا از آن جلوگیری میکند. لیو میگوید: «در استعارهی کارخانهی ما، مانند تعیین محدودیت حجم کار برای همه کارمندان است. استعاره دیگری که اغلب برای بهینهسازی به کار میرود، منظرهای از تپهها و درهها است که هدف آن رسیدن به پایینترین دره است. لیو میگوید بدون قطع کردن، میتوان روی زینی بین دو کوه فرود آمد. او میگوید: «در بهینهسازی، این جایی نیست که میخواهید باشید.
تست سوفیا و افزایش مقیاس
لیو و همکارانش از سوفیا برای پیشآموزش یک LLM نسبتا کوچک با استفاده از همان اندازه مدل و پیکربندی استفاده کردند که برای ایجادGPT-2 OpenAI استفاده شد.
ترکیب تخمین انحنا و برش سوفیا به بهینهسازی پیشآموزشی LLM این امکان را داد که در نیمی از تعداد مراحل و نیمی از زمان مورد نیاز آدام، به آرامی به پایینترین دره ادامه دهد.
لیو میگوید: «انطباق سوفیا آن را از آدام متمایز میکند. برای آدام سختتر است که پارامترها را با انحناهای ناهمگن کنترل کند زیرا نمیتواند آنها را از قبل پیشبینی کند.
لیو میگوید این اولین بار در نه سال گذشته است که کسی نسبت به آدام پیشرفت قابلتوجهی در پیشآموزش مدل زبانی نشان میدهد. این میتواند به معنای کاهش شدید هزینه آموزش مدلهای بزرگ در دنیای واقعی باشد. او میگوید: با افزایش مقیاس مدلها، مزایای سوفیا فقط باید افزایش یابد.
در مرحله بعد، لیو و همکارانش امیدوارند با استفاده از سوفیا یک LLM بزرگتر توسعه دهند. او همچنین امیدوار است که سوفیا را در زمینههای دیگر یادگیری ماشینی مانند مدلهای تصویر ذهنی کامپیوتری یا مدلهای چندوجهی بکار گیرد. انتقال سوفیا به یک دامنه جدید به زمان و منابع نیاز دارد، اما از آنجایی که منبع باز است، جامعه مطمئنا میتواند این کار را انجام دهد.
این متن با استفاده از ربات ترجمه مقالات هوشمصنوعی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
یافتههای سی تی اسکن قفسه سینه در بیماری کوروناویروس ۱۹ (COVID - ۱۹): ارتباط با مدتزمان عفونت
مطلبی دیگر از این انتشارات
چرا علم داده را ترک میکنم؟
مطلبی دیگر از این انتشارات
دانشمندان ساعتها ویدیوی گربهها را تماشا میکنند تا چیز جدیدی در مورد رفتار آنها بیاموزند