مایکروسافت بزرگترین مدل NLP جهان را با ۱۷ میلیارد پارامتر! عرضه می‌کند

منتشرشده در: syncedreview به تاریخ ۱۱ فوریه ۲۰۲۰
نویسنده: Mos Zhang
لینک مقاله اصلی: https://link.medium.com/D7XZcFTB13

این مقاله با استفاده از ربات ترجمه متن تخصصی ترجمیار به صورت خودکار ترجمه شده است.

مدل‌های یادگیری عمیق در حال بزرگ‌ و بزرگ‌تر شدن هستند تا تقاضا برای عملکرد بهتر و بهتر را برآورده سازند. در عین حال، زمان و پول مورد نیاز برای آموزش این بهیموث‌های یادگیری عمیق نیز به افزایش و افزایش ادامه می‌دهد.

یکی از بزرگ‌ترین تنگناهای آموزشی، حافظه GPU است که می‌تواند تعداد پارامترهای مورد استفاده در آموزش مدل را محدود کند. (مایکروسافت) معتقد است که راه‌حل‌های آموزشی موجود به دو دلیل عمده از نظر محاسبه، ارتباط و کارایی توسعه دچار مشکل هستند:

  • موازی‌سازی داده‌ها نمی‌تواند مصرف حافظه هر دستگاه را کاهش دهد - مدلی با بیش از ۱ میلیارد پارامتر از ظرفیت یک GPU با حافظه ۳۲ گیگابایت بیشتر خواهد شد.
  • وقتی مدل موازی‌سازی‌شده به چندین گره گسترش می‌یابد، عملکرد یک مدل زمانی که به چندین گره گسترش می‌یابد به دلیل محاسبات ریز دانه و ارتباطات هزینه‌بر کاهش می‌یابد.

برای حل این مشکل، مایکروسافت یک کتابخانه جدید به نام «سرعت عمیق» معرفی کرده‌است که می‌تواند اندازه دسته هر گره را چهار برابر افزایش دهد در حالی که آموزش را به دو سوم کاهش می‌دهد تا آموزش مدل‌های ۱۰۰ میلیارد پارامتری را ممکن سازد.

یکی از مولفه‌های بسیار مهم سرعت عمیق، ZeRO است (که به اختصار برای بهینه‌سازی توازن صفر بیان شده‌است)، یک بهینه‌ساز موازی جدید که به طور قابل‌توجهی منابع مورد نیاز برای مدل و موازی‌سازی داده‌ها را کاهش می‌دهد در حالی که در همان زمان مقدار پارامترهای آموزش پذیر را بهبود می‌بخشد.

مراحل بهینه‌سازی اصلی ZeRO مربوط به تقسیم حالت‌های بهینه‌ساز، گرادیان‌ها و پارامترها برای آموزش در جنبه‌های مصرف حافظه و حجم ارتباطات است.
مراحل بهینه‌سازی اصلی ZeRO مربوط به تقسیم حالت‌های بهینه‌ساز، گرادیان‌ها و پارامترها برای آموزش در جنبه‌های مصرف حافظه و حجم ارتباطات است.


مایکروسافت می‌گوید که زیرو می‌تواند مدل‌های یادگیری عمیق را با ۱۰۰ میلیارد پارامتر در خوشه‌های فعلی GPU «در سه‌تا پنج برابر خروجی بهترین سیستم فعلی» آموزش دهد.

با استفاده از قابلیت‌های آموزش مدل‌های بزرگ سرعت عمیق، مایکروسافت مدل مولد زبان طبیعی تورینگ (T-NLG)را ساخته است. این بزرگ‌ترین مدل NLP آموزش‌دیده با ۱۷ میلیارد پارامتر است. T-NLG توانسته است به کارایی SOTA در فعالیت‌های اصلی NLP دست یابد.

T- NLG پارامترهای بسیار بیشتری نسبت به دیگر مدل‌های NLP دارد.
T- NLG پارامترهای بسیار بیشتری نسبت به دیگر مدل‌های NLP دارد.


همانند مدل زبانی بزرگ و معروف گوگل، BERT و Open AI GPT-2، تی‌ان‌ال‌جی نیز براساس معماری محبوب و قدرتمند ترانسفورمر است و قادر است در وظایف تولید زبان مورد نیاز مانند پاسخ به سوال و خلاصه‌سازی خودکار فعالیت کند. علاوه بر این، با کمک سرعت عمیق، T-NLG در ۱۷ میلیارد پارامتر به طور موثری بهتر از مدل‌های SOTA بر روی تکالیف NLP چالش برانگیز مشابه عمل می‌کند که متکی بر پارامترهای آموزشی بزرگ‌تر برای دستیابی به نسل‌های متن طبیعی‌تر، دقیق‌تر و روان هستند.

در جنبه‌های دقت، T-NLG یک مزیت عملکرد مشخص را در وظایف زبان استاندارد، و همچنین در کار خلاصه‌سازی انتزاعی نشان می‌دهد.

مقایسه T- NLG با مدل‌های GPT2 و Megatron-LM در WikiText-103 (پرپلکسیتی به عنوان متریک، کم‌تر بهتر است) و LAMBADA (دقت پیش‌بینی کلمه بعدی به عنوان متریک، بالاتر بهتر است)
مقایسه T- NLG با مدل‌های GPT2 و Megatron-LM در WikiText-103 (پرپلکسیتی به عنوان متریک، کم‌تر بهتر است) و LAMBADA (دقت پیش‌بینی کلمه بعدی به عنوان متریک، بالاتر بهتر است)


مقایسه T- NLG  با مدل PEGASUS و مدل‌های قبلی SOTA بر روی چهار مجموعه داده خلاصه‌سازی انتزاعی رایج (امتیاز ROUGE به عنوان متریک، بالاتر بهتر است)
مقایسه T- NLG با مدل PEGASUS و مدل‌های قبلی SOTA بر روی چهار مجموعه داده خلاصه‌سازی انتزاعی رایج (امتیاز ROUGE به عنوان متریک، بالاتر بهتر است)


از آنجا که معیار سنتی ROUGE نمی‌تواند به درستی روانی و طبیعی بودن پاسخ‌ها را در تکلیف پاسخ به سوال قضاوت کند، مایکروسافت ارزیاب‌های انسانی را برای ارزیابی پاسخ‌های خودکار تولید شده استخدام کرد.

T- NLG با یک مدل LSTM شبیه به کاپیونت برای صحت واقعی و دستوری توسط منتقدان انسانی مقایسه شد.
T- NLG با یک مدل LSTM شبیه به کاپیونت برای صحت واقعی و دستوری توسط منتقدان انسانی مقایسه شد.


کارهای بیشتری وجود دارد که T-NLG می‌تواند انجام دهد، مانند پاسخ به سوال مستقیم و قابلیت‌های سوالهای zero-shot، که جزئیات آن در وبلاگ مایکروسافت وجود دارد. در حالی که متاسفانه T-NLG هنوز منبع‌باز نشده است (البته هنوز)، خبر خوب این است که شما می‌توانید ابزار سازگار با PyTorch و منبع باز سرعت عمیق را در GitHub پیدا کرده و خودتان آن را امتحان کنید.


این مقاله با استفاده از ربات ترجمه متن تخصصی ترجمیار به صورت خودکار ترجمه شده است. برای ترجمه آنلاین متن‌های تخصصی مشابه می‌توانید از سرویس مقاله‌خوان ترجمیار استفاده کنید