من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
مایکروسافت بزرگترین مدل NLP جهان را با ۱۷ میلیارد پارامتر! عرضه میکند
منتشرشده در: syncedreview به تاریخ ۱۱ فوریه ۲۰۲۰
نویسنده: Mos Zhang
لینک مقاله اصلی: https://link.medium.com/D7XZcFTB13
این مقاله با استفاده از ربات ترجمه متن تخصصی ترجمیار به صورت خودکار ترجمه شده است.
مدلهای یادگیری عمیق در حال بزرگ و بزرگتر شدن هستند تا تقاضا برای عملکرد بهتر و بهتر را برآورده سازند. در عین حال، زمان و پول مورد نیاز برای آموزش این بهیموثهای یادگیری عمیق نیز به افزایش و افزایش ادامه میدهد.
یکی از بزرگترین تنگناهای آموزشی، حافظه GPU است که میتواند تعداد پارامترهای مورد استفاده در آموزش مدل را محدود کند. (مایکروسافت) معتقد است که راهحلهای آموزشی موجود به دو دلیل عمده از نظر محاسبه، ارتباط و کارایی توسعه دچار مشکل هستند:
- موازیسازی دادهها نمیتواند مصرف حافظه هر دستگاه را کاهش دهد - مدلی با بیش از ۱ میلیارد پارامتر از ظرفیت یک GPU با حافظه ۳۲ گیگابایت بیشتر خواهد شد.
- وقتی مدل موازیسازیشده به چندین گره گسترش مییابد، عملکرد یک مدل زمانی که به چندین گره گسترش مییابد به دلیل محاسبات ریز دانه و ارتباطات هزینهبر کاهش مییابد.
برای حل این مشکل، مایکروسافت یک کتابخانه جدید به نام «سرعت عمیق» معرفی کردهاست که میتواند اندازه دسته هر گره را چهار برابر افزایش دهد در حالی که آموزش را به دو سوم کاهش میدهد تا آموزش مدلهای ۱۰۰ میلیارد پارامتری را ممکن سازد.
یکی از مولفههای بسیار مهم سرعت عمیق، ZeRO است (که به اختصار برای بهینهسازی توازن صفر بیان شدهاست)، یک بهینهساز موازی جدید که به طور قابلتوجهی منابع مورد نیاز برای مدل و موازیسازی دادهها را کاهش میدهد در حالی که در همان زمان مقدار پارامترهای آموزش پذیر را بهبود میبخشد.
مایکروسافت میگوید که زیرو میتواند مدلهای یادگیری عمیق را با ۱۰۰ میلیارد پارامتر در خوشههای فعلی GPU «در سهتا پنج برابر خروجی بهترین سیستم فعلی» آموزش دهد.
با استفاده از قابلیتهای آموزش مدلهای بزرگ سرعت عمیق، مایکروسافت مدل مولد زبان طبیعی تورینگ (T-NLG)را ساخته است. این بزرگترین مدل NLP آموزشدیده با ۱۷ میلیارد پارامتر است. T-NLG توانسته است به کارایی SOTA در فعالیتهای اصلی NLP دست یابد.
همانند مدل زبانی بزرگ و معروف گوگل، BERT و Open AI GPT-2، تیانالجی نیز براساس معماری محبوب و قدرتمند ترانسفورمر است و قادر است در وظایف تولید زبان مورد نیاز مانند پاسخ به سوال و خلاصهسازی خودکار فعالیت کند. علاوه بر این، با کمک سرعت عمیق، T-NLG در ۱۷ میلیارد پارامتر به طور موثری بهتر از مدلهای SOTA بر روی تکالیف NLP چالش برانگیز مشابه عمل میکند که متکی بر پارامترهای آموزشی بزرگتر برای دستیابی به نسلهای متن طبیعیتر، دقیقتر و روان هستند.
در جنبههای دقت، T-NLG یک مزیت عملکرد مشخص را در وظایف زبان استاندارد، و همچنین در کار خلاصهسازی انتزاعی نشان میدهد.
از آنجا که معیار سنتی ROUGE نمیتواند به درستی روانی و طبیعی بودن پاسخها را در تکلیف پاسخ به سوال قضاوت کند، مایکروسافت ارزیابهای انسانی را برای ارزیابی پاسخهای خودکار تولید شده استخدام کرد.
کارهای بیشتری وجود دارد که T-NLG میتواند انجام دهد، مانند پاسخ به سوال مستقیم و قابلیتهای سوالهای zero-shot، که جزئیات آن در وبلاگ مایکروسافت وجود دارد. در حالی که متاسفانه T-NLG هنوز منبعباز نشده است (البته هنوز)، خبر خوب این است که شما میتوانید ابزار سازگار با PyTorch و منبع باز سرعت عمیق را در GitHub پیدا کرده و خودتان آن را امتحان کنید.
این مقاله با استفاده از ربات ترجمه متن تخصصی ترجمیار به صورت خودکار ترجمه شده است. برای ترجمه آنلاین متنهای تخصصی مشابه میتوانید از سرویس مقالهخوان ترجمیار استفاده کنید
مطلبی دیگر از این انتشارات
گامی به سوی محافظت از بیماران در برابر اشتباهات دارویی
مطلبی دیگر از این انتشارات
چگونه خودمان ضد عفونیکننده دست بسازیم؟
مطلبی دیگر از این انتشارات
اولین «تماس صوتی مبتنی بر فضا» با استفاده از تلفنهای هوشمند استاندارد برقرار شد