ملاقات با M6 — ده تریلیون پارامتر با ۱٪ هزینه انرژی GPT-3

منتشر شده در towardsdatascience به تاریخ ۹ نوامبر ۲۰۲۱
لینک منبع Meet M6 — 10 Trillion Parameters at 1% GPT-3’s Energy Cost

با اطمینان می‌توانم بگویم که هوش مصنوعی به سرعت در حال پیشرفت است، زمانی که یک شبکه عصبی 50 برابر بزرگ‌تر از شبکه عصبی دیگر با 100 برابر هزینه انرژی کمتر آموزش داده شود - فقط یک سال در بین!

در 25 ژوئن، Alibaba DAMO Academy (شاخه تحقیق و توسعه Alibaba) اعلام کرد که M6 را ساخته است، یک مدل زبان چندوجهی و چندوظیفه‌ای بزرگ با 1 تریلیون پارامتر - در حال حاضر 5 برابر اندازه GPT-3، که به عنوان استانداردی برای اندازه‌گیری میزان پیشرفت برای مدل‌های بزرگ هوش مصنوعی عمل می‌کند. این مدل برای چندوجهی بودن و چندوظیفه‌ای در نظر گرفته شده بود و یک گام فراتر از مدل‌های قبلی به سمت هوش عمومی پیش رفت.

از نظر توانایی‌ها، M6 شبیه GPT-3 و سایر مدل‌های مشابه مانند Wu Dao 2.0 یا MT-NGL 530B است (که اطلاعات بسیار کمی از آن‌ها داریم). InfoQ، یک مجله فناوری چینی محبوب، مهارت‌های اصلی M6 را جمع‌آوری می‌کند: «[این] دارای شناخت و خلاقیت فراتر از هوش مصنوعی سنتی است، در طراحی، نوشتن، پرسش و پاسخ خوب است و چشم‌اندازهای کاربردی گسترده‌ای در بسیاری از زمینه‌ها مانند تجارت الکترونیک، ادبیات و هنر تولید دارد.»

با این حال، جنبه مهم محققان Alibaba، بهره‌وری قابل‌توجه و بهبود هزینه انرژی بود. آن‌ها مصرف مدل را تا ۸۰٪ کاهش و کارایی آن را در مقایسه با ۱۰۰ میلیون مدل زبان افزایش دادند.

اخبار بسیار مهمی در راستای اصول و اهداف هوش مصنوعی سبز.

الگوریتم هوش مصنوعی سبز برای نمایش دادن مدل‌های زبان بزرگ

اما آنها به همین جا بسنده نکردند و اکنون، 5 ماه بعد، نه به یک، بلکه به دو نقطه عطف جدید دست یافته‌اند: آنها M6 را بهبود بخشیده‌اند تا آن را به اولین مدل زبان بزرگ 10 تریلیون پارامتری تبدیل کنند - 50x GPT- سایز 3. و آن‌ها نمرات قبلی خود را در بهره‌وری بهتر کرده‌اند و مصرف انرژی را به 1٪ از آنچه GPT-3 برای آموزش نیاز داشت کاهش داده‌اند.

آن‌ها فقط از 512 پردازنده گرافیکی برای آموزش مدل در 10 روز استفاده کردند!

این دستاوردها پیامدهای مثبت گسترده‌ای برای جامعه AI و جهان خواهد داشت.

از یک طرف، این یک جهش بزرگ به سمت پیدا کردن زمینه مشترک بین نیازهای مدل‌های AI بزرگ و الزامات جنبش‌های انرژی پاک است که هدف آن‌ها کاهش جای پای کربن است. یکی از انتقادات اصلی مدل‌های زبان بزرگ این است که آن‌ها نمی‌توانند مقادیر عظیمی از آلودگی که تولید می‌کنند را جبران کنند. تخمین زده شده است که آموزش یک مدل هوش مصنوعی بزرگ (pre-GPT-3) 5 برابر بیشتر از یک ماشین در طول عمر خود آلودگی ایجاد می‌کند - و مفید بودن آن‌ها چندان آشکار نیست. آمازون و مایکروسافت، در میان دیگر شرکت‌های فن‌آوری، در حال حاضر برنامه‌هایی را برای کاهش انتشار کربن در سال‌های آینده ارائه کرده‌اند، اما هر دو هدف مقابله با این مشکل از طریق خنک کردن مراکز داده را دارند در حالی که Alibaba به راه‌حل بهتری دست یافته‌است؛ کاهش منابع مورد نیاز برای آموزش مدل‌ها.

این یک مزیت مهم دیگر دارد. اگر Alibaba تکنیک‌ها و روش‌های مورد استفاده برای دستیابی به نتایج خود را منتشر کند، بازیگران کوچک‌تر می‌توانند وارد رقابت علیه شرکت‌های فن‌آوری بزرگ شوند که در حال حاضر حوزه بسیار سودآور مدل‌های AI بزرگ را به انحصار خود در آورده‌اند.

هزینه تحقیق، آموزش، و استنباط چنان زیاد است که حتی غول‌های بزرگی مانند گوگل نیز در تامین مالی این فن‌آوری مشکل دارند. DeepMind، یکی از زیرمجموعه‌های گوگل، تصمیم گرفت هنگام ایجاد AlphaStar احتمالات مختلف را برای یک جزء کلیدی بررسی نکند تا از بودجه پیشی بگیرد. OpenAI-که به یک ابرکامپیوتر ۱۰۰۰۰ Nvidia V100 ارائه‌شده توسط مایکروسافت دسترسی داشت (اگرچه مقدار دقیق GPU های مورد استفاده فاش نشده است)-تصمیم گرفت GPT-۳ را مجددا آموزش ندهد. برخی محاسبات ناخالص هزینه آموزش را حداقل ۴.۶ میلیون دلار برآورد می‌کنند، که برای اکثر شرکت‌ها خارج از دسترس است-بدون در نظر گرفتن هزینه‌های تحقیق و توسعه، که این رقم را به ۱۰ تا ۳۰ میلیون دلار افزایش می‌دهد.

چگونه شرکت‌های کوچک‌تر می‌توانند با آن رقابت کنند؟

در مقابل، آخرین نسخه از M6 به مدت ۱۰ روز بر روی ۵۱۲ GPU آموزش داده شده‌است. (GPT-۳ در V100 آموزش داده شد، اما محققان محاسبه کردند که با استفاده از A100s، آموزش مدل در عرض ۳۴ روز به ۱،۰۲۴ GU می‌رسد.)

با انجام برخی محاسبات ناخالص می‌توانیم هزینه آموزش را برای هر دو مدل مقایسه کنیم. من فرض می‌کنم علی‌بابا از Nvidia A100 و هزینه‌ای مشابه برای نمونه/ساعت GPU به عنوان AWS استفاده کرده است، در حالی که یک نمونه 8-Nvidia A100 AWS حدود 20 دلار در ساعت هزینه دارد. با توجه به اینکه آن‌ها از ۵۱۲ GPU استفاده کردند که ۶۴ ۸-۱۰۰ نمونه را می‌سازد. با انجام محاسبات، کل هزینه = 64 #نمونه · 20 دلار در ساعت · 24 ساعت در روز · 10 روز = 307200 دلار است.

هنوز هم تا حدودی پرهزینه است، اما نزدیک به آن چیزی نیست که OpenAI برای آموزش GPT-3 هزینه کرده است.

یک روزنه امید برای آینده

در گذشته، من از مدل‌های زبان بزرگ به دلایلی از تبعیض و تعصب گرفته تا ظرفیت اطلاعات نادرست، تا عدم درک، و حتی به این دلیل که چرا ما حتی به مدل‌های زبانی بزرگ‌تر نیاز داریم، بسیار انتقاد می‌کردم. و همچنین به دلیل هزینه‌های بالای زیست‌محیطی و مالی که این سیستم‌ها را ایجاد می‌کند.

اما امروز من نتایج منتشر شده آکادمی Alibaba DAMO را تحسین می‌کنم.

به نظر می‌رسد که آن‌ها متعهد به بهبود حداقل برخی از مشکلاتی هستند که این روند جدید AI باخود به همراه دارد. هنوز کارهای زیادی برای انجام دادن وجود دارد-و برخی از مسائل آنقدر برای این مدل‌ها ذاتی هستند که ما تنها می‌توانیم امیدوار باشیم که آن‌ها را کاهش دهیم-اما دیدن شرکت‌های فن‌آوری بزرگ با هدف بهبود چشم‌انداز فعلی یک روزنه امید برای آینده نزدیک هوش مصنوعی است.

این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.