من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
ملاقات با M6 — ده تریلیون پارامتر با ۱٪ هزینه انرژی GPT-3
منتشر شده در towardsdatascience به تاریخ ۹ نوامبر ۲۰۲۱
لینک منبع Meet M6 — 10 Trillion Parameters at 1% GPT-3’s Energy Cost
با اطمینان میتوانم بگویم که هوش مصنوعی به سرعت در حال پیشرفت است، زمانی که یک شبکه عصبی 50 برابر بزرگتر از شبکه عصبی دیگر با 100 برابر هزینه انرژی کمتر آموزش داده شود - فقط یک سال در بین!
در 25 ژوئن، Alibaba DAMO Academy (شاخه تحقیق و توسعه Alibaba) اعلام کرد که M6 را ساخته است، یک مدل زبان چندوجهی و چندوظیفهای بزرگ با 1 تریلیون پارامتر - در حال حاضر 5 برابر اندازه GPT-3، که به عنوان استانداردی برای اندازهگیری میزان پیشرفت برای مدلهای بزرگ هوش مصنوعی عمل میکند. این مدل برای چندوجهی بودن و چندوظیفهای در نظر گرفته شده بود و یک گام فراتر از مدلهای قبلی به سمت هوش عمومی پیش رفت.
از نظر تواناییها، M6 شبیه GPT-3 و سایر مدلهای مشابه مانند Wu Dao 2.0 یا MT-NGL 530B است (که اطلاعات بسیار کمی از آنها داریم). InfoQ، یک مجله فناوری چینی محبوب، مهارتهای اصلی M6 را جمعآوری میکند: «[این] دارای شناخت و خلاقیت فراتر از هوش مصنوعی سنتی است، در طراحی، نوشتن، پرسش و پاسخ خوب است و چشماندازهای کاربردی گستردهای در بسیاری از زمینهها مانند تجارت الکترونیک، ادبیات و هنر تولید دارد.»
با این حال، جنبه مهم محققان Alibaba، بهرهوری قابلتوجه و بهبود هزینه انرژی بود. آنها مصرف مدل را تا ۸۰٪ کاهش و کارایی آن را در مقایسه با ۱۰۰ میلیون مدل زبان افزایش دادند.
اخبار بسیار مهمی در راستای اصول و اهداف هوش مصنوعی سبز.
الگوریتم هوش مصنوعی سبز برای نمایش دادن مدلهای زبان بزرگ
اما آنها به همین جا بسنده نکردند و اکنون، 5 ماه بعد، نه به یک، بلکه به دو نقطه عطف جدید دست یافتهاند: آنها M6 را بهبود بخشیدهاند تا آن را به اولین مدل زبان بزرگ 10 تریلیون پارامتری تبدیل کنند - 50x GPT- سایز 3. و آنها نمرات قبلی خود را در بهرهوری بهتر کردهاند و مصرف انرژی را به 1٪ از آنچه GPT-3 برای آموزش نیاز داشت کاهش دادهاند.
آنها فقط از 512 پردازنده گرافیکی برای آموزش مدل در 10 روز استفاده کردند!
این دستاوردها پیامدهای مثبت گستردهای برای جامعه AI و جهان خواهد داشت.
از یک طرف، این یک جهش بزرگ به سمت پیدا کردن زمینه مشترک بین نیازهای مدلهای AI بزرگ و الزامات جنبشهای انرژی پاک است که هدف آنها کاهش جای پای کربن است. یکی از انتقادات اصلی مدلهای زبان بزرگ این است که آنها نمیتوانند مقادیر عظیمی از آلودگی که تولید میکنند را جبران کنند. تخمین زده شده است که آموزش یک مدل هوش مصنوعی بزرگ (pre-GPT-3) 5 برابر بیشتر از یک ماشین در طول عمر خود آلودگی ایجاد میکند - و مفید بودن آنها چندان آشکار نیست. آمازون و مایکروسافت، در میان دیگر شرکتهای فنآوری، در حال حاضر برنامههایی را برای کاهش انتشار کربن در سالهای آینده ارائه کردهاند، اما هر دو هدف مقابله با این مشکل از طریق خنک کردن مراکز داده را دارند در حالی که Alibaba به راهحل بهتری دست یافتهاست؛ کاهش منابع مورد نیاز برای آموزش مدلها.
این یک مزیت مهم دیگر دارد. اگر Alibaba تکنیکها و روشهای مورد استفاده برای دستیابی به نتایج خود را منتشر کند، بازیگران کوچکتر میتوانند وارد رقابت علیه شرکتهای فنآوری بزرگ شوند که در حال حاضر حوزه بسیار سودآور مدلهای AI بزرگ را به انحصار خود در آوردهاند.
هزینه تحقیق، آموزش، و استنباط چنان زیاد است که حتی غولهای بزرگی مانند گوگل نیز در تامین مالی این فنآوری مشکل دارند. DeepMind، یکی از زیرمجموعههای گوگل، تصمیم گرفت هنگام ایجاد AlphaStar احتمالات مختلف را برای یک جزء کلیدی بررسی نکند تا از بودجه پیشی بگیرد. OpenAI-که به یک ابرکامپیوتر ۱۰۰۰۰ Nvidia V100 ارائهشده توسط مایکروسافت دسترسی داشت (اگرچه مقدار دقیق GPU های مورد استفاده فاش نشده است)-تصمیم گرفت GPT-۳ را مجددا آموزش ندهد. برخی محاسبات ناخالص هزینه آموزش را حداقل ۴.۶ میلیون دلار برآورد میکنند، که برای اکثر شرکتها خارج از دسترس است-بدون در نظر گرفتن هزینههای تحقیق و توسعه، که این رقم را به ۱۰ تا ۳۰ میلیون دلار افزایش میدهد.
چگونه شرکتهای کوچکتر میتوانند با آن رقابت کنند؟
در مقابل، آخرین نسخه از M6 به مدت ۱۰ روز بر روی ۵۱۲ GPU آموزش داده شدهاست. (GPT-۳ در V100 آموزش داده شد، اما محققان محاسبه کردند که با استفاده از A100s، آموزش مدل در عرض ۳۴ روز به ۱،۰۲۴ GU میرسد.)
با انجام برخی محاسبات ناخالص میتوانیم هزینه آموزش را برای هر دو مدل مقایسه کنیم. من فرض میکنم علیبابا از Nvidia A100 و هزینهای مشابه برای نمونه/ساعت GPU به عنوان AWS استفاده کرده است، در حالی که یک نمونه 8-Nvidia A100 AWS حدود 20 دلار در ساعت هزینه دارد. با توجه به اینکه آنها از ۵۱۲ GPU استفاده کردند که ۶۴ ۸-۱۰۰ نمونه را میسازد. با انجام محاسبات، کل هزینه = 64 #نمونه · 20 دلار در ساعت · 24 ساعت در روز · 10 روز = 307200 دلار است.
هنوز هم تا حدودی پرهزینه است، اما نزدیک به آن چیزی نیست که OpenAI برای آموزش GPT-3 هزینه کرده است.
یک روزنه امید برای آینده
در گذشته، من از مدلهای زبان بزرگ به دلایلی از تبعیض و تعصب گرفته تا ظرفیت اطلاعات نادرست، تا عدم درک، و حتی به این دلیل که چرا ما حتی به مدلهای زبانی بزرگتر نیاز داریم، بسیار انتقاد میکردم. و همچنین به دلیل هزینههای بالای زیستمحیطی و مالی که این سیستمها را ایجاد میکند.
اما امروز من نتایج منتشر شده آکادمی Alibaba DAMO را تحسین میکنم.
به نظر میرسد که آنها متعهد به بهبود حداقل برخی از مشکلاتی هستند که این روند جدید AI باخود به همراه دارد. هنوز کارهای زیادی برای انجام دادن وجود دارد-و برخی از مسائل آنقدر برای این مدلها ذاتی هستند که ما تنها میتوانیم امیدوار باشیم که آنها را کاهش دهیم-اما دیدن شرکتهای فنآوری بزرگ با هدف بهبود چشمانداز فعلی یک روزنه امید برای آینده نزدیک هوش مصنوعی است.
این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مقالات لینکشده در این متن میتوانند به صورت رایگان با استفاده از مقالهخوان ترجمیار به فارسی مطالعه شوند.
مطلبی دیگر از این انتشارات
اتوفلیپ: یک چارچوب منبع باز برای بازسازی هوشمند ویدئو
مطلبی دیگر از این انتشارات
این داروها کرونا ویروس را هدف قرار نمیدهند-آنها ما را هدف قرار میدهند
مطلبی دیگر از این انتشارات
ویژگیهای ترموفیزیکی توده خاک