معرفی دستاوردهای جدید Meta AI

در ماه‌های گذشته به دلیل انتشار ChatGPT و ‌Google Bard و همچنین مدل‌های مولد تصویر نظیر DALL-E و Midjourney عمده اخبار هوش‌مصنوعی مربوط به مدل‌های بزرگ زبانی[۱] و هوش‌مصنوعی مولد [۲] بود. در میان این اخبار رقابت بین گوگل و مایکروسافت بیشتر به چشم می‌خورد. اما در این حین سایر غول‌های تکنولوژی نیز دست‌خالی نبوده و در حال توسعه و انتشار دستاوردهای چشم‌گیر خود در حوزه هوش‌مصنوعی بوده و هستند. شرکت متا (فیس‌بوک سابق) نیز از جمله این شرکت‌های پیش‌رو است. اگر چه مدل زبانی LLaMA که توسط متا معرفی شد در سایه GPT4 و Bard توجه چندانی را به خود جلب نکرد ولی در روزهای اخیر با کاسته شدن از تب‌و‌تاب مدل‌های بزرگ زبانی، متا از فرصت‌های مختلف برای معرفی دستاوردهای خود استفاده کرده است.

مرکز تحقیقاتی Meta AI که قبل از تغییر نام فیس‌بوک با نام [۳] (Facebook AI Research (FAIR شناخته می‌شد، زیرمجموعه‌ای از شرکت متا است که از سال ۲۰۱۵ در حال تحقیقات در حوزه‌های مختلف هوش‌مصنوعی است. کتابخانه معروف PyTorch برای ماشین‌لرنینگ نیز توسط این مجموعه توسعه داده می‌شود. یان‌لیکان از افراد شناخته شده و برنده جایزه تورینگ از ابتدای تاسیس این مجموعه نقش کلیدی در جهت‌دهی و پروژه‌های Meta AI داشته است. در ادامه تعدادی از دستاوردهای جدید این مرکز تحقیقاتی معرفی می‌شود. پروژه‌ها و دستاوردهای Meta AI محدود به این لیست نیست. جهت کسب اطلاعات بیشتر به وب‌سایت رسمی آن مراجعه کنید.


معرفی مدل LSC برای دستور دادن به ربات با زبان انسان

مدل LSC [۴] یک مکانیزم ساده برای دستور دادن به ربات‌/سیستم با زبان انسان را فراهم می‌کند. با استفاده از این مدل انسان می‌تواند بدون هیچ ساختار مشخصی دستورات خود را برای ربات‌/سیستم به زبان بیاورد. روش‌های کنونی دستور دادن به سیستم‌های هوش‌مصنوعی با زبان انسان چنین جامعیتی برای تسک‌های مختلف را ندارد. این مکانیزم زبان انسان را دریافت کرده و آن را به متن تبدیل می‌کند. سپس این متن به عنوان ورودی به یک مدل LLM داده شده تا توانایی‌های مناسب ربات/سیستم برای انجام دادن هدف را با ورودی‌های مناسب انتخاب کند. به عنوان مثال جمله "فنجان را بردار" منجر به اجرای (pick(cup (فراخوانی تابع pick با آرگومان cup) می‌شود. از طرفی از آنجایی که این مدل به فرم خاصی محدود نبوده شیوه‌های دیگر بیان این دستور به زبان انسان نیز نتیجه یکسانی خواهد داشت. در ویدیو این لینک اجزای این مکانیزم به خوبی به تصویر کشده شده است. مدل LSC می‌تواند تعامل انسان و ربات را در مسائل Open Vocabulary Mobile Manipulation (OVMM)[۵] ساده‌تر کند. نتایج این پروژه در کنفرانس [۶] 2023 CVPR ارائه شد.

با کلیک کردن روی هر کدام از جملات زیر می‌توانید ربات Spot در حال انجام آن دستور با استفاده از LSC را مشاهده کنید:

Take all plushies to the hamper and bottle to the trash

Take the bowls and cups from the kitchen counter to the sink and plushies to the room table

Pick up the cup on the table and place it in the sink


معرفی Voice‌‌Box

با استفاده از VoiceBox [۷] شما می‌توانید با صدای هر کسی فایل صوتی تولید کنید! VoiceBox یک مدل مولد (Generative) بوده که براساس Flow Matching پیاده‌سازی شده است. این مدل کاربردهای گسترده‌تری داشته که در ادامه معرفی می‌شود.

  1. حذف نویز: فرض کنید در حال ضبط گزارش خبری هستید و صدای پارس سگ و یا صدای عبور ماشین نیز در گزارش ثبت می‌شود. VoiceBox امکان حذف نویز محیط را از فایل صوتی فراهم می‌سازد. برای شنیدن نمونه‌‌ها به این لینک مراجعه کنید.
  2. ویرایش فایل صوتی: فرض کنید یک فایل صوتی طولانی ضبط کرده‌اید. بعد از ضبط متوجه می‌شوید لازم است بخشی از متن اصلاح شده و دوباره ضبط شود. VoiceBox می‌تواند قسمت مورد نظر را با متن جدید جایگزین کند. برای شنیدن نمونه‌ها به این لینک مراجعه کنید.
  3. تولید فایل صوتی بر اساس نمونه: با استفاده از یک صدای نمونه به عنوان رفرنس می‌توانید متن مورد نظر را با آن صدا تولید کنید. این قابلیت می‌تواند بین زبان‌های مختلف نیز استفاده شود. به عنوان مثال صدای رفرنس می‌تواند به زبان انگلیسی باشد ولی صوت تولیدی به زبان فرانسوی. برای شنیدن نمونه‌ها به اینجا و اینجا مراجعه کنید.
  4. تولید فایل صوتی بدون نمونه: VoiceBox برای خواندن متن الزاماً نیازی به فایل رفرنس ندارد. بلکه می‌تواند یک صوت کاملا جدید تولید کند. برای شنیدن نمونه‌ها به اینجا مراجعه کنید.

اگرچه VoiceBox بسیار کاربردی است ولی به راحتی می‌تواند برای تولید Deep Fake مورد استفاده قرار بگیرد. از این‌رو با توجه به ریسک‌های آن متا تنها به معرفی و ارائه نتایج اکتفا کرده و از انتشار آن به صورت عمومی چشم پوشیده است. تلاش‌های متا در حوزه Speech محدود به VoiceBox نیست. این مجموعه امسال با معرفی Audiocraft به صورت متن‌باز مدلی برای تولید موسیقی از متن ارائه کرد. برای تست Audiocraft به اینجا مراجعه کنید.


چیپ MTIA v1

سخت‌افزار همواره یکی از تنگناهای بهره‌وری در توسعه سیستم‌های هوش‌مصنوعی بوده است. پردازنده‌های رایج برای طیف گسترده‌ای از کاربردها طراحی می‌شوند. به همین جهت ممکن است بهره‌وری مورد نیاز برای اجرای یک پردازش خاص را نداشته باشند. این موضوع توسط شرکت‌های تکنولوژی نادیده گرفته نشده و همواره چیپ‌های مخصوص برای ماشین‌لرنینگ طراحی و پیاده‌سازی شده است. به چیپ‌های سفارشی‌شده برای کاربردهای خاص Application Specific Integrated Circuit (ASIC) گفته می‌شود. متا اولین چیپ ASIC مخصوص ماشین‌لرنینگ خود را در سال ۲۰۲۰ با نام [۸] (MTIA) Meta Training and Inference Accelerator معرفی کرد.  MTIA شبکه‌ای از 64 واحد پردازنده (PE) با آرایش 8*8 است که می‌تواند علاوه بر مموری چیپ از مموری خارجی نیز استفاده کند. یک SRAM با سایز 128MB بین واحدهای پردازنده به اشتراک گذاشته می‌شود تا دسترسی به دستورات و دیتای پرتکرار سریع‌تر شود. هر PE نیز از دو هسته کاستوم به همراه تعدادی Fixed Function Unit تشکیل می‌شود. Fixed Function Unitها برای اجرای دستورات مهم و پرتکرار نظیر ضرب ماتریس‌ها بهینه شده‌اند. هر هسته براساس RISC-V طراحی شده و تا جای ممکن برای پردازش موازی و دسترسی سریع به دیتا بهینه شده است. علاوه‌بر SRAM اشتراکی بین PEها‌، هر PE نیز دارای 128KB حافظه SRAM اختصاصی است. به‌زودی در کنفرانس ISCA 2023 جزئیات جدیدی از این چیپ ارائه خواهد شد.


در دسترس قرار دادن ۶۵ مقاله‌ و دیتاست از تحقیقات Meta AI در حوزه هوش‌مصنوعی

مارک زاکربرگ بنیان‌گذار متا و یان لیکان از رهبران کلیدی Meta AI همواره به اهمیت متن‌باز بودن تحقیقات هوش‌مصنوعی تاکید داشته‌اند. بررسی مخزن گیت‌هاب این مجموعه نیز گواه این ادعاست. در راستای همین طرز فکر Meta AI مجموعه‌ای از ۶۵ مقاله و دیتاست مربوط به تحقیقات خود را در دسترس عموم قرار داد.  لیست این مقالات و دیتاست‌ها را از اینجا مشاهده کنید. اگر برای پروژه خود به دنبال دیتاست می‌گردید نگاه کردن به این لیست خالی از لطف نیست.


۱. Large Language Model (LLM)

۲. Generative AI

۳. در سال ۲۰۱۷ با انتشار خبری درباره تولید زبان جدید توسط چت‌بات‌های فیس‌بوک این مجموعه تحقیقاتی در صدر اخبار قرار گرفت. در این خبر ادعا شده بود که چت‌بات‌های فیس‌بوک زبان جدیدی بدون دخالت انسان ساخته و با استفاده از آن در حال مکالمه هستند و فیس‌بوک به محض فهمیدن این موضوع چت‌بات‌ها را خاموش کرده است. در ادامه این اتفاق ایلان ماسک در توییتی هوش‌مصنوعی را خطرناک‌تر از بمب هسته‌ای و کره‌شمالی معرفی کرد. اگر چه این خبر خوراک خبری خوبی برای رسانه‌ها شد و از سمت افکار عمومی توجه زیادی را جلب کرد ولی واقعیت موضوع چنین نبود. فیس‌بوک با انتشار جزئیات فنی بیشتر درباره این آزمایش تولید زبان جدید توسط چت‌بات‌ها را با توجه به ماهیت مدل‌های Reinforcement Learning طبیعی دانسته و اعلام کرد که این تحقیقات بدون مشکلی پایان یافته است و خاموش کردن آزمایش به دلیل خطرناک بودن آن صحت ندارد. مارک زاکربرگ نیز به توئیت ایلان ماسک واکنش داده و شیوه برخورد او را غیرضروری و بدون مسئولیت نامید.

۴. Language-guided Skill Coordination

۵. منظور از OVMM مسأله‌ای است که در آن یک ربات شی درخواست شده را از محیط پیدا کرده و در محل درخواست‌شده قرار می‌دهد. حل این مسأله‌ ربات‌ها را در محیط زندگی انسان بسیار کارآمد می‌کند. مسابقه‌ای به نام HomeRobot با همکاری متا حول چالش OVMM در حال برگزاری است. نتایج این مسابقه در کنفرانس NeurIPS 2023 ارائه خواهد شد. برای جزئیات بیشتر به این لینک مراجعه کنید.

۶. 2023 Conference on Computer Vision and Pattern Recognition

۷. Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

۸. MTIA v1: Meta’s first-generation AI inference accelerator


جهت دسترسی به آخرین مقالات به اینجا مراجعه کنید. همچنین از طریق این لینک می‌توانید در کانال تلگرام این خبرنامه عضو شوید.