ابَرمدل زبان: مدل زبانی GPT-3 و انقلاب هوش مصنوعی

زمانی، انتشار الگوریتم تولید متن شرکت OpenAI موسوم به GPT-2 کار خطرناکی قلمداد می‎شد. اما به هر ترتیب منتشر شد و تحول بزرگی در مقیاس جهانی پدید آمد. مدل زبانی نسبتاً کوچک GPT-2 حاوی ۵/۱ میلیارد پارامتر می‌باشد، در حالی که نسخه‌ پیشرفته‌ی آن، مدل زبانی GPT-3، اما ۱۷۵ میلیارد پارامتر را دربرمی‌گیرد. این الگوریتم که با ۴۵ ترابایت داده متنی آموزش داده شده، هزینه‌ای بالغ بر ۱۲ میلیون دلار در پی داشته است. ساندینی آگراوال، محقق سیاست هوش مصنوعی شرکت OpenAI در مصاحبه با Digital Trends خاطرنشان کرد: «در ابتدا می‌خواستیم الگوریتم را به صورت مرحله‌ به مرحله منتشر کنیم. به تعبیری، ابتدا مدل کوچکتری از آن را منتشر کنیم و سپس منتظر بمانیم ببینیم چه اتفاقی رخ می‌دهد. اگر شرایط مساعدی حاکم باشد، نسخه بعدی مدل را منتشر کنیم. دلیل اتخاذ چنین رویکردی این است که دنیای الگوریتم‌ها مملو از ناشناخته‌ها است. لذا باید درصد ریسک را کاهش دهیم.»
حال، نُه ماه پس از انتشار مدل زبانی GPT-3، این الگوریتم می‌تواند ۵/۴ میلیارد واژه در روز تولید کند. اگر تنها چند جمله‌ی نخست یک سند یا متن را در اختیار آن قرار دهید، الگوریتم یادشده قادر است بی‌نهایت فایل متنی با همان سبک تولید کند. آیا این الگوریتم جهان را به ورطه نابودی خواهد کشید؟ رویدادهای گذشته به ما یادآور می‌شود که چنین اتفاقی رخ نخواهد داد. اما امروزه برخی از کاربردهای ارزشمند هوش مصنوعی امکان‌پذیر شده و انتظار می‌رود به تحولات گسترده‌ای ختم شود. این پیشرفت‌ها پرسش‌های بی‌پاسخ فراوانی با خود به ارمغان آورده است.
چندی پیش، فرانسیس جرویس، بنیان‌گذار استارت‌آپِ Augrented، از الگوریتم مدل زبانی GPT-3 برای کمک به افرادی استفاده کرد که می‌خواستند متنی برای دریافت تخفیف کرایه خانه بنویسند. جرویس در گفتگو با Digital Trends بیان کرد: «من این مورد کاربردی را انتقال سبک نام‌گذاری می‌کنم. این الگوریتم بولت‌پوینت‌ها را که اصلاً لازم نیست به زبان انگلیسی باشند، مورد استفاده قرار می‌دهد. سپس، دو الی سه جمله به زبان رسمی تحویل می‌دهد.»
ابزار جرویس که مجهز به این مدل زبانیِ ابرقدرتمند است، به کرایه‌دهندگان فرصت می‌دهد تا شرایط خود و دلیل درخواست تخفیف را توضیح دهند. بنیان‌گذار استارت‌آپِ Augrented در ادامه گفت: «فقط کافی است دلیل قطع شدن درآمدتان را با چند کلمه توضیح دهید. چند ثانیه بعد یک پاراگراف عالی، قانع‌کننده و رسمی دریافت خواهید کرد که می‌توانید به متن نامه اضافه کنید.» البته این تنها بخشی از توانمندی‌های الگوریتم یادشده است. زمانی که آدیتیا جوشی، مهندس یادگیری ماشین و مهندس اسبق خدمات وب آمازون، نخستین بار با مدل زبانی GPT-3 آشنا شد، به شدت از قابلیت‌های آن الگوریتم به وجد آمده بود. جوشی در مصاحبه با Digital Trends توضیح داد: «مدت کوتاهی پس از اینکه شرکت OpenAI خبر از انتشار مدل زبانی GPT-3 داد، توسعه‌دهندگان شروع به نشر توئیت‌هایی درباره دموی نرم‌افزارهایی کردند که با استفاده از مدل زبانی GPT-3 ساخته شده بود. کارشان به طرز شگفت‌انگیزی خوب بود. من وب‌سایت خودم را با هدف تسهیل دسترسی علاقمندان به این نمونه‌ها ایجاد کردم. افراد می‌توانند راهکارهای خلاقانه‌ای برای استفاده از مدل زبانی GPT-3 پیدا و مسئله مورد نظرشان را حل کنند.»
جوشی همچنین به این نکته اشاره کرد که برخی از دموها (نسخه‌های آزمایشی) واقعاً او را تحت تاثیر قرار داده است. برای نمونه، یک ژنراتور طرح‌بندی می‌تواند با تولید کد جاوا اسکریپت از توضیحات یک متن ساده به ایجاد طرحی کاربردی بپردازد. آیا دوست دارید متنی با یک سری دکمه و طرح رنگین‌کمان تولید کنید؟ فقط کافی است آن موارد را در قالب متنی ساده توضیح دهید و ژنراتور طرح‌بندی شریف شمیم کد آن را برایتان خواهد نوشت. موتور جستجوی مبتنی بر مدل زبانی GPT-3 که پاراس چوپرا ساخته است، می‌تواند هر پرسش متنی را به پاسخ تبدیل کند و لینک URL ارائه دهد تا اطلاعات بیشتری کسب کنید. در موردی دیگر، الگوریتم مایکل تفولا اسناد حقوقی را به انگلیسی ساده تبدیل می‌کند. الگوریتم دیگری که رافائل میلیر ساخته، می‌تواند مقاله‌های فلسفی بنویسد. الگوریتمِ ساخته‌ی گوئن برانون می‌تواند متون تخیلی خلاقانه‌ای تولید کند. جوشی در ادامه بیان کرد: «انتظار نداشتم مدل‌های زبانی در چنین طیف گسترده‌ای از کارها چنین عملکرد درخشانی از خود به جای بگذارند. این مدل‌ها می‌توانند نقش بسیار موثری در ترجمه زبان، تولید متن، خلاصه‌سازی متن و استخراج گذاره داشته باشند. من در یکی از آزمایش‌های خودم از مدل زبانی GPT-3 برای پیش‌بینیِ واکنش‌های احتراق شیمیایی استفاده کردم. در کمال تعجب، مدل زبانی GPT-3 عملکرد بسیار خوبی داشت.» در طی چند دهه گذشته، یادگیری ماشین به طرُق مختلف در بسیاری از حوزه‌ها انقلاب عظیمی رقم زده است.
ساندینی آگراوال این چنین توضیح می‌دهد: «بی‌تردید، افرادی که از مدل زبانی GPT-3 استفاده کرده‌اند، از قابلیت‌های بی‌بدیل آن شگفت‌زده شده‌اند. بنابراین، بسیاری از موارد کاربردی با خلاقیت بالایی همراه‌اند؛ به ویژه در حوزه‌هایی که اصلاً تصورش را هم نمی‌کردم. آینده درخشانی در پیش رو داریم. اما مدل زبانی GPT-3 و مسیری که شرکت OpenAI در تحقیقاتش در پیش گرفته بود، این امیدواری را در دل‌ها ایجاد کرده بود که مدل هوش مصنوعی کارآمدی خواهیم داشت و برای اهداف عمومی‌تر به کار گرفته خواهد شد. هدف کلی از ساخت این نوع مدل هوش مصنوعی این است که فقط یک مدل بتواند همه این کارهای مختلف هوش مصنوعی را یک‌تنه انجام دهد.»
بسیاری از پروژه‌ها به این مسئله اشاره می‌کنند که مدل زبانی GPT-3 فاقد آموزش‌های لازم است. در طی چند دهه گذشته، یادگیری ماشین به طرُق مختلف در بسیاری از حوزه‌ها انقلاب عظیمی رقم زده است. اما یادگیری ماشین به تعداد بسیار زیادی نمونه آموزشی نیاز دارد تا بتواند پاسخ‌های درست را استخراج کند. از طرف دیگر، مدل زبانی GPT-3 فقط با چند نمونه انگشت‎شمار نیز می‌تواند آموزش داده شود. مدل زبانی GPT-3 ابزار بسیار تاثیرگذاری است، اما چالش‌هایی را نیز به همراه دارد که برخی از آنها به هزینه‌ها مربوط می‌شود. خدمات پرحجمی از قبیل چت‌بات‌ها می‌توانند از نیروی جادویی مدل زبانی GPT-3 بهره‌مند شوند، اما هزینه‌ی کاربرد آن بسیار بالاست. برای نمونه، فقط یک پیام ۶ سنت هزینه در بردارد؛ شاید مبلغ ناچیزی به نظر برسد، اما تعداد پیام‌های بیشتر به معنای هزینه بیشتر است.

برخی دیگر به دسترس‌پذیری گسترده و کمبود حافظه آن اشاره می‌کنند. پنجره context این الگوریتم مدتی پیش تنها قادر به پردازش ۲۰۰۰ کلمه در هر بار بود. حافظه‌ی آن مثل شخصیت «گای پیرس » در فیلم «ممنتو » ریست می‌شود. یکی از محققان به نام لاستوویچ می‌گوید: «این ویژگی طول متنِ قابل تولید را محدود می‌کند؛ مثلاً یک پاراگراف کوتاه در هر درخواست تولید می‌شود. به عبارت دیگر، نمی‌تواند متون طولانی تولید کند، اما اتفاقات ابتدای کار را به خاطر می‌سپارد.»
با این حال، شاید بارزترین چالش، مهم‌ترین نقطه قوت آن باشد: یعنی افسانه‌سازی . افسانه‌سازی عبارتی رایج در میان پزشکان است و برای توصیف افرادی به کار می‌رود که از مشکلات حافظه رنج می‌برند. در اصطلاح روان‌پزشکی، افسانه‌سازی یا افسانه‌بافی، به معنی پر کردن ناخودآگاه فواصل حافظه با تجارب غیر واقعی و خیالی است که بیمار آنها را باور می‌کند اما واقعیت ندارد. به عبارت دیگر، در این حالت، بیمار بخشی از خاطرات خود را با جزئیات من درآوردی پر می‌کند. بسته به بافت، توان مدل زبانی GPT-3 در افسانه‌سازی می‌تواند در عین حال نقطه قوت و نقطه ضعف آن تلقی شود. این قابلیت می‌تواند در پروژه‌های خلاقانه بسیار موثر واقع شود. فرانسیس جرویس نیز به قابلیت مدل زبانی GPT-3 برای تولید چرندیاتِ قانع‌کننده اشاره می‌کند. نیک والتون از AI Dungeon بیان می‌دارد: «مدل زبانی GPT-3 در نگارش متون خلاقانه عملکرد بسیار خوبی دارد؛ گویی یک انسان آن متون را نوشته باشد. اما یکی از نقاط صعف آن این است که غالباً به نحوی می‌نویسد که اطمینان و اعتمادبنفس بالایی دارد؛ حتی در صورتی که ندانَد پاسخ فلان پرسش چیست.»

آزمایش اتاق چینی جان سرل

جان سرل، فیلسوف، در سال ۱۹۸۰ یکی از مشهورترین آزمایش‌های فکری هوش مصنوعی را منتشر کرد که بر موضوع «درک» تمرکز داشت. وی با این سؤال که آیا یک برنامه هوشمند مترجم کامپیوتری که توانایی ترجمه از زبان چینی به زبان انگلیسی را دارد، ضرورتی برای فهم موضوع مورد ترجمه دارد یا خیر، و با تشبیه ذهن به یک برنامه هوشمند کامپیوتری این استدلال را در برابر مواضع فلسفی کارکردگرایی و نظریه محاسباتی ذهن که در آنها، ذهن به عنوان یک محاسبه‌گر یا دستکاری کننده نماد عمل می‌کند، قرار دهد. در واقع نتایج حاصل از آزمایش اتاق چینی حکایت از این دارد که هیچ برنامه‌ای نمی‌تواند به کامپیوتر ذهن، فهم یا آگاهی بدهد. حال آن برنامه هر آنچه می‌خواهد هوشمند باشد و باعث شود کامپیوتر همچون انسان رفتار کند. زمانی که سرل این آزمایش فکری را مطرح کرد، الگوریتم مدل زبانی GPT-3 وجود نداشت. با این حال، مسئله «فهمیدن» همواره برای بشر بغرنج بوده است.

ساندینی آگراوال اظهار می‌کند: «با مسئله بحث‌برانگیزی روبرو هستیم. عقاید گوناگونی در خصوص این موضوع مطرح است که آیا مدل‌های زبانی می‌توانند به درک و فهم واقعی برسند یا خیر. نظر من درباره مدل زبانی GPT-3 این است که گاهی عملکرد بسیار درخشانی از خود بر جای می‌گذارد، اما گاهی نیز در انجام کارآمد برخی از کارها ناکام می‌ماند. گویا اینکه خروجی تا چه اندازه برایتان معنادار به نظر برسد، امری تصادفی است. شاید در مواقعی تحت تاثیر خروجی قرار گیرید. البته گاهی نیز خواهید دید که خروجی با منطق فاصله دارد. در حال حاضر، به باور من، مدل زبانی GPT-3 فاقد قابلیت درک و فهم است.» امروزه، مسئله‌ای که به پیچیدگی آزمایش اتاق چینی می‌افزاید این است که مدل زبانی GPT-3 در هر مرحله توسط تیمی کوچک از محققان برنامه‌نویسی نمی‌شود. مدل زبانی GPT-3 مدل عظیمی می‌باشد که با مجموعه‌داده‌های عظیمی (متشکل از اینترنت) آموزش دیده است. به تعبیری، این الگوریتم می‌تواند استنباط‌ها و سوگیری‌های رمزگذاری شده در داخل متون را پیدا کند. آیا تابحال شنیده‌اید که می‌گویند «عیار هر فرد با پنج نفر از صمیمی‌ترین دوستانش مشخص می‌شود»؟ مدل زبانی GPT-3 با دیتاست بسیار بزرگی از داده‌های متنی آموزش دیده که از منابع مختلف به دست آمده‌اند. از جمله‌ی این منابع می‌توان به کتاب‌ها، ویکی‌پدیا و سایر مقاله‌ها اشاره کرد. الگوریتم از این منابع یاد می‌گیرد تا واژه بعدی را در توالی پیش‌بینی کند. البته این کار می‌تواند پیامدهای ناخواسته‌ای را به همراه داشته باشد.
چالشِ کار با مدل‌های زبانی بزرگ، نخستین بار در مقاله‌ی مشهوری با محوریت «طوطی تصادفی » مورد بررسی قرار گرفت. عبارت طوطی تصادفی که نخستین بار توسط جمعی از نویسندگان مقاله ابداع شد، به مدل زبانی بزرگی اشاره می‌کند که توالی‌های اَشکال زبانی رویت‌شده در داده‌های آموزشی را با یکدیگر تلفیق می‌کند. این کار بر اساس اطلاعات احتمالی درباره نحوه‌ی ترکیب آنها به دست می‌آید. آلبرت گازی – یکی دیگر از کاربران مدل زبانی GPT-3- در همین راستا خاطرنشان می‌کند : «باید این نکته را در ذهن داشت که مدل زبانی GPT-3 سوگیری‌های خاص خود را دارد. من از این موضوع باخبرم که تیم شرکت OpenAI به سختی در تلاش است تا از شدت این سوگیری‌ها بکاهد. اما در هر صورت باید این مشکل را به زودی از میان برداشت، زیرا می‌تواند در درازمدت پیامدهای سنگینی به همراه داشته باشد.»
شرکت OpenAI تدابیری پیشگیرانه‌ای برای مقابله با سوگیری اندیشیده است که از جمله آنها می‌توان به فیلتر درجه سمیت اشاره کرد که زبان‌ها و موضوعات خاصی را فیلتر می‌کند. OpenAI به دنبال راهی است تا بازخورد انسانی را با هدفِ تعیین حوزه‌های مهم بکار گیرد. علاوه بر این، تیم OpenAI میزان دسترسی به ابزارها را کنترل می‌کند تا از دسترسیِ افراد به کاربردهای منفیِ آن پیشگیری بعمل آید. آگراوال در این رابطه توضیح می‌دهد: «یکی از دلایلی که تعداد زیادی از این کاربران بدخواه را ندیده‌اید، این است که فرایند مرور جامع برای این کار وجود ندارد. بر اساس سازوکار موجود، هرگاه بخواهید از الگوریتم مدل زبانی GPT-3 در محصولی استفاده کنید که امکان بکارگیری آن وجود دارد، باید یک فرایند را پشت سر بگذارید. بر طبق این فرایند، یک تیم مسئولیت نحوه‌ی استفاده کاربران از مدل زبانی GPT-3 را بررسی می‌کند. اگر این تیم تایید کند که اقدام بدخواهانه‌ای صورت نمی‌گیرد، امکان دسترسی به کاربر داده می‌شود.» بخشی از این کار بسیار پردردسر است. جرویس در همین زمینه اضافه می‌کند: «گاهی، پیام‌های مدل زبانی GPT-3 با سوگیری‌های جنسیتی یا طبقه‌ای همراه است.» ممکن است الگوریتم هویت جنسیتی فرد را بر اساس شغل یا نقش خانوادگی تعیین کند. شاید اینها مثال‌های فاجعه‌باری از سوگیری هوش مصنوعی نباشند، اما دستکم به این موضوع اشاره می‌کند که چه اتفاقی رخ می‌دهد اگر حجم عظیمی از داده ها به کار برده شود.
حال، به نقطه‌نظرات تایلر لاستوویچ توجه کنیم: «نمی‌توان احتمال وجود سوگیری را انکار کرد. OpenAI تا حد زیادی از نتایج سوگیرانه پیشگیری می‌کند، اما نوعی مسئولیت به همراه دارد که مشتریان باید پیش از تولید مدل در موردش فکر کنند. یکی از مسائلی که باید بیش از پیش مد نظر قرار گیرد، تمایل مدل برای طرح اطلاعات کذب است چرا که هیچ درکی از اطلاعات درست یا نادرست ندارد.»

مدل‌های زبانی و آینده‌ی هوش مصنوعی

الگوریتم مدل زبانی GPT-3 نَه ماه پس از انتشار به ابزار بسیار کارآمدی تبدیل شده و تحولات بزرگی ایجاد کرده است. افزایش روزافزون کاربردهای مدل زبانی GPT-3 نشان می‌دهد که ابزار هوش مصنوعی مولد متن می‌تواند برخلاف تصورات عملکرد فوق‌العاده‌ای داشته باشد. البته رقبای دیگری هم برای این ابزار پیدا شده است.

چندی پیش Google Brain خبر از انتشار مدل زبانی جدیدی با ۶/۱ تریلیون پارامتر داد که نُه برابر بزرگتر از محصول OpenAI می‌باشد . این ابزارها از توان بسیار بالایی برخوردارند. بی‌تردید، این فناوری‌های چالش‌های عمده‌ای هم دارند. شرکت‌هایی نظیر OpenAI، محققان و غیره باید سعی در رفع این چالش‌ها داشته باشند.

منبع: هوشیو