هوش مصنوعی مولد نوعی فناوری هوش مصنوعی است که می تواند انواع مختلفی از محتوا از جمله متن، تصویر، صدا و داده های مصنوعی تولید کند . هیاهوی اخیر در مورد هوش مصنوعی مولد به دلیل سادگی رابط های کاربری جدید برای ایجاد متن، گرافیک و ویدیوهای با کیفیت بالا در عرض چند ثانیه است.
لازم به ذکر است که این فناوری کاملاً جدید نیست. هوش مصنوعی مولد در دهه 1960 در چت بات ها معرفی شد. اما تا سال 2014، با معرفی شبکههای متخاصم مولد یا GAN - نوعی الگوریتم یادگیری ماشینی - بود که هوش مصنوعی مولد توانست تصاویر، ویدیوها و صداهای واقعی قانعکنندهای از افراد واقعی ایجاد کند.
از یک طرف، این قابلیت جدید فرصت هایی را باز کرده است که شامل دوبله بهتر فیلم و محتوای آموزشی غنی می شود. همچنین نگرانیهای مربوط به دیپفیکها - تصاویر یا ویدیوهای جعلی دیجیتالی - و حملات مضر امنیت سایبری به مشاغل، از جمله درخواستهای شرورانهای که به طور واقع بینانه رئیس یک کارمند را تقلید میکنند، باز کرد.
دو پیشرفت اخیر اضافی که در زیر با جزئیات بیشتر مورد بحث قرار خواهند گرفت، نقش مهمی در جریان اصلی هوش مصنوعی مولد ایفا کردهاند: ترانسفورماتورها و مدلهای زبان پیشرفتی که آنها فعال کردهاند. ترانسفورماتورها نوعی یادگیری ماشینی هستند که به محققان امکان آموزش مدل های بزرگتر را بدون نیاز به برچسب زدن همه داده ها از قبل می دهند. بنابراین میتوان مدلهای جدید را بر روی میلیاردها صفحه متن آموزش داد و در نتیجه به پاسخهایی با عمق بیشتری دست یافت. علاوه بر این، ترانسفورماتورها مفهوم جدیدی به نام توجه را باز کردند که مدلها را قادر میسازد تا ارتباطات بین کلمات را در صفحات، فصلها و کتابها ردیابی کنند و نه فقط در جملات جداگانه. و نه فقط کلمات: ترانسفورماتورها همچنین می توانند از توانایی خود برای ردیابی اتصالات برای تجزیه و تحلیل کد، پروتئین ها، مواد شیمیایی و DNA استفاده کنند.
پیشرفتهای سریع در مدلهای به اصطلاح زبان بزرگ ( LLM ) - یعنی مدلهایی با میلیاردها یا حتی تریلیونها پارامتر - عصر جدیدی را گشوده است که در آن مدلهای هوش مصنوعی مولد میتوانند متن جذاب بنویسند، تصاویر واقعی واقعی را ترسیم کنند و حتی تا حدودی سرگرمکننده خلق کنند. کمدی در پرواز علاوه بر این، نوآوریها در هوش مصنوعی چندوجهی، تیمها را قادر میسازد تا محتوا را در انواع مختلف رسانه، از جمله متن، گرافیک و ویدئو تولید کنند. این اساس ابزارهایی مانند Dall-E است که به طور خودکار تصاویر را از توضیحات متن ایجاد می کند یا زیرنویس متنی را از تصاویر ایجاد می کند.
با وجود این پیشرفت ها، ما هنوز در روزهای اولیه استفاده از هوش مصنوعی مولد برای ایجاد متن خوانا و گرافیک های سبک فوتورئالیستی هستیم. پیادهسازیهای اولیه مشکلاتی با دقت و سوگیری داشتهاند، همچنین مستعد توهم و پاسخهای عجیب و غریب هستند . با این حال، پیشرفت تاکنون نشان میدهد که قابلیتهای ذاتی این هوش مصنوعی مولد میتواند اساساً فناوری سازمانی نحوه عملکرد کسبوکارها را تغییر دهد. در آینده، این فناوری می تواند به نوشتن کد، طراحی داروهای جدید، توسعه محصولات، طراحی مجدد فرآیندهای تجاری و تغییر زنجیره تامین کمک کند.
برای مشاهده و دانلود عکس بالا با کیفیت اصلی از گوگل درایو اینجا کلیک کنید.
هوش مصنوعی مولد با یک اعلان شروع می شود که می تواند به شکل متن، تصویر، ویدئو، طرح، نت های موسیقی یا هر ورودی باشد که سیستم هوش مصنوعی می تواند پردازش کند. سپس الگوریتمهای مختلف هوش مصنوعی در پاسخ به درخواست، محتوای جدید را برمیگردانند. محتوا میتواند شامل مقالهها، راهحلهایی برای مشکلات یا تقلبی واقعی باشد که از تصاویر یا صدای یک شخص ایجاد شده است.
نسخههای اولیه هوش مصنوعی مولد نیازمند ارسال دادهها از طریق یک API یا یک فرآیند پیچیده بود. توسعه دهندگان باید با ابزارهای ویژه آشنا می شدند و برنامه های کاربردی را با استفاده از زبان هایی مانند پایتون می نوشتند.
اکنون، پیشگامان در هوش مصنوعی مولد در حال توسعه تجربیات کاربری بهتری هستند که به شما امکان می دهد درخواست را به زبان ساده توصیف کنید. پس از پاسخ اولیه، میتوانید نتایج را با بازخورد درباره سبک، لحن و سایر عناصری که میخواهید محتوای تولید شده منعکس کند، سفارشی کنید.
مدلهای هوش مصنوعی مولد الگوریتمهای هوش مصنوعی مختلف را برای نمایش و پردازش محتوا ترکیب میکنند. به عنوان مثال، برای تولید متن، تکنیکهای مختلف پردازش زبان طبیعی ، نویسههای خام (مانند حروف، علائم نقطهگذاری و کلمات) را به جملات، بخشهایی از گفتار، موجودیتها و کنشها تبدیل میکنند که با استفاده از تکنیکهای رمزگذاری چندگانه به صورت بردار نمایش داده میشوند. به طور مشابه، تصاویر به عناصر بصری مختلف تبدیل می شوند که به صورت بردار نیز بیان می شوند. یکی از احتیاطها این است که این تکنیکها همچنین میتوانند سوگیریها، نژادپرستی، فریبکاری و خفگی موجود در دادههای آموزشی را رمزگذاری کنند.
هنگامی که توسعه دهندگان راهی برای نشان دادن جهان می گیرند، از یک شبکه عصبی خاص برای تولید محتوای جدید در پاسخ به یک پرس و جو یا درخواست استفاده می کنند. تکنیکهایی مانند GAN و رمزگذارهای خودکار متغیر (VAE) - شبکههای عصبی با رمزگشا و رمزگذار - برای تولید چهرههای واقعی انسان، دادههای مصنوعی برای آموزش هوش مصنوعی یا حتی فکسهای انسانهای خاص مناسب هستند.
پیشرفتهای اخیر در ترانسفورماتورهایی مانند نمایشهای رمزگذار دوطرفه Google از Transformers ( BERT )، GPT OpenAI و Google AlphaFold همچنین منجر به شبکههای عصبی شدهاند که نه تنها میتوانند زبان، تصاویر و پروتئینها را رمزگذاری کنند، بلکه محتوای جدیدی نیز تولید میکنند.
چگونه شبکه های عصبی هوش مصنوعی مولد را تغییر می دهند
محققان از همان روزهای اولیه هوش مصنوعی، هوش مصنوعی و ابزارهای دیگری را برای تولید محتوا به صورت برنامهریزی کردهاند. اولین رویکردها، که به عنوان سیستمهای مبتنی بر قانون و بعداً به عنوان «سیستمهای خبره» شناخته میشوند، از قوانین بهصراحت ساختهشده برای تولید پاسخها یا مجموعههای داده استفاده میکنند.
شبکههای عصبی، که اساس بسیاری از برنامههای کاربردی هوش مصنوعی و یادگیری ماشین امروزی را تشکیل میدهند، این مشکل را تغییر دادند. شبکههای عصبی که برای تقلید از نحوه عملکرد مغز انسان طراحی شدهاند، قوانین را از یافتن الگوها در مجموعه دادههای موجود «یاد میگیرند». اولین شبکه های عصبی که در دهه 1950 و 1960 توسعه یافتند، به دلیل کمبود قدرت محاسباتی و مجموعه داده های کوچک محدود شدند. تا قبل از ظهور کلان داده در اواسط دهه 2000 و بهبود در سخت افزار کامپیوتر، شبکه های عصبی برای تولید محتوا عملی شدند.
زمانی که محققان راهی برای اجرای موازی شبکههای عصبی در واحدهای پردازش گرافیکی (GPU) که در صنعت بازیهای رایانهای برای ارائه بازیهای ویدیویی استفاده میشدند، شتاب گرفت. تکنیکهای جدید یادگیری ماشین که در دهه گذشته توسعه یافتهاند، از جمله شبکههای متخاصم و ترانسفورماتورهای مولد فوقالذکر ، زمینه را برای پیشرفتهای قابل توجه اخیر در محتوای تولید شده توسط هوش مصنوعی فراهم کردهاند.
ChatGPT، Dall-E و Gemini (بارد سابق) رابط های هوش مصنوعی مولد محبوب هستند.
دال-ای. Dall-E که بر روی مجموعه داده های بزرگی از تصاویر و توضیحات متنی مرتبط با آنها آموزش دیده است، نمونه ای از یک برنامه کاربردی هوش مصنوعی چندوجهی است که اتصالات را در رسانه های مختلف مانند بینایی، متن و صدا شناسایی می کند. در این صورت معنای کلمات را به عناصر بصری متصل می کند. این با استفاده از پیادهسازی GPT OpenAI در سال 2021 ساخته شد . Dall-E 2، نسخه دوم و با قابلیتتر، در سال 2022 منتشر شد. کاربران را قادر میسازد تا تصاویر را در سبکهای مختلف تولید کنند که توسط درخواستهای کاربر هدایت میشود.
ChatGPT. چت ربات مجهز به هوش مصنوعی که در نوامبر 2022 جهان را طوفانی کرد، بر اساس اجرای OpenAI GPT-3.5 ساخته شد. OpenAI راهی برای تعامل و تنظیم دقیق پاسخ های متنی از طریق رابط چت با بازخورد تعاملی ارائه کرده است. نسخه های قبلی GPT فقط از طریق یک API قابل دسترسی بودند. GPT-4 در 14 مارس 2023 منتشر شد. ChatGPT تاریخچه مکالمه خود با یک کاربر را در نتایج خود گنجانده است و یک مکالمه واقعی را شبیه سازی می کند. پس از محبوبیت باورنکردنی رابط GPT جدید، مایکروسافت سرمایه گذاری جدید قابل توجهی را در OpenAI اعلام کرد و نسخه ای از GPT را در موتور جستجوی Bing خود ادغام کرد.