سیداحمد
سیداحمد
خواندن ۷ دقیقه·۳ ماه پیش

هوش مصنوعی مولد چیست؟ همه چیزهایی که باید بدانید

هوش مصنوعی مولد نوعی فناوری هوش مصنوعی است که می تواند انواع مختلفی از محتوا از جمله متن، تصویر، صدا و داده های مصنوعی تولید کند . هیاهوی اخیر در مورد هوش مصنوعی مولد به دلیل سادگی رابط های کاربری جدید برای ایجاد متن، گرافیک و ویدیوهای با کیفیت بالا در عرض چند ثانیه است.

لازم به ذکر است که این فناوری کاملاً جدید نیست. هوش مصنوعی مولد در دهه 1960 در چت بات ها معرفی شد. اما تا سال 2014، با معرفی شبکه‌های متخاصم مولد یا GAN - نوعی الگوریتم یادگیری ماشینی - بود که هوش مصنوعی مولد توانست تصاویر، ویدیوها و صداهای واقعی قانع‌کننده‌ای از افراد واقعی ایجاد کند.

از یک طرف، این قابلیت جدید فرصت هایی را باز کرده است که شامل دوبله بهتر فیلم و محتوای آموزشی غنی می شود. همچنین نگرانی‌های مربوط به دیپ‌فیک‌ها - تصاویر یا ویدیوهای جعلی دیجیتالی - و حملات مضر امنیت سایبری به مشاغل، از جمله درخواست‌های شرورانه‌ای که به طور واقع بینانه رئیس یک کارمند را تقلید می‌کنند، باز کرد.

دو پیشرفت اخیر اضافی که در زیر با جزئیات بیشتر مورد بحث قرار خواهند گرفت، نقش مهمی در جریان اصلی هوش مصنوعی مولد ایفا کرده‌اند: ترانسفورماتورها و مدل‌های زبان پیشرفتی که آنها فعال کرده‌اند. ترانسفورماتورها نوعی یادگیری ماشینی هستند که به محققان امکان آموزش مدل های بزرگتر را بدون نیاز به برچسب زدن همه داده ها از قبل می دهند. بنابراین می‌توان مدل‌های جدید را بر روی میلیاردها صفحه متن آموزش داد و در نتیجه به پاسخ‌هایی با عمق بیشتری دست یافت. علاوه بر این، ترانسفورماتورها مفهوم جدیدی به نام توجه را باز کردند که مدل‌ها را قادر می‌سازد تا ارتباطات بین کلمات را در صفحات، فصل‌ها و کتاب‌ها ردیابی کنند و نه فقط در جملات جداگانه. و نه فقط کلمات: ترانسفورماتورها همچنین می توانند از توانایی خود برای ردیابی اتصالات برای تجزیه و تحلیل کد، پروتئین ها، مواد شیمیایی و DNA استفاده کنند.

پیشرفت‌های سریع در مدل‌های به اصطلاح زبان بزرگ ( LLM ) - یعنی مدل‌هایی با میلیاردها یا حتی تریلیون‌ها پارامتر - عصر جدیدی را گشوده است که در آن مدل‌های هوش مصنوعی مولد می‌توانند متن جذاب بنویسند، تصاویر واقعی واقعی را ترسیم کنند و حتی تا حدودی سرگرم‌کننده خلق کنند. کمدی در پرواز علاوه بر این، نوآوری‌ها در هوش مصنوعی چندوجهی، تیم‌ها را قادر می‌سازد تا محتوا را در انواع مختلف رسانه، از جمله متن، گرافیک و ویدئو تولید کنند. این اساس ابزارهایی مانند Dall-E است که به طور خودکار تصاویر را از توضیحات متن ایجاد می کند یا زیرنویس متنی را از تصاویر ایجاد می کند.

با وجود این پیشرفت ها، ما هنوز در روزهای اولیه استفاده از هوش مصنوعی مولد برای ایجاد متن خوانا و گرافیک های سبک فوتورئالیستی هستیم. پیاده‌سازی‌های اولیه مشکلاتی با دقت و سوگیری داشته‌اند، همچنین مستعد توهم و پاسخ‌های عجیب و غریب هستند . با این حال، پیشرفت تاکنون نشان می‌دهد که قابلیت‌های ذاتی این هوش مصنوعی مولد می‌تواند اساساً فناوری سازمانی نحوه عملکرد کسب‌وکارها را تغییر دهد. در آینده، این فناوری می تواند به نوشتن کد، طراحی داروهای جدید، توسعه محصولات، طراحی مجدد فرآیندهای تجاری و تغییر زنجیره تامین کمک کند.

برای مشاهده و دانلود عکس بالا با کیفیت اصلی از گوگل درایو اینجا کلیک کنید.

هوش مصنوعی مولد چگونه کار می کند؟

هوش مصنوعی مولد با یک اعلان شروع می شود که می تواند به شکل متن، تصویر، ویدئو، طرح، نت های موسیقی یا هر ورودی باشد که سیستم هوش مصنوعی می تواند پردازش کند. سپس الگوریتم‌های مختلف هوش مصنوعی در پاسخ به درخواست، محتوای جدید را برمی‌گردانند. محتوا می‌تواند شامل مقاله‌ها، راه‌حل‌هایی برای مشکلات یا تقلبی واقعی باشد که از تصاویر یا صدای یک شخص ایجاد شده است.

نسخه‌های اولیه هوش مصنوعی مولد نیازمند ارسال داده‌ها از طریق یک API یا یک فرآیند پیچیده بود. توسعه دهندگان باید با ابزارهای ویژه آشنا می شدند و برنامه های کاربردی را با استفاده از زبان هایی مانند پایتون می نوشتند.

اکنون، پیشگامان در هوش مصنوعی مولد در حال توسعه تجربیات کاربری بهتری هستند که به شما امکان می دهد درخواست را به زبان ساده توصیف کنید. پس از پاسخ اولیه، می‌توانید نتایج را با بازخورد درباره سبک، لحن و سایر عناصری که می‌خواهید محتوای تولید شده منعکس کند، سفارشی کنید.

مدل های مولد هوش مصنوعی

مدل‌های هوش مصنوعی مولد الگوریتم‌های هوش مصنوعی مختلف را برای نمایش و پردازش محتوا ترکیب می‌کنند. به عنوان مثال، برای تولید متن، تکنیک‌های مختلف پردازش زبان طبیعی ، نویسه‌های خام (مانند حروف، علائم نقطه‌گذاری و کلمات) را به جملات، بخش‌هایی از گفتار، موجودیت‌ها و کنش‌ها تبدیل می‌کنند که با استفاده از تکنیک‌های رمزگذاری چندگانه به صورت بردار نمایش داده می‌شوند. به طور مشابه، تصاویر به عناصر بصری مختلف تبدیل می شوند که به صورت بردار نیز بیان می شوند. یکی از احتیاط‌ها این است که این تکنیک‌ها همچنین می‌توانند سوگیری‌ها، نژادپرستی، فریبکاری و خفگی موجود در داده‌های آموزشی را رمزگذاری کنند.

هنگامی که توسعه دهندگان راهی برای نشان دادن جهان می گیرند، از یک شبکه عصبی خاص برای تولید محتوای جدید در پاسخ به یک پرس و جو یا درخواست استفاده می کنند. تکنیک‌هایی مانند GAN و رمزگذارهای خودکار متغیر (VAE) - شبکه‌های عصبی با رمزگشا و رمزگذار - برای تولید چهره‌های واقعی انسان، داده‌های مصنوعی برای آموزش هوش مصنوعی یا حتی فکس‌های انسان‌های خاص مناسب هستند.

پیشرفت‌های اخیر در ترانسفورماتورهایی مانند نمایش‌های رمزگذار دوطرفه Google از Transformers ( BERT )، GPT OpenAI و Google AlphaFold همچنین منجر به شبکه‌های عصبی شده‌اند که نه تنها می‌توانند زبان، تصاویر و پروتئین‌ها را رمزگذاری کنند، بلکه محتوای جدیدی نیز تولید می‌کنند.

چگونه شبکه های عصبی هوش مصنوعی مولد را تغییر می دهند
محققان از همان روزهای اولیه هوش مصنوعی، هوش مصنوعی و ابزارهای دیگری را برای تولید محتوا به صورت برنامه‌ریزی کرده‌اند. اولین رویکردها، که به عنوان سیستم‌های مبتنی بر قانون و بعداً به عنوان «سیستم‌های خبره» شناخته می‌شوند، از قوانین به‌صراحت ساخته‌شده برای تولید پاسخ‌ها یا مجموعه‌های داده استفاده می‌کنند.

شبکه‌های عصبی، که اساس بسیاری از برنامه‌های کاربردی هوش مصنوعی و یادگیری ماشین امروزی را تشکیل می‌دهند، این مشکل را تغییر دادند. شبکه‌های عصبی که برای تقلید از نحوه عملکرد مغز انسان طراحی شده‌اند، قوانین را از یافتن الگوها در مجموعه داده‌های موجود «یاد می‌گیرند». اولین شبکه های عصبی که در دهه 1950 و 1960 توسعه یافتند، به دلیل کمبود قدرت محاسباتی و مجموعه داده های کوچک محدود شدند. تا قبل از ظهور کلان داده در اواسط دهه 2000 و بهبود در سخت افزار کامپیوتر، شبکه های عصبی برای تولید محتوا عملی شدند.

زمانی که محققان راهی برای اجرای موازی شبکه‌های عصبی در واحدهای پردازش گرافیکی (GPU) که ​​در صنعت بازی‌های رایانه‌ای برای ارائه بازی‌های ویدیویی استفاده می‌شدند، شتاب گرفت. تکنیک‌های جدید یادگیری ماشین که در دهه گذشته توسعه یافته‌اند، از جمله شبکه‌های متخاصم و ترانسفورماتورهای مولد فوق‌الذکر ، زمینه را برای پیشرفت‌های قابل توجه اخیر در محتوای تولید شده توسط هوش مصنوعی فراهم کرده‌اند.



Dall-E، ChatGPT و Gemini چیست؟

ChatGPT، Dall-E و Gemini (بارد سابق) رابط های هوش مصنوعی مولد محبوب هستند.

دال-ای. Dall-E که بر روی مجموعه داده های بزرگی از تصاویر و توضیحات متنی مرتبط با آنها آموزش دیده است، نمونه ای از یک برنامه کاربردی هوش مصنوعی چندوجهی است که اتصالات را در رسانه های مختلف مانند بینایی، متن و صدا شناسایی می کند. در این صورت معنای کلمات را به عناصر بصری متصل می کند. این با استفاده از پیاده‌سازی GPT OpenAI در سال 2021 ساخته شد . Dall-E 2، نسخه دوم و با قابلیت‌تر، در سال 2022 منتشر شد. کاربران را قادر می‌سازد تا تصاویر را در سبک‌های مختلف تولید کنند که توسط درخواست‌های کاربر هدایت می‌شود.

ChatGPT. چت ربات مجهز به هوش مصنوعی که در نوامبر 2022 جهان را طوفانی کرد، بر اساس اجرای OpenAI GPT-3.5 ساخته شد. OpenAI راهی برای تعامل و تنظیم دقیق پاسخ های متنی از طریق رابط چت با بازخورد تعاملی ارائه کرده است. نسخه های قبلی GPT فقط از طریق یک API قابل دسترسی بودند. GPT-4 در 14 مارس 2023 منتشر شد. ChatGPT تاریخچه مکالمه خود با یک کاربر را در نتایج خود گنجانده است و یک مکالمه واقعی را شبیه سازی می کند. پس از محبوبیت باورنکردنی رابط GPT جدید، مایکروسافت سرمایه گذاری جدید قابل توجهی را در OpenAI اعلام کرد و نسخه ای از GPT را در موتور جستجوی Bing خود ادغام کرد.

در اینجا یک عکس فوری از تفاوت های ChatGPT و Bard آورده شده است.
در اینجا یک عکس فوری از تفاوت های ChatGPT و Bard آورده شده است.



هوش مصنوعیمصنوعی مولدشبکه‌های عصبی
امیدوارم به بهتر شدن کمک کنم. در تلگرام و اینستاگرام پیام بفرست، SeyedAhmaddv - ارشد نرم افزار، توسعه دهنده ری اکت و نکست
شاید از این پست‌ها خوشتان بیاید