مدل جدید OpenAI به نام GPT-4o رونمایی شد!

شرکت OpenAI در حال ارائه یک مدل هوش مصنوعی تولیدی جدید به نام GPT-4o است که قرار است به صورت تدریجی در محصولات توسعه دهندگان و مصرف کنندگان شرکت در طول چند هفته آینده عرضه شود. "o" در GPT-4o به "omni" معنی چندحالتی اشاره دارد.

مدیر فناوری این شرکت Muri Murati، گفت کهGPT-4o هوش سطح GPT-4 را ارائه می‌دهد اما بر قابلیت‌هایGPT-4 در ارتباط با متن، دید و حتی صدا پیشرفت داشته است.

خانم "Murati" در یک ارائه کلیدی در دفاتر OpenAI در سان فرانسیسکو گفت: "GPT-4o در زمینه صدا، متن و دیدگاه استدلال می‌کند". "و این امر بسیار حائز اهمیت است زیرا ما به آینده تعامل بین ما و ماشین‌ها نگاه می‌کنیم."

مدل GPT-4 Turbo—مدل پیشین برترOpenAI، نسخه پیشرفته‌تر GPT-4—با ترکیب تصاویر و متن آموزش داده شد، و می‌توانست تصاویر و متن را تحلیل کرده و به انجام وظایفی مانند استخراج متن از تصاویر یا حتی توصیف محتوای این تصاویر بپردازد. اما GPT-4o صدا را به این ترکیب اضافه کرده است.

اما این امکان چه چیزهایی فراهم می‌کند؟ مجموعه‌ای از موارد.

مدل جدید GPT-4o تجربه ChatGPT را به طور چشمگیری بهبود می‌بخشد- ChatGPT یک چت‌بات قدرت گرفته از هوش مصنوعیOpenAI است. ChatGPT به مدت طولانی حالت صدا که با استفاده از یک مدل متن به گفتار متنی ارائه می‌شود فراهم کرده بود. اما GPT-4o این موارد را تقویت می‌کند و به کاربران این امکان را می‌دهد که با ChatGPT به شکلی بیشتر مانند یک دستیار تعامل کنند.

به عنوان مثال، کاربران می‌توانند ازChatGPT - توسط GPT-4o - سؤالی بپرسند و ChatGPT را در حین پاسخ دادن وقفه دهند. OpenAI می‌گوید که این مدل قابلیت پاسخگویی "زمان واقعی" را فراهم می‌کند و حتی می‌تواند بر روی احساسات صدا کاربر حساس باشد و صدا را به "مجموعه‌ای از سبک‌های هیجانی مختلف" تولید کند.

مدل GPT-4o قابلیت‌های دید ChatGPT را نیز بهبود می‌بخشد. با دادن یک عکس - یا یک صفحه نمایش رایانه - ChatGPT می‌تواند به سرعت به سؤالات مرتبط پاسخ دهد، از جمله سؤالاتی مانند "در این کد نرم‌افزار چه اتفاقی می‌افتد" تا "این شخص چه نوع پیراهنی را پوشیده است؟"

مدل GPT-4o از امروز در لایه رایگانChatGPT قابل دسترسی است و برای مشترکانChatGPT Plus و Team شرکت OpenAI با "5 برابر بیشتر" محدودیت پیام با گزینه‌هایEnterprise "به زودی" آماده است. (OpenAI توجه می‌کند که ChatGPT به صورت خودکار به GPT-3.5 تغییر می‌دهد زمانی که کاربران به آستانه استفاده می‌رسند.) OpenAI می‌گوید که تجربه صدای بهبود یافته تحت پشتیبانی GPT-4o در ماه آینده به کاربرانPlus عرضه خواهد شد.
"ما می‌دانیم که این مدل‌ها [در حال] تبدیل شدن به شکل‌هایی بسیار پیچیده‌تر هستند، اما ما می‌خواهیم تجربه تعامل واقعاً طبیعی‌تر، آسان‌تر شود و شما بتوانید تمرکز خود را به هیچ وقت بر روی رابط کاربری(UI) تمرکز ندهید، بلکه فقط بر تعامل با[GPT‌ها] تمرکز کنید"، Murati گفت.

شرکت OpenAI ادعا می‌کند GPT-4o نیز بیش‌زبان‌تر است، با ارائه عملکرد بهبود یافته در ۵۰ زبان مختلف. در API شرکت OpenAI، GPT-4o دو برابر سریع‌تر ازGPT-4 (به ویژه GPT-4 Turbo) است، نصف قیمت دارد و محدودیت‌های نرخ بالاتری دارد.

صدا در حال حاضر یک بخش ازAPI GPT-4o برای تمام مشتریان نیست. OpenAI با اشاره به خطر سوء استفاده، می‌گوید که قصد دارد ابتدا پشتیبانی از قابلیت‌های صوتی جدید GPT-4o را در هفته‌های آینده به "یک گروه کوچک از شرکای معتبر" عرضه کند.

در خبرهای دیگر، OpenAI قصد دارد یک رابط کاربری (UI) نو آپدیت شده ChatGPT را بر روی وب با یک صفحه اصلی "بیشتر گفتگویی" و طرح پیام جدید منتشر کند و نسخه رومیزی از ChatGPT برای مک عرضه کند که به کاربران اجازه می‌دهد از طریق یک میانبر صفحه کلید از ChatGPT سؤال کنند و همچنین عکس‌های صفحه را بگیرند و بحث کنند، سپس امکان تایپ یا گفتار برای آنها فعال می‌شود. (کاربران Plus از امروز ابتدا دسترسی خواهند داشت و نسخهWindows این برنامه امسال بعد به طور رسمی عرضه خواهد شد.) و دسترسی به فروشگاهGPT، کتابخانه شرکت OpenAI از چت‌بات‌های شخص ثالثی که بر مبنای مدل‌های هوش مصنوعی آن ساخته شده‌اند، اکنون برای کاربران لایه رایگان ChatGPT در دسترس است.