خبرها و مقالات به روز دنیای هوشمصنوعی «به فارسی» Ai Article
مدل جدید OpenAI به نام GPT-4o رونمایی شد!
شرکت OpenAI در حال ارائه یک مدل هوش مصنوعی تولیدی جدید به نام GPT-4o است که قرار است به صورت تدریجی در محصولات توسعه دهندگان و مصرف کنندگان شرکت در طول چند هفته آینده عرضه شود. "o" در GPT-4o به "omni" معنی چندحالتی اشاره دارد.
مدیر فناوری این شرکت Muri Murati، گفت کهGPT-4o هوش سطح GPT-4 را ارائه میدهد اما بر قابلیتهایGPT-4 در ارتباط با متن، دید و حتی صدا پیشرفت داشته است.
خانم "Murati" در یک ارائه کلیدی در دفاتر OpenAI در سان فرانسیسکو گفت: "GPT-4o در زمینه صدا، متن و دیدگاه استدلال میکند". "و این امر بسیار حائز اهمیت است زیرا ما به آینده تعامل بین ما و ماشینها نگاه میکنیم."
مدل GPT-4 Turbo—مدل پیشین برترOpenAI، نسخه پیشرفتهتر GPT-4—با ترکیب تصاویر و متن آموزش داده شد، و میتوانست تصاویر و متن را تحلیل کرده و به انجام وظایفی مانند استخراج متن از تصاویر یا حتی توصیف محتوای این تصاویر بپردازد. اما GPT-4o صدا را به این ترکیب اضافه کرده است.
اما این امکان چه چیزهایی فراهم میکند؟ مجموعهای از موارد.
مدل جدید GPT-4o تجربه ChatGPT را به طور چشمگیری بهبود میبخشد- ChatGPT یک چتبات قدرت گرفته از هوش مصنوعیOpenAI است. ChatGPT به مدت طولانی حالت صدا که با استفاده از یک مدل متن به گفتار متنی ارائه میشود فراهم کرده بود. اما GPT-4o این موارد را تقویت میکند و به کاربران این امکان را میدهد که با ChatGPT به شکلی بیشتر مانند یک دستیار تعامل کنند.
به عنوان مثال، کاربران میتوانند ازChatGPT - توسط GPT-4o - سؤالی بپرسند و ChatGPT را در حین پاسخ دادن وقفه دهند. OpenAI میگوید که این مدل قابلیت پاسخگویی "زمان واقعی" را فراهم میکند و حتی میتواند بر روی احساسات صدا کاربر حساس باشد و صدا را به "مجموعهای از سبکهای هیجانی مختلف" تولید کند.
مدل GPT-4o قابلیتهای دید ChatGPT را نیز بهبود میبخشد. با دادن یک عکس - یا یک صفحه نمایش رایانه - ChatGPT میتواند به سرعت به سؤالات مرتبط پاسخ دهد، از جمله سؤالاتی مانند "در این کد نرمافزار چه اتفاقی میافتد" تا "این شخص چه نوع پیراهنی را پوشیده است؟"
مدل GPT-4o از امروز در لایه رایگانChatGPT قابل دسترسی است و برای مشترکانChatGPT Plus و Team شرکت OpenAI با "5 برابر بیشتر" محدودیت پیام با گزینههایEnterprise "به زودی" آماده است. (OpenAI توجه میکند که ChatGPT به صورت خودکار به GPT-3.5 تغییر میدهد زمانی که کاربران به آستانه استفاده میرسند.) OpenAI میگوید که تجربه صدای بهبود یافته تحت پشتیبانی GPT-4o در ماه آینده به کاربرانPlus عرضه خواهد شد.
"ما میدانیم که این مدلها [در حال] تبدیل شدن به شکلهایی بسیار پیچیدهتر هستند، اما ما میخواهیم تجربه تعامل واقعاً طبیعیتر، آسانتر شود و شما بتوانید تمرکز خود را به هیچ وقت بر روی رابط کاربری(UI) تمرکز ندهید، بلکه فقط بر تعامل با[GPTها] تمرکز کنید"، Murati گفت.
شرکت OpenAI ادعا میکند GPT-4o نیز بیشزبانتر است، با ارائه عملکرد بهبود یافته در ۵۰ زبان مختلف. در API شرکت OpenAI، GPT-4o دو برابر سریعتر ازGPT-4 (به ویژه GPT-4 Turbo) است، نصف قیمت دارد و محدودیتهای نرخ بالاتری دارد.
صدا در حال حاضر یک بخش ازAPI GPT-4o برای تمام مشتریان نیست. OpenAI با اشاره به خطر سوء استفاده، میگوید که قصد دارد ابتدا پشتیبانی از قابلیتهای صوتی جدید GPT-4o را در هفتههای آینده به "یک گروه کوچک از شرکای معتبر" عرضه کند.
در خبرهای دیگر، OpenAI قصد دارد یک رابط کاربری (UI) نو آپدیت شده ChatGPT را بر روی وب با یک صفحه اصلی "بیشتر گفتگویی" و طرح پیام جدید منتشر کند و نسخه رومیزی از ChatGPT برای مک عرضه کند که به کاربران اجازه میدهد از طریق یک میانبر صفحه کلید از ChatGPT سؤال کنند و همچنین عکسهای صفحه را بگیرند و بحث کنند، سپس امکان تایپ یا گفتار برای آنها فعال میشود. (کاربران Plus از امروز ابتدا دسترسی خواهند داشت و نسخهWindows این برنامه امسال بعد به طور رسمی عرضه خواهد شد.) و دسترسی به فروشگاهGPT، کتابخانه شرکت OpenAI از چتباتهای شخص ثالثی که بر مبنای مدلهای هوش مصنوعی آن ساخته شدهاند، اکنون برای کاربران لایه رایگان ChatGPT در دسترس است.
مطلبی دیگر از این انتشارات
با بنیانگذاری که از نقش هوش مصنوعی در خلاقیت برند دفاع میکند، ملاقات کنید
مطلبی دیگر از این انتشارات
ایلیا سوتسکور(Ilya Sutskever) دانشمند ارشد OpenAI، رسما می رود
مطلبی دیگر از این انتشارات
آیا RAG میتواند مشکل توهم هوشمصنوعی را حل کند؟