امروز، OpenAI آخرین مدل زبان بزرگ (LLM) خود به نام GPT-4o را به نمایش گذاشت - این یک "o" با حروف کوچک برای "omni" است - که این شرکت قول داده است بتواند "در زمان واقعی صدا، بینایی و متن را استدلال کند. "
در طی اعلامیه کوتاه خود، این شرکت توانایی عجیب و غریب هوش مصنوعی را در ارزیابی آنچه که از طریق دوربین گوشی هوشمند کاربر «می بیند» را نشان داد و به آن اجازه داد تا به حل مسائل ریاضی و حتی کمک به کدنویسی کمک کند.
OpenAI مدل جدید را "در دسترس همه کاربران ChatGPT، از جمله در طرح رایگان" توسط مدیر عامل OpenAI سام آلتمن قرار می دهد. «تاکنون مدلهای کلاس GPT-4 فقط برای افرادی که اشتراک ماهانه پرداخت میکنند، در دسترس بوده است».
مسلماً این یک تکامل طبیعی از چت ربات محبوب هوش مصنوعی است. با استفاده از یک جریان ویدیویی زنده، دستیار احتمالاً می تواند با بهره مندی از زمینه بسیار بیشتر مفیدتر باشد.
همچنین جای تعجب نیست، با توجه به اینکه ما شاهد نمایشهای بسیار مشابهی توسط شرکتهای سختافزار هوش مصنوعی Humane و Rabbit بودهایم، که هر دو تلاش کردند یک گجت مبتنی بر ربات چت هوش مصنوعی با دوربین داخلی را به بازار عرضه کنند - البته با نتایج فاجعهبار.
با این حال، OpenAI با توجه به موقعیت خود در خط مقدم فناوری، به جای آن از قدرت محاسباتی تلفن هوشمند مدرن استفاده میکند، و با توجه به آنچه که دیدهایم، این رویکرد تجربهای به مراتب یکپارچهتر را به وجود میآورد، و به ندرت هیچ تاخیری بین سؤال کاربر ایجاد میشود. و پاسخ GPT-4o.
شرکت OpenAI ادعا می کند که GPT-40 می تواند به ورودی های صوتی در کمتر از 232 میلی ثانیه پاسخ دهد، که "مشابه زمان پاسخ انسان در یک مکالمه" است. این تا حدی به این دلیل است که مجبور نیست متن را رونویسی کند و «همه ورودیها و خروجیها» توسط یک شبکه عصبی پردازش میشوند.
به عبارت دیگر، OpenAI ممکن است به تازگی هم Humane و هم Rabbit را که محصولاتشان برای پاسخگویی به ورودیهای کاربر یک ابد طول میکشد، فرصتی برای پولشان داده باشد.
مدل جدید همچنین بهطور قابلتوجهی طبیعیتر و «احساسی» به نظر میرسد، با صدای زنانهمانند که ظاهراً لحن و احساسات کاربر را در زمان واقعی دریافت میکند. به عبارت دیگر، این بسیار به صدای اسکارلت جوهانسون در فیلم پرفروش علمی تخیلی «Her» در سال ۲۰۱۳ نزدیکتر است.
هوش مصنوعی ChatGPT به بارت زوف، سرپرست تحقیقات OpenAI، با صدایی بسیار شاد در جریان نمایشی امروز گفت: "من سراپا گوش هستم." "امروز می توانم به شما کمک کنم تا با کدام مشکل ریاضی مقابله کنید؟"
این نسخه ی نمایشی که بر توانایی جدید ChatGPT برای دیدن جهان اطراف خود متکی بود، بدون مشکل به پایان نرسید.
ChatGPT بعد از اینکه Zoph از او خواست برای حل مشکل حساب دیفرانسیل و انتگرال بدون فاش کردن پاسخ فوراً کمک کند، گفت: "باشه، متوجه شدم."
"نه، من هنوز به شما نشان ندادم!" زوف متحیر جواب داد.
ChatGPT با ناراحتی پاسخ داد: «اوه، من خیلی هیجان زده شدم. "هر وقت تو آماده ای هستم."
البته، ما باید آنچه را که OpenAI امروز با یک دانه نمک سالم به نمایش گذاشت، بگیریم. نسخههای نمایشی فناوری، نسخههای نمایشی فناوری هستند - و این برای اولین بار است که ما شاهد این هستیم که شرکتهای فناوری بزرگ با نمایشهایی که بهدقت تمرینشده و بهراحتی مدیریت شدهاند، ارائهشان را مخدوش میکنند.
به عنوان مثال، در اواخر ماه گذشته، اخباری منتشر شد مبنی بر اینکه سازندگان یک ویدیوی دو دقیقهای با عنوان "Air Head" - که ظاهراً با هوش مصنوعی جدید OpenAI از متن به ویدئو ساخته شده است - فیلم را با تکنیکهای سنتیتر فیلمسازی تقویت کردهاند.
به طور خلاصه، باید دید که ChatGPT جدید تا چه حد می تواند به سوالاتی که شامل تغذیه زنده دوربین گوشی هوشمند در دنیای واقعی است، پاسخ دهد، که بسیار آشفته تر از یک مسئله ساده ریاضی است که در یک استودیوی کاملاً روشن نوشته شده است. محیط.
علاوه بر این، OpenAI احتمالاً قادر به حل مشکلات بسیار چسبندهتر نیست، مانند اینکه هوش مصنوعی آن حقایق را "توهم" کند یا سوگیریهای مضر را تداوم بخشد.
با این وجود، بر اساس آنچه امروز دیدهایم، این هنوز یک گام به جلو برای فناوری است که میتواند آن را حتی از امروز مفیدتر کند.
🔹این مقاله به صورت ماشینی، توسط Aiticle ترجمه شده و ممکنه ایراداتی داشته باشه، فیدبکهای شما به ما در جهت بهبود سیستممون خیلی کمک میکنه :) لطفا نظراتتون رو باهامون به اشتراک بگذارین.