هوش مصنوعی ChatGPT از طریق دوربین شما، توصیه‌هایی در مورد آنچه می‌بیند ارائه می‌دهد

هوش مصنوعی جدید chatgpt میتواند ببیند و بشنود
هوش مصنوعی جدید chatgpt میتواند ببیند و بشنود

امروز، OpenAI آخرین مدل زبان بزرگ (LLM) خود به نام GPT-4o را به نمایش گذاشت - این یک "o" با حروف کوچک برای "omni" است - که این شرکت قول داده است بتواند "در زمان واقعی صدا، بینایی و متن را استدلال کند. "

در طی اعلامیه کوتاه خود، این شرکت توانایی عجیب و غریب هوش مصنوعی را در ارزیابی آنچه که از طریق دوربین گوشی هوشمند کاربر «می بیند» را نشان داد و به آن اجازه داد تا به حل مسائل ریاضی و حتی کمک به کدنویسی کمک کند.

OpenAI مدل جدید را "در دسترس همه کاربران ChatGPT، از جمله در طرح رایگان" توسط مدیر عامل OpenAI سام آلتمن قرار می دهد. «تاکنون مدل‌های کلاس GPT-4 فقط برای افرادی که اشتراک ماهانه پرداخت می‌کنند، در دسترس بوده است».

مسلماً این یک تکامل طبیعی از چت ربات محبوب هوش مصنوعی است. با استفاده از یک جریان ویدیویی زنده، دستیار احتمالاً می تواند با بهره مندی از زمینه بسیار بیشتر مفیدتر باشد.

همچنین جای تعجب نیست، با توجه به اینکه ما شاهد نمایش‌های بسیار مشابهی توسط شرکت‌های سخت‌افزار هوش مصنوعی Humane و Rabbit بوده‌ایم، که هر دو تلاش کردند یک گجت مبتنی بر ربات چت هوش مصنوعی با دوربین داخلی را به بازار عرضه کنند - البته با نتایج فاجعه‌بار.

با این حال، OpenAI با توجه به موقعیت خود در خط مقدم فناوری، به جای آن از قدرت محاسباتی تلفن هوشمند مدرن استفاده می‌کند، و با توجه به آنچه که دیده‌ایم، این رویکرد تجربه‌ای به مراتب یکپارچه‌تر را به وجود می‌آورد، و به ندرت هیچ تاخیری بین سؤال کاربر ایجاد می‌شود. و پاسخ GPT-4o.

https://aparat.com/v/fvg5awj

شرکت OpenAI ادعا می کند که GPT-40 می تواند به ورودی های صوتی در کمتر از 232 میلی ثانیه پاسخ دهد، که "مشابه زمان پاسخ انسان در یک مکالمه" است. این تا حدی به این دلیل است که مجبور نیست متن را رونویسی کند و «همه ورودی‌ها و خروجی‌ها» توسط یک شبکه عصبی پردازش می‌شوند.

به عبارت دیگر، OpenAI ممکن است به تازگی هم Humane و هم Rabbit را که محصولاتشان برای پاسخگویی به ورودی‌های کاربر یک ابد طول می‌کشد، فرصتی برای پولشان داده باشد.

مدل جدید همچنین به‌طور قابل‌توجهی طبیعی‌تر و «احساسی» به نظر می‌رسد، با صدای زنانه‌مانند که ظاهراً لحن و احساسات کاربر را در زمان واقعی دریافت می‌کند. به عبارت دیگر، این بسیار به صدای اسکارلت جوهانسون در فیلم پرفروش علمی تخیلی «Her» در سال ۲۰۱۳ نزدیک‌تر است.

هوش مصنوعی ChatGPT به بارت زوف، سرپرست تحقیقات OpenAI، با صدایی بسیار شاد در جریان نمایشی امروز گفت: "من سراپا گوش هستم." "امروز می توانم به شما کمک کنم تا با کدام مشکل ریاضی مقابله کنید؟"

این نسخه ی نمایشی که بر توانایی جدید ChatGPT برای دیدن جهان اطراف خود متکی بود، بدون مشکل به پایان نرسید.

ChatGPT بعد از اینکه Zoph از او خواست برای حل مشکل حساب دیفرانسیل و انتگرال بدون فاش کردن پاسخ فوراً کمک کند، گفت: "باشه، متوجه شدم."

"نه، من هنوز به شما نشان ندادم!" زوف متحیر جواب داد.

ChatGPT با ناراحتی پاسخ داد: «اوه، من خیلی هیجان زده شدم. "هر وقت تو آماده ای هستم."

البته، ما باید آنچه را که OpenAI امروز با یک دانه نمک سالم به نمایش گذاشت، بگیریم. نسخه‌های نمایشی فناوری، نسخه‌های نمایشی فناوری هستند - و این برای اولین بار است که ما شاهد این هستیم که شرکت‌های فناوری بزرگ با نمایش‌هایی که به‌دقت تمرین‌شده و به‌راحتی مدیریت شده‌اند، ارائه‌شان را مخدوش می‌کنند.

به عنوان مثال، در اواخر ماه گذشته، اخباری منتشر شد مبنی بر اینکه سازندگان یک ویدیوی دو دقیقه‌ای با عنوان "Air Head" - که ظاهراً با هوش مصنوعی جدید OpenAI از متن به ویدئو ساخته شده است - فیلم را با تکنیک‌های سنتی‌تر فیلم‌سازی تقویت کرده‌اند.

به طور خلاصه، باید دید که ChatGPT جدید تا چه حد می تواند به سوالاتی که شامل تغذیه زنده دوربین گوشی هوشمند در دنیای واقعی است، پاسخ دهد، که بسیار آشفته تر از یک مسئله ساده ریاضی است که در یک استودیوی کاملاً روشن نوشته شده است. محیط.

علاوه بر این، OpenAI احتمالاً قادر به حل مشکلات بسیار چسبنده‌تر نیست، مانند اینکه هوش مصنوعی آن حقایق را "توهم" کند یا سوگیری‌های مضر را تداوم بخشد.

با این وجود، بر اساس آنچه امروز دیده‌ایم، این هنوز یک گام به جلو برای فناوری است که می‌تواند آن را حتی از امروز مفیدتر کند.


🔹این مقاله به صورت ماشینی، توسط Aiticle ترجمه شده و ممکنه ایراداتی داشته باشه، فیدبک‌های شما به ما در جهت بهبود سیستممون خیلی کمک میکنه :) لطفا نظراتتون رو باهامون به اشتراک بگذارین.