جمینای (Gemini)، بزرگ‌ترین و جدیدترین هوش مصنوعی گوگل

جمینای (Gemini)
جمینای (Gemini)

"اکنون آغاز عصر جمینای است. جمینای، بزرگترین و موفق‌ترین مدل هوش مصنوعی ماست. این به این معناست که جمینای می‌تواند دنیای اطراف ما را با روش‌هایی شبیه به انسان درک کند. این مدل هر نوع ورودی را تحلیل کرده و انواع خروجی را ارائه می‌دهد، نه تنها متن، بلکه کد کامپیوتری، صدا، تصویر و ویدیو را هم تحلیل می‌کند. مسئله شگفت‌انگیز در مورد جمینای این است که در همه زمینه‌ها فوق العاده عمل می‌کند. به عنوان مثال، در هر یک از ۵۰ حوزه مختلفی که آزمایش کردیم، عملکرد آن مانند بهترین افراد متخصص آن رشته بوده است."

این ادعای بزرگ دمیس هاسابیس، مدیر عامل دیپ میاند (DeepMind) گوگل است که نوید بخش ظهور بزرگترین و عجیب‌ترین هوش مصنوعی با نام جمینای (Gemini) ساخته شرکت گوگل می‌باشد. درباره ویژگی‌های فنی جمینای در آینده نزدیک و بعد از انتشار عمومی نسخه اصلی آن دقیق‌تر صحبت خواهیم کرد، اما در این پست قصد داریم قدرت حیرت‌انگیز این هوش منصوعی را بررسی کنیم.

با فوتولب، یکی از قوی‌ترین هوش مصنوعی‌های تصویری آشنا شوید:

https://controladad.com/blog/hwsh-msnwaay/photolab/

نام جمینای از کجا آمد؟

کلمه Gemini به معنی برج جوزا یا همان دوپیکر است. در برخی‌ اسطوره‌های یونانی و رومی‌، این‌ دو پیکر به‌ صورت‌ دو جوان‌ وصف‌ شده‌اند، پولوکس‌ که در واقع فناناپذیر است‌، به‌ تناوب‌ جایگاه‌ آسمانی‌ خود را با برادرش‌ کاستور عوض‌ می‌کند و زئوس‌ به‌ پاس‌ عشق‌ و محبت‌ فراوان‌ این‌ دو برادر به‌ هم‌، آنها را در آسمان‌ کنار هم‌ قرار می‌دهد. تصویر این‌ صورت‌ فلکی‌ به‌ صورت‌ دو پسر یا دو مرد جوان‌ یا دو اسب‌سوار در کنار هم‌ بر سکه‌های‌ یونان‌ و روم‌ باستان‌ نقش‌ بسته‌ است‌. یونانی‌ها این‌ صورت‌ فلکی‌ را با نام‌ Didymoi، به‌ معنی‌ دوقلوها می‌شناختند که‌ بعدها به‌ صورت Gemini، به‌ همین‌ معنی‌، به‌ زبان لاتین راه‌ یافت‌. شاید بتوانیم بگوییم که این دو برادر نماد هوش انسانی و هوش مصنوعی هستند که کم کم هوش مصنوعی در بسیاری زمینه‌ها جانشین هوش انسانی خواهد شد، البته این تنها یک فرضیه است.
از طرف دیگر شاید حرف G اول Gemini و مشارکت آن با حرف G در برند گوگل هم بی تاثیر در انتخاب این اسم نبوده باشد.

اگر به دنیای هوش مصنوعی و شگفتی‌های آن علاقه‌مند هستید سایر مقالات ما را از دست ندهید:

https://controladad.com/

نوآوری جمینای در چیست؟

به احتمال زیاد قبلا با دنیای هیجان‌انگیز هوش مصنوعی آشنا شده‌اید و از چند هوش مصنوعی برای کار‌های روزانه خود یا صرفا از روی کنجکاوی استفاده کرده‌اید که قابلیت گفت گوی متنی یا تبدیل متن به عکس را داشته‌اند. یا برخی از‌ آنها را دیده‌اید که چند قابلیت را با هم ارائه می‌دهند.
اما برگ برنده جمینای، مالتی مودال بودن آن است. مالتی مودال یعنی چی؟!
اصطلاح مالتی مودال یا چند مدیا بودن، به سیستم‌های هوش مصنوعی اشاره دارد که می‌توانند انواع مختلف داده‌ها مانند متن، تصویر، صدا، ویدیو و داده‌های عددی را درک و پردازش کنند. در نتیجه ادغام همه این داده‌ها، افزایش دقت و شناخت عمیق‌تر و درک همزمان محتوا و زمینه در اینگونه هوش مصنوعی‌ها محسوس است.

به این شکل که شما تصویری در مقابل آن قرار داده و پرامپت خود را به صورت متنی یا صوتی برای او توضیح دهید، سپس جمینای تصویر را تحلیل کرده و به سوال شما درباره آن جواب می‌دهد. این ویژگی محدود به تصویر نیست و حتی صدا و فیلم را نیز درک کرده و همه این اطلاعات را با هم ادغام می‌کند و نتیجه‌گیری هوشمند و نزدیک به واقعیت را ارائه می‌دهد. به همین دلیل ادعای مدیر عامل دیپ مایند در خصوص عملکرد برنامه شبیه به افراد متخصص در هر رشته، توجیه پذیر است.

ورژن‌های جمینای

نسخه Gemini Nano

برای اولین بارگوگل در رویداد توسعه‌دهندگان 2023 از هوش مصنوعی جمینای نام برد. نسخه اولیه آن با نام Gemini Nano می‌تواند به‌صورت آفلاین روی دستگاه‌های اندروید نیز اجرا شود. این نسخه از توانایی‌های سرویس هوش مصنوعی گوگل، در چت‌بات بارد بهره‌ می‌گیرد تا به شکل متنی و در قالب مکالمه به نیازهای کاربران پاسخ دهد. جمینای نانو در حال حاضر فقط می‌تواند ورودی و خروجی متنی ارائه دهد.

نسخه Gemini Pro

سرویس دوم که با نام Gemini Pro شناخته می‌شود از قدرت بیشتری برخوردار است و برای دستگاه‌های اندروید از جمله گوشی‌های «پیکسل ۸ پرو» در نظر گرفته شده. به گفته گوگل این نسخه توانایی خلاصه کردن پیام‌های ضبط شده در دستگاه تلفن همراه را دارد و در نتیجه تحلیل آنها می‌تواند پاسخ‌های خودکار ارائه دهد.

نسخه Gemini Ultra

قدرتمند‌ترین نسخه آن یعنی Gemini Ultra، بزرگترین مدل زبانی است که تا به حال ساخته شده ولی هنوز در دسترس عموم قرار نگرفته. این نسخه قادر به ادغام انواع داده‌ها از جمله متن، تصویر، ویدیو، صدا و کد می‌باشد. به نظر می‌رسد که این نسخه بیشتر برای دیتاسنترها و کاربردهای سازمانی طراحی شده.

شگفتی جمینای!

همانطور که گفتیم جواب‌های جمینای محدود به متن و نوشته نیست و می‌تواند پاسخ تصویری یا صوتی ارائه دهد. دیگر از یک هوش مصنوعی چه می‌خواهید تا شبیه به انسان باشد؟ قدرت جمینای در پاسخ‌گویی شما را شگفت‌زده خواهد کرد تا حدی که باور نمی‌کنید با یک ربات در حال مکالمه هستید. ویدئو زیر یک نمونه از کار این هوش مصنوعی است که با دیدن آن قدرت جمینای را بهتر درک خواهید کرد:

https://www.youtube.com/watch?v=UIZAiXYceBI&embeds_referring_euri=https%3A%2F%2Fcontroladad.com%2F&source_ve_path=MjM4NTE&feature=emb_title


درباره واقعی بودن این ویدئو حرف و حدیث‌های بسیاری وجود دارد که در پست بعدی به طور کامل به آن پرداخته‌ایم. آنرا در لینک زیر میتوانید مشاهده کنید.

https://controladad.com/blog/hwsh-msnwaay/gemini-video/