تلفن های همراه جدید گوگل تحقیقات پیشرفته بینایی کامپیوتری و صوتی را در اختیار مصرف کنندگان قرار می دهد.
چه جدید است: بخش Alphabet گوشیهای هوشمند پرچمدار پیکسل 8 و پیکسل 8 پرو را در رویداد سالانه عرضه سختافزار خود معرفی کرد . هر دو دستگاه دارای ابزارهای مبتنی بر هوش مصنوعی برای ویرایش عکس ها و فیلم ها هستند.
چگونه کار میکند: تلفنهای جدید Google تصاویر را به روشهای متمایز پردازش میکنند که توسط الگوریتمهای روی خود دستگاه هدایت میشود. آنها سطح را برای اپل، رهبر گوشی های هوشمند، بالا می برند تا پروژه های داخلی خود را به فرصت های بازار تبدیل کند.
پشت این خبر: محققان گوگل به طور فعال سیستمهای هوش مصنوعی را دنبال کردند که تصاویر، ویدئو و صدا را تغییر میدهند یا بهبود میبخشند.
چرا مهم است: تلفن های هوشمند بیشتر عکس ها و فیلم های جهان را تولید می کنند. با این حال، ابزارهای مولد برای ویرایش آنها بهرغم فیلترهای عکس شبکههای اجتماعی، به دسکتاپ محدود شدهاند. تلفن های جدید گوگل دنیا را به برابری بین قابلیت های ویرایشگرهای تصویر دسکتاپ و دستگاه های دستی نزدیک می کند. و قابلیت های ویرایش صدا، نوار را در اطراف بالا می برد.
ما فکر می کنیم: اوایل امسال، گوگل موافقت کرد که تعهدات داوطلبانه خود را در زمینه هوش مصنوعی، از جمله توسعه مکانیسم های قوی، مانند واترمارک، که رسانه های تولید شده را شناسایی می کند، حفظ کند. آیا گوگل چنین علامتی را روی تصاویر ویرایش شده توسط کاربران پیکسل اعمال خواهد کرد؟
📷
یک شبکه عصبی به جراحان مغز کمک کرد تا در زمانی که بیماران روی میز عمل بودند، تصمیم بگیرند که چه مقدار بافت سالم را هنگام برداشتن تومورها برش دهند.
چه خبر: محققان مراکز پزشکی دانشگاه آمستردام و مرکز انکولوژی کودکان پرنسس ماکسیما در هلند سیستمی را برای ارزیابی نحوه برخورد تهاجمی جراحان با تومورها ساخته اند . به اندازه کافی دقیق و سریع عمل کرد تا پزشکان را قادر سازد رویکرد خود را در اتاق عمل تنظیم کنند.
بینش کلیدی: جراحان مغز تا زمانی که عمل جراحی انجام نشود، نوع توموری را که برمی دارند نمی دانند. وقتی نمونه ای به اندازه یک دانه ذرت داشته باشند، می توانند آن را با مشاهده زیر میکروسکوپ طبقه بندی کنند. روش دیگر، آنها می توانند آن را برای تعیین توالی DNA ارسال کنند، که می تواند هفته ها طول بکشد و نیاز به جراحی دوم دارد. با این حال، توالییابی DNA سریعتر و دقیقتر را میتوان در محل انجام داد، و یک شبکه عصبی میتواند چنین توالیهای DNA اولیه را به سرعت و با دقت طبقهبندی کند. به این ترتیب، پزشک می تواند با اطمینان از طبقه بندی تومور، عمل را انجام دهد.
چگونه کار می کند: نویسندگان سیستمی از چهار شبکه عصبی وانیلی را برای طبقه بندی تومورهای مغزی آموزش دادند.
نتایج: سیستم نویسندگان بر روی نمونههای DNA تومور در یک مجموعه موجود و همچنین نمونههای جمعآوری شده در اتاق عمل به خوبی عمل کرد. آزمایش بر روی نمونههایی از 415 تومور، 60.7 درصد از آنها را به طور دقیق طبقهبندی کرد، 1.9 درصد را اشتباه طبقهبندی کرد و قادر به طبقهبندی 37.3 درصد نبود. آزمایش بر روی نمونههای جمعآوریشده طی 25 عمل جراحی واقعی، 18 تومور را به درستی طبقهبندی کرد و نتوانست 7 تومور را طبقهبندی کند. در همه موارد، نتایج را در عرض 90 دقیقه (45 دقیقه برای جمعآوری DNA و 45 دقیقه برای تجزیه و تحلیل آن) به دست آورد.
چرا مهم است: ۹۰ دقیقه به اندازه کافی سریع است تا به جراحان مغز اطلاع دهد که در مرحله اولیه عمل با چه نوع توموری سروکار دارند. اگر بتوان این تکنیک را به طور گسترده گسترش داد، ممکن است به نجات جان افراد زیادی کمک کند.
ما فکر می کنیم: احتمالاً استنباط چند ثانیه طول می کشد. نویسندگان می گویند روش توالی یابی سریع DNA را در 20 تا 40 دقیقه پردازش می کند. تسریع در این مرحله پتانسیل زیادی برای تسریع روند ارائه می دهد.
مایکروسافت به دنبال کنترل هزینه های اتکای خود به مدل های OpenAI است.
آنچه جدید است: مایکروسافت به دنبال ساخت مدلهای زبانی سادهتر است که تقریباً به خوبی ChatGPT عمل میکنند، اما هزینه اجرای آن کمتر است .
چگونه کار می کند: مایکروسافت مجموعه ای از ابزارهای مبتنی بر هوش مصنوعی را ارائه می دهد که مکمل محصولات شاخص این شرکت از جمله ویندوز، مایکروسافت 365 و گیت هاب هستند. این خط که به عنوان Copilot شناخته می شود، بر اساس مدل های OpenAI است. ارائه این مدل ها به بیش از 1 میلیارد کاربر می تواند هزینه هنگفتی را به همراه داشته باشد و قدرت پردازشی را اشغال می کند که در جاهای دیگر مفید خواهد بود. برای مدیریت هزینه، توسعهدهندگان مایکروسافت از تقطیر دانش استفاده میکنند، که در آن یک مدل کوچکتر برای تقلید خروجی یک مدل بزرگتر و همچنین تکنیکهای دیگر آموزش داده میشود.
پشت خبر: مایکروسافت 10 میلیارد دلار در OpenAI سرمایه گذاری کرده است. این قرارداد به غول فناوری 75 درصد از سود عملیاتی OpenAI تا بازپرداخت سرمایهاش و سپس 49 درصد سود بیشتر تا رسیدن به سقف نامشخص را وعده میدهد . در همین حال، مایکروسافت به مدلهای با عملکرد بالا از منابع دیگر دسترسی دارد. پلتفرم ابری Azure آن LLaMA 2 متا را ارائه می کند .
چرا اهمیت دارد: سرویس دهی به شبکه های عصبی بزرگ در مقیاس حتی برای مایکروسافت که دارای منابع سخت افزاری عظیم و توافق مطلوب با OpenAI است، یک چالش است. اجرای مدل های تقطیر شده و تنظیم شده می تواند هزینه را برای غول های فناوری و استارت آپ های کوچک کاهش دهد.
ما به این فکر می کنیم: اگر کاربران Copilot را آنقدر دوست داشته باشند که در استنباط مدل ها صورت حساب بزرگی را در نظر بگیرند، به نظر یک علامت مثبت است!
📷
اگر درخواستهای شما شامل یک زنجیره فکری باشد، میتوانید یک مدل زبان بزرگ برای حل دقیقتر مسائل ریاضی دریافت کنید : مثالی که یک مشکل مشابه را از طریق یک سری مراحل استدلال میانی حل میکند. یک رویکرد جدید برای این نوع تحریک، دقت ChatGPT را در انواع مشکلات استدلال بهبود بخشید.
چه جدید است: Jiashuo Sun و همکارانش در دانشگاه Xiamen، مایکروسافت، و IDEA Research، راهاندازی تکراری را در راهاندازی زنجیرهای از فکر معرفی کردند ، روشی که یک مدل زبان بزرگ را وادار میکند تا زنجیرههای فکری درستی برای مشکلات دشوار ایجاد کند، بنابراین میتواند از آنها به عنوان راهنما برای حل مشکلات دیگر استفاده کنید.
بینش کلیدی: محققان چند راه برای ترغیب یک مدل زبان بزرگ برای اعمال زنجیره فکری (CoT) ایجاد کرده اند. روش معمول این است که یک انسان یک نمونه CoT برای گنجاندن در یک درخواست بنویسد. یک راه سریعتر این است که از مثال دست ساز صرف نظر کنید و به سادگی به مدل دستور دهید که «گام به گام فکر کند» و باعث میشود نه تنها یک راهحل، بلکه CoT خود را تولید کند (به این CoT شات صفر میگویند) . برای بهبود CoT صفر شات، کار دیگر هم (i) از یک مدل خواسته بود که “گام به گام فکر کند” و (ii) CoT های تولید شده ( خودکار CoT ) را ارائه کرد. ضعف این رویکرد این است که این مدل میتواند CoTهای مغالطهای ایجاد کند و در هنگام پاسخ دادن به درخواست در دست، به آنها تکیه کند، که میتواند منجر به پاسخهای نادرست شود. برای حل این مشکل، میتوانیم از یک مجموعه دادهای که شامل پاسخهای صحیح است، اعلانهای نمونه ترسیم کنیم و مدل میتواند پاسخهای خود را در برابر برچسبهای مجموعه داده بررسی کند. اگر اشتباه است، می تواند بارها و بارها امتحان کند تا زمانی که به درستی پاسخ دهد. به این ترتیب، نمونه های CoT درستی را برای استفاده در حل مشکلات دیگر تولید می کند.
چگونه کار میکند: برای تشویق ChatGPT به استدلال مؤثر، نویسندگان پایگاه دادهای از نمونههای مشکلات، زنجیرههای فکری و راهحلها ایجاد کردند. آنها مسائل را از 11 مجموعه داده ترسیم کردند: شش مجموعه داده استدلال حسابی (مانند مسائل کلمات ریاضی کلاس مدرسه )، چهار مجموعه داده استدلال عقل سلیم (به عنوان مثال، سوالاتی مانند “آیا ارسطو از لپ تاپ استفاده کرد؟” ) و یک مجموعه داده استدلال نمادین شامل کارهایی که شامل دستکاری حروف در کلمات می شود (به عنوان مثال، “حروف آخر کلمات را در “استیو سوینی” بردارید و آنها را به هم متصل کنید”).
یافتهها: نویسندگان روش خود را در مقابل کاردستی و auto-CoT ارزیابی کردند. از 11 مجموعه داده، روش آنها بهترین نتایج را در 8 به دست آورد. به عنوان مثال، در مسائل کلمه ریاضی کلاس، ChatGPT با استفاده از روش آنها 73.6 درصد دقت را به دست آورد. با استفاده از دستورات دست ساز، دقت 69.3 درصد و با استفاده از Auto-CoT به 71.4 درصد دقت دست یافت. روش آنها در دو مجموعه داده استدلال عقل سلیم (76.8 درصد در مقابل 77.1 درصد و 69.3 درصد در مقابل 71.1 درصد) اعلان های دست ساز را ضعیف عمل کرد. عملکرد CoT خودکار روی یک مجموعه داده حسابی ضعیف بود (91.9 درصد در مقابل 92.5 درصد).
چرا مهم است: مدلهای زبان بزرگ دارای قابلیتهای نهفته قدرتمندی هستند که میتوانند با درخواست هوشمندانه فعال شوند. ChatGPT توانست مشکلات موجود در پایگاه داده نویسندگان را حل کند، اما تنها پس از چندین بار تلاش. ارائه نمونه هایی از راه حل های صحیح خود برای این مشکلات، ظاهراً آن را قادر می سازد تا سایر مسائل دشوار مشابه را بدون نیاز به تلاش های متعدد حل کند.
ما فکر میکنیم: ممکن است بتوان این روش را تغییر داد تا ورودیهای انسانی را با درخواست از مدل برای رفع مشکلات نسلهای قبلی خود یا استفاده از ابزارهای خارجی برای اعتبارسنجی خروجیهایش غیرضروری کند .
بایدو Ernie 4.0 را معرفی کرد
غول فناوری چینی نسخه جدیدی از مدل هوش مصنوعی مولد خود را در رویدادی در روز سه شنبه به نمایش گذاشت. بایدو ادعا می کند که نسخه جدید Ernie با مدل GPT-4 Open AI برابری می کند. Ernie همچنین در بسیاری از محصولات بایدو از جمله Drive و Maps گنجانده خواهد شد. هنوز در دسترس عموم مردم قرار نگرفته است. ( رویترز )
Adobe Firefly 2.0 را منتشر کرد
مدل جدید تولید تصویر غول نرم افزاری خلاق دارای ابزارهای گرافیکی جدید متن به تصویر و متن به برداری است. به طور خودکار اعتبار محتوا را برای مطالب تولید شده توسط هوش مصنوعی تولید می کند و Adobe قول می دهد از کاربران در برابر ادعاهای نقض حق نسخه برداری دفاع کند. اما بحثها در مورد اینکه چگونه Adobe مجوز کاربران خود را برای آموزش مدلهای خود بر روی تصاویر خود تضمین کرد، همچنان ادامه دارد. ( ادوبی )
آسیای جنوب شرقی نسبت به مقررات هوش مصنوعی موضع تجاری دوستانه ای اتخاذ می کند
پیش نویس محرمانه “راهنمای اخلاق و حکمرانی هوش مصنوعی” انجمن کشورهای جنوب شرقی آسیا (ASEAN) تاکید آن بر هدایت مقررات داخلی به جای تحمیل الزامات سختگیرانه را نشان می دهد. این با چارچوب مدیریت ریسک هوش مصنوعی NIST ایالات متحده مطابقت دارد و آن را از قانون هوش مصنوعی اتحادیه اروپا متمایز می کند. ( رویترز )
Google متعهد می شود از کاربران هوش مصنوعی Generative در برابر ادعاهای حق نسخه برداری محافظت کند.
سیاست جدید شامل نرم افزارهایی می شود که متن و تصاویر را در Google Workspace و برنامه های Cloud تولید می کند، از جمله پلت فرم توسعه Google Cloud’s Vertex AI و سیستم Duet AI. مواردی را که کاربران عمداً حقوق دیگران را نقض می کنند را پوشش نمی دهد. این حرکت گوگل را با شرکت هایی مانند مایکروسافت و ادوبی که تعهدات مشابهی داده اند، همسو می کند. ( رویترز )
تحقیق : مجموعه دادههای ترجمه ماشینی شکاف را برای زبان باستانی اتروسکی پر میکند
. مجموعه داده ای برای ترجمه ماشینی از اتروسکی به انگلیسی معرفی شده است که شامل ۲۸۹۱ نمونه ترجمه شده از منابع دانشگاهی است. این نسخه درها را برای تحقیقات آینده در مورد اتروسکی و سایر زبان ها با داده های محدود باز می کند. ( صورت در آغوش گرفته )
جوامع بومی از هوش مصنوعی برای احیای زبان های خود استفاده می کنند
محققان در حال توسعه مدل های هوش مصنوعی برای کمک به یادگیری زبان مادری و حفظ فرهنگ هستند. در حالی که هوش مصنوعی وعده می دهد، نگرانی هایی در مورد منافع شرکت ها وجود دارد که از زبان های بومی سود می برند. بسیاری از سازمانهای بومی به دنبال انواع جدیدی از مشارکت با توسعهدهندگان هستند که بر توسعه اخلاقی و جامعه محور تمرکز دارند. ( دانشمند جدید )
استارتآپ توسعه نرمافزار Replit برنامهنویس جفت هوش مصنوعی خود را راهاندازی میکند.
Replit AI شامل مجموعهای از ابزارها، از جمله Complete Code، Generate Code، Edit Code و Explain Code است. ویژگی پرچمدار، Complete Code، پیشنهاداتی به سبک تکمیل خودکار برای بهبود تجربه کدنویسی ارائه می دهد. ( تکرار )