خواندن ۱۴ دقیقه·۵ ماه پیش

هوش مصنوعی برای جراحی مغز، لایحه ChatGPT مایکروسافت، تلفن های مولد گوگل، درخواست های بهتر

تلفن های همراه جدید گوگل تحقیقات پیشرفته بینایی کامپیوتری و صوتی را در اختیار مصرف کنندگان قرار می دهد.

چه جدید است: بخش Alphabet گوشی‌های هوشمند پرچم‌دار پیکسل 8 و پیکسل 8 پرو را در رویداد سالانه عرضه سخت‌افزار خود معرفی کرد . هر دو دستگاه دارای ابزارهای مبتنی بر هوش مصنوعی برای ویرایش عکس ها و فیلم ها هستند.

چگونه کار می‌کند: تلفن‌های جدید Google تصاویر را به روش‌های متمایز پردازش می‌کنند که توسط الگوریتم‌های روی خود دستگاه هدایت می‌شود. آنها سطح را برای اپل، رهبر گوشی های هوشمند، بالا می برند تا پروژه های داخلی خود را به فرصت های بازار تبدیل کند.

ویژگی به نام Best Take به کاربران امکان می دهد عناصر را از چندین عکس انتخاب کرده و آنها را به یک تصویر واحد بپیچند. در یک عکس گروهی، کاربران ممکن است چهره‌ها را با چشم‌های بسته یا گریمس‌ها با عکس‌هایی جایگزین کنند که چشم‌های باز و لبخندهای گشاد را نشان می‌دهند.
Magic Editor از فناوری تولید تصویر برای ویرایش یا تغییر تصاویر استفاده می کند. کاربران می توانند تک تک عناصر را جابجا کرده و اندازه آنها را تغییر دهند و در پس زمینه های از پیش تعیین شده جابجا کنند. آن‌ها همچنین می‌توانند قسمت‌های خارج از کادر یک عنصر – یا یک عکس کامل – را در حین پرواز تولید کنند.
Audio Magic Eraser صدای ویدیو را به صداهای متمایز تقسیم می کند و به کاربران امکان می دهد میزان صدای نسبی خود را تنظیم کنند. این قابلیت می تواند برای کاهش صداهای حواس پرتی یا تقویت گفتگو مفید باشد.
Video Boost که اواخر امسال فقط برای پیکسل 8 پرو عرضه می‌شود، کیفیت تصویر ویدیوها را با تثبیت خودکار حرکت و تنظیم رنگ، نور و دانه‌بندی بهبود می‌بخشد.

پشت این خبر: محققان گوگل به طور فعال سیستم‌های هوش مصنوعی را دنبال کردند که تصاویر، ویدئو و صدا را تغییر می‌دهند یا بهبود می‌بخشند.

Best Take and Magic Editor شبیه سیستمی است که محققان Google و Georgia Tech در مقاله ای در آگوست 2023 توصیف کردند، که از مدل های انتشار برای بخش بندی و ادغام چندین تصویر استفاده می کند.
Magic Editor بازتاب Imagen ، تولیدکننده انتشار متن به تصویر Google است.
Audio Magic Eraser شبیه قابلیت هایی است که در مقاله اخیر توضیح داده شده است که AudioScopeV2 را برای جداسازی و ترکیب مجدد آهنگ های مختلف صوتی و تصویری پیشنهاد می کند.

چرا مهم است: تلفن های هوشمند بیشتر عکس ها و فیلم های جهان را تولید می کنند. با این حال، ابزارهای مولد برای ویرایش آن‌ها به‌رغم فیلترهای عکس شبکه‌های اجتماعی، به دسکتاپ محدود شده‌اند. تلفن های جدید گوگل دنیا را به برابری بین قابلیت های ویرایشگرهای تصویر دسکتاپ و دستگاه های دستی نزدیک می کند. و قابلیت های ویرایش صدا، نوار را در اطراف بالا می برد.

ما فکر می کنیم: اوایل امسال، گوگل موافقت کرد که تعهدات داوطلبانه خود را در زمینه هوش مصنوعی، از جمله توسعه مکانیسم های قوی، مانند واترمارک، که رسانه های تولید شده را شناسایی می کند، حفظ کند. آیا گوگل چنین علامتی را روی تصاویر ویرایش شده توسط کاربران پیکسل اعمال خواهد کرد؟

📷

هدایت اسکالپل

یک شبکه عصبی به جراحان مغز کمک کرد تا در زمانی که بیماران روی میز عمل بودند، تصمیم بگیرند که چه مقدار بافت سالم را هنگام برداشتن تومورها برش دهند.

چه خبر: محققان مراکز پزشکی دانشگاه آمستردام و مرکز انکولوژی کودکان پرنسس ماکسیما در هلند سیستمی را برای ارزیابی نحوه برخورد تهاجمی جراحان با تومورها ساخته اند . به اندازه کافی دقیق و سریع عمل کرد تا پزشکان را قادر سازد رویکرد خود را در اتاق عمل تنظیم کنند.

بینش کلیدی: جراحان مغز تا زمانی که عمل جراحی انجام نشود، نوع توموری را که برمی دارند نمی دانند. وقتی نمونه ای به اندازه یک دانه ذرت داشته باشند، می توانند آن را با مشاهده زیر میکروسکوپ طبقه بندی کنند. روش دیگر، آنها می توانند آن را برای تعیین توالی DNA ارسال کنند، که می تواند هفته ها طول بکشد و نیاز به جراحی دوم دارد. با این حال، توالی‌یابی DNA سریع‌تر و دقیق‌تر را می‌توان در محل انجام داد، و یک شبکه عصبی می‌تواند چنین توالی‌های DNA اولیه را به سرعت و با دقت طبقه‌بندی کند. به این ترتیب، پزشک می تواند با اطمینان از طبقه بندی تومور، عمل را انجام دهد.

چگونه کار می کند: نویسندگان سیستمی از چهار شبکه عصبی وانیلی را برای طبقه بندی تومورهای مغزی آموزش دادند.

نویسندگان مجموعه داده برچسب‌گذاری شده‌ای از نزدیک به 17 میلیون توالی DNA مصنوعی از حدود 90 نوع تومور ساخته‌اند که هر کدام با ترکیب قطعات تصادفی از یکی از 2800 توالی DNA تومور و غیر تومور ساخته شده‌اند. این رویکرد ماهیت آشفته فرآیند توالی یابی سریع DNA را شبیه سازی کرد.
برای هر شبکه عصبی، نیمی از توالی ها را به طور تصادفی برای آموزش انتخاب کردند و نیمی دیگر را برای آزمایش و اعتبار سنجی استفاده کردند. آنها شبکه ها را برای طبقه بندی انواع تومور آموزش دادند.
در استنتاج، هر چهار مدل هر نمونه DNA را طبقه بندی کردند. این سیستم طبقه بندی را از مدلی انتخاب کرد که بالاترین اطمینان بالای یک آستانه مشخص را داشت. نمونه هایی که آستانه اطمینان را پاک نکردند، هیچ طبقه بندی دریافت نکردند.

نتایج: سیستم نویسندگان بر روی نمونه‌های DNA تومور در یک مجموعه موجود و همچنین نمونه‌های جمع‌آوری شده در اتاق عمل به خوبی عمل کرد. آزمایش بر روی نمونه‌هایی از 415 تومور، 60.7 درصد از آنها را به طور دقیق طبقه‌بندی کرد، 1.9 درصد را اشتباه طبقه‌بندی کرد و قادر به طبقه‌بندی 37.3 درصد نبود. آزمایش بر روی نمونه‌های جمع‌آوری‌شده طی 25 عمل جراحی واقعی، 18 تومور را به درستی طبقه‌بندی کرد و نتوانست 7 تومور را طبقه‌بندی کند. در همه موارد، نتایج را در عرض 90 دقیقه (45 دقیقه برای جمع‌آوری DNA و 45 دقیقه برای تجزیه و تحلیل آن) به دست آورد.

چرا مهم است: ۹۰ دقیقه به اندازه کافی سریع است تا به جراحان مغز اطلاع دهد که در مرحله اولیه عمل با چه نوع توموری سروکار دارند. اگر بتوان این تکنیک را به طور گسترده گسترش داد، ممکن است به نجات جان افراد زیادی کمک کند.

ما فکر می کنیم: احتمالاً استنباط چند ثانیه طول می کشد. نویسندگان می گویند روش توالی یابی سریع DNA را در 20 تا 40 دقیقه پردازش می کند. تسریع در این مرحله پتانسیل زیادی برای تسریع روند ارائه می دهد.

مهار هزینه برای هوش مصنوعی مولد

مایکروسافت به دنبال کنترل هزینه های اتکای خود به مدل های OpenAI است.

آنچه جدید است: مایکروسافت به دنبال ساخت مدل‌های زبانی ساده‌تر است که تقریباً به خوبی ChatGPT عمل می‌کنند، اما هزینه اجرای آن کمتر است .

چگونه کار می کند: مایکروسافت مجموعه ای از ابزارهای مبتنی بر هوش مصنوعی را ارائه می دهد که مکمل محصولات شاخص این شرکت از جمله ویندوز، مایکروسافت 365 و گیت هاب هستند. این خط که به عنوان Copilot شناخته می شود، بر اساس مدل های OpenAI است. ارائه این مدل ها به بیش از 1 میلیارد کاربر می تواند هزینه هنگفتی را به همراه داشته باشد و قدرت پردازشی را اشغال می کند که در جاهای دیگر مفید خواهد بود. برای مدیریت هزینه، توسعه‌دهندگان مایکروسافت از تقطیر دانش استفاده می‌کنند، که در آن یک مدل کوچک‌تر برای تقلید خروجی یک مدل بزرگ‌تر و همچنین تکنیک‌های دیگر آموزش داده می‌شود.

توافق مایکروسافت با OpenAI به آن دسترسی منحصر به فردی به خروجی های مدل های OpenAI می دهد. تقطیر مدل های Open AI به اولویت اصلی تیم هوش مصنوعی تبدیل شده است. چنین مدل هایی در حال حاضر در چت بینگ اجرا می شوند.
پیتر لی، رئیس تحقیقات هوش مصنوعی مایکروسافت، حدود 2000 پردازنده گرافیکی را به آموزش و اعتبارسنجی مدل‌های مقطر اختصاص داده است، که کسری از تعداد مورد استفاده برای آموزش و اعتبارسنجی GPT-4 است.
Orca ، یک مدل LLaMA 2 با 13 میلیارد پارامتر که بر روی خروجی های GPT-4 به خوبی تنظیم شده بود، با ChatGPT در معیار چالش برانگیز BIG-Bench Hard مطابقت داشت . با این وجود، GPT-4 را در سایر معیارها پشت سر گذاشت. (گزارش‌ها نشان می‌دهد که مایکروسافت در نظر داشت Orca را در Azure به عنوان رقیبی برای GPT-4 و LLaMA 2 عرضه کند، اما مجوز LLaMA 2 توانایی آن را برای انجام این کار محدود می‌کند.)
این شرکت همچنین در حال توسعه مدل های کوچکتر از ابتدا است. به عنوان مثال، Phi-1 از اکثر مدل های منبع باز در معیارهای تولید کد پایتون، مانند HumanEval ، پیشی گرفت، علیرغم اینکه ضریب 10 کوچکتر بود و با ضریب 100 بر روی داده های کمتر آموزش دیده بود.

پشت خبر: مایکروسافت 10 میلیارد دلار در OpenAI سرمایه گذاری کرده است. این قرارداد به غول فناوری 75 درصد از سود عملیاتی OpenAI تا بازپرداخت سرمایه‌اش و سپس 49 درصد سود بیشتر تا رسیدن به سقف نامشخص را وعده می‌دهد . در همین حال، مایکروسافت به مدل‌های با عملکرد بالا از منابع دیگر دسترسی دارد. پلتفرم ابری Azure آن LLaMA 2 متا را ارائه می کند .

چرا اهمیت دارد: سرویس دهی به شبکه های عصبی بزرگ در مقیاس حتی برای مایکروسافت که دارای منابع سخت افزاری عظیم و توافق مطلوب با OpenAI است، یک چالش است. اجرای مدل های تقطیر شده و تنظیم شده می تواند هزینه را برای غول های فناوری و استارت آپ های کوچک کاهش دهد.

ما به این فکر می کنیم: اگر کاربران Copilot را آنقدر دوست داشته باشند که در استنباط مدل ها صورت حساب بزرگی را در نظر بگیرند، به نظر یک علامت مثبت است!

📷

استدلال بهتر از ChatGPT

اگر درخواست‌های شما شامل یک زنجیره فکری باشد، می‌توانید یک مدل زبان بزرگ برای حل دقیق‌تر مسائل ریاضی دریافت کنید : مثالی که یک مشکل مشابه را از طریق یک سری مراحل استدلال میانی حل می‌کند. یک رویکرد جدید برای این نوع تحریک، دقت ChatGPT را در انواع مشکلات استدلال بهبود بخشید.

چه جدید است: Jiashuo Sun و همکارانش در دانشگاه Xiamen، مایکروسافت، و IDEA Research، راه‌اندازی تکراری را در راه‌اندازی زنجیره‌ای از فکر معرفی کردند ، روشی که یک مدل زبان بزرگ را وادار می‌کند تا زنجیره‌های فکری درستی برای مشکلات دشوار ایجاد کند، بنابراین می‌تواند از آنها به عنوان راهنما برای حل مشکلات دیگر استفاده کنید.

بینش کلیدی: محققان چند راه برای ترغیب یک مدل زبان بزرگ برای اعمال زنجیره فکری (CoT) ایجاد کرده اند. روش معمول این است که یک انسان یک نمونه CoT برای گنجاندن در یک درخواست بنویسد. یک راه سریع‌تر این است که از مثال دست ساز صرف نظر کنید و به سادگی به مدل دستور دهید که «گام به گام فکر کند» و باعث می‌شود نه تنها یک راه‌حل، بلکه CoT خود را تولید کند (به این CoT شات صفر می‌گویند) . برای بهبود CoT صفر شات، کار دیگر هم (i) از یک مدل خواسته بود که “گام به گام فکر کند” و (ii) CoT های تولید شده ( خودکار CoT ) را ارائه کرد. ضعف این رویکرد این است که این مدل می‌تواند CoT‌های مغالطه‌ای ایجاد کند و در هنگام پاسخ دادن به درخواست در دست، به آنها تکیه کند، که می‌تواند منجر به پاسخ‌های نادرست شود. برای حل این مشکل، می‌توانیم از یک مجموعه داده‌ای که شامل پاسخ‌های صحیح است، اعلان‌های نمونه ترسیم کنیم و مدل می‌تواند پاسخ‌های خود را در برابر برچسب‌های مجموعه داده بررسی کند. اگر اشتباه است، می تواند بارها و بارها امتحان کند تا زمانی که به درستی پاسخ دهد. به این ترتیب، نمونه های CoT درستی را برای استفاده در حل مشکلات دیگر تولید می کند.

چگونه کار می‌کند: برای تشویق ChatGPT به استدلال مؤثر، نویسندگان پایگاه داده‌ای از نمونه‌های مشکلات، زنجیره‌های فکری و راه‌حل‌ها ایجاد کردند. آنها مسائل را از 11 مجموعه داده ترسیم کردند: شش مجموعه داده استدلال حسابی (مانند مسائل کلمات ریاضی کلاس مدرسه )، چهار مجموعه داده استدلال عقل سلیم (به عنوان مثال، سوالاتی مانند “آیا ارسطو از لپ تاپ استفاده کرد؟” ) و یک مجموعه داده استدلال نمادین شامل کارهایی که شامل دستکاری حروف در کلمات می شود (به عنوان مثال، “حروف آخر کلمات را در “استیو سوینی” بردارید و آنها را به هم متصل کنید”).

نویسندگان مدل را با یک مشکل ترغیب کردند و به آن دستور دادند که “گام به گام فکر کند” همانطور که یک راه حل ایجاد می کند، و آنها ورودی و خروجی را ضبط می کنند.
وقتی راه‌حل مدل با راه‌حل موجود در مجموعه داده مطابقت نداشت، نویسندگان به مدل دستور دادند که با استفاده از اعلان‌هایی مانند «پاسخ درست نیست، می‌توانید با دقت بیشتری فکر کنید و پاسخ نهایی را به من بدهید؟» آنها این مرحله را تا زمانی که مدل راه حل صحیح را ارائه دهد تکرار کردند.
هنگامی که مدل یک مشکل را به درستی حل کرد، آنها از آن خواستند تا پاسخ را به همراه مراحلی که منجر به آن شده است، ارائه دهد. این خروجی به طور کلی زنجیره فکر را مختصرتر از پاسخ های صحیح اولیه مدل ارائه می کند. آنها مشکل، زنجیره فکر و راه حل را در یک پایگاه داده ذخیره کردند.
در استنتاج، زمانی که نویسندگان مدل را برای حل یک مشکل ترغیب می کنند، چهار تا هشت ورودی پایگاه داده را به صورت تصادفی انتخاب می کنند.

یافته‌ها: نویسندگان روش خود را در مقابل کاردستی و auto-CoT ارزیابی کردند. از 11 مجموعه داده، روش آنها بهترین نتایج را در 8 به دست آورد. به عنوان مثال، در مسائل کلمه ریاضی کلاس، ChatGPT با استفاده از روش آنها 73.6 درصد دقت را به دست آورد. با استفاده از دستورات دست ساز، دقت 69.3 درصد و با استفاده از Auto-CoT به 71.4 درصد دقت دست یافت. روش آنها در دو مجموعه داده استدلال عقل سلیم (76.8 درصد در مقابل 77.1 درصد و 69.3 درصد در مقابل 71.1 درصد) اعلان های دست ساز را ضعیف عمل کرد. عملکرد CoT خودکار روی یک مجموعه داده حسابی ضعیف بود (91.9 درصد در مقابل 92.5 درصد).

چرا مهم است: مدل‌های زبان بزرگ دارای قابلیت‌های نهفته قدرتمندی هستند که می‌توانند با درخواست هوشمندانه فعال شوند. ChatGPT توانست مشکلات موجود در پایگاه داده نویسندگان را حل کند، اما تنها پس از چندین بار تلاش. ارائه نمونه هایی از راه حل های صحیح خود برای این مشکلات، ظاهراً آن را قادر می سازد تا سایر مسائل دشوار مشابه را بدون نیاز به تلاش های متعدد حل کند.

ما فکر می‌کنیم: ممکن است بتوان این روش را تغییر داد تا ورودی‌های انسانی را با درخواست از مدل برای رفع مشکلات نسل‌های قبلی خود یا استفاده از ابزارهای خارجی برای اعتبارسنجی خروجی‌هایش غیرضروری کند .

نقاط داده

بایدو Ernie 4.0 را معرفی کرد
غول فناوری چینی نسخه جدیدی از مدل هوش مصنوعی مولد خود را در رویدادی در روز سه شنبه به نمایش گذاشت. بایدو ادعا می کند که نسخه جدید Ernie با مدل GPT-4 Open AI برابری می کند. Ernie همچنین در بسیاری از محصولات بایدو از جمله Drive و Maps گنجانده خواهد شد. هنوز در دسترس عموم مردم قرار نگرفته است. ( رویترز )

Adobe Firefly 2.0 را منتشر کرد
مدل جدید تولید تصویر غول نرم افزاری خلاق دارای ابزارهای گرافیکی جدید متن به تصویر و متن به برداری است. به طور خودکار اعتبار محتوا را برای مطالب تولید شده توسط هوش مصنوعی تولید می کند و Adobe قول می دهد از کاربران در برابر ادعاهای نقض حق نسخه برداری دفاع کند. اما بحث‌ها در مورد اینکه چگونه Adobe مجوز کاربران خود را برای آموزش مدل‌های خود بر روی تصاویر خود تضمین کرد، همچنان ادامه دارد. ( ادوبی )

آسیای جنوب شرقی نسبت به مقررات هوش مصنوعی موضع تجاری دوستانه ای اتخاذ می کند
پیش نویس محرمانه “راهنمای اخلاق و حکمرانی هوش مصنوعی” انجمن کشورهای جنوب شرقی آسیا (ASEAN) تاکید آن بر هدایت مقررات داخلی به جای تحمیل الزامات سختگیرانه را نشان می دهد. این با چارچوب مدیریت ریسک هوش مصنوعی NIST ایالات متحده مطابقت دارد و آن را از قانون هوش مصنوعی اتحادیه اروپا متمایز می کند. ( رویترز )

Google متعهد می شود از کاربران هوش مصنوعی Generative در برابر ادعاهای حق نسخه برداری محافظت کند.
سیاست جدید شامل نرم افزارهایی می شود که متن و تصاویر را در Google Workspace و برنامه های Cloud تولید می کند، از جمله پلت فرم توسعه Google Cloud’s Vertex AI و سیستم Duet AI. مواردی را که کاربران عمداً حقوق دیگران را نقض می کنند را پوشش نمی دهد. این حرکت گوگل را با شرکت هایی مانند مایکروسافت و ادوبی که تعهدات مشابهی داده اند، همسو می کند. ( رویترز )

تحقیق : مجموعه داده‌های ترجمه ماشینی شکاف را برای زبان باستانی اتروسکی پر می‌کند
. مجموعه داده ای برای ترجمه ماشینی از اتروسکی به انگلیسی معرفی شده است که شامل ۲۸۹۱ نمونه ترجمه شده از منابع دانشگاهی است. این نسخه درها را برای تحقیقات آینده در مورد اتروسکی و سایر زبان ها با داده های محدود باز می کند. ( صورت در آغوش گرفته )

جوامع بومی از هوش مصنوعی برای احیای زبان های خود استفاده می کنند
محققان در حال توسعه مدل های هوش مصنوعی برای کمک به یادگیری زبان مادری و حفظ فرهنگ هستند. در حالی که هوش مصنوعی وعده می دهد، نگرانی هایی در مورد منافع شرکت ها وجود دارد که از زبان های بومی سود می برند. بسیاری از سازمان‌های بومی به دنبال انواع جدیدی از مشارکت با توسعه‌دهندگان هستند که بر توسعه اخلاقی و جامعه محور تمرکز دارند. ( دانشمند جدید )

استارت‌آپ توسعه نرم‌افزار Replit برنامه‌نویس جفت هوش مصنوعی خود را راه‌اندازی می‌کند.
Replit AI شامل مجموعه‌ای از ابزارها، از جمله Complete Code، Generate Code، Edit Code و Explain Code است. ویژگی پرچمدار، Complete Code، پیشنهاداتی به سبک تکمیل خودکار برای بهبود تجربه کدنویسی ارائه می دهد. ( تکرار )

آموزش chatgpt و LLM ها

اینجا جدیدترین تکنیک های مربوط به آموزش chatgpt و LLM ها بهت یاد می دم https://aliayoubi.com

شاید از این پست‌ها خوشتان بیاید