من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
نسخه ۶ تصاویر باز - همراه با روایتهای محلی
منتشرشده در: وبلاگ هوشمصنوعی گوگل به تاریخ ۲۶ فوریه ۲۰۲۰
نویسنده: Jordi Pont-Tuset
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html
دادگان باز تصاویر (OpenImages) بزرگترین مجموعه داده تصویر حاشیهنویسی شده در بسیاری از زمینهها، برای استفاده در آموزش آخرین شبکههای عصبی کانولوشنی عمیق برای وظایف بینایی کامپیوتر است. با معرفی نسخه ۵ در ماه می گذشته، مجموعه داده تصاویر باز شامل ۹ میلیون تصویر ثبتشده با ۳۶ میلیون سطح برچسب، ۱۵.۸ میلیون جعبهی محاط، ۲.۸ میلیون نمونه قطعهبندی و ۳۹۱ هزار رابطه بصری بوده است. همراه با خود مجموعه دادهها، چالشهای تصاویر باز مرتبط، شامل آخرین پیشرفتها در تشخیص اشیا، برای مثال تقسیمبندی، و تشخیص رابطه بصری را تحریک کردهاند.
امروزه، ما خوشحال هستیم که انتشار نسخه ششم Open Images را اعلام کنیم، که مجموعه داده تصاویر باز را با مجموعه بزرگی از روابط بصری جدید (به عنوان مثال، "سگی در حال گرفتن یک دیسک پرنده")، شرح عملیات انسانی (به عنوان مثال، "پرش یک زن")، و برچسبهای سطح تصویر (به عنوان مثال، "پایزلی") به شدت گسترش میدهد. قابلذکر است که این انتشار همچنین روایتهای محلی را اضافه میکند، یک شکل کاملا جدید از حاشیهنویسی چند وجهی که شامل صدای هماهنگ، متن، و اثرات موس بر روی اشیا در حال توصیف است. در تصاویر باز نسخه ۶، این روایتهای محلی برای ۵۰۰ هزار تصویر از مجموعه تصاویر آن در دسترس هستند. علاوه بر این، به منظور تسهیل مقایسه با کارهای قبلی، ما همچنین تفسیر روایتهای محلی را برای تصاویر کامل ۱۲۳ هزار تصویر از مجموعه داده COCO منتشر میکنیم.
روایتهای محلی
یکی از انگیزههایی که در پس روایتهای محلی وجود دارد، مطالعه و استفاده از ارتباط بین دید و زبان است، که معمولا از طریق تغییر تصویر انجام میشود - تصاویری که با توضیحات متنی تالیف شده توسط انسان از محتوای آنها جفت شدهاند. با این حال، یکی از محدودیتهای موقعیت یابی تصویر، فقدان زمینه بصری است، یعنی موقعیت یابی بر روی تصویر کلمات در توصیف متن. برای کاهش آن، برخی از کارهای قبلی دارای یک - پسینی هستند که جعبههای مقید را برای اسامی موجود در توضیح رسم میکنند. در مقابل، در روایتهای محلی، هر کلمه در توصیف متنی ریشه دارد.
روایتهای محلی شده توسط ناشرانی ایجاد میشوند که توصیفات گفتاری از یک تصویر را ارائه میدهند در حالی که آنها به طور همزمان ماوس خود را برای شناور کردن بر روی مناطقی که توصیف میکنند حرکت میدهند. تفسیر صدا در مرکز رویکرد ما قرار دارد زیرا به طور مستقیم توصیف را با مناطق تصویری که به آن ارجاع داده میشود، ارتباط میدهد. برای دسترسی بیشتر به این توصیفات، حاشیهکنندهها به صورت دستی شرح خود را پیاده کردند که سپس با نتیجه آوانویسی گفتار خودکار هم تراز شد. در این مرحله بازه زمانی برای توصیف بهبود مییابد و اطمینان حاصل میشود که سه حالت (گفتار، متن و رد موس)صحیح و همزمان هستند.
صحبت کردن و اشاره کردن به طور همزمان بسیار شهودی است که به ما این امکان را میدهد که به منتقدان دستورالعملهای بسیار مبهمی در مورد این کار بدهیم. این امر راههای بالقوه تحقیق برای مطالعه نحوه توصیف تصاویر توسط افراد را ایجاد میکند. به عنوان مثال، ما سبکهای مختلفی را هنگام نشان دادن گستره فضایی یک شی گرد، خراش دادن، خطکشی و غیره مشاهده کردیم. - که مطالعه آن میتواند دیدگاههای ارزشمندی را برای طراحی رابط کاربری جدید به ارمغان بیاورد.
برای درک مقدار دادههای اضافی این روایتهای محلی نشان میدهند، طول کلی مسیرهای موش ۶۴۰۰ کیلومتر است، و اگر بدون توقف با صدای بلند خوانده شود، تمام روایات ۱.۵ سال طول میکشد تا به آن گوش دهید!
روابط بصری جدید، فعالیتهای انسانی، و مفاهیم ضمنی سطح تصویر
علاوه بر روایتهای محلی، در تصاویر باز نسخه ۶ ما انواع تفسیر روابط بصری را با ترتیب بزرگی (تا ۱.۴ هزار) افزایش دادیم، و برای مثال "مرد سوار بر اسکیت برد"، "مرد و زن دست در دست"، و "سگ گرفتن دیسک پرنده" را اضافه کردیم.
افراد در تصویر از زمان شروع آن در مرکز توجه بینایی کامپیوتر بودهاند و درک کاری که آن افراد انجام میدهند برای بسیاری از کاربردها از بیشترین اهمیت برخوردار است. به همین دلیل است که تصاویر باز نسخه ۶ نیز شامل ۲.۵ میلیون تفسیر از اجرای اقدامات مستقل، مانند "پریدن"، "لبخند زدن"، یا "زمین گذاشتن" است.
در نهایت، ما ۲۳.۵ میلیون برچسب جدید سطح تصویر تایید شده توسط انسان را نیز اضافه کردیم، که در مجموع به ۵۹.۹ میلیون در بیش از ۲۰۰۰۰ گروه میرسد.
نتیجهگیری
تصاویر باز نسخه ۶ یک گام مهم کیفی و کمی به سمت بهبود حاشیهنویسی یکپارچه برای طبقهبندی تصویر، تشخیص شی، تشخیص رابطه بصری، و بخش کردن نمونه است، و یک رویکرد جدید در اتصال دید و زبان با روایتهای محلی اتخاذ میکند. ما امیدواریم که تصاویر باز نسخه ۶ پیشرفت به سمت درک واقعی صحنه را بیشتر تحریک کند.
این مقاله توسط مترجم متن تخصصی و علمی ترجمیار و به صورت کاملا خودکار ترجمه و با حداقل ویرایش و بازبینی انسانی منتشر شده است. مقالات لینکشده در این مقاله را میتوانید با کمک مقالهخوان ترجمیار به رایگان و فارسی بخوانید
مطلبی دیگر از این انتشارات
در عصر هوش مصنوعی، آیا هوش انسانی ضروری است؟
مطلبی دیگر از این انتشارات
توصیههای سازمان بهداشت جهانی درمورد انتقال کروناویروس از حیوان به انسان
مطلبی دیگر از این انتشارات
رباتهای قاتل در حال جستجوی توکنهای بیتکوین در محل دفن زباله هستند!