نسخه ۶ تصاویر باز - همراه با روایت‌های محلی

منتشرشده در: وبلاگ هوش‌مصنوعی گوگل به تاریخ ۲۶ فوریه ۲۰۲۰
نویسنده: Jordi Pont-Tuset
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html


دادگان باز تصاویر (OpenImages) بزرگ‌ترین مجموعه داده تصویر حاشیه‌نویسی شده در بسیاری از زمینه‌ها، برای استفاده در آموزش آخرین شبکه‌های عصبی کانولوشنی عمیق برای وظایف بینایی کامپیوتر است. با معرفی نسخه ۵ در ماه می گذشته، مجموعه داده تصاویر باز شامل ۹ میلیون تصویر ثبت‌شده با ۳۶ میلیون سطح برچسب‌، ۱۵.۸ میلیون جعبه‌ی محاط، ۲.۸ میلیون نمونه قطعه‌بندی و ۳۹۱ هزار رابطه بصری بوده است. همراه با خود مجموعه داده‌ها، چالش‌های تصاویر باز مرتبط، شامل آخرین پیشرفت‌ها در تشخیص اشیا، برای مثال تقسیم‌بندی، و تشخیص رابطه بصری را تحریک کرده‌اند.

روش‌های نشانه‌گذاری در تصاویر باز نسخه ۵: برچسب‌های سطح تصویر، جعبه‌های محدود کننده، قطعه‌بندی نمونه و روابط بصری.
روش‌های نشانه‌گذاری در تصاویر باز نسخه ۵: برچسب‌های سطح تصویر، جعبه‌های محدود کننده، قطعه‌بندی نمونه و روابط بصری.


امروزه، ما خوشحال هستیم که انتشار نسخه ششم Open Images را اعلام کنیم، که مجموعه داده تصاویر باز را با مجموعه بزرگی از روابط بصری جدید (به عنوان مثال، "سگی در حال گرفتن یک دیسک پرنده")، شرح عملیات انسانی (به عنوان مثال، "پرش یک زن")، و برچسب‌های سطح تصویر (به عنوان مثال، "پایزلی") به شدت گسترش می‌دهد. قابل‌ذکر است که این انتشار همچنین روایت‌های محلی را اضافه می‌کند، یک شکل کاملا جدید از حاشیه‌نویسی چند وجهی که شامل صدای هماهنگ، متن، و اثرات موس بر روی اشیا در حال توصیف است. در تصاویر باز نسخه ۶، این روایت‌های محلی برای ۵۰۰ هزار تصویر از مجموعه تصاویر آن در دسترس هستند. علاوه بر این، به منظور تسهیل مقایسه با کارهای قبلی، ما همچنین تفسیر روایت‌های محلی را برای تصاویر کامل ۱۲۳ هزار تصویر از مجموعه داده COCO منتشر می‌کنیم.

نمونه‌ای از روایت‌های محلی
نمونه‌ای از روایت‌های محلی

روایت‌های محلی

یکی از انگیزه‌هایی که در پس روایت‌های محلی وجود دارد، مطالعه و استفاده از ارتباط بین دید و زبان است، که معمولا از طریق تغییر تصویر انجام می‌شود - تصاویری که با توضیحات متنی تالیف شده توسط انسان از محتوای آن‌ها جفت شده‌اند. با این حال، یکی از محدودیت‌های موقعیت یابی تصویر، فقدان زمینه بصری است، یعنی موقعیت یابی بر روی تصویر کلمات در توصیف متن. برای کاهش آن، برخی از کارهای قبلی دارای یک - پسینی هستند که جعبه‌های مقید را برای اسامی موجود در توضیح رسم می‌کنند. در مقابل، در روایت‌های محلی، هر کلمه در توصیف متنی ریشه دارد.

سطوح مختلف قرار گرفتن بین محتوای تصویر و موقعیت یابی. چپ به راست: قرار گرفتن در کل تصویر (COCO)؛ اسامی به باکس‌ها (موجودیت‌های flickr۳۰k)؛ هر کلمه به بخش ردیابی موشی (روایت‌های محلی).
سطوح مختلف قرار گرفتن بین محتوای تصویر و موقعیت یابی. چپ به راست: قرار گرفتن در کل تصویر (COCO)؛ اسامی به باکس‌ها (موجودیت‌های flickr۳۰k)؛ هر کلمه به بخش ردیابی موشی (روایت‌های محلی).


روایت‌های محلی شده توسط ناشرانی ایجاد می‌شوند که توصیفات گفتاری از یک تصویر را ارائه می‌دهند در حالی که آن‌ها به طور همزمان ماوس خود را برای شناور کردن بر روی مناطقی که توصیف می‌کنند حرکت می‌دهند. تفسیر صدا در مرکز رویکرد ما قرار دارد زیرا به طور مستقیم توصیف را با مناطق تصویری که به آن ارجاع داده می‌شود، ارتباط می‌دهد. برای دسترسی بیشتر به این توصیفات، حاشیه‌کننده‌ها به صورت دستی شرح خود را پیاده کردند که سپس با نتیجه آوانویسی گفتار خودکار هم تراز شد. در این مرحله بازه زمانی برای توصیف بهبود می‌یابد و اطمینان حاصل می‌شود که سه حالت (گفتار، متن و رد موس)صحیح و همزمان هستند.

ردیف کردن نسخه‌های دستی و خودکار. شمایل‌ها براساس طرح اصلی فریپیک بودند.
ردیف کردن نسخه‌های دستی و خودکار. شمایل‌ها براساس طرح اصلی فریپیک بودند.

صحبت کردن و اشاره کردن به طور همزمان بسیار شهودی است که به ما این امکان را می‌دهد که به منتقدان دستورالعمل‌های بسیار مبهمی در مورد این کار بدهیم. این امر راه‌های بالقوه تحقیق برای مطالعه نحوه توصیف تصاویر توسط افراد را ایجاد می‌کند. به عنوان مثال، ما سبک‌های مختلفی را هنگام نشان دادن گستره فضایی یک شی گرد، خراش دادن، خط‌کشی و غیره مشاهده کردیم. - که مطالعه آن می‌تواند دیدگاه‌های ارزشمندی را برای طراحی رابط کاربری جدید به ارمغان بیاورد.

بخش‌های مسیر ماوس مطابق با کلمات زیر تصویر است.
بخش‌های مسیر ماوس مطابق با کلمات زیر تصویر است.

برای درک مقدار داده‌های اضافی این روایت‌های محلی نشان می‌دهند، طول کلی مسیرهای موش ۶۴۰۰ کیلومتر است، و اگر بدون توقف با صدای بلند خوانده شود، تمام روایات ۱.۵ سال طول می‌کشد تا به آن گوش دهید!

روابط بصری جدید، فعالیت‌های انسانی، و مفاهیم ضمنی سطح تصویر

علاوه بر روایت‌های محلی، در تصاویر باز نسخه ۶ ما انواع تفسیر روابط بصری را با ترتیب بزرگی (تا ۱.۴ هزار) افزایش دادیم، و برای مثال "مرد سوار بر اسکیت برد"، "مرد و زن دست در دست"، و "سگ گرفتن دیسک پرنده" را اضافه کردیم.

افراد در تصویر از زمان شروع آن در مرکز توجه بینایی کامپیوتر بوده‌اند و درک کاری که آن افراد انجام می‌دهند برای بسیاری از کاربردها از بیش‌ترین اهمیت برخوردار است. به همین دلیل است که تصاویر باز نسخه ۶ نیز شامل ۲.۵ میلیون تفسیر از اجرای اقدامات مستقل، مانند "پریدن"، "لبخند زدن"، یا "زمین گذاشتن" است.

در نهایت، ما ۲۳.۵ میلیون برچسب جدید سطح تصویر تایید شده توسط انسان را نیز اضافه کردیم، که در مجموع به ۵۹.۹ میلیون در بیش از ۲۰۰۰۰ گروه می‌رسد.

نتیجه‌گیری

تصاویر باز نسخه ۶ یک گام مهم کیفی و کمی به سمت بهبود حاشیه‌نویسی یکپارچه برای طبقه‌بندی تصویر، تشخیص شی، تشخیص رابطه بصری، و بخش کردن نمونه است، و یک رویکرد جدید در اتصال دید و زبان با روایت‌های محلی اتخاذ می‌کند. ما امیدواریم که تصاویر باز نسخه ۶ پیشرفت به سمت درک واقعی صحنه را بیشتر تحریک کند.


این مقاله توسط مترجم متن‌ تخصصی و علمی ترجمیار و به صورت کاملا خودکار ترجمه و با حداقل ویرایش و بازبینی انسانی منتشر شده است. مقالات لینک‌شده در این مقاله را می‌توانید با کمک مقاله‌خوان ترجمیار به رایگان و فارسی بخوانید