یادگیری دیدن اشیا شفاف

یک تجسم ۳ بعدی از طریق ابرهای نقطه‌ای ساخته‌شده از عمق تصویر
یک تجسم ۳ بعدی از طریق ابرهای نقطه‌ای ساخته‌شده از عمق تصویر
منتشرشده در: وبلاگ هوش‌مصنوعی گوگل به تاریخ ۱۲ فوریه ۲۰۲۰
نویسنده: Shreeyak Sajjan و Andy Zeng
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/learning-to-see-transparent-objects.html

این مقاله توسط مترجم متن تخصصی ترجمیار و به صورت کاملا خودکار ترجمه شده و بدون ویرایش و بازبینی انسانی منتشر شده است.

سنسورهای نوری فاصله ۳ بعدی، مانند دوربین‌های RGB-D و LIDAR، کاربرد گسترده‌ای در رباتیک برای تولید نقشه‌های سه‌بعدی غنی و دقیق از محیط، از ماشین‌های خودکار گرفته تا روبات‌های خودکار یافته‌اند. با این حال، با وجود حضور همیشگی این سیستم‌های رباتیک پیچیده، اشیا شفاف (مانند یک ظرف شیشه‌ای) می‌توانند حتی مجموعه‌ای از سنسورهای گران‌قیمت را که به طور معمول مورد استفاده قرار می‌گیرند، مختل کنند. این امر به این دلیل است که سنسورهای سه‌بعدی نوری توسط الگوریتم‌هایی هدایت می‌شوند که فرض می‌کنند همه سطوح لامبرتین هستند، یعنی آن‌ها نور را به طور یکنواخت در همه جهات منعکس می‌کنند، که منجر به درخشندگی سطح یکنواخت از تمام زوایای مشاهده می‌شود. اما اشیا شفاف این فرض را نقض می‌کنند چون سطح آن‌ها هم نور را شکسته و هم نور را منعکس می‌کند. از این رو، بیشتر داده‌های عمق اشیا شفاف معتبر نیستند یا حاوی نویز غیرقابل‌پیش‌بینی هستند.

اشیا شفاف اغلب نمی‌توانند توسط سنسورهای سه‌بعدی نوری تشخیص داده شوند. به عنوان مثال، بطری‌های شیشه‌ای در تصویر سازی عمق سه‌بعدی گرفته‌شده از یک دوربین D415 RGB-D اینتل ظاهر نمی‌شوند.
اشیا شفاف اغلب نمی‌توانند توسط سنسورهای سه‌بعدی نوری تشخیص داده شوند. به عنوان مثال، بطری‌های شیشه‌ای در تصویر سازی عمق سه‌بعدی گرفته‌شده از یک دوربین D415 RGB-D اینتل ظاهر نمی‌شوند.


فعال کردن ماشین‌ها برای درک بهتر سطوح شفاف نه تنها ایمنی را بهبود می‌بخشد، بلکه می‌تواند تعاملات جدیدی را در کاربردهای بدون ساختار باز کند - از حمل و نقل آشپزخانه توسط روبات‌ها یا مرتب‌سازی پلاستیک‌ها برای بازیافت، هدایت محیط‌های داخلی یا ایجاد تصویرسازی AR بر روی صفحات شیشه‌ای.

برای حل این مشکل، ما با محققانی از سنتز AI و دانشگاه کلمبیا همکاری کردیم تا ClearGrasp، یک الگوریتم یادگیری ماشینی که قادر به تخمین داده‌های سه‌بعدی دقیق از اشیا شفاف از تصاویر RGB-D است را توسعه دهیم. این امر با یک مجموعه داده مصنوعی در مقیاس بزرگ امکان پذیر می‌شود که ما هم اکنون به صورت عمومی منتشر می‌کنیم. کلیرگراسپ می‌تواند با ورودی‌هایی از هر دوربین استاندارد RGB-D کار کند، با استفاده از یادگیری عمیق برای بازسازی دقیق عمق اشیا شفاف و تعمیم آن به اشیا کاملا جدید که در طول آموزش دیده نمی‌شوند، استفاده می‌کند. این برخلاف روش‌های قبلی، که به دانش قبلی از اشیا شفاف نیاز داشتند (به عنوان مثال، مدل‌های ۳ بعدی آن‌ها)، اغلب با نقشه‌های نورپردازی پس‌زمینه و موقعیت‌های دوربین ترکیب می‌شوند. در این تحقیق، ما همچنین نشان می‌دهیم که کلیرگراسپ می‌تواند با قراردادن آن در سیستم کنترل پیک و مکان روبات‌ها، از این دستکاری رباتیک بهره ببرد، که در آن بهبود قابل‌توجهی در نرخ موفقیت در شناسایی اشیا پلاستیکی شفاف مشاهده می‌شود.

کلیرگراسپ از یادگیری عمیق برای بازیابی داده‌های دقیق عمق سه‌بعدی سطوح شفاف استفاده می‌کند.
کلیرگراسپ از یادگیری عمیق برای بازیابی داده‌های دقیق عمق سه‌بعدی سطوح شفاف استفاده می‌کند.


یک نمای بصری از اشیا شفاف

مقادیر انبوهی از داده‌ها برای آموزش هر مدل یادگیری عمیق موثر مورد نیاز است (به عنوان مثال، تصویر شبکه برای بینایی یا ویکی‌پدیا برای BERT)، و کلیرگراسپ نیز از این قاعده مستثنی نیست. متاسفانه، هیچ مجموعه داده‌ای با داده‌های سه‌بعدی از اشیا شفاف موجود نیست. مجموعه داده‌های سه‌بعدی موجود مانند Matterport3D یا ScanNet از سطوح شفاف چشم‌پوشی می‌کنند، زیرا آن‌ها به فرآیندهای برچسب گذاری پرهزینه و وقت گیر نیاز دارند.

برای غلبه بر این مساله، ما مجموعه داده مقیاس بزرگ از اشیا شفاف خود را ایجاد کردیم که حاوی بیش از ۵۰٫۰۰۰ تصویر واقعی نوری است که با نرمال‌های سطحی مربوطه (که انحنای سطح را نشان می‌دهند)، تقسیم‌بندی، ماسک‌ها، لبه‌ها، و عمق، که برای آموزش انواع کارهای تشخیص ۲ بعدی و ۳ بعدی مفید هستند، ارائه می‌شود. هر تصویر شامل بیش از پنج شی شفاف، چه در سطح صاف و چه در داخل یک توته، با پس‌زمینه‌ها و نورپردازی مختلف است.

برخی از نمونه‌های داده از اشیا شفاف از مجموعه داده ترکیبی کلیرگراسپ.
برخی از نمونه‌های داده از اشیا شفاف از مجموعه داده ترکیبی کلیرگراسپ.


ما همچنین یک مجموعه آزمایشی متشکل از ۲۸۶ تصویر دنیای واقعی با عمق حقیقت زمینی متناظر را در نظر می‌گیریم.تصاویر دنیای واقعی با فرآیند دقیق جایگزین کردن هر شی شفاف در صحنه با یک شی نقاشی شده با همان ژست گرفته شدند. تصاویر تحت تعدادی شرایط نوری داخلی مختلف، با استفاده از پس‌زمینه پارچه و روکش مختلف و حاوی اشیا مات تصادفی پراکنده در اطراف صحنه گرفته شدند. آن‌ها شامل هر دو شی شناخته‌شده، موجود در مجموعه آموزش مصنوعی و اشیا جدید هستند.

چپ: آماده‌سازی ضبط تصویر در دنیای واقعی، وسط: واسط کاربر سفارشی امکان جایگزینی دقیق هر شی شفاف با یک کپی نقاشی شده با اسپری را فراهم می‌کند، راست: مثالی از داده‌های ضبط‌شده.
چپ: آماده‌سازی ضبط تصویر در دنیای واقعی، وسط: واسط کاربر سفارشی امکان جایگزینی دقیق هر شی شفاف با یک کپی نقاشی شده با اسپری را فراهم می‌کند، راست: مثالی از داده‌های ضبط‌شده.


چالش

با این که دید تحریف‌شده پس‌زمینه که از طریق اشیا شفاف دیده می‌شود، روش‌های برآورد عمق معمول را ایجاد می‌کند، اما سرنخ‌هایی وجود دارند که به شکل اشیا اشاره می‌کنند. سطوح شفاف انعکاس‌های دایره‌ای را نشان می‌دهند که انعکاس‌های آینه مانندی هستند که به صورت نقاط روشن در یک محیط روشن ظاهر می‌شوند. از آنجا که این نشانه‌های بصری در تصاویر آر جی بی برجسته هستند و در درجه اول تحت‌تاثیر شکل اشیا قرار می‌گیرند، شبکه‌های عصبی کانولوشنی می‌توانند از این بازتاب‌ها برای استنباط نرمال‌های دقیق سطح استفاده کنند، که سپس می‌توانند برای تخمین عمق مورد استفاده قرار گیرند.

بازتاب طیفی بر روی اشیا شفاف، ویژگی‌های مشخصی را ایجاد می‌کند که براساس شکل شی تغییر می‌کند و نشانه‌های بصری قوی برای تخمین نرمال‌های سطحی فراهم می‌کند.
بازتاب طیفی بر روی اشیا شفاف، ویژگی‌های مشخصی را ایجاد می‌کند که براساس شکل شی تغییر می‌کند و نشانه‌های بصری قوی برای تخمین نرمال‌های سطحی فراهم می‌کند.


بیشتر الگوریتم های یادگیری ماشین تلاش می‌کنند تا عمق را به طور مستقیم از روی تصویر تک چشمی مالیات‌های اصلاح‌شده B تخمین بزنند. با این حال، تخمین عمق تک چشمی، حتی برای انسان، کار بدی است. ما خطاهای بزرگی را در برآورد عمق سطوح صاف پس‌زمینه مشاهده کردیم، که این خطا را در برآوردهای عمق برای اشیا شفافی که بالای آن‌ها قرار دارند ترکیب می‌کند. بنابراین، به جای تخمین مستقیم عمق تمام هندسه‌ها، حدس زدیم که تصحیح برآورد عمق اولیه از یک دوربین ۳ بعدی RGB-D عملی‌تر است - این امکان را به ما می‌دهد تا از عمق سطوح غیر شفاف برای آگاه کردن عمق سطوح شفاف استفاده کنیم.

الگوریتم کلیرگراسپ

کلیرگراسپ از ۳ شبکه عصبی استفاده می‌کند: یک شبکه برای تخمین مقادیر نرمال‌های سطحی، یکی برای مرزهای انسداد (ناپیوستگی های عمق)، و یکی که اشیا شفاف را ماسک می‌کند. از این ماسک برای حذف تمام پیکسل های متعلق به اشیا شفاف استفاده می‌شود، به طوری که عمق‌های صحیح را می توان پر کرد. سپس از یک ماژول بهینه‌سازی کلی استفاده می‌کنیم که شروع به گسترش عمق از سطوح مشخص، با استفاده از هنجارهای سطح پیش‌بینی‌شده برای هدایت شکل بازسازی، و مرزه‌ای انسداد پیش‌بینی‌شده برای حفظ جدایی بین اشیا مجزا می‌کند.

مروری بر روش ما. ابر نقطه‌ای با استفاده از عمق خروجی تولید شد و با نرمال‌های سطحی خود رنگی شد.
مروری بر روش ما. ابر نقطه‌ای با استفاده از عمق خروجی تولید شد و با نرمال‌های سطحی خود رنگی شد.

هر یک از شبکه‌های عصبی بر روی مجموعه داده مصنوعی ما آموزش داده شد و آن‌ها به خوبی بر روی اشیا شفاف دنیای واقعی عمل کردند. با این حال، برآورده‌ای نرمال سطح برای سطوح دیگر، مانند دیوارها یا میوه‌ها، ضعیف بودند. این به دلیل محدودیت‌های مجموعه داده مصنوعی ما است که تنها شامل اشیا شفاف در سطح زمین است. برای کاهش این مساله، ما برخی صحنه‌های داخلی واقعی از مجموعه داده‌های Matterport3D و ScanNet را در حلقه آموزش هنجارهای سطحی قرار دادیم. با آموزش بر روی مجموعه داده مصنوعی در دامنه و مجموعه داده واقعی خارج از دامنه، مدل به خوبی بر روی تمام سطوح مجموعه تست ما عمل کرد.

برآورد نرمال سطحی در تصاویر واقعی هنگامی که بر روی الف) فقط Matterport3D و ScanNetیا به اختصار (MP + SN)، ب) مجموعه داده مصنوعی ما، و ج) MP + SN و همچنین مجموعه داده مصنوعی ما آموزش داده می‌شوند.  توجه داشته باشید که چگونه مدل آموزش‌دیده بر روی MP + SN قادر به شناسایی اشیا شفاف نمی‌باشد. مدلی که تنها بر روی داده‌های مصنوعی آموزش‌دیده است، بطری‌های پلاستیکی واقعی را به طور قابل‌ملاحظه‌ای به خوبی انتخاب می‌کند، اما برای اشیا و سطوح دیگر شکست می‌خورد.هنگامی که مدل ما بر روی هر دو آموزش می‌بیند، بهترین دو جهان را به دست می‌آورد.
برآورد نرمال سطحی در تصاویر واقعی هنگامی که بر روی الف) فقط Matterport3D و ScanNetیا به اختصار (MP + SN)، ب) مجموعه داده مصنوعی ما، و ج) MP + SN و همچنین مجموعه داده مصنوعی ما آموزش داده می‌شوند. توجه داشته باشید که چگونه مدل آموزش‌دیده بر روی MP + SN قادر به شناسایی اشیا شفاف نمی‌باشد. مدلی که تنها بر روی داده‌های مصنوعی آموزش‌دیده است، بطری‌های پلاستیکی واقعی را به طور قابل‌ملاحظه‌ای به خوبی انتخاب می‌کند، اما برای اشیا و سطوح دیگر شکست می‌خورد.هنگامی که مدل ما بر روی هر دو آموزش می‌بیند، بهترین دو جهان را به دست می‌آورد.



نتایج

به طور کلی، آزمایش‌های کمّی ما نشان می‌دهد که کلیرگراسپ قادر به بازسازی عمق برای اجسام شفاف با دقت بسیار بالاتری نسبت به روش‌های دیگر است. با وجود آموزش تنها بر روی اشیا مصنوعی شفاف، ما متوجه شدیم که مدل‌های ما قادر به سازگاری خوب با دامنه دنیای واقعی هستند - که به عملکرد بازسازی کمی بسیار مشابه در مورد اشیا شناخته‌شده در سراسر دامنه دست می‌یابند. مدل‌های ما همچنین به خوبی به اشیا جدید با اشکال پیچیده که قبلا هرگز دیده نشده اند تعمیم می‌دهند.

برای بررسی عملکرد کیفی کلیرگراسپ، ما ابره‌ای نقطه سه‌بعدی از تصاویر عمق ورودی و خروجی می‌سازیم، که در زیر نشان‌داده شده‌است (مثال‌های اضافی موجود در صفحه وب پروژه). سطوح سه‌بعدی تخمین زده‌شده حاصل شکل‌های تمیز و منسجم بازسازی‌شده دارند - که برای کاربردهایی مانند نقشه‌برداری سه‌بعدی و تشخیص شی سه‌بعدی مهم هستند - بدون نویز مشاهده‌شده در روش‌های تخمین عمق تک چشمی. مدل‌های ما قوی هستند و در شرایط چالش برانگیز به خوبی عمل می‌کنند، مانند شناسایی اشیا شفاف واقع در یک پس‌زمینه الگو دار یا متمایز کردن بین اشیا شفاف که تا حدی یکدیگر را مسدود می‌کنند.

نتایج کیفی بر روی تصاویر واقعی. دو ردیف بالا: نتایج بر روی اشیا مشخص. پایین دو ردیف: نتایج بر روی اشیا جدید.ابرهای نقطه‌ای، که با نرمالی‌های سطحی خود رنگی شده‌اند، از تصاویر عمق مربوطه ایجاد می‌شوند.
نتایج کیفی بر روی تصاویر واقعی. دو ردیف بالا: نتایج بر روی اشیا مشخص. پایین دو ردیف: نتایج بر روی اشیا جدید.ابرهای نقطه‌ای، که با نرمالی‌های سطحی خود رنگی شده‌اند، از تصاویر عمق مربوطه ایجاد می‌شوند.


از همه مهم‌تر، عمق خروجی از کلیرگراسپ را می توان به طور مستقیم به عنوان ورودی به الگوریتم‌های پیشرفته دستکاری مرسوم که از تصاویر RGB-D استفاده می‌کنند، مورد استفاده قرار داد. با استفاده از تخمین‌های عمق خروجی کلیرگراسپ به جای داده‌های سنسور خام، الگوریتم گرفتن ما بر روی بازوی یک روبات UR5 پیشرفت‌های قابل‌توجهی در میزان موفقیت در گرفتن اشیا شفاف مشاهده کرد. هنگام استفاده از گریپر موازی فک، میزان موفقیت از پایه ۱۲٪ به ۷۴٪ و با مکش از ۶۴٪ به ۸۶٪ افزایش یافت.

جابجایی اشیا جدید شفاف با استفاده از کلیرگراسپ. به شرایط چالش برانگیز توجه کنید: پس‌زمینه بدون بافت، اشکال اشیا پیچیده و نور جهت‌دار که باعث ایجاد سایه‌ها و سبک‌هایی گیج‌کننده می‌شود (الگوهای نور که زمانی رخ می‌دهند که اشعه نور از یک سطح بازتاب شده یا شکسته می‌شوند).
جابجایی اشیا جدید شفاف با استفاده از کلیرگراسپ. به شرایط چالش برانگیز توجه کنید: پس‌زمینه بدون بافت، اشکال اشیا پیچیده و نور جهت‌دار که باعث ایجاد سایه‌ها و سبک‌هایی گیج‌کننده می‌شود (الگوهای نور که زمانی رخ می‌دهند که اشعه نور از یک سطح بازتاب شده یا شکسته می‌شوند).


محدودیت‌ها و کارهای آینده

یک محدودیت مجموعه داده مصنوعی ما این است که به دلیل محدودیت‌های ارایه با الگوریتم های سنتی ردیابی مسیر، تلفات دقیق را نشان نمی‌دهد. در نتیجه، مدل‌های ما سوزن‌های روشن همراه با سایه‌ها را برای اینکه اشیا شفاف مستقل باشند، اشتباه می‌گیرند. با وجود این اشکالات، کار ما با کلیرگراسپ نشان می‌دهد که داده‌های مصنوعی یک روش مناسب برای دستیابی به نتایج مناسب برای روش‌های بازسازی عمق مبتنی بر یادگیری باقی می‌ماند. یک مسیر امیدوار کننده برای کارهای آینده، بهبود انتقال دامنه به تصاویر دنیای واقعی با تولید محصولات با علل فیزیکی درست و نواقص سطحی مانند اثر انگشت است.

در مورد کلیرگراسپ، ما نشان می‌دهیم که محصولات با کیفیت بالا می‌توانند برای آموزش موفقیت‌آمیز مدل‌هایی که در دنیای واقعی خوب عمل می‌کنند، مورد استفاده قرار گیرند. ما امیدواریم که مجموعه داده ما تحقیقات بیشتری را بر روی الگوریتم های درک برگرفته از داده برای اشیا شفاف انجام دهد. لینک‌های دانلود و تصاویر نمونه بیشتری را می توان در وب سایت پروژه و مخزن GitHub ما یافت.

این مقاله توسط مترجم متن علمی ترجمیار و کاملا خودکار ترجمه شده و بدون ویرایش و بازبینی انسانی منتشر شده است.