من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
یادگیری دیدن اشیا شفاف
منتشرشده در: وبلاگ هوشمصنوعی گوگل به تاریخ ۱۲ فوریه ۲۰۲۰
نویسنده: Shreeyak Sajjan و Andy Zeng
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/learning-to-see-transparent-objects.html
این مقاله توسط مترجم متن تخصصی ترجمیار و به صورت کاملا خودکار ترجمه شده و بدون ویرایش و بازبینی انسانی منتشر شده است.
سنسورهای نوری فاصله ۳ بعدی، مانند دوربینهای RGB-D و LIDAR، کاربرد گستردهای در رباتیک برای تولید نقشههای سهبعدی غنی و دقیق از محیط، از ماشینهای خودکار گرفته تا روباتهای خودکار یافتهاند. با این حال، با وجود حضور همیشگی این سیستمهای رباتیک پیچیده، اشیا شفاف (مانند یک ظرف شیشهای) میتوانند حتی مجموعهای از سنسورهای گرانقیمت را که به طور معمول مورد استفاده قرار میگیرند، مختل کنند. این امر به این دلیل است که سنسورهای سهبعدی نوری توسط الگوریتمهایی هدایت میشوند که فرض میکنند همه سطوح لامبرتین هستند، یعنی آنها نور را به طور یکنواخت در همه جهات منعکس میکنند، که منجر به درخشندگی سطح یکنواخت از تمام زوایای مشاهده میشود. اما اشیا شفاف این فرض را نقض میکنند چون سطح آنها هم نور را شکسته و هم نور را منعکس میکند. از این رو، بیشتر دادههای عمق اشیا شفاف معتبر نیستند یا حاوی نویز غیرقابلپیشبینی هستند.
فعال کردن ماشینها برای درک بهتر سطوح شفاف نه تنها ایمنی را بهبود میبخشد، بلکه میتواند تعاملات جدیدی را در کاربردهای بدون ساختار باز کند - از حمل و نقل آشپزخانه توسط روباتها یا مرتبسازی پلاستیکها برای بازیافت، هدایت محیطهای داخلی یا ایجاد تصویرسازی AR بر روی صفحات شیشهای.
برای حل این مشکل، ما با محققانی از سنتز AI و دانشگاه کلمبیا همکاری کردیم تا ClearGrasp، یک الگوریتم یادگیری ماشینی که قادر به تخمین دادههای سهبعدی دقیق از اشیا شفاف از تصاویر RGB-D است را توسعه دهیم. این امر با یک مجموعه داده مصنوعی در مقیاس بزرگ امکان پذیر میشود که ما هم اکنون به صورت عمومی منتشر میکنیم. کلیرگراسپ میتواند با ورودیهایی از هر دوربین استاندارد RGB-D کار کند، با استفاده از یادگیری عمیق برای بازسازی دقیق عمق اشیا شفاف و تعمیم آن به اشیا کاملا جدید که در طول آموزش دیده نمیشوند، استفاده میکند. این برخلاف روشهای قبلی، که به دانش قبلی از اشیا شفاف نیاز داشتند (به عنوان مثال، مدلهای ۳ بعدی آنها)، اغلب با نقشههای نورپردازی پسزمینه و موقعیتهای دوربین ترکیب میشوند. در این تحقیق، ما همچنین نشان میدهیم که کلیرگراسپ میتواند با قراردادن آن در سیستم کنترل پیک و مکان روباتها، از این دستکاری رباتیک بهره ببرد، که در آن بهبود قابلتوجهی در نرخ موفقیت در شناسایی اشیا پلاستیکی شفاف مشاهده میشود.
یک نمای بصری از اشیا شفاف
مقادیر انبوهی از دادهها برای آموزش هر مدل یادگیری عمیق موثر مورد نیاز است (به عنوان مثال، تصویر شبکه برای بینایی یا ویکیپدیا برای BERT)، و کلیرگراسپ نیز از این قاعده مستثنی نیست. متاسفانه، هیچ مجموعه دادهای با دادههای سهبعدی از اشیا شفاف موجود نیست. مجموعه دادههای سهبعدی موجود مانند Matterport3D یا ScanNet از سطوح شفاف چشمپوشی میکنند، زیرا آنها به فرآیندهای برچسب گذاری پرهزینه و وقت گیر نیاز دارند.
برای غلبه بر این مساله، ما مجموعه داده مقیاس بزرگ از اشیا شفاف خود را ایجاد کردیم که حاوی بیش از ۵۰٫۰۰۰ تصویر واقعی نوری است که با نرمالهای سطحی مربوطه (که انحنای سطح را نشان میدهند)، تقسیمبندی، ماسکها، لبهها، و عمق، که برای آموزش انواع کارهای تشخیص ۲ بعدی و ۳ بعدی مفید هستند، ارائه میشود. هر تصویر شامل بیش از پنج شی شفاف، چه در سطح صاف و چه در داخل یک توته، با پسزمینهها و نورپردازی مختلف است.
ما همچنین یک مجموعه آزمایشی متشکل از ۲۸۶ تصویر دنیای واقعی با عمق حقیقت زمینی متناظر را در نظر میگیریم.تصاویر دنیای واقعی با فرآیند دقیق جایگزین کردن هر شی شفاف در صحنه با یک شی نقاشی شده با همان ژست گرفته شدند. تصاویر تحت تعدادی شرایط نوری داخلی مختلف، با استفاده از پسزمینه پارچه و روکش مختلف و حاوی اشیا مات تصادفی پراکنده در اطراف صحنه گرفته شدند. آنها شامل هر دو شی شناختهشده، موجود در مجموعه آموزش مصنوعی و اشیا جدید هستند.
چالش
با این که دید تحریفشده پسزمینه که از طریق اشیا شفاف دیده میشود، روشهای برآورد عمق معمول را ایجاد میکند، اما سرنخهایی وجود دارند که به شکل اشیا اشاره میکنند. سطوح شفاف انعکاسهای دایرهای را نشان میدهند که انعکاسهای آینه مانندی هستند که به صورت نقاط روشن در یک محیط روشن ظاهر میشوند. از آنجا که این نشانههای بصری در تصاویر آر جی بی برجسته هستند و در درجه اول تحتتاثیر شکل اشیا قرار میگیرند، شبکههای عصبی کانولوشنی میتوانند از این بازتابها برای استنباط نرمالهای دقیق سطح استفاده کنند، که سپس میتوانند برای تخمین عمق مورد استفاده قرار گیرند.
بیشتر الگوریتم های یادگیری ماشین تلاش میکنند تا عمق را به طور مستقیم از روی تصویر تک چشمی مالیاتهای اصلاحشده B تخمین بزنند. با این حال، تخمین عمق تک چشمی، حتی برای انسان، کار بدی است. ما خطاهای بزرگی را در برآورد عمق سطوح صاف پسزمینه مشاهده کردیم، که این خطا را در برآوردهای عمق برای اشیا شفافی که بالای آنها قرار دارند ترکیب میکند. بنابراین، به جای تخمین مستقیم عمق تمام هندسهها، حدس زدیم که تصحیح برآورد عمق اولیه از یک دوربین ۳ بعدی RGB-D عملیتر است - این امکان را به ما میدهد تا از عمق سطوح غیر شفاف برای آگاه کردن عمق سطوح شفاف استفاده کنیم.
الگوریتم کلیرگراسپ
کلیرگراسپ از ۳ شبکه عصبی استفاده میکند: یک شبکه برای تخمین مقادیر نرمالهای سطحی، یکی برای مرزهای انسداد (ناپیوستگی های عمق)، و یکی که اشیا شفاف را ماسک میکند. از این ماسک برای حذف تمام پیکسل های متعلق به اشیا شفاف استفاده میشود، به طوری که عمقهای صحیح را می توان پر کرد. سپس از یک ماژول بهینهسازی کلی استفاده میکنیم که شروع به گسترش عمق از سطوح مشخص، با استفاده از هنجارهای سطح پیشبینیشده برای هدایت شکل بازسازی، و مرزهای انسداد پیشبینیشده برای حفظ جدایی بین اشیا مجزا میکند.
هر یک از شبکههای عصبی بر روی مجموعه داده مصنوعی ما آموزش داده شد و آنها به خوبی بر روی اشیا شفاف دنیای واقعی عمل کردند. با این حال، برآوردهای نرمال سطح برای سطوح دیگر، مانند دیوارها یا میوهها، ضعیف بودند. این به دلیل محدودیتهای مجموعه داده مصنوعی ما است که تنها شامل اشیا شفاف در سطح زمین است. برای کاهش این مساله، ما برخی صحنههای داخلی واقعی از مجموعه دادههای Matterport3D و ScanNet را در حلقه آموزش هنجارهای سطحی قرار دادیم. با آموزش بر روی مجموعه داده مصنوعی در دامنه و مجموعه داده واقعی خارج از دامنه، مدل به خوبی بر روی تمام سطوح مجموعه تست ما عمل کرد.
نتایج
به طور کلی، آزمایشهای کمّی ما نشان میدهد که کلیرگراسپ قادر به بازسازی عمق برای اجسام شفاف با دقت بسیار بالاتری نسبت به روشهای دیگر است. با وجود آموزش تنها بر روی اشیا مصنوعی شفاف، ما متوجه شدیم که مدلهای ما قادر به سازگاری خوب با دامنه دنیای واقعی هستند - که به عملکرد بازسازی کمی بسیار مشابه در مورد اشیا شناختهشده در سراسر دامنه دست مییابند. مدلهای ما همچنین به خوبی به اشیا جدید با اشکال پیچیده که قبلا هرگز دیده نشده اند تعمیم میدهند.
برای بررسی عملکرد کیفی کلیرگراسپ، ما ابرهای نقطه سهبعدی از تصاویر عمق ورودی و خروجی میسازیم، که در زیر نشانداده شدهاست (مثالهای اضافی موجود در صفحه وب پروژه). سطوح سهبعدی تخمین زدهشده حاصل شکلهای تمیز و منسجم بازسازیشده دارند - که برای کاربردهایی مانند نقشهبرداری سهبعدی و تشخیص شی سهبعدی مهم هستند - بدون نویز مشاهدهشده در روشهای تخمین عمق تک چشمی. مدلهای ما قوی هستند و در شرایط چالش برانگیز به خوبی عمل میکنند، مانند شناسایی اشیا شفاف واقع در یک پسزمینه الگو دار یا متمایز کردن بین اشیا شفاف که تا حدی یکدیگر را مسدود میکنند.
از همه مهمتر، عمق خروجی از کلیرگراسپ را می توان به طور مستقیم به عنوان ورودی به الگوریتمهای پیشرفته دستکاری مرسوم که از تصاویر RGB-D استفاده میکنند، مورد استفاده قرار داد. با استفاده از تخمینهای عمق خروجی کلیرگراسپ به جای دادههای سنسور خام، الگوریتم گرفتن ما بر روی بازوی یک روبات UR5 پیشرفتهای قابلتوجهی در میزان موفقیت در گرفتن اشیا شفاف مشاهده کرد. هنگام استفاده از گریپر موازی فک، میزان موفقیت از پایه ۱۲٪ به ۷۴٪ و با مکش از ۶۴٪ به ۸۶٪ افزایش یافت.
محدودیتها و کارهای آینده
یک محدودیت مجموعه داده مصنوعی ما این است که به دلیل محدودیتهای ارایه با الگوریتم های سنتی ردیابی مسیر، تلفات دقیق را نشان نمیدهد. در نتیجه، مدلهای ما سوزنهای روشن همراه با سایهها را برای اینکه اشیا شفاف مستقل باشند، اشتباه میگیرند. با وجود این اشکالات، کار ما با کلیرگراسپ نشان میدهد که دادههای مصنوعی یک روش مناسب برای دستیابی به نتایج مناسب برای روشهای بازسازی عمق مبتنی بر یادگیری باقی میماند. یک مسیر امیدوار کننده برای کارهای آینده، بهبود انتقال دامنه به تصاویر دنیای واقعی با تولید محصولات با علل فیزیکی درست و نواقص سطحی مانند اثر انگشت است.
در مورد کلیرگراسپ، ما نشان میدهیم که محصولات با کیفیت بالا میتوانند برای آموزش موفقیتآمیز مدلهایی که در دنیای واقعی خوب عمل میکنند، مورد استفاده قرار گیرند. ما امیدواریم که مجموعه داده ما تحقیقات بیشتری را بر روی الگوریتم های درک برگرفته از داده برای اشیا شفاف انجام دهد. لینکهای دانلود و تصاویر نمونه بیشتری را می توان در وب سایت پروژه و مخزن GitHub ما یافت.
این مقاله توسط مترجم متن علمی ترجمیار و کاملا خودکار ترجمه شده و بدون ویرایش و بازبینی انسانی منتشر شده است.
مطلبی دیگر از این انتشارات
دانشمندان چاقی را بازتعریف میکنند -دو زیر گونه اصلی کشف شدند
مطلبی دیگر از این انتشارات
ویچت حسابهای گروههای LGBTQ دانشجویی در چین را حذف کرد.
مطلبی دیگر از این انتشارات
برنامهنویسی با dplyr