تجزیه و تحلیل تصویر با تفکیک‌پذیری بسیار بالا با تنسورفلوی مِش

منتشرشده در: وبلاگ هوش‌مصنوعی گوگل به تاریخ ۲۴ فوریه ۲۰۲۰
نویسنده: Le Hou and Youlong Cheng
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/ultra-high-resolution-image-analysis.html

مدل‌های شبکه عصبی عمیق ستون فقرات بسیاری از جدیدترین الگوریتم‌های تحلیل تصویر و پردازش زبان طبیعی را تشکیل می‌دهند. با توسعه اخیر تکنیک‌های یادگیری عمیق مقیاس بزرگ مانند داده‌ها و مدل‌های موازی، مدل‌های شبکه عصبی کانولوشنی (CNN) بزرگ می‌توانند در مجموعه داده‌های میلیون‌ها تصویر به صورت دقیقه آموزش داده شوند. با این حال، استفاده از یک مدل عصبی کانولوشنی بر روی تصاویر با وضوح فوق‌العاده بالا، مانند تصاویر سی‌تی‌اسکن سه‌بعدی (CT) که می‌تواند تا ۱۰ به توان ۸ پیکسل داشته باشد، همچنان چالش برانگیز است. با استفاده از تکنیک‌های موجود، پردازنده باید حداقل ۳۲ گیگابایت اطلاعات جزیی و میانی را میزبانی کند، در حالی که GPUها یا TPU ها معمولا تنها ۱۲ تا ۳۲ گیگابایت حافظه دارند. یک راه‌حل معمول، پردازش جداگانه تکه‌های تصویر از یکدیگر است، که منجر به پیاده‌سازی پیچیده و عملکرد نیمه بهینه به دلیل از دست دادن اطلاعات می‌شود.

در مقاله «تجزیه و تحلیل تصاویر پزشکی با وضوح بالا با پارتیشن بندی فضایی»، با هم‌کاری کلینیک مایو، ما مرز داده‌های عظیم و مدل موازی را از طریق استفاده از چارچوب Mesh - tensorflow به پیش می‌بریم، و نشان می‌دهیم که چگونه این تکنیک می‌تواند برای آنالیز تصویر با وضوح فوق‌العاده بالا بدون به خطر انداختن تفکیک ورودی برای امکان‌سنجی عملی مورد استفاده قرار گیرد. ما یک الگوریتم تبادل هاله را برای کنترل عملیات‌های کانولوشنال در سراسر پارتیشن‌های فضایی به منظور حفظ روابط بین پارتیشن‌های همسایه اجرا می‌کنیم. در نتیجه، ما قادر به آموزش یک شبکه U سه‌بعدی بر روی تصاویر با وضوح فوق‌العاده بالا (تصاویر ۳ بعدی با ۵۱۲ پیکسل در هر بعد)، با موازی‌سازی مدل ۲۵۶ طرفه هستیم. ما علاوه بر این چارچوب مبتنی بر Mesh - tensorflow خود را برای GPU ها و TPU ها برای استفاده جامعه تحقیقاتی وسیع‌تر منبع باز داریم.

داده‌ها و موازی‌سازی مدل با Mesh - tensorflow

پیاده‌سازی ما براساس چارچوب جریان Mesh - tensorflow برای داده‌های آسان و کارآمد و موازی‌سازی مدل است، که کاربران را قادر می‌سازد تانسورها را در سراسر یک مش از دستگاه‌ها با توجه به طرح تصویر تعریف‌شده توسط کاربر تقسیم کنند. برای مثال کاربران می‌توانند مش دستگاه‌های محاسباتی را به صورت ۱۶ ردیف توسط ۱۶ ستون برای ۲۵۶ پردازنده با دو هسته در هر پردازنده فراهم کنند. سپس آن‌ها چیدمان را تعریف می‌کنند تا ابعاد فضایی x تصویر خود را به ردیف‌های پردازنده، ابعاد فضایی y را به ستون‌های پردازنده نگاشت کنند و بعد دسته‌ای (یعنی تعداد بخش‌های تصویر که باید به طور همزمان پردازش شوند) را برای هسته‌ها نگاشت کنند. پارتیشن بندی و توزیع یک دسته آموزشی توسط جریان Mesh - tensorflow در سطح تانسور اجرا می‌شود، بدون این که کاربران نگران جزییات پیاده‌سازی باشند. شکل زیر این مفهوم را با یک مثال ساده نشان می‌دهد:

پارتیشن بندی فضایی تصاویر با وضوح فوق‌العاده بالا، در این مورد، یک سی‌تی‌اسکن سه‌بعدی.
پارتیشن بندی فضایی تصاویر با وضوح فوق‌العاده بالا، در این مورد، یک سی‌تی‌اسکن سه‌بعدی.

افرازبندی فضایی با تبادل هالو

عملیات کانولوشن بر روی یک تصویر اغلب یک فیلتر اعمال می‌کند که فراتر از لبه کادر است. در حالی که راه‌هایی برای رسیدگی به این مساله در هنگام برخورد با یک تصویر واحد وجود دارد، رویکردهای استاندارد در نظر نمی‌گیرند که برای تصاویر بخش‌بندی شده اطلاعات فراتر از لبه فریم ممکن است هنوز هم مرتبط باشد. به منظور حصول نتایج دقیق، عملیات کانولوشن بر روی تصویری که به صورت فضایی تقسیم‌بندی و توزیع مجدد در سراسر پردازشگرها انجام شده‌است، باید همسایگان هر بخش تصویر را در نظر بگیرد.

یک راه‌حل بالقوه ممکن است شامل مناطق همپوشان در هر پارتیشن فضایی باشد. با این حال، از آنجا که به احتمال زیاد لایه‌های کانولوشنال متعاقب وجود دارند و هر یک از آن‌ها همپوشانی را معرفی می‌کنند، همپوشانی نسبتا بزرگ خواهد بود - در واقع، در اکثر موارد، همپوشانی می‌تواند کل تصویر را پوشش دهد. علاوه بر این، تمام نواحی همپوشانی شده باید از ابتدا در لایه اول گنجانده شوند، که ممکن است به محدودیت‌های حافظه اجرا شوند که ما سعی داریم آن‌ها را حل کنیم.

راه‌حل ما کاملا متفاوت است: ما یک مرحله ارتباطی داده به نام تبادل هالو را اجرا کردیم. قبل از هر عملیات کانولوشن، هر تبادل پارتیشن فضایی (دریافت و ارسال) حاشیه‌هایی با همسایگان خود، به طور موثر بخش تصویر را در حاشیه آن گسترش می‌دهد. سپس عملیات کانولوشن به صورت محلی روی هر دستگاه اعمال می‌شود. این امر تضمین می‌کند که نتیجه پیچ‌ها برای کل تصویر با یا بدون پارتیشن بندی فضایی یک‌سان باقی می‌ماند.

تبادل هالو تضمین می‌کند که پیچ و تاب‌های متقاطع لبه‌های بخش تصویر را به درستی اداره می‌کنند.
تبادل هالو تضمین می‌کند که پیچ و تاب‌های متقاطع لبه‌های بخش تصویر را به درستی اداره می‌کنند.

اثبات مفهوم - قطعه‌بندی قوطی‌های CT تومور کبد

ما این چارچوب را برای کار بخش‌بندی اسکن‌های سه‌بعدی CT تومورهای کبدی بکار بردیم (بنچ‌مارک LiTS). برای ارزیابی متریک، ما از ضریب سورنسن - دیس استفاده می‌کنیم، که دامنه آن از ۰.۰ تا ۱.۰ با امتیاز ۰ است که نشان‌دهنده عدم همپوشانی بین نواحی تومور حقیقت زمینی و بخش‌بندی شده و ۱ نشان‌دهنده تطابق کامل است. نتایج نشان‌داده‌شده در زیر نشان می‌دهد که تفکیک پذیری بالاتر داده‌ها نتایج بهتری را بدست می‌دهد. اگرچه با استفاده از ۵۱۲ به توان ۳ وضوح کامل (۵۱۲ پیکسل در هر یک از جهت‌های x، y، z)، بازده کاهش می‌یابد، اما این کار امکان تحلیل تصویر با وضوح فوق‌العاده بالا را ممکن می‌کند.

داده‌های با تفکیک پذیری بالاتر دقت ناحیه بندی بهتری دارند.
داده‌های با تفکیک پذیری بالاتر دقت ناحیه بندی بهتری دارند.

نتیجه‌گیری

داده‌های موجود و تکنیک‌های موازی سازی مدل، آموزش شبکه‌های عصبی با میلیاردها پارامتر را ممکن ساخته‌اند، اما نمی‌توانند تصاویر ورودی بالای به توان ۸۱۰ پیکسل را مدیریت کنند. در این کار، ما قابلیت اجرای CNNs را بر روی این تصاویر با وضوح فوق‌العاده بالا بررسی کرده، و نتایج امیدوار کننده‌ای را نشان می‌دهیم. ما امیدواریم که با استفاده از کد منتشر شده، یک راه‌حل احتمالی برای برخی کارهای قبلا غیرممکن فراهم کنیم.


این مقاله توسط مترجم متن‌ تخصصی و علمی ترجمیار و به صورت کاملا خودکار ترجمه و با حداقل ویرایش و بازبینی انسانی منتشر شده است. مقالات لینک‌شده در این مقاله را می‌توانید با کمک مقاله‌خوان ترجمیار به رایگان و فارسی بخوانید