من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
تجزیه و تحلیل تصویر با تفکیکپذیری بسیار بالا با تنسورفلوی مِش
منتشرشده در: وبلاگ هوشمصنوعی گوگل به تاریخ ۲۴ فوریه ۲۰۲۰
نویسنده: Le Hou and Youlong Cheng
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/ultra-high-resolution-image-analysis.html
مدلهای شبکه عصبی عمیق ستون فقرات بسیاری از جدیدترین الگوریتمهای تحلیل تصویر و پردازش زبان طبیعی را تشکیل میدهند. با توسعه اخیر تکنیکهای یادگیری عمیق مقیاس بزرگ مانند دادهها و مدلهای موازی، مدلهای شبکه عصبی کانولوشنی (CNN) بزرگ میتوانند در مجموعه دادههای میلیونها تصویر به صورت دقیقه آموزش داده شوند. با این حال، استفاده از یک مدل عصبی کانولوشنی بر روی تصاویر با وضوح فوقالعاده بالا، مانند تصاویر سیتیاسکن سهبعدی (CT) که میتواند تا ۱۰ به توان ۸ پیکسل داشته باشد، همچنان چالش برانگیز است. با استفاده از تکنیکهای موجود، پردازنده باید حداقل ۳۲ گیگابایت اطلاعات جزیی و میانی را میزبانی کند، در حالی که GPUها یا TPU ها معمولا تنها ۱۲ تا ۳۲ گیگابایت حافظه دارند. یک راهحل معمول، پردازش جداگانه تکههای تصویر از یکدیگر است، که منجر به پیادهسازی پیچیده و عملکرد نیمه بهینه به دلیل از دست دادن اطلاعات میشود.
در مقاله «تجزیه و تحلیل تصاویر پزشکی با وضوح بالا با پارتیشن بندی فضایی»، با همکاری کلینیک مایو، ما مرز دادههای عظیم و مدل موازی را از طریق استفاده از چارچوب Mesh - tensorflow به پیش میبریم، و نشان میدهیم که چگونه این تکنیک میتواند برای آنالیز تصویر با وضوح فوقالعاده بالا بدون به خطر انداختن تفکیک ورودی برای امکانسنجی عملی مورد استفاده قرار گیرد. ما یک الگوریتم تبادل هاله را برای کنترل عملیاتهای کانولوشنال در سراسر پارتیشنهای فضایی به منظور حفظ روابط بین پارتیشنهای همسایه اجرا میکنیم. در نتیجه، ما قادر به آموزش یک شبکه U سهبعدی بر روی تصاویر با وضوح فوقالعاده بالا (تصاویر ۳ بعدی با ۵۱۲ پیکسل در هر بعد)، با موازیسازی مدل ۲۵۶ طرفه هستیم. ما علاوه بر این چارچوب مبتنی بر Mesh - tensorflow خود را برای GPU ها و TPU ها برای استفاده جامعه تحقیقاتی وسیعتر منبع باز داریم.
دادهها و موازیسازی مدل با Mesh - tensorflow
پیادهسازی ما براساس چارچوب جریان Mesh - tensorflow برای دادههای آسان و کارآمد و موازیسازی مدل است، که کاربران را قادر میسازد تانسورها را در سراسر یک مش از دستگاهها با توجه به طرح تصویر تعریفشده توسط کاربر تقسیم کنند. برای مثال کاربران میتوانند مش دستگاههای محاسباتی را به صورت ۱۶ ردیف توسط ۱۶ ستون برای ۲۵۶ پردازنده با دو هسته در هر پردازنده فراهم کنند. سپس آنها چیدمان را تعریف میکنند تا ابعاد فضایی x تصویر خود را به ردیفهای پردازنده، ابعاد فضایی y را به ستونهای پردازنده نگاشت کنند و بعد دستهای (یعنی تعداد بخشهای تصویر که باید به طور همزمان پردازش شوند) را برای هستهها نگاشت کنند. پارتیشن بندی و توزیع یک دسته آموزشی توسط جریان Mesh - tensorflow در سطح تانسور اجرا میشود، بدون این که کاربران نگران جزییات پیادهسازی باشند. شکل زیر این مفهوم را با یک مثال ساده نشان میدهد:
افرازبندی فضایی با تبادل هالو
عملیات کانولوشن بر روی یک تصویر اغلب یک فیلتر اعمال میکند که فراتر از لبه کادر است. در حالی که راههایی برای رسیدگی به این مساله در هنگام برخورد با یک تصویر واحد وجود دارد، رویکردهای استاندارد در نظر نمیگیرند که برای تصاویر بخشبندی شده اطلاعات فراتر از لبه فریم ممکن است هنوز هم مرتبط باشد. به منظور حصول نتایج دقیق، عملیات کانولوشن بر روی تصویری که به صورت فضایی تقسیمبندی و توزیع مجدد در سراسر پردازشگرها انجام شدهاست، باید همسایگان هر بخش تصویر را در نظر بگیرد.
یک راهحل بالقوه ممکن است شامل مناطق همپوشان در هر پارتیشن فضایی باشد. با این حال، از آنجا که به احتمال زیاد لایههای کانولوشنال متعاقب وجود دارند و هر یک از آنها همپوشانی را معرفی میکنند، همپوشانی نسبتا بزرگ خواهد بود - در واقع، در اکثر موارد، همپوشانی میتواند کل تصویر را پوشش دهد. علاوه بر این، تمام نواحی همپوشانی شده باید از ابتدا در لایه اول گنجانده شوند، که ممکن است به محدودیتهای حافظه اجرا شوند که ما سعی داریم آنها را حل کنیم.
راهحل ما کاملا متفاوت است: ما یک مرحله ارتباطی داده به نام تبادل هالو را اجرا کردیم. قبل از هر عملیات کانولوشن، هر تبادل پارتیشن فضایی (دریافت و ارسال) حاشیههایی با همسایگان خود، به طور موثر بخش تصویر را در حاشیه آن گسترش میدهد. سپس عملیات کانولوشن به صورت محلی روی هر دستگاه اعمال میشود. این امر تضمین میکند که نتیجه پیچها برای کل تصویر با یا بدون پارتیشن بندی فضایی یکسان باقی میماند.
اثبات مفهوم - قطعهبندی قوطیهای CT تومور کبد
ما این چارچوب را برای کار بخشبندی اسکنهای سهبعدی CT تومورهای کبدی بکار بردیم (بنچمارک LiTS). برای ارزیابی متریک، ما از ضریب سورنسن - دیس استفاده میکنیم، که دامنه آن از ۰.۰ تا ۱.۰ با امتیاز ۰ است که نشاندهنده عدم همپوشانی بین نواحی تومور حقیقت زمینی و بخشبندی شده و ۱ نشاندهنده تطابق کامل است. نتایج نشاندادهشده در زیر نشان میدهد که تفکیک پذیری بالاتر دادهها نتایج بهتری را بدست میدهد. اگرچه با استفاده از ۵۱۲ به توان ۳ وضوح کامل (۵۱۲ پیکسل در هر یک از جهتهای x، y، z)، بازده کاهش مییابد، اما این کار امکان تحلیل تصویر با وضوح فوقالعاده بالا را ممکن میکند.
نتیجهگیری
دادههای موجود و تکنیکهای موازی سازی مدل، آموزش شبکههای عصبی با میلیاردها پارامتر را ممکن ساختهاند، اما نمیتوانند تصاویر ورودی بالای به توان ۸۱۰ پیکسل را مدیریت کنند. در این کار، ما قابلیت اجرای CNNs را بر روی این تصاویر با وضوح فوقالعاده بالا بررسی کرده، و نتایج امیدوار کنندهای را نشان میدهیم. ما امیدواریم که با استفاده از کد منتشر شده، یک راهحل احتمالی برای برخی کارهای قبلا غیرممکن فراهم کنیم.
این مقاله توسط مترجم متن تخصصی و علمی ترجمیار و به صورت کاملا خودکار ترجمه و با حداقل ویرایش و بازبینی انسانی منتشر شده است. مقالات لینکشده در این مقاله را میتوانید با کمک مقالهخوان ترجمیار به رایگان و فارسی بخوانید
مطلبی دیگر از این انتشارات
دولینگو نمیتواند به شما زبان صحبت کردن را آموزش دهد، اما حالا میخواهد امتحان کند.
مطلبی دیگر از این انتشارات
تسلا، غول قدرتمند ایلان ماسک، ۷۵٪ از داراییهای بیتکوین خود را رها کرد
مطلبی دیگر از این انتشارات
بهترین مانیتورها برای عکاسی و ویرایش عکس در سال ۲۰۲۱