مدل جدید هوش مصنوعی انویدیا می‌تواند تصاویر ثابت را به گرافیک سه‌بعدی تبدیل کند

منتشر شده در analyticsinsight به تاریخ ۲۲ ژوئن ۲۰۲۲
لینک منبع NVIDIA’S NEW AI MODEL CAN CONVERT STILL IMAGES TO 3D GRAPHICS

انویدیا تلاش دیگری برای عمق بخشیدن به گرافیک‌های کم عمق انجام داده است. پس از تبدیل تصاویر دوبعدی به صحنه‌ها، مدل‌ها و ویدئوهای سه‌بعدی، این شرکت تمرکز خود را بر روی ویرایش قرار داده است. غول پردازنده گرافیکی امروز از روش هوش مصنوعی جدیدی رونمایی کرد که عکس‌های ثابت را به اشیایی سه‌بعدی تبدیل می‌کند که سازندگان می‌توانند به راحتی آن‌ها را تغییر دهند. محققان انویدیا خط لوله رندر معکوس جدیدی به نام Nvidia 3D MoMa توسعه داده‌اند که به کاربران اجازه می‌دهد مجموعه‌ای از عکس‌های ثابت را در یک مدل کامپیوتری سه‌بعدی از یک شی یا حتی یک صحنه بازسازی کنند. مزیت کلیدی این روند کاری، در مقایسه با روش‌های فتوگرامتری سنتی، توانایی آن در خروجی مدل‌های سه‌بعدی تمیز است که می‌توانند به‌صورت آماده توسط بازی‌های سه‌بعدی و موتورهای بصری وارد و ویرایش شوند.

با توجه به گزارش‌ها، در حالی که سایر برنامه‌های فتوگرامتری تصاویر دو بعدی را به مدل‌های سه‌بعدی تبدیل خواهند کرد، فناوری 3D MoMa انویدیا با تولید مش، مواد و اطلاعات نوری سوژه‌ها و خروجی آن در قالبی که با موتورهای گرافیکی سه‌بعدی و ابزارهای مدل‌سازی موجود سازگار است، قدمی فراتر می‌گذارد. و همه این کارها در بازه زمانی نسبتاً کوتاهی انجام می‌شود، انویدیا می‌گوید 3D MoMa می‌تواند مدل‌های مش مثلثی را در عرض یک ساعت با استفاده از یک GPU Nvidia Tensor Core تولید کند.

دیوید لوبکه، معاون تحقیقات گرافیکی انویدیا، این تکنیک را با India Today به عنوان "یک رویای دست‌نیافتنی که بینش کامپیوتری و گرافیک کامپیوتری را متحد می‌کند" توصیف می‌کند.

لوبک گفت: «خط لوله رندر NVIDIA 3D MoMa با فرمول‌بندی هر قطعه از مسئله رندر معکوس به عنوان یک مؤلفه متمایز با شتاب GPU، از ماشین‌آلات هوش مصنوعی مدرن و اسب بخار محاسباتی خام پردازنده‌های گرافیکی انویدیا برای تولید سریع اشیاء سه‌بعدی استفاده می‌کند که سازندگان می‌توانند آن‌ها را بدون محدودیت در ابزارهای موجود وارد کنند، ویرایش و گسترش دهند.»

با این اوصاف، انویدیا می‌گوید که فناوری آن «یکی از اولین مدل‌هایی در نوع خود است که آموزش شبکه‌های عصبی فوق‌العاده سریع و رندرینگ سریع را ترکیب می‌کند». همانطور که در وبلاگ آن‌ها ذکر شده است، Instant NeRF می‌تواند یک صحنه سه‌بعدی با وضوح بالا را در چند ثانیه یاد بگیرد و «می‌تواند تصاویر آن صحنه را در چند میلی‌ثانیه ارائه کند». گفته می‌شود که این "بیش از 1000 برابر سرعت" نسبت به فرآیندهای NeRF معمولی است که تا به امروز دیده شده است.

اما NeRF چیست؟

به گفته انویدیا، NeRFها از شبکه‌های عصبی برای نمایش و ارائه صحنه‌های سه‌بعدی واقعی بر اساس مجموعه ورودی از تصاویر دوبعدی استفاده می‌کنند. جمع‌آوری داده‌ها برای تغذیه یک NeRF کمی شبیه این است که یک عکاس فرش قرمز باشید و سعی کنید از هر زاویه‌ای لباس یک فرد مشهور را ثبت کنید - شبکه عصبی به چند جین تصویر گرفته‌شده از موقعیت‌های مختلف در اطراف صحنه، و همچنین موقعیت دوربین هر یک از این عکس‌ها نیاز دارد.

در صحنه‌ای که شامل افراد یا سایر عناصر متحرک است، هرچه این عکس‌ها سریع‌تر گرفته شوند، بهتر است. اگر حرکت زیادی در طول فرآیند ثبت تصویر دو بعدی وجود داشته باشد، صحنه سه‌بعدی ایجاد شده توسط هوش مصنوعی تار خواهد شد. از آنجا، یک NeRF اساساً جاهای خالی را پر می‌کند و یک شبکه عصبی کوچک را آموزش می‌دهد تا با پیش‌بینی رنگ نور تابش شده در هر جهت، از هر نقطه در فضای سه بعدی، صحنه را بازسازی کند. این تکنیک حتی می‌تواند در مورد موانع نیز کار کند - وقتی اشیایی که در برخی از تصاویر دیده می‌شوند توسط موانعی مانند ستون‌ها در تصاویر دیگر مسدود می‌شوند.

از این تکنولوژی می توان برای آموزش ربات‌ها و ماشین‌های خود-راننده استفاده کرد تا اندازه و شکل اشیا دنیای واقعی را با گرفتن تصاویر دو بعدی یا فیلم برداری از آن‌ها درک کند. همچنین می‌تواند در معماری و سرگرمی استفاده شود تا به سرعت نمایش‌های دیجیتال از محیط‌های واقعی را ایجاد کند که سازندگان می‌توانند آن‌ها را تغییر داده و بسازند. فراتر از NeRFها، محققان NVIDIA در حال بررسی این هستند که چگونه این تکنیک رمزگذاری ورودی ممکن است برای تسریع چالش‌های متعدد هوش مصنوعی از جمله یادگیری تقویتی، ترجمه زبان و الگوریتم‌های یادگیری عمیق همه‌منظوره استفاده شود.

این متن با استفاده از ربات ترجمه مقالات هوش مصنوعی ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.