من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
اتوفلیپ: یک چارچوب منبع باز برای بازسازی هوشمند ویدئو
منتشرشده در: وبلاگ هوشمصنوعی گوگل به تاریخ ۱۳ فوریه ۲۰۲۰
نویسنده: Nathan Frey
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/autoflip-open-source-framework-for.html
ویدئوهای گرفتهشده و ویرایش شده برای تلویزیون و دسکتاپ معمولا با نسبت منظر (۱۶: ۹ یا ۴: ۳) تهیه و مشاهده میشوند. با این حال، با افزایش تعداد کاربران در حال ایجاد و مصرف محتوا در دستگاههای تلفن همراه، نسبتهای بعد معمول همیشه برای نمایش مورد استفاده برای مشاهده مناسب نیستند. رویکردهای سنتی برای انکسار ویدئو در نسبتهای ابعاد مختلف معمولا شامل برش ثابت است، یعنی، تعیین منظره دوربین، و سپس برش محتوای بصری که خارج از آن هستند. متاسفانه، این روشهای برش ایستا اغلب به دلیل تنوع ترکیب و سبکهای حرکت دوربین، به نتایج رضایتبخشی منجر میشوند. با این حال، رویکردهای سفارشیتر، معمولا برای شناسایی دستی محتوای برجسته در هر فریم، ردیابی انتقال آنها از فریم به فریم، و تنظیم مناطق محصول مطابق با آن در سراسر ویدئو، به ترکیبکنندههای ویدیویی نیاز دارند. این فرآیند اغلب خستهکننده، زمان بر و مستعد خطا است.
برای پرداختن به این مشکل، ما خوشحال هستیم که اتوفلیپ، که یک چارچوب منبع باز برای بازسازی ویدیویی هوشمند را معرفی کنیم. اتوفلیپ بر روی چارچوب Mediapipe ساخته شدهاست که توسعه خطوط لوله را برای پردازش دادههای چند وجهی سری زمانی ممکن میسازد.با در نظر گرفتن یک ویدئو (به صورت عادی یا حرفهای ویرایش شده)و یک بعد هدف (چشمانداز، مربع، پرتره و غیره)به عنوان ورودی، اتوفلیپ محتوای ویدئو را تحلیل میکند، استراتژیهای ردیابی و برش بهینه را توسعه میدهد، و یک ویدئوی خروجی با همان مدت در نسبت ابعاد مطلوب تولید میکند.
اتوفیلیپ با گرفتن یک ویدئو (عکس معمولی یا ویرایش حرفهای) و یک بعد هدف (چشمانداز، مربع، پرتره و غیره) به عنوان ورودی، محتوای ویدئو را تحلیل میکند، استراتژی ردیابی و برش بهینه را توسعه میدهد، و یک ویدئوی خروجی با همان مدت در نسبت ابعاد مطلوب تولید میکند.
کلیاتی در مورد اتوفلیپ
اتوفلیپ یک راهحل کاملا خودکار برای تغییر ساختار ویدئو هوشمند، با استفاده از فنآوریهای تشخیص و ردیابی اشیا فعال یادگیری ماشین به منظور درک هوشمندانه محتوای ویدئو ارایه میدهد. اتوفلیپ تغییراتی را در ترکیب شناسایی میکند که تغییرات صحنه را به منظور جداسازی صحنهها برای پردازش نشان میدهد. در هر عکس، از تحلیل ویدئویی برای شناسایی محتوای برجسته قبل از اینکه صحنه با انتخاب حالت دوربین و مسیر بهینهشده برای محتوا، شکسته شود، استفاده میشود.
تشخیص صحنه
صحنه یا عکس یک دنباله پیوسته از ویدیو بدون برش (یا پرش) است. برای شناسایی وقوع تغییر عکس، اتوفلیپ هیستوگرام رنگ هر فریم را محاسبه میکند و این را با فریم های قبلی مقایسه میکند. اگر توزیع رنگهای فریم با سرعت متفاوتی نسبت به پنجره تاریخی لغزشی تغییر کند، تغییر عکس نشان داده میشود. پخش خودکار ویدئو را تا زمانی که صحنه قبل از گرفتن تصمیمات تغییر شکل کامل شود، به منظور بهینهسازی انکسار مجدد برای کل صحنه، بافر میکند.
تحلیل محتوای ویدیو
ما از مدلهای تشخیص شی مبتنی بر یادگیری عمیق برای یافتن محتوای جالب و برجسته در کادر استفاده میکنیم. این محتوا به طور معمول شامل افراد و حیوانات است، اما ممکن است عناصر دیگر، بسته به کاربرد، شامل همپوشانی متن و لوگوها برای تبلیغات، یا حرکت و تشخیص توپ برای ورزش، شناسایی شوند. مدلهای تشخیص چهره و اشیا با اتوفیپ از طریق مدیا پایپ ترکیب میشوند، که از جریان TensorFlow Lite روی CPU استفاده میکند. این ساختار این امکان را فراهم میکند تا اتوفلیپ توسعهپذیر باشد، بنابراین توسعه دهندگان میتوانند به راحتی الگوریتمهای تشخیص جدیدی را برای موارد کاربرد مختلف و محتوای ویدیویی اضافه کنند. هر نوع شی با یک مقدار وزن مرتبط است، که اهمیت نسبی آن را مشخص میکند - هر چه وزن بیشتر باشد، تاثیر ویژگی در زمان محاسبه مسیر دوربین بیشتر خواهد بود.
بازسازی
پس از شناسایی موضوعات مورد علاقه در هر چارچوب، تصمیمات منطقی در مورد چگونگی تغییر چارچوب محتوا برای یک نمای جدید را می توان اتخاذ کرد. اتوفلیپ به طور خودکار یک بازسازی بهینه استراتژی - ساکن، پنینگ یا ردیابی - را بسته به نحوه رفتار اشیا در طول صحنه (به عنوان مثال، حرکت در اطراف یا ثابت) انتخاب میکند. در حالت ساکن، منظره دوربین در موقعیتی ثابت است که محتوای مهم را می توان در اکثر صحنه مشاهده کرد. این مد میتواند به طور موثر فیلمبرداری حرفهای را تقلید کند که در آن یک دوربین بر روی یک سهپایه ثابت یا جایی که تثبیت پس پردازش اعمال میشود، نصب شدهاست. در موارد دیگر، بهتر است که دوربین را احاطه کرده، و منظره را با یک سرعت ثابت حرکت دهیم. حالت ردیابی، ردیابی پیوسته و ثابت اشیا جالب را در حالی که در داخل کادر حرکت میکنند، فراهم میکند.
براساس اینکه کدام یک از این سه استراتژی تغییر شکل الگوریتم انتخاب میکند، آنگاه اتوفیلیپ یک پنجره بهینه برش را برای هر چارچوب تعیین میکند، در حالی که به بهترین شکل محتوای مورد نظر را حفظ میکند. در حالی که جعبههای محصور کننده اشیا فوکوس را در صحنه ردیابی میکنند، معمولا شکاف قابلتوجهی از کادر به کادر نشان میدهند و در نتیجه برای تعریف پنجره برش کافی نیستند. در عوض، ما منظره پورت را بر روی هر فریم از طریق فرآیند بهینهسازی نرم اقلیدسی تنظیم میکنیم، که در آن باقی ماندهها بین مسیر دوربین صاف (چند جملهای درجه پایین) و جعبههای محصور کننده را به حداقل میرسانیم.
اگر پوشش دادن تمام مناطق مورد نیاز غیر عملی شود (به عنوان مثال، هنگامی که آنها در کادر بیش از حد گسترده هستند)، خط لوله به طور خودکار با اعمال یک افکت لترباکس به یک استراتژی کمتر تهاجمی تبدیل خواهد شد، و تصویر را برای پر کردن کادر اضافه خواهد کرد. برای مواردی که پسزمینه به عنوان یک رنگ یکدست تشخیص داده میشود، از این رنگ برای ایجاد پسزمینه بدون درز استفاده میشود؛ در غیر این صورت از نسخه مات کادر اصلی استفاده میشود.
موارد استفاده اتوفلیپ
ما از ارایه مستقیم این ابزار به سازندگان و فیلم سازان، کاهش موانع خلاقیت طراحی آنها و رسیدن به آن از طریق اتوماسیون ویرایش ویدئو هیجانزده هستیم. با افزایش سریع تنوع دستگاهها برای مصرف محتوای ویدیویی، توانایی انطباق هر فرمت ویدئویی با نسبتهای ابعاد مختلف به طور فزایندهای مهم شدهاست. چه مورد استفاده شما برای تبدیل حالت پرتره به افقی باشد، چه افقی برای پرتره، و یا حتی تنظیمات کوچک مانند ۴: ۳ تا ۱۶: ۹، اتوفلیپ راه حلی برای بازسازی ویدیویی هوشمند، خودکار و انطباقی فراهم میکند.
آینده اتوفلیپ
مانند هر الگوریتم یادگیری ماشینی، اتوفلیپ میتواند از توانایی بهبود یافته برای تشخیص اشیا مرتبط با هدف ویدیو، مانند تشخیص گوینده برای مصاحبهها یا تشخیص چهره انیمیشنی بر روی کارتونها، بهره ببرد. علاوه بر این، یک مساله رایج زمانی به وجود میآید که ویدئوی ورودی دارای همپوشانی مهمی بر روی لبههای صفحه نمایش (مانند متن یا لوگو) باشد که اغلب باید از دید نهان شوند. با ترکیب تشخیص متن / لوگو و تکنولوژی تصویر در نقاشی، ما امیدواریم که نسخههای آینده اتوفیلیپ بتواند اشیا پیشزمینه را تغییر مکان دهد تا بهتر با نسبتهای ابعاد جدید متناسب شوند. در نهایت، در شرایطی که به اضافه کردن نیاز است، تکنولوژی حذف برش عمیق (deep uncrop) میتواند توانایی بهبود یافته برای گسترش فراتر از حوزه قابل نمایش اصلی را فراهم کند.
این مقاله توسط مترجم متن تخصصی و علمی ترجمیار و به صورت کاملا خودکار ترجمه شده و با حداقل ویرایش و بازبینی انسانی منتشر شده است.
مطلبی دیگر از این انتشارات
هوش مصنوعی در ورزش چه کاربردهایی دارد؟
مطلبی دیگر از این انتشارات
تحلیلگر سیستمهای کامپیوتری چه کاری انجام میدهد؟
مطلبی دیگر از این انتشارات
تحقیقات نشان میدهد که کل جهان میتواند یک شبکه عصبی عظیم باشد