اتوفلیپ: یک چارچوب منبع باز برای بازسازی هوشمند ویدئو

منتشرشده در: وبلاگ هوش‌مصنوعی گوگل به تاریخ ۱۳ فوریه ۲۰۲۰
نویسنده: Nathan Frey
لینک مقاله اصلی: https://ai.googleblog.com/2020/02/autoflip-open-source-framework-for.html

ویدئوهای گرفته‌شده و ویرایش شده برای تلویزیون و دسکتاپ معمولا با نسبت منظر (۱۶: ۹ یا ۴: ۳) تهیه و مشاهده می‌شوند. با این حال، با افزایش تعداد کاربران در حال ایجاد و مصرف محتوا در دستگاه‌های تلفن همراه، نسبت‌های بعد معمول همیشه برای نمایش مورد استفاده برای مشاهده مناسب نیستند. رویکردهای سنتی برای انکسار ویدئو در نسبت‌های ابعاد مختلف معمولا شامل برش ثابت است، یعنی، تعیین منظره دوربین، و سپس برش محتوای بصری که خارج از آن هستند. متاسفانه، این روش‌های برش ایستا اغلب به دلیل تنوع ترکیب و سبک‌های حرکت دوربین، به نتایج رضایت‌بخشی منجر می‌شوند. با این حال، رویکردهای سفارشی‌تر، معمولا برای شناسایی دستی محتوای برجسته در هر فریم، ردیابی انتقال آن‌ها از فریم به فریم، و تنظیم مناطق محصول مطابق با آن در سراسر ویدئو، به ترکیب‌کننده‌های ویدیویی نیاز دارند. این فرآیند اغلب خسته‌کننده، زمان بر و مستعد خطا است.

برای پرداختن به این مشکل، ما خوشحال هستیم که اتوفلیپ، که یک چارچوب منبع باز برای بازسازی ویدیویی هوشمند را معرفی کنیم. اتوفلیپ بر روی چارچوب Mediapipe ساخته شده‌است که توسعه خطوط لوله را برای پردازش داده‌های چند وجهی سری زمانی ممکن می‌سازد.با در نظر گرفتن یک ویدئو (به صورت عادی یا حرفه‌ای ویرایش شده)و یک بعد هدف (چشم‌انداز، مربع، پرتره و غیره)به عنوان ورودی، اتوفلیپ محتوای ویدئو را تحلیل می‌کند، استراتژی‌های ردیابی و برش بهینه را توسعه می‌دهد، و یک ویدئوی خروجی با همان مدت در نسبت ابعاد مطلوب تولید می‌کند.

اتوفیلیپ با گرفتن یک ویدئو (عکس معمولی یا ویرایش حرفه‌ای) و یک بعد هدف (چشم‌انداز، مربع، پرتره و غیره) به عنوان ورودی، محتوای ویدئو را تحلیل می‌کند، استراتژی ردیابی و برش بهینه را توسعه می‌دهد، و یک ویدئوی خروجی با همان مدت در نسبت ابعاد مطلوب تولید می‌کند.

چپ: ویدیوی اصلی (۱۶: ۹). وسط: با استفاده از یک محصول برش مرکزی استاندارد (۹: ۱۶)بازسازی شده‌است. راست: دوباره قالب‌بندی شده با لبه‌ای خودکار (۹: ۱۶). با تشخیص موضوعات مورد علاقه، اتوفیلیپ قادر به جلوگیری از برش محتوای بصری مهم است.
چپ: ویدیوی اصلی (۱۶: ۹). وسط: با استفاده از یک محصول برش مرکزی استاندارد (۹: ۱۶)بازسازی شده‌است. راست: دوباره قالب‌بندی شده با لبه‌ای خودکار (۹: ۱۶). با تشخیص موضوعات مورد علاقه، اتوفیلیپ قادر به جلوگیری از برش محتوای بصری مهم است.


کلیاتی در مورد اتوفلیپ

اتوفلیپ یک راه‌حل کاملا خودکار برای تغییر ساختار ویدئو هوشمند، با استفاده از فن‌آوری‌های تشخیص و ردیابی اشیا فعال یادگیری ماشین به منظور درک هوشمندانه محتوای ویدئو ارایه می‌دهد. اتوفلیپ تغییراتی را در ترکیب شناسایی می‌کند که تغییرات صحنه را به منظور جداسازی صحنه‌ها برای پردازش نشان می‌دهد. در هر عکس، از تحلیل ویدئویی برای شناسایی محتوای برجسته قبل از اینکه صحنه با انتخاب حالت دوربین و مسیر بهینه‌شده برای محتوا، شکسته شود، استفاده می‌شود.

تشخیص صحنه

صحنه یا عکس یک دنباله پیوسته از ویدیو بدون برش (یا پرش) است. برای شناسایی وقوع تغییر عکس، اتوفلیپ هیستوگرام رنگ هر فریم را محاسبه می‌کند و این را با فریم های قبلی مقایسه می‌کند. اگر توزیع رنگ‌های فریم با سرعت متفاوتی نسبت به پنجره تاریخی لغزشی تغییر کند، تغییر عکس نشان داده می‌شود. پخش خودکار ویدئو را تا زمانی که صحنه قبل از گرفتن تصمیمات تغییر شکل کامل شود، به منظور بهینه‌سازی انکسار مجدد برای کل صحنه، بافر می‌کند.

تحلیل محتوای ویدیو

ما از مدل‌های تشخیص شی مبتنی بر یادگیری عمیق برای یافتن محتوای جالب و برجسته در کادر استفاده می‌کنیم. این محتوا به طور معمول شامل افراد و حیوانات است، اما ممکن است عناصر دیگر، بسته به کاربرد، شامل همپوشانی متن و لوگوها برای تبلیغات، یا حرکت و تشخیص توپ برای ورزش، شناسایی شوند. مدل‌های تشخیص چهره و اشیا با اتوفیپ از طریق مدیا پایپ ترکیب می‌شوند، که از جریان TensorFlow Lite روی CPU استفاده می‌کند. این ساختار این امکان را فراهم می‌کند تا اتوفلیپ توسعه‌پذیر باشد، بنابراین توسعه دهندگان می‌توانند به راحتی الگوریتم‌های تشخیص جدیدی را برای موارد کاربرد مختلف و محتوای ویدیویی اضافه کنند. هر نوع شی با یک مقدار وزن مرتبط است، که اهمیت نسبی آن را مشخص می‌کند - هر چه وزن بیشتر باشد، تاثیر ویژگی در زمان محاسبه مسیر دوربین بیشتر خواهد بود.

چپ: تشخیص افراد در فیلم‌های ورزشی. راست: دو جعبه صورت (
چپ: تشخیص افراد در فیلم‌های ورزشی. راست: دو جعبه صورت ("core" و "all" نشانه‌های چهره) در موارد محصول پرتره باریک، اغلب تنها یک نقطه عطف اصلی می‌تواند مناسب باشد.


بازسازی

پس از شناسایی موضوعات مورد علاقه در هر چارچوب، تصمیمات منطقی در مورد چگونگی تغییر چارچوب محتوا برای یک نمای جدید را می توان اتخاذ کرد. اتوفلیپ به طور خودکار یک بازسازی بهینه استراتژی - ساکن، پنینگ یا ردیابی - را بسته به نحوه رفتار اشیا در طول صحنه (به عنوان مثال، حرکت در اطراف یا ثابت) انتخاب می‌کند. در حالت ساکن، منظره دوربین در موقعیتی ثابت است که محتوای مهم را می توان در اکثر صحنه مشاهده کرد. این مد می‌تواند به طور موثر فیلمبرداری حرفه‌ای را تقلید کند که در آن یک دوربین بر روی یک سه‌پایه ثابت یا جایی که تثبیت پس پردازش اعمال می‌شود، نصب شده‌است. در موارد دیگر، بهتر است که دوربین را احاطه کرده، و منظره را با یک سرعت ثابت حرکت دهیم. حالت ردیابی، ردیابی پیوسته و ثابت اشیا جالب را در حالی که در داخل کادر حرکت می‌کنند، فراهم می‌کند.

براساس اینکه کدام یک از این سه استراتژی تغییر شکل الگوریتم انتخاب می‌کند، آنگاه اتوفیلیپ یک پنجره بهینه برش را برای هر چارچوب تعیین می‌کند، در حالی که به بهترین شکل محتوای مورد نظر را حفظ می‌کند. در حالی که جعبه‌های محصور کننده اشیا فوکوس را در صحنه ردیابی می‌کنند، معمولا شکاف قابل‌توجهی از کادر به کادر نشان می‌دهند و در نتیجه برای تعریف پنجره برش کافی نیستند. در عوض، ما منظره پورت را بر روی هر فریم از طریق فرآیند بهینه‌سازی نرم اقلیدسی تنظیم می‌کنیم، که در آن باقی مانده‌ها بین مسیر دوربین صاف (چند جمله‌ای درجه پایین) و جعبه‌های محصور کننده را به حداقل می‌رسانیم.

بالا: مسیرهای دوربین ناشی از دنبال کردن جعبه‌های محصور کننده از فریم به فریم. پایین: مسیرهای دوربین صاف شده نهایی تولید شده با استفاده از تشکیل مسیر نرم اقلیدسی. چپ: صحنه‌ای که در آن اشیا در حال حرکت هستند، و به یک مسیر دوربین ردیابی نیاز دارند.راست: صحنه‌ای که در آن اشیا نزدیک به یک موقعیت قرار می‌گیرند؛ یک دوربین ثابت محتوا را برای تمام مدت صحنه می‌پوشاند. نمودار پیکربندی لبه خودکار، تنظیماتی را برای بهترین تلاش یا تجدید ساختار مورد نیاز فراهم می‌کند.
بالا: مسیرهای دوربین ناشی از دنبال کردن جعبه‌های محصور کننده از فریم به فریم. پایین: مسیرهای دوربین صاف شده نهایی تولید شده با استفاده از تشکیل مسیر نرم اقلیدسی. چپ: صحنه‌ای که در آن اشیا در حال حرکت هستند، و به یک مسیر دوربین ردیابی نیاز دارند.راست: صحنه‌ای که در آن اشیا نزدیک به یک موقعیت قرار می‌گیرند؛ یک دوربین ثابت محتوا را برای تمام مدت صحنه می‌پوشاند. نمودار پیکربندی لبه خودکار، تنظیماتی را برای بهترین تلاش یا تجدید ساختار مورد نیاز فراهم می‌کند.


اگر پوشش دادن تمام مناطق مورد نیاز غیر عملی شود (به عنوان مثال، هنگامی که آن‌ها در کادر بیش از حد گسترده هستند)، خط لوله به طور خودکار با اعمال یک افکت لترباکس به یک استراتژی کم‌تر تهاجمی تبدیل خواهد شد، و تصویر را برای پر کردن کادر اضافه خواهد کرد. برای مواردی که پس‌زمینه به عنوان یک رنگ یکدست تشخیص داده می‌شود، از این رنگ برای ایجاد پس‌زمینه بدون درز استفاده می‌شود؛ در غیر این صورت از نسخه مات کادر اصلی استفاده می‌شود.

موارد استفاده اتوفلیپ

ما از ارایه مستقیم این ابزار به سازندگان و فیلم سازان، کاهش موانع خلاقیت طراحی آن‌ها و رسیدن به آن از طریق اتوماسیون ویرایش ویدئو هیجان‌زده هستیم. با افزایش سریع تنوع دستگاه‌ها برای مصرف محتوای ویدیویی، توانایی انطباق هر فرمت ویدئویی با نسبت‌های ابعاد مختلف به طور فزاینده‌ای مهم شده‌است. چه مورد استفاده شما برای تبدیل حالت پرتره به افقی باشد، چه افقی برای پرتره، و یا حتی تنظیمات کوچک مانند ۴: ۳ تا ۱۶: ۹، اتوفلیپ راه حلی برای بازسازی ویدیویی هوشمند، خودکار و انطباقی فراهم می‌کند.

آینده اتوفلیپ

مانند هر الگوریتم یادگیری ماشینی، اتوفلیپ می‌تواند از توانایی بهبود یافته برای تشخیص اشیا مرتبط با هدف ویدیو، مانند تشخیص گوینده برای مصاحبه‌ها یا تشخیص چهره انیمیشنی بر روی کارتون‌ها، بهره ببرد. علاوه بر این، یک مساله رایج زمانی به وجود می‌آید که ویدئوی ورودی دارای همپوشانی مهمی بر روی لبه‌های صفحه نمایش (مانند متن یا لوگو) باشد که اغلب باید از دید نهان شوند. با ترکیب تشخیص متن / لوگو و تکنولوژی تصویر در نقاشی، ما امیدواریم که نسخه‌های آینده اتوفیلیپ بتواند اشیا پیش‌زمینه را تغییر مکان دهد تا بهتر با نسبت‌های ابعاد جدید متناسب شوند. در نهایت، در شرایطی که به اضافه کردن نیاز است، تکنولوژی حذف برش عمیق (deep uncrop) می‌تواند توانایی بهبود یافته برای گسترش فراتر از حوزه قابل نمایش اصلی را فراهم کند.

این مقاله توسط مترجم متن تخصصی و علمی ترجمیار و به صورت کاملا خودکار ترجمه شده و با حداقل ویرایش و بازبینی انسانی منتشر شده است.