ایجاد خودکار ویدیو از روی یک صفحه وب

منتشر‌شده در: وبلاگ هوش مصنوعی گوگل به تاریخ ۲۹ سپتامبر ۲۰۲۰
لینک منبع: Experimenting with Automatic Video Creation from a Web Page

در گوگل، ما به طور فعال در حال بررسی این موضوع هستیم که چگونه مردم می‌توانند از ابزارهای خلاقیت که با یادگیری ماشین و روش‌های محاسباتی کار می‌کنند، در هنگام تولید محتوای چند رسانه‌ای، از ایجاد موسیقی و تنظیم مجدد ویدئوها، نقاشی و غیره استفاده کنند. یک فرآیند خلاقانه به طور خاص، برای تولید ویدیو، می‌تواند بطور بخصوصی از چنین ابزارهایی بهره ببرد، زیرا نیازمند یک سری تصمیمات در مورد این است که چه محتوایی برای یک مخاطب هدف مناسب‌تر است، چگونه دارایی‌های موجود را در زمینه دید قرار دهد، و چه ترتیب زمانی متقاعدکننده‌ترین روایت را ارایه خواهد داد. اما چه می‌شود اگر کسی بتواند از دارایی‌های موجود، مانند یک وب سایت، برای شروع سریع ساخت ویدئو استفاده کند؟ کسب و کارها معمولا وب سایت‌هایی را میزبانی می‌کنند که حاوی نمایش بصری غنی در مورد خدمات یا محصولات خود هستند، که همه آن‌ها می‌تواند برای قالب‌های چند رسانه‌ای دیگر، مانند ویدیوها، مجددا ارائه شوند، که به طور بالقوه آن‌هایی که فاقد منابع گسترده هستند برای مخاطبان گسترده‌تری قابل دسترسی هستند.

در «ایجاد خودکار ویدیو از صفحه وب»، که در UIST ۲۰۲۰ منتشر شد، ما URL2Video را معرفی می‌کنیم، یک خط لوله نمونه تحقیقاتی برای تبدیل خودکار یک صفحه وب به یک ویدیو کوتاه، با توجه به محدودیت‌های زمانی و بصری ارائه‌شده توسط مالک محتوا. URL2Video دارایی‌ها (متن، تصویر، یا ویدئو) و سبک‌های طراحی آن‌ها (شامل فونت ها، رنگ‌ها، چیدمان‌های گرافیکی، و سلسله‌مراتب) را از منابع HTML استخراج می‌کند و دارایی‌های بصری را به ترتیب عکس‌ها سازماندهی می‌کند، در حالی که یک ظاهر و احساس مشابه با صفحه منبع حفظ می‌کند. سپس با توجه به نسبت ابعاد و مدت‌زمان مشخص‌شده توسط کاربر، مواد پیشنهادی را به یک ویدیو تبدیل می‌کند که برای تبلیغات محصول و خدمات ایده‌آل است.

بررسی اجمالی URL2Video

فرض کنید که یک کاربر یک نشانی اینترنتی را برای صفحه وب فراهم می‌کند که کسب‌وکار آن‌ها را نشان می‌دهد. خط لوله URL2Video به طور خودکار محتوای کلیدی را از صفحه انتخاب می‌کند و نمایش زمانی و تصویری هر دارایی را براساس مجموعه‌ای از شیوه‌های اکتشافی به‌دست‌آمده از مطالعه مصاحبه با طراحان آشنا با طراحی وب و ایجاد تبلیغ ویدیویی تعیین می‌کند. این الگوریتم‌های طراح آگاه، سبک‌های معمول ویرایش ویدئو، از جمله سلسله‌مراتب محتوا، محدود کردن مقدار اطلاعات در یک عکس و مدت‌زمان آن، فراهم آوردن رنگ و سبک ثابت برای برندینگ، و غیره را ثبت می‌کنند. با استفاده از این اطلاعات، خط لوله URL2Video محتوا و انتخاب متن یا تصاویر بصری برجسته یک صفحه وب  را تجزیه و تحلیل می‌کند، در حالی که سبک طراحی آن‌ها را حفظ می‌کند، که آن را مطابق با مشخصات ویدیویی ارائه‌شده توسط کاربر سازماندهی می‌کند.

تحلیل صفحه وب

با استفاده از یک نشانی اینترنتی صفحه وب، اطلاعات مدل شی سند URL2Video و مواد چند رسانه‌ای را استخراج می‌کند. برای اهداف نمونه اولیه تحقیقاتی خود، دامنه را به صفحات وب ثابت محدود کردیم که حاوی دارایی‌های برجسته و تیترهای حفظ‌شده در سلسله‌مراتب HTML هستند که از اصول اخیر طراحی وب پیروی می‌کنند، که استفاده از عناصر برجسته، بخش‌های متمایز، و ترتیب تمرکز بصری که خوانندگان را در درک اطلاعات راهنمایی می‌کند را تشویق می‌کند. URL2Video چنین عناصر متمایز بصری را به عنوان یک لیست کاندید از گروه‌های دارایی شناسایی می‌کند، که هر کدام ممکن است شامل یک عنوان، یک تصویر محصول، توضیحات دقیق، و دکمه‌های فراخوانی به عمل باشد، و هر دو دارایی خام (متن و فایل‌های چند رسانه‌ای) و مشخصات طراحی دقیق (تگ‌های HTML، سبک‌های CSS، و مکان‌های رندر شده) را برای هر عنصر ثبت می‌کند. سپس با اختصاص دادن امتیاز اولویت به هر یک از گروه‌های دارایی براساس ظاهر بصری و حاشیه‌نویسی، شامل تگ‌های HTML، اندازه‌های رندر شده و ترتیب نشان‌داده‌شده در صفحه، آن‌ها را رتبه‌بندی می‌کند. به این ترتیب، یک گروه دارایی که وسعت بیشتری را در بالای صفحه اشغال می‌کند امتیاز بالاتری دریافت می‌کند.

انتخاب دارایی مبتنی بر محدودیت‌ها

هنگام ترکیب یک ویدئو دو هدف را در نظر می‌گیریم: (۱) هر عکس ویدئویی باید اطلاعات دقیق ارایه دهد، و (۲) طراحی بصری باید با صفحه منبع سازگار باشد. براساس این اهداف و محدودیت‌های ویدیویی ارائه‌شده توسط کاربر، از جمله مدت‌زمان ویدئو در نظر گرفته‌شده (در ثانیه) و نسبت ابعاد (معمولا ۱۶: ۹، ۴: ۳، ۱: ۱ و غیره)، نشانی اینترنتی به طور خودکار، URL2Video را انتخاب می‌کند و به گروه‌های دارایی دستور می‌دهد تا امتیاز اولویت کل را بهینه کنند. برای مختصر کردن محتوا، تنها عناصر غالب از یک صفحه را نشان می‌دهد، مانند یک عنوان و چند دارایی چندرسانه‌ای. مدت هر عنصر بصری را برای بیننده محدود می‌کند تا محتوا را درک کند. به این ترتیب، یک ویدئوی کوتاه، برجسته‌ترین اطلاعات را از بالای صفحه برجسته می‌کند، و یک ویدئوی طولانی‌تر شامل فعالیت‌ها یا محصولات بیشتری است.

ترکیب‌بندی صحنه و رندر ویدئو

با توجه به لیست منظمی از دارایی‌ها براساس سلسله‌مراتبDOM، URL2Video، شیوه‌های اکتشافی طراحی به‌دست‌آمده از مطالعات مصاحبه را دنبال می‌کند تا در مورد تنظیمات زمانی و فضایی برای ارائه دارایی‌ها در عکس‌های فردی تصمیم‌گیری کند. این تکنیک چیدمان گرافیکی عناصر را به نسبت ابعاد ویدئو منتقل می‌کند، و انتخاب‌های سبک شامل قلم‌ها و رنگ‌ها را اعمال می‌کند. برای اینکه یک ویدئو پویاتر و جذاب‌تر شود، زمان ارائه دارایی‌ها را تنظیم می‌کند. در نهایت، محتوا را به یک ویدیو در قالب محتوی MPEG-4 تبدیل می‌کند.

کنترل کاربر

رابط به نمونه اولیه تحقیق به کاربر اجازه می‌دهد تا ویژگی‌های طراحی را در هر تصویر ویدئویی استخراج‌شده از صفحه منبع بررسی کند، مواد را دوباره سفارش دهد، طراحی دقیق را تغییر دهد، مانند رنگ‌ها و فونت‌ها، و محدودیت‌های ایجاد یک ویدئو جدید را تنظیم کند.

موارد استفاده از URL2Video

ما عملکرد خط لوله URL2Video انتها به انتها را بر روی انواع صفحات وب موجود نشان می‌دهیم. در زیر ما یک مثال را نشان می‌دهیم که در آن URL2Video صفحه‌ای را تبدیل می‌کند که چندین کلیپ ویدیویی کوتاه را به یک ویدیو ۱۲ ثانیه‌ای تبدیل می‌کند. توجه داشته باشید که چگونه این خط لوله تصمیمات ویرایش خودکار را در مورد انتخاب قلم و رنگ، زمان‌بندی، و ترتیب محتوا در یک فیلم گرفته‌شده از صفحه منبع اتخاذ می‌کند.


گام‌های بعدی. در حالی که این تحقیق بر روی ارایه تصویری تمرکز دارد، ما در حال توسعه تکنیک‌های جدیدی هستیم که از مسیر صوتی و یک بی‌کلام در ویرایش ویدیویی پشتیبانی می‌کند. به طور کلی، ما آینده را در نظر می‌گیریم که در آن خالقان بر روی تصمیم‌گیری‌های سطح بالا تمرکز می‌کنند و یک مدل ML به صورت تعاملی ویرایش‌های زمانی و گرافیکی دقیقی را برای ایجاد ویدئو نهایی در پلتفرم‌های متعدد پیشنهاد می‌کند.

این متن با استفاده از ربات ترجمه مقالات یادگیری ماشین ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.