من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
ایجاد خودکار ویدیو از روی یک صفحه وب
منتشرشده در: وبلاگ هوش مصنوعی گوگل به تاریخ ۲۹ سپتامبر ۲۰۲۰
لینک منبع: Experimenting with Automatic Video Creation from a Web Page
در گوگل، ما به طور فعال در حال بررسی این موضوع هستیم که چگونه مردم میتوانند از ابزارهای خلاقیت که با یادگیری ماشین و روشهای محاسباتی کار میکنند، در هنگام تولید محتوای چند رسانهای، از ایجاد موسیقی و تنظیم مجدد ویدئوها، نقاشی و غیره استفاده کنند. یک فرآیند خلاقانه به طور خاص، برای تولید ویدیو، میتواند بطور بخصوصی از چنین ابزارهایی بهره ببرد، زیرا نیازمند یک سری تصمیمات در مورد این است که چه محتوایی برای یک مخاطب هدف مناسبتر است، چگونه داراییهای موجود را در زمینه دید قرار دهد، و چه ترتیب زمانی متقاعدکنندهترین روایت را ارایه خواهد داد. اما چه میشود اگر کسی بتواند از داراییهای موجود، مانند یک وب سایت، برای شروع سریع ساخت ویدئو استفاده کند؟ کسب و کارها معمولا وب سایتهایی را میزبانی میکنند که حاوی نمایش بصری غنی در مورد خدمات یا محصولات خود هستند، که همه آنها میتواند برای قالبهای چند رسانهای دیگر، مانند ویدیوها، مجددا ارائه شوند، که به طور بالقوه آنهایی که فاقد منابع گسترده هستند برای مخاطبان گستردهتری قابل دسترسی هستند.
در «ایجاد خودکار ویدیو از صفحه وب»، که در UIST ۲۰۲۰ منتشر شد، ما URL2Video را معرفی میکنیم، یک خط لوله نمونه تحقیقاتی برای تبدیل خودکار یک صفحه وب به یک ویدیو کوتاه، با توجه به محدودیتهای زمانی و بصری ارائهشده توسط مالک محتوا. URL2Video داراییها (متن، تصویر، یا ویدئو) و سبکهای طراحی آنها (شامل فونت ها، رنگها، چیدمانهای گرافیکی، و سلسلهمراتب) را از منابع HTML استخراج میکند و داراییهای بصری را به ترتیب عکسها سازماندهی میکند، در حالی که یک ظاهر و احساس مشابه با صفحه منبع حفظ میکند. سپس با توجه به نسبت ابعاد و مدتزمان مشخصشده توسط کاربر، مواد پیشنهادی را به یک ویدیو تبدیل میکند که برای تبلیغات محصول و خدمات ایدهآل است.
بررسی اجمالی URL2Video
فرض کنید که یک کاربر یک نشانی اینترنتی را برای صفحه وب فراهم میکند که کسبوکار آنها را نشان میدهد. خط لوله URL2Video به طور خودکار محتوای کلیدی را از صفحه انتخاب میکند و نمایش زمانی و تصویری هر دارایی را براساس مجموعهای از شیوههای اکتشافی بهدستآمده از مطالعه مصاحبه با طراحان آشنا با طراحی وب و ایجاد تبلیغ ویدیویی تعیین میکند. این الگوریتمهای طراح آگاه، سبکهای معمول ویرایش ویدئو، از جمله سلسلهمراتب محتوا، محدود کردن مقدار اطلاعات در یک عکس و مدتزمان آن، فراهم آوردن رنگ و سبک ثابت برای برندینگ، و غیره را ثبت میکنند. با استفاده از این اطلاعات، خط لوله URL2Video محتوا و انتخاب متن یا تصاویر بصری برجسته یک صفحه وب را تجزیه و تحلیل میکند، در حالی که سبک طراحی آنها را حفظ میکند، که آن را مطابق با مشخصات ویدیویی ارائهشده توسط کاربر سازماندهی میکند.
تحلیل صفحه وب
با استفاده از یک نشانی اینترنتی صفحه وب، اطلاعات مدل شی سند URL2Video و مواد چند رسانهای را استخراج میکند. برای اهداف نمونه اولیه تحقیقاتی خود، دامنه را به صفحات وب ثابت محدود کردیم که حاوی داراییهای برجسته و تیترهای حفظشده در سلسلهمراتب HTML هستند که از اصول اخیر طراحی وب پیروی میکنند، که استفاده از عناصر برجسته، بخشهای متمایز، و ترتیب تمرکز بصری که خوانندگان را در درک اطلاعات راهنمایی میکند را تشویق میکند. URL2Video چنین عناصر متمایز بصری را به عنوان یک لیست کاندید از گروههای دارایی شناسایی میکند، که هر کدام ممکن است شامل یک عنوان، یک تصویر محصول، توضیحات دقیق، و دکمههای فراخوانی به عمل باشد، و هر دو دارایی خام (متن و فایلهای چند رسانهای) و مشخصات طراحی دقیق (تگهای HTML، سبکهای CSS، و مکانهای رندر شده) را برای هر عنصر ثبت میکند. سپس با اختصاص دادن امتیاز اولویت به هر یک از گروههای دارایی براساس ظاهر بصری و حاشیهنویسی، شامل تگهای HTML، اندازههای رندر شده و ترتیب نشاندادهشده در صفحه، آنها را رتبهبندی میکند. به این ترتیب، یک گروه دارایی که وسعت بیشتری را در بالای صفحه اشغال میکند امتیاز بالاتری دریافت میکند.
انتخاب دارایی مبتنی بر محدودیتها
هنگام ترکیب یک ویدئو دو هدف را در نظر میگیریم: (۱) هر عکس ویدئویی باید اطلاعات دقیق ارایه دهد، و (۲) طراحی بصری باید با صفحه منبع سازگار باشد. براساس این اهداف و محدودیتهای ویدیویی ارائهشده توسط کاربر، از جمله مدتزمان ویدئو در نظر گرفتهشده (در ثانیه) و نسبت ابعاد (معمولا ۱۶: ۹، ۴: ۳، ۱: ۱ و غیره)، نشانی اینترنتی به طور خودکار، URL2Video را انتخاب میکند و به گروههای دارایی دستور میدهد تا امتیاز اولویت کل را بهینه کنند. برای مختصر کردن محتوا، تنها عناصر غالب از یک صفحه را نشان میدهد، مانند یک عنوان و چند دارایی چندرسانهای. مدت هر عنصر بصری را برای بیننده محدود میکند تا محتوا را درک کند. به این ترتیب، یک ویدئوی کوتاه، برجستهترین اطلاعات را از بالای صفحه برجسته میکند، و یک ویدئوی طولانیتر شامل فعالیتها یا محصولات بیشتری است.
ترکیببندی صحنه و رندر ویدئو
با توجه به لیست منظمی از داراییها براساس سلسلهمراتبDOM، URL2Video، شیوههای اکتشافی طراحی بهدستآمده از مطالعات مصاحبه را دنبال میکند تا در مورد تنظیمات زمانی و فضایی برای ارائه داراییها در عکسهای فردی تصمیمگیری کند. این تکنیک چیدمان گرافیکی عناصر را به نسبت ابعاد ویدئو منتقل میکند، و انتخابهای سبک شامل قلمها و رنگها را اعمال میکند. برای اینکه یک ویدئو پویاتر و جذابتر شود، زمان ارائه داراییها را تنظیم میکند. در نهایت، محتوا را به یک ویدیو در قالب محتوی MPEG-4 تبدیل میکند.
کنترل کاربر
رابط به نمونه اولیه تحقیق به کاربر اجازه میدهد تا ویژگیهای طراحی را در هر تصویر ویدئویی استخراجشده از صفحه منبع بررسی کند، مواد را دوباره سفارش دهد، طراحی دقیق را تغییر دهد، مانند رنگها و فونتها، و محدودیتهای ایجاد یک ویدئو جدید را تنظیم کند.
موارد استفاده از URL2Video
ما عملکرد خط لوله URL2Video انتها به انتها را بر روی انواع صفحات وب موجود نشان میدهیم. در زیر ما یک مثال را نشان میدهیم که در آن URL2Video صفحهای را تبدیل میکند که چندین کلیپ ویدیویی کوتاه را به یک ویدیو ۱۲ ثانیهای تبدیل میکند. توجه داشته باشید که چگونه این خط لوله تصمیمات ویرایش خودکار را در مورد انتخاب قلم و رنگ، زمانبندی، و ترتیب محتوا در یک فیلم گرفتهشده از صفحه منبع اتخاذ میکند.
گامهای بعدی. در حالی که این تحقیق بر روی ارایه تصویری تمرکز دارد، ما در حال توسعه تکنیکهای جدیدی هستیم که از مسیر صوتی و یک بیکلام در ویرایش ویدیویی پشتیبانی میکند. به طور کلی، ما آینده را در نظر میگیریم که در آن خالقان بر روی تصمیمگیریهای سطح بالا تمرکز میکنند و یک مدل ML به صورت تعاملی ویرایشهای زمانی و گرافیکی دقیقی را برای ایجاد ویدئو نهایی در پلتفرمهای متعدد پیشنهاد میکند.
این متن با استفاده از ربات ترجمه مقالات یادگیری ماشین ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه میتواند دارای برخی اشکالات ترجمه باشد.
مطلبی دیگر از این انتشارات
هوش مصنوعی در چه کارهایی خوب نیست
مطلبی دیگر از این انتشارات
دانشمندان هشدار میدهند که فروکتوز میتواند باعث بیماری آلزایمر شود
مطلبی دیگر از این انتشارات
فیزیک کوانتوم برای ساخت هولوگرامهای بهتر