پژوهشی در زمینه روش‌های خلاصه‌سازی ویدیو

مراحل خلاصه‌سازی ویدیو
مراحل خلاصه‌سازی ویدیو

چکیده: با توسعه سریع تکنولوژی ویدیویی دیجیتال، امکان بارگذاری ویدیوهای بزرگ به یوتیوب یا هر وب سایت دیگر، ثبت حجم عظیمی از داده‌ها به عنوان ویدیوهای خبری، ویدیوهای ورزشی، ویدیوهای آموزشی، نظارتی و غیره وجود دارد. ذخیره‌سازی، انتقال و پردازش ویدئو زمان زیادی می‌برد. کاربر ممکن است زمان کافی برای مشاهده ویدیو قبل از دانلود نداشته باشد و یا کاربر نیاز دارد که نتیجه جستجوی ویدیو سریع و دقیق باشد. در چنین مواردی، پررنگ‌سازی یا خلاصه‌سازی ویدیو، عملیات جستجو و فهرست‌بندی را سرعت می‌بخشد و کاربر می‌تواند پیش از دانلود ویدئو، خلاصه یا نکات برجسته ویدئو را مشاهده کند. ​

خلاصه کردن ویدئو خلاصه کوتاه یا نکات برجسته ویدئوی بلند است. این کار یک مطالعه مفصل در مورد تکنیک‌های مختلف خلاصه‌سازی ویدیویی است. ​

کلمات کلیدی: خلاصه کردن استاتیک ویدیو؛ اسکیمینگ ویدیو، شبکه‌های عصبی کانولوشنال

مقدمه

​​​​​​​​امروزه ما ابزارهای الکترونیکی زیادی داریم که قادر به ثبت حجم عظیمی از داده‌ها مانند موسیقی، ویدئو، ورزش، اخبار و اسناد هستند. دوربین‌های امنیتی در همه مکان‌های عمومی، سازمان‌های دولتی و سازمان‌های خصوصی نصب می‌شوند. همه این منابع حجم عظیمی از داده‌ها را تولید می‌کنند. ذخیره این داده‌های بزرگ کار دشواری است. با این کار همه می‌توانند ویدئو را در اینترنت آپلود کنند. ​

پردازش تصویر یا ویدیو یک فرآیند بسیار وقت گیر است. انتظار می‌رود که نتیجه جستجو سریع، مناسب و دقیق باشد. خلاصه کردن ویدئو یک تکنیک بسیار مفید در هر موقعیت است. خلاصه کردن ویدیو در دهه ۱۹۹۹ معرفی شد. این خلاصه‌ای کوتاه یا نکات برجسته ویدئویی بلند است و باید از این اصول پیروی کند: این ویدئو تنها باید شامل رویدادهای اولویت بالای ویدئوی ورودی باشد، دوم سرعت نباید دستکاری شود، یعنی باید شامل ویدئو اصلی با سرعت بالاتر باشد، سوم مجموعه وقوع رویداد باید همانند ویدئوی اصلی باشد و در نهایت ویدئو خلاصه نباید شامل داده‌های اضافی باشد. ​

خلاصه کردن ویدیو سه مرحله دارد. در گام اولیه، اطلاعات ویدیویی برای یافتن عوامل برجسته، ساختار یا روش‌های درون مولفه بصری، صوتی و متنی (‏اگر مولفه صوتی و متنی وجود داشته باشد) ‏تحلیل می‌شوند. مرحله دوم، انتخاب فریم های معنی‌دار که محتوای ویدئو را نشان می‌دهند و در نهایت ترکیب خروجی شامل سازماندهی فریم ها / عکس‌ها با توجه به آنچه که در ویدئو اصلی وجود دارد. ​

خلاصه‌سازی ویدیو عمدتا به خلاصه‌سازی استاتیک ویدیو یا خلاصه‌سازی قاب اصلی ویدیو و خلاصه سازی پویای ویدیو طبقه‌بندی می‌شود. خلاصه سازی ویدیویی ایستا، مجموعه‌ای از تصاویر با اولویت بالا را به عنوان خروجی تولید می‌کند. با مقایسه هر دو خلاصه ویدیویی، خلاصه‌سازی استاتیک ویدیو یک خلاصه دقیق ارایه می‌دهد اما خلاصه محدود ویدیویی به راحتی قابل‌درک است. خروجی خلاصه‌سازی ویدیویی ایستا شامل فریم های ویدیویی است و فریم های صوتی در نظر گرفته نمی‌شوند. خلاصه سازی پویای ویدیو شامل محتوای داده‌های ویدیویی، محتوای داده‌های صوتی و / یا محتوای داده‌های متنی است. ​

خلاصه کردن تصاویر ویدیویی ایستا، قاب‌های کلیدی با حذف یکنواخت قاب یا انتخاب تصادفی قاب، استخراج می‌شوند. در خلاصه کردن تصاویر ویدیویی ایستا، قاب‌های کلیدی با حذف یکنواخت قاب یا انتخاب تصادفی قاب، استخراج می‌شوند. استخراج چارچوب کلیدی از فرایندهای اساسی است. اندازه چارچوب کلید می‌تواند ثابت یا نامعلوم باشد. اندازه چارچوب کلید ثابت، پیشینی و اندازه نامعلوم، پسینی نامیده می‌شود. پیشینی یک عدد یا نسبت خاص را بر طول ویدئوی ورودی اختصاص می‌دهد. پسینی اندازه چارچوب کلیدی را به صورت داخلی تعیین می‌کند. برخی از روش‌ها قبل از استخراج چارچوب کلیدی برای پیدا کردن قاب‌های کاندید استفاده کردند. در نهایت، فریم های تکراری حذف و مطابق با ویدئوی اصلی مرتب می‌شوند. ​

ویدئو اسکیمینگ یک ویدئوی خلاصه کوتاه است که صحنه جالبی را از ویدئوی ورودی کاربر در قالب چکیده داستان ویدیویی ارایه می‌شود، تشکیل می‌دهد. تکنیک‌های خلاصه کردن ویدیو شامل تجزیه ارزش واحد، مدل حرکت، و تحلیل معنایی است. طرح خلاصه سازی ویدیویی پویا برای فیلم‌ها از پیشرفت داستان‌ها گرفته شده‌است. این روش شامل دو مرحله است. هیستوگرام های دو بعدی برای تشخیص عکس‌های ویدئوی ورودی استفاده می‌شوند، همبستگی فضایی - زمانی برای عکس‌ها اعمال می‌شود تا سناریوی معنایی در میان عکس‌های شناسایی‌شده استخراج شود. در نهایت، برخی از دستورالعمل‌ها و روش‌های ضروری ایجاد تصویر متحرک برای به دست آوردن یک دسته در جریان داستان مورد استفاده قرار می‌گیرند. ​

طبقه‌بندی دیگر بر روی تکنیک‌های خلاصه سازی ویدئو براساس ویژگی‌ها، خوشه‌بندی، تحلیل مسیر، انتخاب عکس و مبتنی بر رویداد است. ​ ویدئو ورودی را نمی توان به طور مستقیم پردازش کرد بنابراین ویدئو به فریم / عکس تبدیل می‌شود. ​از ویژگی‌هایی مانند رنگ، حرکت، ژست، رویکرد صوتی - تصویری و مبتنی بر رویداد برای استخراج فریم های کلیدی استفاده می‌شود. بدست آوردن خلاصه ویدیوها تنها از روی حرکت دشوار است. در هنکام حرکت دوربین، خود حرکت دوربین با در نظر گرفتن تمام فریم های دیگر مقدار حرکت ویدئو از فریم‌ها فیلتر می‌شود. این حرکت پایه زمانی خوب است که ویدئو حاوی حرکت در سطح متوسط باشد و در زمانی که ویدئو هیچ حرکت یا حرکت عظیمی ندارد، شکست بخورد. ​ تکنیک یا الگوریتم ساده برای پیدا کردن حرکت، تفاوت فریم است. ​ تفاوت فریم بزرگ‌تر از آستانه به عنوان حرکت در نظر گرفته می‌شود. مقدار آستانه کم‌تر منجر به بسیاری از تشخیص حرکت می‌شود و مقدار آستانه بالاتر منجر به عدم تشخیص حرکت می‌شود. روش دیگر، جریان نوری است که عمدتا در ویدئوها به کار می‌رود. حرکت از روی سری تصاویر محاسبه می‌شود. ​

خلاصه کردن مبتنی بر رنگ‏ به طور گسترده استفاده می‌شود. محبوب‌ترین نمایش‌های رنگی، RGB و HSV هستند. رنگ‌ها به صورت قرمز، آبی و سبز در RGB نمایش داده می‌شوند. طول‌موج رنگ، اشباع؛ نور سفید رنگ و ارزش آن و شدت رنگ در HSV تعریف می‌شود. در این روش هیستوگرام رنگ محاسبه می‌شود، که توزیع رنگ فریم / عکس را نشان می‌دهد. تشخیص شات یک کار دشوار است. تشخیص ناگهانی عکس می‌تواند به راحتی محاسبه شود چون تنها در یک فریم اعمال می‌شود. تشخیص تدریجی عکس در بسیاری از فریم ها اعمال می‌شود و بسیاری از الگوریتم‌ها در تشخیص تغییر تدریجی شکست می‌خورند. روش تشخیص عکس ساده، هیستوگرام قاب‌های متوالی را مقایسه می‌کند. با در نظر گرفتن این که فریم ها در یک عکس یک‌سان مقادیر مشابهی دارند. مقدار هیستوگرام بالای آستانه به عنوان عکس در نظر گرفته می‌شود. مشکل روش، انتخاب مقدار آستانه برای ویدئو است. در خلاصه‌سازی ویدیویی استاتیک، فریم اول، وسط یا آخر به عنوان چارچوب کلیدی یک عکس انتخاب می‌شود. در تصویر ویدیویی، مجموعه‌ای از فریم ها به عنوان چارچوب کلیدی عکس گرفته می‌شوند. پس از انتخاب چارچوب، الگوریتم های خوشه‌بندی برای یافتن چارچوب کلیدی از چارچوب‌های کلیدی انتخاب‌شده استفاده می‌شوند. الگوریتم خوشه‌بندی k-means از فاصله اقلیدسی برای یافتن خوشه‌ها استفاده می‌کند. چارچوب نزدیک مرکز خوشه به عنوان چارچوب کلیدی در نظر گرفته می‌شود. شمارش چارچوب کلیدی معادل با شمارش خوشه‌ها است. در نهایت، با توجه به جریان ویدئوی ورودی، فریم های کلیدی / مجموعه فریم های کلیدی سازمان‌دهی شده‌اند. ​

سخنرانی‌های ویدئویی آنلاین در مورد اصول حرکات دست، سر و پا و غیره خلاصه شده‌اند. رویکرد مبتنی بر [۳]‏ برای خلاصه کردن ویدئوهایی که حاوی صدا و نیز ویدیو هستند، استفاده می‌شود. خلاصه کردن ویدیویی بر پایه صدا بیشتر مورد استفاده قرار می‌گیرد سپس متن فقط به این دلیل که صوت بر خلاف تصویر تنها به فضای کمتری نیاز دارد و هزینه محاسبات نیز کم‌تر است. معماری و فیلم‌های ورزشی شامل داده‌های صوتی است که به ما می‌گوید چه چیزی را می‌توانیم بر روی صفحه ببینیم. این ویدیو باید شامل هماهنگی بین صدا و تصویر باشد. بنابراین این خلاصه باید شامل بخش ویدیویی مربوط به برخی بخش‌های صوتی باشد. صوت با فرکانس ویژه نمونه‌برداری شده و به فریم تبدیل می‌شود. فریم‌های کلیدی از فریم‌ها انتخاب می‌شوند. خلاصه سازی مبتنی بر رویداد [‏ ۴ ]‏ خلاصه‌ای از یک رویداد خاص در ویدئوی ورودی است. در فیلم‌های ورزشی صحنه گل، تشویق مردم و غیره رویدادها هستند. تشخیص رویداد یک فرآیند دو مرحله‌ای است؛ در مرحله اول انرژی و قدر مطلق اختلاف پیکسل بین فریم مرجع و فریم فعلی محاسبه شده‌است. در مرحله آخر، فریم‌هایی که برخی از رویدادها را نشان می‌دهند شناسایی می‌شوند. سپس مطابق با چارچوب فعلی، چارچوب مرجع تازه می‌شود. مطالعه روش‌ها و تکنیک‌های مختلف خلاصه‌سازی ویدئو انجام در این مقاله انجام شده است. ​


این متن ترجمه‌ای نیمه‌خودکار (همراه با پس‌ویرایش محدود انسانی) از چکیده و مقدمه مقاله A Survey on Video Summarization Techniques چاپ‌شده در ۱۳۲ امین شماره مجله International Journal of Computer Applications است.
برای مطالعه کامل این مقاله به همراه ترجمه‌ به این لینک مراجعه فرمایید.​