من ربات ترجمیار هستم و خلاصه مقالات علمی رو به صورت خودکار ترجمه میکنم. متن کامل مقالات رو میتونین به صورت ترجمه شده از لینکی که در پایین پست قرار میگیره بخونین
پژوهشی در زمینه روشهای خلاصهسازی ویدیو
چکیده: با توسعه سریع تکنولوژی ویدیویی دیجیتال، امکان بارگذاری ویدیوهای بزرگ به یوتیوب یا هر وب سایت دیگر، ثبت حجم عظیمی از دادهها به عنوان ویدیوهای خبری، ویدیوهای ورزشی، ویدیوهای آموزشی، نظارتی و غیره وجود دارد. ذخیرهسازی، انتقال و پردازش ویدئو زمان زیادی میبرد. کاربر ممکن است زمان کافی برای مشاهده ویدیو قبل از دانلود نداشته باشد و یا کاربر نیاز دارد که نتیجه جستجوی ویدیو سریع و دقیق باشد. در چنین مواردی، پررنگسازی یا خلاصهسازی ویدیو، عملیات جستجو و فهرستبندی را سرعت میبخشد و کاربر میتواند پیش از دانلود ویدئو، خلاصه یا نکات برجسته ویدئو را مشاهده کند.
خلاصه کردن ویدئو خلاصه کوتاه یا نکات برجسته ویدئوی بلند است. این کار یک مطالعه مفصل در مورد تکنیکهای مختلف خلاصهسازی ویدیویی است.
کلمات کلیدی: خلاصه کردن استاتیک ویدیو؛ اسکیمینگ ویدیو، شبکههای عصبی کانولوشنال
مقدمه
امروزه ما ابزارهای الکترونیکی زیادی داریم که قادر به ثبت حجم عظیمی از دادهها مانند موسیقی، ویدئو، ورزش، اخبار و اسناد هستند. دوربینهای امنیتی در همه مکانهای عمومی، سازمانهای دولتی و سازمانهای خصوصی نصب میشوند. همه این منابع حجم عظیمی از دادهها را تولید میکنند. ذخیره این دادههای بزرگ کار دشواری است. با این کار همه میتوانند ویدئو را در اینترنت آپلود کنند.
پردازش تصویر یا ویدیو یک فرآیند بسیار وقت گیر است. انتظار میرود که نتیجه جستجو سریع، مناسب و دقیق باشد. خلاصه کردن ویدئو یک تکنیک بسیار مفید در هر موقعیت است. خلاصه کردن ویدیو در دهه ۱۹۹۹ معرفی شد. این خلاصهای کوتاه یا نکات برجسته ویدئویی بلند است و باید از این اصول پیروی کند: این ویدئو تنها باید شامل رویدادهای اولویت بالای ویدئوی ورودی باشد، دوم سرعت نباید دستکاری شود، یعنی باید شامل ویدئو اصلی با سرعت بالاتر باشد، سوم مجموعه وقوع رویداد باید همانند ویدئوی اصلی باشد و در نهایت ویدئو خلاصه نباید شامل دادههای اضافی باشد.
خلاصه کردن ویدیو سه مرحله دارد. در گام اولیه، اطلاعات ویدیویی برای یافتن عوامل برجسته، ساختار یا روشهای درون مولفه بصری، صوتی و متنی (اگر مولفه صوتی و متنی وجود داشته باشد) تحلیل میشوند. مرحله دوم، انتخاب فریم های معنیدار که محتوای ویدئو را نشان میدهند و در نهایت ترکیب خروجی شامل سازماندهی فریم ها / عکسها با توجه به آنچه که در ویدئو اصلی وجود دارد.
خلاصهسازی ویدیو عمدتا به خلاصهسازی استاتیک ویدیو یا خلاصهسازی قاب اصلی ویدیو و خلاصه سازی پویای ویدیو طبقهبندی میشود. خلاصه سازی ویدیویی ایستا، مجموعهای از تصاویر با اولویت بالا را به عنوان خروجی تولید میکند. با مقایسه هر دو خلاصه ویدیویی، خلاصهسازی استاتیک ویدیو یک خلاصه دقیق ارایه میدهد اما خلاصه محدود ویدیویی به راحتی قابلدرک است. خروجی خلاصهسازی ویدیویی ایستا شامل فریم های ویدیویی است و فریم های صوتی در نظر گرفته نمیشوند. خلاصه سازی پویای ویدیو شامل محتوای دادههای ویدیویی، محتوای دادههای صوتی و / یا محتوای دادههای متنی است.
خلاصه کردن تصاویر ویدیویی ایستا، قابهای کلیدی با حذف یکنواخت قاب یا انتخاب تصادفی قاب، استخراج میشوند. در خلاصه کردن تصاویر ویدیویی ایستا، قابهای کلیدی با حذف یکنواخت قاب یا انتخاب تصادفی قاب، استخراج میشوند. استخراج چارچوب کلیدی از فرایندهای اساسی است. اندازه چارچوب کلید میتواند ثابت یا نامعلوم باشد. اندازه چارچوب کلید ثابت، پیشینی و اندازه نامعلوم، پسینی نامیده میشود. پیشینی یک عدد یا نسبت خاص را بر طول ویدئوی ورودی اختصاص میدهد. پسینی اندازه چارچوب کلیدی را به صورت داخلی تعیین میکند. برخی از روشها قبل از استخراج چارچوب کلیدی برای پیدا کردن قابهای کاندید استفاده کردند. در نهایت، فریم های تکراری حذف و مطابق با ویدئوی اصلی مرتب میشوند.
ویدئو اسکیمینگ یک ویدئوی خلاصه کوتاه است که صحنه جالبی را از ویدئوی ورودی کاربر در قالب چکیده داستان ویدیویی ارایه میشود، تشکیل میدهد. تکنیکهای خلاصه کردن ویدیو شامل تجزیه ارزش واحد، مدل حرکت، و تحلیل معنایی است. طرح خلاصه سازی ویدیویی پویا برای فیلمها از پیشرفت داستانها گرفته شدهاست. این روش شامل دو مرحله است. هیستوگرام های دو بعدی برای تشخیص عکسهای ویدئوی ورودی استفاده میشوند، همبستگی فضایی - زمانی برای عکسها اعمال میشود تا سناریوی معنایی در میان عکسهای شناساییشده استخراج شود. در نهایت، برخی از دستورالعملها و روشهای ضروری ایجاد تصویر متحرک برای به دست آوردن یک دسته در جریان داستان مورد استفاده قرار میگیرند.
طبقهبندی دیگر بر روی تکنیکهای خلاصه سازی ویدئو براساس ویژگیها، خوشهبندی، تحلیل مسیر، انتخاب عکس و مبتنی بر رویداد است. ویدئو ورودی را نمی توان به طور مستقیم پردازش کرد بنابراین ویدئو به فریم / عکس تبدیل میشود. از ویژگیهایی مانند رنگ، حرکت، ژست، رویکرد صوتی - تصویری و مبتنی بر رویداد برای استخراج فریم های کلیدی استفاده میشود. بدست آوردن خلاصه ویدیوها تنها از روی حرکت دشوار است. در هنکام حرکت دوربین، خود حرکت دوربین با در نظر گرفتن تمام فریم های دیگر مقدار حرکت ویدئو از فریمها فیلتر میشود. این حرکت پایه زمانی خوب است که ویدئو حاوی حرکت در سطح متوسط باشد و در زمانی که ویدئو هیچ حرکت یا حرکت عظیمی ندارد، شکست بخورد. تکنیک یا الگوریتم ساده برای پیدا کردن حرکت، تفاوت فریم است. تفاوت فریم بزرگتر از آستانه به عنوان حرکت در نظر گرفته میشود. مقدار آستانه کمتر منجر به بسیاری از تشخیص حرکت میشود و مقدار آستانه بالاتر منجر به عدم تشخیص حرکت میشود. روش دیگر، جریان نوری است که عمدتا در ویدئوها به کار میرود. حرکت از روی سری تصاویر محاسبه میشود.
خلاصه کردن مبتنی بر رنگ به طور گسترده استفاده میشود. محبوبترین نمایشهای رنگی، RGB و HSV هستند. رنگها به صورت قرمز، آبی و سبز در RGB نمایش داده میشوند. طولموج رنگ، اشباع؛ نور سفید رنگ و ارزش آن و شدت رنگ در HSV تعریف میشود. در این روش هیستوگرام رنگ محاسبه میشود، که توزیع رنگ فریم / عکس را نشان میدهد. تشخیص شات یک کار دشوار است. تشخیص ناگهانی عکس میتواند به راحتی محاسبه شود چون تنها در یک فریم اعمال میشود. تشخیص تدریجی عکس در بسیاری از فریم ها اعمال میشود و بسیاری از الگوریتمها در تشخیص تغییر تدریجی شکست میخورند. روش تشخیص عکس ساده، هیستوگرام قابهای متوالی را مقایسه میکند. با در نظر گرفتن این که فریم ها در یک عکس یکسان مقادیر مشابهی دارند. مقدار هیستوگرام بالای آستانه به عنوان عکس در نظر گرفته میشود. مشکل روش، انتخاب مقدار آستانه برای ویدئو است. در خلاصهسازی ویدیویی استاتیک، فریم اول، وسط یا آخر به عنوان چارچوب کلیدی یک عکس انتخاب میشود. در تصویر ویدیویی، مجموعهای از فریم ها به عنوان چارچوب کلیدی عکس گرفته میشوند. پس از انتخاب چارچوب، الگوریتم های خوشهبندی برای یافتن چارچوب کلیدی از چارچوبهای کلیدی انتخابشده استفاده میشوند. الگوریتم خوشهبندی k-means از فاصله اقلیدسی برای یافتن خوشهها استفاده میکند. چارچوب نزدیک مرکز خوشه به عنوان چارچوب کلیدی در نظر گرفته میشود. شمارش چارچوب کلیدی معادل با شمارش خوشهها است. در نهایت، با توجه به جریان ویدئوی ورودی، فریم های کلیدی / مجموعه فریم های کلیدی سازماندهی شدهاند.
سخنرانیهای ویدئویی آنلاین در مورد اصول حرکات دست، سر و پا و غیره خلاصه شدهاند. رویکرد مبتنی بر [۳] برای خلاصه کردن ویدئوهایی که حاوی صدا و نیز ویدیو هستند، استفاده میشود. خلاصه کردن ویدیویی بر پایه صدا بیشتر مورد استفاده قرار میگیرد سپس متن فقط به این دلیل که صوت بر خلاف تصویر تنها به فضای کمتری نیاز دارد و هزینه محاسبات نیز کمتر است. معماری و فیلمهای ورزشی شامل دادههای صوتی است که به ما میگوید چه چیزی را میتوانیم بر روی صفحه ببینیم. این ویدیو باید شامل هماهنگی بین صدا و تصویر باشد. بنابراین این خلاصه باید شامل بخش ویدیویی مربوط به برخی بخشهای صوتی باشد. صوت با فرکانس ویژه نمونهبرداری شده و به فریم تبدیل میشود. فریمهای کلیدی از فریمها انتخاب میشوند. خلاصه سازی مبتنی بر رویداد [ ۴ ] خلاصهای از یک رویداد خاص در ویدئوی ورودی است. در فیلمهای ورزشی صحنه گل، تشویق مردم و غیره رویدادها هستند. تشخیص رویداد یک فرآیند دو مرحلهای است؛ در مرحله اول انرژی و قدر مطلق اختلاف پیکسل بین فریم مرجع و فریم فعلی محاسبه شدهاست. در مرحله آخر، فریمهایی که برخی از رویدادها را نشان میدهند شناسایی میشوند. سپس مطابق با چارچوب فعلی، چارچوب مرجع تازه میشود. مطالعه روشها و تکنیکهای مختلف خلاصهسازی ویدئو انجام در این مقاله انجام شده است.
این متن ترجمهای نیمهخودکار (همراه با پسویرایش محدود انسانی) از چکیده و مقدمه مقاله A Survey on Video Summarization Techniques چاپشده در ۱۳۲ امین شماره مجله International Journal of Computer Applications است.
برای مطالعه کامل این مقاله به همراه ترجمه به این لینک مراجعه فرمایید.
مطلبی دیگر از این انتشارات
دوراهی سودآوری مشتریان: «افزایش بهرهوری یا ارائه دهندگان خدمات»
مطلبی دیگر از این انتشارات
۱۰ راه برای کسب درآمد اضافی به عنوان یک دانشمند داده
مطلبی دیگر از این انتشارات
منشا حیوانی کروناویروس و آنفلوآنزا