مصطفی دست غیبی شيرازي
مصطفی دست غیبی شيرازي
خواندن ۵۲ دقیقه·۴ سال پیش

MPEG-7

ترجمه  فصل 4 کتاب videoMiningBook
ترجمه فصل 4 کتاب videoMiningBook



ترجمه فصل 4 کتاب videoMiningBook


جمع بندی ویدئو با استفاده از فعالیت حرکتی MPEG-7 و توصیف کنندگان صوتی

رویکرد دامنه فشرده به مرور ویدیو

آزمایشگاه های تحقیقاتی میتسوبیشی الکتریک ، کمبریج ، MA 02139

چکیده

ما با استفاده از روش های خلاصه سازی و نمایه سازی فیلم MPEG-7 فعالیت حرکت را توصیف می کنیم این توصیفگر که قابل استخراج است در دامنه فشرده شده و جمع و جور میباشد ، و بنابراین آسان است تراکت و کبریت. ما ثابت می کنیم که شدت فعالیت حرکتی از فیلمبرداری نشان مستقیم از خلاصه بودن آن است. همچنین ما توصیف می کنیم تکنیک های خلاصه فیلم بر اساس نمونه گیری در تجمعی فضای فعالیت حرکتی است. سپس ما ترکیبی از حرکت ac- را توصیف می کنیم تکنیک های مبتنی بر tivity با تشخیص صدای کلی امکان پذیر است ونسل کاملاً اتوماتیک خلاصه فیلم و اخبارمیباشد.

خلاصه ما با استفاده از روش محاسباتی ساده و انعطاف پذیر ، اجازه می دهیم تولید سریع و خلاصه ای از هر طول دلخواه داشته باشیم.

واژه های کلیدی

: MPEG-7 ، فعالیت حرکتی ، خلاصه فیلم ، تجزیه و تحلیل دیداری و شنیداری ، نکات مهم ورزشی ، مرور ویدیوی خبری ، توصیف کنندگان ، دامنه فشرده ، جمع بندی ، وفاداری خلاصه ، فضای فعالیت حرکتی ، فعالیت

اسکریپت ، استخراج قاب کلید ، نمونه برداری غیر یکنواخت ، فعالیت طبیعی- پخش ized ، تشخیص صدا ، خوشه بندی صدا ، تغییر بلندگو tection ، مدل مخفی مارکوف (HMM) ، مدل مخلوط گوسی (GMM) ،

شناسایی بازیگران می باشد.


94

مقدمه

کارهای گذشته در مورد خلاصه سازی ویدئو عمدتا از توصیف رنگ استفاده کرده است- tors ، با برخی از کارها در زمینه انتزاع فیلم بر اساس ویژگی های حرکت. که در در این فصل ما با استفاده از روش جدیدی برای جمع بندی فیلم ارائه می دهیم توصیف کننده فعالیت حرکتی MPEG-7 ]ژانین و دیواکاران ، 2001[.از آنجا که انگیزه ما سادگی محاسباتی و ترکیب آسان است به سخت افزار سیستم مصرف کننده ، ما در استخراج ویژگی در تمرکز می کنیم دامنه فشرده شده ما ابتدا به مسئله جمع بندی a می پردازیم توالی ویدئو با انتزاع هر یک از عکسهای تشکیل دهنده آن میباشد.

تأیید می کنیم فرضیه ما که شدت فعالیت حرکت بیانگر تفاوت مهارت خلاصه برداری ازفیلمبرداری میباشد.

ما این کار را با مطالعه تنوع یک قاب کلیدی واحد با تغییر در اهداف فعالیت حرکتی متناسب با استاندارد ویدئویی MPEG-7 تعریف شده است. ما این فرضیه انگیزه روش استخراج کلید-قاب ما را ایجاد می کند متکی است به نمونه برداری از فیلم ضبط شده در شدت تجمعی فضای فعالیت tion. همچنین باعث ایجاد انگیزه در نرخ فریم پخش تطبیقی ​​ما می شود رویکرد خلاصه نویسی سپس یک جمع بندی دو مرحله ای تهیه می کنیم تکنیک با پیدا کردن مرزهای مرتبط. دنباله ویدئو با استفاده از تشخیص صدای کلی MPEG-7 و سپس استفاده از کلید- جمع بندی مبتنی بر استخراج قاب به هر یک از بخش های معنایی ادامه میابد .روش فوق برای محتوای ویدیویی مانند ویدیوی خبری به خوبی کار می کند که در آن هر فیلمبرداری به نوعی باید در فینال نمایش داده شود خلاصه. با این حال ، در فیلم ورزشی ، همه عکسها به یک اندازه مهم نیستند از آنجا که وقایع کلیدی فقط به صورت دوره ای رخ می دهد. این انگیزه ما را برای پیشرفت ایجاد

می کند مجموعه ای از تکنیک های برجسته ورزشی که به ویژگی ها متکی هستند - الگوهای زمانی ترکیبی از ترکیبات فعالیت حرکتی و سایر موارد ویژگی های دیداری و شنیداری.

1 زمینه و انگیزه

1.1توصیف کننده فعالیت حرکت

شرح فعالیت حرکتی MPEG-7 Jeannin and Divakaran]، 2001[تلاش می کند درک انسان از "شدت عمل" یا

"سرعت" یک بخش ویدیویی. به عنوان مثال ، یک لحظه گلزنی در یک بازی فوتبال توسط اکثر مردم به عنوان یک دنباله "عمل بالا" درک می شود بینندگان انسانی از طرف دیگر ، توالی "سر و شانه ها" از یک فرد سخنران مطمئناً دنباله ای "کم عمل" محسوب می شود توسط اکثر مشخص شده است که MPEG-7 توصیف کننده فعالیت حرکتی است با دقت تمام دامنه شدت عمل را در فیلم طبیعی ضبط کنید. برای طبقه بندی ویدئو از انحراف معیار کوانتیزه حرکات حرکتی استفاده می کند بخشها به پنج کلاس متغیر از شدت بسیار کم تا شدت بسیار زیاد است.

94

1.2 استخراج قاب اصلی از عکس ها

یک رویکرد اولیه برای استخراج قاب-کلید انتخاب اولین روش مناسب قاب یک شات به عنوان قاب اصلی میباشد. این یک رویکرد منطقی است و موثر برای عکسهای کم حرکت خوب است. با این حال ، با بالاتر رفتن حرکت ، اولین قاب به عنوان یک قاب کلیدی به طور فزاینده ای قابل قبول نیست. بسیاری دیگر رویکردهای بعدی برای بررسی به [Hanjalic and Zhang]، 1999 مراجعه کنید با استفاده از فریم های اضافی که به معنی قاب اول ، که نمی توان از قاب اول نیز جدا شد. یکی دیگر این گروه شامل رویكردهایی است كه به خوشه بندی و سایر تجزیه و تحلیل فشرده از نظر قضایی هیچ یک از این دو دسته از حرکت استفاده نمی کنند ویژگی ها و از نظر محاسباتی فشرده هستند. دلیل استفاده از رنگ این است که اندازه گیری قابل اعتماد تغییر از قاب به قاب را امکان پذیر می کند. چگونه- همیشه ، فیلم جبران شده از حرکت نیز به اندازه گیری تغییر متکی است از چارچوب به چارچوب ، که به ما انگیزه می دهد طرح هایی را بررسی کنیم از بردارهای حرکتی برای درک تغییر از کادر به کادر دیگر در فیلم استفاده کنید توالی. علاوه بر این ، بردارهای حرکتی به راحتی در بازار موجود هستند دامنه فشرده شده از این رو راهی جذاب محاسباتی ارائه می دهد. ما رویکرد مشابه روش گرگ است (نگاه کنید به Hanjalic and Zhang، 1999) در این که ما از یک معیار حرکت ساده نیز استفاده می کنیم و در این صورت ما این کار را نمی کنیم برای تصمیم گیری در مورد فریم های کلیدی از آستانه های ثابت استفاده کنید. با این حال ، بر خلاف گرگ ، به جای دنبال کردن تغییر اندازه گیری از قاب به قاب ، ما پیشنهاد می کنیم که حرکت ساده شلیک

Ric ، توصیف کننده شدت حرکت MPEG-7 ، معیار اندازه گیری است خلاصه شدن توالی ویدئو

1.3 وفاداری مجموعه ای از فریم های کلیدی

معیار وفاداری [چانگ و همکاران ، 1999 به عنوان نیمه فاصله Hausdorff بین مجموعه قابهای کلید S و مجموعه قابها Rدر توالی های ویدئویی. یک تعریف کاربردی از نیمه هوسدورف فاصله d sh به شرح زیر است: بگذارید مجموعه قاب کلید از m قاب تشکیل شود

S i ، i = 1 ..m ، و اجازه دهید مجموعه ای از فریم های R شامل n فریم R i باشد ، i = 1 ..n. اجازه دهید که فاصله بین دو فریم S i و R i باشد د S i ، R i . d i را تعریف کنید

برای هر فریم Ri به عنوان d i = دقیقه ( d ( S j ، R i )) ، j = 1 ، m سپس فاصله Semi-Hausdorff بین S و R توسط داده می شود d sh ( S ، R ) = حداکثر ( d i ) ، i = 1 ، n اکثر اقدامات عدم تشابه موجود خصوصیات مورد نیاز را برآورده می کند فاصله بیش از یک فضای متریک مورد استفاده در تعریف فوق.می باشد

96

فصل ، ما از معیار تقاطع هیستوگرام رنگی استفاده می کنیم که توسط Swain and Ballard (مراجعه کنید Chang et al. ، 1999)

2 فعالیت حرکتی به عنوان اندازه گیری جمع بندی

ما فرض می کنیم که از آنجا که در واقع معیار اندازه گیری عمل کم یا زیاد آن است اینکه یک صحنه ویدئویی چقدر تغییر می کند ، این اندازه گیری "خلاصه- قابلیت اطمینان ”از صحنه ویدئو. به عنوان مثال ، یک تعقیب و گریز با سرعت بالا اتومبیل انجام خواهد شد مطمئناً "تغییرات" بیشتری در مقایسه با گفتن مجری خبر در آن ایجاد شده است شات ، و بنابراین تعقیب و گریز با سرعت بالا به منابع بیشتری نیاز دارد خلاصه ای تصویری از مجری اخبار. متأسفانه ، آنجا اقدامات ساده عینی برای آزمایش چنین فرضیه ای وجود ندارد.

با این حال، از آنجا که تغییر در یک صحنه اغلب شامل تغییر در ویژگی های رنگ است همچنین ، ابتدا سعی می کنیم رابطه بین رنگ پایه را بررسی کنیم وفاداری همانطور که در بخش 4.2.2 تعریف شده است ، و شدت فعالیت حرکتی. اجازه دهید مجموعه قاب کلید برای شات A be S A و آن برای شات B S B است . اگر S A و

S B هر دو دارای تعداد یکسانی فریم های کلیدی هستند ، سپس فرضیه ما این است که اگر شدت فعالیت حرکتی شلیک A بیشتر از باشد شدت فعالیت حرکتی شلیک B ، وفاداری S A کمتر از است راحت و کاربر پسند S B .می باشد.

2.1ایجاد فرضیه

ما ویژگی های رنگی و حرکتی برنامه های ویدیویی خبری را از استخراج می کنیم مجموعه آزمون MPEG-7 ، که در قالب MPEG-1 است. ما ابتدا تقسیم بندی می کنیم برنامه ها را به عکس تبدیل کنید. برای هر شلیک ، حرکت را استخراج می کنیم ویژگی های فعالیت از تمام فریم های P با محاسبه انحراف معیار استاندارد اندازه برداری از بردارهای حرکتی بلوک های کلان هر قاب P ، و یک هیستوگرام 64 bin RGB از تمام فریم های I ، هر دو در دامنه فشرده شده توجه داشته باشید که بلوک های درون کدگذاری شده در نظر گرفته می شوند اندازه بردار حرکت صفر. سپس فعالیت حرکتی را محاسبه می کنیم توصیف کننده هر I-Frame با میانگین بخشیدن به قابهای قبلی در گروه تصاویر (GOP). بنابراین I-Frames همه دارای هیستوگرام هستند و یک مقدار فعالیت حرکتی مرتبط با آنها. فعال حرکت با میانگین گیری از فعالیت حرکتی ، کل شات بدست می آید مقادیر محاسبه شده در بالا. از این پس ، ما مجموعه ای از فریم های I را درمان می کنیم شات به عنوان مجموعه ای از فریم های R است که قبلاً تعریف شد. ساده ترین استراتژی برای تولید یک فریم کلیدی برای یک شات استفاده از فریم اول است ، به عنوان مثال قبلا ذکر شده. بنابراین ما از اولین فریم I به عنوان فریم کلید استفاده می کنیم و وفاداری آن را همانطور که در بخش 4.2.2 شرح داده شده محاسبه کنید. ما از نظر تجربی می یابیم که یک قاب کلیدی با فاصله Semi-Hausdorff حداکثر 0.2 از رضایت کیفیت کارخانه ، با تجزیه و تحلیل نمونه هایی از توالی "سر صحبت".

?
97

شکل 4.1 تأیید فرضیه و انتخاب فعال کردن حرکت تک فریم کلیدی ity (انحراف معیار بزرگی بردار حرکت) در مقابل درصد مدت زمان عکسهای غیرقابل قبول (اخبار پرتغالی از مجموعه آزمایش MPEG-7 jornaldanoite1.mpg)

بنابراین می تواند عکس ها را به دو دسته ، با فریم های کلیدی طبقه بندی کند با d sh کمتر یا برابر با 0.2 به عنوان مثال وفاداری قابل قبول و کسانی که دارای فریم های کلیدی با d sh بیشتر از 0.2 ، یعنی وفاداری غیرقابل قبول. استفاده كردن MPEG-7 توصیف فعالیت حرکت ، ما همچنین می توانیم عکسها را طبقه بندی کنیم به پنج دسته مختلف از فعالیت بسیار کم تا بسیار زیاد.را دارا می باشد سپس ما درصد طول عکسها را با d sh بیشتر از 0.2 در هر یک پیدا کنید این دسته ها برای برنامه خبری(اخبار اسپانیا) و طرح نتایج در شکل 4.1. می توانیم ببینیم که فعالیت حرکتی بالا می رود از خیلی کم به خیلی زیاد ، درصد غیر قابل قبول خلاصه می شود عکس ها نیز به طور مداوم افزایش می یابد. به عبارت دیگر ، جمع بندی از

98

با افزایش فعالیت حرکتی ، عکس ها کاهش می یابد. علاوه بر این ،

?
وفاداری فریم تک کلید برای 90 درصد عکس ها قابل قبول است. ما هم همین را پیدا می کنیم الگوی دیگر برنامه های خبر ی میباشد. بنابراین شواهد تجربی پیدا می کنیم که با محتوای برنامه خبری ، فرضیه ما معتبر است. از آنجا که اخبار برنامه ها از نظر محتوا متنوع هستند ، انتظار داریم این نتیجه اعمال شود به طیف گسترده ای از مطالب. از آنجا که ما از آستانه MPEG-7 استفاده می کنیم برای فعالیت حرکتی ، نتیجه ما وابسته به محتوا نیست.

شکل 4.2 فعالیت حرکت (انحراف معیار اندازه برداری بردار حرکت) در مقابل. مدت زمان درصد عکسهای غیرقابل قبول (اخبار اسپانیا از مجموعه آزمایش MPEG-7) خط ثابت نشان دهنده استراتژی "کلید" قاب اصلی است در حالی که خط نقطه ای نشان دهنده استراتژی استخراج پیش فرض کلید-کلید را ارسال می کند. هر شکل یک خاص را نشان می دهد تعداد فریم های کلیدی ، + نشان دهنده یک قاب واحد است ، دایره دو فریم ، مربع سه قاب و مثلث پنج قاب.

?
99

شکل 4.3 تصویربرداری از استراتژی استخراج یک قاب کلیدی. توجه داشته باشید که یک تعمیم ساده برای n فریم کلیدی

?
جدول 4.1 مقایسه با قاب کلید وفاداری مطلوب

2.2فعالیت متحرک مبتنی بر غیر یکنواخت رویکرد نمونه برداری درKey-Frameاستخراج

اگر طبق بخش 4.2.1 شدت فعالیت حرکتی در واقع یک معیار است که از تغییر قاب به قاب دیگر ، و گذشت زمان و تجمعی

100

شدت فعالیت حرکتی باید نشانه خوبی از تجمع باشد و همچنین تغییر اساسی در محتوا. به یاد بیاورید که در بررسی کارهای قبلی ما اظهار داشتیم که مجبور شدن اولین فریم را به عنوان قاب اصلی انتخاب کنیم ناسازگار اگر قاب اول بهترین انتخاب برای بهترین نیست اولین قاب کلید ، طرحهایی که از آن به عنوان اولین قاب کلید استفاده می شود مانند موارد دیگر بررسی شده در [هانجالیچ و ژانگ ، 1999] در یک اشتباه شروع می شود. این بدان معنی است که قاب که در آن فعالیت حرکت تجمعی نصف حداکثر است مقدار بهترین انتخاب برای اولین قاب کلید است. ما این فرضیه را با آزمایش می کنیم با استفاده از قاب که در آن فعالیت حرکت تجمعی نصف مقدار آن است برای کل شات به عنوان فریم یک کلید به جای اولین فریم کلید برای دنباله اخبار اسپانیا و تکرار آزمایش در بخش شرور در می یابیم که انتخاب جدید قاب کلید عملکرد بهتری دارد اولین قاب ، همانطور که در شکل 4.1 نشان داده شده است. از آنجا که طرح های قبلی نیز وجود داشته است با استفاده از اولین قاب به عنوان یک قاب کلیدی ، ما باید مقایسه کنیم استراتژی استخراج فریم کلیدی ما با آنها. برای هر شلیک ، ما محاسبه بهینه قاب تک کلید مطابق با معیار وفاداری در مردان-مندرج در بخش 4.2.2. ما با یافتن وفاداری هر یک از آنها محاسبه می کنیم فریم های ویدیو ، و سپس پیدا کردن فریم با بهترین وفاداری. ما از وفاداری قاب بهینه فوق الذکر به عنوان نیمکت استفاده می کنیم - با اندازه گیری تفاوت برای استراتژی استخراج کلید-کلید ما علامت گذاری کنید

در d s h بین قاب بهینه کلید به دست آمده از طریق جامع محاسبه ای که قبلاً ذکر شد و فریم کلیدی که از طریق ما بدست آمده است استراتژی مبتنی بر حرکت-فعالیت ارائه شده است. ما یک کار مشابه را انجام می دهیم همچنین برای استراتژی مبتنی بر فریم اول. ما خودمان را به تصویر می کشیم نتایج در جدول 4.1. توجه داشته باشید که استراتژی ما فریم های کلیدی تولید می کند که در وفاداری تقریباً بهینه هستند. علاوه بر این ، کیفیت تقریبی با افزایش شدت فعالیت حرکتی تخریب می شود. در دیگر کلمات ، متوجه می شویم که استراتژی ما نزدیکترین کلید بهینه را- استخراج فریم از نظر وفاداری در حالی که از محاسبات بسیار کمتری استفاده می شود.

این به ما انگیزه می دهد تا یک استراتژی تقریباً بهینه جدید ارائه دهیم ، یعنی

بسیار شبیه به نمونه برداری مبتنی بر فعالیت است که در بخش بعدی ارائه شده استپکر و همکاران ، 2001به شرح زیر است. برای دریافت n فریم کلیدی ، ویدیو را تقسیم کنید در مقیاس فعالیت حرکت تجمعی به n قسمت مساوی بروید. سپس از قاب در وسط مقیاس فعالیت حرکت تجمعی استفاده کنید هر یک از بخشها به عنوان یک قاب کلیدی بدست می آیند ، بنابراین n قاب اصلی بدست می آید. توجه داشته باشید که n استراتژی استخراج قاب-کلید ما بصورت خطی مقیاس می شود و n برخلاف محاسبه جامعی که قبلاً توضیح داده شد ، و در پیچیدگی به دلیل رشد تعداد کاندیداهای اصلی ترکیبات به همین دلیل است که ما n قاب خود را مقایسه نمی کنیم.

101

استراتژی با معیار جامع. ما استراتژی خود را در نشان می دهیم

شکل 4.3 توجه داشته باشید که معیار وفاداری قابل قبول ما با n ترکیب شده است استراتژی فریم یک راه حل ساده و م toثر برای این دو اساسی را فراهم می کند مشکلات استخراج صفحه کلید:

یک عکس به تعداد فریم های کلیدی مورد نیاز برای قابل قبول وفاداری؟

چگونه تعداد مورد نیاز فریم های کلیدی را تولید کنیم؟

2.3یک اصلاح پیشرفته ساده

استخراج پیشرفته قاب کلید برای مرور تعاملی مهم است از آنجا که کاربر ممکن است بخواهد شرح مختصری را که دارد بیشتر شرح دهد قبلاً گفته شده از آنجا که استخراج فریم کلیدی ما تدریجی نیست ، بنابراین اصلاح تدریجی روش ما را پیشنهاد دهید. ما در ابتدا قاب ، و سپس آخرین قاب را به عنوان قاب اصلی بعدی انتخاب کنید زیر ادر بیشترین فاصله از فریم اول قرار دارد. ما این منطق را داریم به جلو که ما با انتخاب کلید میانی فریم های بعدی را محاسبه می کنیم- قاب در فضای فعالیت تجمعی به عنوان سومین قاب اصلی ، و به صورت بازگشتی نسخه اصلاح شده کمی نسبت به نسخه اصلی ما پایین است تکنیک اما این مزیت را دارد که مترقی است.

در شکل 4.2 ، ما یک نتیجه معمولی را نشان می دهد. ما رویکرد خود را با چندین خبر امتحان کرده ایم برنامه ها از منابع مختلفDivakaran] و همکاران ، 2002؛ دیواکاران و همکاران ،[2001

3 لاغری با سرعت ثابت با استفاده از حرکت فعالیت

3.1مقدمه

در بخش قبلی نشان دادیم که شدت فعالیت حرکتی است یا) سرعت) یک سکانس ویدیویی به خوبی نشان می دهد "خلاصه سازی- خسته کننده است. "

در اینجا ما با تنظیم نرخ فریم پخش ، یا بانرخ زیر نمونه گیری زمانی این مفهوم را ایجاد می کنیم .

سرعت خلاصه به همین ترتیب است پارامتری که امکان تولید خلاصه ویدیویی از هر مورد دلخواه را فراهم می کند طول در هر صورت قسمتهای کمتر فعال توالی در a پخش می شوند نرخ فریم سریعتر یا قسمتهای کمتر فعال توالی زیر نمونه هستند به مراتب بیشتر از قسمتهای فعال تر ، بنابراین به عنوان خلاصه ای تولید می شود با سرعت ثابت ایده اصلی این است که از موارد جالب کمتر عبور کنیددر قسمتهایی از فیلم.

102

3.2 زیر نمونه برداری یا فعالیت دائمی فعالیت پخش عادی

یک روش بی رحمانه برای خلاصه کردن ویدیو پخش سریعتر آن است

دقت کنید که این را می توان به عنوان زیرشاخه یکنواخت نیز مشاهده کرد نمونه گیری چنین پخش سریع تأثیر نامطلوبی به علت سرعت زیاد دارد تمام قسمتها را به یک اندازه سرعت بدهید ، بنابراینمشاهده قسمتهایی که حرکت بالا دارد سخت می شود، در حالی که سرعت حرکت قسمتهای کم را به اندازه کافی افزایش نمی دهید. این نشان می دهد که یک روش مفید تر برای پخش سریع بازی است فیلم را با سرعتی که یک سطح قابل مشاهده و ثابت را فراهم می کند ، برگردانید فعالیت حرکتی بنابراین ، بخشهای کم فعالیت باید باشند برای رسیدن به سطح مورد نیاز فعالیت حرکتی ، در حالی که بخشهای با فعالیت زیاد به سرعت قابل توجهی کمتر نیاز دارند .

به عبارت دیگر ، سرعت قطعات کند را بیشتر می کنیم نسبت به قطعات سریع. این را می توان به عنوان بازی تطبیقی ​​مشاهده کرد.

تغییر سرعت برگشت بر اساس فعالیت حرکتی یا فعالیت عادی شده پخش تفسیر دیگر می تواند از نظر دید باشد یا "پهنای باند ادراکی."

کارآمدترین راه برای پخش فیلم این است از پهنای باند ادراکی فوری استفاده کنید ، همان چیزی است که پخش مداوم فعالیت به دست می آورد. ما حدس می زنیم که حرکت فعالیت اندازه گیری پهنای باند ادراکی به عنوان یک پسوند منطقی است از مفهوم فعالیت حرکتی به عنوان معیاری از جمع بندی می باشد. بدست آوردن در هنگام پخش فیلم ، یک سطح فعالیت مشخص وجود دارد ، ما باید آن را اصلاح کنیم .

سطح فعالیت ما ابتدا فرض کنید که شدت فعالیت حرکت متناسب باشدبا اندازه بردار حرکت. بنابراین ، ما باید حرکت را اصلاح کنیم - برای تغییر سطح فعالیت. ما می توانیم دو راه داشته باشیم برای رسیدن به این:

افزایش / کاهش نرخ پخش فریم - طبق گوش ما - فرض لیور ، شدت فعالیت حرکتی به صورت خطی افزایش می یابد با نرخ فریم. بنابراین می توانیم به یک حرکت مطلوب برسیم فعالیت برای یک بخش ویدیویی به شرح زیر است:

نرخ فریم پخش = (نرخ اصلی فریم) * (سطح دلخواه ماه)

فعالیت عملیاتی / سطح اصلی فعالیت حرکتی) زیر نمونه برداری از توالی ویدئو) تفسیر دیگری از این قبیل پخش به این صورت است که نمونه برداری فرعی از قابهای سازگار است بخشهایی که قسمتهای کم فعالیت در آنها زیر نمونه برداری می شود بیشتر است- این تفسیر مخصوصاً در صورت نیاز به جمع بندی لازم است

103

ویدئو از راه دور واقع شده است ، زیرا ما اغلب توانایی پهنای باند را نداریم لازم است که در واقع ویدیو با سرعت بیشتری پخش شود. در هر دو حالت بالا ، سپس خلاصه طول توسط طول خلاصه = (مجموع فعالیتهای قاب) / فعالیت مورد نظر توجه داشته باشید که ما هنوز میزان فعالیت حرکت را مشخص نکرده ایم.واضح ترین انتخاب ها میانگین اندازه بردار حرکت و واریانس اندازه بردار حرکت [ژانین و دیواکاران ،

2001؛ Peker and Divakaran، 2001[ با این حال ، بسته به برنامه. تغییرات زیادی وجود دارد به عنوان مثال ، ما می توانیم از اندازه بردار حرکت متوسط ​​به عنوان اندازه گیری فعالیت حرکت ، به همین ترتیب برای انتخاب بخشهایی با مناطق متحرک با اندازه و فعالیت قابل توجهاستفاده کنیم.

به عنوان مثال دیگر ، ما می توانیم از اندازه کوتاهترین حرکت استفاده کنیم بردار به عنوان اندازه گیری فعالیت حرکت ، بنابراین به عنوان بخش های با استفاده از حرکت جهانی قابل توجه اندازه بردار حرکت متوسط ​​خطی مناسبی را فراهم می کند

اندازه گیری فعالیت حرکتی. کاهش زمان پخش اختصاص یافته توسط a فاکتور دو ، به عنوان مثال ، متوسط ​​بردار حرکت را دو برابر می کند متوسط بردار حرکت قدر R از این ویدئو ورودی از فریم N می تواند به صورت زیر بیان شود:

?

که در آن میانگین اندازه بردار حرکت i من r i است . برای یک تار- از سطح فعالیت حرکت R هدف در خروجی ویدیو، رابطه بین طول L خروجی فیلم خروجی و طول L ورودی از فیلم ورودی را می توان به صورت زیر بیان کرد:

?

در حالی که بازی در یک فعالیت ثابت مورد نظر از نظر تئوری امکان پذیر است ، در عمل به درون یابی فریم ها یا کاهش سرعت نیاز دارد

نرخ بیشترین فریم پخش شده درهر زمان مساوی فعالیت نسبت به سطح مورد نظر

چنین رویکردی خود را به تولید یک پیوستار از طول خلاصه نمی دهد که از کوتاهترین خلاصه ممکن تا دنباله اصلی گسترش می یابدخودش بحث قبلی به ما انگیزه می دهد تا طبقه نمونه برداری را تغییر دهیم- برای دستیابی به حداقل سطح فعالیت تضمین شده در مقابل یک سطح ثابت از فعالیت ، بنابراین ما می توانیم یک پیوستار از mariesاز سکانس خلاصه خود آن گرفته تا یک تک

104

خلاصه قاب با حداقل فعالیت تضمینی ، ما سرعت بخشیدن به قسمتهای فیلم ورودی که از هدفگذاری شده کمتر است حداقل فعالیت درسایت حرکت R هدف به طوری که آنها حرکت هدف قرار رسیدن فعالیت با استفاده از فرمولهای فوق. قسمتهای فیلم ورودی که بیش از فعالیت حرکت هدفمند باشد ، می تواند بدون تغییر باقی بماند. در یک حد ، جایی که حداقل فعالیت تضمین شده برابر است حداقل فعالیت حرکتی در فیلم ورودی ، کل فیلم ورودی فیلم خروجی می شود. هنگامی که حداقل فعالیت تضمین شده است مشکل از حداکثر فعالیت حرکتی فیلم ورودی بیشتر است به حالت فعالیت ثابت فوق کاهش می یابد. در آن سوی دیگر ، کجا سطح هدفمندی فعالیت بسیار بالا است ، فیلم خروجی شامل فقط یک فریم از فیلم ورودی در نتیجه نمونه برداری پایین یا سریع است بازی. طول فیلم خروجی با استفاده از حداقل فعالیت تضمینی رویکرد را می توان به شرح زیر تعیین کرد. ابتدا همه فریم ها را طبقه بندی کنید از فیلم ورودی به دو مجموعه. مجموعه اول S بالاتر شامل تمام فریم ها است

j که فعالیت حرکتی برابر یا بیشتر از هدف باشد حداقل فعالیت مجموعه دوم S پایین شامل تمام فریم های k است فعالیت حرکتی کمتر از فعالیت حرکتی هدفمند است. سپس

طول فیلم ورودی توسط:

ورودی L = L بالاتر + L پایین تر .

میانگین فعالیت حرکتی فریم های j که به مجموعه S پایین تعلق دارند است

?

و طول خروجی تبدیل شده است

?

اکنون مشخص شده است که رویکرد حداقل فعالیت تضمینی به رویکرد فعالیت ثابت کاهش می یابد زیرا وقتی L بالاتر می شود صفر ، کل فیلم ورودی باید پردازش شود.

3.3 با چه سرعتی می توانید ویدیو را پخش کنید؟

در حالی که از لحاظ تئوری امکان پخش فیلم با سرعت بی نهایت وجود دارد ، نرخ نیکیست موقتی سرعت بازی بدون آن را محدود می کند - مشاهده ناپذیر انسانی یک روش ساده برای تجسم این برای تصور یک سکانس ویدیویی است که انقلاب a استروبوسکوپ در نقطه ای که نرخ فریم برابر است با نرخ

105

انقلاب ، به نظر می رسد استروبوسکوپ ثابت است. بنابراین ، حداکثر سطح فعالیت حرکت مادر در بخش ویدیو سرعت آن را تعیین می کند قابل تغییر است .

علاوه بر این ، با افزایش نمونه برداری فرعی ، ویدئوبخش به مجموعه ای از فریم های ثابت یا "نمایش اسلاید" کاهش می یابد. قاب اصلی ما از این رو روش استخراج بخش 4.2 نیز می تواند به عنوان یک اثر روش اصلی برای تولید نمایش اسلاید از آنجا که از حداقل تعداد ممکن استفاده می کند

?
از قاب ها بدیهی است که یک نقطه تلاقی وجود دارد که در آن بیشتر است کارآمد برای خلاصه کردن بخش ویدیو با استفاده از نمایش اسلاید به جای با یک فیلم یا خلاصه "متحرک میباشد.نحوه تعیین محل تلاقی یک مشکل باز است ما امیدواریم که در حال انجام این مشکل باشیم .

شکل 4.4 تصویری از رویه نمونه برداری تطبیقی ​​خلاصه فیلم. ردیف بالا نمونه برداری فرعی از فیلم نظارت را نشان می دهد ، در حالی که پایین سطر نمونه برداری فرعی از فیلم نظارت را نشان می دهد. توجه داشته باشید که سازگار رویکرد tive وقایع جالب را ثبت می کند در حالی که نمونه برداری فرعی یکنواخت عمدتا بزرگراه را خالی می کند. معیار فعالیت حرکتی متوسط ​​است اندازه بردار حرکت در این حالت.

3.4روش تجربی ، نتایج و بحث

ما سعی کرده ایم سرعت انعطاف پذیری در پخش را با استفاده از چادر و نتایج رضایت بخشی را بدست آورد. ما با تصاویر نظارتی متوجه می شویم از یک بزرگراه (به شکل 4.4 نگاه کنید) ، با استفاده از بردار حرکت متوسط tude به عنوان معیار فعالیت حرکتی ، ما قادر به تولید خلاصه هایی هستیم که با موفقیت از قسمتهایی که ترافیک ناچیزی است عبور کنید ، و بر روی قطعات دارای ترافیک قابل توجه تمرکز کنید. ما نتایج خوبی با واریانس اندازه بردار حرکت نیز هست.

ما توانسته ای تمرکز بر روی قطعات با وسایل نقلیه بزرگ ، و همچنین در قطعات با ماشین سنگین

106

?
خیالی توجه داشته باشید که رویکرد ما از نظر محاسباتی ساده است زیرا به آن متکی است توصیف کننده های ساده فعالیت حرکتی.

شکل 4.5 فعالیت حرکت در مقابل شماره قاب برای چهار نوع مختلف فیلم چادر ، با روی هم قرار گرفتن نسخه های صاف و کوانتیزه شده: الف) گلف. ب) اخبار بخش. ج) فوتبال. د) بسکتبال.

همانطور که توسط نتایج ما نشان داده شده است ، سرعت لاغری ثابت به ویژه است در نظارت و برنامه های مشابه که عکسها طولانی است مفید است و پس زمینه ثابت است.

توجه داشته باشید که در چنین برنامه هایی ، مبتنی بر رنگ از معناشناسی می باشد. تکنیک ها در نقطه ضعف هستندو وقایع بسیار شدیدتر از ویژگیهای حرکت هستند نشان داده می شوند.

107

ما همچنین این روش را با فیلم ورزشی و با اخبار چادر با موفقیت متفاوت میباشد.

هنگام مشاهده فیلم مصرف کننده مانند اخبار یا ورزش ، پرش سریع از بعضی قسمتها و مشاهده بعضی دیگر در حالت عادی سرعت ممکن است به تغییر مداوم سرعت پخش ترجیح داده شود.

برای این منظور ، منحنی فعالیت را با استفاده از یک میانگین متحرک صاف می کنیم و مقادیر صاف شده را مشاهده کنید (شکل 4.5).

در پیاده سازی های ما ، ما از مقداردهی دو سطح با میانگین فعالیت به عنوان آستانه استفاده کردیم برای اخبار و بسکتبال (شکل 4.5 b و d) ، ما دستی استفاده کردیم آستانه های انتخاب شده برای ویدیوی گلف ، قسمتهای کم فعالیت همان مکانهایی است که بازیکن آماده می کند برای ضربه او ، و پس از آن قسمت فعالیت بالا که در آن دوربین دنبال می شود توپ را بسته یا روی بازیکن بسته می شود. برای بخش اخبار ، ما قادر هستیم قسمت های مصاحبه از فیلم بیرونرا مشاهده کنیم .

برای فوتبال ویدیو ، قبل از شروع بازی ، بخشهای کم فعالیتی را می بینیم و همچنین در طول بازی که در آن بازی قطع شده است. بسکتبال بازی ، در مقابل با فوتبال ، دارای فرکانس زیاد کم و زیاد است بخشهای فعالیت علاوه بر این ، قطعات کم فعالیت هنگام توپ هستند در یک طرف دادگاه است و بازی در حال انجام است ، و بالا است فعالیت بیشتر در هنگام کلوزآپ یا تغییرات سریع دادگاه رخ می دهد.

از این رو ، در حالی که بعضی از قطعات کم فعالیت باید با سرعت نرمال بازی شوند از قسمتهای با فعالیت بالا می توان چشم پوشی کرد.

به طور خلاصه ، می توانیم به یک معنایی دست پیدا کنیم تقسیم بندی انواع مختلف محتوا با استفاده از فعالیت حرکتی و استفاده دانش دامنه برای تعیین جایی که باید در حالت عادی جست و خیز یا پخش کرد سرعت. سپس ، بر این اساس می توانیم استراتژی اساسی خود را که در آن شرح داده شده ، سازگار کنیم بخش 4.3 ، برای انواع مختلف محتوا.

بحث قبلی در مورد فیلم ورزشی نشان می دهد که کلید خلاصه فیلم ورزشی در واقع در شناسایی وقایع جالب است. این به ما انگیزه می دهد تا الگوهای زمانی فعالیت حرکتی را بررسی کنیم مرتبط با رویدادهای جالب در بخش 4.5.

برای ویدیوی خبری ، شاید بهتر باشد از اسلاید شو بر اساس ما استفاده شود تکنیک استخراج قاب-کلید از آنجا که معناشناسی محتوا نیست به طور مستقیم با ویژگی های حرکت محتوا همراه است. با این حال، وقتی مرز معنایی محتوا مشخص شود ، بهترین عملکرد را دارد. در این حالت ، یک بخش معنایی را می توان به عکس و کلید تقسیم کرد - فریم های استخراج شده برای هر عکس به منظور تولید مجموعه ای از فریم های کلیدی برای کل بخش معنایی این به ما انگیزه می دهد تا به طور خودکار تحقیق کنیم تشخیص مرز معنایی ، یا موضوعی ویدیوی خبری وصوتی میباشد.

در بخش 4.4.

108

4 مرور ویدیویی اخبار با کمک صوتی

4.1 انگیزه

تکنیک های خلاصه فیلم مبتنی بر فریم کلیدی بخش 4.2 بدیهی است که به خلاصه کردن تصاویر ویدئویی محدود شده است. ویدیو در ژن فیلم eral و به ویژه اخبار ، از چندین معنای متمایز تشکیل شده است

واحدهایی که هر کدام به نوبه خود متشکل از عکس هستند.

بسیار راحت تر است به نحوی واحد معنایی مورد علاقه را انتخاب کنیدو سپس خلاصه مبتنی بر فریم کلیدی آن را در زمان واقعی مشاهده کنید ، تشکیل دهید خلاصه ای از کل توالی ویدئو را بر اساس فریم کلیدی پاک کنید و سپس در خلاصه به دنبال واحد معنایی مورد علاقه خود بگردید. اگر لیست موضوعی استدر متا داده محتوا موجود است ، سپس مشکل پیدا کردن میباشد.

مرزهای واحدهای معنایی از قبل حل شده است ، بنابراین کاربر می تواند ابتدا لیست موضوعات را مرور کنید و سپس خلاصه ای ایجاد و مشاهده کنید از موضوع مورد نظر اگر لیست موضوعی در دسترس نباشد ، مانند لیست در بیشتر مواقع ، مرزهای معنایی دیگر به آسانی دردسترس نیستند .

سپس باید مرزهای معنایی / موضوعی را به صورت خودکار استخراج کنیم از نظر مادی کارهای گذشته در مورد سیستم های مرور ویدیوی خبری تأکید کرده است تشخیص مجری اخبار و تشخیص موضوع ، زیرا ویدیوی خبری معمولاً است از نظر موضوع مرتب شده و مجری خبر هر موضوع را در سایت معرفی می کند.

بنابراین دانستن مرزهای موضوع کاربر را قادر می سازد تا کم و زیاد کند از طریق ویدیوی خبری از موضوع به موضوع دیگر تا زمانی که مورد نظر را پیدا کند موضوع ، که سپس می تواند با استفاده از یک پخش کننده ویدیوی معمولی تماشا کند. تشخیص موضوع بیشتر با استفاده از زیرنویس بسته در شکل گیری ، زیرنویس های جاسازی شده و متن به دست آمده از طریق گفتار به تنهایی یا در ترکیب با یکدیگر به عنوان مثال در این فیلم با استفاده از برخی یا تمام منابع فوق الذکر و سپس پردازش با استفاده از روشهای ابتکاری مختلف برای استخراج موضوع ها استفاده می شود وتشخیص مجری اخبار با استفاده از رنگ ، حرکت ، متن ویژگی های صوتی و صوتی به عنوان مثال ، در [وانگ و همکاران ، 2000[ وانگ و جدا کردن بلندگو را در آهنگ صوتی انجام دهید و سپس از آن استفاده کنید آهنگ بصری یا تصویری برای یافتن چهره متداول ترین بلندگوها یا "بازیگران اصلی". تفکیک بلندگو با اولین بندها انجام می شود-

تقسیم بندی بخش های صوتی در دسته های گفتاری و غیر گفتاری. سپس بخشهای گفتاری برای آموزش مدلهای مخلوط گاوسی استفاده می شوند(GMM) برای هر بلندگو که جدا کردن بلندگو را از طریق اتصالات امکان پذیر می کند از هر بخش گفتار با GMM متفاوت است. تفکیک بلندگو خود موضوع تحقیق فعال بوده است. تکنیک ها بیشتر به استخراج ویژگی های صوتی سطح پایین دنبال می شوند توسط یک روش خوشه بندی / طبقه بندی.

109

جدایی بلندگو و شناسایی اصلی بازیگران یک راه حل ارائه می دهند مسئله تشخیص مرز موضوع. متاسفانه ،

روشهای پیشنهادی در ادبیات از نظر محاسبات بسیار پیچیده است و از این رو به خوبی به سیستم های مرور ویدیوی مصرف کننده وام نمی دهند-

در سیستم مرور ویدیو ، علاوه بر اصل ما همچنین می خواهیم شخصیت معنایی بیشتری را شناسایی کنیم اطلاعات دقیق براساس آهنگ صوتی مانند جنسیت بلندگو و همچنین جستجو برای صحنه های مشابه را بر اساس صدا انجام دهید.

4.2تشخیص صدای تعمیم یافته MPEG-7

بحث فوق به ما انگیزه می دهد تا قاب تشخیص صدا را امتحان کنیم- کار پیشنهادی کیسی [کیسی ، 2001] و مورد قبولMPEG-7 استاندارد در این چارچوب ، طیفهای دارای رتبه و خصوصیات انتروپیک ors برای آموزش مدلهای مخفی مارکوف برای صداهای مختلف از جمله گفتار ، گفتار مردانه ، گفتار زنانه ، پارس سگ ، شکستن شیشه و غیره آموزش بصورت آفلاین با داده های آموزش انجام می شود تا رده شناسایی شود تقسیم بندی با استفاده از الگوریتم Viterbi در HMM های مختلف انجام می شود ، که از نظر محاسباتی ارزان است. برای هر بخش صدا ، علاوه بر به شناسایی دسته صدا ، هیستوگرام درصد دو جیره مصرف شده در هر حالت HMM نیز تولید می شود. این هیستوگرام به عنوان یک بردار ویژگی جمع و جور عمل می کند که مطابقت شباهت را امکان پذیر می کند.

4.3 شناسایی اصلی بازیگران اصلی

تکنیک

روش ما Divakaran] و همکاران ، 2003[ در شکل 4.6 نشان داده شده است. آی تی شامل مراحل زیر است:

1- فعالیتهای حرکتی ، ویژگی های رنگی و صوتی را از اخبار استخراج کنید ویدئو

2- از چارچوب شناسایی صدا و خوشه بندی همانطور که در تصویر نشان داده شده است استفاده کنید

شکل 4.6 برای یافتن تغییرات بلندگو.

3- برای ادغام خوشه های بلندگو و شناسایی از حرکت و رنگ استفاده کنید سخنرانان اصلی مکان سخنرانان اصلی فراهم می کند.

4- مرور مبتنی بر حرکت را که در بخشهای 4.2 و 4.3 شرح داده شده است اعمال کنید به هر موضوع در بخش زیر ، ما توصیف می کنیم برجسته کل سیستم.

?
110

شکل 4.6 استخراج ، طبقه بندی و تقسیم بندی ویژگی های صوتی برای بلندگو تشخیص تغییر

4.3.1 تشخیص تغییر بلندگو با استفاده از تشخیص صدا و خوشه بندی

صدای ورودی از اخبار پخش شده خراب است به کلیپ های فرعی با مدت زمان کمتر ، به طوری که همگن هستند. انرژی هر زیر گیره برای محاسبه و حذف بی صدا محاسبه می شود زیر کلیپ ها ویژگی های MPEG-7 از زیر کلیپ های بی صدا استخراج می شود و در یکی از سه کلاس صدا یعنی مرد ، زن طبقه بندی می شوند

و گفتار با موسیقی در این مرحله ، همه بلندگوهای زن و مرد از هم جدا می شوند. متوسط ​​فیلم- tering برای از بین بردن تغییرات جعلی در بلندگوها انجام می شود. به ترتیب برای شناسایی بلندگوهای فردی در کلاس صدای زن و مرد ، یک مرحله خوشه بندی بدون نظارت بر اساس حالت MPEG-7 انجام می شود مدت توصیف هیستوگرام. این مرحله خوشه بندی برای شناسایی بلندگوهای زن و مرد را بعد از طبقه بندی همه زیر

در یکی از سه کلاس صدا قرار می گیرد. سپس هر زیر کلیپ طبقه بندی شده است همراه با توصیف کننده هیستوگرام مدت زمان حالت.

هیستوگرام مدت زمان حالت نیز می تواند به عنوان اصلاح شده تفسیر شود نمایندگی GMM. هر دولت در HMM آموزش دیده می تواند فکر شود به عنوان یک خوشه در فضای ویژگی ، که می تواند توسط یک گاوسی مدل شود.

111

توجه داشته باشید که هیستوگرام مدت زمان حالت نشان دهنده احتمال oc- است انحنای یک حالت خاص این احتمال را می توان به عنوان تفسیر کرد احتمال وجود یک م mixtureلفه مخلوط در GMM. بنابراین ، دولت دوام- توصیفگر هیستوگرام می تواند به عنوان نمایشی کاهش یافته در نظر گرفته شود

از GMM ، که در فرم غیر ساده آن شناخته شده است به عنوان یک سخنران مدل بیان خوب توجه داشته باشید ، از آنجا که هیستوگرام از HMM گرفته شده است ، بنابراین همچنین برخی از پویایی های زمانی را به دست می آورد که GMM نمی تواند. ما هستیم بنابراین انگیزه استفاده از این توصیفگر برای شناسایی خوشه های متعلق به بلندگوهای مختلف در هر کلاس صدا.

?

شکل 4.7 به عنوان مثال ساخت Dendrogram و تولید خوشه برای یک مجموعه ای مبهم از بخشهای گفتاری زنانه

رویکرد خوشه بندی اتخاذ شده انباشتگی از پایین به بالا می باشدو ساخت قطره در این روش بر اساس ، ماتریس فاصله اولین است با محاسبه فاصله جفتی بین تمام گفته ها به دست می آید خوشه ای. معیار فاصله استفاده شده درKullback-Leibler است فاصله برای مقایسه دو تابع چگالی احتمال (pdf). مدل فاصله Kullback-Leibler بین دو pdf H و K به صورت زیر تعریف شده است در زیر:

112

?

و 1 ≤ i ≤ تعداد سطل در هیستوگرام

سپس یک ادندروگرام با ادغام دو نزدیکترین خوشه ساخته می شود

با توجه به ماتریس فاصله تا زمانی که فقط یک خوشه وجود داشته باشد. سپس، dendrogram برای بدست آوردن خوشه های بلندگوهای جداگانه بریده می شود (نگاه کنید به4.7)

4.3.2 سطح دوم خوشه بندی با استفاده از حرکت و رنگ گفتگوها

از آنجا که خوشه بندی فقط در نر / ماده مجاور انجام می شود بخشهای گفتاری ، ما تقسیم بندی بلندگو را فقط در آن بخش به دست می آوریم از کل سابقه صوتی برنامه خبری. سطح دوم خوشه- برای ایجاد مکاتبات بین خوشه ها از دو قسمت مشخص نشانه های حرکتی و رنگی از این ویدئو استخراج شده است می تواند برای سطح دوم خوشه بندی استفاده شود

. هنگامی که خوشه ها داشته باشند شناسایی بازیگران اصلی و از این رو معنایی آسان فاصله ها سپس ، ترکیبی از شناسایی اصلی بازیگران و خلاصه مبتنی بر حرکت هر بخش معنایی سریع و مرور موثر محتوای ویدیوی خبری را قادر می سازد.

4.4 روش آزمایش و نتایج

4.4.1 مجموعه داده

از آنجا که اخبار پخش شده شامل سه خبر است کلاس های صدا یعنی گفتار مردانه ، گفتار زنانه و گفتار با موسیقی ، ما برای هر یک از کلاسهای صدا مثالهای آموزشی را از سه و a جمع آوری کرد نیم ساعت فیلم خبری از چهار کانال تلویزیونی مختلف به صورت دستی است.

سیگنال های صوتی همه تک کاناله هستند ، 16 بیت در هر نمونه با نمونه گیری سرعت 16 کیلوهرتز بانک اطلاعاتی برای آموزش HMM ها به صورت تقسیم شده است90٪ -10٪ آموزش / تست برای اعتبار سنجی متقابل تنظیم شده است. توالی آزمون برای تشخیص تغییر بلندگو ، دو قطعه صوتی از تلویزیون پخش شد.

خبر: News1 با مدت زمان 34 دقیقه و News2 با مدت زمان 59 دقیقه دقایق.

4.4.2 استخراج ویژگی.

سیگنال ورودی صوتی از برنامه خبری به بخشهایی از طول سه ثانیه و بخشهای خاموش تقسیم می شود منتها حذف می شوند برای هر بخش دوم بدون سکوت ، MPEG-7 ویژگی ها به شرح زیر استخراج می شوند. هر بخش به همپوشانی تقسیم می شود- فریم های پینگ با مدت زمان 30 میلی ثانیه با 10 میلی ثانیه با هم تداخل دارند قابها سپس هر فریم در یک تابع پنجره Hamming ضرب می شود:

W من = (0 . 5 - 0 . 46 COS (2 πi / N )) ، من = 1 ... N ، که در آن N تعداد نمونه برداری است در پنجره پس از اجرای FFT بر روی هر قاب پنجره ای ،

113

انرژی در هر یک از زیر باند ها محاسبه می شود و بردار حاصل می شود بر روی 10 جز first اصلی هر کلاس صدا پیش بینی شده است. ما همچنین از دامنه فشرده ، شدت MPEG-7 استخراج می کنیم فعالیت حرکتی برای هر فریم P و یک هیستوگرام 64 بن رنگ برای هر یک من از جریان ویدئویی برنامه خبری فریم می گیرم.

?

جدول 4.2a نتایج طبقه بندی در News1 با میانگین نرخ شناخت= 80.384٪

جدول 4.2b نتایج طبقه بندی در News2 با میانگین نرخ شناخت

4.4.3 طبقه بندی و خوشه بندی.

تعداد ایالتها در هر یک از HMM ها 10 انتخاب شده است و هر حالت توسط مدل سازی می شود یک گاوسی چند متغیره. توجه داشته باشید که هیستوگرام مدت زمان حالت توصیفگر تنها در صورتی به GMM مربوط می شود که ایالات HMM توسط آن نشان داده شود یک گاوسی واحد رمزگشایی Viterbi برای طبقه بندی ورودی انجام می شود حداکثر که با فیلتر متوسط ​​بر روی برچسب های بدست آمده دنبال می شود برای هر سه بخش دوم به منظور تحمیل تداوم زمان. برای هرمجموعه ای پیوسته از برچسب ها ، خوشه بندی تجمعی با استفاده ازمدت زمان توصیف هیستوگرام برای بدست آوردن دندروگرام همانطور که نشان داده شده است .

در شکل 4.7. سپس دندروگرام در یک سطح نسبی خاص بریده می شود تا حداکثر ارتفاع dendrogram برای به دست آوردن بلندگو منفرد خوشه ها دقت رویکرد پیشنهادی برای تشخیص تغییر بلندگو به دو جنبه زیر بستگی دارد: دقت طبقه بندی HMMs آموزش دیده برای تقسیم صدای ورودی به زن و مرد کلاسهای گفتار ، و دقت رویکرد خوشه بندی برای شناسایی سخنرانان منفرد در یک مجموعه مجاور از گفته های مرد / زن.

جداول 4.2a و 4.2b عملکرد طبقه بندی HMM روشن را نشان می دهد هر یک از آزمون ها توالی اخبار را بدون هیچ پردازشی پس از پخش پخش می کنند روی برچسب ها جداول 4.2a و 4.2b نشان می دهد که بسیاری از گفتارهای مردانه و زنانه گفتارها به عنوان گفتار با موسیقی طبقه بندی می شوند. این بخشها در واقع

?
114

جدول 4.2c دقت بلندگو تشخیص تغییر در دو اخبار آزمون توالی Num- از بلندگو تغییر تمبر زمان در حقیقت زمین. B تعداد تغییر بلندگو تمبرهای زمانی به دست آمده پس از مرحله خوشه بندی ؛ C تعداد بلندگو "TRUE" تغییر می کند تمبرهای زمانی؛ D دقت = [C] / [A] E Recall = [C] / [B]

به بخشهای گفتار در فضای باز در اخبار پخش شده پاسخ دهید و داشته باشید به دلیل سر و صدای پس زمینه طبقه بندی اشتباه شده است. از آنجا که خوشه بندی فقط بر روی گفتار همسایگان زن و مرد انجام شد بخشها به جای کل ضبط صدا ، عملکرد سیستم tem حتی به عنوان سیستم تشخیص تغییر بلندگو ارزیابی می شود.

دستیابی به تقسیم بندی در بخشهای کوچکتر. ما تغییر بلندگو را مقایسه می کنیم موقعیت های خروجی توسط سیستم در برابر تغییرات بلندگوی زمین ، و تعداد موقعیت های صحیح تغییر بلندگو را بشمارید. جدول 4.2c عملکرد روش خوشه بندی را در هر دو آزمون خلاصه می کند سکانس ها دقت الگوریتم پیشنهادی برای تشخیص تغییر بلندگو به دلایل زیر فقط برای هر دو برنامه خبری متوسط ​​است.

روش هرس dendrogram اتخاذ شده برای تولید خوشه بود ساده ترین و به همین دلیل نتایج حاصل از این می تواند بهبود یابد اگر روش هرس گرم اتخاذ شد. برخی از تغییر بلندگوها سیستم بخاطر طبقه بندی غلط گفتار در فضای باز توسط سیستم از دست رفته است بخشهای گفتار با کلاس موسیقی. علاوه بر این ، هیچ پست پردازش بر روی برچسب های خوشه بندی برای ترکیب برخی از دانش دامنه حاشیه، غیرمتمرکز می باشد.

به عنوان مثال ، یک دنباله برچسب خوشه ای مانند s1 ، s2 ، s1 ، s2؟ که در که بلندگوها به طور مکرر متناوب هستند ، در یک برنامه خبری بسیار بعید است و به معنای ساده این است که s1 و s2 متعلق به یک مجموعه بلندگو هستند - تر با این حال ، حتی با چنین دقت متوسطی در تحلیل صوتی نیز وجود دارد در زیر نشان داده شده است که با ترکیب نشانه های حرکت و رنگ از فیلم ، بازیگران اصلی برنامه خبری را می توان دریافت کرد.

به منظور مکاتبه بین خوشه های بلندگو از بخشهای متمایز برنامه خبری ، ما هر خوشه سخنران را مرتبط می کنیم با هیستوگرام رنگی ، از یک قاب با فعالیت حرکتی کمتر به دست می آید از آستانه بدست آوردن فریم از توالی کم حرکت در باعث می شود اعتماد به نفس یکی باشد از یک توالی سر و شانه. مرحله دوم خوشه بندی بر اساس هیستوگرام رنگ به انجام می شود

?
شکل 4.8 سطح دوم خوشه بندی بر اساس هیستوگرام های رنگی قاب ها خوشه بلندگوهای مردانه

115

خوشه های به دست آمده از تجزیه و تحلیل صوتی خالص را ادغام کنید. شکل 4.8 نشان می دهد نتایج خوشه بندی سطح دوم. بعد از این مرحله ، خوشه های اصلی ریخته می شوند می توان خوشه هایی را نام برد که دوره های قابل توجهی را اشغال می کنند زمان یا خوشه هایی که در زمان های مختلف ، در طول اخبار ظاهر می شوند برنامه با توجه به مشکلات مربوط به حق چاپ ، متأسفانه نمی توانیم مواردی را نمایش دهیم از تصاویر مربوط به خوشه ها. در کارهای آینده امیدواریم برای استفاده از داده های دامنه عمومی مانند فیلم خبری از فیلم MPEG-7 مجموعه آزمایش.

4.5 کار آینده

کارهای آینده ما در ابتدا بهبود طبقه بندی صوتی است با استفاده از آموزش گسترده تر دوم ، خوشه بندی را بیشتر بهبود خواهیم بخشید .

با اجازه دادن به برش چند سطحdendrogram. سوم ، ما این کار را خواهیم کرد ترکیب فعالیت حرکت و رنگ را بیشتر افزایش دهید تا افزایش یابد قابلیت اطمینان از شناسایی اصلی بازیگران.

116

5 تشخیص نکات برجسته ورزشی

اکثر تکنیک های استخراج هایلایت ورزشی به حرکت دوربین بستگی دارد ، و بنابراین برای موفقیت آنها نیاز به تخمین دقیق حرکت دارد.

در دامنه فشرده ، از آنجا که بردارهای حرکت پر سر و صدا هستند ، دستیابی به چنین دقتی دشوار است. بحث ما در بخش 4.3.4 3.4 انگیزه ما را برای بررسی الگوهای زمانی فعالیت حرکت به عنوان یک به معنای تشخیص رویداد است زیرا محاسبه آنها ساده است. ما شروع می کنیم با طراحی استراتژی هایی برای ورزش های خاص بر اساس دانش دامنه.

استفاده از فعالیت حرکتی به تنهایی باعث ایجاد بسیاری از موارد مثبت کاذب می شود برای ورزش های خاص سپس به ترکیب صوتی و تصویری ساده متوسل می شویم نشانه هایی برای از بین بردن موارد مثبت کاذب. نتایج ما با ترکیب نیز هست همانطور که نتایج بخش 4.4 ما را به استفاده از صدای تعمیم یافته ترغیب می کند چارچوب تشخیص به یک چارچوب استخراج برجسته واحد برای فوتبال ، گلف و بیس بال.

بنابراین چالش فعلی ما ترکیب است ویژگی های بصری با چارچوب تشخیص صدا. ما امیدواریم که بسازیم بر اساس تجربه ما با ترکیب نشانه های سطح پایین توجه داشته باشید که این مشکل دارای دو قسمت است.

تشخیص یک جالب است رویداد و سپس گرفتن کل مدت زمان آن. در این فصل ما تمرکز می کنیم در قسمت اول از آنجا که در برنامه های هدف ما ، ما قادر به حل قسمت دوم فقط با استفاده از یک رابط تعاملی است که اجازه می دهد تا سریع جلو و عقب

5.1 موارد برجسته استخراج برای گلف

در Peker] و همکاران. ، 2002[ ما یک تکنیک ساده برای تشخیص گلف را توصیف می کنیم برجسته ها ما ابتدا توالی ویدئو هموار سازی فعالیت حرکتی را انجام می دهیم.

در فیلم گلف ، ما به دنبال کشش های طولانی بسیار هستیم فعالیت کم و به دنبال آن فعالیت زیاد. اینها معمولاً با بازیکن که روی شوت خود کار می کند ، سپس ضربه می زند ، دوربین به دنبال او دنبال می شود توپ یا بزرگنمایی روی بازیکن. ما نکات جالب توجه را در فیلم گلف به این روشداریم.

ما فقط یک توالی برجسته تولید می کنیم ادغام بخشهای ده ثانیه ای که از نکات جالب شروع می شوند علامت گذاری شده ما نتایج جالبی دریافت می کنیم اما برخی از رویدادها را از دست می دهیم ، به ویژه قابل توجه است این دکمه ها اغلب با حرکت سریع دوربین همراه نیستند.

5.2 استخراج نکات برجسته فوتبال

برای بازی های فوتبال ، از محدودیت های خاص دامنه استفاده می کنیم به ما کمک کنید تا موارد برجسته را پیدا کنیم. شهود اساسی ما این است که یک جالب است این رویداد همیشه دارای اثرات مرتبط زیر است. بازی متوقف می شود و برای مدت زمان غیر پیش پا افتاده ای متوقف می شود و سر و صدای جمعیت بالا می رود یا در پیش بینی واقعه یا پس از وقوع آن.

117

این استراتژی ساده زیر را برای تعیین محل تخمین رویدادها یا موارد برجسته می باشد.

مکانهای اوج میزان صدا را پیدا کنید. قله ها مربوط به افزایش سر و صدای جمعیت در پاسخ به این رویداد جالب است. در هر قله ، دریابید که آیا بازی قبل از آن متوقف شده یا متوقف مانده است برای مدت زمان غیر پیش پا افتاده به همین ترتیب بفهمید که آیا بازی بعد از آن متوقف شده است یا خیر قله و متوقف شد الحاق توقف قبل و پس از اوج صوتی ، اگر معتبر باشد ، برجسته مرتبط با آن را تشکیل می دهد اوج صوتی ما جزئیات محاسبه صدا را شرح می دهیم

قله ها و الگوهای شروع و توقف فعالیت حرکتی در [کاباسون و دیواكاران ، 2003[

5.2.1 نتایج تجربی.

ما استراتژی خود را امتحان کرده ایمCabasson and Divakaran]، 2003[ با هفت بازی فوتبال از کره ، اروپا و ایالات متحده آمریکا از جمله فوتبال زنان بازی در می یابیم که فقط یک هدف را از دست می دهیم و همه اهداف دیگر را می گیریم گل در تمام بازی ها. ما همچنین چندین قسمت جالب دیگر را ضبط می کنیم از این بازی منجر به گلزنی نمی شود مانند تلاش در اهداف ، آسیب های اساسی و غیره.

با وجود موفقیت آن در محتوای متنوع ، این تکنیک یک اشکال قابل توجه دارد که اعتماد آن به سطح پایین است ویژگی مانند میزان صدا ، که ممکن است همیشه شاخص خوبی برای آن نباشد معناشناسی محتوا بنابراین ما یک بار دیگر انگیزه می گیریم که متوسل شویم تشخیص صدای کلی.

5.3 موارد برجسته مبتنی بر تشخیص رویدادهای صوتی استخراج از بیس بال ، گلف و فوتبال بازی ها در یک چارچوب متحد

ما یک رویکرد مبتنی بر طبقه بندی صوتی را توصیف می کنیم که در آن بخشهای تشویق و تشویق را به طور صریح شناسایی کنید و از آنها برای شناسایی استفاده کنید ما همچنین از چارچوب طبقه بندی صوتی خود برای تنظیم بررسی روش تلفیقی نشانه های صوتی و تصویری برای موارد برجسته ورزشی استخراج.

5.3.1 چارچوب طبقه بندی صوتی

سیستم با فشارهای سیستم عامل هدف ما وجود کاملاً مشخص را رد می کند الگوریتم برای هر ورزش و انگیزه ما برای بررسی یک واحد مشترک چهارچوب برجسته برای سه ورزش مورد علاقه ما ، گلف ، فوتبال و بیس بال از آنجا که صدا بهتر به استخراج محتوا کمک می کند معناشناسی ، ما با طبقه بندی صوتی شروع می کنیم. ما چارچوب مبتنی بر طبقه بندی صوتی را در شکل 4.9 نشان می دهیم.

در حوزه صوتی ، رویدادهای مشترک مربوط به موارد برجسته وجود دارد در سراسر ورزش های مختلف بعد از یک ضربه جالب گلف یا بیس بال یا

118

?
شکل 4.9 نکات برجسته چارچوب استخراج: ما تا حدی فیلم را درک کرده ایم و همجوشی احتمالی.

با استناد به حمله فوتبال ، مخاطبان با کف زدن یا تشویق کردن مدت زمان تشویق و تشویق نشانه ای از"اهمیت" لحظه. می باشد

علاوه بر این ، در پخش فیلم ورزشی ، همچنین رویدادهای معمول مربوط به پیام های تجاری وجود دارد که اغلب شامل گفتار یا گفتار و موسیقی است. مشاهدات ما این است که تشویق و تشویق dience در ورزشهای مختلف بیشتر است سخنرانی هیجان انگیز گوینده است.

بنابراین ما به دنبال صوتی قوی هستیم ویژگی ها و طبقه بندی کننده ها برای طبقه بندی و تشخیص علائم صوتی زیر nals: تشویق ، تشویق ، ضربه توپ ، موسیقی ، گفتار و گفتار با موسیقی. دو مورد اول برای استخراج برجسته و سه مورد دوم استفاده می شوند برای فیلتر کردن بخشهای غیر جالب استفاده می شود.

ما یک صدای کلی به کار می بریم چارچوب تشخیص بر اساس HMM های آموزش دیده برای هر یک از کلاس ها. HMM ها بر روی ضرایب متناوب فرکانس مل(MFCC) کار می کنند. طول هر بخش 0.5 ثانیه است در حالی که هر فریم 30 میلی ثانیه است.

دقت طبقه بندی ما بالا است و بنابراین ما انگیزه داریم برای استخراج برجسته ها بر اساس نتایج طبقه بندی. ما تشویق و تشویق مداوم یا بدون وقفه را جمع می کنیم. ما تمام بخشهایی را که درصد معینی از حداکثر هستند ، حفظ می کنیم مدت زمان تشویق و تشویق. گزینه پیش فرض ما 33٪ است. توجه داشته باشید

119

?

جدول 4.3. نتایج طبقه بندی برای چهار بازی. [1]: بازی گلف 1؛ [2]: بازی گلف2 [3] بازی بیس بال ؛ [4] بازی فوتبال. [A]: تعداد تشویق و تشویق tions (NACP) در مجموعه حقیقت زمینی ؛ [B]: NACP توسط طبقه بندی با پردازش پس از.

[C]: تعداد واقعی ACP توسط طبقه بندی کننده ها. [D]: دقیق

[E]: به ​​یاد بیاورید

با پس از پردازش [F]: NACP توسط طبقه بندی کننده ها بدون پردازش پس از آن ؛ [G]: به ​​یاد بیاورید بدون پردازش پس از آن.

که این به ما یک آستانه ساده می دهد تا بتوانید نکات برجسته را با آن تنظیم کنید استخراج برای مرور تعاملی.می باشد

در آخر ، ما یک زمان تنظیم شده از پیش تنظیم شده اضافه می کنیم- یون به دو انتهای هر بخش انتخاب شده برای ارائه ارائه نهایی تمبرهای زمانی سپس ارائه شامل پخش فیلم است و از طریق یک جفت مهر زمان مربوط به یک برجسته و سپس رفتن به جفت بعدی.می باشد

توجه داشته باشید که مدت زمان تشویق / تشویق همچنین تولید موارد برجسته ورزشی با طول دلخواه به شرح زیر است: ما می توانیم همه را مرتب کنیم

بخشهای تشویق / تشویق به ترتیب نزولی مدت. سپس با توجه به بودجه زمانی ، ما می توانیم آن را با بازی هر بخش پایین تر صرف کنیم لیست کنید تا بودجه تمام شود. در حالی که تکنیک فوق نویدبخش است با توجه به اینكه در جدول مشاهده می شود ، هنوز جای پیشرفت دارد4.3 اول ، دقت طبقه بندی باید بهبود یابد. دوم ، ما- مدت زمان کف زدن به تنهایی ساده است.

قدرت اصلی آن است که از این تکنیک برای سه ورزش مختلف استفاده می کند. از آنجا که ما انجام می دهیم انتظار نمی رود فقط از افزایش دقت طبقه بندی سود بالایی کسب شود ، انگیزه دارند که نشانه های بصری را با طبقه بندی صوتی ترکیب کنند امیدواریم که در بازده استخراج برجسته سود بیشتری کسب کنیم.

5.4 کار آینده

در تحقیقات مداوم ، ما پیشنهاد می دهیم قدرت معنایی را ترکیب کنیم طبقه بندی صوتی با سادگی محاسباتی فناوری- موارد توصیف شده در بخش 4.5.

بنابراین ما انگیزه داریم که ترکیبی از طبقه بندی صوتی را بررسی کنیم کاتیون با تطبیق الگوی فعالیت حرکتی. ما خودمان را به تصویر می کشیم چارچوب کلی در شکل 4.9. توجه داشته باشید که طبقه بندی صوتی و استخراج ویژگی های ویدئویی هر دو نامزد های ورزشی بالا - چراغ ها سپس پیشنهاد می کنیم برای انتخاب صحیح از همجوشی احتمالی استفاده کنیم.

120

همچنین توجه داشته باشید که استخراج ویژگی پیشنهادی ویدیو ادامه دارد فراتر از الگوهای فعالیت حرکتی که قبلاً توضیح دادیم. تکنیک های پیشنهادی ما دارای مزیت سادگی و عملکرد منصفانه هستند دقت در کارهای مداوم ، ما در حال بررسی روشهای پیچیده تری هستیم برای تلفیق ویژگی های دیداری و شنیداری است.

6 اثر خلاصه نویسی

استفاده از گرفتن گلها در فوتبال به عنوان معیار دقت برجسته ها دارای مزیت بزرگ ابهام صفر هستند اما همچنین دارای اختلاف مزیت ناقص بودن از آنجا که سایر وقایع جالب دیگر را نادیده می گیرد که می تواند حتی جالب تر باشد.

ما در حال کار هستیم در یک چارچوب برای ارزیابی دقت یک برجسته ورزشی از نظر از رضایت کاربر ، بنابراین برای به دست آوردن یک ارزیابی کامل تر. مثل چارچوب نیاز به یک آزمایش روانشناختی با دقت تنظیم شده دارد که یک حقیقت اساسی برای "جالب" و "غیر جالب" ایجاد می کند قسمتهایی از یک فیلم ورزشی.

محتوای ساختار یافته تر مانند اخبار ، ارزیابی راحت تری را به همراه دارد موفقیت خلاصه نویسی با این حال ، توجه داشته باشید که وفاداری ما به عنوان مثال محاسبات مبتنی بر مسائل معنایی نیست.

ارزیابی موفقیت معنایی یک خلاصه هنوز یک مشکل باز است اگرچه تکنیک هایی مانند ما بخشی از راه حل را ارائه می دهند.

7 داده کاوی در مقابل فیلم کاوی: بحث

سرانجام ما با توجه به مسئله موجود ، مسئله استخراج ویدئو را در نظر می گیریم تکنیک های داده کاوی.

هدف اساسی داده کاوی این است که الگوهای پوشش در نتایجی که در اینجا ارائه کرده ایم ، تلاش کرده ایم برای کشف الگوها در محتوای دیداری و شنیداری از طریق بازیگران اصلی تشخیص ، برجسته سازی های ورزشی و محل قرارگیری قطعات "قابل توجه" از توالی های ویدئویی. توجه داشته باشید که در حالی که تکنیک های ما سعی در جلب رضایت دارند هدف از کشف الگو ، آنها به طور مستقیم از داده های مشترک استفاده نمی کنند

تکنیک های استخراج مانند استخراج در سری های زمانی یا کشف ارتباط قوانین علاوه بر این ، در کار ما ، مرز بین تشخیص a الگوی شناخته شده و کشف الگو همیشه روشن نیست.

برای مثال، به دنبال قله های صوتی و سپس الگوهای فعالیت حرکتی در اطراف آنها باشید می توان به عنوان صرفاً یافتن یک الگوی شناخته شده تصور کرد ، یا از سوی دیگر از طرف دیگر ، می توان به عنوان یک قانون ارتباطی شکل گرفته بین رویداد اوج صوتی و الگوی زمانی رویداد حرکت ، از طریق تجزیه و تحلیل آماری داده های آموزش.

روش ما برای استخراج ویدیو این است که آن را به عنوان سازگار با محتوا تصور کنیم یا پردازش کور به عنوان مثال ، استفاده از قوانین ارتباط زمانی بیش از برچسب های چند نشانه ای می توانند الگوهای تکراری را به شما کمک کنند.

121

مرزهای معنایی محتوا را پیدا کنید. به همین ترتیب ، ما می توانیم استخراج کنیم سری زمانی ناشی از مقادیر فعالیت حرکتی فریم های ویدئویی. تجربه ما تاکنون نشان می دهد که تکنیک هایی که از آنها استفاده می کنند ویژگی های مکانی-زمانی محتوای چند رسانه ای بیشتر محتمل است .

برای موفقیت نسبت به روشهایی که داده های ویژگی را به گونه ای رفتار می کنند که گویی داده های عمومی هستند داده های آماری چالش این است که به حداقل رساندن depen- تکنیک ها را با ایجاد انطباق پذیری با محتوا تا حد ممکن. ما اعتقاد داریم که اینجاست که چالش استخراج ویدیو وجود دارد.

8 نتیجه گیری

ما تکنیک های خلاصه فیلم را بر اساس نمونه گیری در سال ارائه داده ایم شدت تجمعی فضای فعالیت حرکتی. قاب اصلی کشش با فیلم خبری به خوبی کار می کند و از نظر محاسباتی بسیار ساده است.

بنابراین یک روش پایه برای جمع بندی فراهم می کند. برای خلاصه کردن واحدهای معنایی متمایز ، که ما را برای شناسایی انگیزه می دهد چنین واحدهایی با استفاده از تشخیص صدای کلیMPEG-7. ما همچنین به مسئله مرتبط اما متمایز نسل ورزشی بالابا توسعه تکنیک های مبتنی بر فعالیت حرکتی MPEG-7 ، روشن می شودتوصیف کننده این تکنیک ها از دانش دامنه برای شناسایی استفاده می کنند

الگوهای زمانی مشخص از فعالیت حرکت زیاد و کم همراه با الگوهای صوتی که معمولاً با مو

نکات در فیلم ورزشی. ما با محاسبات کم نتایج امیدوار کننده ای می گیریم پیچیدگی چند راه مهم برای پیشرفت بیشتر وجود دارد از تکنیک های ما ابتدا می توان با کمک ویدیو مرور ویدیو کرد قوی تر و بیشتر از اطلاعات معنایی توسط طبقه بندی صوتی ارائه شده استفاده می شود. دوم ، ما باید سازگار با محتوا را توسعه دهیم تکنیک هایی که متناسب با تغییرات محتوا ، از ژانر به ژانر دیگر است یا درون یک ژانر سوم ، ما باید ترکیب ویروس را بررسی کنیم معناشناسی سلولی مانند تشخیص وقفه در بازی پیشنهاد شده در [زی و همکاران. ، [ 2002بنابراین چالش اصلی حفظ و تقویت توانایی ماست برای ایجاد سریع خلاصه هایی از هر طول دلخواه.

سپاسگزاریها

نویسندگان می خواهند از Padma Akella و Pradubkiat Bouk تشکر کنند - lee رای انجام طراحی اولیه و اجرای فیلم سیستم نمایش مرور ما همچنین می خواهیم از آنتونی تشکر کنیم وترو برای بحث ها و پیشنهادات بی شمار. ما می خواهیم تشکر کنیم دکترHuifang Sun برای راهنمایی و تشویق او. ما دوست داریم تا از دکتر تامی پون برای حمایت مشتاقانه و نظراتش تشکر کنم. ما همچنین می خواهیم از Shih-Fu Chang برای بسیاری از بحث های مفید تشکر کنیم و پیشنهادات ما می خواهیم از مایکل کیسی برای ارائه

122

با مهارت و نرم افزار طبقه بندی صوتی او. ما دوست داریم از همکاران ما دکتر توکومیچی موراکامی ، آقای تاکاشی کن و آقای کوهتارو آسایی برای حمایت و تشویق مداوم آنها ازسال ها. ما می خواهیم از همکارانمان دکتر Masaharu Ogawa تشکر کنیم ، آقای Kazuhiko Nakane ، آقای Isao Otsuka و آقای Kenji Esumi ، برای آنها برنامه ارزشمند نظرات و پیشنهادات گرا.

منابع

Jeannin ، S. و A. Divakaran. توصیف کننده های حرکت بصری MPEG-7 ،معاملات IEEE در مدارها و سیستم های فناوری ویدیو ،جلد 11 ، شماره 6 ، ص 720-724 ، ژوئن 2001.

Peker KA و A. Divakaran اندازه گیری خودکار شدت فعالیت حرکت بخشهای ویدیویی ، Proc. کنفرانس SPIE در مورد فروشگاه سن و بازیابی پایگاه های رسانه ای ، ژانویه 2001.

Chang ، HS ، S. Sull و SU Lee ، طرح نمایه سازی ویدیوی کارآمد برای بازیابی مبتنی بر محتوا ، معاملات IEEE در مدارها و سیستم هاfor Technology Video، Vol. 9 ، شماره 8 ، صص 1269-1279 ، دسامبر 1999.

Hanjalic A. و H. Zhang ، یک طرح یکپارچه برای ویدیوی خودکار انتزاع براساس تجزیه و تحلیل اعتبار خوشه بدون نظارت ، IEEE معاملات در مدارها و سیستم ها برای فناوری ویدیو ، جلد. 9 ،شماره 8 ، دسامبر 1999.

Peker KA ، A. Divakaran و H. Sun ، سرعت لاغری و سرعت ثابت نمونه برداری فرعی از فیلم با استفاده از فعالیت حرکتی ، Proc. IEEE Interna- کنفرانس عملی پردازش تصویر (ICIP) ، تسالونیکی ، یونان ،اکتبر 2001Divakaran A. ، KA Peker and R. Radhakrishnan ، خلاصه فیلمبا توصیف حرکت ، مجله تصویربرداری الکترونیکی ، اکتبر 2001.Divakaran A. ، KA Peker و R. Radhakrishnan ، فعالیت مبتنی بر حرکت استخراج فریم های کلیدی از عکس های ویدئویی ، Proc. IEEE International کنفرانس پردازش تصویر(ICIP) ، روچستر ، نیویورک ، ایالات متحده آمریکا ، اکتبر-تا سال 2002 A. Hanjalic ، G. Kakes ، RL Lagendijk و J. Biemond ، Dancers: Delft سیستم پیشرفته بازیابی اخبار ، "در تصویربرداری لکترونیکی SPIE 2001:

ذخیره سازی و بازیابی برای پایگاه های رسانه ای ، سان خوزه ، ایالات متحده آمریکا. ، 2001.

RS Jasinschi ، N. Dimitrova ، T. McGee ، L. Agnihotri ، J. Zimmerman ،

و D. Li ، پردازش چندرسانه ای یکپارچه برای تقسیم بندی موضوع و

طبقه بندی ، در ICIP-2001 ، تسالونیکی ، یونان ، 2001 ، صص 366-369

Divakaran A. ، R. Radhakrishnan ، Z. Xiong و M. Casey A Procedure

برای مرور به کمک صوتی ویدیوهای خبری با استفاده از صدای تعمیم یافته

شناخت ، Proc. کنفرانس SPIE در مورد ذخیره سازی و بازیابی برای من-

پایگاه داده dia ، ژانویه 2003.

خلاصه فیلم با استفاده از MPEG-7 Motion Activity و Audio

Peker KA ، R. Cabasson و A. Divakaran نسل سریع ورزش

موارد برجسته با استفاده ازMPEG-7 Motion Activity Descriptor، Proc. جاسوسی

کنفرانس ذخیره سازی و بازیابی پایگاه های رسانه ای ، ژانویه

2002

Cabasson R. and A. Divakaran Extract Automatic of Soccer Video

با استفاده از ترکیبی از ویژگی های حرکت و صوتی ، Proc را برجسته می کند.

کنفرانس SPIE در مورد ذخیره سازی و بازیابی پایگاه های رسانه ای ، ژانویه

یاری 2003

ابزار تشخیص صدا Casey M. MPEG-7 ، معاملات IEEE در Cir-

cuits and Systems for Video Technology، جلد 11، شماره 6، ژوئن 2001.

وانگ Y. ، Z. Liu و JC. هوانگ ، تحلیل محتوای چندرسانه ای ، IEEE

مجله پردازش سیگنال ، نوامبر 2000.

Y. Rui ، A. Gupta و A. Acero ، به طور خودکار موارد برجسته را استخراج می کنند

برای برنامه های بیس بال تلویزیونی ، " هشتمین کنفرانس بین المللی ACM در

چندرسانه ای ، ص 105–115 ، 2000.

W. Hsu ، گزارش پروژه صوتی گفتار ، گزارش پروژه کلاس ، 2000 ،

www.ee.columbia.edu/ وینستون

L. Xie ، SF Chang ، A. Divakaran و H. Sun ، تحلیل ساختار جامعه

فیلم cer با مدلهای مخفی مارکوف ، Proc. کنفرانس بین المللی در

صوتی ، گفتاری و پردازش سیگنال ، (ICASSP-2002) ، مه 2002 ،

اورلاندو ، فلوریدا ، ایالات متحده آمریکا.

P. Xu ، L. Xie ، SF Chang ، A. Divakaran ، A. Vetro و H. Sun ، Algo-

ریتم ها و سیستم تقسیم بندی و تجزیه و تحلیل ساختار در فوتبال

ویدئو ، مجموعه مقالات IEEE کنفرانس چند رسانه ای و نمایشگاه ، ص.

928–931 ، 2001.

L. Rabiner وB.-H. یوانگ ، مبانی شناخت گفتار ، Pren-

سالن tice ، 1993

Z. Xiong ، R. Radhakrishnan ، A. Divakaran و TS Huang ، Audio

استخراج از بیس بال ، گلف و بازی های فوتبال در یک چارچوب متحد ، ICASSP 2003 ، 6-10 آوریل ،2003


مترجم : مصطفی دست غیبی شیرازی

استاد راهنما : استاد فخیمی


دانلود فایل ترجمه به صورت pdf

https://s19.picofile.com/file/8433881450/tarjome_mostafa_dastghbi_shirazi.pdf.html


دانلود فایل کتاب به زبان اصلی به صورت pdf

https://s19.picofile.com/file/8433883134/videoMiningBook.pdf.html


فریم ریتویدیو
تخصص در طراحی مارک و چاپ ، طراحی وب سایت و رسانه های اجتماعی ، ویرایش ویدئو و موشن گرافيك. من از شما و تجارتتان مراقبت می کنم و می خواهم رشد شما را ببینم و رویاهای خود را به یک واقعیت موفق تبدیل کنم.
شاید از این پست‌ها خوشتان بیاید