الگوریتم یادگیری عمیق برای شبیه‌سازی مبتنی بر داده سیستم دینامیکی پر سر و صدا


">

Aparat Link : https://www.aparat.com/v/J3rDV


عباسعلی بهرامی - 95221033111037


https://www.sciencedirect.com/science/article/pii/S0021999118306910

چکیده :

ما یک مدل یادگیری عمیق ، DE - LSTM را برای شبیه‌سازی فرآیند تصادفی با یک دینامیک غیرخطی ارائه می‌کنیم . هدف از مدل یادگیری عمیق ، تخمین تابع چگالی احتمال یک فرآیند تصادفی ، از طریق گسسته سازی عددی و دینامیک غیرخطی است که توسط شبکه حافظه کوتاه‌مدت طولانی‌مدت مدل‌سازی شده‌است . نشان داده می‌شود که هنگامی که گسسته سازی عددی مورد استفاده قرار می‌گیرد ، مساله برآورد تابع را می‌توان با یک مساله طبقه‌بندی چند برچسب حل کرد . روشی برای تعیین وضعیت یکنواختی در پیش‌بینی توزیع احتمال پیشنهاد شده‌است . ما نشان می‌دهیم که تکامل زمانی توزیع احتمال را می‌توان با ادغام ابعادی بالا از احتمال انتقال حالت‌های داخلی LSTM محاسبه کرد . یک الگوریتم مونت کارلو برای تقریبی کردن هم‌گرایی ابعادی بالا مشخص شده‌است . رفتار پورت - به طور کامل با استفاده از فرآیند اورنشتاین - و مشاهدات پر سر و صدا در سیستم‌های دینامیکی غیرخطی مورد بررسی قرار می‌گیرد . نشان‌داده شده‌است که DE - LSTM ، پیش‌بینی خوبی از توزیع احتمال را بدون فرض کردن هر گونه ویژگی‌های توزیعی فرآیند اتفاقی ، پیش‌بینی می‌کند .

مقدمه :

برای پیش‌بینی چند مرحله‌ای سری‌های زمانی mackey - شیشه‌ای ، عدم قطعیت پیش‌بینی ، که با ۹۵ % فاصله اعتماد نشان داده می‌شود، ابتدا رشد می‌کند، سپس به طور پویا زیر تکامل سیستم انجام می‌شود ، در حالی که در شبیه‌سازی ون درمرو ، عدم قطعیت پیش‌بینی در زمان حتی برای پیش‌بینی ۳۰۰۰مرحله‌ای رشد نمی‌کند .

بازسازی مبتنی بر داده یک سیستم دینامیکی به دلیل ارتباط مستقیم آن با کاربردهای متعدد در رشته‌های مختلف از جمله فیزیک ، مهندسی ، و بیولوژی ( ۱ ، ۲ ، ۳ ) مورد توجه زیادی قرار گرفته‌است . در بسیاری از کاربردهای دنیای واقعی ، ما تنها مشاهدات جزیی از یک فرآیند زمانی - زمانی پیچیده از طریق یک شبکه حسگر داریم . به عنوان یک نتیجه ، سری‌های زمانی از یک شبکه حسگر رفتار بسیار پیچیده‌ای را نشان می‌دهد ، مانند دینامیک زمان - تاخیر ناشی از زمان انتشار اطلاعات محدود [ ۴ ، ۵ ، ۶ ، ۷ ] . علاوه بر این ، هنگامی که اندازه‌گیری‌ها توسط یک شبکه حسگر انجام می‌شوند ، مشاهدات توسط نویز حسگر فاسد می‌شوند ، که منجر به یک فرآیند تصادفی در فرآیند تصادفی می‌شود .

مدل‌سازی چنین سیستم‌های دینامیکی پر سر و صدا ، به طور گسترده با استفاده از فرآیند تصادفی تصادفی یا مدل فضای حالت مورد مطالعه قرار گرفته‌است. به منظور دستیابی به یک استنباط ، بسیاری از مدل‌های آنالیز سری‌های زمانی معمولی ، به عنوان مثال ، مدل‌های میانگین متحرک حرکتی یا فیلتر کالمن ، فرضیات قوی در مورد ویژگی توزیعی فرآیند نویز ، مانند نویز سفید گاوسی افزایشی ، و linearize سیستم دینامیکی ایجاد می‌کنند. هنگامی که معادلات حاکم بر دینامیک‌های زیربنایی شناخته‌شده ، توسعه‌یافته و بعدا ً، unscented کالمن توسعه‌یافته برای برآورده‌ای حالت غیر خطی پیشنهاد شده‌اند. در geophysical داده‌های ژئوفیزیکی ، فیلتر کالمن توسعه‌یافته به یکی از روش‌های استاندارد تبدیل شده‌است ، به دلیل قدرت آن در ارائه یک برآورد ثابت از یک سیستم ابعادی بالا برای فیلترینگ غیرخطی با توابع انتقال شناخته‌شده است ، فیلترهای ذره یا روش‌های مونت کارلو ، یک ابزار بسیار قدرتمند برای مدل‌سازی توزیع‌های غیر گاوسی ایجاد می‌کند. در حالی که اکثر این مدل‌های فیلترینگ غیرخطی به حداقل یک دانش جزیی از سیستم دینامیکی نیاز دارند ، در بسیاری از مشکلات ، ما دانش در مورد فرایندهای فیزیکی زیربنایی نداریم ، یا این سیستم برای توسعه یک مدل از اصول اولیه بسیار پیچیده است.

بازسازی یک سیستم دینامیکی غیرخطی بدون دانش قبلی بسیار چالش برانگیز است . فرآیند مهمی در رویکرد " عاری از مدل " برای شناسایی و پیش‌بینی سیستم‌های غیرخطی وجود داشته‌است . بلوک ساختاری اصلی بسیاری از این رویکرد مدل - عاری از قضیه Takens۱۷ ، یا به اصطلاح " تعبیه شدن " نامیده می‌شود . به طور خلاصه ، embedding زمان تاخیر یک فضای فازی n بعدی را برای ۲ یک داده با تاخیر زمانی می‌سازد ، به عنوان مثال پایین ، که در آن τi یک تاخیر زمانی است ، و بر یک روش تشخیص همسایگی تکیه دارد .

X ( T ) = ( x ) ، x ( T - T - ۱ ) )

به تازگی ، یک روش نقشه‌برداری cross همگرا برای استنباط علیت از داده‌های غیرخطی پیشنهاد شده‌است. در یک فیلتر " Kalman - Takens" پیشنهاد شده‌است ، که در آن جاسازی نمودن تاخیر - مختصات به عنوان اپراتور زمان خطی غیرخطی برای بردار وضعیت استفاده می‌شود .

به جای مدل‌سازی تابع گذار غیر خطی ، لی و سایرین پیشنهاد کردند که از یک رویکرد فضای هیلبرت برای تخمین غیر خطی ساختار کوواریانس در فیلتر کالمن استفاده کند .

اخیرا ً یک شبکه عصبی مصنوعی مجهز به لایه‌های زیادی از واحدهای پنهان توجه زیادی را به دلیل توانایی قوی خود در کشف ساختارهای پیچیده در داده‌ها ، جلب کرده‌است. برای یک بررسی تاریخی به مراجعه کنید .

به اصطلاح , یادگیری عمیق یک مدل جعبه سیاه را برای تخمین تابع غیرخطی ارایه می‌دهد و نشان‌داده شده‌است که بهتر از روش‌های آماری سنتی برای مشکلات مربوط به داده کاوی , به عنوان مثال , تشخیص گفتار , طبقه‌بندی / شناسایی تصویر استفاده می‌کند . برای مدل‌سازی دنباله , شبکه عصبی بازگشتی ( RNN ) به طور گسترده‌ای مورد استفاده قرار گرفته‌است. برای غلبه بر مشکلات یادگیری یک ساختار وابستگی طولانی , یک شبکه حافظه کوتاه‌مدت بلند مدت ( LSTM ) پیشنهاد شده‌است. LSTM از چندین تابع گیت سازی چندگانه استفاده می‌کند تا اطلاعات ذخیره‌شده در وضعیت داخلی خود را برای مدت‌زمان طولانی‌تر حفظ کند . LSTM یکی از پرکاربردترین RNN است . Jaeger & Haas تغییر of را پیشنهاد کرد که به نام شبکه حالت بازتاب ( ESN ) یا محاسبه ذخایر نامیده می‌شود. در ESN , تعداد زیادی از سیستم‌های دینامیکی , یا ذخایر , به طور تصادفی تولید می‌شوند و پیش‌بینی با ترکیب خطی این سیستم‌های دینامیکی ایجاد می‌شود . در آموزش مدل , تنها پارامترهای لایه آخر شبکه , یعنی ترکیب خطی ذخایر , تنظیم شده‌است , که این کار را برای آموزش با یک مجموعه داده‌های کوچک‌تر در مقایسه با other دیگر آسان‌تر می‌کند . ESN مورد مطالعه قرار گرفته و برای بسیاری از سیستم‌های دینامیکی به کار گرفته شده‌است. به جای تکیه‌بر ساختار متناوب rnns , رویکردهایی برای ترکیب صریح زمان حرکت سیستم دینامیکی و یا معادلات دیفرانسیل جزیی وجود دارد.

با در نظر گرفتن قدرت آن در یادگیری منیفولد غیر خطی داده و قابلیت de [ 32 ] , یادگیری عمیق یک پتانسیل برای ایجاد یک ابزار جدید برای بازسازی مبتنی بر داده سیستم دینامیکی پر سر و صدا دارد . در حالی که حجم زیادی از ادبیات در مورد کاربرد شبکه‌های عصبی مصنوعی برای مدل‌سازی سیستم‌های دینامیکی غیرخطی وجود دارد , بسیاری از مطالعات , داده‌های بی‌صدا و / یا مساله رگرسیون را در نظر می‌گیرند , به عنوان مثال , ایجاد یک پیش‌بینی قطعی با توجه به داده‌های ورودی . در ادبیات علوم کامپیوتر , چند روش برای بسط RNN قطعی برای پیش‌بینی توزیع احتمال داده‌های متوالی پیشنهاد شده‌است . یکی از روش‌های مرسوم ایجاد یک مدل احتمالاتی فرض کردن توزیع احتمالی داده‌ها و ایجاد یک RNN , که پارامترهای توزیع احتمال , به عنوان مثال , میانگین و واریانس یک توزیع گاوسی را بدست می‌دهد . روش بیز به تازگی برای در نظر گرفتن ماهیت تصادفی سری‌های زمانی رایج شده‌است . Fortunato و همکاران یک RNN بیزی را پیشنهاد کردند که در آن پارامترهای of متغیرهای تصادفی گاوسی می‌باشند . بایر & Osendorfer 36 یک RNN تصادفی را با افزایش حالات داخلی of توسط متغیرهای تصادفی مستقل ایجاد کرد . چانگ و همکاران یک متغیر variational را پیشنهاد کردند , که از کدگذار خودکار متغیر برای کدگذاری تغییرات مشاهده‌شده سری‌های زمانی استفاده می‌کند . لازم به ذکر است که اغلب مدل‌های یادگیری عمیق احتمالاتی نیز فرض می‌کنند که توزیع posterior بعدی گاوسی است . goyal و همکاران یک RNN را پیشنهاد کردند که با شبکه خصمانه تولیدی ( gan ) آموزش‌دیده بود, که بر فرض گاوسی تکیه نمی‌کند . با این حال , رفتار روش‌های مبتنی بر gan برای مدل‌سازی سیستم‌های دینامیکی غیرخطی به خوبی درک نشده است .

در این مطالعه ، ما یک مدل مبتنی بر RNN را برای استنتاج منطقی داده و شبیه‌سازی سیستم‌های دینامیکی غیرخطی ارائه می‌کنیم . در حالی که اغلب مدل‌های یادگیری عمیق قبلی ، گاوسی یا ترکیبی از توزیع‌های گاوسی را فرض می‌کنند ، مدل RNN پیشنهادی قصد دارد تابع چگالی احتمال را بدون هیچ فرض ، به جز هموارسازی ، به عنوان مثال ، تداوم CO۲ پیش‌بینی کند . ما نشان می‌دهیم که مساله برآورد تابع را می‌توان با استفاده از یک کمینه‌سازی cross از طریق گسسته سازی عددی حل کرد . تکامل موقتی تابع چگالی احتمال یک سیستم دینامیکی پر سر و صدا توسط محاسبات بازگشتی ، احتمال انتقال حالت داخلی را با استفاده از روش مونت کارلو محاسبه می‌کند . این مقاله به صورت زیر سازماندهی شده‌است : در بخش ۲.۱ ، ساختار پایه of مورد بررسی قرار گرفته‌است . الگوریتم برای یادگیری چگالی احتمال از طریق گسسته سازی گسسته و برای پیش‌بینی تحول زمان سیستم دینامیکی پر سر و صدا در بخش‌های ۲.۲ - ۲نشان‌داده شده‌است . در نهایت ، نتیجه‌گیری در بخش ۴ ارایه شده‌است .

الگوریتم یادگیری عمیق

۲. الگوریتم یادگیری عمیق در این بخش ، ابتدا معادلات اساسی شبکه حافظه کوتاه‌مدت طولانی‌مدت مورد بررسی قرار می‌گیرند . سپس ، یک روش گسسته سازی عددی برای یادگیری ۴ توزیع احتمال یک سیستم دینامیکی پر سر و صدا ارایه می‌شود و یک تابع افت فشار دهنده - افت ، برای به دست آوردن یک برآورد کننده حداکثر احتمال ، معرفی می‌شود . در نهایت ، یک روش مونت کارلو برای پیش‌بینی multistep مشخص می‌شود .

۲.۱بررسی شبکه حافظه کوتاه‌مدت مدت کوتاه شبکه حافظه کوتاه‌مدت به منظور در نظر گرفتن یک فرآیند تاخیر زمانی معرفی شد ، که در آن وضعیت یک سیستم در زمان t توسط رویدادی در T - T تحت‌تاثیر قرار می‌گیرد. معادله اساسی واحد LSTM ارایه‌شده توسط شامل مجموعه‌ای از تبدیلات غیر خطی یک متغیر ورودی z Rmاست .


که در آن ϕS و ϕt به ترتیب توابع sigmoid و hyperbolic را نشان می‌دهند ، Ln یک عملگر تبدیل خطی است ، Nc تعداد واحدهای LSTM ، حالت داخلی و خروجی شبکه LSTM و ab نشان‌دهنده یک ضرب - از دو بردار است . عملگر تبدیل خطی به صورت زیر تعریف می‌شود :

Ln(x) = W x + B