نویسنده: کمیل آقابابایی_ارشد نرم افزار
برای مشاهده کامل کد VAE لطفا به github من مراجعه کنید.
رمزگذارهای خودکار، شبکه های عصبی هستند که برای تولید دادههای جدید (آموزش بدون نظارت) استفاده میشوند. این مدل برای تولید دادههای جدید برای ساخت مجموعه دادهها یا در مواردی که بخواهیم نویز از دادههای خود را حذف کنیم، استفاده می شود.
این شبکهها توسط چندین شبکه عصبی تشکیل شدهاند: یک رمزگذار و یک رمزگشا. که توسط یک گلوگاه که فضای پنهانی(latent) است که در تصویر زیر نشان داده شده است به هم متصل شدهاند:
رمزگذار داده ها را تا فضای پنهان (Latent space) پردازش می کند و ابعاد را کاهش می دهد و رمزگشا داده ها را می گیرد و ساختار داده را بازسازی می کند تا خروجی مشابه داده های اصلی ما را بدهد. ما می توانیم از فضای پنهان برای نمایش داده های خود استفاده کنیم.
در اینجا، ما در حال خواندن اعداد (Mnist Dataset) با تصاویری به اندازه 28x28 و پیکسل (784 المان)هستیم، میخواهیم آنها را به 32 عنصر فضای پنهان (Latent space) بازآفرینی(احیا) کنیم تا دوباره تصایری به اندازه 28x28 و 784پیکسل ایجاد کنیم.
مجموعه داده MNIST مجموعهای بزرگ از ارقام دستنویس است که معمولا ً برای پردازش تصویر استفاده میشود .
میتوانیم تمام کتابخانههای مورد نیاز را وارد کنیم :
ما برای ساخت مدل از keras.models و برای به کارگیری از Deep Learing از keras functional API بهره خواهیم برد. این راهی است که باید برای تعریف مدلهای پیچیده مانند multi-output models یا مدل هایی با لایه های مشترک.
پس از اتمام وارد کردن کتابخانه های مورد نیاز ، ما باید مجموعه داده را وارد کنیم، که در این از دیتاست های موجود در keras استفاده می کنیم.
تصاویر مورد استفاده ما تصاویر سیاه و سفید با ابعاد 28x28 پیکسل هستند. هر پیکسل با یک عدد در مقیاس 1 تا 255 نشان داده می شود.
پس از وارد کردن داده ها، آنها را با تقسیم هر پیکسل بر 255 نرمال می کنیم، که همه مقادیر را در مقیاس 0-1 قرار خواهند گرفت.
#Normalization
#numpy to calculate the number for you
بعد از نرمال سازی، می باییست داده را برای لایه ورودی به آرایه تغییر شکل بدهیم.
# dimensionality of the latents space
#Input layer
#Encoding layer
#Decoding layer
#Autoencoder --> in this API Model, we define the Input tensor and the output layer
#wraps the 2 layers of Encoder e Decoder
#Encoder
#Decoder
هنگامی که همه داده ها را در اختیار داریم، می توانیم مدل خود را تعریف کنیم، که در آن میتوانیم به وضوح سه بخش (Encoding، Bottleneck و Decoding) را ببینیم. با ساختار مدل خود میتوانیم ببینیم که ما بیش از 25k پارامتر برای آموزش داریم که با وزنها و بایاسها نشان داده میشوند. این پارامترها به شما در تولید داده های جدید کمک میکنند.
پس از ساخت مدل میبایست مدل را (با تعریف بهینه ساز optimizer و تابع ضررloss funtcion) کامپایل کنیم و آن را با مجموعه آموزشی مان هماهنگ(fit)می کنیم .
برای نمایش نمودارهای loss و val_loss :
The validation loss, compared to the training loss, tells us how much our model is good in generalising.
از مقایسه validation loss با از training loss به این نتجه می رسیم که که مدل ما چقدر در تعمیم(generalising) خوب است.
اکنون که مدل را کامپایل و آموزش داده ایم، می توانیم داده های جدیدی را با پیش بینی مدل، تولید کنیم.
با این کدها می توانیم 2 ردیف 10 عددی ترسیم کنیم. در ردیف اول تصاویر واقعی و در ردیف دوم تصاویر تولید شده را داریم. همانطور که می بینیم، با اینکه برخی از اطلاعات را از دست می دهیم، اما داده های مشابه های را تولید کردیم.
این مدل بسیار قدرتمندی است که میتواند با مدلهای دیگر یادگیری ماشین و مدلهای از پیش آموزشدیده ترکیب شود .همچنین برای کاهش نویز در دادهها نیز می توان استفاده نمود.