از مقاله Forward Propagation به یاد داریم که در طی این مرحله، داده ها وارد هر لایه از شبکه نورونی می شوند و با انجام معادلات ریاضی با استفاده از وزن های W , B ، خروجی وارد لایه بعدی می شود. بسته به نوع کار یادگیری عمیق ما، روش های مختلفی برای شروع مقادیر اولیه w,b می توان در نظر گرفت؛ ولی یکی از پرکاربرد ترین روش ها در نظر گرفتن این پارامتر ها به صورت کاملا random و حول یک عدد ثابت با توزیع متناسب هستند. ( به طرزی که std =0 باشد.)
نکته مهمی که در train کردن شبکه های عصبی باید مد نظر قرار گیرد این است که یادگیری شبکه های عمیق، در واقع اصلاح به مرور w, b ها است در جهتی که خروجی دلخواه شبکه حاصل شود؛ به این فرایند به مرور اصلاح پارامترهای شبکه عصبی، back propagation می گویند.
متود های مختلف و متفاوتی برای back propagation وجود دارد؛ یکی از محبوب ترین روش ها gradient descent یا گرادیان کاهشی است که از مشتق تابع ضرر نسبت به پارامتر ها استفاده می کند.(تابع ضرر و گرادیان کاهشی به طور مفصل در مقاله ای جداگانه شرح داده خواهد شد).
به هر بار انجام فرایند forward propagation و back propagation یک Epcoh گفته میشود. به بیان دیگر اگر همه داده هایمان را یک بار وارد شبکه عصبی کنیم و در طی دو مرحله جلو گرد و عقب گرد ، شبکه عصبی مواردی را از داده ها بیاموزد، یک epoch شبکه عصبی را train کرده ایم.