نوشته های فرزانه حاتمي‌نژاد

نوشته های فرزانه حاتمي‌نژاد https://virgool.io/feed/@farzane_hatami fa 2026-07-08 06:07:16 https://static.virgool.io/images/default-avatar.jpg فرزانه حاتمي‌نژاد https://virgool.io/@farzane_hatami Putting An End to End-to-End: Gradient-Isolated Learning of Representation https://virgool.io/@farzane_hatami/putting-an-end-to-end-to-end-gradient-isolated-learning-of-representation-exywlkxebmw1 مقدمهدر اين مطالعه به بررسي مقاله‌ي " Putting An End to End-to-End: Gradient-Isolated Learning of Representation "مي‌پردازيم.روش ‌هاي موجود براي يادگيري در شبكه‌هاي عصبي تا الان با استفاده از backpropagation وoptimize كردن يك سيگنال ارور به صورت global صورت گرفته‌است. كه اين روش‌ها تا الان توانسته اند به دقت‌هاي بسيار خوب و بالايي دست پيدا كنند.يادگيري در موجودات زنده از سيگنال ارور و يادگيري با استفاده از backpropagation نمي باشد و يادگيري به صورت محلي صورت مي پذيرد. با الهام از اين موضوع در اين مقاله روش جديدي ارائه شده است بدين صورت كه شبكه را به ماژول‌هاي كوچك تقسيم كرده و سيگنال ارور backpropagate نمي‌شود و شبكه به صورت greedy و layer-wise آموزش داده مي‌شود.با استفاده از اين شيوه آموزش مي‌تواند به صورت disterbuted و آسنكرون صورت گيرد و مي توان از اين موضوع به عنوان يكي ازين مزاياي روش استفاده شده در اين مقاله ياد كرد.از طرفي ديگر استفاده از ديتايي كه داراي ليبل مي‌باشد نيازمند هزينه‌ي زيادي مي‌باشد و كودكان به هنگام يادگيري نيازي به ديتا با ليبل زياد ندارند.supervised training with end-to-end back-propagationروشي كه در بسياري از مقالات مرسوم بوده است supervised learning با end-to-end backpropagation مي‌باشد. كه داراي چندين نقطه ضعف مي‌باشد كه در ادامه به آن ها مي‌پردازيم.آموزش به صورت supervised نيازمند ليبل مي‌باشد كه تهيه كردن ليبل براي ديتا بسيار پرهزينه است. زيرا داشتن ديتا به صورت ليبل زده شده مشكل مي‌باشد، به همين دليل داراي ريسك overfit شدن مي باشد. زيرا ممكن است به ديتاي بيشتري براي آموزش شبكه احتياج داشته باشيم.از طرفي آموزش شبكه به صورت end-to-end backpropagation نيازمند مموري مي‌باشد زيرا تمام گراف محاسباتي كه تشكيل مي‌شود احتياج هست تمام activation ها، پارامتر ها، گراديان ها و وزن‌ها در حافظه قرار بگيرند و ذخيره شوند.به صورت كلي optimize كردن به صورت global مي‌بايست هر لايه منتظر لايه‌هاي قبلي خود باشد، تا بتواند گراديان مربوط به خود را محاسبه نمايد. ونمي‌توان لايه‌هارا به صورت مستقل از يكديگر آموزش داد.در forward pass هر لايه بايد منتظر activation لايه‌ي قبل باشد تا بتواند محاسبات لازم را انجام دهد. در backward pass هر لايه منتظر گراديان لايه ي قبل مي‌ماند تا بتواند وزن خود را آپديت نمايد.Greedy InfoMax Approachدر اين قسمت به بررسي و توضيح مربوط به الگوريتم greedy infomax مي‌پردازيم. همان‌طور كه در شكل 1 مي‌توان مشاهده نمود، اين روش به صورت self-supervised كار مي‌كند. شبكه به يك سري ماژول شكسته مي‌شود، به اين صورت كه عمل forward-propagate انجام مي‌شود ولي عمل backward-propagateانجام نمي‌شود. و به جاي backpropagation هر ماژول به صورت greedy و با يك loss به نام InfoNCE به صورت محلي، آموزش داده مي‌شود كه در ادامه به توضيح آن خواهيم پرداخت.در شكل 1 فلش‌هاي مشكي نشان دهنده‌ي forward-propagate و فلش‌هاي قرمز نشان‌دهنده‌ي backward-propagate مي‌باشند كه همان طور كه در شكل نشان داده شده‌است backward انجام نمي‌پذيرد و گراديان‌هاي هر ماژول بلاك شده و به ماژول بعدي انتقال پيدا نمي‌كند و گرادياني بين ماژول‌ها انتقال پيدا نمي‌كند و صرفا لاس محلي خود را optimize مي‌كند.يكي از چالش‌هاي موجود در اين روش انتقال اطلاعات مفيد از يك ماژول به ماژول ديگر مي‌باشد. براي مطمئن شدن از انجام اين عمل به درستي، از يك لاس self-supervised استفاده مي‌شود.شكل 1: روش greedy-infomaxهمان‌طور كه گفته شد loss استفاده شده در اين مقاله به صورت محلي مي‌باشد. همان طور كه در شكل 2 مي‌توان مشاهده نمود، هر لايه داراي چند ماژول مي‌باشد، و مدل به صورت autoregressive مي‌باشد.شكل 2همان طور كه در شكل دوم مي‌توان مشاهده نمود در قسمت سمت راست شكل، loss براي يك لايه نشان داده شده است. و هر لايه از يك سري encoding module تشكيل شده است، لاس تعريف شده به صورت contrastive مي‌باشد و نيازمند يك جفت مثبت و يك جفت منفي مي‌باشد. جفت مثبت خروجي هر ماژول، خروجي نزديك ترين ماژول از نظر زماني مي‌باشد و جفت منفي در نظر گرفته شده خروجي ماژول هايي كه از نظر زماني دور تر مي‌باشند در نظر گرفته مي‌باشد. به طور مثال در شكل 2، zt(m) به عنوان anchor، zt+k(m) به عنوان positive pair و zj(m) به عنوان negative pair در نظر گرفته شده‌است.روش جديد مطرح شده در اين مقاله به نام GreedyInfoMax كه الهام گرفته از بيولوژيك مي‌باشد از ويژگي زير برخوردار مي‌باشد كه در راستاي بر طرف كردن مشكلات ذكر شده در مرحله‌ي قبل است. الهام گرفته از بيولوژيك است. معماري به ماژول‌هاي كوچك تر تبديل شده و از گراديان ها به صورت ايزوله براي هر ماژول به صورت self-supervised استفاده شده است. ديتا‌ي sequential يا spatial بدون ليبل و با ابعاد بالا به صورت به صورت مكرر، encode شده است.با استفاده ار loss مطرح شده هر ماژول به صورت جداگانه سعي بر اين دارد تا حدي كه امكان دارد اطلاعات مربوط به ورودي خود را preserve كند. در نهايت representation به دست مي‌آيد كه براي downstream task مناسب مي‌باشد.مي‌توان دستاورد‌هاي زير را براي اين روش نام برد: اين روش براي كلاس بندي صوت و تصوير به نتايج خوبي دست پيدا كرده است . با استفاده از ان روش آموزش شبه عصبي مي‌تواند به صورت آسنكرون و موازي صورت پذيرد، زيرا هر ماژول احتياجي به گراديان ماژول‌هاي قبلي ندارد. و از لحاط مموري نيز بهينه تر نسبت به ساير روش‌هاي قبلي مي‌باشد به دليل استفاده از حافظه‌ي كمتر جهت ذخيره‌ي گراديان‌ها، activation function ها و غيره. در اين روش از ‌mutual information maximation استفاده شده است، كه به صورت لايه به لايه و به صورت greedy مي‌باشد كه باعث كاهش vanishing gradient مي‌شود.InfoNCE objectiveهمان طور كه در قسمت‌هاي قبلي گفته شده، به دليل اينكه در اين روش backpropagate كزدن گراديان ها حذف شده و ماژول ها به صورت ايزوله مي‌باشند، با استفاده از تعريف لاس فانكشن مناسب، مي‌خواهيم مطمئن شويم اطلاعات مناسب به لايه‌ها انتقال پيدا مي‌كند.در اين مقاله با استفاده از InfoNCE Objective سعي دارد mutual information ميان representation هاي نزديك را ماكسيمم نمايد. بدين صورت كه، سعي بر ماكسيمم كردن mutual information بين representation هاي مربوط به ztm و zt+km را دارد. كه representation‌هاي مربوط به ماژول m در time-step هاي t و t+k دارد.Max I(zmt , zmt+k)همچنين به ماكسيمم كردن Mutual information بين input و output هر ماژول مي باشد كه input را با t+k نمايش مي‌دهيم و output در step tMax I(zmt , zm-1t+k)در واقع با تعريف لاس به اين صورت اين روش به خوبي كار مي‌كند بدون اين كه هيچ گرادياني بين آنها به اشتراك گذاشته شود. به دليل اينكه mutual information بين ورودي و خروجي هر ماژول را ماكسيمم مي‌كنيم و هر ماژول را مجبور مي كنيم كه تا مي‌تواند اطلاعات مفيد مربوط به input را در representation قرار دهد.نتايج به‌دست آمده در مقاله به صورت تصويرينتايج به دست آمده در اين مقاله را به صورت تصويري مي‌توان در شكل 3 مشاهده نمود. هر رديف نشان دهنده‌ي يك ماژول مي‌باشد و مربع قرمز نشان‌دهنده‌ي پچ‌هايي مي‌باشد كه نورون‌ها بيشترين توجه را به آن‌ها كرده‌اند. در لايه‌هاي اوليه مشخص شده كه توجه نورون‌هاي به ويژگي‌هاي ساده تر مي‌باشد مانند orientation ها. و هر چقدر به ماژول‌هاي پايين تر كه در رديف‌هاي بعدي نشان داده شده‌است نگاه مي‌كنيم مشخص است كه ويژگي‌هاي abstract تر را استخراج مي‌نمايند. اين اتفاق در شبكه‌هايي كه به صورت end-to-end آموزش داده مي‌شود به همين صورت اتفاق مي‌افتند كه در لايه‌هاي اول ويژگي‌هاي ساده تر و در لايه‌هاي عميق‌تر ويژگي‌هاي abstract تر استخراج مي‌شوند. و اين اتفاق به همين صورت در اين روش كه ماژول‌ها به صورت greedy و ايزوله آموزش داده مي‌شوند نيز اتفاق افتاده است، بدين صورت كه همان طور كه در شكل 3 ئ در رديف سوم مي‌توان مشاهده نمود، ماژول سوم مي‌باشد كه نورون ها به ويژگي‌هاي abstract تري اشاره كرده‌اند. در واقع مي‌توان گفت ماژول‌ها به صورت سلسله مراتبي ويژگي‌هاي abstract تري را ياد مي‌گيرند.شكل 3نتايجاين روش بر روي دو نوع ديتاي تصوير و صوت اعمال شده و نتايج با چند روش ديگر مقايسه شده است.اين روش ها داراي معماري يكسان ولي روش‌هاي مختلف براي آموزش مي‌باشد كه مهم ترين آن ها روش CPC مي‌باشد.روش CPC به اين علت مهم مي‌باشد كه loss استفاده شده در اين روش، همان InfoNCE loss مي باشد با اين تفاوت كه به صورت end-to-end و با استفاده از backpropagation آموزش داده مي‌شود.پس از آموزش شبكه، با استفاده از representation هاي يادگرفته شده، به حل يك مسئله‌ي downstream مي‌پردازيم. كه در ادامه به بررسي دقت‌هاي به دست آمده مي‌پردازيم.تصوير:اين روش بر روي ديتاست STL-10اعمال شده است. همان‌طور كه در جدول 1 مي توان مشاهده نمود، دقت به دست‌آمده براي روش GreedyInfoMax از بقيه روش‌هاي موجود به دقت بالاتري دست پيدا كرده است. مدل deep InfoMax كه روش ارائه شده در اين مقاله با آن مقايسه شده است، بسيار شبيه به روش CPC مي‌باشد، به اين دليل كهMutual Information ميان پچ‌هاي مختلف از يك تصوير را سعي مي‌كند ماكسيمم كند، زماني كه end-to-end backpropagation استفاده مي‌كند.روش predsim كه در جدول آورده شده‌است سعي مي‌كند به صورت layer-wise و greedy شبيه به متد استفاده شده در GreedyInfoMax ولي با استفاده از يك supervised loss اين كار را سعي مي‌كند انجام دهد.جدول 1صوت:اين روش‌ها بر روي دومين تصوير نيز بررسي شده اند و نتيج آن را مي‌توان در جدول 2 مشاهده نمود. در اين قسمت از ديتاست LibriSpeech استفاده شده است. در اين قسمت نيز مانند قسمت تصوير GreedyInfoMax را با يك سري از متد‌هاي ديگر كه معماري يكسان دارند ولي روش متفاوتي براي آموزش استفاده كرده‌اند مقايسه كرده‌ايم. و مهم ترين قسمت مقايسه‌ي GreedyInfoMax و روش CPC مي‌باشد.جدول 2همان‌طور كه در جدول شماره 2 مي‌توان مشاهده كرد، دو تسك متفاوت وجود داردSpeaker Classification و Phone Classification كه در ادامه به بررسي نتايج هر كدام از آن‌ها مي‌پردازيم.speaker classification:در اين قسمت تسك speaker classification را مورد بررسي قرار مي‌دهيم، كه مي‌توان مشاهده نمود كه نسبت به همه‌ي روش‌ها، به جز روش CPC به دقت بالاتري دست پيدا كرده‌است. و دقت آن بسيار نزديك به مدل CPC مي‌باشد كه كه نشان‌دهنده‌ي اين است كه توانايي رقابت با اين مدل را دارد. و بايد دقت نمود كه CPC از backpropagation براي آموزش شبكه خود استفاده كرده است و روش GreedyInfoMax بدون استفاده از backpropagation و صرفا با استفاده از Local Loss به اين دقت دست‌ پيدا كرده‌است.phone task:در اين تسك مي‌خواهيم به تشخيص صداهاي آوايي متمايز كه تلفظ كلمات را مي‌سازند بپردازيم بدون اينكه به صداي افراد توجه نماييم. در اين تسك مي‌توان مشاهده نمود كه CPC به دقت بهتري دست پيدا كرده است. همچنين اگر بخواهيم مقايسه‌اي بين روش Supervised و CPC انجام دهيم مشاهده مي‌شود يك فاصله‌اي بين دقت به دست آمده براي روش‌ Supervised و CPC وجود دارد كه در مقاله‌ي CPC براي حل اين مشكل، با اضافه كرددن يك لايه‌ي مخفي به طبقه بند خطي قابل حل مي‌باشد. علت آن هم اين مي‌باشد كه اطلاعات به دست‌‌آمده توسط CPC و GreedyInfoMax به صورت خطي بلافاصله جداپذير نباشند و توسط اين كار ميتوان دقت اين مدل هارا افزايش داد.مشاهده نتايج به صورت layerwiseدر اين قسمت مي‌خواهيم به تحليل بررسي رفتار هر لايه، براي روش ‌هاي مختلف بپردازيم، همان طور كه در شكل 4 مي‌توان مشاهده نمود، در نمودار افقي شماره لايه يا همان ماژول در روش GreedyInfoMax و در نمودار عمودي ميزان Error rateرا مي‌توان مشاهده نمود.با توجه به نمودار مي‌توان نتيجه گرفت كه روش GreedyInfoMax كه به صورت layer-wise و بدون استفاده از backpropagation آموزش داده مي‌شود، رفتاري مشابه به روش CPC دارد. و اين تشابه رفتار براي تمام لايه‌ها وجود دارد و لايه‌هاي مياني نيز رفتاري شابه دارند و صرفا اين تشابه رفتار خلاصه به لايه‌ي آخر نمي‌شود. و اين بدين معنا مي‌باشد كه روش جديد ارائه شده، با رويكردي متفاوت، به حل مسئله مي‌پردازد و به نتايج مشابهي نيز دست پيدا كرده است.همچنين مي‌توان مشاهده نمود ميزان error-rate در لايه ‌هاي مياني در روش GreedyInfoMax مقدار كمتري دارد نسبت به روش supervised.شكل 4 :نمودار Error rate براي تمامي ماژول‌هاجمع بنديدر اين قسمت مي‌خواهيم به بررسي روش معرفي شده بپردازيم كه آيا باعث رفع مشكلات مطرح شده شده است؟در روش معرفي شده مشكل مموري gpu حل شده است، به اسن دليل كه تمام ماژول‌ها با يكديگر آموزش داده مي‌شوند و نيازي به تگهداري و ذخيره‌ي گراديان ها و activation function هاي تمام لايه‌ها نمي‌باشد.از ديگر مزاياي اين روش مي‌توان به اين ااره نمود كه، مي‌توان مدل را بر روي چند دستگاه مختلف و به صورت distributed آموزش داد. كه باعث مي‌شود آموزش به صورت مواززي صورت بگيرد.اگر بخواهيم از روش‌هاي ‌مبني بر backpropagation استفاده نمايم، مي‌بايست كل شبكه را بر روي چند دستگاه قرار داده، و forward pass و backward pass را بر روي تمام دستگاه‌ها اجرا كرده و در انتها نتيجه‌يآن هارا aggregate كنيم. و اگر نتوان تمام نتوورك را بر روي مموري يك gpu قرار داد، اين كار امكان پذير نمي‌باشد.با استفاده از GreedyInfoMax به دليل اينكه loss function به صورت محلي مي‌باشد و گراديان‌هاي هر ماژول به صورت جداگانه مي‌باشد مي‌توان هر ماژول را با يك دستگاه آموزش داد. ولي مشكلي كه وجود دارد ورودي هر ماژول از ماژول قبلي گرفته مي‌شود ولي براي حل اين مشكل نيز مي‌توان به اين نكته اشاره نمود كه ورودي هر ماژول حتما نبايد آخرين خروجي ماژول قبلي باشد.و مي‌توان خروجي هر ماژول را براي چند ايپاك ذخيره نمود و به ماژول بعدي داد.در نهايت مي‌توان نتيجه گرفت كه GreedyInfoMax به صورت Greedy و بدون‌ backpropagation توانسته به نتايجي دست پيدا كند كه قابليت رقابت با ساير روش‌هارا داشته باشد. فرزانه حاتمي‌نژاد فرزانه حاتمي‌نژاد Fri, 03 Jun 2022 02:43:27 +0430 Deep Transfer Metric Learning https://virgool.io/@farzane_hatami/deep-transfer-metric-learning-nkfyperw17zx مقدمهدر اين مطالعه به بررسي مقاله‌ي"Deep Transfer Metric Learning"مي‌پردازيم. در بسياري از روش هايي كه براي metric learning استفاده شده است، فرض شده كه توزيع ديتاي مربوط به آموزش و تست داراي توزيع يكساني مي‌باشند.در اين شيوه مي‌خواهيم اطلاعات را از يك دامنه كه داراي برچسب ميباشد به يك دامنه ديگر كه برچسب ندارد منتقل نماييم. اين شيوه به صورت سلسله مراتبي كار مي‌كند و اطلاعات را منتقل مي نمايد.اين شيوه علاوه بر اينكه مانند اكثر شيوه‌هاي متريك لرنينگ سعي دارد كه فاصله‌ي بين كلاس هاي مختف زياد نمايند و فاصله‌ي بين سمپل‌هاي يك كلاس را كاهش دهد، براي حل مشكل يكي نبودن توزيع ديتاي "source"و ديتاي "target" سعي دارد كه اين دو توزيع را به يكديگر نزديك نمايد.در اين مقاله شيوه‌ي ديگري به نام DSTML نيز ارائه شده است كه خروجي لايه‌ي نهان و خروجي لايه‌ي آخر را، سعي دارد همراه با يكديگر بهينه نمايد. هدف از اين كار استخراج بهتر اطلاعات از دامنه ""source مي‌باشد.كه در ادامه به بررسي شيوه‌هاي معرفي شده مي‌پردازيم.بررسي مفاهيمدر اين قسمت، ابتدا به بررسي جند مفهوم پايه‌اي مي‌پردازيم. و سپس ايده‌هاي مطرح شده در مقاله را مطرح مي‌نماييم.Metric Learningابتدا به بررسي مفهوم "Metric Learning" وانواع آن مي‌پردازيم.Metric Learning سعي مي‌كند فواصل بين سمپل ها را و همچنين فاصله‌ي بين كلاس هارا هم ياد بگيرد. در به صورت هندسي به يادگيري مي‌پردازد. دو شيوه براي آموزش Metric Learning استفاده مي‌شود: Supervised و Unsupervised.ابتدا به بررسي شيوه‌ي Unsupervised مي‌پردازيم، در اين شيوه فواصل سمپل هاي مختلف ديتا به صورت هندسي در يك فضايي با ابعاد كمتر ياد‌گرفته مي‌شوند.شيوه‌ي‌ Supervised، به صورت discriminative مي‌باشد كه فواصل به گونه‌اي ياد گرفته مي‌شوند كه به بهترين شكل بتوان بين سمپل‌هاي مختلف يك كلاس تمايز قائل شد.Transfer learningدر اين قسمت به مفهوم transfer learning مي‌پردازيم كه مي‌خواهيم با استفاده از يك مدل كه قبلا براي يك تسك آموزش داده شده است، به عنوان يك مدل pre-train استفاده نماييم و يك ديتاي جديد كه داراي يك دامنه ديگر مي‌باشد را مجدد بر روي آن آموزش دهيم. در واقع در اين مدل از transfer learning زماني انجام مي‌شود كه توزيع source domain و target domain ما فرق داشته باشد.مي‌توان Transfer learning را به صورت كلي به دو دسته‌ي instance-based و feature-based تقسيم نمود.Instance-base:: به اين صورت عمل مي كند كه چند سري وزن آموزش مي‌دهيم براي رنك كردن سمپل ها در source domain براي آموزش بهتر در target domain.Feature-based:براي اين قسمت نيز، يك فضاي ويژگي معمولا ياد گرفته مي‌شود كه معمولا اطلاعات را از source domain به target domain منتقل مي نمايد. در خيلي از مقالات سعي شده است با كاهش فاصله‌ي دامنه‌هاي "target domain" و "source domain" با استفاده از كم كردن تفاوت توزيع ها با استفاده از "linear mapping" و يا "kernel trick" فضاي ويژگي ياد گرفته شود، كه اين روش‌ها به قدر كافي مناسب نمي‌باشند.deep transfer metric learningدر اين قسمت به بررسي ايده‌ي اصلي مقاله مي‌پردازيم، ايده ي مقاله در واقع تركيب دو مفهوم بالا يعني transfer learning و metric learning مي‌باشد. همان‌طوركه مي‌توان در شكل 1 مشاهده نمود هدف از روش مطرح شده در مقاله را مي‌توان به سه قسمت تقسيم نمود:اولين هدف افزايش فاصله‌ي بين كلاس‌هاي مختلف در يك ديتاست مي‌باشد.دومين هدف مي توان به كاهش فاصله بين سمپل‌هاي يك كلاس اشاره نمود. سومين هدف هم مي‌توان به نزديك كردن توزيع ديتايsource و ديتاي target اشاره نمود براي حل مشكل يكسان نبودن توزيع اين دو ديتاست.شكل 1: ايده‌ي پايه‌اي مربوط به DTMLآموزش اين شيكه نيز به اين صورت انجام مي‌پذيرد كه هم سمپل‌هاي ديتاي "source" و هم سمپل‌هاي ديتاي "target" وارد شبكه مي‌شوند سعي بر بهينه كردن سه شرط بالا را دارند.Objectiveدر اين قسمت ابتدا به بررسي Objective پايه براي Deep Metric Learning مي‌پردازيم. و سپس براي حل مشكل متفاوت بودن توزيع ديتاي تست و آموزش به معرفي Objective براي حل اين مسئله پرداخته و در انتها يه تركيب اين دو مي‌پردازيم كه در واقع همان Objective معرفي شده در مقاله مي‌باشد.deep metric learning-Objectiveدر بسياري از مقالات مربوط به deep metric learning براي اينكه سمپل‌هارا به يك فضاي ويژگي خطي ببرند، از يك فاصله‌ي خطي استفاده مي‌كنند. همچنين فرض شده‌است توزيع ديتاي آموزش و ديتاي تست يكسان مي‌باشد. در اين مقاله براي به دست آوردن representation مربوط به هر سمپل، از يك شبكه مانند شكل 2 مي‌توان استفاده نمود. كه توسط اين شبكه يك non-linear mapping به صورت سلسله مراتبي ياد ‌گرفته مي‌شود. يكي از نكات مثبت استفاده از اين شبكه، اين مي‌باشد كه مي‌توان ورودي هارا به يك فضاي غير‌خطي به صورت صريح مپ نمود.شكل 2: معماري استفاده شده در متد DTMLمي‌توان فرض نمود كه M + 1لايه براي شبكه‌ي مورد نظر داريم. خروجي لايه‌ي M با ورودي X به طريق زير محاسبه مي‌شود.Equation 1در اين فرمول Wو b ماتريس وزن و باياس هست و ᵠ يكactivation function غير خطي مانند "tanh" و "sigmoid"مي‌باشد. كه از طريق اين فرمول يك مپينگ غيرخطي صورت مي‌گيرد.براي هر جفت داده كه به شبكه داده مي‌شود دو خروجي به صورت f(m)(Xi) و f(m)(Xj) در لايه‌ي m مي باشد كه مي توان فاصله‌ي اين دو سمپل را نيز از طريق فرمول زير محاسبه نمود.Equation 2همه‌ي ديتاي مربوط به آموزش از طريق به طريق زير فرموله مي‌شوند:Equation 3آلفا يك پارامتر آزاد حساب مي‌شود كه ميزان اهميت فاصله‌ي بين سمپل‌هاي يك كلاس و فاصله‌ي دو كلاس مختلف را تنظيم مي‌نمايد. گاما كه مقدار آن مي‌بايست از صفر بيشتر باشد، يك ترم رگولاريزيشن قابل يادگيري مي‌باشد.علائم Sc و Sb بيانگر فاصله‌ي بين دو كلاس و فاصله‌ي بين سمپل‌هاي يك كلاس مي‌باشد كه به صورت زير محاسبه مي‌شود:Equation 4حالت اول:Pij برابر با يك مي‌شود، اگر xj يكي ازintra-class-nearest-neighbor - k1 ها‌ي xi باشد و در غير اين صورت برابر صفر مي‌شود.حالت دوم: Qij برابر با يك مي‌شود، اگر xj يكي ازintra-class-nearest-neighbor - k2 ها‌ي xi باشد و در غير اين صورت برابر صفر مي‌شود.deep transfer metric learning-objectiveما داراي دو نوع ديتاي target domain و source domain مي باشيم كه داراي توزيع متفاوت هستند در فضاي اصلي زيرا از دو ديتاست مختلف گرفته شده اندكه داراي توزيع متفاوتي است.براي كاهش تفاوت توزيع مي‌توان توزيع احتمالاتي source domain و target domain تا جايي كه ممكن است در فضاي تبديل شده به يكديگر نزديك باشند. براي رسيدن به اين هدف ما از maximum Mean Discrepancy (MMD) استفاده مي‌كنيم كه تفاوت توزيع هارا در لايه‌ي m اندازه بگيريم كه مي‌توان نحوه‌ي اندازه گيري را به صورت زير به دست آورد:Equation 5از تركيب دو معادله‌ي 3 و 5 يك مسئله‌ي بهينه سازي به صورت زير داريم.Equation 6كه در رابطه‌ي بالا بتا بزرگ تر مساوي صفر مي‌توان در نظر گرفت و يك ترم رگولاريزيشن محسوب مي‌شود..حال با توجه به فرمول 6 ما يم مسئله‌ي بهينه‌سازي دازيم كه به ازاي پارامتر هاي مدل كه W و b مي‌باشند گراديان objective function را محاسبه مي‌كنيم. و سپس به روز رساني مي نماييم.الگوريتم اين مقاله را مي‌توان در شكل زير مشاهده نمود:تا اين جا اين الگريتم به صورت مفصل توضيح داده شده است، كه در اين جا به صورت خلاصه مي‌توان آن را مشاهده نمود و به بررسي آن مي‌پردازيم:ابتدا تمامي مواردي كه درقسمت هاي قبل معرفي شدند مانند فاصله‌ي بين دو كلاس و فاصله‌ي بين ديتاهاي يك كلاس محاسبه مي‌شوند و بعد از گراديان مربوط به آن ها محاسبه شده و عمل backpropagation انجام مي‌شود.سپس تمامي پارامتر‌ها به روز رساني مي‌شوند. و شرط پاياني آموزش به اين صورت مي‌باشد كه اگر ميزان loss مرحله‌ي جديد از مرحله‌ي قبل از يك اپسيلون كمتر بود به خروجي مي‌رويم.Deeply Supervised Transfer metric Learningدر اين مقاله، به معرفي يك شيوه‌ي ديگر نيز پرداخته است كه در ادامه به بررسي آن مي‌پرازيم.Objective functionمربوط به قسمت DTML در فرمول شماره 6 آورده شده است فقط قسمت مربوط به اطلاعات سمپل‌هاي يادگيري در لايه‌هاي اول را مورد بررسي قرار مي‌دهد. و قسمت اطلاعات discriminativeمربوط به خروجي در لايه‌هاي مخفي ناديده گرفته مي‌شود. براي حل اين مسئله يك شيوه deeply supervised transfer metric learning(DSTML) ، ارائه داده‌اند كه اطلاعات discriminative رااز خروجي همه‌ي لايه‌ها به دست مي‌آورد. و يك مسئله بهينه سازي به صورت زير داريم:Equation 7كه J(m) به صورت زير تعريف مي‌شود:Equation 8يك Objective function كه روي لايه‌ي mاعمال مي‌شود. J(M) مربوط به لايه‌هاي اول است و J(m) مربوط به لايه‌هاي مياني. از Hinge lossاستفاده شده است كه بدين صورت مي‌باشد: h(x) = max(x; 0)يك threshold مثبت (m)به نام Ƭ هست كه loss J(m) را كنترل مي‌كند و w(m) ميزان اهميت مربوط به لايه‌هاي بالايي و لايه‌ي مخفي mام مي‌باشد.دومين ترم در شماره 7 اگر loss كلي براي لايه‌ي mام كمتر از threshold تعيين شده باشد، در طول آموزش ناديده گرفته خواهد شد. سپس مانند قسمت‌هاي قبلي گراديان نسبت به وزن و باياس براي لايه‌هاي بالا حساب شده و نسبت به لايه‌هاي ديگر نيز حساب مي‌كنيم. و براي تمامي لايه‌ها آپديت انجام مي‌شود.آزمايشات و نتايجاين متد بر روي دو تسك مختلف Face Verification و Person Re-Identification پياده سازي شده است كه در ادامه به بررسي اين تسك ها و نتايج آن‌ها مي‌پردازيم.آزمايشاتدر اين مقاله دو تسك مورد بررسي قرار گرفته‌اند كه در اداه به توضيح هر كدام از آن‌ها مي‌پردازيم.Face Verification:در اين تسك دو عدد عكس به عنون ورودي گرفته شده و مي‌خواهيم تشخيص دهيم كه آيا اين دوعكس مربوط به يك نفر مي‌باشند يا خير. و براي شبكه از يك شبكه‌ي سه لايه استفاده شده‌است.Person re-identification:در اين تسك هدف اين مي‌باشد كه يك فرد را از دوربين‌هاي مختلف، بدون داشتنن اشتراك تصوير، بتوانيم تشخيص دهيم. اين تسك پيچيده مي‌باشد از اين نظر كه تصاويري كه دوربين‌هاي مختلف گرفته مي‌شود از نظر رزولوشن، موقعيت، ژست، روشنايي و ويژگي‌هاي ديگر متفاوت باشند.نتايجمي‌توان در جدول 1 نتيايج را مشاهده نمود، بدين صورت كه DTML از STML بهتر عمل كرده و بالاترين دقت نيز براي DSTML مي‌باشد.دقت مربوط به متد‌هاي مختلف metric learning بر‌روي ديتاست LFW فرزانه حاتمي‌نژاد فرزانه حاتمي‌نژاد Fri, 03 Jun 2022 02:27:24 +0430 EfficientNet V1, EfficientNet V2 https://virgool.io/@farzane_hatami/efficientnet-v1-efficientnet-v2-fzckic3k9lft مقدمهدر اين مطالعه ميخواهيم به بررسي ايده و اهميت مقالهEfficientNet بپردازيم.بسياري از معماري هاي طراحي شده در راستاي استفاده از توان محاسباتي موجود به صورت بهينه مي باشند مانند MobileNet. حال مي‌خواهيم بدانيم اگر ميزان توان محاسباتي كاهش يا افزايش پيدا كند يا اگر بخواهيم يك شبكه زودتر آموزش داده شود، به چه طريق مي‌توان شبكه مورد نظر را scale كنيم.در معماري هاي طراحي شده در شبكه هاي كانولوشني، سه روش براي افزايش دقت استفاده ميشود.اين سه روش شامل: افزايش عمق شبكه، ارتفاع شبكه و همچنين افزايش رزولوشن ورودي ميباشد. كه افزايش هر كدامم از اين ويژگيها ميتواند باعث بهبود عملكرد شبكه شود.در اين مقاله به بررسي رابطه اين سه ويژگي ميپردازد و بديهي ميباشد كه اين سه ويژگي با يكديگر ارتباط مستقيمي دارند، بدين صورت كه با افزايش رزولوشن، ويژگي بيشتري براي بررسي وجود دارد بنابراين شبكه ميتواند عمق بيشتري داشته باشد.در واقع مي توان به effecientNet به عنوان يك نوع جستجو براي كارآمد ترين شبكه ي عصبي با توجه به ميزان توان محاسباتي نگاه كرد.در ادامه به بررسي ايده‌ي دو ورژن اين مقاله مي‌پردازيم.Efficient-Netدر اين قسمت به بررسي ايده مقالهي Efficient Net مي‌پردازيم. در اين مقاله ايده اي در ر‌ابطه با طراحي شبكه جديد مطرح نشده است. بلكه با توجه به اينكه دستگاه هاي مختلف از توان پردازشي متفاوتي بهره مند هستند مي‌خواهيم شيوه اي داشته باشيم كه با توجه به دستگاه در دسترس و توانايي پردازش موجود چگونه يك شبكه را Scale كنيم. همچنين اگر از نظر زماني، ميزان زمان لازم براي آموزش شبكه را در نظر بگيريم با scale down شبكه زود تر و با scale up شبكه به مدت طولاني تري نياز به آموزش دارد. به طور مثال اگر بخواهيم شبكه ي ما سريع‌تر آموزش ببيند و كمي كاهش دقت در نتايج شبكه مسئله ي خيلي مهمي نباشد ميتوان از اين روش استفاده نمود.بنابراين Efficient-net يك راهي براي به دست آوردن بهينه ترين ميزان براي scale up كردن با توجه به شرايط موجود مي باشد.شكل1 model scaling همان طور كه در شكل اول مي توان مشاهده نمود، با در نظر گرفتن يك baseline به صورت كلي سه روش براي scaling شبكه براي به دست آوردن دقت بهينه وجود دارد.سه روش براي scale up كردن يك شبكه ي كانوولوشني به صورت زير مي‌باشد:روش اول افزاش عمق: اين روش بيشترين استفاده را در معماري هاي موجود تا كنون داشته است. منظور از افزايش عمق، افزايش تعداد لايه هاي يك شبكه مي باشد.روش دوم افزايش عرض: از اين روش نسبت به عمق كمتر استفاده مي‌شود. منظور از عرض نيز مقدار كانال هاي يك شبكه مي ‌باشد.روش سوم افزايش resolution عكس ورودي: از اين روش نيز گاها در مقالات مشاهده شده كه استفاده شده است.در مقالات از يكي از اين سه روش براي scale كردن مدل استفاده ميشد.در اين مقاله يك روش مبتني بر افزايش عمق، عرض و resolution ورودي براي scale up كردن يك شبكه را بررسي مي نماييم كه در شكل 1 قسمت e قابل مشاهده است و آن زا compound scaling ناميده اند كه در ادامه به بررسي آن مي‌پردازيم.compound model scalingدر اكثر مقالات براي زماني كه مي خاهند مدل را بهبود ببخشند يك معماري جديد طراحي و معرفي مي كنند. اما در اين مقاله روشي معرفي شده است كه ابتدا يك مدل baseline در نظر گرفته و سعي مي كند با افزايش سه بعد طول، عرض و رزولوشن در مدل baseline بهبود ايجاد نمايد. مسئله كه وجود دارد براي پيدا كردن طول، عرض و رزولوشن مناسب فضايي كه بايد جستجو نماييم بسيار بزرگ ميشود بنابراين ما براي هر لايه در نظر ميگيريم كه به صورت يكنواخت با يك ضريب ثابت رشد كنند.همان طور كه در قسمت هاي قبي نيز اشاره شد بر اساس سه بعد طول، عرض و رزولوشن مي توان يك شبكه را scale كرد.يك از مشكلاتي كه scale up كردن شبكه مي تواند ايجاد كند، مشكل vanishing gradient شود كه با skip connection قابل حل مي باشد.شكل 2: ميزان دقت بر اساس افزايش هر يك از ابعاد عرض، طول و رزولوشن به صورت جداگانههمان طو كه در شكل دوم مشاهده مي‌شود، افزايش هر يك از اين ابعاد باعث افزايش دقت مي‌شود، اما با رسيدن به دقت 80% دقت اشباع شده و افزايشي صورت نمي‌گيرد.بنابراين سوالي كه پيش مي‌آيد اين است كه آيا مي‌توانبا تركيب اين سه بعد براي scale-up كردن به افزايش دقت بيشتري دست پيدا نمود؟شكل 3: ميزان افزايش دقت از تركيب دو بعد عمق و رزولوشنمشاهده‌اي كه صورت گرفته است و نتيجه ي آن را ميتوان در شكل سوم مشاهده نمود، نشان مي‌دهد كه مي‌توان با تركيب اين ابعاد با يكديگر به ميزان دقت بيشتري دست پيدا نمود. به عبارت ديگر مي‌توان بيان نمود كه اين ابعاد ازيكديگر مستقل ينستند. به طور مثال اگر عرض شبكه را افزايش دهيم، پيكسل هاي بيشتري داريم كه اطلاعات بيشتري به ما مي‌دهند بنابراين مي‌توانيم رزولوشن بالاتري نيزز داشته باشيم. يا از زاويه اي ديگر اگر بخواهيم بررسي كنيم مي‌توانيم بگوييم هر چقدر عمق بيشتر باشد، receptive field بزرگ تر مي شود بدين معنا كه ويژگي سطح بالاتري براي پردازش داريم.پس در ادامه به معرفي متد معرفي شده در اين مقاله به نام compound scaling method مي پردازيم. در واقع اين مسدله به صورت يك مسدله بهينه سازي ميباشد، كه به صورت فرمول زير مي‌توان مشاهده نمود بدين صورت كه آلفا، بتا و گاما به صورت ثابت در نظر گرفته ميشوند كه با استفاده از يك grid search مي توان آن هارا به دست آورد. و اگر بتوانيم هزينه‌ محاسباتي را افزايش دهيم با يك ضريب ثابت، مقدار phi را تغيير مي دهيم.Depth: d = alpha^phiWidth: w = betha^phiResolution: r = gama^phis.t. alpha.betha^2.gama^2 = 2alpha>=1, betha>=1, gamma>=1في نيز مي تواند تسط user بسته به مقدار منابع محاسباتي كه در اختيار، تغيير داده شود.ميزان تواان محاسباتي با FLOPS سنجيده مي شود كه در واقع نشان دهنده‌ي ميزان تعداد عمليات محاسباتي شناور كه در يك ثانيه قابل انجام است، مي باشد. محدوديت alpha.betha^2.gama^2 = 2 به اين معني مي‌باشد كه ميزان FLOPS ها به ميزان 2^phi مي‌توواند افزايش يابد.معماريمعماري كه به عنوان baseline در نظر گرفته مي شود نيز از اهميت بسياري برخوردار است، زيرا efficient netمعماري baseline را تغييري نمي دهد و صرفا آن را scale مي‌كند. و علاوه بر آن به طور مثال اگر ‌Alexnet به عنوان ‌baseline استفاده شود، و بعد از تغيير scale با استفاده از عرض، طول و رزولوشن روي همان Alexnet مقايسه مي‌شود و ب شبكه‌ي ديگري به طور مثال مانند REsnet مقايسه نمي شود. پس بنابراين داشتن يك baseline مناسب نيز از اهميت ويژه اي برخوردار است.efficientNet داراي هفت ورژن مختلف مي باشد. كه ابتدا B0 را با استفاده از روش و معماري معرفي شده به دست مي آورده و آن را به عنوان baseline در نظر گرفته و سپس با دو گام ورژن هايي ديگر (B1-B7) را به دست مي آوريم.گام ها به صورت زير مي باشند:گام اولابتدا phi را ثابت و برابر يك در نظر ميگيريم، فرض مي كنيم كه دو برابر توان محاسباتي در اختيار داريم و با استفاده از يك grid search ، alpha ، beta و gamma مناسب را پيدا ميكنيم. با در نظر گرفتن شرط ذكر شده alpha.betha^2.gama^2 = 2 .گام دومدر اين قسمت آلفا، بتا و گاما را ثابت در نظر گرفته و با در نظر گرفتن phi هاي مختلف baseline يعني B0 را scale up مي نماييم.سوالي كه در اين جا مي توان مطرح نمود اين است كه آيا مي توان بدون در نظر گرفتن baseline و بر روي شبكه هاي بزرگ تر آلفا، بتا و گاماي مناسب را جستجو نمود؟امكان جستجو جود دارد، ولي از لحاظ محاسباتي بسيار گران مي شود. و اين مسدله با به دست آوردن مقاذ=دير مناسب بر روي baseline و سپس scale كردن آن به مدل هاي بزرگ تر به دست آمده است.نتايجهمان طور كه در شكل 4 مي‌توان مشاهده نمود، دقت efficientnet نسبت به بقيه مدل ها بيشتر مي باشد.شكل 4: دقت EfficientNetسوالي كه پيش مي‌آيد اين است كه آيا ممكن است نتايج به دست آمده صرفا به خاطر معماري نمي باشد، آيا EfficientNet مدل هارا بهبود بخشيده است؟نويسندگان مقاله روش خود را بر روي چندين مدل پياده سازي كرده و نتايج مشابهي به دست آورده اند كه مي توان در شكل 5 مشاهده نمود. با توجه به اينكه پس از اعمال روش efficient net بر روي مدل هاي مختلف، دقت بهبود پيدا كرده است، بنابراين مي توان اين روش وافزايش دقت توسط آن را به تمامي مدل ها تعميم داد.شكل 5: ورژن هاي مختلف EfficientNetو همان طور كه در شكل 5 مي‌تان مشاهده نمود ‌EfficientNet در تمام ورژن‌هاي خود از مدل هاي ديگر داراي دقت بيشتر، مقدار پارامتر كمتر و FLOPS كمتري مي باشد. EfficientNet B7 به دقت 84.3% كه state-of-the-art مي باشد رسيده است و8.4x كوچك تر و 6.1x سريع تر مي باشد.براي اينكه به صورت تصويري نيز بتوانيم نتياج را مشاهده كنيم، مي توان در شكل 6 Activaton Map را مشاهده نمود. كه همان طور كه مشخص مي باشد با اضافه نمودن هر كدام از ويژگي هاي عمق، عرض و رزولوشن نتايج تا حدودي بهبود يافته اند، و زماني كه از روش معرفي شده در اين مقاله compound scaling براي scale كردن شبكه استفاده شده است مشاهده مي شود كه نسبت به سه روش قبلي بهبود چشم گيري ايجاد شده است.شكل 6: Activation Map EfficientNetنكات تكميليدر اين مقاله از يك سري ايده براي طراحي شبكه آن استفاده شده است كه در ادامه از اين شيوه هارا نام مي بريم:building block is mobile inverted bottleneck MBConvsqueeze-and-excitation optimizationstochastic depthEfﬁcientNetV2: Smaller Models and Faster Trainingدر كارهاي اخير با توجه به اينكه تعداد پارامترهاي مدل بيشتر و ميزان FLOPS در آن ها بيشتر است نسبت به EfficientNet با اين حال سرعت آموزش بهتري دارند. بنابراين در اين مقاله، به بررسي علل كند بودن و ايرادات EfficientNet1 پرداختن و چند ايده براي تسريع و بهبود پارامتر شيوه ي ارائه شده در مقاله مطرح شده است، مانند Fused-MBConv ، Progressive Learning ، بهينه كردن سرعت يادگيري و راندمان پارامتر ها كه در ادامه به بررسي آن ها مي‌پردازيم.بررسي EfficientNet1با بررسي EfficientNet1 به اين مسئله پي بردند كه:آموزش دادن شبكه كه ورودي آن ها عكس هايي با سايز بزرگ مي باشند كند است.در لايه هاي اوليه ‌depth-wise convolution كند مي باشد.در همه ي قسمت هاي شبكه Scale up كردن به صورت يكسان بهينه‌ي كامل نمي باشد.براي حل اين مشكلات راه كار هايي در اين مقاله ارائه شده است بدين صورت كه به صورت همزمان دقت، سرعت و سايز پارامتر هارا بهينه نمايد. در اين مقاله سعي شده است سرعت يادگيري و سايز پارامتر به صورت صريح در objective بهينه شوند.كند بودن آموزش شبكه با عكس هاي سايز بزرگهر چقدر عكس هاي ورودي سايز بزرگ تري داشته باشند، batch size قابل استفاده كوچك تر مي باشد. بنابرابن سرعت آموزش نيز كاهش مي يابد. در ادامه به بررسي شيوه اي براي حل اين مشكل مي‌پردازيم كه به صورت تصاعدي، سايز عكس ورودي را افزايش و ار روش هايي مانند data augmentation و dropout نيز استفاده مي‌شود.كند بودن depth-wise convolutionدر لايه هاي اولبراي بهبود سرعت مي توان از Fused-MBConv به جاي MBConv استفاده نمود. همان طور كه در شكل 7 مي توان مشاهده كرد، به جاي depthwise conv 3x3 و expantion conv 1x1x يك conv 3x3 جايگزين شده است.متد Fused-mbconvمي تواند باعث افزايش سرعت شود ولي از طرفي باعث افزايش Flops و پارامتر ها مي‌شود كه باعث كاهش سرعت مي‌شود. پس بنابراين براي به دست آوردن جواب بهينه به دنبال بهترين تركيب دو ماژول MBConv و Fused-MBConvd هستيم.شكل 7: بررسي Mbcov و Fused-MBConvاگر همه ي لايه هاي شبكه را Scale up كنيم بهينه ي كامل نمي باشد بنابراين به صورت non-uniform شبكه را scale مي‌كنيم كه بهينه تر است. بدين صورت كه به قسمت هاي انتهايي لايه‌هاي بيشتري اضافه مي‌شود.معماري و متد جستجوهدف اين مقاله به صورت همزمان بهينه كردن دقت و سايز پارامتر‌ ها مي‌باشد.و از EfficientNetبه عنوان backbone استفاده شده است. از متد NAS براي جستجو استفاده نمده اين ك سايز فضاي جستجو را با حذف نمودن قسمت هايي كه ضروري نبودند كاهش داده‌ايم. چون فضاي حالت كوچك است ميتوان از reinforcement learning يا جستجوي رندم استفاده نمود. پاداش جستجو به صورت زير مي باشد:A . S^w . p^vP = parameter sizeS = time stepW = -0.07V = -0.05به دليل اينكه w و v منفي مي باشند براي به دست آوردن پاداش بهينه، مي‌بايست مقادير S و P به سمت صفر ميل كنند. در واقع هر جقدر كوچك تر باشند بهتر است. به عنوان يك هيوريستيك نيز براي قسمت هاي انتهايي لايه‌هاي بيشتري اضافه مي كنيم.progressive Learningفرضيه موجود در اين مقاله به اين صورت بود كه، براي جلوگيري از overfittingعكس هاي كوچك تر regularization كم تر و عكس هايي كه بزرگ تر هستند نياز به regularization بيشتري دارند.شكل 8: دقت به ازاي سايز مدل و ميران regularizationهمان طور كه در شكل 8 مي توان مشاهده نمود، با افزايش سايز مدل، هر چقدر ميزان regularization بيشتر باشد، دق به دست آمده نيز بيشتر است.بنابراين شيوه ي استفاده شده بدين صورت مي باشد كه به ازاي تعداد گام هايي كه داريم، سايز عكس و شدت regularization درهر گام افزايش پيدا مي‌كند.انواع regularizationDropout:رگولاريزيشن در سطح شبكه هست كه به صورت رندم يك كانال را حذف مي كندRandaugment: آگمنتيشن رندم بر روي يك عكس، با ميزان مشخصmixup:در اين نوع از augmentation، دو جت عكس داريم با استفاده از يك ضريب به تركيب اين دوعكس و تركيب ليبل آن‌ها با همان ضريب مي‌پردازيم.زمان پيش بيني مدل مي‌بايست درصد تركيب دو عكس را پيش بيني نمايد.نتايجدقت EfficentNet2 تقريبا برابر با EfficientNet1B7 مي‌باشد با اين تفاوت كه با استفاده از منبع محاسباتي يكسان 11x سريع تر است. فرزانه حاتمي‌نژاد فرزانه حاتمي‌نژاد Fri, 03 Jun 2022 01:59:39 +0430