ما فاکتورهای زیادی داریم که کلاسه بندی نهایی بر اساس آن ها انجام می شود. این عوامل اساساً به عنوان متغیر شناخته می شوند. هرچه تعداد ویژگی ها بیشتر باشد ، تجسم مجموعه آموزش و سپس کار بر روی آن دشوارتر می شود. کاهش ابعاد را میتوان به انتخاب ویژگی و استخراج تقسیم کرد.بعضی اوقات ، بیشتر این ویژگی ها با هم مرتبط هستند و لذا ویژگی زائد تلقی می شوند. این جاست که الگوریتم های کاهش ابعاد بکار گرفته می شوند.
تجزیه تحلیل مولفه اصلی (PCA)
تفکیک کننده خطی (LDA)
تعمیم تحلیل تمایزی (GDA)
فضا، زمان و ذخیرهسازی مورد نیاز را کاهش میدهد.
از بین بردن چند ستون، عملکرد مدل یادگیری ماشین را بهبود میبخشد.
هنگامی که به ابعاد بسیار کم مانند 2D یا 3D تبدیل میشود، دادهها به راحتی قابل مشاهده است.
اساساً ممکن است منجر به از دست رفتن داده ها شود.
اگرچه ، PCA تمایل دارد بین متغیرها همبستگی خطی پیدا کند ، که گاهی اوقات این کار نامطلوب است.
همچنین ، PCA در مواردی که میانگین و کوواریانس برای تعریف مجموعه داده کافی نباشد ، موفق عمل نمی کند.
بعلاوه ، ممکن است ندانیم که باید چند مولفه اصلی را نگه داریم – در عمل ، برخی قوانین سرانگشتی اعمال می شود.
۱-انتخاب ویژگی ۲-استخراج ویژگی
۱-انتخاب ویژگی:
انتخاب ویژگی روشی است که برای پیدا کردن یک زیر مجموعه از متغیرهای اصلی تلاش میکند.
برای این عمل سه استراتژی وجود دارد: استراتژی فیلتر (به عنوان مثال افزایش اطلاعات)، استراتژی بستهبندی (به عنوان مثال جستجوهایی با دقت هدایت شونده) و استراتژی جاسازی شده (ویژگیها برای ساختن مدل بر اساس اشتباهات پیش بینی، انتخاب میشوند تا اضافه شوند یا حذف شوند).
دادهها را در فضای با ابعاد بزرگ به یک فضای ابعاد کمتر تبدیل میکند. تحول دادهها میتواند خطی باشد، همانطور که در تجزیه و تحلیل مولفه اصلی (PCA)، اما بسیاری از تکنیکهای کاهش اندازه غیر خطی نیز وجود دارد. برای دادههای چند بعدی، نمایندگی تانسور را میتوان در کاهش ابعاد از طریق یادگیری زیر فضای چند لاین استفاده کرد.
مقادیر از دست رفته
هنگام جستجو در داده ها ، اگر با مقادیر از دست رفته مواجه شویم ، در اولین قدم باید دلیل آن را شناسایی کنیم. سپس باید مقادیر از دست رفته / متغیرهای حذف شده را با استفاده از روش های مناسب پیدا کرد.
درخت تصمیم
این روش، یکی از تکنیک های پرطرفدار است. ما می توانیم از آن به عنوان یک راه حل نهایی برای مقابله با چالش های متعددی مانند از دست دادن مقادیر ، داده های پرت و شناسایی متغیرهای مهم استفاده کنیم. متخصصین داده زیادی از درخت تصمیم استفاده کردند و نتایج خوبی گرفتند.
جنگل تصادفی
جنگل تصادفی مشابه درخت تصمیم است. فقط مراقب باشید که جنگل های تصادفی تمایل به متغیرهایی دارند که مقادیر مجزای بیشتری داشته باشد، یعنی متغیرهای عددی را نسبت به مقادیر باینری / دسته ای ترجیح می دهیم.
همبستگی زیاد
ابعادی که همبستگی بالاتری دارند می توانند عملکرد مدل را کاهش دهند. علاوه بر این ، داشتن چند متغیر از اطلاعات مشابه خوب نیست. برای شناسایی متغیرهای با همبستگی بالا ، می توانید از ماتریس همبستگی Pearson استفاده کنید.
حذف ویژگی برگشتی
در این روش ، ما با تمام n بُعد شروع می کنیم. مجموع یک مربع خطا ( SSR ) را پس از حذف هر متغیر (n بار) محاسبه می کنیم. سپس ، متغیرهایی که حذف آنها کمترین افزایش را در SSR ایجاد کرده است، شناسایی می شوند. و درنهایت آن ها را حذف کرده و n-1 ویژگی ورودی را در اختیار ما قرار می دهد.
تحلیل عاملی
این متغیرها را می توان براساس همبستگی هایشان گروه بندی کرد. در اینجا هر گروه، یک ساختار یا عامل اساسی واحد را نشان می دهد. این عوامل در مقایسه با تعداد زیادی ابعاد ، تعداد کمی دارند. با این حال ، مشاهده این عوامل دشوار است. در واقع دو روش برای انجام تحلیل عاملی وجود دارد:
EFA ( تحلیل عاملی اکتشافی )
CFA ( تحلیل عاملی تأییدی )
به طور خاص ، در این مورد باید متغیرها را به مجموعه متغیرهای جدید تبدیل کنیم. از آنجا که این متغیرها، ترکیبی خطی از متغیرهای اصلی هستند، لذا این مجموعه متغیرهای جدید ، مولفه های اصلی نامیده می شوند. بعلاوه ، ما باید این موارد را به روش خاصی بدست آوریم. به عنوان اولین مولفه اصلی ، تغییرات احتمالی داده های اصلی را حساب می کنیم. پس از آن هر مولفه برنده، بالاترین واریانس ممکن را دارد.
مولفه اصلی دوم باید عمود بر مولفه اصلی اول باشد. برای مجموعه داده های دو بعدی ، فقط دو مولفه اصلی وجود دارد. در شکل زیر، داده ها و اولین و دومین مولفه اصلی آن ها نشان داده شده است. با اعمال PCA بر روی مجموعه داده ها، داده ها معنای قبلی خود را از دست می دهند.
تکنیک کاهش ابعادی که گاهی در علوم اعصاب استفاده میشود، ابعاد حداکثر آموزنده است که یک نمایندهٔ پایینتر از یک مجموعه داده را نشان میدهد تا اطلاعاتی که ممکن است در مورد دادههای اصلی حفظ شود.
#Iran-Ai