برگرفته از مقاله https://machinelearningmastery.com/an-introduction-to-feature-selection/
نام دیگر Feature Selection یا انتخاب ویژگی، انتخاب متغیر یا variable selection یا attribute selection است.
انتخاب ویژگی در واقع فرایند انتخاب زیرمجموعه ای از ویژگی های مرتبط برای ساخت مدل است.
انتخاب ویژگی با Dimensionality reduction یا کاهش بعد تفاوت دارد. هر دو روش به دنبال کاهش تعداد ویژگی های دیتاست هستند ولی کاهش بعد این کار را با ترکیب ویژگی ها انجام می دهد در حالیکه انتخاب ویژگی این کار را با گنجاندن و یا حذف ویژگیهای حاضر این کار را انجام می دهد و تغییری در داده ها ایجاد نمی نماید.
روش های Principal Component Analysis و Singular Value Decomposition و Sammon's Mapping نمونه هایی از روش های کاهش بعد هستند.
سه دسته الگوریتم های انتخاب ویژگی عبارتند از: روش های فیلتری (Filter methods)، روش های رپر (Wrapper methods) و روش های تعبیه شده (Embeded methods)
این روش ها از یک معیار آماری برای تخصیص یک score به هر ویژگی استفاده می نمایند. ویژگی ها با این score امتیازدهی می شوند و برای نگه داشتن و یا حذف از دیتاست انتخاب می شوند. این روش ها غالبا تک متغیره (univariate) هستند و هرویژگی را به صورت مستقل و یا با توجه به متغیرهای وابسته دیگر در نظر می گیرند.
تعدادی از روش های این دسته عبارتند از Chi squared test، information gain و correlation coefficient scores.
این روش ها مساله انتخاب ویژگی را به عنوان یک مساله جستجو در نظر می گیرند. در این روش ترکیب های مختلفی آماده می شوند، مورد ارزیابی قرار می گیرند و با ترکیب های دیگر مقایسه می شوند. یک مدل پیش بینی برای ارزیابی ترکیبی از ویژگی ها و تخصیص یک score بر پایه دقت به کار می رود.
فرایند جستجو ممکنه است بر مبنای یک متدولوژی باشد مانند جستجوی best-first باشد، ممکن است تصادفی باشد مانند الگوریتم random hill-climbing و یا ممکن است heuristic باشد مانند گذرهای forward و backward برای اضافه و یا حذف کردن ویژگی ها.
این روش ها یاد می گیرند که کدام ویژگی ها بهتر در دقت مدل سهیم می شوند، در حالیکه مدل در حال ایجاد است. رایج ترین متدهای این گروه Regularization ها هستند.
روش های Regularization ، که به آنها روش های Penalization نیز گفته می شود، محدودیت های اضافه ای را برای بهینه سازی یک الگوریتم پیش بینی (مانند یک الگوریتم regression) معرفی می نمایند که مدل را به سمت پیچیدگی کمتر (ضرایب کمتر) سوق می دهند.
مثال هایی از الگوریتم های regularization عبارتند از LASSO، Elastic Net و Ridge Regression.
نکته: توجه داشته باشید که انتخاب ویژگی یک گام کلیدی در فرایند یادگیری ماشین کاربردی مانند انتخاب مدل است و نمی توان آن را فراموش کرد. انتخاب ویژگی باید بر روی دیتاستی یخ غیر از دیتاست آموزشی انجام شود در غیر اینصورت ممکنه است باعث overfitting شود.
منبع
https://machinelearningmastery.com/an-introduction-to-feature-selection/