خواندن ۳ دقیقه·۴ سال پیش

مقدمه ای بر انتخاب ویژگی

برگرفته از مقاله https://machinelearningmastery.com/an-introduction-to-feature-selection/

نام دیگر Feature Selection یا انتخاب ویژگی، انتخاب متغیر یا variable selection یا attribute selection است.

انتخاب ویژگی در واقع فرایند انتخاب زیرمجموعه ای از ویژگی های مرتبط برای ساخت مدل است.

تفاوت انتخاب ویژگی و کاهش بعد

انتخاب ویژگی با Dimensionality reduction یا کاهش بعد تفاوت دارد. هر دو روش به دنبال کاهش تعداد ویژگی های دیتاست هستند ولی کاهش بعد این کار را با ترکیب ویژگی ها انجام می دهد در حالیکه انتخاب ویژگی این کار را با گنجاندن و یا حذف ویژگیهای حاضر این کار را انجام می دهد و تغییری در داده ها ایجاد نمی نماید.

روش های Principal Component Analysis و Singular Value Decomposition و Sammon's Mapping نمونه هایی از روش های کاهش بعد هستند.

انتخاب ویژگی چگونه به ما کمک می کند؟

روش های انتخاب ویژگی به ما کمک می کنند تا یک مدل پیش بینی صحیح با کمترین داده و بهترین دقت بسازیم.
روش های انتخاب ویژگی به ما کمک می کنند تا ویژگی های غیر ضروی، غیرمرتبط و اضافی را که تاثیری در دقت مدل پیش بینی ندارند و حتی ممکن است باعث کاهش دقت مدل شوند را شناسایی و حذف نماییم.
ویژگی های کمتر همیشه برای ما مطلوب تر است زیرا پیچیدگی مدل را کاهش می دهد و مدل ساده تر قابل فهم تر و قایل توصیف تر است.
انتخاب ویژگی سه هدف مهم دارد: بهبود کارایی پیش بینی کننده ها، فراهم کردن پیش بینی کننده های سریع تر و مقرون به صرفه تر و فراهم کردن درک بهتری از فرایند تولید داده.

الگوریتم های انتخاب ویژگی

سه دسته الگوریتم های انتخاب ویژگی عبارتند از: روش های فیلتری (Filter methods)، روش های رپر (Wrapper methods) و روش های تعبیه شده (Embeded methods)

Filter Methods

این روش ها از یک معیار آماری برای تخصیص یک score به هر ویژگی استفاده می نمایند. ویژگی ها با این score امتیازدهی می شوند و برای نگه داشتن و یا حذف از دیتاست انتخاب می شوند. این روش ها غالبا تک متغیره (univariate) هستند و هرویژگی را به صورت مستقل و یا با توجه به متغیرهای وابسته دیگر در نظر می گیرند.

تعدادی از روش های این دسته عبارتند از Chi squared test، information gain و correlation coefficient scores.

Wrapper Methods

این روش ها مساله انتخاب ویژگی را به عنوان یک مساله جستجو در نظر می گیرند. در این روش ترکیب های مختلفی آماده می شوند، مورد ارزیابی قرار می گیرند و با ترکیب های دیگر مقایسه می شوند. یک مدل پیش بینی برای ارزیابی ترکیبی از ویژگی ها و تخصیص یک score بر پایه دقت به کار می رود.

فرایند جستجو ممکنه است بر مبنای یک متدولوژی باشد مانند جستجوی best-first باشد، ممکن است تصادفی باشد مانند الگوریتم random hill-climbing و یا ممکن است heuristic باشد مانند گذرهای forward و backward برای اضافه و یا حذف کردن ویژگی ها.

Embeded Methods

این روش ها یاد می گیرند که کدام ویژگی ها بهتر در دقت مدل سهیم می شوند، در حالیکه مدل در حال ایجاد است. رایج ترین متدهای این گروه Regularization ها هستند.

روش های Regularization ، که به آنها روش های Penalization نیز گفته می شود، محدودیت های اضافه ای را برای بهینه سازی یک الگوریتم پیش بینی (مانند یک الگوریتم regression) معرفی می نمایند که مدل را به سمت پیچیدگی کمتر (ضرایب کمتر) سوق می دهند.

مثال هایی از الگوریتم های regularization عبارتند از LASSO، Elastic Net و Ridge Regression.

نکته: توجه داشته باشید که انتخاب ویژگی یک گام کلیدی در فرایند یادگیری ماشین کاربردی مانند انتخاب مدل است و نمی توان آن را فراموش کرد. انتخاب ویژگی باید بر روی دیتاستی یخ غیر از دیتاست آموزشی انجام شود در غیر اینصورت ممکنه است باعث overfitting شود.

منبع

https://machinelearningmastery.com/an-introduction-to-feature-selection/

انتخاب ویژگی

باران سیل سپور

سلام. من باران هستم دانشجوی دکترای رشته مهندسی نرم افزار و بسیار علاقمند به مباحث علم داده، یادگیری ماشین، یادگیری عمیق و پردازش زبان طبیعی

شاید از این پست‌ها خوشتان بیاید