خواندن ۴ دقیقه·۳ سال پیش

کاهش ابعاد در علم داده

کاهش ابعاد چیست؟

ما فاکتورهای زیادی داریم که کلاسه بندی نهایی بر اساس آن ها انجام می شود. این عوامل اساساً به عنوان متغیر شناخته می شوند. هرچه تعداد ویژگی ها بیشتر باشد ، تجسم مجموعه آموزش و سپس کار بر روی آن دشوارتر می شود. کاهش ابعاد را می‌توان به انتخاب ویژگی و استخراج تقسیم کرد.بعضی اوقات ، بیشتر این ویژگی ها با هم مرتبط هستند و لذا ویژگی زائد تلقی می شوند. این جاست که الگوریتم های کاهش ابعاد بکار گرفته می شوند.

روش های کاهش ابعاد:

تجزیه تحلیل مولفه اصلی (PCA)

تفکیک کننده خطی (LDA)

تعمیم تحلیل تمایزی (GDA)

مزایای استفاده از کاهش ابعاد

فضا، زمان و ذخیره‌سازی مورد نیاز را کاهش می‌دهد.

از بین بردن چند ستون، عملکرد مدل یادگیری ماشین را بهبود می‌بخشد.

هنگامی که به ابعاد بسیار کم مانند 2D یا 3D تبدیل می‌شود، داده‌ها به راحتی قابل مشاهده است.

معایب کاهش ابعاد

اساساً ممکن است منجر به از دست رفتن داده ها شود.

اگرچه ، PCA تمایل دارد بین متغیرها همبستگی خطی پیدا کند ، که گاهی اوقات این کار نامطلوب است.

همچنین ، PCA در مواردی که میانگین و کوواریانس برای تعریف مجموعه داده کافی نباشد ، موفق عمل نمی کند.

بعلاوه ، ممکن است ندانیم که باید چند مولفه اصلی را نگه داریم – در عمل ، برخی قوانین سرانگشتی اعمال می شود.

دو عامل کاهش ابعاد عبارتند از :

۱-انتخاب ویژگی ۲-استخراج ویژگی

۱-انتخاب ویژگی:

انتخاب ویژگی روشی است که برای پیدا کردن یک زیر مجموعه از متغیرهای اصلی تلاش می‌کند.

برای این عمل سه استراتژی وجود دارد: استراتژی فیلتر (به عنوان مثال افزایش اطلاعات)، استراتژی بسته‌بندی (به عنوان مثال جستجوهایی با دقت هدایت شونده) و استراتژی جاسازی شده (ویژگی‌ها برای ساختن مدل بر اساس اشتباهات پیش بینی، انتخاب می‌شوند تا اضافه شوند یا حذف شوند).

۲-استخراج ویژگی:

داده‌ها را در فضای با ابعاد بزرگ به یک فضای ابعاد کمتر تبدیل می‌کند. تحول داده‌ها می‌تواند خطی باشد، همان‌طور که در تجزیه و تحلیل مولفه اصلی (PCA)، اما بسیاری از تکنیک‌های کاهش اندازه غیر خطی نیز وجود دارد. برای داده‌های چند بعدی، نمایندگی تانسور را می‌توان در کاهش ابعاد از طریق یادگیری زیر فضای چند لاین استفاده کرد.

روش های معمول برای انجام کاهش ابعاد:

مقادیر از دست رفته

هنگام جستجو در داده ها ، اگر با مقادیر از دست رفته مواجه شویم ، در اولین قدم باید دلیل آن را شناسایی کنیم. سپس باید مقادیر از دست رفته / متغیرهای حذف شده را با استفاده از روش های مناسب پیدا کرد.

درخت تصمیم

این روش، یکی از تکنیک های پرطرفدار است. ما می توانیم از آن به عنوان یک راه حل نهایی برای مقابله با چالش های متعددی مانند از دست دادن مقادیر ، داده های پرت و شناسایی متغیرهای مهم استفاده کنیم. متخصصین داده زیادی از درخت تصمیم استفاده کردند و نتایج خوبی گرفتند.

جنگل تصادفی

جنگل تصادفی مشابه درخت تصمیم است. فقط مراقب باشید که جنگل های تصادفی تمایل به متغیرهایی دارند که مقادیر مجزای بیشتری داشته باشد، یعنی متغیرهای عددی را نسبت به مقادیر باینری / دسته ای ترجیح می دهیم.

همبستگی زیاد

ابعادی که همبستگی بالاتری دارند می توانند عملکرد مدل را کاهش دهند. علاوه بر این ، داشتن چند متغیر از اطلاعات مشابه خوب نیست. برای شناسایی متغیرهای با همبستگی بالا ، می توانید از ماتریس همبستگی Pearson استفاده کنید.

حذف ویژگی برگشتی

در این روش ، ما با تمام n بُعد شروع می کنیم. مجموع یک مربع خطا ( SSR ) را پس از حذف هر متغیر (n بار) محاسبه می کنیم. سپس ، متغیرهایی که حذف آنها کمترین افزایش را در SSR ایجاد کرده است، شناسایی می شوند. و درنهایت آن ها را حذف کرده و n-1 ویژگی ورودی را در اختیار ما قرار می دهد.

تحلیل عاملی

این متغیرها را می توان براساس همبستگی هایشان گروه بندی کرد. در اینجا هر گروه، یک ساختار یا عامل اساسی واحد را نشان می دهد. این عوامل در مقایسه با تعداد زیادی ابعاد ، تعداد کمی دارند. با این حال ، مشاهده این عوامل دشوار است. در واقع دو روش برای انجام تحلیل عاملی وجود دارد:

EFA ( تحلیل عاملی اکتشافی )

CFA ( تحلیل عاملی تأییدی )

تحلیل مولفه های اصلی ( PCA )

به طور خاص ، در این مورد باید متغیرها را به مجموعه متغیرهای جدید تبدیل کنیم. از آنجا که این متغیرها، ترکیبی خطی از متغیرهای اصلی هستند، لذا این مجموعه متغیرهای جدید ، مولفه های اصلی نامیده می شوند. بعلاوه ، ما باید این موارد را به روش خاصی بدست آوریم. به عنوان اولین مولفه اصلی ، تغییرات احتمالی داده های اصلی را حساب می کنیم. پس از آن هر مولفه برنده، بالاترین واریانس ممکن را دارد.

مولفه اصلی دوم باید عمود بر مولفه اصلی اول باشد. برای مجموعه داده های دو بعدی ، فقط دو مولفه اصلی وجود دارد. در شکل زیر، داده ها و اولین و دومین مولفه اصلی آن ها نشان داده شده است. با اعمال PCA بر روی مجموعه داده ها، داده ها معنای قبلی خود را از دست می دهند.

برنامه‌های کاربردی

تکنیک کاهش ابعادی که گاهی در علوم اعصاب استفاده می‌شود، ابعاد حداکثر آموزنده است که یک نمایندهٔ پایین‌تر از یک مجموعه داده را نشان می‌دهد تا اطلاعاتی که ممکن است در مورد داده‌های اصلی حفظ شود.

#Iran-Ai

هوش مصنوعیکاهش ابعادعلم دادهماشین لرنینگ

Mahdi Shabani

Iran-ai

شاید از این پست‌ها خوشتان بیاید