مفاهیم پرکاربرد داده کاوی و یادگیری ماشین – بخش اول

SVM ماشین بردار پشتیبانی

یکی از روشهای نسبتاً نوین در سالهای اخیر که کارایی خوبی را به نسبت سایر روشها در طبقه بندی دارد. مبنای کار این روش دسته بندی خطی دادهها است و در تقسیم خطی دادهها تلاش میشود خطی انتخاب شود که جاشیه اطمینان بیشتری داشته باشد. پیش از تقسیم خطی برای اینکه ماشین بتواند دادهها با پیچیدگی بالا را دسته بندی کند دادهها را به بواسطه یک تابع به فضای دیگر منتقل میکنند. از این الگوریتم در مواقعی که نیاز به تشحیص اکو یا دسته بندی اشیا در کلاسهای خاص باشد میتوان استفاده کرد.

K-means

یک الگوریتم خوشه بندی مبتنی بر فاصله است که دادهها را به تعدادی از پیش تعیین شده از خوشه ها پارتیشن بندی می نماید. هر خوشه دارای یک مرکز (مرکز ثقل) است.

فاکتور بندی ماتریس غیر منفی (NMF)

NMF صفات جدید را با استفاده از ترکیبات خطی از صفات اصلی تولید مینماید. ضرایب ترکیبات خطی، غیر منفی است. در طی اعمال مدل ،یک مدل NMF، داده های اصلی را به مجموعه ای جدید از ویژگیهای کشف شده توسط مدل نگاشت میکند. به عنوان مثال، با توجه به اطلاعات دموگرافیک در مورد مجموعه ای از مشتریان، صفات را برای ویژگیهای کلی مشتریان گروه بندی نمایید

مدلهای خطی تعمیم یافته یا Generalized Linear Models

GLM، رگرسیون لجستیک را برای طبقه بندی اهداف باینری و رگرسیون خطی برایاهداف مستمر پیاده سازی میکند. طبقه بندی GLM از مرزهای اعتماد برای احتمالات پیش بینی پشتیبانی میکند. رگرسیون GLM از مرزهای اعتماد برای پیش بینی پشتیبانی میکند

حداقل شرح طول یا MDL

MDL یک اصل انتخاب مدل نظری اطلاعات است .MDL فرض میکند که سادهترین، فشردهترین ارائه از اطلاعات، بهترین و محتملترین توضیح برای داده هاست

درختهای تصمیم گیری

درختهای تصمیم گیری، اطلاعات پیش بینی کننده را در قالب قوانین انسانی قابل درک استخراج مینمایند. این قوانین، به صورت عبارات اگر- آنگاه- درغیراینصورت میشوند؛ آنها تصمیماتی را توضیح میدهند که منجر به پیش بینی میشود

Bagging

در اصل برای ارزیابی میزان دقت تخمینهای تقریبی بکار گرفته شده در تکنیکهای داده کاوی از Bagging استفاده میشود. در این تکنیک به صورت مفروض است که داده آموزش مانند بسیاری از تکنیک نمونه یا نمایندهای از جامعه داده است تا روشهای گوناگون تحقق دادهها در یک جامعه داده شناسایی شود. این تکنیک دارای روش اختصاصی و مناسبی برای کار با دادههای حجیم است. مجموعه دادهها میتوانند با کمک این تکنیک به مجموعههای کوچکتری تقسیم شوند تا توسط دسته بندی کنندههای مختلف به کار گرفته شود. این زیر مجموعههای دادهای در دو بخش تصادفی و متوالی نیز بر مبنای میزان اهمیت آنها تولید میشوند. نمونه دادههایی در این تکنیک اهمیت پیدا میکنند که باعث تنوع در مجموعه دادهها شود .دادههای سخت نیز نوع دیگری از قدرت تشخیص قابل بحث در این تکنیک است. این امر نیز برای شناسایی دادههای آسان برای حذف از مجموعه دادهها کاربرد دارد.

 AdaBoost

روشی برای به کار گرفتن چند روش حل مسئله یادگیری و تجمیع آنها بر اساس خروجیهای همهی آنها است. این روش را میتوان معروفترین الگوریتم خانواده کلاسه کننده معرفی کرد که از جزو ده الگوریتم برتر داده کاوی محسوب میشود. این روش مانند ماشین بردار حاشیهها را افزایش میدهد. از این روش برای آموزش دسته بندی کنندهها استفاده میشود اما بعد از آموزش دسته بندی کنندهها برای شناخت دادههای سخت به کار گرفته میشود تا دسته بندی به شکل صحیح انجام شود. در ابتدای کار تمام سطرهای اطلاعاتی وزن یکسان دریافت میکنند که بر خلاف Bagging این کار صورت میگیرد. در نهایت کار این روش و تکنیک یک نمونه داده جدید با وزن پیشنهادی و برچسب کلاس بر اساس نظر اکثریتی انتخاب میشود.در بیان فنی میتوان گفت که این روش از ترکیب سه یاد گیرنده ضعیف یک یادگیرنده قوی را عرضه میکند

 Rotation Forest

این روش حل مسئله یا الگوریتم در سال 2006 به عنوان یک طبقه بندی کننده ترکیبی معرفی شده است و نظریه اصلی آن بهبود در تنوع و دقت به صورت همزمان بوده است. الگوریتم Boosting به دلیل اینکه بر نمونه دادههای سخت تمرکز میکند اصولاً از دقت بالایی برخوردار نیست و بر خلاف آن Bagging هم علی رغم داشتن دقت خوب تنوع خوبی در طبقههای پایه ندارد. این روش حل مسئله تنوع فراوانی از Bagging و دقت بالایی از Boosting و حتی Random Forest یا جنگل تصادفی دارد .این الگوریتم در ساخت دادههای آموزشی متفاوت برای هر طبقه بندی کننده ،ویژگیها را به چند بخش تقسیم میکند. پس از تحلیل مؤلفههای اساسی و نگهداری تمام مؤلفهها در ماتریس rotation برداری از ویژگیهای جدید ایجاد میکند تا دادههای آموزشی با استفاده از آن ماتریس در فضای جدیدی نگاشته شوند

 Decorate

یک یادگیرنده فراگیر برای ساخت مجموعه های متنوع طبقه بندیها با استفاده از نمونه های آموزش مصنوعی است .آزمایش های جامع نشان میدهد که این روش به طور مداوم دقیق تر از طبقه بندی پایه، Bagging و جنگلهای تصادفی است .این روش همچنین دقت بیشتری نسبت به ارتقاء در مجموعه های آموزشی کوچک کسب میکند و عملکرد قابل مقایسهای را در مجموعه های آموزشی بزرگ به دست آورده است . این روش با هر تکرار یک طبقه بندی جدید را ایجاد میکند. در تکرار اول طبقه بندی پایه و بعد هر طبقه بندی با استفاده از داده های آموزش مصنوعی ساخته میشود و نتیجه آن طبقه بندیهایی خواهد بود که به عنوان تنوع داده ها شناخته میشود.

 Random Subspace

از طبقه بندیهای چندگانهای که بر روی زیرمجموعههای تصادفی انتخاب شده و با آنها ترکیب شده تا در نهایت آنها را با یک روش رأی اکثریت رأی گیری به یک تصمیم نهایی تبدیل کند. هر کدام از طبقه بندیها تنها از یک زیر مجموعهی تمام ویژگیهای موجود که در دسترس است استفاده می کندکه در مجموعه دادههای آموزش و آزمایش قرار دارد. این ویژگیها در هر زیر مجموعه نیز به تصادفی انتخاب میشوند. بر اساس مطالعات تجربی نیز تعداد استاندارد ویژگیهای مورد استفاده برای بدست آوردن نتایج خوب، نصف تعداد کل ویژگیها است  .

Logestic Regresion

یک مدل آماری از رگرسیون است که برای متغیرهای وابسته با ویژگی دو سویه بودن معنا میشود. این مدل یک مدل خطی تعمیم یافته است که از تابع logitبرای پیوند آنها استفاده میکند و خطای آن از توزیع چند جملهای پیروی میکند. کاربرد این روش در ابتدا در حوزه پزشکی بوده است و برای احتمال وقوع بیماری استفاده میشده است. اما امروزه در تمام زمینههای علمی کاربرد فراوانی پیدا کرده است. این مدل آماری بر اساس فرضیه های کاملاً متفاوتی از رگرسیون خطی بوجود آمده است و تفاوت آن با مدل خطی نیز در دو ویژگی توزیع شرطی و مقادیر پیش بینی احتمالی است.

“دوستان عزیزم حتما در آینده توضیحات بیشتری خدمتتون تقدیم میکنم و حتی به شرح و بیان کاربرد های هر کدوم از مفاهیم مقاله با ذکر نمونه کد می پردازم. “

دوستان عزیزم تو سایتم منتظرتون هستم و تو کار هاتون تو حوزه های مرتبط رو کمکم حتما حساب کنید.

به امید پیشرو بودن شما دوستان عزیزم در حوزه های مختلف ;)

http://sciencehome.net/2019/06/02/%D9%85%D9%81%D8%A7%D9%87%DB%8C%D9%85-%D9%BE%D8%B1%DA%A9%D8%A7%D8%B1%D8%A8%D8%B1%D8%AF-%D8%AF%D8%A7%D8%AF%D9%87-%DA%A9%D8%A7%D9%88%DB%8C-%D9%88-%DB%8C%D8%A7%D8%AF%DA%AF%DB%8C%D8%B1%DB%8C-%D9%85%D8%A7/