داده کاوی - قسمت هشتم


تحلیل خوشه‌بندی

برخلاف دسته‌بندی و رگرسیون که مجموعه داده‌های دارای برچسب دسته (آموزشی) را تحلیل میکنند، خوشه‌بندی مجموعه داده‌هایی بدون برچسب دسته را تحلیل می‌کنند. در بسیاری از موارد داده‌های دارای برچسب دسته ممکن است در ابتدا وجود نداشته باشند. در چنین شرایطی می‌توان از خوشه‌بندی برای تولید گروه‌هایی از داده‌ها استفاده نمود. در این روش داده‌ها با استفاده از حداکثر نمودن شباهت داده‌های درون خوشه و حداقل نمودن شباهت داده‌ها در خوشه‌های مختلف، گروه‌بندی و یا خوشه‌بندی می‌شوند. به این ترتیب داده‌های درون یک خوشه دارای شباهت بالایی نسبت به یکدیگر هستند و این در حالی است که با داده‌های درون سایر خوشه‌ها دارای تمایز و عدم شباهت هستند. هر کدام از خوشه‌های تولید شده را می توان یک دسته از داده‌ها در نظر گرفت و قوانین مختلف را برای آنها نیز تولید نمود. همچنین از خوشه‌بندی می‌توان برای تولید یک ساختار طبقه‌بندی استفاده نمود که می‌توان از آن گروه‌های شبیه به هم را برای سازمان‌دهی سلسله مراتبی دسته‌ها تولید نمود.


مثال 1-9: تحلیل خوشه‌بندی

تحلیل خوشه‌بندی را می‌توان در مورد داده‌های مشتریان شرکت آل‌الکترونیکس برای شناسایی گروه‌های همگن مشتریان استفاده نمود. این خوشه‌ها ممکن است برای نشان‌دادن گروه‌های هدف بازاریابی به کار روند. در تصویر 1-10 یک نمودار دو بعدی مشتریان(ابعاد مکان نمای محل زندگی مشتریان در شهر هستند) شرکت نمایش داده شده است. در این نمودار سه خوشه عمده قابل مشاهده است.

تحلیل خوشه‌بندی موضوع دو فصل 3 و 4 جلد دوم کتاب است.


تحلیل داده‌های دورافتاده

هر مجموعه داده‌ای ممکن است شامل داده‌هایی باشد که از رفتار کلی و مدل داده‌ها پیروی نکنند. چنین داده‌هایی، دورافتاده نام دارند. روش‌های متنوع داده‌کاوی وجود دارد که چنین داده‌هایی را به عنوان داده دارای اختلال و یا استثنا، شناسایی می‌کنند. با وجود این در برخی مسائل (مانند شناسایی کلاهبرداری) موارد نادر مورد توجه می‌باشند. تحلیل داده‌های دورافتاده را تحلیل دورافتاده - Outlier Analysis - یا شناسایی داده‌های غیرطبیعی - Anomaly mining- می‌گویند.

داده‌های دورافتاده را می‌توان با استفاده از آزمون‌های آماری با ارزیابی توزیع داده‌ها یا مدل‌های احتمالی و سنجش فاصله (داده‌های دور از هر خوشه‌ای، به عنوان دورافتاده شناسایی می‌شوند) شناسایی نمود. علاوه بر سنجش فاصله و یا استفاده از روش‌های آماری، ممکن است از روش‌های مبتنی بر چگالی نیز برای شناسایی داده‌های دورافتاده منطقه‌ای (داده‌هایی که ممکن است برای توزیع آماری سراسری یک داده معمولی باشند ولی به صورت محلی دورافتاده باشند) استفاده نمود.


مثال1-10 - تحلیل داده‌های دورافتاده

تحلیل داده‌های دورافتاده ممکن است برای شناسایی استفاده‌های کلاه‌بردارانه از کارت‌های اعتباری استفاده شود. این کار با شناسایی خریدهای غیرعادی (خریدهایی که مقادیری بیش از مقدار خریدهای معمول صاحب حساب باشند) یک حساب صورت می پذیرد. داده‌های دورافتاده ممکن است با توجه به مکان، نوع خرید و یا تناوب خرید نیز شناسایی شوند.

تحلیل داده‌های دورافتاده در فصل 5 جلد دوم کتاب مورد بحث قرار خواهند گرفت.