لیسانس مهندسی صنایع/فوق لیسانس مدیریت کارآفرینی/دانشجوی دوره دیجیتال مارکتینگ/نوپای تولید محتوا
داده کاوی - قسمت هشتم
تحلیل خوشهبندی
برخلاف دستهبندی و رگرسیون که مجموعه دادههای دارای برچسب دسته (آموزشی) را تحلیل میکنند، خوشهبندی مجموعه دادههایی بدون برچسب دسته را تحلیل میکنند. در بسیاری از موارد دادههای دارای برچسب دسته ممکن است در ابتدا وجود نداشته باشند. در چنین شرایطی میتوان از خوشهبندی برای تولید گروههایی از دادهها استفاده نمود. در این روش دادهها با استفاده از حداکثر نمودن شباهت دادههای درون خوشه و حداقل نمودن شباهت دادهها در خوشههای مختلف، گروهبندی و یا خوشهبندی میشوند. به این ترتیب دادههای درون یک خوشه دارای شباهت بالایی نسبت به یکدیگر هستند و این در حالی است که با دادههای درون سایر خوشهها دارای تمایز و عدم شباهت هستند. هر کدام از خوشههای تولید شده را می توان یک دسته از دادهها در نظر گرفت و قوانین مختلف را برای آنها نیز تولید نمود. همچنین از خوشهبندی میتوان برای تولید یک ساختار طبقهبندی استفاده نمود که میتوان از آن گروههای شبیه به هم را برای سازماندهی سلسله مراتبی دستهها تولید نمود.
مثال 1-9: تحلیل خوشهبندی
تحلیل خوشهبندی را میتوان در مورد دادههای مشتریان شرکت آلالکترونیکس برای شناسایی گروههای همگن مشتریان استفاده نمود. این خوشهها ممکن است برای نشاندادن گروههای هدف بازاریابی به کار روند. در تصویر 1-10 یک نمودار دو بعدی مشتریان(ابعاد مکان نمای محل زندگی مشتریان در شهر هستند) شرکت نمایش داده شده است. در این نمودار سه خوشه عمده قابل مشاهده است.
تحلیل خوشهبندی موضوع دو فصل 3 و 4 جلد دوم کتاب است.
تحلیل دادههای دورافتاده
هر مجموعه دادهای ممکن است شامل دادههایی باشد که از رفتار کلی و مدل دادهها پیروی نکنند. چنین دادههایی، دورافتاده نام دارند. روشهای متنوع دادهکاوی وجود دارد که چنین دادههایی را به عنوان داده دارای اختلال و یا استثنا، شناسایی میکنند. با وجود این در برخی مسائل (مانند شناسایی کلاهبرداری) موارد نادر مورد توجه میباشند. تحلیل دادههای دورافتاده را تحلیل دورافتاده - Outlier Analysis - یا شناسایی دادههای غیرطبیعی - Anomaly mining- میگویند.
دادههای دورافتاده را میتوان با استفاده از آزمونهای آماری با ارزیابی توزیع دادهها یا مدلهای احتمالی و سنجش فاصله (دادههای دور از هر خوشهای، به عنوان دورافتاده شناسایی میشوند) شناسایی نمود. علاوه بر سنجش فاصله و یا استفاده از روشهای آماری، ممکن است از روشهای مبتنی بر چگالی نیز برای شناسایی دادههای دورافتاده منطقهای (دادههایی که ممکن است برای توزیع آماری سراسری یک داده معمولی باشند ولی به صورت محلی دورافتاده باشند) استفاده نمود.
مثال1-10 - تحلیل دادههای دورافتاده
تحلیل دادههای دورافتاده ممکن است برای شناسایی استفادههای کلاهبردارانه از کارتهای اعتباری استفاده شود. این کار با شناسایی خریدهای غیرعادی (خریدهایی که مقادیری بیش از مقدار خریدهای معمول صاحب حساب باشند) یک حساب صورت می پذیرد. دادههای دورافتاده ممکن است با توجه به مکان، نوع خرید و یا تناوب خرید نیز شناسایی شوند.
تحلیل دادههای دورافتاده در فصل 5 جلد دوم کتاب مورد بحث قرار خواهند گرفت.
مطلبی دیگر از این انتشارات
داده؛ نفت عصر جدید
مطلبی دیگر از این انتشارات
گزارش تحلیلی اندازه بازار شهر هوشمند (پیشبینی سال ۲۰۲۳ میلادی)
مطلبی دیگر از این انتشارات
پیشبینی دیابت با استفاده از درخت تصمیم «نرمافزار رپیدماینر»