خوشه بندی در داده کاوی در اصل نوعی روش یادگیری بدون نظارت است. یک روش یادگیری بدون نظارت روشی است که در آن ما از مجموعه داده های متشکل از داده های ورودی بدون برچسب به عنوان فرآیندی برای یافتن ساختار معنی دار، ویژگی های تولیدی و گروه بندی های ذاتی مجموعه ای از مثال ها استفاده میشود. خیلی ها معتقدند خوشه بندی همان group by در پایگاه داده هست... در واقع در group by دسته بندی براساس مقدار دقیق صورت می گیرد در حالی که در خوشه بندی و حالت خاص آن k-means دسته بندی براساس similarity و شباهت رخ می دهد. در group by با بالا رفتن ابعاد مساله دسته ها و گروه های کوچک و تک عضوی تشکیل می شود در حالی که در خوشه بندی توانایی استخراج و کشف الگوهای پنهان را دارد.
یکی از روش های رایج در خوشه بندی، الگوریتم HDBSCAN است.
خوشه بندی با الگوریتم HDBSCAN خیلی جاها از جمله تحلیل داده های جغرافیایی و تحلیل متن کاربرد داره... دو پارامتر مهم min_cluster_size و min_samples بر رفتار مدل HDBSCAN تأثیر داره توی این پست سعی کردم کمی در مورد آنها بنویسم:
min_cluster_size چیست؟
این پارامتر، حداقل تعداد نقاط داده برای تشکیل یک خوشه را تعیین میکند.
اگر خوشهای نتواند به این حداقل برسد، بهعنوان نویز یا داده پرت در نظر گرفته میشود.
اگر مقدار min_cluster_size را خیلی کم تنظیم کنید، ممکن است خوشههای کوچک و ناپایداری ایجاد شوند که اغلب نویز هستند.
اگر مقدار آن را خیلی زیاد تنظیم کنید، ممکن است چند خوشهی واقعی در یک خوشه ادغام شوند و ویژگیهای متمایز خود را از دست بدهند.
min_samples چیست؟
این پارامتر فاصله بین یک نقطه و kاُمین نزدیکترین همسایهاش را محاسبه میکند و مشخص میسازد که فرآیند خوشهبندی تا چه اندازه سختگیرانه باشد.
هرچه مقدار min_samples بیشتر باشد، خوشهبندی محافظهکارانهتر خواهد بود.
در این حالت، فقط در نواحی متراکم خوشه تشکیل میشود و نقاط پراکنده بهعنوان نویز طبقهبندی میشوند.
استفاده از درخت فشرده (Condensed Tree)
درخت فشرده تکنیکی مفید برای انتخاب مقادیر مناسب این دو پارامتر است.
در این نمودار، خوشههایی که در بازهی بزرگی از مقدار λ (lambda) باقی میمانند (در محور عمودی چپ نمایش داده میشوند)، بهعنوان خوشههای پایدار و معنادار در نظر گرفته میشوند.
در حالت ایدهآل، خوشههای انتخابشده باید هم بلند (پایدار) و هم پهن (دارای اندازه مناسب) باشند.
