خواندن ۲ دقیقه·۳ ماه پیش

تکنیک درخت فشرده (Condensed Tree)

خوشه بندی در داده کاوی در اصل نوعی روش یادگیری بدون نظارت است. یک روش یادگیری بدون نظارت روشی است که در آن ما از مجموعه داده های متشکل از داده های ورودی بدون برچسب به عنوان فرآیندی برای یافتن ساختار معنی دار، ویژگی های تولیدی و گروه بندی های ذاتی مجموعه ای از مثال ها استفاده میشود. خیلی ها معتقدند خوشه بندی همان group by در پایگاه داده هست... در واقع در group by دسته بندی براساس مقدار دقیق صورت می گیرد در حالی که در خوشه بندی و حالت خاص آن k-means دسته بندی براساس similarity و شباهت رخ می دهد. در group by با بالا رفتن ابعاد مساله دسته ها و گروه های کوچک و تک عضوی تشکیل می شود در حالی که در خوشه بندی توانایی استخراج و کشف الگوهای پنهان را دارد.

یکی از روش های رایج در خوشه بندی، الگوریتم HDBSCAN است.

خوشه بندی با الگوریتم HDBSCAN خیلی جاها از جمله تحلیل داده های جغرافیایی و تحلیل متن کاربرد داره... دو پارامتر مهم min_cluster_size و min_samples بر رفتار مدل HDBSCAN تأثیر داره توی این پست سعی کردم کمی در مورد آنها بنویسم:
min_cluster_size چیست؟
این پارامتر، حداقل تعداد نقاط داده برای تشکیل یک خوشه را تعیین می‌کند.
اگر خوشه‌ای نتواند به این حداقل برسد، به‌عنوان نویز یا داده پرت در نظر گرفته می‌شود.
اگر مقدار min_cluster_size را خیلی کم تنظیم کنید، ممکن است خوشه‌های کوچک و ناپایداری ایجاد شوند که اغلب نویز هستند.
اگر مقدار آن را خیلی زیاد تنظیم کنید، ممکن است چند خوشه‌ی واقعی در یک خوشه ادغام شوند و ویژگی‌های متمایز خود را از دست بدهند.
min_samples چیست؟
این پارامتر فاصله بین یک نقطه و kاُمین نزدیک‌ترین همسایه‌اش را محاسبه می‌کند و مشخص می‌سازد که فرآیند خوشه‌بندی تا چه اندازه سخت‌گیرانه باشد.
هرچه مقدار min_samples بیشتر باشد، خوشه‌بندی محافظه‌کارانه‌تر خواهد بود.
در این حالت، فقط در نواحی متراکم خوشه تشکیل می‌شود و نقاط پراکنده به‌عنوان نویز طبقه‌بندی می‌شوند.
استفاده از درخت فشرده (Condensed Tree)
درخت فشرده تکنیکی مفید برای انتخاب مقادیر مناسب این دو پارامتر است.
در این نمودار، خوشه‌هایی که در بازه‌ی بزرگی از مقدار λ (lambda) باقی می‌مانند (در محور عمودی چپ نمایش داده می‌شوند)، به‌عنوان خوشه‌های پایدار و معنادار در نظر گرفته می‌شوند.
در حالت ایده‌آل، خوشه‌های انتخاب‌شده باید هم بلند (پایدار) و هم پهن (دارای اندازه مناسب) باشند.

تحلیل متنخوشه بندی

محمد فاتحی

علاقه مند به تحلیل داده و داده کاوی. لینکدین:https://www.linkedin.com/in/mohammad-fatehi-09654062/

شاید از این پست‌ها خوشتان بیاید

محمد فاتحی

خواندن ۲ دقیقه·۳ ماه پیش

تکنیک درخت فشرده (Condensed Tree)

یکی از روش های رایج در خوشه بندی، الگوریتم HDBSCAN است.

تحلیل متنخوشه بندی

محمد فاتحی

علاقه مند به تحلیل داده و داده کاوی. لینکدین:https://www.linkedin.com/in/mohammad-fatehi-09654062/

شاید از این پست‌ها خوشتان بیاید