نوشته های liliHosieni

نوشته های liliHosieni https://virgool.io/feed/@m_25815123 fa 2026-07-07 15:10:39 https://files.virgool.io/upload/users/2442549/avatar/TPuO3j.png?height=120&width=120 liliHosieni https://virgool.io/@m_25815123 خوشه‌بندی ۷۸۰۰۰ سوال کاربران با کمک هوش مصنوعی https://virgool.io/@m_25815123/%D8%AE%D9%88%D8%B4%D9%87-%D8%A8%D9%86%D8%AF%DB%8C-%DB%B7%DB%B8%DB%B0%DB%B0%DB%B0-%D8%B3%D9%88%D8%A7%D9%84-%DA%A9%D8%A7%D8%B1%D8%A8%D8%B1%D8%A7%D9%86-%D8%A8%D8%A7-%DA%A9%D9%85%DA%A9-%D9%87%D9%88%D8%B4-%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C-kdfysrazglx2 مقدمهپروژه‌ای که در اینجا به آن پرداخته‌ایم، با مجموعه‌ای بزرگ از گفت‌وگوهای متنی میان کاربران و مشاوران یک شرکت آغاز شد. این چت‌ها حاوی سوالات، ابهامات، و مشکلات متنوعی بودند که کاربران در مسیر استفاده از محصولات یا خدمات تجربه کرده بودند.در این پروژه، هدف ما استفاده از تکنیک‌های پردازش زبان طبیعی و خوشه‌بندی بدون نظارت بود تا بتوانیم هزاران پیام را به دسته‌های معنایی تقسیم کنیم. ما به‌دنبال آن بودیم که از دل این داده‌های خام و بدون ساختار، ساختاری تحلیلی و قابل‌فهم بسازیم و در نهایت بینش‌هایی عملی برای بهبود تجربه کاربری، آموزش و توسعه محصول استخراج کنیم.۱. ساخت داده از دل چتپیام‌هایی که در اختیار داشتیم، به‌صورت کامل از چت کاربران با مشاوران بودند. برای شروع، نیاز داشتیم که سوالات اصلی کاربران را از دل مکالمات استخراج کنیم. برای این کار از مدل GPT-4o شرکت OpenAI استفاده کردیم.فرآیند به این صورت انجام شد که هر چت به‌صورت جداگانه همراه با یک پرامپت طراحی‌شده، به مدل ارسال می‌شد و مدل، سوالات مطرح‌شده از سوی کاربر را به‌صورت دقیق بازمی‌گرداند.تعداد چت‌ها: ۲۳،۸۵۵ مکالمهخروجی: ۷۸،۲۵۴ سوال مستقل۲. پیش‌پردازش داده‌هاپس از استخراج سوالات، داده‌ها باید تمیز و نرمال‌سازی می‌شدند تا برای الگوریتم‌ها قابل استفاده باشند. در این مرحله از ابزار hazm استفاده کردیم.کارهایی که انجام شد:نرمال‌سازی سوالاتحذف حروف اضافهحذف افعال و کلمات پرتکرار بی‌اثرحذف علائم نگارشی و نویزهای متنی۳. تبدیل متن به بردار (Embedding)برای اینکه بتوانیم شباهت معنایی بین سوالات را اندازه‌گیری کنیم، هر سوال باید به بردار عددی تبدیل می‌شد. برای این کار از مدل text-embedding-3-large شرکت OpenAI استفاده کردیم.خروجی: ۷۸،۲۵۴ بردار، هرکدام در ۳۱۰۰ بُعدبرای کاهش زمان پردازش و حجم فایل‌ها، خروجی بردارها را در قالب فایل‌های Parquet ذخیره کردیم. این فرمت هم حجم داده‌ها را به شکل قابل توجهی کاهش داد و هم سرعت خواندن داده‌ها در مراحل بعدی را بالا برد.استفاده از این مدل به ما کمک کرد تا بتوانیم به‌جای تشابه واژگانی، شباهت مفهومی بین سوالات را در نظر بگیریم.۴. انتخاب تعداد بهینه خوشه‌هابرای تعیین تعداد مناسب خوشه‌ها، از چند معیار مختلف مثل Elbow Method وSilhouette Score استفاده کردیم. در طی آزمایش، چند گزینه مختلف را بررسی کردیم:خوشه‌بندی با ۴۱ خوشهخوشه‌بندی با ۵۳ خوشهو در نهایت ۵۹ خوشهپس از بررسی نتایج، مشخص شد که ساختار خوشه‌ها در عدد ۵۹ منسجم‌تر، دقیق‌تر و معنا‌دارتر است و بهترین تعادل را میان دقت و قابلیت تفسیر فراهم می‌کند.نتیجه نهایی، انتخاب عدد ۵۹ به‌عنوان تعداد خوشه‌های بهینه بود.نمودار تغییرات Silhouette Score بر اساس تعداد خوشه‌ها (MiniBatchKMeans) نمودار Elbow برای تعیین تعداد بهینه خوشه‌ها ۵. خوشه‌بندی داده‌هادر این مرحله چند الگوریتم مختلف را برای خوشه‌بندی سوالات تست کردیم، از جمله:KMeansMiniBatchKMeansHDBSCANGMM (Gaussian Mixture Model)Birchپس از مقایسه خروجی‌ها از نظر کیفیت خوشه‌بندی، انسجام درونی، و تفسیرپذیری، الگوریتم KMeans بهترین عملکرد را ارائه داد. سایر الگوریتم‌ها یا به منابع پردازشی بیشتری نیاز داشتند (مثل HDBSCAN)، یا ساختار خوشه‌بندی مناسبی برای داده‌های ما نداشتند.در نتیجه، الگوریتم نهایی انتخاب‌شده برای این پروژه KMeans با ۵۹ خوشه بود.نمای بصری خوشه‌بندی نهایی سوالات کاربران در فضای دوبُعدی۶. نام‌گذاری خوشه‌هابرای نام‌گذاری خوشه‌ها، ابتدا سوالات هر خوشه بر اساس فاصله آن‌ها از مرکز خوشه٬ مرتب شدند. سپس از هر خوشه، حدود ۱۰ تا ۲۰ سوال با فاصله‌های مختلف نسبت به مرکز، انتخاب و بررسی شدند.پس از بررسی نمونه سوالات منتخب، با کمک تیم مشاوران یک عنوان موضوعی مناسب برای هر خوشه در نظر گرفته شد.خروجی نهایی یک فایل اکسل بود شامل:شماره خوشهتعداد سوالاتعنوان موضوعیتوضیح مختصر (در صورت نیاز)۷. نتایج و بینش‌هاخروجی خوشه‌بندی به ما کمک کرد تا تصویر دقیق‌تری از موضوعات پرتکرار در میان سوالات کاربران به‌دست بیاوریم. می‌توان گفت که:بخشی از سوالات مربوط به چالش‌های فنی کاربران پس از آموزش‌ها بود.برخی سوالات مربوط به مشکلات مفهومی یا نیاز به آموزش پیشرفته‌تر بود.همچنین الگوهای تکرار در موضوعاتی مثل اندازه‌گیری، الگو، و پشتیبانی کاربران شناسایی شد.این تحلیل، ما را در مسیر توسعه بهتر محصولات و خدمات، و همچنین تصمیم‌گیری داده‌محور در تیم‌های آموزشی و فنی یاری داد.۸. چالش‌ها و محدودیت‌هادر طول اجرای این پروژه، با دو چالش اصلی مواجه بودیم:حجم بالای داده‌ها: چه در مرحله پردازش (استخراج، embedding، خوشه‌بندی) و چه در مرحله مطالعه (مرور و تحلیل سوالات)، با حجم بزرگی از داده‌ها مواجه بودیم که مدیریت آن نیازمند زمان و دقت زیادی بود.محدودیت سخت‌افزاری: منابع پردازشی سرور، شامل RAM و CPU، برای اجرای برخی الگوریتم‌های سنگین (مثل HDBSCAN) کافی نبود و باعث شد به الگوریتم‌های سبک‌تر روی بیاوریم.۹. مسیرهای آیندهدر ادامه این پروژه، چند مسیر توسعه مهم در نظر گرفته شده است:ساخت یک چت بات بر اساس خوشه‌های پرتکرارآموزش مدل طبقه‌بندی با استفاده از برچسب‌های فعلیانجام خوشه‌بندی مجدد در سطح هر خوشه برای شناسایی زیرموضوعات دقیق‌تر و جزئی‌تر در هر دستهنتیجه‌گیریاین پروژه نشان داد که حتی در زبان فارسی و با داده‌های بدون ساختار، می‌توان با ترکیب تکنیک‌های پردازش زبان طبیعی (NLP)، مدل‌های هوش مصنوعی و تحلیل داده‌ها، به بینش‌هایی دست یافت که برای تصمیم‌گیری‌های راهبردی و بهبود مستمر تجربه کاربر ارزشمند هستند.ما توانستیم از یک مجموعه بسیار بزرگ از مکالمات کاربران، ساختاری قابل تحلیل بسازیم، سوالات را به شکل موضوعی دسته‌بندی کنیم و مسیرهایی برای توسعه دقیق‌تر و هدفمندتر خدمات ترسیم نماییم.علاوه بر این، اجرای چنین پروژه‌ای نشان داد که حتی با وجود محدودیت منابع سخت‌افزاری، می‌توان با طراحی منطقی و استفاده هوشمندانه از ابزارها، پروژه‌های داده‌محور را در مقیاس بزرگ اجرا کرد. این تجربه همچنین پایه‌ای برای پروژه‌های آتی مانند تحلیل دقیق‌تر زیرموضوعات و پاسخ‌گویی هوشمند به کاربران فراهم می‌کند. liliHosieni liliHosieni Mon, 21 Apr 2025 15:54:54 +0330