سرویس پردازش متن / https://vakavic.com/
بهترین روش برچسبگذاری تیکتها
هر تیم در ماه، ساعتها مشغول برچسبگذاری تیکتهای پشتیبانی مشتری است. آنها برای سؤالات متداول، آگاهی از مشکلات به وجود آمده و نحوه تأثیر تغییرات بر درخواستهای ورودی از برچسبها (تگها) استفاده میکنند. برچسبگذاری امکان ارزشمندی است اما گاهی مورد کملطفی تیمها قرار میگیرد! شاید دلیل چنین کمتوجهیهایی عدم اطلاع از اهمیت آن باشد؛ بنابراین در این مقاله ابتدا به تعریف برچسبگذاری و اهمیت آن از زبان تعدادی از متخصصان میپردازیم و سپس بابیان ۶ قانون دستهبندی در راستای بهبود برچسبها و ایجاد دادههای مؤثر سعی میکنیم پیشنیازهای ایجاد یک مدل یادگیری ماشینی را شرح دهیم.
تبدیل مکالمات مشتریان به دادههای کیفی، به نزدیکی تیمهای پشتیبانی و تولید کمک بسیاری خواهد کرد. برایان گیسپی از shopVOX (وبسایت ارائهدهنده نرمافزار مدیریت کسبوکار)، برچسبگذاری را نحوه آگاهی از مکالمات کاربران با تیم، تجزیهوتحلیل مکالمات برچسبگذاری شده و نهایتاً بهبود محصولات و خدمات میداند. اما پیتر پینکاس در Feedly، از برچسبگذاری برای هدفهای کاملاً متفاوتی استفاده میکند. او برای پیگیری باگهای گزارششده، اعلام رفع مشکل به مشتری و اعلام ویژگیهای جدید محصول به آن دسته از مشتریانی که پیشازاین خواستارش بودند برچسبگذاری میکند.
حالا که به ارزش برچسبگذاری پی بردیم، وقت آن رسیده که از انجام صحیح آن اطمینان حاصل کنیم.
عشق، شرط لازم!
برایان درباره تجربه برچسبگذاری بیثبات و بدون برنامه تیمش درIntercom (پلتفرم گفتوگوی آنلاین و ارتباط با مشتری) میگوید: «شاید ما فکر میکردیم برچسبگذاری ارزش فوری ندارد و آن را در اولویت قرار ندادیم. وقتی به گذشته نگاه میکنم، میبینم بیعقلی کردیم.»
همانطور که برایان فهمیده بود، بدون ساختاری توسعهیافته برای برچسبگذاری، خلق ارزش کار دشواری است. او میگوید پس از ۱۸ ماه بیش از ۱۰۰۰۰ مکالمه انجام داده بودند چیزی برای نمایش نداشتند. البته shopVOX کنونی اصلاً با قبل قابلمقایسه نیست!
برچسبگذاری نادرست، آنالیز تیکت ها و جریان کاری را تحت تأثیر قرار میدهد. ابهام در ساختار برچسبگذاری موجب سردرگمی و عدم تمرکز مدیران سایتها و نهایتاً از دست دادن ارزش خواهد شد (مثلاً مدیر سایتی را در نظر بگیرید که تمام تیکتها را با عنوان «عمومی» برچسبگذاری کند).
برچسبگذاری ساختاریافته برای آموزش الگوریتمهای یادگیری ماشینی بسیار حائز اهمیت است. فدریکو پاسکال (هم بنیانگذار و مدیر عملیات Monkeylearn) درباره ضرورت برچسبگذاری ساختاریافته برای آموزش الگوریتمهای ماشینی میگوید: «ما در آغاز همکاری با تیم های جدید پشتیبانی، دادههای برچسبگذاری شده آنها را بهدقت بررسی کردیم. البته استفاده از مدل یادگیری ماشینی برای مرتبسازی و پاکسازی دادههای بهدردنخور آسانتر از آن است. اگر دادههای ورودی برای کامپیوتر قابلفهم باشند، الگوریتم بهصورت خودکار و با اطمینان بیشتری برچسبگذاری را انجام میدهد. بنابراین برای توسعه الگوریتممان مشتاق یادگیری نحوه صحیح برچسبگذاری شدیم.»
حتی اگر هنوز قصد شروع خودکارسازی را ندارید، پاکسازی و تثبیت (الگوی) برچسبگذاری به درک عوامل تأثیرگذار بر تمایلات مشتری کمک میکند. مشتریان بیشتر در کدام قسمت مشکل دارند؟ اغلب چه نوع تیکتهایی به نارضایتی ختم میشود؟ برچسبگذاری دقیق لازمه درک پاسخ این سؤالات است.
نکاتی که در ادامه خواهید خواند به بهبود برچسبگذاری و ایجاد دادههای مؤثر کمک خواهند کرد:
۱. تعریف برچسبهای پراستفاده
هنگامیکه برچسبها تعریف واضح و مشخصی نداشته باشند، انسان و ماشین هر دو سردرگم خواهند شد. آنها برای استفاده از برچسبها به راهنمای دقیقی نیاز دارند. بهعنوانمثال ممکن است با ایجاد برچسبهای کاملاً مشابه «توزیع» و «توزیع داده»، مدیر سایت برای هر موضوعی مرتبط با داده از یکی از این برچسبها استفاده کند و فاتحه ثبات را بخواند!
بهترین راه برای حل چنین مشکلی دوری از ایجاد محتوای مشترک و تعریف برچسبهاست (سعی کنید در یک یا دو خط اکسل آنها را تعریف کنید). اگر در تعریف برچسبها جملات شرطی مانند: «بهجز x که به y ارسال شده است» بهکاررفته باشد، احتمالاً باید به فکر تغییر آنها باشید.
۲. حذف برچسبهای خیلی خاص یا جزئی
گاهی اوقات تیمها برچسبهایی ایجاد میکنند که تیکتهای انگشتشماری را شامل میشود. آنها یا فکر میکنند تعداد تیکت های مربوط به آن موضوع افزایش خواهد یافت یا ساختار برچسبگذاری را اخیراً بازبینی نکردهاند.
برچسبهای کم استفاده نهتنها به درد الگوریتمهای یادگیری ماشینی نمیخورند بلکه در آموزش افراد هم کاربرد ندارند. تگهای «بزرگ» از تگهای جزئی و خاص ارزشمندتر اند و در تیکت هایی که اشتباه برچسبگذاری شدهاند اختلال ایجاد میکنند. مدیران سایت اگر پیوسته از تگهای خاص استفاده نکنند آنها را از یاد خواهند برد. این برچسبهای دست و پاگیر در مقایسه با سایر تگ ها درصد بسیار پایینی دارند و در گزارشهای روندها (Trends) نشان داده نمیشود.
بجای استفاده از چنین تگهایی ببینید میتوان ترکیب معناداری از آنها ایجاد کرد یا نه. اگر از این تگهای خاص برای جریان خاصی استفاده میکنید، به یاد داشته باشید قرار است با برچسبگذاری آن را آسانتر کنید. همواره Long Tail یا دنباله کشیده برچسبها را بازبینی کنید و تگهای بلااستفاده را حذف کنید. با اینکه برخی تیمها معتقدند تغییر الگوی برچسبگذاری با مشکلاتی مواجه خواهد شد، اما بهتر است اصلاحات جزئی بهسرعت انجام شوند و برای بعد نمانند. در این مورد برچسبها آنقدر کم مورداستفاده قرار میگیرند که اصلاً تأثیری روی آنالیز کلی دادهها نخواهد داشت.
۳. حداکثر تعداد برچسبها
در برچسبگذاری، کیفیت مهمتر از کمیت است. برخی تیمهای پشتیبانی مشتری سعی دارند با ایجاد صدها تگ مطمئن شوند حتی اگر کسی بپرسد «سلام، کسی از موضوع x اطلاع دارد؟» بیدرنگ میپرند و یک تیکت بیرون میکشند! اما این رویکرد درستی نیست و با توجه به محدودیتهای یادگیری انسان، برچسبگذاری با این حجم از تگها تقریباً غیرممکن است. بررسی این حجم از برچسبها و انتخاب یکی از آنها برای مدیران سایت نیز بسیار وقتگیر است. بنابراین بهشدت توصیه میکنیم بهمحض اینکه دادههای کافی به دست آوردید، برچسبگذاری تیکتهای پشتیبانی مشتری را خودکار نمایید. (برای خودکارسازی) سعی کنید حداکثر ۳۰ برچسب ایجاد کنید. در این صورت مدیران سایت راحتتر سازگار خواهند شد و نهایتاً کیفیت دادهها افزایش مییابد.
۴. سلسلهمراتب برچسبها
اکثر ابزارهای Helpdesk یا پشتیبانی مشتریان به کاربران این امکان را میدهند که برچسبها را بر اساس اهمیتشان سازماندهی و زیر برچسبها را گروهبندی کنند. این امکان، در مرتبسازی برچسبها به مدیران سایت (و ماشینها) کمک میکند.
رائول گراتا (متخصص یادگیری ماشینی و پردازش زبان طبیعی، هم بنیانگذار و مدیرعامل MonkeyLearn) میگوید ماشینها با ساختار درختی مناسب، راحتتر آموزش میبینند. او میگوید: «برچسبها را بر اساس روابط معناییشان دستهبندی کنید. برای مثال بسکتبال و بیسبال که هر دو نوعی ورزش هستند باید زیرمجموعه ورزش قرار گیرند. به همین ترتیب پوشاک و الکترونیکی باید زیرمجموعه برچسبهایی با مضمون خردهفروشی قرار گیرند.» رائول معتقد است طبقهبندی با ساختاری مناسب، به پیشبینی دقیق دستهگرها کمک شایانی خواهد کرد.
نگاهی به برچسبهایتان بیاندازید و ببینید وجه اشتراکی باهم دارند یا نه. در صورت امکان آنها را گروهبندی کنید و کار را برای مدیر سایت آسان کنید!
۵. معیار دستهبندی موضوعات
شاید این تیتر کمی کلی و گیجکننده به نظر برسد اما درواقع میگوید برچسبها نباید پرتغالها را با سیبها مقایسه کنند! بهطور مثال اگر برچسبگذاری بر اساس منطقه محصول، دلیل ارتباط و اعمال اصلاحات انجام میشود، باید آنها را در سه گروه مختلف قرار دهید. پیشنهاد میشود در Help Desk برچسبها را بهطور جداگانه در موضوعات منطقه محصول (داشبورد، ادمین، پرداخت و…)، دلایل ارتباط (باگ، بازخورد، راهنمایی) و اصلاحات (ارسال به مهندسی، به روزرسانی حساب کاربری، ارسال به مرکز خدمات) به کار ببرید.
به هر گروه از برچسبها، یک «مدل» گفته میشود. مدلها یکی از ارکان یادگیری ماشینی هستند و برای انسانها نیز بسیار حائز اهمیتاند. جداسازی مدلها از سردرگمی مدیر سایت جلوگیری میکند. مثلاً در مثال ذکرشده، مدیر سایت میداند باید حداقل سه برچسب و از هر مدل یکی ایجاد کنند.
۶. دادههای صریح و روشن
اگر در آینده قصد انجام خودکارسازی را دارید (که البته باید داشته باشید!) مانند ماشینها برچسبها را تحلیل کنید. ماشین تنها محتوای ذخیرهشده در تیکت ها را میبیند و پیشزمینه انسانی ندارد.
گاهی تیم های پشتیبانی مشتری با رجوع به اطلاعاتی خارج از محتوای تیکت، مانند شناسه یا آدرس ایمیل مشتری برچسبگذاری میکنند. ازآنجاکه ماشین به این اطلاعات دسترسی ندارد و نمیتواند از آن یاد بگیرد؛ چنین برچسبهایی در الگوریتم یادگیری ماشین مشکل ایجاد میکنند. در این صورت الگوریتم با ایجاد اتصالات ساختگی، پیشنهادها عجیبوغریبی برای برچسبگذاری میدهد و شما را متعجب میکند. بنابراین سعی کنید از اطلاعات موجود در تیکت ها برای برچسبگذاری استفاده کنید و اطلاعات بیرونی را از راه دیگری همسانسازی کنید.
با رعایت نکاتی که گفته شد، آماده خودکارسازی خواهید شد. اگر پیشازاین قوانین دستهبندی را رعایت میکردید، به نظر میرسد حالا برای ایجاد یک مدل یادگیری ماشینی برای دستهبندی متون آماده هستید.
استفاده از یادگیری ماشینی مزایای فراوانی دارد. تا زمانی که برای هر برچسب، حداقل ۲۰ تیکت برچسبگذاری داشته باشید؛ مجموعه داده مناسبی برای شروع یادگیری ماشینی در اختیاردارید و علاوه بر اینکه دیگر نیازی به برچسبگذاری دستی نخواهید داشت، نتایج دقیق و باثباتی را به دست میآورید.
زمانی که برچسبهای خود را آماده کردید، میتوانید با استفاده از ابزار دستهگر واکاویک و بدون نیاز به برنامهنویسی، خودکارسازی فرآیندها را در سازمان خود آغاز کنید. برای این کار میتوانید به پایگاه دانش واکاویک مراجعه کنید.
منبع: MonkeyLearn
ترجمه: رویا جعفرپناه
مطالب بیشتر در وبلاگ واکاویک
مطلبی دیگر از این انتشارات
کاربرد هوش مصنوعی در حقوق ( هوش مصنوعی قضایی )
مطلبی دیگر از این انتشارات
چگونگی تصمیم گیری (Real Time) با پردازش تصویر
مطلبی دیگر از این انتشارات
مفاهیم بنیادی کوواریانس و همبستگی در یادگیری ماشین