ای ترجمه
ای ترجمه
خواندن ۸ دقیقه·۲ سال پیش

یک رویکرد مبتنی بر خوشه‌ بندی (مقاله ترجمه شده)

چکیده

در سیستم های توصیه گر مشارکت محور، محصولات به عنوان ویژگی شناخته می‎شوند و از کاربران درخواست می‌گردد تا به محصولات خریداری شده، رأی دهند. با آموختن رتبه‌بندی ارائه شده توسط کاربران، سیستم توصیه گر می‌تواند محصولات جالبی را به کاربران توصیه نماید. با این حال، معمولاً محصولات بسیار زیادی در تجارت الکترونیک وجود دارد و ممکن است این راه‌کار چندان کارآمد نباشد، به خصوص در زمان‌هایی که لازم است هر محصول قبل از ساخت در سیستم توصیه گر قرار گیرد. ما یک روش جدید را پیشنهاد می‌کنیم که یک الگوریتم خوشه‌بندی خودکار را برای کاهش ابعاد مرتبط با تعداد محصولات در بردارد. محصولات مشابه در خوشه‌ای یکسان قرار می‌گیرند و محصولات نامشابه، در خوشه‌های متفاوتی قرار می‌گیرند. کارهای پیشنهادی سپس با نتیجه خوشه‌بندی انجام می‌گیرد. در نهایت، انتقال مجدد انجام‌شده و لیست مرتب شده از محصولات پیشنهادی به هر کاربر پیشنهاد می‌گردد. با روش پیشنهادی، زمان پردازش برای تهیه پیشنهاد کاهش می‌یابد. نتایج آزمایش‌ها، نشان می‌دهد که کارایی سیستم های پیشنهادی می‌تواند، بدون به خطر انداختن کیفیت توصیه‌ها بهبود یابد.

مقدمه

با توجه به توسعه سریع تجارت الکترونیکی، امروزه تعداد زیادی خریدار و فروشنده آنلاین وجود دارد و مقدار زیادی محصولات وجود دارد که کاربران می‌توانند برای خرید انتخاب کنند. به هر حال، وظیفه بررسی و انتخاب محصولات مناسب از جمله تعداد زیادی از محصولات، نه تنها گیج‌کننده، بلکه وقت‌گیر است. سیستم های توصیه گر [1،2] برای کمک به مردم در یافتن محصولات جالب‌توجه و ذخیره زمان جستجوی محصولات کمک می‌کنند. برای یک کاربر، چنین سیستمی می‌تواند از تجربیات ذخیره‌شده برای تمام مشتری‌ها و توصیه‌های یک لیست اولویت از محصولات به کاربران استفاده کنند. در طول چند سال گذشته، سیستم های پیشنهاددهنده به صرعت در حال تحول هستند. بسیاری از سیستم های توصیه گر توسعه یافته‌اند.

در اصل می‎توان آن‌ها را در دو دسته طبقه‌بندی کرد: محتوا محور و مشارکت محور. اگر چه گرایش به سمت سیستم های ترکیبی [3] در سال‌های اخیر افزایش یافته است. سیستم توصیه گر مبتنی بر محتوا [4] به کاربر بر اساس محتوایی که ممکن است شامل دسته‌ها و یا ویژگی‌های دیگر محصولات باشد، پیشنهاد می‌دهد. همچنین ممکن است به عادات، منافع و یا تنظیمات کاربران مراجعه کند. با تجزیه و تحلیل این داده‌ها با برخی از فناوری‌ها از جمله مدل‌سازی بیزین [8،9]، محتوای مبتنی بر سیستم پیشنهاددهنده جذاب تر خواهد بود. به طور کلی، سیستم های مبتنی بر محتوا نیاز به اطلاعات دقیق در مورد محصولات و کاربران ندارند. محصولات جدید را نیز می‌توانند به کاربران توصیه نمایند. با این حال، رسیدن به اطلاعات مورد نیاز سخت و یا زیاد است. محصولات یا کاربران دارای ویژگی‌های خود هستند. مشکل جمع‌آوری ویژگی‌ها از تمام محصولات و کاربران در هر صورت وجود دارد. علاوه بر این، اطمینان از اینکه یک محصول یا یک کاربر، را می‌توان با داده‌های جمع‌آوری شده نمایش داد، مشکل است. یک سیستم توصیه گر مشارکت محور، نیازی به جزئیات اطلاعات درباره ویژگی‌های محصولات یا کاربران ندارد. به جای آن، آن با اجرای تعاملات بین اطلاعات کاربران و محصولات توصیه می‌کند. همواره، اطلاعات تعامل به عنوان رتبه‌بندی کاربر برای محصولات خریداری شده بیان می‌شود. با یادگیری این رتبه‌بندی، چنین سیستم پیشنهاددهنده‌ای، می‌تواند محصولات را بر اساس نظرات ثبت‌شده سایر کاربران و ترجیحات خود کاربر مدنظر انجام دهد. به طور کلی، سیستم های توصیه گر مشارکت محور، ساده و موثر هستند و در جامعه تجارت، جذاب تر و عملی تر هستند.

بیان مسئله

فرض کنید یک مجموعه از N کاربر به صورت 1<i<N وجود دارد و یک مجموعه از M محصول pj، 1<j<M وجود دارد. یک کاربر ui، ارزیابی خود از محصولات pj را با تهیه یک نرخ rij نمایش می‌دهد. همواره، یک مقدار بزرگ‌تر برای نمایش یک بازخورد از کاربر شروری است. اگر کاربر ui، اولویت و یا امتیازی را برای محصول pj وارد نکند، rij=0. چنین اطلاعاتی را می‌توان توسط ماتریس R زیر نمایش داد.

ItemRank

ItemRank [17] یکی از روش‌های اساسی برای مشارکت بودن سیستم های توصیه گر است. آن ِک الگوریتم امتیازدهی مبتنی بر random-walk، برای پیشنهاد محصولات مطابق با اولویت کاربر استفاده می‌کند. ItemRank در مطالعات ما استفاده شده است، زیرا دارای پیچیدگی کمتر و کارایی بالاتر در مصرف پول و هزینه محاسباتی نسبت به سایر سیستمها است . ماتریس اولویت نمایش داده شده در رابطه (1)، دارای فرآیند ItemRank با دو گام است، ایجاد گراف همبستگی و random walk [38]. در گام ایجاد گراف همبستگی، یک گراف همبستگی ساخته می‌شود. هر محصولی به عنوان یک محصول در داخل گراف است و یک گراف همبستگی از اولویت‌های داده شده ساخته می‌شود. هر محصولی، به عنوان یک نود در گراف است. یال بین هر دو نود، pi و pj، دارای وزن wij است که نشانگر تعداد کاربرانی است که به هر دو محصول، امتیاز یکسانی داده بودند. توجه داشته باشند یک کاربر uk، اولویت هر دو محصول را تعیین می‌کند.

روش پیشنهادی

Itemrank مسئله کارایی را مدنظر قرار می‌دهد. زیرا ممکن است تعداد زیادی محصولات در تجارت الکترونیک وجود داشته باشد. ماتریس W، که دارای سایز M*M است، می‎تواند شدیداً بزرگ باشد. تکثیر W با Si(t) در رابطه (4)، زمان زیادی را می‌گیرد و روش ItemRank را برای مقیاس بزرگ مسئله ناکارآمد می‌کند. ما یک الگوریتم خوشه‌بندی خودساخته (SCC)، [39،40] اجرا کرده‌ایم که عمل کاهش بعد را برای تولید خوشه‌ها استفاده می‌کند. کار پیشنهادی سپس با خوشه‌بندی مجدد ادامه می‌یابد. در نتیجه، کارایی ItemRank، می‌تواند بهبود یابد. در مقایسه با سایر روش‌های کاهش بعد [41، 42، 43، 44]، SCC دارای مزایای زیادی است. خوشه‌بندی به صورت اتوماتیک انجام می‌گیرد و تعیین تعداد خوشه ها توسط کاربر، مورد نیاز نیست. در کنار آن، زمانی که شباهت خوشه‌ها اندازه‌گیری گردید، هر دوی مراکز و واریانس خوشه‌ها محاسبه می‌گردند. در پایان، اندازه‌گیری شباهت بهتر از بررسی مراکز در سایر روش‌ها است.

برچسب‌ گذاری کاربر

برای کاهش ابعاد به طور موثر، نیاز به تعریف برچسب کلاس برای کاربران داریم. ایده، گروه‌بندی کاربران درون خوشه‌هایی است [32]. کاربران مشابه، درون خوشه‌هایی گروه‌بندی شده و کاربران غیرمشابه، درون خوشه‌های مختلفی قرار می‌گیرند. سپس تمام کاربران در یک گروه، برچسب یکسانی را دریافت می‌کنند. ما از الگوریتم SCC برای این هدف استفاده کردیم. الگوریتم‌های خوشه‌بندی دیگری [45،46،35] نیز می‌توانند این کار را انجام دهند. اما، آن‌ها نیاز دارند تا ای پیش در مورد تعداد کلاس‌ها تصمیم‌گیری کنند. با الگوریتم SCC، ما فقط نیاز داریم تا برخی ثوابت معنادار را در طول فرآیند خوشه ایجاد کنیم.

نتایج آزمایش‌ ها

برای ارزیابی کارایی الگوریتم مبتنی خوشه‌بندی خودساخته (SCC)، ما یک مجموعه از آزمایش‌ها را بر روی چندین مجموعه داده انجام دادیم. برای همگرایی، ما روش SCC خود را در این بخش ارزیابی کردیم. ما همچنان، روش SCC را یا سایر راه‌کارهای مبتنی بر فیلترگذاری مقایسه کردیم. سه متریک برای مقایسه بر روی دقت توصیه‌ها ارائه شده است: درجه توافق (DOA)، میانگین خطا و خطای میانی ریشه. یک اعتبارسنجی برای آزمایش‌ها ارائه شده است. در این آزمایش‌ها، ورودی، مجموعه داده‌ها با 5 زیرمجموعه متفاوت است. سپس عملیات پنج بار تکرار می‌گردد. هر زمان، چهار زیرمجموعه از آن پنج زیرمجموعه، به عنوان داده‌های آزمایشی شناخته می‌شوند. اگر P، مجموعه تمام محصولات باشد، Li، مجموعه شامل محصولات کاربر ui است که دارای مجموعه آموزشی است و Ti، مجموعه‌ای شامل محصولات کاربر ui است.

مجموعه داده

پنج مجموعه داده، MovieLens، yahoo Movie، Amazon Video، BookCrossing و Epinions برای آزمایش‌ها این بخش استفاده شده‌اند. مجموعه داده MovieLens [51]، به صورت عمومی موجود است و توسط موسسه تحقیقاتی GroupLens برای اجرا در سیستم های توصیه گر ارائه شده است. آن شامل 943 کاربر، 1682 محصول و 100000 رتبه دریافتی از کاربر است. به عبارت دیگر، N=943 و M=1682 است. هر سطر از مجموعه داده به صورت یک، سه تایی (ui,pj,rij) نشان داده شده است. بنابراین، این مجموعه داده دارای 100000 عنصر است. مجموعه داده Yahoo Movie، شامل اولویت جامعه Yahoo Movie است و شامل 7642 کاربر و 11916 محصول و 221367 اولویت برای هر کاربر است. هر سطر از آن، به صورت یک سه تایی (ui,pj,rij) نشان داده شده است. مجموعه داده ویدوئی آمازون، شامل تقسیم‌بندی ویدئوهای آمازون است که در طی 18 سال، شامل 143.7 میلیون تا سال 2014 است. آن شامل 2978 کاربر، 31102 محصول و 99816 اولویت برای هر کاربر است. هر سطر از آن نشانگر یک سه تایی است که در طی چهار هفته جمع‌آوری شده است. در نهایت مجموعه داده پایانی، شامل 4981 کاربر، 9846 محصول (کتاب) و 109018 اولویت برای هر کاربر است. هر عنصر در این مجموعه داده با یک سه تایی (Ui, Pj rij ) نمایش داده می‌شود. مجموعه داده Epinionos از Paolo massa در طی 5 هفته جمع‌آوری شده است که شامل 2322 کاربر، 4571 محصول و 136984 اولویت برای کاربر است. هر ورودی از مجموعه داده به عنوان یک سه تایی (ui,pj,rij) است که در آن rij عضو {1,2,3,4,5} است. ویژگی‌های این پنج مجموعه داده در جدول 5 خلاصه شده است.

نتیجه‌ گیری

در یک سیستم فیلترینگ با همبستگی مشترک، مانند ItemRank، محصولات به عنوان یک روش مناسب شناخته شده است، اما معایبی بر آن وارد است. با این حال، معمولاً محصولات تجاری بسیار زیادی وجود دارند که قبلاً مورد بررسی قرار گرفته‌اند. ما یک روش خوشه‌بندی خودساخته برای کاهش ابعاد مرتبط با تعداد محصولات ارائه کرده‌ایم. در نتیجه، زمان پردازش اندازه‌گیری شده توسط روش ما برای تصمیم‌گیری در مورد یک روش توصیه خیلی کمتر شده است. نتایج آزمایش‌ها نشان می‌دهد که کارایی سیستم پیشنهادی بدون داشتن تأثیر بر روی کیفیت توصیه بهبود یافته است.

این مقاله ISI در سال 2016 در نشریه الزویر و در مجله تحقیقات و کاربردهای تجارت الکترونیک، توسط گروه مهندسی برق منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله یک رویکرد مبتنی بر خوشه‌ بندی در سایت ای ترجمه مراجعه نمایید.

مقاله سیستم توصیه کننده فیلتر مشارکتیمقاله خوشه سازی خودسازمقاله خوشه بندیمقاله الگوریتم رتبه بندیمقاله نمودار همبستگی
خدمات ارائه مقالات علمی و سفارش ترجمه تخصصی
شاید از این پست‌ها خوشتان بیاید