چکیده
در سیستم های توصیه گر مشارکت محور، محصولات به عنوان ویژگی شناخته میشوند و از کاربران درخواست میگردد تا به محصولات خریداری شده، رأی دهند. با آموختن رتبهبندی ارائه شده توسط کاربران، سیستم توصیه گر میتواند محصولات جالبی را به کاربران توصیه نماید. با این حال، معمولاً محصولات بسیار زیادی در تجارت الکترونیک وجود دارد و ممکن است این راهکار چندان کارآمد نباشد، به خصوص در زمانهایی که لازم است هر محصول قبل از ساخت در سیستم توصیه گر قرار گیرد. ما یک روش جدید را پیشنهاد میکنیم که یک الگوریتم خوشهبندی خودکار را برای کاهش ابعاد مرتبط با تعداد محصولات در بردارد. محصولات مشابه در خوشهای یکسان قرار میگیرند و محصولات نامشابه، در خوشههای متفاوتی قرار میگیرند. کارهای پیشنهادی سپس با نتیجه خوشهبندی انجام میگیرد. در نهایت، انتقال مجدد انجامشده و لیست مرتب شده از محصولات پیشنهادی به هر کاربر پیشنهاد میگردد. با روش پیشنهادی، زمان پردازش برای تهیه پیشنهاد کاهش مییابد. نتایج آزمایشها، نشان میدهد که کارایی سیستم های پیشنهادی میتواند، بدون به خطر انداختن کیفیت توصیهها بهبود یابد.
مقدمه
با توجه به توسعه سریع تجارت الکترونیکی، امروزه تعداد زیادی خریدار و فروشنده آنلاین وجود دارد و مقدار زیادی محصولات وجود دارد که کاربران میتوانند برای خرید انتخاب کنند. به هر حال، وظیفه بررسی و انتخاب محصولات مناسب از جمله تعداد زیادی از محصولات، نه تنها گیجکننده، بلکه وقتگیر است. سیستم های توصیه گر [1،2] برای کمک به مردم در یافتن محصولات جالبتوجه و ذخیره زمان جستجوی محصولات کمک میکنند. برای یک کاربر، چنین سیستمی میتواند از تجربیات ذخیرهشده برای تمام مشتریها و توصیههای یک لیست اولویت از محصولات به کاربران استفاده کنند. در طول چند سال گذشته، سیستم های پیشنهاددهنده به صرعت در حال تحول هستند. بسیاری از سیستم های توصیه گر توسعه یافتهاند.
در اصل میتوان آنها را در دو دسته طبقهبندی کرد: محتوا محور و مشارکت محور. اگر چه گرایش به سمت سیستم های ترکیبی [3] در سالهای اخیر افزایش یافته است. سیستم توصیه گر مبتنی بر محتوا [4] به کاربر بر اساس محتوایی که ممکن است شامل دستهها و یا ویژگیهای دیگر محصولات باشد، پیشنهاد میدهد. همچنین ممکن است به عادات، منافع و یا تنظیمات کاربران مراجعه کند. با تجزیه و تحلیل این دادهها با برخی از فناوریها از جمله مدلسازی بیزین [8،9]، محتوای مبتنی بر سیستم پیشنهاددهنده جذاب تر خواهد بود. به طور کلی، سیستم های مبتنی بر محتوا نیاز به اطلاعات دقیق در مورد محصولات و کاربران ندارند. محصولات جدید را نیز میتوانند به کاربران توصیه نمایند. با این حال، رسیدن به اطلاعات مورد نیاز سخت و یا زیاد است. محصولات یا کاربران دارای ویژگیهای خود هستند. مشکل جمعآوری ویژگیها از تمام محصولات و کاربران در هر صورت وجود دارد. علاوه بر این، اطمینان از اینکه یک محصول یا یک کاربر، را میتوان با دادههای جمعآوری شده نمایش داد، مشکل است. یک سیستم توصیه گر مشارکت محور، نیازی به جزئیات اطلاعات درباره ویژگیهای محصولات یا کاربران ندارد. به جای آن، آن با اجرای تعاملات بین اطلاعات کاربران و محصولات توصیه میکند. همواره، اطلاعات تعامل به عنوان رتبهبندی کاربر برای محصولات خریداری شده بیان میشود. با یادگیری این رتبهبندی، چنین سیستم پیشنهاددهندهای، میتواند محصولات را بر اساس نظرات ثبتشده سایر کاربران و ترجیحات خود کاربر مدنظر انجام دهد. به طور کلی، سیستم های توصیه گر مشارکت محور، ساده و موثر هستند و در جامعه تجارت، جذاب تر و عملی تر هستند.
بیان مسئله
فرض کنید یک مجموعه از N کاربر به صورت 1<i<N وجود دارد و یک مجموعه از M محصول pj، 1<j<M وجود دارد. یک کاربر ui، ارزیابی خود از محصولات pj را با تهیه یک نرخ rij نمایش میدهد. همواره، یک مقدار بزرگتر برای نمایش یک بازخورد از کاربر شروری است. اگر کاربر ui، اولویت و یا امتیازی را برای محصول pj وارد نکند، rij=0. چنین اطلاعاتی را میتوان توسط ماتریس R زیر نمایش داد.
ItemRank
ItemRank [17] یکی از روشهای اساسی برای مشارکت بودن سیستم های توصیه گر است. آن ِک الگوریتم امتیازدهی مبتنی بر random-walk، برای پیشنهاد محصولات مطابق با اولویت کاربر استفاده میکند. ItemRank در مطالعات ما استفاده شده است، زیرا دارای پیچیدگی کمتر و کارایی بالاتر در مصرف پول و هزینه محاسباتی نسبت به سایر سیستمها است . ماتریس اولویت نمایش داده شده در رابطه (1)، دارای فرآیند ItemRank با دو گام است، ایجاد گراف همبستگی و random walk [38]. در گام ایجاد گراف همبستگی، یک گراف همبستگی ساخته میشود. هر محصولی به عنوان یک محصول در داخل گراف است و یک گراف همبستگی از اولویتهای داده شده ساخته میشود. هر محصولی، به عنوان یک نود در گراف است. یال بین هر دو نود، pi و pj، دارای وزن wij است که نشانگر تعداد کاربرانی است که به هر دو محصول، امتیاز یکسانی داده بودند. توجه داشته باشند یک کاربر uk، اولویت هر دو محصول را تعیین میکند.
روش پیشنهادی
Itemrank مسئله کارایی را مدنظر قرار میدهد. زیرا ممکن است تعداد زیادی محصولات در تجارت الکترونیک وجود داشته باشد. ماتریس W، که دارای سایز M*M است، میتواند شدیداً بزرگ باشد. تکثیر W با Si(t) در رابطه (4)، زمان زیادی را میگیرد و روش ItemRank را برای مقیاس بزرگ مسئله ناکارآمد میکند. ما یک الگوریتم خوشهبندی خودساخته (SCC)، [39،40] اجرا کردهایم که عمل کاهش بعد را برای تولید خوشهها استفاده میکند. کار پیشنهادی سپس با خوشهبندی مجدد ادامه مییابد. در نتیجه، کارایی ItemRank، میتواند بهبود یابد. در مقایسه با سایر روشهای کاهش بعد [41، 42، 43، 44]، SCC دارای مزایای زیادی است. خوشهبندی به صورت اتوماتیک انجام میگیرد و تعیین تعداد خوشه ها توسط کاربر، مورد نیاز نیست. در کنار آن، زمانی که شباهت خوشهها اندازهگیری گردید، هر دوی مراکز و واریانس خوشهها محاسبه میگردند. در پایان، اندازهگیری شباهت بهتر از بررسی مراکز در سایر روشها است.
برچسب گذاری کاربر
برای کاهش ابعاد به طور موثر، نیاز به تعریف برچسب کلاس برای کاربران داریم. ایده، گروهبندی کاربران درون خوشههایی است [32]. کاربران مشابه، درون خوشههایی گروهبندی شده و کاربران غیرمشابه، درون خوشههای مختلفی قرار میگیرند. سپس تمام کاربران در یک گروه، برچسب یکسانی را دریافت میکنند. ما از الگوریتم SCC برای این هدف استفاده کردیم. الگوریتمهای خوشهبندی دیگری [45،46،35] نیز میتوانند این کار را انجام دهند. اما، آنها نیاز دارند تا ای پیش در مورد تعداد کلاسها تصمیمگیری کنند. با الگوریتم SCC، ما فقط نیاز داریم تا برخی ثوابت معنادار را در طول فرآیند خوشه ایجاد کنیم.
نتایج آزمایش ها
برای ارزیابی کارایی الگوریتم مبتنی خوشهبندی خودساخته (SCC)، ما یک مجموعه از آزمایشها را بر روی چندین مجموعه داده انجام دادیم. برای همگرایی، ما روش SCC خود را در این بخش ارزیابی کردیم. ما همچنان، روش SCC را یا سایر راهکارهای مبتنی بر فیلترگذاری مقایسه کردیم. سه متریک برای مقایسه بر روی دقت توصیهها ارائه شده است: درجه توافق (DOA)، میانگین خطا و خطای میانی ریشه. یک اعتبارسنجی برای آزمایشها ارائه شده است. در این آزمایشها، ورودی، مجموعه دادهها با 5 زیرمجموعه متفاوت است. سپس عملیات پنج بار تکرار میگردد. هر زمان، چهار زیرمجموعه از آن پنج زیرمجموعه، به عنوان دادههای آزمایشی شناخته میشوند. اگر P، مجموعه تمام محصولات باشد، Li، مجموعه شامل محصولات کاربر ui است که دارای مجموعه آموزشی است و Ti، مجموعهای شامل محصولات کاربر ui است.
مجموعه داده
پنج مجموعه داده، MovieLens، yahoo Movie، Amazon Video، BookCrossing و Epinions برای آزمایشها این بخش استفاده شدهاند. مجموعه داده MovieLens [51]، به صورت عمومی موجود است و توسط موسسه تحقیقاتی GroupLens برای اجرا در سیستم های توصیه گر ارائه شده است. آن شامل 943 کاربر، 1682 محصول و 100000 رتبه دریافتی از کاربر است. به عبارت دیگر، N=943 و M=1682 است. هر سطر از مجموعه داده به صورت یک، سه تایی (ui,pj,rij) نشان داده شده است. بنابراین، این مجموعه داده دارای 100000 عنصر است. مجموعه داده Yahoo Movie، شامل اولویت جامعه Yahoo Movie است و شامل 7642 کاربر و 11916 محصول و 221367 اولویت برای هر کاربر است. هر سطر از آن، به صورت یک سه تایی (ui,pj,rij) نشان داده شده است. مجموعه داده ویدوئی آمازون، شامل تقسیمبندی ویدئوهای آمازون است که در طی 18 سال، شامل 143.7 میلیون تا سال 2014 است. آن شامل 2978 کاربر، 31102 محصول و 99816 اولویت برای هر کاربر است. هر سطر از آن نشانگر یک سه تایی است که در طی چهار هفته جمعآوری شده است. در نهایت مجموعه داده پایانی، شامل 4981 کاربر، 9846 محصول (کتاب) و 109018 اولویت برای هر کاربر است. هر عنصر در این مجموعه داده با یک سه تایی (Ui, Pj rij ) نمایش داده میشود. مجموعه داده Epinionos از Paolo massa در طی 5 هفته جمعآوری شده است که شامل 2322 کاربر، 4571 محصول و 136984 اولویت برای کاربر است. هر ورودی از مجموعه داده به عنوان یک سه تایی (ui,pj,rij) است که در آن rij عضو {1,2,3,4,5} است. ویژگیهای این پنج مجموعه داده در جدول 5 خلاصه شده است.
نتیجه گیری
در یک سیستم فیلترینگ با همبستگی مشترک، مانند ItemRank، محصولات به عنوان یک روش مناسب شناخته شده است، اما معایبی بر آن وارد است. با این حال، معمولاً محصولات تجاری بسیار زیادی وجود دارند که قبلاً مورد بررسی قرار گرفتهاند. ما یک روش خوشهبندی خودساخته برای کاهش ابعاد مرتبط با تعداد محصولات ارائه کردهایم. در نتیجه، زمان پردازش اندازهگیری شده توسط روش ما برای تصمیمگیری در مورد یک روش توصیه خیلی کمتر شده است. نتایج آزمایشها نشان میدهد که کارایی سیستم پیشنهادی بدون داشتن تأثیر بر روی کیفیت توصیه بهبود یافته است.
این مقاله ISI در سال 2016 در نشریه الزویر و در مجله تحقیقات و کاربردهای تجارت الکترونیک، توسط گروه مهندسی برق منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله یک رویکرد مبتنی بر خوشه بندی در سایت ای ترجمه مراجعه نمایید.