1. مقدمه
یک کانال بازاریابی که محصولات و خدمات یک شرکت را به مصرف کنندگان ارائه می دهد، یکی از عوامل حیاتی موفقیت در یک سیستم بازاریابی برای رسیدن به اهداف بازاریابی است. اگر شرکت شناخت خوبی از کانال بازاریابی خود نداشته باشد، نمی تواند آن را اداره کند. در وهله نخست، شرکت باید داده ها را از کانال بازاریابی اش جمع آوری کند. شرکت باید داده ها را به طور جدی تجزیه و تحلیل کند تا در بخش مورد نظر از مزیت رقابتی برخوردار باشد.
داده کاوی (DM)، که به معنای فرایند جستجوی خودکار حجم زیاد داده ها به منظور استخراج دانش از آنها در یک ساختار قابل درک برای انسان است، به تحلیل گران کمک می کند تا روابط درون داده ها را شناسایی کنند.
استفاده از تکنیک های DMبرای داده های بازاریابی به منظور یافتن الگوهای پنهان و قبلا ناشناخته در مجموعه داده های عظیم بسیار مفید است، در این حالت الگوها بهتر قابل تعریف خواهند بود. از این طریق، DMبه یافتن دانش مهم از کانال بازاریابی کمک می کند. دانش بدست آمده از نظر رقابت و بهبود بازاریابی و تولید برای شرکت، دارای اهمیت استراتژیک است. به این خاطر که دانش بدست آمده می تواند به بهبود ارتباط بین کانال بازاریابی و شرکت از طریق کنترل بهتر فرایندها و آگاهی یافتن از جزئیات در مورد آنها کمک کند.
یک نوع مهم دانش که می تواند از داده کاوی بدست آید، درخت تصمیم (DT) است. درخت تصمیم از داده های فعلی برای طبقه بندی داده های آتی ساخته می شود. DTsیک روش موثر برای طبقه بندی ورودی مجموعه داده ها است و می تواند قابلیت های پشتیبانی از تصمیم خوب را ارائه کند.DTs دارای چندین مزیت نسبت به سایر روش های داده کاوی هستند از جمله قابل تفسیر بودن توسط انسان، به خوبی سازمان یافته بودن، از نظر محاسباتی ارزان بودن، و قابلیت رسیدگی به داده های پرسروصدا داشتن.با توجه به این محاسن، DTsاحتمالا محبوب ترین روش کاوش و استخراج است. مطالعات متعددی در زمینه بازاریابی وجود دارند که از درخت های تصمیم استفاده می کنند (DTs)
از میان روش های داده کاوی، تحلیل خوشه ای به طبقه بندی داده ها کمک می کند. تحلیل خوشه ای به دنبال به حداکثر رساندن واریانس های بین گروهی و به حداقل رساندن واریانس های درون گروهی هستند، از جمله هر دو روش سلسله مراتبی و غیرسلسله مراتبی.
در ادبیات، SOMکوهونن یکی از روش های به کار رفته برای کاهش ابعاد است. Malone et alیک SOMآموزش دیده است (نقشه خود سازمان ده) که اطلاعات اولیه را برای استخراج قوانین فراهم می کند که مرزهای خوشه ای را توصیف می کند.Wang et al[12]از یک SOMبرای تحلیل الگو و از یک سیستم استنتاج فازی برای کنترل روند آشفته به منظور ارائه پیش بینی های بلند مدت (روزانه) و کوتاه مدت (ساعتی) روند ترافیک وب استفاده کردند.
Fessant et alاز SOMs کوهونن استفاده کردند و نشان دادند چگونه استخراج داده های اندازه گیری شبکه می توانند الگوهای استفاده از مشتریان ADSLرا نشان دهند.Maiorana یک روش انتخاب ویژگی را براساس یک الگوریتم خوشه بندی متعلق به خانواده SOMکوهونن پیشنهاد کردند.Gomez-Carracedo et al از SOMs برای اجرای تشخیص الگو در چهار مجموعه داده نمونه های خاک کنار جاده که در چهار فصل نمونه گیری طی یک دوره یک ساله بدست آمدند، استفاده کردند. آنها از CART به عنوان یک مرحله انتخاب متغیر هدف پیش از گروه بندی SOMاستفاده کردند. Eshghi et al سه روش خوشه بندی را مقایسه کردند: روش های خوشه بندی سنتی، نقشه های کوهونن و مدل های طبقه پنهان. Nohuddin et al]17[ روشی را معرفی کردند که از روش های SOMو الگو کاوی مکرر برای شناسایی، گروه بندی و تحلیل روندها در ترتیبی از شبکه های اجتماعی با برچسب زمانی (time-stamped)به منظور شناسایی روندهای جالب استفاده می کند.در سال های اخیر، روش SOMکوهونن در بازاریابی استفاده شده است .
در این تحقیق، ما از CRISP-DM استفاده می کنیم که در سال 1996 توسط تحلیل گران نشان دهنده DaimlerChrysler، SPSS و NCRتهیه و تدوین شد. CRISP یک فرایند استاندارد غیرتخصصی و در دسترس برای گنجاندن DMدر استراتژی عمومی حل مسئله یک واحد پژوهشی یا کسب و کار ارائه می کند.طبق CRISP-DM، که در شکل 1 نشان داده شده است، یک پروژه DM دارای یک چرخه عمر متشکل از 6 مرحله است.ترتیب مرحله سلسله وار است.یعنی، مرحله بعد در توالی به نتایج مرتبط با مرحله قبل وابسته است .
در مرحله آماده سازی داده ها، ابتدا، تحلیل کشف ناهنجاری را انجام دادیم که برای کاهش تعداد رکوردها در یک مجموعه داده استفاده شد. علاوه بر این، ویژگی های مهم را با SOMsکوهونن به عنوان یک روش کاهش بعد به منظور کاهش ویژگی ها تعیین کردیم. گرچه بسیاری از روش های مختلف می توانستند در این مطالعه به کار برده شوند، مثلا، PCA، تحلیل عاملی و تحلیل ارتباط ویژگی، اما ما از شبکه های کوهونن (KNs) به دلیل قدرت نقشه های کوهون یعنی توانایی شان برای مدل سازی روابط غیرخطی بین داده ها برای خوشه بندی استفاده کردیم. نقشه کوهونن یکی از مدل های اصلی شبکه عصبی مصنوعی است. نقشه های کوهونن ابزار مفیدی برای مدل های DM با مجموعه داده های بزرگ هستند. داده های با ابعاد بالا به یک طرح بازنمایی با ابعاد پایین تر که به راحتی قابل درک باشد، منتقل می شوند. علاوه بر این، نقشه های کوهونن را می توان برای پردازش متغیرهای کیفی و همچنین متغیرهای کمی به کار برد.
القای DTمرحله مدل سازی در فرایند پیش بینی است و شامل تعیین DTsبرای تعمیم طبقات رفتار شبکه قبلا تعریف شده می شود. درک DTsراحت تر است و از یک سطح دقت قابل قبولی برخوردار هستند. چندین مزیت DTsبه عنوان یک ابزار طبقه بندی در ادبیات (کتب و مقالات علمی) ارائه شده است [25]. در این تحقیق، یک C5.0 DTبرای داده های پیش پردازش شده به منظور پیش بینی شکایات شرکت های کانال بازاریابی در مورد شرکت بین المللی شان به کار برده شده است. قوانین تصمیم استخراج می شوند. مدیران شرکت به راحتی می توانند این قوانین را درک کنند و رفتار آتی شرکت کانال بازاریابی را پیش بینی کنند.
این مقاله بصورت زیر مرتب شده است. شبکه کوهونن (KN)در بخش 2 معرفی می شود. بخش 3 جزئیات این برنامه را ارائه می دهد. در بخش 4 نتیجه گیری صورت گرفته است.
2. شبکه های کوهونن
شناسایی اطلاعات، یا الگوها، در زیرمجموعه های بزرگ داده ها یکی از ویژگی های فیلدهای داده کاوی و استخراج ویژگی است. روش های یادگیری نظارت نشده زیرمجموعه ای از این فیلدها هستند که شناسایی و گروه بندی الگوها را بدون دیدن آن الگو از قبل یا توصیف ویژگی های کلیدی آن امکان پذیر می سازند؛ برای انجام این کار، یک معیار شباهت تعریف می شود و گروه ها در یک فضای ابعادی پایین تر خوشه بندی می شوند. نقشه های خودسازمان ده (SOM) یکی از این روش هاست که ترسیم داده ها را با یک مجموعه ویژگی بزرگ در فضای دو بعدی امکان پذیر می سازد. علاوه بر این، SOMsامکان درک بصری ساختارهای داده ای را فراهم می کنند. سپس می توان از آنها در شناسایی و طبقه بندی ناهنجاری در مجموعه داده ها استفاده کرد [26].
هدف SOMsتبدیل یک سیگنال ورودی با ابعاد بالا و پیچیده به یک نقشه گسسته با ابعاد پایین و ساده تر است. بنابراین، SOMs برای تحلیل خوشه ای بسیار مناسب هستند، وقتی الگوهای زمینه ای پنهان در میان رکوردها و فیلدها جستجو می شوند. SOMsگره های خروجی را در خوشه های گره ها ساختاربندی می کنند، که در آن گره های نزدیک به یکدیگر بیشتر شبیه هستند تا سایر گره های دور از هم.یک معماری معمولی SOMدر شکل 2 نشان داده می شود (Larose, 2005)
KNsیک نوع SOMاست خودش نشان دهنده یک طبقه خاص از شبکه های عصبی است.KNsرا می توان به عنوان یک روش غیرسلسله مراتبی تحلیل خوشه ای در نظر گرفت.به عنوان روش های غیرسلسله مراتبی خوشه بندی، آنها یک بردار ورودی را برای نزدیک ترین خوشه، برمبنای یک تابع فاصله از پیش تعیین شده، تعیین می کنند، اما آنها تلاش می کنند درجه ای از وابستگی را میان خوشه ها با معرفی فاصله بین آنها حفظ کنند. متعاقبا، هر نورون خروجی دارای محیط اطراف مختص به خود است که برحسب ماتریکس فاصله بیان می شود. نورون های خروجی بوسیله یک تابع فاصله بین آنها مشخص می شوند و با استفاده از ساختاربندی گره ها در یک فضای تک بعدی یا دو بعدی توصیف می شوند [27].
3. کاربرد
3.1 درک داده ها
داده ها بصورت دستی از 300 شرکت شرکت کننده در کانال بازاریابی یک شرکت بین المللی بوسیله نظرسنجی یک به یک جمع آوری می شوند. نظرسنجی های جمع آوری شده به یک ماتریکس داده تبدیل شده و شامل 20 ویژگی برای هر شرکت از جمله تحصیلات، جنسیت، سن، وضعیت تاهل، ترتیبات پرداخت، امکانات فراهم شده از سوی شرکت، حرفه، تعداد علائم تجاری وغیره می شوند. ویژگی جنسیت بصورت دستی حذف می شود به این خاطر تمام صاحبان شرکت های کانال بازاریابی به جز یک نفر مرد بودند. در این مرحله، تحلیل آماری پایه و برخی از روش های تحلیل گرافیکی اکتشافی برای درک ماتریکس داده ها استفاده از می شوند.
ترسیم نموداری وب برای درک روابط بین ویژگی ها انجام می شود. دو مثال ارائه خواهیم کرد. شکل 3 رابطه بین وضعیت تحصیل و انتظارات صاحبان شرکت های کانال بازاریابی از شرکت تولید کننده را نشان می دهد. به راحتی می توان دید که صاحبان شرکت های کانال بازاریابی با مدرک کارشناسی سفر و آموزش از شرکت تولید کننده را ترجیح می دهند. با این حال، صاحب شرکت با مدرک تحصیلات ابتدایی سفر و آموزش را ترجیح نمی دهد. همچنین از شکل 4 می توان مشاهده کرد که صاحبان شرکت های کانال بازاریابی با سطح تحصیلات پایین تر برقراری ارتباط با نمایندگان منطقه ای را ترجیح می دهند.
گرچه آمارهای کلاسیک تصویر خوبی از ماتریکس فعلی داده ها بطور کلی ارائه می دهند، اما قادر نیستند دانش پنهان که منتظر کشف شدن است را پیدا کنند. در این حالت، ازDMبرای یافتن دانش قبلا ناشناخته و مفید استفاده می شود.
3.2 فاز آماده سازی داده ها
رکودها و سوابق غیرعادی که رفتار متفاوتی را از مقادیر قبلا اندازه گیری شده در ماتریکس داده ها نشان می دهند باید کشف شوند. بعد از اجرای تحلیل کشف ناهنجاری، دو گروه از سوابق و پرونده ها را پیدا کردیم، یکی با 236 رکورد و دیگری با 4 رکورد. بعد از تحلیل کشف ناهنجاری، تنها سه رکورد که بیش از سطح شاخص ناهنجاری بودند (1.456) از ماتریکس داده ها حذف شدند.
مشخص است که انتخاب ویژگی دقت مدل را در فرایند کشف دانش بهبود می بخشد. در این تحقیق، SOMکوهونن برای انتخاب زیرمجموعه ای از متغیرهای ورودی با حذف ویژگی ها با اطلاعات پیش بینی کننده پایین استفاده می شود. پرونده ها یا رکوردها بوسیله شبکه کوهونن گروه بندی می شوند بطوریکه پرونده ها در یک گروه یا خوشه شبیه به یکدیگر هستند و پرونده ها (رکوردها) در گروه های مختلف متفاوت و نامشابه هستند. برای 20 چرخه اول، سایز همسایگی در R=2تعیین شد و نرخ یادگیری بطور خطی کاهش یافت که در شروع شد. سپس برای 150 چرخه بعد، سایز همسایگی مجددا R=1تعیین شد، درحالیکه نرخ یادگیری مجاز بود به طور خطی از به کاهش یابد. نورون ها در دو لایه یعنی لایه ورودی و لایه خروجی سازمان دهی می شوند. در این مطالعه، لایه ورودی دارای 45 نورون است و لایه خروجی 12 نورون دارد. نقشه خود سازمان ده 12 خوشه مختلف را شناسایی کرد. خوشه ها و تعداد پرونده ها یا رکوردها در جدول 1 نشان داده می شوند. بعد از بکارگیری مدل SOMکوهونن، 11 ویژگی را از ماتریکس داده ها که شامل جنسیت و ارتباط با تولیدکننده می شدند را حذف می کنیم.
3 القا درخت تصمیم
DTsیکی از روش های محبوبی هستند که برای کشف دانش در پایگاه داده ها استفاده شده اند.مدل های درختی را می توان به عنوان یک روش بازگشتی تعریف کرد که از طریق آن یک مجموعه روی واحدهای آماری به تدریج به دو گروه تقسیم می شود، طبق یک بخش از یک متغیر توضیحی برای تقسیم و انتخاب یک قانون تقسیم برای این متغیر که نحوه پارتیشن بندی یا بخش بندی مشاهدات را مشخص می کند. نتیجه اصلی یک مدل درختی، یک بخش یا پارتیشن نهایی از مشاهدات است.
برای دستیابی به این هدف، لازم است معیارهای توقف برای فرایند تقسیم مشخص شود DTsیک مرور و بررسی به راحتی قابل درک برای کاربران بدون پیش زمینه DM با دقت بالای طبقه بندی ارائه می کنند.همچنین آنها یک مدل درختی از مسئله و جایگزین های مختلف در یک قالب قابل فهم بدون توضیح ارائه می کنند.دانش کسب شده معمولا بطور کامل قابل درک است و می توان براحتی از آن برای درک بهتر مسئله استفاده کرد. علاوه بر این، DTsبه تصمیم گیری با اطلاعات فعلی کمک می کند. آنها حتی وقتی داده های آموزشی به شدت نامشخص هستندعملکرد رضایت بخشی از خود نشان می دهند[28]. در این مطالعه، یک مدل C5.0 DT برای ساخت یک DT برای پیش بینی شکایات شرکت های کانال بازاریابی اجرا شد. هدف طبقه بندی یافتن آیتم های داده ای مشابه متعلق به همان طبقه است.
مدل سازی با C5.0اجرا می شود. C5.0 یکی از محبوب ترین الگوریتم های مدل سازی DTو نسخه دیگری از الگوریتم قبلا شناخته شده ID3 است.یک مدل C5.0 DTکه با 10 عمق درخت قابل قبول است، بدست می آید.میانگین 91.3 است و خطای استاندارد برای اعتبارسنجی متقابل 1.4 است.روابط و دانش کسب می شوند.یک صد و نود و یک قانون if-then(اگر، در آن صورت) برای بیان فرایند به زبان انگلیسی تولید می شوند. مثال های زیر برخی از این قواعد را نشان می دهند:
· اگر تعداد علائم تجاری >[4]باشد و حرفه ]مهندسی[ و انتظارات از تولید کننده ]تخفیف بیشتر و مراقبت در طول یک مدت [باشد، در آن صورت شکایت شرکت ]مشکلات ارتباطی[ است.
· اگر وضعیت تحصیلی <]مدرک کارشناسی[ باشد و حرفه ]عمده فروش[ و انتظارات از تولید کننده ]تخفیف بیشتر و مراقبت در طول یک مدت[باشد و GIRO< = [15000000]، در آن صورت شکایت شرکت ]مشکلات در جمع آوری پول[است.
ارزیابی دقت اعتبار سنجی متقابل ده برابر شده طبقه بندی شده برای آموزش و آزمون ماتریکس داده ها استفاده شد. میزان دقت مدل 92.67 درصد است که در جدول 2 نشان داده شده است.
نتایج
امروزه، تصمیمات کانال بازاریابی به اندازه تصمیماتی که شرکت ها در مورد ویژگی ها و قیمت های محصولات می گیرند مهم هستند . در این تحقیق، از یک چارچوب DMاستفاده کردیم و یک القا درخت تصمیم را از داده های کانال بازاریابی برای بهبود کارآیی سیستم بازاریابی ارائه کردیم. روش های DMبرای داده های نظرسنجی بازاریابی اجرا شدند. ما استفاده از روش های پیش پردازش و DMمختلف از جمله تحلیل کشف ناهنجاری، SOMکوهوننو C5.0DTs را بررسی کردیم. این تحقیق شامل کاهش ویژگی با استفاده از KNsمی شد. یک C5.0 DT که برای طبقه بندی مجموعه داده ها با 10 عمق درخت استفاده شد، تولید شد. نرخ دقت مدل 92.67 درصد بود. مدل DTماتریکس داده ها را بطور واضح ترسیم می کند بطوریکه تمام گزینه ها را بتوان کاوش کرد. از این دانش بدست آمده می توان برای پیش بینی رفتارهای آتی شرکت های کانال بازاریابی استفاده کرد. داده ها در یک قالب قابل مدیریت پردازش می شوند و قواعد تصمیم تولید می شوند. مدل DTبه مدیران کمک می کند تا شرکت های کانال بازاریابی را درک کنند. این تحقیق در ارزیابی شکایات آتی شرکت ها و برنامه ریزی پیشرفت های آتی در زمینه بازاریابی حائز اهمیت است. اگر برنامه و کانال بازاریابی فعلی رابرای نیازهای ظرفیت ارزیابی کنید به یک عملکرد بهتر سیستم بازاریابی دست خواهید یافت. در نتیجه، دانش بدست آمده عملکرد سیستم بازاریابی را بهبود خواهد بخشید.
تکنیک های جایگزین DMبا استفاده از روش های هوش مصنوعی را می توان در تحقیق آتی برای مقایسه روش های مختلف و پیاده سازی این چارچوب مطالعه کرد.
نام و نام خانوادگی: یاسین سپه وند
راه ارتباطی: yasin.cr4@gmail.com