هرچقدر پول بدی همانقدر آش میخوری

از قدیم گفته اند هرچقدر پول بدی همانقدر آش میخوری. به عنوان کسی که در حال مطالعه علم دیتاساینس و مهندسی داده هستم می خواهم امروز در این مقاله با هدف تمرین و تحقیق روی پروژه های دنیای واقعی، میزان درستی این ضرب المثل را در بازار تلفن های همراه تحقیق و بررسی کنم. ابتدا به آماده سازی داده‌ها و سپس به محاسبه میزان همبستگی بین قیمت تلفن ها و رتبه‌ ای که مشتریان یک فروشگاه اینترنتی به تلفن‌ها داده اند، خواهم پرداخت. همچنین لازم به ذکر است در این نوشته سعی شده است براساس رتبه کلی که به تلفن همراه اختصاص داده شده است تحلیل صورت پذیرد.

جمع آوری و آماده سازی مجموعه داده

داده‌های ارزشمند مهم ترین قسمت پروژه های تحلیلی محسوب می شوند. گاهی ما با داده های زیادی رو به رو هستیم اما فاقد ارزش هستند. بنابراین، در این پروژه ابتدا به آماده سازی و انتخاب داده‌ها خواهم پرداخت. برای این منظور با استفاده از ابزار کافکا، یک Producer، وظیفه دریافت داده‌ها در بازه های زمانی مختلف را برعهده خواهد گرفت و سپس داده های تمیز شده را به Topic مربوطه ارسال خواهد کرد.

اگر با ابزار کافکا آشنایی ندارید، می توان کافکا را ابزاری تعریف نمود که وظیفه ارسال و دریافت مداوم پیام ها را برعهده دارد. با استفاده از این ابزار می توان به صورت لحظه ای پیام هایی را ارسال یا دریافت نمود. مهم ترین دلیلی که من از کافکا در این پروژه استفاده کردم، بهره گیری از ویژگی مدیریت کننده fault tolerant است. بنابراین در صورتی که به عنوان مثال Consumer ما به هر دلیلی با Failure مواجه شود، می توان آن را مدیریت نمود.

مجموعه داده جمع آوری شده شامل دو ستون است. ستون rate به رتبه ای که کاربران به تلفن همراه اختصاص داده اند و ستون price به قیمت تلفن ( به تومان ) اشاره می کند. همچنین در مجموع 197 تلفن همراه ثبت شده است.

دیتاست جمع آوری شده از سایت دیجیکالا می‌باشد. از آنجایی که دیجیکالا از scraping سایت خود جلوگیری کرده است، در نهایت من دیتاست فوق را به صورت دستی جمع آوری نمودم! ???

با بررسی آماری دیتاست می توان فهمید که گران ترین تلفن با قیمتی حدود 50 میلیون تومان و ارزان ترین آن با قیمت 328 هزار تومان است.

محاسبه همبستگی

به منظور محاسبه همبستگی میان rate و price می بایست ابتدا میزان نویز و نحوه توزیع داده ها را مطالعه نمود. بنابراین با مصورسازی داده ها برای هر یک از ستون ها می توان نحوه توزیع داده ها را فهمید. همانطور که در تصویر مشخص شده است، داده های ما دارای نویز هستند.

حال نمودار scatter را رسم می کنیم. از آنجایی که داده های ما دارای نویز هستند و میزان پراکندگی داده‌ها ثابت نمی باشد، برای محاسبه همبستگی از الگوریتم Kendall Tau استفاده خواهم نمود.

با محاسبه همبستگی می توان فهمید ضرب المثل تاحدی درباره تلفن های همراه درست است! یعنی با بالا رفتن قیمت تلفن همراه، رتبه ای که کاربران به آن خواهند داد نیز بیشتر می‌شود و به میزان 23 درصد محاسبه شده است.