برنامه داده‌های باز دیجی‌کالا

شرکت دیجی‌کالا در اقدامی ارزشمند چندین دیتاست این فروشگاه اینترنتی را با رعایت حریم خصوصی مشتریان خود به‌صورت رایگان در اختیار علاقه‌مندان قرار داده است. برنامه داده‌های باز دیجی‌کالا نکست به‌تازگی با هدف ارائه بستر مناسب برای تحقیق و توسعه در حوزه‌ علوم داده شروع به کار کرده است.

در ادامه برخی از دیتاست‌های انتشاریافته و کارکردهای آن در حوزه علم‌داده معرفی شده است.

1- دیتاست نظرات کاربران:

این داده‌ها شامل یکصد هزار نمونه از نظرات کاربران است که شامل چندین نظر برای یک محصول می‌باشد. از موارد استفاده این داده‌ها می‌توان به پردازش زبان طبیعی، تحلیل احساسات، طبقه‌بندی بر اساس کیفیت نظرات، شناسایی اسپم و تحلیل‌های روانشناسی اشاره کرد.

2- دیتاست تاریخچه خرید مشتریان:

این داده‌ها، شامل یکصد هزار خرید توسط مشتریان است که همانند سایر داده‌های دیجیکالا بی‌نام شده‌اند تا حریم شخصی مشتریان حفظ شود. این داده‌ها دارای زمان و موقعیت مکانی می‌باشد. از موارد پیشنهادی استفاده از این داده‌ها می‌توان به تحلیل روندها در میان شهرها، پیش‌بینی خرید و سفارش مشتریان و دسته‌بندی مشتریان اشاره کرد.

3- دیتاست کیفیت نظرات محصولات:

این داده‌ها شامل تاریخچه بیش از یکصدهزار محصول می‌باشد. از موارد پیشنهادی تحقیقاتی شناسایی ناهنجاری‌ها(anomaly detection)، پیش‌بینی قیمت‌های آینده، تحلیل آماری قیمت و پایداری در میان طبقه‌بندی‌ها و استفاده از یادگیری ماشین جهت شناسایی قیمت‌های نادرست توسط فروشنده‌ها می‌باشد.

4- دیتاست لیست محصولات:

این داده‌ها شامل یکصدهزار نمونه از محصولات و طبقه‌بندی آن‌ها می‌باشد. کاربردهای پیشنهادی برای این دیتاست، پیش‌بینی طبقه‌بندی، شناسایی ناهنجاری(anomaly detection)، شناسایی اشتباهات در دسته‌بندی(Categorization) ، شناسایی موارد تکراری و دسته‌بندی پویا با استفاده از ویژگی‌های داده‌ها می‌باشد.

پی‌نوشت:

1- مخاطب اصلی این برنامه دانشجویان علاقه‌مند به انجام پژوهش‌های تحقیقاتی یا پایان‌نامه بر اساس داده‌های انتشاریافته می‌باشد. درخواست دسترسی به داده‌های فوق از طریق ایمیل دانشگاهی مقدور می‌باشد.

2- از طریق لینک زیر می‌توانید به این داده‌ها دسترسی داشته باشید.

http://opendata.digikala.com