ویرگول
ورودثبت نام
تکنیکال نوتز
تکنیکال نوتز
تکنیکال نوتز
تکنیکال نوتز
خواندن ۱ دقیقه·۱۰ روز پیش

از API دیجی‌کالا تا یک دیتاست قابل استفاده

برای یکی از پروژه‌هام به دیتای کاتالوگ یک فروشگاه آنلاین نیاز داشتم و اولین چیزی که به ذهنم رسید دیجی‌کالا بود.
چند تا دیتاست از دیجی‌کالا روی Kaggle هست (مثلاً: https://www.kaggle.com/search?q=digikala )
ولی وقتی دقیق‌تر نگاه کردم دیدم هیچ‌کدوم فیلدهایی که من لازم داشتم رو کامل ندارن.

برای همین تصمیم گرفتم خودم یه کرالر بنویسم. البته از صفر شروع نکردم و از این ریپو به‌عنوان پایه استفاده کردم:
https://github.com/HB-2000/digikala_crawler

ولی چون APIهای دیجی‌کالا نسبت به قبل تغییر کرده بودن، عملاً مجبور شدم بخش زیادی از کد رو دوباره بنویسم و اصلاح کنم.

در نهایت کد نهایی پروژه و همین‌طور دیتایی که جمع‌آوری شده رو اینجا به اشتراک گذاشتم:
کد پروژه:
https://github.com/zahraEskandari/digikala_crawler

دیتای آماده (Release):
https://github.com/zahraEskandari/digikala_crawler/releases

اگه شما هم برای پروژه‌های دیتا، سرچ یا تحلیل به دیتای کاتالوگ دیجی‌کالا نیاز دارید، می‌تونید از این پروژه استفاده کنید یا بر اساس نیاز خودتون توسعه‌ش بدید.

نمونه دیتا

نمونه یک رکورد از دیتا
نمونه یک رکورد از دیتا

۰
۰
تکنیکال نوتز
تکنیکال نوتز
شاید از این پست‌ها خوشتان بیاید