برای یکی از پروژههام به دیتای کاتالوگ یک فروشگاه آنلاین نیاز داشتم و اولین چیزی که به ذهنم رسید دیجیکالا بود.
چند تا دیتاست از دیجیکالا روی Kaggle هست (مثلاً: https://www.kaggle.com/search?q=digikala )
ولی وقتی دقیقتر نگاه کردم دیدم هیچکدوم فیلدهایی که من لازم داشتم رو کامل ندارن.
برای همین تصمیم گرفتم خودم یه کرالر بنویسم. البته از صفر شروع نکردم و از این ریپو بهعنوان پایه استفاده کردم:
https://github.com/HB-2000/digikala_crawler
ولی چون APIهای دیجیکالا نسبت به قبل تغییر کرده بودن، عملاً مجبور شدم بخش زیادی از کد رو دوباره بنویسم و اصلاح کنم.
در نهایت کد نهایی پروژه و همینطور دیتایی که جمعآوری شده رو اینجا به اشتراک گذاشتم:
کد پروژه:
https://github.com/zahraEskandari/digikala_crawler
دیتای آماده (Release):
https://github.com/zahraEskandari/digikala_crawler/releases
اگه شما هم برای پروژههای دیتا، سرچ یا تحلیل به دیتای کاتالوگ دیجیکالا نیاز دارید، میتونید از این پروژه استفاده کنید یا بر اساس نیاز خودتون توسعهش بدید.
نمونه دیتا
