داریوش مهدی پور یقینی
داریوش مهدی پور یقینی
خواندن ۱ دقیقه·۱ سال پیش

دیتا اسکرپ

یکی از راه های دسترسی به دیتا ستی که بتونیم روش مدل مونو ترین کنیم، اسکرپ کردن دیتا هست. تکنیک دیتا اسکرپ اجازه می ده تا دیتای مورد نظر رو از بستر اینترنت و وب سایت های مختلف جمع آوری کنیم. تو پروژه اینچیه، به تعداد خیلی زیادی تصویر لیبل گذاری شده تو کلاس های مختلف نیاز داریم تا نتیجه ترین مدل خوب دربیاد.

برای شروع اسکرپ باید، بگردیم و سایت هایی رو پیدا کنیم که تصاویر لیبل گذاری شده داشته باشن. شاید به صورت صریح و دقیق تصاویر لیبل گذاری شده نباشه، ولی تا حدودی هم لیبل تصویر نزدیک به کلاس بندی اش باشه می تونه کارمونو راه بندازه.

این تصویر از سایت دیجی کالا، محصولات قسمت پوشاک، پوشاک مردانه و کفش ور نشون میده. می شه تصاویر این قسمت رو ذخیره کرد و برای تارگت سه لیبل گفته شده رو بهش تخصیص داد.حسب اینکه دسته بندی مون قراراه تا چند سطح باشه، می شه لیبل ها و تارگت های مختلفی رو به تصاویر تخصیص داد. تا اینجای کار یه چیزی واضح و روشنه و اون هم اینکه به حجم خیلی بالایی از نمونه ها احتیاج داریم که تعداد زیادی از کلاس ها رو پوشش بده. اول از همه می خوایم لیست دسته بندی هامونو دربیاریم و بر مبنای لیستی که داریم تصویر مرتبط جمع کنیم.یه کار خوبی که می خوایم بکنیم اینه که دیتاست هایی که جمع کردیم و لیبل گذاری کردیم رو هم به صورت رایگان در اختیار علاقمندای این کار قرار بدیم. انشالله بدرد بخور باشه.


منبع: اینچیه

دیجی کالادیتا اسکرپاینچیهدیتاستinchiyeh
مدرس دانشگاه، مولف کتاب، برنامه نویس، عاشق هوش مصنوعی مخصوصا یادگیری عمیق، کتاب و مسافرت و گشت و گذار تو طبیعت مخصوصا بکرش رو هم خیلی دوست دارم.
شاید از این پست‌ها خوشتان بیاید