ali ebrahimi
ali ebrahimi
خواندن ۱ دقیقه·۴ سال پیش

کرول ویکی‌پدیا فارسی

https://smartproxy.com/what-is-web-scraping/crawling-vs-scrapingurce :
https://smartproxy.com/what-is-web-scraping/crawling-vs-scrapingurce :


برای انجام پروژه‌ای نیاز به متن‌های طولانی تو موضوعات متخلف داشتم، برای جمع‌آوری این متن‌ها کجا بهتر از ویکی‌پدیا چون هم دسترسی بهش آسونه، پراکندگی موضوعی فراوانی داره، حجم متنیش هم بسیار زیاد

من نیاز به مقالات پربیننده‌تر داشتم برای همین محتوای این لینک بنظرم مناسب اومد. تو این لینک شما می‌تونید لیست مقالات پربازدید تو هر موضوع رو مشاهده کنید البته برای این کار از الگوریتم‌های پیج‌رنک هم میشد استفاده کرد اما همین لینک کار من رو راه انداخت و انجامش دادم.

کد پروژه به همراه یسری پیش‌پردازش اولیه رو می‌تونید تو گیت هاب من ببینید، سعی کردم خیلی ساده بنویسم که مناسب همه باشه و راحت اجرا بشه.

حدود 1 گیگ دیتا که شامل 18000 مقاله میشه رو هم خودم کرول کردم اگر کسی نیاز داشت بهم ایمیل بده که براش ارسال کنم.

لینک پروژه : https://github.com/aliebi/Persian_Wikipedia_Crawler


امیدوارم مفید بوده باشه براتون اگه سوالی داشتین حتما بپرسین.

هوش مصنوعیپردازش زبان طبیعیخزشگر فارسیکرول ویکی پدیا
دانشجوی کارشناسی ارشد هوش دانشگاه تهران و فعال در هوش مصنوعی،پردازش زبان طبیعی،علوم داده
شاید از این پست‌ها خوشتان بیاید