برای انجام پروژهای نیاز به متنهای طولانی تو موضوعات متخلف داشتم، برای جمعآوری این متنها کجا بهتر از ویکیپدیا چون هم دسترسی بهش آسونه، پراکندگی موضوعی فراوانی داره، حجم متنیش هم بسیار زیاد
من نیاز به مقالات پربینندهتر داشتم برای همین محتوای این لینک بنظرم مناسب اومد. تو این لینک شما میتونید لیست مقالات پربازدید تو هر موضوع رو مشاهده کنید البته برای این کار از الگوریتمهای پیجرنک هم میشد استفاده کرد اما همین لینک کار من رو راه انداخت و انجامش دادم.
کد پروژه به همراه یسری پیشپردازش اولیه رو میتونید تو گیت هاب من ببینید، سعی کردم خیلی ساده بنویسم که مناسب همه باشه و راحت اجرا بشه.
حدود 1 گیگ دیتا که شامل 18000 مقاله میشه رو هم خودم کرول کردم اگر کسی نیاز داشت بهم ایمیل بده که براش ارسال کنم.
لینک پروژه : https://github.com/aliebi/Persian_Wikipedia_Crawler
امیدوارم مفید بوده باشه براتون اگه سوالی داشتین حتما بپرسین.