برای اطلاعات بیشتر میتوانید مخزنِ github زیر را مشاهده کنید.
https://github.com/persiandataset/Arshasb
_____________________________________________________________________________________________
مجموعه داده ارشاسب 7 هزار صفحهایی در لینک زیر قابل دانلود است (~730M)
همچنین، اگر مجموعهدادهی 33000 صفحهایی را میخواهید، با من hubare.ra[at]gmail.com تماس بگیرید.
_____________________________________________________________________________________________
تعداد کلمات منحصر به فرد با حذف اعداد و علائم نگارشی 97498 است که در نسخه 7k این تعداد به 40911 کلمهی منحصر به فرد کاهش می یابد.
محتوای این مجموعهداده شامل متون عمومی و خبری است. فونت این مجموعه داده Far_ketab بوده است.
اگه از این دیتاست استفاده کردی اگه دوست داشتی یک کافی مهمونم کن از طریق این لینک زیر! خوشحال میشم.
https://www.coffeete.ir/persiandataset