خواندن ۱ دقیقه·۵ سال پیش

دیتاست OCR فارسی اَرشاسب

در این پست، مجموعه داده فارسی OCR ارشاسب (نام باستانی ایرانی) معرفی می‌شود. این مجموعه داده شامل 33000 صفحه متن فارسی بود که 7000 صفحه آن به صورت رایگان منتشر شده است. کلماتی که در کنار یکدیگر قرار می گیرند به همدیگر وابستگی داشته و درباره ی یک موضوع نوشته شده‌اند. به همین دلیل می توان از مدل‌های NLP استفاده نمود تا دقت مدل‌های OCR افزایش یابد. در این مجموعه‌داده، موقعیت هر کلمه دقیقاً برچسب گذاری شده است. به این نمونه زیر نگاه کنید:

برای اطلاعات بیشتر می‌توانید مخزنِ github زیر را مشاهده کنید.

_____________________________________________________________________________________________

مجموعه داده ارشاسب 7 هزار صفحه‌ایی در لینک زیر قابل دانلود است (~730M)

همچنین، اگر مجموعه‌داده‌ی 33000 صفحه‌ایی را می‌خواهید، با من hubare.ra[at]gmail.com تماس بگیرید.

_____________________________________________________________________________________________

تعداد کلمات منحصر به فرد با حذف اعداد و علائم نگارشی 97498 است که در نسخه 7k این تعداد به 40911 کلمه‌ی منحصر به فرد کاهش می یابد.

محتوای این مجموعه‌داده شامل متون عمومی و خبری است. فونت این مجموعه داده Far_ketab بوده است.

اگه از این دیتاست استفاده کردی اگه دوست داشتی یک کافی مهمونم کن از طریق این لینک زیر! خوشحال میشم.

علاقه‌مند به تولید و معرفی دیتاست‌های هوش مصنوعی https://github.com/persiandataset

شاید از این پست‌ها خوشتان بیاید

خواندن ۱ دقیقه·۵ سال پیش

در این پست، مجموعه داده فارسی OCR ارشاسب (نام باستانی ایرانی) معرفی می‌شود. این مجموعه داده شامل 33000 صفحه متن فارسی بود که 7000 صفحه آن به صورت رایگان منتشر شده است. کلماتی که در کنار یکدیگر قرار می گیرند به همدیگر وابستگی داشته و درباره ی یک موضوع نوشته شده‌اند. به همین دلیل می توان از مدل‌های NLP استفاده نمود تا دقت مدل‌های OCR افزایش یابد. در این مجموعه‌داده، موقعیت هر کلمه دقیقاً برچسب گذاری شده است. به این نمونه زیر نگاه کنید:

برای اطلاعات بیشتر می‌توانید مخزنِ github زیر را مشاهده کنید.

_____________________________________________________________________________________________

مجموعه داده ارشاسب 7 هزار صفحه‌ایی در لینک زیر قابل دانلود است (~730M)

همچنین، اگر مجموعه‌داده‌ی 33000 صفحه‌ایی را می‌خواهید، با من hubare.ra[at]gmail.com تماس بگیرید.

_____________________________________________________________________________________________

محتوای این مجموعه‌داده شامل متون عمومی و خبری است. فونت این مجموعه داده Far_ketab بوده است.

اگه از این دیتاست استفاده کردی اگه دوست داشتی یک کافی مهمونم کن از طریق این لینک زیر! خوشحال میشم.

علاقه‌مند به تولید و معرفی دیتاست‌های هوش مصنوعی https://github.com/persiandataset

شاید از این پست‌ها خوشتان بیاید