persiandataset
persiandataset
خواندن ۱ دقیقه·۳ سال پیش

دیتاست رایگان فارسی برای تبدیل صوت به متن


یکی از دغدغه‌های اصلی محققان در حوزه‌ی پردازش گفتار کمبود دیتاست فارسی و یا گران بودن آن می‌باشد. من در گیت‌هاب خود سعی دارم، انواع دیتاست‌های فارسی مربوط به حوزه ی تبدیل به صوت به متن را جمع آوری کنم. شما با بازدید از صفحه‌ی بنده در گیت‌هاب می‌توانید انواع دیتاست های رایگان و غیر رایگان را مشاهده کنید.

مجموعه‌داده‌ی Persian Speech:

در این لینک مجموعه داده مربوط به تسک ASR را به زبان فارسی با مدت زمان 3 ساعت قرار داده‌ام. برچسب هر فایل صوتی به صورت جمله و مدت زمان هر فایل حدود 10 ثانیه می باشد. این مجموعه داده از جایی کپی نشده است و این پروژه شخصی من است که آزادانه منتشر می‌کنم. می‌توانید از آن در پروژه های خود استفاده کنید. همچنین، اگر می خواهید یک مجموعه داده 86 ساعته مانند این داشته باشید، می توانید با من تماس بگیرید. hubare.ra[at]gmail.com

دیگر منابع:

  • مجموعه‌داده‌ی موزیلا:
شرکت موزیلا شروع به تولید مجموعه داده فارسی عظیم کرده است. این شرکت در نسخه 7 خود 293 ساعت صوت فارسی را به متن تبدیل کرده و به صورت رایگان در این لینک منتشر کرده است. صداهای این مجموعه معمولا کوتاه هستند.
  • مجموعه‌داده‌ی persianspeechcorpus:
همچنین می توانید از این سایت نیز استفاده کنید. این مجموعه‌داده شامل 2.5 ساعت گفتار تک‌گوینده می‌باشد.
دیتاستتبدیل صوت به متندیتاست فارسی تبدیل صوت به متندیتاست رایگان فارسی تبدیل صوت به متنمجموعه داده ی تبدیل صوت به متن فارسی
علاقه‌مند به تولید و معرفی دیتاست‌های هوش مصنوعی https://github.com/persiandataset
شاید از این پست‌ها خوشتان بیاید