یکی از دغدغههای اصلی محققان در حوزهی پردازش گفتار کمبود دیتاست فارسی و یا گران بودن آن میباشد. من در گیتهاب خود سعی دارم، انواع دیتاستهای فارسی مربوط به حوزه ی تبدیل به صوت به متن را جمع آوری کنم. شما با بازدید از صفحهی بنده در گیتهاب میتوانید انواع دیتاست های رایگان و غیر رایگان را مشاهده کنید.
در این لینک مجموعه داده مربوط به تسک ASR را به زبان فارسی با مدت زمان 3 ساعت قرار دادهام. برچسب هر فایل صوتی به صورت جمله و مدت زمان هر فایل حدود 10 ثانیه می باشد. این مجموعه داده از جایی کپی نشده است و این پروژه شخصی من است که آزادانه منتشر میکنم. میتوانید از آن در پروژه های خود استفاده کنید. همچنین، اگر می خواهید یک مجموعه داده 86 ساعته مانند این داشته باشید، می توانید با من تماس بگیرید. hubare.ra[at]gmail.com
شرکت موزیلا شروع به تولید مجموعه داده فارسی عظیم کرده است. این شرکت در نسخه 7 خود 293 ساعت صوت فارسی را به متن تبدیل کرده و به صورت رایگان در این لینک منتشر کرده است. صداهای این مجموعه معمولا کوتاه هستند.
همچنین می توانید از این سایت نیز استفاده کنید. این مجموعهداده شامل 2.5 ساعت گفتار تکگوینده میباشد.