خواندن ۱ دقیقه·۳ سال پیش

بزرگترین دیتاست صوت به متن فارسی رایگان ( نزدیک 200 گیگ )

my email : masoudparpanchi@gmail.com

توجه : این بخش اول دیتاست هست که نزدیک 60 گیگ فایل هست. این نسخه از دیتاست نسخه دوم است که اقدام به جمع آوری شده بود.

دیتاست صوتی به همراه نوشته مرتبط یکی از گرون ترین انواع دیتاست هست که توی فارسی به طور خاص دیتاست به درد بخور open source نداریم. حالا من تصمیم گرفتم دیتاست صوت به متن که طی دو سال کار توی شرکت همتک جمع آوری کردم رو با اجازه مدیران کامل رایگان در اختیار جامعه هوش مصنوعی ایرانی بزارم.این دیتاست نزدیک 200 گیگ فایل هست که جزییات دقیقش رو توی ریپازیتوری گیتهاب گداشتم اما به طور خلاصه اینجا هم ببینیم :

You may use some techniques ( like using LMs, using annotator, etc. ) to clean more the transcription
Transcriptions are not an exact (100%) match
you can use the confidence_level column in the CSV file to select more accurate rows. also some files dont have csv file, just wav and txt file which contain text.
voices format is : format : Wav / channels : mono/ sample_rate : 16000 Hz/

با این دیتاست کار های خیلی زیادی میشه کرد توی پردازش صوت که بسته به نیازتون توی صنعت یا دانشگاه و پژوهش میتونید ازش استفاده کنید. لینک ها :

GitHub repo : https://github.com/shenasa-ai/speech2text

Dataset_part_1_v2 : https://drive.google.com/drive/folders/1ZsTMb_V-UAXxxi-wRE-g4hXXntonA_P3?usp=share_link

Dataset_part_2_v2 : https://drive.google.com/drive/folders/1eAPjF_DVU9j4nQ8S0aWQTbCbTI5sBrYp?usp=share_link

Dataset_part_3_v2 : https://drive.google.com/drive/folders/1rMNYwKtkyz8tprhwErrcDT-TLKtWA0OB?usp=share_link

Dataset_part_4_v2 : https://drive.google.com/drive/folders/1Lxq8ouA6UWEOkHfNjxJ7Kf5k51D5t2V8?usp=share_link

سایر اطلاعات مربوط به مدل های تبدیل صوت به متن به زودی منتظر خواهند شد.( چکپوینت ها/ هایپر پارامتر ها / مدل زبانی / و غیره )

دیتاستopen sourceهوش مصنوعی

مسعود پرپنچی

شاید از این پست‌ها خوشتان بیاید

مسعود پرپنچی

خواندن ۱ دقیقه·۳ سال پیش

بزرگترین دیتاست صوت به متن فارسی رایگان ( نزدیک 200 گیگ )

my email : masoudparpanchi@gmail.com

You may use some techniques ( like using LMs, using annotator, etc. ) to clean more the transcription
Transcriptions are not an exact (100%) match
you can use the confidence_level column in the CSV file to select more accurate rows. also some files dont have csv file, just wav and txt file which contain text.
voices format is : format : Wav / channels : mono/ sample_rate : 16000 Hz/

GitHub repo : https://github.com/shenasa-ai/speech2text

Dataset_part_1_v2 : https://drive.google.com/drive/folders/1ZsTMb_V-UAXxxi-wRE-g4hXXntonA_P3?usp=share_link

Dataset_part_2_v2 : https://drive.google.com/drive/folders/1eAPjF_DVU9j4nQ8S0aWQTbCbTI5sBrYp?usp=share_link

Dataset_part_3_v2 : https://drive.google.com/drive/folders/1rMNYwKtkyz8tprhwErrcDT-TLKtWA0OB?usp=share_link

Dataset_part_4_v2 : https://drive.google.com/drive/folders/1Lxq8ouA6UWEOkHfNjxJ7Kf5k51D5t2V8?usp=share_link

دیتاستopen sourceهوش مصنوعی

مسعود پرپنچی

شاید از این پست‌ها خوشتان بیاید