نوشته های مسعود پرپنچی

بزرگترین دیتاست صوت به متن فارسی رایگان ( نزدیک 200 گیگ )

مسعود پرپنچی — Fri, 20 Jan 2023 13:08:29 +0330

my email : masoudparpanchi@gmail.comتوجه : این بخش اول دیتاست هست که نزدیک 60 گیگ فایل هست. این نسخه از دیتاست نسخه دوم است که اقدام به جمع آوری شده بود.دیتاست صوتی به همراه نوشته مرتبط یکی از گرون ترین انواع دیتاست هست که توی فارسی به طور خاص دیتاست به درد بخور open source نداریم. حالا من تصمیم گرفتم دیتاست صوت به متن که طی دو سال کار توی شرکت همتک جمع آوری کردم رو با اجازه مدیران کامل رایگان در اختیار جامعه هوش مصنوعی ایرانی بزارم.این دیتاست نزدیک 200 گیگ فایل هست که جزییات دقیقش رو توی ریپازیتوری گیتهاب گداشتم اما به طور خلاصه اینجا هم ببینیم : You may use some techniques ( like using LMs, using annotator, etc. ) to clean more the transcriptionTranscriptions are not an exact (100%) matchyou can use the confidence_level column in the CSV file to select more accurate rows. also some files dont have csv file, just wav and txt file which contain text.voices format is : format : Wav / channels : mono/ sample_rate : 16000 Hz/با این دیتاست کار های خیلی زیادی میشه کرد توی پردازش صوت که بسته به نیازتون توی صنعت یا دانشگاه و پژوهش میتونید ازش استفاده کنید. لینک ها :GitHub repo : https://github.com/shenasa-ai/speech2textDataset_part_1_v2 : https://drive.google.com/drive/folders/1ZsTMb_V-UAXxxi-wRE-g4hXXntonA_P3?usp=share_linkDataset_part_2_v2 : https://drive.google.com/drive/folders/1eAPjF_DVU9j4nQ8S0aWQTbCbTI5sBrYp?usp=share_linkDataset_part_3_v2 : https://drive.google.com/drive/folders/1rMNYwKtkyz8tprhwErrcDT-TLKtWA0OB?usp=share_linkDataset_part_4_v2 : https://drive.google.com/drive/folders/1Lxq8ouA6UWEOkHfNjxJ7Kf5k51D5t2V8?usp=share_link سایر اطلاعات مربوط به مدل های تبدیل صوت به متن به زودی منتظر خواهند شد.( چکپوینت ها/ هایپر پارامتر ها / مدل زبانی / و غیره )

رگرسیون منطقی (logistic regression)

مسعود پرپنچی — Thu, 25 Jul 2019 16:37:21 +0430

این نوشته در ادامه این نوشته هستش. لطفا اول اونو مطالعه کنید.
رگرسیون منطقی چیه؟ در واقع یه تابع ریاضی هست که با استفاده از اون میتونیم به داده هامون برچسب خاصی رو نسبت بدیم. یعنی مثلا میخوایم ببینیم از بین ۱۴۰۰۰ کارمند کدوماشون بیشتر از ۱۲ میلیون حقوق میگیرن.(مثلا گفتما)اینکه با چه دیدی از ریاضیات این الگوریتم کار میکنه رو تو ویرگول یکم سخته توضیح بدم به جاش این لینکو میزارم ببینید حتما کمک میکنه.این الگوریتم از دسته الگوریتم های یادگیری ماشینی هستش که برای دستهبندی classification استفاده میشه. یعنی مثلا ما دو نوع دسته در نظر داریم. پولدار/فقیر با این الگوریتم میتونیم پیشبینی کنیم هر داده جزو کدوم دسته هستش.خوندن این نمونه کد هم بنظرم کمک میکنه تو اینکه این نوع الگوریتم یادگیری ماشین چیکار میکنه.<br/>

پیشبینی دنیای واقعی با توابع ریاضی( رگرسیون )

مسعود پرپنچی — Thu, 25 Jul 2019 16:03:24 +0430

رگرسیون یا regression چیه؟ درواقع همه ی ما دیدیمش و خیلی ازش استفاده کردیم. منتها هیچوقت بهمون نگفتن این توابع چه کاربرد های قوی و جدی تو دنیای واقعی دارن. همیشه تو همون سطح مبحث درس ریاضی موند. توابع درجه یک, درجه دو و بالاتر رو یادتون هست؟ این توابع همین رگرسیون ها هستن. برای تعریف رگرسیون تو یه خط میشه گفت : پیشبینی رفتار و تغییرات یک متغیر (یا چند متغیر) بر اساس مقادیر یک یا چند متغیر دیگه.تو درس ریاضی هم ما همین کارو میکردیم. مقدار y رو براساس تغییرات x پیشبینی میکردیم. تو دنیای واقعی ولی خیلی اوضاع جالبتر میشه مثلا پیشبینی مقدار فروش ماست خسرو (این میشه همون y) بر اساس متغیر هایی مثل میزان تورم/ اعمال تحریم ها/میزان حقوق شهروندان و... . تابعی که ما میسازیم برای این پیشبینی برای هرکدوم این متغیر ها یک ضریب مشخص میکنه که تاثیر متغیر رو تو میزان فروش معین میکنه.ولی بیاید یکم بیشتر عمقی وارد رگرسیون بشیم.تعداد رگرسیون ها زیاده ولی چند مدل اولیه اش میشه به این موارد اشاره کرد:linear regressionlasso regressionridge regressionlogistic regressionباید توجه داشت که منظور از رابطه خطی در مدل رگرسیون، وجود رابطه خطی بین ضرایب است نه بین متغیرهای مستقل. برای مثال این مدل y=β0+β1x2+ϵ را نیز می‌توان مدل خطی در نظر گرفت در حالیکه مدل y=β0x^β1+ϵ دیگر خطی نیست و به مدل نمایی شهرت دارد.برای خط بالا این توضیح لازمه که متغیر مستقل یعنی اون متغیر هایی که مقدارشون رو تغییر میدیم تا مقدار متغیر وابسته(y) رو پیشبینی کنیم.اگه فرض کنیم داده های ما تو نمودار xy پخش شده باشن.تابع رگرسیون خطی هست که از همه نقاط کمترین فاصله رو داره. درواقع این خط پیشبینی ما هست. و هرچی فاصله خط از نقاط کمتر باشه خطای پیشبینی ما کمتره.قبل توضیح بیشتر چند شرط اولیه برای رگرسیون خطی رو بگیم : -نباید داده پرت(outliers) داشته باشیم.-باید تمامی داده های موجود مستقل باشند.یعنی وقوع هیچکدوم تاثیری روی دیگری نداشته باشه.-باید دارای توزیع نرمال باشیم.-متغیر های مستقل از هم مستقل باشند.بسته به تعداد متغیر های تاثیر گذار تابع ما هم طولانی تر میشه و طبیعتا تو نمودار دوبعدی نمیشه نشونش داد.(متاسفانه کامپیوتر تو این زمینه ها خیلی از ما بهتره :| )یه سری کلمه هم خیلی تو رگرسیون تکرار میشه مثل مقدار R-Squeared : یک مقدار اماری هست که میگه داده چقدر با مقدار پیشبینی شدهدر تابع رگرسیون فاصله دارد. مقدارش از صفر تا یک هست. یعنی مثلا اگر ۰.۳۲ باشه یعنی فقط ۳۲درصد فروش توسط این ویژگی ها و این تابع توضیف میشه.مقدار mean absolute error : MAE : نسبت کل خطاها به تعداد کل داده ها. که خب هرچی کمتر باشه بهتره.مقدار MSE : mean squared error : تفریق مقدار پیشبینی شده از مقدار واقعی به توان دو. تقسیم بر تعداد کل داده ها. علت اینکه به توان دو میرسونیم اینه که حاصل تفریق گاهی اوقات مثبت میشه و گاهی اوقات منفی. برای خلاص شدن از این خنثی کردن همدیگه به توان دو میرسونیم.مفهوم overfitting : این مفهوم رو بزارید با یه مثال توضیح بدیم. فرض کنید یک سگ دارید و بهش یاد دادید هروقت دست راستتونو بالا بردید روی دوپاش وایسه. حالا این سگو ورمیدارید میبرید امریکن گات تلنت ( تو عصرجدید سگ راه نمیدن :)))) ) اونجا دست چپتونو میبرید ولی سگ هیچ کاری نمیکنه. بعد یکی از داورا دست راستشو میبره بالا بازم سگ هیجکاری نمیکنه. بعدش یادتون میوفته که باید دست راستو بالا میبردید حالا که دست راستو بالا میبرید سگم رو دوپاش وامیسه.داستان overfitting هم همینه یعنی هنگامی که الگوریتم در حال یادگیری هست جوری یاد بگیره که فقط تو داده های اموزشی اولیه درست کار کنه. و حالتای جدیدو نفهمه.برای خلاص شدن از این مشکل چند راه هست. اما دوتا از موارد میشه به دو الگوریتم lasso regression , ridge regression اشاره کرد.این الگوریتما فرقی که با رگرسیون خطی ساده دارن اینه که تو این الگوریتم ها متغیر های مستقلی که تاثیر کمتری دارن تو مقدار نهایی رو سعی میکنه یا درنظر نگیره یا تاثیرشونو به صفر برسونهتوضیح رگرسیون منطقی هم اینجاستتوضیح دقیق و عمیق ریاضیات این الگوریتم و خود کد هاشونو لینک میزارم میتونید مطالعه کنید:یک نمونه کد از کارای آموزشی که مطالعه کردم و جمعشون کردم تو گیتابآموزش lasso , ridgeآموزش lasso, ridge بخش دومتوضیحات ریاضیات رگرسیون(۱۰ قسمتی)آموزش lasso, ridge بخش سوم

انالیز احساسات یا sentiment analysis چیست.

مسعود پرپنچی — Sun, 16 Jun 2019 00:52:40 +0430

به زبون ساده به معنی اینه که ببینیم توی یک متن دیدگاه و نظر در مورد یک موضوع خاص چیه. این روش توسط صاحبین کالا یا محصول میتونه خیلی خوب استفاده بشه.مثلا فرض کنیم هفته پیش مدیران اسنپ تصمیم گرفتن که ببین چقدر از دیدگاه های مردم تو شبکه های اجتماعی ( توییتر | ایسنتا و ... ) موافق عملکردشون تو حواشی اخیر بوده یا چقدر مخالف. روشی که میتونه بهشون کمک کنه تا احساسات مردم رو تو این موضوع خاص بفهمن همین sentiment analysis هستش. ولی این روش چجوری کار میکنه. (اینم باید بگم خیلی از شرکت ها به ما امکان دسترسی به داده هاشونو برای این کار ها میدن. مثل twitter api.)این روش با دو رویکرد کلی کار میکنه : روش صندوق کلمات (rule base)روش یادگیری ماشین(machin learning)۱- تو روش صندوق کلمات (اسمشو از خودم درآوردم) ما یک مجموعه ای داریم که توش تعدادی معین کلمه رو قرار میدیم ( اصطلاحا lexicon ) و اونهارو از نظر بار معنایی ارزش گذاری میکنیم. مثلا میگیم کلمه عصرحجری بار معنایی منفی داره برای ما. این بار معنایی میتونه بصورت دودویی باشه (فقط مثبت منفی) یا چندگانه باشه ( منفی مثبت خنثی ... ). بعد از داشتن مجموعه کلمات باید متن هامون رو پیش پردازش کنیم ( پاکسازی متن و از این قبیل کار ها. به عنوان مثال حذف کردن عدد ها ). حالا متن رو بررسی میکنیم و میبینم چندتا کلمه مثبت یا منفی یا خنثی هستش در اخر با داشتن تعداد کل مثبت ها و منفی ها میفهمیم متن موافق ابقای راننده اسنپ بوده یا مخالف.این روش صندوق کلمات نتیجه دقیقی میده اما مشکلاتی هم داره. مثلا بعضی اوقات کلمه ها تو معنی خودشون بکار نمیرن. مثل وقتی که جمع های پسرونه میخوان از یکی از رفیقاشون تعریف کنن :) کلماتی که استفاده میکنن عملا فحشه ولی دارن از رفیقشون به نیکی یاد میکنن. اینجور موقع ها این روش خطا میده.۲- روش دیگه یادگیری ماشین هستش. این روش از الگوریتم های یادگیری ماشین استفاده میکنیم و الگوریتم رو با مجموعه داده های اولیه اموزش میدیم. بعد از این دیگه این الگوریتم آماده است که با گرفتن هر تعداد متن جدید بهمون بگه که این جمله بار معنایی مثبت داره یا منفی. این روش مزیتش بر روش اول اینه که الگوریتم نوع تکلم ما رو یاد میگیره و میفهمه اگر ما کلمه ای رو تو معنی واقعیش استفاده نکنیم منظورمون چی بوده. و یکی از مواردی که به عنوان مشکل ازش یاد میکنن اینه که این روش نیاز به داده های اولیه برای آموزش الگوریتم داره.مثال های زیادی تو سطح وب برای این موضوع هست ولی سعی کردم خیلی عامینه توضیحش بدم سعی میکنم پیاده سازی با هر دو روش بسازم با زبان پایتون و لینکشو اخر همینجا اضافه کنم. در اخرم چندتا مقاله و فیلم خوب میزارم تو این موضوع اگر خواستید برید ببینید.تفاوت دو روش پیاده سازی ۱تفاوت دو روش پیاده سازی ۲پنج مرحله از پیاده سازی آنالیز احساسی نظر کاربران در مورد UBER ویدیوی سیراج ( یه آدم حرفه ای تو این زمینه. یوتوبه البته )