نوشته های عصر گویش پرداز

چه ابزارهای هوش مصنوعی می‌توانند در ارتقای روابط عمومی شرکت‌ها موثر باشند؟

عصر گویش پرداز — Sat, 11 May 2024 16:37:14 +0330

۱-نویسالایو با استفاده از آخرین دستاوردهای هوش‌مصنوعی جهان در حوزه تشخیص گفتار، گفتار رسمی و محاوره‌ای را به متن تبديل می‌کند. نویسالایو قادر است با دقت و سرعت بالا تمامی سخنرانی‌ها و صورتجلسات را به متن تبدیل کند . ۲-سرویس و کتابخانه متن به گفتار آریانا (SDK)، این امکان را به توسعه‌دهندگان سیستم‌ها و برنامه‌نویسان می‌دهد تا به سادگی، قابلیت تبدیل متن فارسی به صوت طبیعی را به سامانه‌های خود اضافه نمایند. برای به‌کارگیری سرویس متن به صدای آریانا می‌توانید نرم‌افزار آریانا را روی سرور اختصاصی خود به صورت آفلاین نصب نمایید یا این که از بسته‌های اعتباری آریانا و اتصال آنلاین به سرورهای عصر گویش پرداز استفاده نمایید. ۳-رومند: دستیار صوتی هوشمند فارسی رومند پشتیبان آنلاین و 24 ساعته برای کسب و کار شماست. با رومند دیگر نیازی به هزینه برای بخش پشتیبانی ندارید. رومند چت‌بات هوشمندی است که توانایی مکالمه با مشتریان شما را دارد و به شما کمک میکند تا رضایت مندی مشتریان خود را افزایش بدهید و بهره‌وری بالاتری در کسب و کار خود داشته باشید.چت بات رومند پشتیبان کسب و کارهاست و در حوزه‌های پزشکی، حقوقی،‌ ورزشی،‌ خرید و فروش اینترنتی و… قابلیت کمک به کسب و کارها را دارد.

ایجاد تصاویر از متن با هوش مصنوعی

عصر گویش پرداز — Mon, 02 Oct 2023 12:23:56 +0330

شبکه عصبی DALL·E محصولی از لابراتوار تحقیقاتی OpenAI است که تصاویر را از زیرنویس‌های متنی برای طیف وسیعی از مفاهیم قابل بیان به زبان طبیعی ایجاد می‌کند. شبکه عصبی DALL·E محصولی از لابراتوار تحقیقاتی OpenAI است که تصاویر را از زیرنویس‌های متنی برای طیف وسیعی از مفاهیم قابل بیان به زبان طبیعی ایجاد می‌کند. نمونه ای از بدیل متن به عکس با استفاده از هوش مصنوعی: متن: an illustration of a baby daikon radish in a tutu walking a dog. تصویر:ایجاد تصاویر از متن با هوش مصنوعی بررسی DALL·E مانند GPT-3، DALL·E یک مدل زبان ترانسفورماتور است. هم متن و هم تصویر را به‌عنوان یک جریان واحد از داده‌ها که تا 1280 توکن را شامل می‌شود، دریافت می‌کند و با استفاده از حداکثر احتمال برای تولید همه نشانه‌ها، یکی پس از دیگری آموزش داده می‌شود. ترسیم چندین شی کنترل همزمان چندین شیء، ویژگی‌های آنها و روابط فضایی آنها چالش جدیدی را ارائه می‌کند. به عنوان مثال، عبارت “جوجه تیغی با کلاه قرمز، دستکش زرد، پیراهن آبی و شلوار سبز” را در نظر بگیرید. برای تفسیر صحیح این جمله، DALL·E نه تنها باید هر لباس را به درستی با حیوان ترکیب کند، بلکه باید ترکیبات (کلاه، قرمز)، (دستکش، زرد)، (پیراهن، آبی) و (شلوار، سبز) را نیز ایجاد کند. نمونه ای از توانایی تبدیل متن به تصویر توانایی DALL·E: متن: a small red block sitting on a large green block تصویر: برای بررسی این مقاله به سایت عصر گویش پرداز مراجعه کنید.

تشخيص گفتار خودكار برای كنترل ترافيك هوايی

عصر گویش پرداز — Mon, 28 Nov 2022 15:56:07 +0330

تشخيص گفتار خودكار برای كنترل ترافيك هوايیكنترلرهای ترافیك هوایی نقش بسیار مهمی در راهنمایی و تشخیص هواپیماها در حریم هوایی و سطح فرودگاه دارند و مقدار قابل توجهی از مكالمات بین كنترلرها و خلبانان از طریق كانال‌های رادیویی است. با توجه به این موضوع، رونویسی خودكار این مكالمات باعث بهبود امنیت سیستم و پیشرفت عملكردهای عملیاتی و نظارت بر انطباق اطلاعات می‌شود.با این حال سیستم‌های بازشناسی گفتار خودكاری كه تا به امروز پیشنهاد شده اند دقت لازم برای استفاده‌های عملی را دارا نبوده‌اند. عواملی مانند كانال‌های رادیویی نویز دار، سرعت تكلم بالا و لهجه‌های متنوع چالش‌هایی را برای توسعه بازشناسی گفتار برای كنترلرهای ترافیك هوایی به وجود می‌آورند اما از سوی دیگر این مكالمات دارای واژگان خاص و مشخص و همین‌طور عبارت‌های استانداردی هستند كه می‌توان از آن‌ها برای جهت‌دهی به الگوریتم‌ها و تقویت آن‌ها در این زمینه استفاده كرد.جدید ترین مدل‌های تشخیص گفتار خودكار، برای دامنه لغات وسیع، از مدل‌های اچ ام ام استفاده كرده اند. اخیرا از مدل‌های تركیبی اچ ام ام با مدل‌های جی ام ام و یا شبكه های عصبی عمیق استفاده كرده اند و به تازگی، مدل‌های سر به سر تشخیص گفتاری كه از شبكه های عصبی عمیق استفاده میكنند پیشرفت های قابل توجهی در افزایش دقت مدل‌های تشخیص گفتار داشته اند.یكی از مزایای كلیدی مدل‌های سر به سر در مقابل راهكار های كلاسیك مانند مدل‌هایی كه بر پایه اچ ام ام هستند سهولت آموزش مدل است، زیرا آن‌ها به خط لوله های پیچیده و مراحل پردازش فوق مهندسی شده نیاز ندارند. با وجود چندین تولكیت متن باز تشخیص گفتارخودكار محققان می‌توانند مدل‌های متنوعی را بر پایه مدل‌های یادگیری عمیق نوشته و با آن تطبیق دهند.دقت مدل‌های تشخیص گفتار خودكار به میزان داده‌های برچسب‌گذاری شده بستگی دارد. میزان داده‌های صوتی رونوشت شده عرصه مكالمات خلبان در مقابل دیگر عرصه‌های تشخیص گفتار خودكار بسیار ناچیز است. پس برای حل این موضوع ما از روش نیمه نظارت شده استفاده می‌كنیم كه باعث كاهش بیست و پنج درصدی نرخ خطای كلمه می‌شود. هم‌چنین محققان از مسیرهای هوایی پرواز نیز برای افزایش متن نوشته به مدل‌ها استفاده كرده‌اند كه باعث كاهش پنجاه درصدی میزان خطای فرمان شد اما تغییر چشم‌گیری در میزان خطای كلمه حاصل نشد.كارهای پیشین هم‌چنین از فرهنگ لغت كوچك‌تری نسبت به بقیه عرصه‌ها استفاده كرده‌اند تا بتوانند مدل‌های زبانی بهتری را توسعه بدهند كه نتیجه این امر افزایش بیست درصدی دقت مدل را در پی داشته است.در این مقاله ما مدل تشخیص گفتار خودكاری را توسعه می‌دهیم كه مكالمات خلبان با برج مراقبت را به صورت متن رونویسی می‌كند. مدل پیشنهاد شده بر اساس ساختار سر به سر تشخیص گفتار به همراه یك شبكه عصبی عمیق است كه نسبت به مدل‌های مرسومی كه بر پایه رویكردهای اچ ام ام هستند مزایایی را داراست. مدل‌هایی كه بر پایه اچ ام ام هستند متشكل از چندین ماژول مختلف ) مدل زبانی، مدل تلفظی، و غیره ( هستند كه هر ماژول به صورت جداگانه بهینه‌سازی می‌شود و تابعی كه این ماژول هارا مرتبط می‌كند لزوما بهینه بودن روابط را تضمین نمی‌كند.در مقابل ، یك مدل سر به سر چندین ماژول متفاوت را فقط با یك شبكه عصبی عمیق جایگزین می‌كند كه بدون نیاز به تنظیم دستی پیشرفته حالات، نگاشت مستقیم سیگنال‌های زبانی را به زنجیره‌ای از كاراكترها مقدور می‌سازد و همین‌طور آموزش یك مدل سر به سر بسیار آسان‌تر از روش‌های مرسوم قدیمی است. علاوه بر آموزش مدل با رونوشت‌ها ما دقت مدل را با آموزش انتقالی و تنظیم دقیق پارامترها كه از قبل بر روی داده‌های زبان گفتاری آموزش داده شده اند مقایسه می‌كنیم.برای بررسی این مقاله به سایت عصر گویش پرداز مراجعه کنید

روشی جدید برای جداسازی منابع صوتی

عصر گویش پرداز — Sun, 13 Nov 2022 12:06:27 +0330

جداسازی منابع صوتی (مثل هنگامی که چند نفر هم‌زمان در حال صحبت باشند) از جمله مباحث بسیار پرطرفدار بین محققان پردازش سیگنال گفتار و صوت می‌باشد. از همین رو پژوهش‌های بسیار زیادی در این زمینه انجام می‌گیرد و پژوهشگران هوش مصنوعی همواره در حال بررسی روش‌های مختلف برای دستیابی به نتیجه مناسب‌تر می‌باشند.جداسازی منابع صوتیاستفاده از شبکه عصبی عمیق، یکی از بهترین روش‌هایی است که تاکنون ارائه شده. یکی از این روش‌ها شامل یک نوع شبکه عصبی بازگشتی به نام LSTM که برای سیگنال‌های طولانی به ‌کار می‌رود، می‌شود. در این روش به دلیل ارتباط کامل میان لایه‌ها، آموزش شبکه کند است و اندازه مدل بزرگ خواهد شد.یکی دیگر از روش‌ها، استفاده از شبکه عصبی کانولوشنال است. این روش برای سیگنال‌های طولانی منجر به عمق یشتر شده و فرآیند آموزش را سخت‌تر می‌کند.در مقاله‌ای که ما در سایت عصر گویش پرداز به آن پرداخته‌ایم، به دنبال روشی جدید هستیم تا با ترکیب این دو شبکه عصبی بتوانیم مدل کارآمدتری در حوزه پردازش گفتار و پردازش صوت بسازیم.برای این‌که روند این مقاله برایمان واضح و روشن باشد، ابتدا ساختار هریک از شبکه‌ها را بررسی کرده‌ایم و سپس درباره انواع شیوه اتصالات آن‌ها بحث می‌کنیم و بهترین روش را برای ساختار جدید ارائه می‌کنیم. سپس این شبکه را برای جداسازی صدای خواننده در موسیقی به کار می‌بریم.برای بررسی کامل این مقاله می‌توانید از این لینک اقدام کنید.

درک محتوای صوتی با استفاده از داده‌های بصری

عصر گویش پرداز — Tue, 25 Oct 2022 16:13:17 +0330

صوت (صدا)، یکی از مهم‌ترین حالات انرژی و علاوه بر آن یکی از عوامل مهم در برقراری ارتباط میان ما، انسان‌ها، و هم‌چنین سایر موجودات می‌باشد. اما با وجود این مقدار اهمیت صوت در زندگی و تعاملات روزمره ما و با وجود پیشرفت‌های فعلی، کامپیوتر‌ها و تکنولوژی امروزه هنوز توانایی درک کامل محتوای معنایی صوت را ندارند. پردازش صدا، حوزه‌ای است که در تلاش است با ارائه روش‌های مناسب و بهینه، این امر را محقق کند.یکی از مسائل مهم در این حوزه، مساله تشخیص خودکار گفتار می‌باشد.در این مساله، به دنبال راه‌حلی برای تبدیل صوت ورودی دارای گفتار، به متن هستیم. راه‌حل‌های یافت‌شده برای این مساله، در شرایطی که گفتار ورودی واضح باشد، به نسبت خوب عمل می‌کند اما در صورت وجود نویز در ورودی عملکرد این روش‌ها شاهد افت خواهد بود.در جهت حل این مشکل، دو راه‌حل زیر مطرح شده‌اند:تقویت گفتار و صوتاستفاده از داده‌های بصری علاوه بر گفتاردر این مقاله، ما شاهد راه‌حلی مبتنی بر رویکرد دوم هستیم. یکی از شهود مهم در جهت عملکرد مثبت این رویکرد، مکانیزم طبیعی تشخیص گفتار در انسان می‌باشد که علاوه بر استفاده از سیستم شنیداری برای درک صوت و گفتار، با نگاه به حرکت لب‌های گوینده، تلاش می‌کند تا در صورت عدم درک قسمتی از گفتار فرد، آن را حدس بزند.درک گفتار و محتوای صوتی با استفاده از داده‌های بصریمدل ارائه‌شده در این مقاله، نسبت به دیگر مقالات ارائه شده دارای دو نکته برجسته می‌باشد:استفاده از یک بازنمایی کلی مبتنی بر صوت و تصویریادگیری با رویکرد خود-ناظر و نیمه-ناظراین در حالی است که غالب روش‌های ارائه‌شده برای حل این مساله، مبتنی بر یادگیری نظارت‌شده بوده است. برتری روش‌های خود-ناظر نسبت به روش‌های نظارت‌شده، عملکرد بهتر در موقعیت‌هایی است که داده‌های برچسب‌گذاری‌شده به میزان کافی وجود نداشته باشد. مدل‌های مبتنی بر یادگیری نظارت‌شده، محدود به تعداد داده‌های برچسب‌گذاری‌شده می‌باشند و تنها در صورتی می‌توانند عملکرد بهتری داشته باشند که حجم داده برچسب‌گذاری‌شده بیشتری را در فرایند آموزش استفاده کرده باشند.برای بررسی کامل این مقاله خواندنی و جذاب می‌توانید از این لینک اقدام کنید.

پیکره متنی فارسی ناب

عصر گویش پرداز — Sat, 22 Oct 2022 11:58:19 +0330

ناب naab / پیکره متنی فارسیپیکره متنی ناباگر شما هم از محققان هوش مصنوعی و یادگیری ماشین، به‌ویژه در حوزه پردازش گفتار و زبان طبیعی NLP باشید، همواره دغدغه دسترسی به منابع و دادگان زبان فارسی را داشته‌اید.وجود یک پیکره متنی بزرگ و جامع یکی از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق می‌باشد. ضرورت وجود چنین پیکره متنی بزرگ و مرجع داده به خصوص برای زبان‌هایی که منابع کم‌تری دارند، مثل فارسی، بیشتر جلب توجه می‌کند.تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری شرکت عصرگویش‌پرداز برای این مساله راه‌حل پیکره ناب را معرفی کرده‌اند. این پیکره مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. ناب شامل حدود 130 گیگابایت دیتا متنی است که کل این داده به صورت تفکیک شده شامل 250 میلیون پاراگراف و 15 میلیارد کلمه است.نابدر سال های اخیر، پردازش زبان طبیعی به عنوان یکی از مهم‌ترین حوزه های یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدل های پایه در این حوزه همان مدل های زبانی هستند که به حجم زیادی از داده متنی نیاز دارند. عملیات آموزش این مدل های زبانی به صورتی است که در آن کلمه یا کلماتی از متن حذف می‌شود و از مدل خواسته می‌شود که با توجه به واژگان خود جای خالی را حدس بزند بدین ترتیب مدل زبانی جایگاه مناسب معنایی کلمات موجود در واژگان زبان را می‌شناسد. معمولا این آموزش به مقدار بسیار زیادی داده متنی تمیز شده نیاز دارد. این موضوع در زبان هایی که منابع متنی آزاد کمتری برای آن وجود دارد بسیار بیشتر احساس می‌شود. کمبود این منابع متنی باعث می‌شود که محققان این حوزه نتوانند مدل های زبانی روز دنیا را برای فارسی آموزش دهند.چرا ناب؟در طی سالیان گذشته افراد متخصص و محققان زیادی در راستای سهولت فرآیند آموزش در حوزه هوش مصنوعی و به ویژه پردازش زبان طبیعی تلاش کرده‌اند. یکی از نام‌آشناترین و مطرح‌ترین این سازمان‌ها Huggingface می‌باشد. این سازمان کتابخانه‌هایی به زبان پایتون به صورت متن باز تهیه کرده است و به‌این ترتیب آموزش مدل های بر پایه یادگیری انتقالی را بسیار آسان‌تر کرده است. از جمله این کتابخانه‌ها می‌توان به transformer و datasets اشاره کرد. این دو کتابخانه که ترتیب برای استفاده و آموزش مدل و خواندن دیتاست های استفاده می‌شود با یکدیگر ساختار یکپارچه‌ای می‌سازد که فرآیند آموزش مدل های زبانی را بسیار آسان‌تر می‌کند. پیکره های فارسی موجود هیچ‌کدام بر روی مخزن datasets قرار نگرفته اند و نیاز به حضور یک پیکره یکپارچه فارسی در آن فضا احساس می‌شد. آن‌چه که پیکره ناب را متمایز و مطرح می‌کند قرار گرفتن آن بر روی Huggingface است.این پیکره متنی به صورت متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی می‌توانند به راحتی از آن بهره بجویند. از جمله ویژگی‌های پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، به‌این ترتیب می‌توانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید. برای آشنایی بیشتر با جزئیات ناب می‌توانید به این مقاله در عصر گویش پرداز مراجعه کنید. هم‌چنین برای خواندن مقاله ناب به زبان اصلی می‌توانید روی عبارت « naab » کلیک کنید.لینک‌ها:مقاله ناب در عصر گویش پرداز
https://huggingface.co/datasets/SLPL/naab-rawhttps://huggingface.co/datasets/SLPL/naabhttps://arxiv.org/abs/2208.13486