خواندن ۱ دقیقه·۲ سال پیش

روشی جدید برای جداسازی منابع صوتی

جداسازی منابع صوتی (مثل هنگامی که چند نفر هم‌زمان در حال صحبت باشند) از جمله مباحث بسیار پرطرفدار بین محققان پردازش سیگنال گفتار و صوت می‌باشد. از همین رو پژوهش‌های بسیار زیادی در این زمینه انجام می‌گیرد و پژوهشگران هوش مصنوعی همواره در حال بررسی روش‌های مختلف برای دستیابی به نتیجه مناسب‌تر می‌باشند.

استفاده از شبکه عصبی عمیق، یکی از بهترین روش‌هایی است که تاکنون ارائه شده.

یکی از این روش‌ها شامل یک نوع شبکه عصبی بازگشتی به نام LSTM که برای سیگنال‌های طولانی به ‌کار می‌رود، می‌شود. در این روش به دلیل ارتباط کامل میان لایه‌ها، آموزش شبکه کند است و اندازه مدل بزرگ خواهد شد.

یکی دیگر از روش‌ها، استفاده از شبکه عصبی کانولوشنال است. این روش برای سیگنال‌های طولانی منجر به عمق یشتر شده و فرآیند آموزش را سخت‌تر می‌کند.

در مقاله‌ای که ما در سایت عصر گویش پرداز به آن پرداخته‌ایم، به دنبال روشی جدید هستیم تا با ترکیب این دو شبکه عصبی بتوانیم مدل کارآمدتری در حوزه پردازش گفتار و پردازش صوت بسازیم.

برای این‌که روند این مقاله برایمان واضح و روشن باشد، ابتدا ساختار هریک از شبکه‌ها را بررسی کرده‌ایم و سپس درباره انواع شیوه اتصالات آن‌ها بحث می‌کنیم و بهترین روش را برای ساختار جدید ارائه می‌کنیم. سپس این شبکه را برای جداسازی صدای خواننده در موسیقی به کار می‌بریم.

برای بررسی کامل این مقاله می‌توانید از این لینک اقدام کنید.

شبکه عصبیهوش مصنوعیمدرسه هوش مصنوعی

عصر گویش پرداز

پیشرو در زمینه هوش مصنوعی برای زبان فارسی

شاید از این پست‌ها خوشتان بیاید