جداسازی منابع صوتی (مثل هنگامی که چند نفر همزمان در حال صحبت باشند) از جمله مباحث بسیار پرطرفدار بین محققان پردازش سیگنال گفتار و صوت میباشد. از همین رو پژوهشهای بسیار زیادی در این زمینه انجام میگیرد و پژوهشگران هوش مصنوعی همواره در حال بررسی روشهای مختلف برای دستیابی به نتیجه مناسبتر میباشند.
استفاده از شبکه عصبی عمیق، یکی از بهترین روشهایی است که تاکنون ارائه شده.
یکی از این روشها شامل یک نوع شبکه عصبی بازگشتی به نام LSTM که برای سیگنالهای طولانی به کار میرود، میشود. در این روش به دلیل ارتباط کامل میان لایهها، آموزش شبکه کند است و اندازه مدل بزرگ خواهد شد.
یکی دیگر از روشها، استفاده از شبکه عصبی کانولوشنال است. این روش برای سیگنالهای طولانی منجر به عمق یشتر شده و فرآیند آموزش را سختتر میکند.
در مقالهای که ما در سایت عصر گویش پرداز به آن پرداختهایم، به دنبال روشی جدید هستیم تا با ترکیب این دو شبکه عصبی بتوانیم مدل کارآمدتری در حوزه پردازش گفتار و پردازش صوت بسازیم.
برای اینکه روند این مقاله برایمان واضح و روشن باشد، ابتدا ساختار هریک از شبکهها را بررسی کردهایم و سپس درباره انواع شیوه اتصالات آنها بحث میکنیم و بهترین روش را برای ساختار جدید ارائه میکنیم. سپس این شبکه را برای جداسازی صدای خواننده در موسیقی به کار میبریم.
برای بررسی کامل این مقاله میتوانید از این لینک اقدام کنید.