ویرگول
ورودثبت نام
صابر طباطبائی یزدی
صابر طباطبائی یزدیبرنامه نویس۴۴ساله. از مدرک MCSD دات نت سال 2002 شروع کردم البته بعد از لیسانس و تمام عمرم رو در مدیریت با ابزار های شیرپوینت و MSPS و CRM و غیره گذراندم. https://zil.ink/sabert
صابر طباطبائی یزدی
صابر طباطبائی یزدی
خواندن ۴ دقیقه·۱۸ روز پیش

خلاصه گزارش: پروژه فاین‌تیون مدل تبدیل صوت به متن

خلاصه اجرایی

این سند، گردش‌کار جامع طراحی‌شده برای پروژه فاین‌تیون (Fine-Tuning) سیستم تبدیل صوت به متن را تشریح می‌کند. هدف اصلی این پروژه، افزایش دقت مدل هوش مصنوعی در تبدیل فایل‌های صوتی، مدیا و ویدئوهای ضبط‌شده اساتید به متن نوشتاری است. فرآیند تعریف‌شده شامل یک زنجیره کامل از مراحل است که با دریافت و صف‌بندی فایل‌های صوتی آغاز شده و به ارزیابی مستمر عملکرد مدل خاتمه می‌یابد.

مراحل کلیدی این گردش‌کار عبارتند از: آماده‌سازی فایل‌های ورودی و تبدیل آن‌ها به فرمت استاندارد WAV، تولید زیرنویس اولیه، قطعه‌بندی صوت به بخش‌های کوتاه، و سپس ایجاد یک دیتاست آموزشی باکیفیت از طریق دو روش تصحیح دستی و تصحیح خودکار. پیش‌بینی می‌شود که از طریق فرآیند خودکار، حدود ۳۰ ساعت داده صوتی و متنی معتبر به مجموعه داده‌های آموزشی اضافه گردد. در نهایت، مدل هوش مصنوعی Whisper با استفاده از این داده‌های جدید به‌طور مکرر آموزش داده می‌شود تا نرخ خطای آن کاهش یابد. ارزیابی اثربخشی این فرآیند از طریق مقایسه خروجی مدل جدید با خروجی‌های اولیه و داده‌های مرجع تصحیح‌شده انجام می‌شود و به ازای هر ۱۰ ساعت داده آموزشی جدید، این ارزیابی تکرار خواهد شد تا پیشرفت پروژه به‌دقت رصد شود.

--------------------------------------------------------------------------------

تحلیل جامع گردش‌کار پروژه

این پروژه یک رویکرد ساختاریافته و چندمرحله‌ای را برای بهبود یک مدل تشخیص گفتار پیاده‌سازی می‌کند. هر مرحله به‌گونه‌ای طراحی شده است که کیفیت داده‌ها را تضمین کرده و امکان ارزیابی دقیق پیشرفت را فراهم آورد.

مرحله ۱: دریافت، صف‌بندی و آماده‌سازی فایل‌ها

این مرحله نقطه شروع فرآیند است و هدف آن مدیریت کارآمد فایل‌های ورودی و استانداردسازی آن‌ها برای پردازش است.

  • منابع ورودی: فایل‌های صوتی و مدیا از منابع گوناگون نظیر آرشیو، شبکه یا ورودی‌های دستی دریافت می‌شوند.

  • سیستم صف‌بندی: برای مدیریت پردازش، دو نوع صف مستقل طراحی شده است:

    • صف مبتنی بر دیتابیس: فایل‌هایی که مسیر آن‌ها در دیتابیس ثبت شده و ممکن است در نقاط مختلف شبکه قرار داشته باشند، در صورت دسترسی سرور به استوریج مربوطه، وارد صف پردازش می‌شوند.

    • صف مبتنی بر پوشه (Folder-based): هر فایلی که مستقیماً در یک پوشه مشخص روی سرور کپی شود، به‌صورت خودکار به انتهای صف اضافه می‌گردد.

  • استانداردسازی فرمت: تمام فایل‌های ورودی (مانند MP3 یا MP4) به‌طور خودکار در پس‌زمینه به فرمت WAV تبدیل می‌شوند. این فرمت به دلیل کیفیت بالا و سازگاری بهینه با مدل‌های تشخیص گفتار، به‌عنوان فرمت استاندارد انتخاب شده است.

مرحله ۲: تولید زیرنویس اولیه و قطعه‌بندی

پس از آماده‌سازی، صوت برای مراحل بعدی پردازش و تصحیح آماده می‌شود.

  • تولید زیرنویس: سیستم یک نسخه اولیه از زیرنویس را برای کل فایل صوتی تولید می‌کند.

  • قطعه‌بندی صوت: فایل صوتی اصلی به قطعات کوتاه، معمولاً با طول ۳ تا ۱۰ ثانیه، تقسیم می‌شود. این قطعه‌بندی برای تسهیل فرآیند تصحیح دستی ضروری است.

مرحله ۳ و ۴: ایجاد دیتاست آموزشی از طریق تصحیح

در این فاز، داده‌های خام به داده‌های آموزشی باکیفیت تبدیل می‌شوند. این فرآیند از دو روش موازی بهره می‌برد:

  • تصحیح دستی:

    • یک رابط کاربری ویژه برای این منظور طراحی شده است که به کاربران اجازه می‌دهد به هر قطعه صوتی کوتاه گوش داده و متن زیرنویس تولیدشده توسط هوش مصنوعی را اصلاح کنند.

    • کاربران می‌توانند پروژه‌های جدیدی روی سرور ایجاد کرده و زیرنویس‌ها را با دقت بالا بازبینی و تأیید نمایند.

  • تصحیح خودکار:

    • این روش برای سخنرانی‌هایی به کار می‌رود که متن کامل و معتبر آن‌ها از قبل موجود است.

    • با استفاده از اسکریپت‌های پردازشی و الگوریتم‌های مشابه‌یابی متن، بخش‌هایی از صوت که تطابق بالایی با متن مرجع دارند، شناسایی و به‌صورت خودکار تصحیح می‌شوند.

    • پیش‌بینی کلیدی: انتظار می‌رود از این طریق حدود ۳۰ ساعت داده صوتی و متنی باکیفیت به دیتاست آموزشی پروژه افزوده شود.

مرحله ۵: فرآیند فاین‌تیون مدل (Fine-Tuning)

این مرحله، هسته اصلی بهبود مدل هوش مصنوعی است.

  • تجمیع داده‌ها: خروجی‌های هر دو فرآیند تصحیح دستی و خودکار جمع‌آوری می‌شوند.

  • آموزش مجدد مدل: مدل Whisper با استفاده از دیتاست جدید و باکیفیت، چندین مرتبه آموزش داده می‌شود.

  • هدف: هدف اصلی از این آموزش‌های مکرر، کاهش نرخ خطا (Word Error Rate) و افزایش دقت کلی سیستم در تبدیل صوت به متن است.

مرحله ۶ و ۷: ارزیابی، باززیرنویسی و پایش مستمر

برای سنجش میزان موفقیت فرآیند فاین‌تیون، یک چرخه ارزیابی دقیق و تکرارشونده طراحی شده است.

  • باززیرنویسی (Re-transcribing): پس از هر دور فاین‌تیون، فایل‌هایی که دارای نسخه تصحیح‌شده دستی هستند، مجدداً توسط مدل جدید زیرنویس می‌شوند.

  • مقایسه سه‌جانبه: خروجی جدید مدل با دو معیار دیگر مقایسه می‌شود تا میزان بهبود به‌صورت کمی اندازه‌گیری شود:

    1. خروجی اولیه: متنی که مدل پیش از فاین‌تیون تولید کرده و حاوی خطا بوده است.

    2. خروجی تصحیح‌شده دستی: متن معتبر و قابل اعتماد که به‌عنوان "حقیقت زمینی" (Ground Truth) در نظر گرفته می‌شود.

  • شاخص‌های ارزیابی: این مقایسه به دو سؤال کلیدی پاسخ می‌دهد:

    • چه درصدی از خطاهای قبلی برطرف شده‌اند؟

    • آیا مواردی که پیش از این به‌درستی تشخیص داده می‌شدند، دچار خطا نشده‌اند (جلوگیری از پسرفت یا Regression)؟

  • گزارش‌گیری و پایش:

    • گزارش‌های دقیقی از میزان بهبود عملکرد سیستم تهیه می‌شود.

    • این فرآیند ارزیابی به‌ازای هر ۱۰ ساعت داده آموزشی جدید که به دیتاست اضافه می‌شود، تکرار می‌گردد تا تأثیر حجم داده بر دقت مدل به‌طور مستمر رصد شود.

هوش مصنوعیمدلزیرنویستبدیل صوت به متن
۱
۰
صابر طباطبائی یزدی
صابر طباطبائی یزدی
برنامه نویس۴۴ساله. از مدرک MCSD دات نت سال 2002 شروع کردم البته بعد از لیسانس و تمام عمرم رو در مدیریت با ابزار های شیرپوینت و MSPS و CRM و غیره گذراندم. https://zil.ink/sabert
شاید از این پست‌ها خوشتان بیاید