این سند، گردشکار جامع طراحیشده برای پروژه فاینتیون (Fine-Tuning) سیستم تبدیل صوت به متن را تشریح میکند. هدف اصلی این پروژه، افزایش دقت مدل هوش مصنوعی در تبدیل فایلهای صوتی، مدیا و ویدئوهای ضبطشده اساتید به متن نوشتاری است. فرآیند تعریفشده شامل یک زنجیره کامل از مراحل است که با دریافت و صفبندی فایلهای صوتی آغاز شده و به ارزیابی مستمر عملکرد مدل خاتمه مییابد.

مراحل کلیدی این گردشکار عبارتند از: آمادهسازی فایلهای ورودی و تبدیل آنها به فرمت استاندارد WAV، تولید زیرنویس اولیه، قطعهبندی صوت به بخشهای کوتاه، و سپس ایجاد یک دیتاست آموزشی باکیفیت از طریق دو روش تصحیح دستی و تصحیح خودکار. پیشبینی میشود که از طریق فرآیند خودکار، حدود ۳۰ ساعت داده صوتی و متنی معتبر به مجموعه دادههای آموزشی اضافه گردد. در نهایت، مدل هوش مصنوعی Whisper با استفاده از این دادههای جدید بهطور مکرر آموزش داده میشود تا نرخ خطای آن کاهش یابد. ارزیابی اثربخشی این فرآیند از طریق مقایسه خروجی مدل جدید با خروجیهای اولیه و دادههای مرجع تصحیحشده انجام میشود و به ازای هر ۱۰ ساعت داده آموزشی جدید، این ارزیابی تکرار خواهد شد تا پیشرفت پروژه بهدقت رصد شود.
--------------------------------------------------------------------------------
این پروژه یک رویکرد ساختاریافته و چندمرحلهای را برای بهبود یک مدل تشخیص گفتار پیادهسازی میکند. هر مرحله بهگونهای طراحی شده است که کیفیت دادهها را تضمین کرده و امکان ارزیابی دقیق پیشرفت را فراهم آورد.
این مرحله نقطه شروع فرآیند است و هدف آن مدیریت کارآمد فایلهای ورودی و استانداردسازی آنها برای پردازش است.
منابع ورودی: فایلهای صوتی و مدیا از منابع گوناگون نظیر آرشیو، شبکه یا ورودیهای دستی دریافت میشوند.
سیستم صفبندی: برای مدیریت پردازش، دو نوع صف مستقل طراحی شده است:
صف مبتنی بر دیتابیس: فایلهایی که مسیر آنها در دیتابیس ثبت شده و ممکن است در نقاط مختلف شبکه قرار داشته باشند، در صورت دسترسی سرور به استوریج مربوطه، وارد صف پردازش میشوند.
صف مبتنی بر پوشه (Folder-based): هر فایلی که مستقیماً در یک پوشه مشخص روی سرور کپی شود، بهصورت خودکار به انتهای صف اضافه میگردد.
استانداردسازی فرمت: تمام فایلهای ورودی (مانند MP3 یا MP4) بهطور خودکار در پسزمینه به فرمت WAV تبدیل میشوند. این فرمت به دلیل کیفیت بالا و سازگاری بهینه با مدلهای تشخیص گفتار، بهعنوان فرمت استاندارد انتخاب شده است.
پس از آمادهسازی، صوت برای مراحل بعدی پردازش و تصحیح آماده میشود.
تولید زیرنویس: سیستم یک نسخه اولیه از زیرنویس را برای کل فایل صوتی تولید میکند.
قطعهبندی صوت: فایل صوتی اصلی به قطعات کوتاه، معمولاً با طول ۳ تا ۱۰ ثانیه، تقسیم میشود. این قطعهبندی برای تسهیل فرآیند تصحیح دستی ضروری است.
در این فاز، دادههای خام به دادههای آموزشی باکیفیت تبدیل میشوند. این فرآیند از دو روش موازی بهره میبرد:
تصحیح دستی:
یک رابط کاربری ویژه برای این منظور طراحی شده است که به کاربران اجازه میدهد به هر قطعه صوتی کوتاه گوش داده و متن زیرنویس تولیدشده توسط هوش مصنوعی را اصلاح کنند.
کاربران میتوانند پروژههای جدیدی روی سرور ایجاد کرده و زیرنویسها را با دقت بالا بازبینی و تأیید نمایند.
تصحیح خودکار:
این روش برای سخنرانیهایی به کار میرود که متن کامل و معتبر آنها از قبل موجود است.
با استفاده از اسکریپتهای پردازشی و الگوریتمهای مشابهیابی متن، بخشهایی از صوت که تطابق بالایی با متن مرجع دارند، شناسایی و بهصورت خودکار تصحیح میشوند.
پیشبینی کلیدی: انتظار میرود از این طریق حدود ۳۰ ساعت داده صوتی و متنی باکیفیت به دیتاست آموزشی پروژه افزوده شود.
این مرحله، هسته اصلی بهبود مدل هوش مصنوعی است.
تجمیع دادهها: خروجیهای هر دو فرآیند تصحیح دستی و خودکار جمعآوری میشوند.
آموزش مجدد مدل: مدل Whisper با استفاده از دیتاست جدید و باکیفیت، چندین مرتبه آموزش داده میشود.
هدف: هدف اصلی از این آموزشهای مکرر، کاهش نرخ خطا (Word Error Rate) و افزایش دقت کلی سیستم در تبدیل صوت به متن است.
برای سنجش میزان موفقیت فرآیند فاینتیون، یک چرخه ارزیابی دقیق و تکرارشونده طراحی شده است.
باززیرنویسی (Re-transcribing): پس از هر دور فاینتیون، فایلهایی که دارای نسخه تصحیحشده دستی هستند، مجدداً توسط مدل جدید زیرنویس میشوند.
مقایسه سهجانبه: خروجی جدید مدل با دو معیار دیگر مقایسه میشود تا میزان بهبود بهصورت کمی اندازهگیری شود:
خروجی اولیه: متنی که مدل پیش از فاینتیون تولید کرده و حاوی خطا بوده است.
خروجی تصحیحشده دستی: متن معتبر و قابل اعتماد که بهعنوان "حقیقت زمینی" (Ground Truth) در نظر گرفته میشود.
شاخصهای ارزیابی: این مقایسه به دو سؤال کلیدی پاسخ میدهد:
چه درصدی از خطاهای قبلی برطرف شدهاند؟
آیا مواردی که پیش از این بهدرستی تشخیص داده میشدند، دچار خطا نشدهاند (جلوگیری از پسرفت یا Regression)؟
گزارشگیری و پایش:
گزارشهای دقیقی از میزان بهبود عملکرد سیستم تهیه میشود.
این فرآیند ارزیابی بهازای هر ۱۰ ساعت داده آموزشی جدید که به دیتاست اضافه میشود، تکرار میگردد تا تأثیر حجم داده بر دقت مدل بهطور مستمر رصد شود.