بسیاری از توسعهدهندگان و پژوهشگران در حال فاینتیون کردن مدل Whisper برای کاربردهای خاص، به ویژه برای زبان فارسی، هستند. با این حال، در این مسیر اغلب با چالشهایی مانند خطای کمبود حافظه (OOM) یا نتایج نهچندان مطلوب مواجه میشوند. هدف این مقاله، ارائهٔ چند نکتهٔ کلیدی، غیرمنتظره و تأثیرگذار است که از دل مقالات پژوهشی و راهنماهای فنی استخراج شدهاند و میتوانند مسیر بهینهسازی مدل شما را کاملاً متحول کنند.

--------------------------------------------------------------------------------
این ایده که برای فاینتیون کردن مدل ۱.۵۵ میلیارد پارامتری Whisper-Large، نیازی به خوشههای پردازشی گرانقیمت نیست، شاید غافلگیرکننده باشد. اما این امر به لطف تکنیکهای نوین امکانپذیر شده است.
تکنیک PEFT (Parameter-Efficient Fine-Tuning) و به طور خاص LoRA (Low-Rank Adaptation)، به جای بهروزرسانی تمام پارامترهای مدل، تنها بخش بسیار کوچکی از آنها را آموزش میدهد. به عبارت دیگر، به جای بازنویسی کل یک کتاب ۱.۵ میلیارد کلمهای (مدل اصلی)، ما تنها چند پاورقی بسیار کوچک و هوشمندانه به آن اضافه میکنیم (ماتریسهای LoRA) که مسیر داستان را در حوزهٔ جدید ما هدایت میکنند.
تأثیر این روش در عمل فوقالعاده است:
آموزش کمتر از ۱٪ از پارامترها: با این روش، تنها بخش ناچیزی از پارامترهای مدل (مثلاً حدود ۱۵.۷ میلیون از ۱.۵۵ میلیارد پارامتر) آموزش داده میشود.
مصرف حافظهٔ بهینه: این ترکیب به قدری کارآمد است که میتوان مدل ۱.۵۵ میلیارد پارامتری Whisper-Large را روی یک کارت گرافیک NVIDIA T4 با تنها ۱۶ گیگابایت VRAM (و در برخی تنظیمات حتی کمتر از ۸ گیگابایت) فاینتیون کرد—کاری که پیش از این نیازمند خوشههای پردازشی بود.
این نکته مهمترین راهکار برای غلبه بر محدودیتهای سختافزاری و خطاهای کمبود حافظه (OOM) است.
--------------------------------------------------------------------------------
این تصور رایج که برای فاینتیون کردن به دهها یا صدها ساعت داده نیاز است را به چالش بکشید. گزارشها نشان میدهند که حتی یک مجموعه دادهٔ کوچک شامل ۴۰۰ نمونهٔ بسیار مرتبط و باکیفیت میتواند کاهش قابل توجهی در نرخ خطای کلمه (WER) ایجاد کند. برای ساخت یک سیستم حرفهای و قابل اتکا، هدفگذاری برای ۱۰ تا ۲۰ ساعت صدای تمیز و متنوع، نقطهی شروعی عالی است.
پیشپردازش دادهها یک مرحلهٔ حیاتی و غیرقابل چشمپوشی است. این سه گام را با دقت اجرا کنید:
حذف سکوت (VAD): استفاده از تشخیص فعالیت صوتی (Voice Activity Detection) نه تنها محاسبات را بهینه میکند، بلکه با حذف بخشهای سکوت و کاهش ابهام در همترازی متن و صدا، دقت مدل را به شکل چشمگیری بهبود میبخشد.
استانداردسازی متن: برای جلوگیری از خطا به دلیل تفاوتهای ظاهری کاراکترها، باید از نرمالسازی یونیکد (NFKC) که کاراکترها را به شکل سازگارترین و ترکیبپذیرترین حالت خود تبدیل میکند، استفاده کنید. این کاراکترهای مشابه مانند «ی» و «ي» یا «ک» و «ك» را یکسانسازی میکند.
فرمت صوتی: تمام فایلهای صوتی ورودی باید به فرمت ۱۶ کیلوهرتز تککاناله تبدیل شوند؛ این یک پیشنیاز مطلق برای حفظ عملکرد مدل است، زیرا Whisper برای این نرخ نمونهبرداری بهینه شده است.
یک اصل طلایی: ۱ ساعت دادهٔ تمیز بهتر از ۱۰ ساعت دادهٔ نویزی است!

--------------------------------------------------------------------------------
یکی از اشتباهات رایج در میان فعالان حوزه پردازش زبان طبیعی، ساختن یک توکنایزر جدید برای دیتاست خاص خودشان است. در مورد Whisper، این کار یک اشتباه بزرگ محسوب میشود.
توکنایزر از پیشآموزشدیدهٔ Whisper برای ۹۶ زبان بهینهسازی شده و بخش عظیمی از دانش مدل که در طی ۶۸۰ هزار ساعت آموزش به دست آمده، در وزنهای مرتبط با همین توکنایزر نهفته است. همانطور که سانچیت گاندی (Sanchit Gandhi)، از متخصصان Hugging Face، توضیح میدهد:
اگر یک توکنایزر جدید بسازیم، مجبور میشویم بخشی از وزنهای Whisper را به صورت تصادفی مقداردهی اولیه کنیم و بخشی از دانش حاصل از پیشآموزش را از دست بدهیم. با استفاده از توکنایزر اصلی، تمام وزنها قابل استفاده باقی میمانند.
مدل به سرعت یاد میگیرد که از کدام بخش از واژگان گستردهٔ خود برای زبان و حوزهٔ تخصصی جدید شما استفاده کند. بنابراین، از توکنایزر اصلی استفاده کنید و دانش عظیم نهفته در آن را حفظ نمایید.
--------------------------------------------------------------------------------
گاهی موفقیت در فاینتیون کردن، نه در استراتژیهای بزرگ، بلکه در تنظیمات دقیق و جزئی نهفته است که اغلب نادیده گرفته میشوند.
نرخ یادگیری بسیار پایین: نرخ یادگیری (Learning Rate) برای فاینتیون کردن باید بسیار کمتر از نرخ یادگیری در مرحله پیشآموزش باشد. مقداری در حدود ۴۰ برابر کوچکتر (مثلاً 5e-6) توصیه میشود. نرخ یادگیری بالا میتواند دانش قبلی مدل را تخریب کرده و باعث «فراموشی فاجعهبار» (Catastrophic Forgetting) شود؛ یعنی تمام دانش ارزشمندی که مدل در ۶۸۰ هزار ساعت آموزش کسب کرده، از بین برود. این نکته در ترکیب با LoRA اهمیت دوچندان مییابد، زیرا این نرخ یادگیری پایین تنها بر روی بخش کوچکی از پارامترها اعمال شده و ثبات فرآیند را تضمین میکند.
اهمیت طول قطعات صوتی: عملکرد Whisper روی قطعات صوتی بسیار کوتاه (مانند یک خط شعر) به مراتب ضعیفتر از قطعات طولانیتر (نزدیک به ۳۰ ثانیه) است. اگر دیتاست شما شامل جملات کوتاه است، آنها را در قالب قطعات صوتی طولانیتر گروهبندی کنید تا به مدل زمینهٔ (context) بیشتری برای یادگیری بدهید.
استراتژی تقسیمبندی (Segmentation) مهمتر از جداسازی صدا: تحقیقات نشان داده است که استفاده از یک الگوریتم تقسیمبندی هوشمند مبتنی بر دامنهٔ سیگنال صوتی (RMS-VAD) حتی روی صدای اصلی (بدون جداسازی وکال از موسیقی) نتایج را بهبود میدهد. این یعنی تعیین مرزهای دقیق برای قطعات صوتی، گاهی از حذف نویز موسیقی هم تأثیرگذارتر است.
--------------------------------------------------------------------------------
فاینتیونینگ یک راهحل جادویی نیست و نمیتواند تمام مشکلات ذاتی Whisper را برطرف کند. برای داشتن دیدی واقعبینانه، باید با محدودیتهای مدل آشنا بود:
حذف سیستماتیک آواهای غیرکلامی: Whisper تمایل دارد آواهایی مانند «اوهوم»، «آه» و همچنین صدای همخوانان پسزمینه (backing vocals) را حذف کند. این مشکل ریشه در ساختار مدل دارد و حتی با جداسازی کامل صدا از موسیقی نیز حل نمیشود.
توهم (Hallucination): گاهی اوقات، مدل کلمات یا جملاتی را تولید میکند که اصلاً در فایل صوتی وجود ندارند. این پدیده به این دلیل رخ میدهد که مدل همزمان دو کار را انجام میدهد: رونویسی صدا و پیشبینی کلمه بعدی بر اساس دانش عمومی زبان (مانند یک مدل زبانی). این پدیده مستقیماً به اهمیت نکتهٔ دوم (کیفیت داده) بازمیگردد؛ فاینتیونینگ با دادههای نویزی یا نامرتبط میتواند تمایل مدل به توهمزایی را به شدت تشدید کند.
--------------------------------------------------------------------------------
بهینهسازی Whisper بیش از آنکه به منابع محاسباتی سنگین وابسته باشد، به درک عمیق از معماری مدل، کیفیت دادهها و تنظیمات دقیق بستگی دارد. اصل «کمتر، بیشتر است» در این فرآیند نقشی کلیدی دارد: تمرکز بر دادههای باکیفیت به جای حجم زیاد، بهروزرسانی بخش کوچکی از پارامترها با LoRA، و استفاده از نرخ یادگیری بسیار پایین، همگی مصداقهای این اصل هستند. با این رویکرد هوشمندانه، میتوان با منابع محدود به نتایجی درخشان دست یافت.
با در نظر گرفتن این تکنیکهای بهینهسازی، چه کاربردهای جدید و خلاقانهای برای مدل Whisper در زبان فارسی و حوزههای تخصصی خود متصور هستید؟