آمادهسازی دقیق و اصولی دادهها نقشی حیاتی در موفقیت فرآیند فاین تیونینگ مدل Flux ایفا میکند. دادههای با کیفیت، شالوده یادگیری مؤثر برای هر مدل هوش مصنوعی هستند و این امر به ویژه در مورد فاین تیونینگ که هدف آن تطبیق یک مدل از پیش آموزشدیده با کاربردهای خاص است، اهمیت بیشتری پیدا میکند. صرف زمان و دقت کافی در این مرحله میتواند به طور چشمگیری بر کیفیت و کارایی LoRA (Low-Rank Adaptation) نهایی تأثیر بگذارد و منجر به تولید نتایجی شود که به طور دقیق با اهداف مورد نظر کاربر همخوانی دارند. مدل Flux به عنوان یک معماری پیشرفته در حوزه تولید تصاویر، این امکان را فراهم میآورد تا از طریق فرآیند فاین تیونینگ، تواناییهای آن برای خلق سبکهای هنری منحصربهفرد، بازآفرینی دقیق کاراکترها یا درک و تولید مفاهیم خاص، بهینه شود. این راهنما با هدف ارائه یک دیدگاه جامع و کاربردی در خصوص مراحل کلیدی آمادهسازی دادهها برای فاین تیون کردن مدل Flux تدوین شده است و به بررسی تفصیلی موضوعاتی نظیر انتخاب تصاویر مناسب، تضمین کیفیت بالای تصاویر، سازماندهی یک مجموعه داده متوازن، تکنیکهای برش و مدیریت نسبت ابعاد تصاویر، و در نهایت، اصول عنوانگذاری مؤثر تصاویر خواهد پرداخت.
انتخاب تصاویر مناسب، اولین گام اساسی در فرآیند آمادهسازی مجموعه داده برای فاین تیون کردن مدل Flux است. نوع LoRA که قصد آموزش آن را دارید (استایل، کاراکتر یا مفهوم) تأثیر مستقیمی بر نحوه انتخاب تصاویر خواهد داشت .
در آموزش LoRAهای استایل، تمرکز اصلی بر ثبت ویژگیهای منحصربهفرد یک سبک هنری خاص است. بنابراین، تصاویری باید انتخاب شوند که به وضوح این ویژگیها را به نمایش بگذارند؛ ویژگیهایی نظیر نوع ضربههای قلم، پالت رنگی غالب و عناصر ترکیببندی شاخص. برای آنکه مدل بتواند سبک را به طور مستقل از موضوع یاد بگیرد، توصیه میشود از تصاویری با موضوعات متنوع اما با سبک هنری یکسان استفاده شود. اجتناب از مجموعه دادههایی که در آنها یک شیء یا موضوع خاص به طور مکرر تکرار شده است، حائز اهمیت است . به طور معمول، برای آموزش یک LoRA استایل، استفاده از 20 تا 30 تصویر کافی به نظر میرسد. در صورتی که سبک مورد نظر بسیار نادر باشد، تمرکز بر انتخاب بهترین و نمایندهترین تصاویر میتواند کارساز باشد و حتی با 10 تصویر با کیفیت بالا نیز میتوان نتایج مطلوبی کسب کرد . این امر نشان میدهد که در انتخاب تصاویر برای آموزش سبک، کیفیت و میزان نمایندگی سبک از اهمیت بیشتری نسبت به صرفاً تعداد تصاویر برخوردار است.
برای آموزش LoRAهای کاراکتر، هدف اصلی یادگیری دقیق ظاهر استاندارد یک کاراکتر خاص است. از این رو، تصاویری باید انتخاب شوند که ویژگیهای کلیدی کاراکتر، نظیر ساختار صورت، مدل مو و لباسهای معمول او، در آنها به طور consistent و یکنواخت نمایش داده شده باشند. به منظور افزایش انعطافپذیری LoRA، لازم است تا تصاویری با پوزها، حالات چهره و قاببندیهای متنوع (مانند نمای تمام بدن، پرتره و کلوزآپ) در مجموعه داده گنجانده شود . اگرچه افزودن تصاویری با اندکی تفاوت در سبک هنری میتواند مجاز باشد، اما باید از ترکیب تصاویر با عناصر بصری بسیار متفاوت، مانند لباسهای سنتی متفاوت برای یک کاراکتر، خودداری شود . در صورتی که تعداد تصاویر consistent و با کیفیت از یک کاراکتر محدود باشد، بهتر است به جای استفاده از تعداد زیاد تصاویر با کیفیت پایین، بر انتخاب 10 تا 20 تصویر با کیفیت بالا تمرکز شود . این تأکید بر کیفیت در کنار consistency نشان میدهد که برای آموزش کاراکتر، دقت در نمایش بصری و یکنواختی ویژگیها از اهمیت بالایی برخوردار است.
در آموزش LoRAهای مفهوم، هدف درک و بازتولید یک مفهوم خاص توسط مدل است. بنابراین، تصاویری باید انتخاب شوند که به طور دقیق و جامع مفهوم مورد نظر را نشان دهند و جنبههای مختلف آن را پوشش دهند. برای اطمینان از اینکه مدل میتواند مفهوم را در زمینهها و شرایط مختلف درک کند، لازم است تا مجموعهای متنوع از تصاویر با موضوعات، زوایای دوربین، قاببندیها و ترکیببندیهای گوناگون در مجموعه داده گنجانده شود . تعداد تصاویر مورد نیاز برای آموزش یک LoRA مفهوم میتواند بسیار متغیر باشد و در حالی که کیفیت و ارتباط تصاویر با مفهوم از کمیت آنها مهمتر است، ممکن است به چیزی بین 10 تا نزدیک به 50 تصویر نیاز باشد . این تنوع مورد نیاز در تصاویر مفهومی نشان میدهد که مدل باید با طیف وسیعی از نمایشهای بصری یک مفهوم آشنا شود تا بتواند آن را به درستی درک و تولید کند.
به طور کلی، صرف نظر از نوع LoRA، در انتخاب تصاویر باید به کیفیت بالا، عاری بودن از عناصر مزاحم مانند واترمارکها و نمایش واضح و دقیق از آنچه قصد آموزش آن را دارید، توجه شود. در عین حال، تنوع در سایر جنبههای تصاویر برای جلوگیری از بیشبرازش (overfitting) به موضوعات یا ترکیببندیهای خاص ضروری است . این رویکرد متعادل در انتخاب تصاویر، که هم بر ثبات در هدف آموزش و هم بر تنوع در سایر عوامل تأکید دارد، از اصول اساسی در آمادهسازی دادهها برای فاین تیون کردن مدل Flux به شمار میرود.
تضمین کیفیت بالای تصاویر در مجموعه داده، گامی حیاتی در فرآیند فاین تیون کردن مدل Flux است. استفاده از تصاویر با کیفیت پایین میتواند منجر به یادگیری ناقص یا نادرست ویژگیهای مورد نظر توسط مدل شود .
یکی از مهمترین جنبههای کیفیت تصویر، اجتناب از تصاویر مبهم و عناصر مزاحم است. نباید از تصاویری استفاده شود که سبکهای هنری، کاراکترها یا مفاهیم مختلف را به طور همزمان در خود جای دادهاند. به عنوان مثال، اگر هدف آموزش یک LoRA برای یک کاراکتر خاص است، نباید از تصاویری استفاده شود که آن کاراکتر در یک گروه از افراد یا اشیاء دیگر قرار دارد . همچنین، تصاویر با پسزمینههای شلوغ، قابهای تزئینی یا هرگونه عنصر دیگری که ممکن است توجه مدل را از هدف اصلی منحرف کند، باید حذف شوند . استفاده از تصاویر واضح و متمرکز به مدل کمک میکند تا ویژگیهای خاص مورد نظر را بدون تداخل یاد بگیرد.
علاوه بر این، استفاده از تصاویر با رزولوشن بالا بسیار مهم است. تصاویر با رزولوشن بالا حاوی جزئیات بیشتری هستند که به مدل کمک میکنند تا ویژگیها را به طور دقیقتر یاد بگیرد . رزولوشنی در حدود 1 میلیون پیکسل (مانند 1024x1024) به عنوان یک اندازه ایدهآل پیشنهاد شده است . در صورتی که تعداد تصاویر موجود محدود باشد، استفاده از تصاویر با رزولوشنهای بالاتر میتواند حتی مفیدتر باشد، زیرا هر تصویر حاوی اطلاعات بیشتری برای یادگیری خواهد بود . این نشان میدهد که بین رزولوشن تصویر و اندازه مجموعه داده یک رابطه معکوس وجود دارد؛ هرچه تعداد تصاویر کمتر باشد، اهمیت رزولوشن بالاتر بیشتر میشود.
در مقابل، باید از تصاویر تار یا پیکسلی اجتناب شود. حتی اگر این تصاویر رزولوشن بالایی داشته باشند، عدم وضوح آنها مانع از یادگیری دقیق جزئیات توسط مدل میشود . همچنین، نباید از تصاویری استفاده شود که از رزولوشنهای پایینتر بزرگ شدهاند، زیرا این کار معمولاً منجر به ایجاد آرتیفکتهای بصری و از دست رفتن جزئیات میشود . وضوح و شفافیت تصویر از عوامل کلیدی هستند و صرفاً داشتن تعداد پیکسل زیاد نمیتواند کیفیت پایین را جبران کند.
انتخاب فرمتهای تصویر بدون افت کیفیت نیز از اهمیت بالایی برخوردار است. فرمتهایی مانند PNG یا TIFF در مقایسه با فرمتهای با افت کیفیت مانند JPEG/JPG، تمام دادههای اصلی تصویر، جزئیات دقیق و اطلاعات رنگ را بدون هیچگونه آرتیفکت ناشی از فشردهسازی حفظ میکنند . استفاده از فرمتهای بدون افت کیفیت تضمین میکند که هیچ اطلاعات بصری مهمی در طول فرآیند آمادهسازی و آموزش از دست نرود.
در نهایت، باید اطمینان حاصل شود که تصاویر فاقد واترمارکها و آرتیفکتها هستند. واترمارکها، لوگوها و آرتیفکتهای ناشی از فشردهسازی میتوانند عناصر مزاحمی باشند که منجر به یادگیری الگوهای ناخواسته توسط LoRA میشوند . این عناصر خارجی هیچ ارتباطی با سبک، کاراکتر یا مفهوم مورد نظر برای آموزش ندارند و میتوانند باعث شوند مدل الگوهای نادرستی را یاد بگیرد.
ایجاد یک مجموعه داده متوازن بر اساس اصل ذن، یکی دیگر از جنبههای مهم در آمادهسازی دادهها برای فاین تیون کردن مدل Flux است . این اصل بر ایجاد تعادل و وحدت در مجموعه داده تأکید دارد؛ به این معنا که باید در آنچه قصد آموزش آن را دارید (استایل، کاراکتر یا مفهوم) ثبات وجود داشته باشد، در حالی که در تمام جنبههای دیگر تنوع حفظ شود . این رویکرد به مدل کمک میکند تا ویژگیهای خاص مورد نظر را بدون ارتباط دادن آنها با سایر عناصر ثابت در تصاویر یاد بگیرد.
در صورتی که تعداد تصاویر کافی در اختیار دارید، تلاش کنید تا تنوع در جنبههای مختلف تصاویر را رعایت کنید . برای مثال، در آموزش یک LoRA کاراکتر، سعی کنید تصاویری با نمای تمام بدن، پرتره، پوزهای مختلف و حالات چهره متنوع را در مجموعه داده خود بگنجانید . همچنین، برای زوایای دوربین، تلاش کنید تا نماهای روبرو، جانبی، پشت و احتمالاً نماهایی از بالا یا پایین را نیز شامل شوید . این تنوع باعث میشود تا مدل بتواند کاراکتر را در شرایط و زوایای مختلف به خوبی یاد بگیرد و LoRA نهایی انعطافپذیری بیشتری داشته باشد.
در کنار تنوع، داشتن ثبات در هدف آموزش نیز از اهمیت بالایی برخوردار است، به ویژه زمانی که با تعداد محدودی از تصاویر کار میکنید . بهترین مجموعه دادههای کوچک آنهایی هستند که تنها وجه اشتراک بین تصاویر، استایل، کاراکتر یا مفهومی است که شما در حال آموزش آن هستید . این امر تضمین میکند که مدل تمرکز خود را بر یادگیری ویژگیهای مورد نظر قرار میدهد و از یادگیری عناصر غیرمرتبط دیگر منحرف نمیشود.
توجه به نسبت ابعاد تصاویر نیز در ایجاد یک مجموعه داده متوازن نقش دارد . هدفگذاری برای داشتن یک محدوده متوازن از نسبت ابعاد (شامل چند تصویر عریض، چند تصویر مربعی و چند تصویر بلند) توصیه میشود. راه دیگر، استفاده از یک نسبت ابعاد واحد در کل مجموعه داده برای ایجاد وحدت است . در صورتی که در انتخاب نسبت ابعاد مناسب مطمئن نیستید، استفاده از نسبت ابعاد 1:1 (مربع) میتواند گزینه ایمنتری باشد . باید از داشتن تعداد نامتناسبی از تصاویر با نسبت ابعاد یکسان و شدید خودداری شود، زیرا این امر میتواند تعادل فرآیند آموزش را بر هم بزند . مدیریت صحیح نسبت ابعاد به مدل کمک میکند تا با تصاویر با تناسبات مختلف به خوبی کار کند و همچنین میتواند کارایی فرآیند Bucketing را بهبود بخشد.
Bucketing یک تکنیک مهم در فرآیند آمادهسازی مجموعه داده برای فاین تیون کردن مدل Flux است که به منظور بهینهسازی کارایی آموزش از طریق گروهبندی تصاویر بر اساس رزولوشن و نسبت ابعاد انجام میشود . در طول فرآیند Bucketing، دو مرحله اصلی صورت میگیرد: تغییر اندازه (Resizing) تصاویر به منظور قرار گرفتن در باکتهایی نزدیک به رزولوشن آموزش تعیین شده و برش (Cropping) تصاویر پس از تغییر اندازه برای مطابقت دقیق با ابعاد باکتهای موجود . درک این فرآیند برای آمادهسازی مؤثر تصاویر و جلوگیری از برشهای ناخواسته ضروری است.
تنظیمات مهمی در فرآیند Bucketing وجود دارد که باید به آنها توجه شود. رزولوشن آموزش (Training Resolution) اندازه هدف برای تصاویر در طول فرآیند آموزش را تعیین میکند (به عنوان مثال، 256، 512 یا 1024 پیکسل) . حداکثر رزولوشن (Maximum Resolution) حد بالایی برای ابعاد باکتها را مشخص میکند، در حالی که حداقل رزولوشن (Minimum Resolution) حد پایینی را تعیین میکند . این تنظیمات به تعریف ساختار باکتهایی که تصاویر در آنها گروهبندی میشوند، کمک میکنند.
برای جلوگیری از برش خودکار تصاویر توسط اسکریپت Bucketing، نیازی نیست که تصاویر شما ابعاد پیکسلی دقیق باکتها را داشته باشند، اما باید نسبت ابعاد یکسانی داشته باشند . تطبیق نسبت ابعاد تصاویر با باکتهای موجود تضمین میکند که بخشهای مهم تصویر در طول فرآیند Bucketing از دست نروند.
نسبت ابعاد خاصی وجود دارند که در رزولوشنهای مختلف آموزش در دسترس هستند و برای برش در صورت برنامهریزی برای آموزش در چندین رزولوشن ایدهآل محسوب میشوند . این نسبتها عبارتند از: 0.14، 0.33، 0.60، .00، .67، 3.00 و 7.00. علاوه بر این، نسبتهای ابعاد دیگری نیز وجود دارند (0.45، 0.78، .29 و 2.20) که به طور خاص با باکتها در رزولوشنهای 512 و 1024 مطابقت دارند . استفاده از این نسبتهای ابعاد پیشنهادی میتواند سازگاری و کارایی را در رزولوشنهای مختلف آموزش بهبود بخشد.
برای بهینهسازی فرآیند آموزش، بهتر است حداقل دو تصویر در هر باکت داشته باشید . در صورت داشتن تصاویر اضافی، تلاش کنید تا تعداد آنها را به طور متعادل بین باکتها توزیع کنید . با این حال، نباید درگیر وسواس بیش از حد در مورد Bucketing شوید، زیرا کیفیت تصاویر همچنان مهمترین عامل در دستیابی به یک LoRA خوب است .
در صورتی که تعداد تصاویر موجود برای آموزش محدود باشد، میتوان از تکنیکهای برش هوشمندانه برای به حداکثر رساندن بهرهوری از آنها استفاده کرد . استفاده از تصاویر با رزولوشن بالا به عنوان مبنایی برای برش مؤثر بسیار مهم است.
برای LoRAهای استایل با تعداد محدود تصاویر، میتوانید یک تصویر با رزولوشن بالا را به شدت برش دهید تا جنبههای مختلف استایل، مانند نوع ضربههای قلم، پالت رنگی یا ترکیببندیهای مختلف، ثبت شود. حتی چرخاندن یا برگرداندن تصاویر برش داده شده نیز میتواند به افزایش تنوع مجموعه داده کمک کند .
در مورد LoRAهای کاراکتر با تعداد کم تصاویر، تمرکز بر برش به ویژگیهای نمادین کاراکتر، مانند صورت، مو یا لباس خاص، میتواند بسیار مؤثر باشد. همچنین، برش به آیتمهای کوچک و منحصربهفردی که کاراکتر حمل میکند نیز میتواند به مدل در یادگیری جزئیات کمک کند .
برای LoRAهای مفهوم نیز همین اصل صادق است. برش تصاویر باید به گونهای انجام شود که بر عناصر خاصی که مفهوم را به بهترین شکل نشان میدهند، تمرکز شود .
در کنار تکنیکهای برش، عنوانگذاری دقیق این تصاویر برش داده شده نیز میتواند فرآیند آموزش را به طور قابل توجهی بهبود بخشد . عنوانگذاری صحیح به مدل کمک میکند تا بداند هر بخش از تصویر برش داده شده چه چیزی را نشان میدهد و در نتیجه، یادگیری دقیقتری صورت میگیرد.
عنوانگذاری تصاویر یکی از حیاتیترین مراحل در آمادهسازی مجموعه داده برای فاین تیون کردن مدل Flux است . اصل اساسی در عنوانگذاری برای Flux این است که هر چیزی در تصویر که نمیخواهید بخشی از استایل، کاراکتر یا مفهومی باشد که آموزش میدهید، باید عنوانگذاری شود . بر اساس این رویکرد، کلمه کلیدی (trigger word) که برای فعال کردن LoRA استفاده میکنید، به عنوان "چیزی" تلقی میشود که مدل به طور صریح در عنوانها در مورد آن آموزش ندیده است . این روش به مدل کمک میکند تا بر روی ویژگیهای مورد نظر شما تمرکز کند.
یکی از نکات کلیدی در عنوانگذاری، به خاطر سپردن آنچه آموزش نمیدهید است . اگر در حال آموزش یک کاراکتر یا مفهوم هستید، حتماً باید استایل هنری تصویر را نیز مشخص کنید (به عنوان مثال، عکاسی، تصویرسازی، نقاشی، انیمه). عدم انجام این کار میتواند منجر به این شود که مدل تصور کند استایل اصلی تصویر بخشی از کاراکتر یا مفهوم است. برای مثال، اگر تمام تصاویر آموزشی شما از یک شخص، عکس هستند و شما آنها را به عنوان "عکس" عنوان نکنید، ممکن است LoRA در برابر تولید آن شخص در سبک انیمه مقاومت نشان دهد . همین اصل در مورد عنوانگذاری کاراکترها و مفاهیم در LoRAهای استایل نیز صدق میکند.
علاوه بر این، نباید از عنوانگذاری عناصر انتزاعی غافل شد . عناصری مانند نوع قاببندی، زاویه دوربین و سایر ویژگیهای هنری انتزاعی که ممکن است در برخی از تصاویر شما ثابت باشند اما موضوع اصلی نباشند، باید عنوانگذاری شوند. عدم انجام این کار میتواند منجر به یادگیری ناخواسته این عناصر به عنوان بخشی از LoRA شود . به عنوان مثال، اگر تمام تصاویر آموزشی شما از یک زاویه دوربین خاص گرفته شده باشند و شما آن را عنوان نکنید، ممکن است مدل آن زاویه را به عنوان بخشی از سبک یا کاراکتر یاد بگیرد.
علاوه بر موارد ذکر شده، مقاله توصیههای تکمیلی دیگری نیز برای آمادهسازی دادهها جهت فاین تیون کردن مدل Flux ارائه میدهد 1:
اگرچه تمرکز اصلی این راهنما بر آمادهسازی دادهها بوده است، اما مقاله به طور مختصر به سایر تنظیمات فاین تیونینگ نیز اشاره میکند که میتوانند بر نتایج نهایی تأثیرگذار باشند . این تنظیمات شامل رزولوشن آموزش (512 به طور کلی مناسب است، 1024 برای جزئیات بیشتر)، تعداد تکرارها (معمولاً 1، اما قابل افزایش است)، اندازه دستهای (2 یا 4 در صورت امکان) و گامهای جمعآوری گرادیان (2 یا 4 در صورت کمبود VRAM) میشوند.
آمادهسازی دقیق دادهها یک گام اساسی و غیرقابل چشمپوشی در فرآیند فاین تیون کردن موفقیتآمیز مدل Flux است. با رعایت دستورالعملهای ارائه شده در این راهنما، کاربران میتوانند مجموعههای دادهای با کیفیت بالا ایجاد کنند که منجر به تولید LoRAهای کارآمد و متناسب با نیازهایشان شود. توجه به انتخاب تصاویر مناسب، تضمین کیفیت بالای آنها، ایجاد یک مجموعه داده متوازن با در نظر گرفتن نسبت ابعاد، استفاده هوشمندانه از تکنیکهای برش در صورت محدودیت تعداد تصاویر، و در نهایت، عنوانگذاری دقیق و اصولی تصاویر، همگی از عوامل کلیدی در دستیابی به نتایج مطلوب هستند. با پیروی از این اصول، کاربران میتوانند از تمام ظرفیتهای مدل Flux برای خلق آثار هنری منحصربهفرد، بازآفرینی دقیق کاراکترها و تولید مفاهیم نوآورانه بهرهمند شوند.