مغز اصلی Chat GPT3 چگونه کار می‌کند؟

چت جی پی تی چیست و چگونه کار می‌کند؟


از آنجایی که OpenAI، خالق و سازنده‌ی ChatGPT، تمام جزئیات طراحی محصول را ارائه نکرده است، ممکن است برخی از بخش‌های نمودار زیر نادرست باشد. اما به صورت نحوه عملکرد این محصول را در دو مرحله می‌توانید مشاهده کنید:

نحوه کار کرد چت جی پی تی ۳ ChatGPT3
نحوه کار کرد چت جی پی تی ۳ ChatGPT3



برای آموزش یک مدل در ChatGPT، دو مرحله وجود دارد:

۱. پیش آموزش (Pre Train)

در این مرحله یک مدل GPT (ترانسفورماتور فقط رمزگشا) را روی یک تکه بزرگ از داده های اینترنتی آموزش می دهیم. هدف آموزش مدلی است که بتواند کلمات آینده جمله ای را به گونه ای پیش بینی کند که از نظر گرامری درست و از نظر معنایی مشابه داده های اینترنتی باشد. پس از مرحله پیش آموزش، مدل می تواند جملات داده شده را کامل کند، اما قادر به پاسخگویی به سوالات نیست.

۲. تنظیم دقیق (Fine Tune)

این مرحله یک فرآیند ۳ مرحله ای است که مدل از پیش آموزش داده شده را به مدل ChatGPT پاسخگو تبدیل می کند:

  1. داده های آموزشی (سوال و پاسخ) را جمع آوری کنید و مدل از پیش آموزش دیده را روی این داده ها تنظیم کنید. مدل یک سوال را به عنوان ورودی می گیرد و یاد می گیرد که پاسخی شبیه به داده های آموزشی ایجاد کند.
  2. داده‌های بیشتری را جمع‌آوری کنید (سؤال، چندین پاسخ) و یک مدل پاداش آموزش دهید تا این پاسخ‌ها را از مرتبط‌ترین به کمتر مرتبط‌تر رتبه‌بندی کنید.
  3. از یادگیری تقویتی (بهینه سازی PPO) برای تنظیم دقیق مدل استفاده کنید تا پاسخ های مدل دقیق تر باشد.

نحوه پاسخ به دستورات (Prompt)

مرحله ۱: کاربر سؤال کامل را وارد می کند، "توضیح دهید که چگونه یک الگوریتم طبقه بندی کار می کند".

مرحله ۲: سؤال به یک مؤلفه تعدیل محتوا ارسال می شود. این مؤلفه تضمین می کند که سؤال دستورالعمل های ایمنی را نقض نمی کند و سؤالات نامناسب را فیلتر می کند.

مراحل ۳ و ۴: اگر ورودی از اعتدال محتوا عبور کند، به مدل chatGPT ارسال می شود. اگر ورودی از اعتدال محتوا عبور نکند، مستقیماً به تولید پاسخ الگو می‌رود.

مرحله ۵ و ۶: هنگامی که مدل پاسخ را ایجاد کرد، دوباره به یک جزء تعدیل محتوا ارسال می شود. این تضمین می کند که پاسخ تولید شده ایمن، بی ضرر، بی طرفانه و غیره است.

مرحله ۷: اگر ورودی از اعتدال محتوا عبور کند، به کاربر نشان داده می شود. اگر ورودی از اعتدال محتوا عبور نکند، به تولید پاسخ الگو می رود و یک پاسخ الگو را به کاربر نشان می دهد.



--

پی‌نوشت: مطلب از منبع خارجی ترجمه شده است.