علاقهمند به تجربهها و چیزهای تازه، در پی ایجاد تغییر برای بهتر بودن - پیروی مکتب والای «مریتوکراسی» یا همان «شایستهسالاری» - | www.Dastyar.io | www.Eskandari.io
مغز اصلی Chat GPT3 چگونه کار میکند؟
چت جی پی تی چیست و چگونه کار میکند؟
از آنجایی که OpenAI، خالق و سازندهی ChatGPT، تمام جزئیات طراحی محصول را ارائه نکرده است، ممکن است برخی از بخشهای نمودار زیر نادرست باشد. اما به صورت نحوه عملکرد این محصول را در دو مرحله میتوانید مشاهده کنید:
برای آموزش یک مدل در ChatGPT، دو مرحله وجود دارد:
۱. پیش آموزش (Pre Train)
در این مرحله یک مدل GPT (ترانسفورماتور فقط رمزگشا) را روی یک تکه بزرگ از داده های اینترنتی آموزش می دهیم. هدف آموزش مدلی است که بتواند کلمات آینده جمله ای را به گونه ای پیش بینی کند که از نظر گرامری درست و از نظر معنایی مشابه داده های اینترنتی باشد. پس از مرحله پیش آموزش، مدل می تواند جملات داده شده را کامل کند، اما قادر به پاسخگویی به سوالات نیست.
۲. تنظیم دقیق (Fine Tune)
این مرحله یک فرآیند ۳ مرحله ای است که مدل از پیش آموزش داده شده را به مدل ChatGPT پاسخگو تبدیل می کند:
- داده های آموزشی (سوال و پاسخ) را جمع آوری کنید و مدل از پیش آموزش دیده را روی این داده ها تنظیم کنید. مدل یک سوال را به عنوان ورودی می گیرد و یاد می گیرد که پاسخی شبیه به داده های آموزشی ایجاد کند.
- دادههای بیشتری را جمعآوری کنید (سؤال، چندین پاسخ) و یک مدل پاداش آموزش دهید تا این پاسخها را از مرتبطترین به کمتر مرتبطتر رتبهبندی کنید.
- از یادگیری تقویتی (بهینه سازی PPO) برای تنظیم دقیق مدل استفاده کنید تا پاسخ های مدل دقیق تر باشد.
نحوه پاسخ به دستورات (Prompt)
مرحله ۱: کاربر سؤال کامل را وارد می کند، "توضیح دهید که چگونه یک الگوریتم طبقه بندی کار می کند".
مرحله ۲: سؤال به یک مؤلفه تعدیل محتوا ارسال می شود. این مؤلفه تضمین می کند که سؤال دستورالعمل های ایمنی را نقض نمی کند و سؤالات نامناسب را فیلتر می کند.
مراحل ۳ و ۴: اگر ورودی از اعتدال محتوا عبور کند، به مدل chatGPT ارسال می شود. اگر ورودی از اعتدال محتوا عبور نکند، مستقیماً به تولید پاسخ الگو میرود.
مرحله ۵ و ۶: هنگامی که مدل پاسخ را ایجاد کرد، دوباره به یک جزء تعدیل محتوا ارسال می شود. این تضمین می کند که پاسخ تولید شده ایمن، بی ضرر، بی طرفانه و غیره است.
مرحله ۷: اگر ورودی از اعتدال محتوا عبور کند، به کاربر نشان داده می شود. اگر ورودی از اعتدال محتوا عبور نکند، به تولید پاسخ الگو می رود و یک پاسخ الگو را به کاربر نشان می دهد.
--
پینوشت: مطلب از منبع خارجی ترجمه شده است.
مطلبی دیگر از این انتشارات
چرا لمیز را دوست داریم؟
مطلبی دیگر از این انتشارات
کوله پشتیِ من؛ امسال بزرگتر از هر سال
مطلبی دیگر از این انتشارات
روز تعطیل یا روز استراحت؟