ویرگول
ورودثبت نام
نشریه پلاک  ۰۱
نشریه پلاک ۰۱نشریه رسمی بسیج دانشجویی دانشکده مهندسی برق و کامپیوتر دانشگاه تهران
نشریه پلاک  ۰۱
نشریه پلاک ۰۱
خواندن ۶ دقیقه·۷ ماه پیش

DeepSeek R1 در یک نگاه

مدل‌های R1-Zero و R1 نسل اول مدل‌های استدلالی شرکت DeepSeek هستند که در واقع برای رسیدن به قابلیت‌های استدلالی پیشرفته، از روش‌های خاصی در یادگیری ماشین استفاده کرده‌اند. این مدل‌ها به‌طور خاص از یادگیری تقویتی (Reinforcement Learning) در مقیاس بزرگ استفاده می‌کنند و بدون نیاز به تنظیم دقیق نظارتی (Supervised Fine-Tuning) در مرحله اولیه آموزش خود، عملکردی چشمگیر از خود نشان داده‌اند. به عبارت دیگر، این مدل‌ها بدون استفاده از داده‌های برچسب‌گذاری‌شده، با یادگیری از طریق تعامل با محیط، به سطح قابل توجهی از استدلال رسیده‌اند. مدل R1-Zero به‌ویژه برای اولین بار در تاریخ آموزش مدل‌های زبانی، از یادگیری تقویتی خالص برای آموزش بهره برده است.

برای درک بیشتر نحوه کار این مدل‌ها، ابتدا باید با مدل‌های زبانی بزرگ (LLM) آشنا شویم. این مدل‌ها اساساً بر پایه پیش‌بینی توکن بعدی (Next Token Prediction) طراحی شده‌اند. در این فرآیند، مدل‌ها تلاش می‌کنند تا با توجه به متن موجود، کلمه یا توکن بعدی را پیش‌بینی کنند. به زبان ساده، مدل با توجه به داده‌های ورودی که تا آن لحظه دریافت کرده است، کلمه یا توکن بعدی را به‌طور خودکار پیش‌بینی می‌کند. این روش مشابه عملکرد جستجوگرهای اینترنتی مانند گوگل است که بر اساس داده‌های قبلی، کلمه بعدی را پیش‌بینی می‌کنند.

این مدل‌ها به‌طور مؤثری برای پیش‌بینی کلمه بعدی آموزش می‌بینند. در این روش، داده‌های آموزشی نیاز به برچسب‌گذاری ندارند، زیرا مدل می‌تواند پیش‌بینی خود را با مقایسه با متن اصلی ارزیابی کند. این فرآیند یادگیری خودنظارتی (Self-Supervised Learning) نامیده می‌شود و به مدل اجازه می‌دهد بدون نیاز به داده‌های برچسب‌گذاری‌شده، به‌طور مؤثر از تجربه‌های خود یاد بگیرد. برای نمونه، اگر مدل در حال پیش‌بینی کلمه ۱۰۱ در یک دنباله متنی باشد، می‌تواند پیش‌بینی خود را با مقایسه با کلمه ۱۰۱ واقعی ارزیابی کند و از این طریق بهبود یابد.

اما این تنها بخشی از داستان است. اگر هدف ما تنها پیش‌بینی کلمه بعدی بود، مشکل خاصی پیش نمی‌آمد. اما زمانی که مدل برای انجام کارهای پیچیده‌تر مانند پاسخ به سوالات یا حل مسائل خاص استفاده می‌شود، پیش‌بینی کلمه بعدی به‌تنهایی کافی نخواهد بود. برای حل چنین مسائلی، آموزش تنظیم دقیق نظارتی (Supervised Fine-Tuning) ضروری است. در این مرحله، مدل با داده‌های نظارتی آموزش داده می‌شود که شامل مجموعه‌ای از سوالات و پاسخ‌های مناسب است تا بتواند در موقعیت‌های واقعی به سوالات پاسخ دهد.

زنجیره تفکر (CoT) یکی از روش‌های پیشرفته‌ای است که در این نوع مدل‌ها به‌کار گرفته می‌شود. در این تکنیک، مدل به‌جای اینکه یک پاسخ فوری تولید کند، ابتدا گام به گام مسئله را تجزیه و تحلیل می‌کند و سپس به حل آن می‌پردازد. این فرآیند موجب بهبود دقت مدل در حل مسائل پیچیده می‌شود. استفاده از این تکنیک به مدل این امکان را می‌دهد که نه‌تنها به جواب نهایی برسد بلکه مراحل رسیدن به آن را نیز توضیح دهد. این ویژگی به‌ویژه در حل مسائل ریاضی و برنامه‌نویسی مفید است.


هرچند این روش بسیار مؤثر است، اما یکی از مشکلات آن افزایش زمان پردازش و استنباط است. به همین دلیل، محققان در تلاش هستند تا با استفاده از الگوریتم‌های جستجوی پیشرفته مانند Monte Carlo Tree Search و Beam Search، زمان استنباط را کاهش دهند. این الگوریتم‌ها با بررسی چندین مسیر ممکن، بهترین جواب را پیدا می‌کنند، اما هنوز نمی‌توانند کاملاً زمان پردازش را به حداقل برسانند.

یادگیری تقویتی (Reinforcement Learning) به‌عنوان یکی از روش‌های مهم در بهبود عملکرد مدل‌های زبانی، به کار می‌رود. در این روش، مدل از طریق تعامل با محیط و دریافت پاداش به‌طور مداوم یاد می‌گیرد. در حقیقت، مدل با تلاش برای انجام کارهای مختلف و دریافت پاداش برای هر اقدام صحیح، به تدریج عملکرد خود را بهبود می‌بخشد. این فرآیند باعث می‌شود مدل به‌طور مؤثری مشکلات پیچیده‌تر را حل کند.

مدل‌های DeepSeek مانند R1-Zero و R1 از تکنیک پیشرفته‌ای به نام Group Relative Policy Optimization (GRPO)استفاده می‌کنند. در این روش، به‌جای ارزیابی مطلق پاسخ‌ها، مدل‌ها را به‌طور نسبی ارزیابی می‌کنند. این بدین معنی است که مدل پاسخ‌ها را با یکدیگر مقایسه کرده و به آن‌ها امتیاز می‌دهد. این فرآیند موجب می‌شود که مدل قادر باشد از تجربیات خود استفاده کرده و پاسخ‌های بهتری ارائه دهد.

در روش GRPO، چندین خروجی برای هر ورودی تولید می‌شود و سپس این خروجی‌ها به‌طور نسبی با یکدیگر مقایسه می‌شوند. به این ترتیب، مدل می‌تواند با توجه به مقایسه‌ها و دریافت پاداش‌های نسبی، بهترین انتخاب را انجام دهد. این روش باعث بهبود چشمگیر دقت مدل در حل مسائل پیچیده‌تر می‌شود. در این روش، مدل برای مقایسه خروجی‌ها از پاداش‌های نسبی استفاده می‌کند، به این معنا که به‌جای ارزیابی مطلق یک پاسخ، مدل‌ها را نسبت به یکدیگر مقایسه می‌کند.


در حالت کلی ما دو نوع مدل پاداش داریم:

۱. مدل rule-base که در آن پاسخ مدل با پاسخ مسئله مقایسه می شود اگر همان بود امتیاز می گیرد و اگر نبود نمی گیرد.

۲.مدل یادگیری ماشین که در آن با توجه به داده های قبلی نمره ای بین ۰ تا ۱ به خروجی مدل می دهد.

در DeepSeek از مدل rule-base استفاده شده که دو نوع دارد.

در ارزیابی دقت، پاسخ مدل با جواب صحیح مقایسه می‌شود. برای مثال:

.در مسائل ریاضی، عدد تولیدشده توسط مدل با پاسخ درست مسئله سنجیده می‌شود.

.در مسائل کدنویسی مثلاً نمونه‌های مشابه سوالات (LeetCode)، کد خروجی مدل ابتدا کامپایل و سپس تست‌های ازپیش‌تعریف شده روی آن اجرا می‌شود تا صحت عملکردش سنجیده شود.

.ارزیابی قالب: که در آن بررسی می شود که مدل وقتی در حال تفکر است آن را درون تگ <think> و <think/> بگذارد.

یکی از ویژگی‌های جالب روشGPRO ، استفاده از جریمه برای دور شدن از مدل مرجع است. در اینجا، به مدل گفته می‌شود که در صورتی که به نظر برسد یک پاسخ بهتر از دیگر پاسخ‌ها وجود دارد، می‌تواند به سمت آن حرکت کند، اما نباید بیش از حد از مدل مرجع خود دور شود. این روش به مدل کمک می‌کند که در فرآیند بهینه‌سازی، بیش از حد تغییر نکند و همچنان در چهارچوب مدل اصلی باقی بماند.

در نهایت، GRPO با استفاده از KL Divergence به مقایسه مدل‌های مرجع و مدل در حال آموزش می‌پردازد. این مقایسه کمک می‌کند تا مدل در مسیر درست حرکت کند و عملکرد خود را بهبود بخشد. سپس با استفاده از backpropagation، مدل وزن‌های خود را به‌روزرسانی می‌کند تا عملکرد خود را بهبود دهد. این روش باعث می‌شود که مدل‌های R1-Zero و R1 بتوانند با استفاده از تکنیک‌های پیشرفته یادگیری، به‌طور مؤثری به حل مسائل پیچیده بپردازند.

نتایج به‌دست‌آمده از مدل R1-Zero در تست‌های AIME، که شامل سوالات سطح بالای ریاضی دبیرستان است، نشان‌دهنده پیشرفت‌های قابل توجه در حل مسائل پیچیده است. با این حال، در مراحل اولیه، مدل قادر به تولید توکن‌های کوتاه و پاسخ‌های سریع بود، اما با گذشت زمان و افزایش طول زنجیره تفکر، توانایی مدل در حل مسائل پیچیده‌تر بهبود یافت. این پیشرفت‌ها نشان‌دهنده فرآیند خودتکاملی مدل هستند که به آن این امکان را می‌دهند که مسائل دشوارتر را حل کند.


یکی از ویژگی‌های منحصربه‌فرد این مدل‌ها، ظهور رفتارهایی مانند بازتاب (Reflection) است. این ویژگی باعث می‌شود که مدل به اشتباهات خود پی ببرد و تلاش کند تا آن‌ها را اصلاح کند. این نوع از بازتاب و اصلاح خطا مشابه لحظات “آهان” در تفکر انسان‌ها است، که در آن فرد به اشتباه خود پی می‌برد و به‌طور مداوم تلاش می‌کند تا آن را اصلاح کند.

در نتیجه، استفاده از یادگیری تقویتی (RL)، GRPO و زنجیره تفکر (CoT) در مدل‌های DeepSeek مانند R1-Zero و R1 موجب شده که این مدل‌ها توانایی‌های چشمگیری در حل مسائل پیچیده، تحلیل گام به گام و پیش‌بینی‌های دقیق پیدا کنند. این مدل‌ها با استفاده از روش‌های نوآورانه یادگیری، عملکرد خود را به‌طور مداوم بهبود می‌دهند و قادر به حل مسائل چالش‌برانگیز هستند.

مهدی وجهی؛ مهندسی کامپیوتر۰۱

برای مطالعه کامل این نوشته، ECE_Trends را دنبال کنید.



یادگیری تقویتیمدلreinforcement learning
۱
۱
نشریه پلاک  ۰۱
نشریه پلاک ۰۱
نشریه رسمی بسیج دانشجویی دانشکده مهندسی برق و کامپیوتر دانشگاه تهران
شاید از این پست‌ها خوشتان بیاید