نوشته های مهدی فیروزمندی

نوشته های مهدی فیروزمندی https://virgool.io/feed/@m_z برنامه نویس پایتون و پژوهشگر حوزه شبکه عصبی و پردازش زبان طبیعی fa 2026-07-06 18:23:21 https://files.virgool.io/upload/users/1290441/avatar/Gi5X8p.jpeg?height=120&width=120 مهدی فیروزمندی https://virgool.io/@m_z مغز، دانش و عمل: مقایسه AI Agents، LLMs و RAG https://virgool.io/@m_z/%D9%85%D8%BA%D8%B2-%D8%AF%D8%A7%D9%86%D8%B4-%D9%88-%D8%B9%D9%85%D9%84-%D9%85%D9%82%D8%A7%DB%8C%D8%B3%D9%87-%D8%B9%D8%A7%D9%85%D9%84-%D9%87%D8%A7%DB%8C-%D9%87%D9%88%D8%B4-%D9%85%D8%B5%D9%86%D9%88%D8%B9%DB%8C-%D9%85%D8%AF%D9%84-%D9%87%D8%A7%DB%8C-%D8%B2%D8%A8%D8%A7%D9%86%DB%8C-%D8%A8%D8%B2%D8%B1%DA%AF-%D9%88-rag-cscguiqkfukf در چند سال اخیر، هوش مصنوعی با سرعتی چشمگیر پیشرفت کرده است. از چت‌بات‌هایی که متن تولید می‌کنند، فراتر رفته‌ایم و به سیستم‌هایی رسیده‌ایم که می‌توانند استدلال کنند، به دانش روز دسترسی داشته باشند و حتی برای شما دست به عمل بزنند. برای درک این تحول، سه مفهوم کلیدی را باید بشناسیم: مدل‌های زبانی بزرگ (Large Language Models یا LLMها)، الگوی بازیابی همراه با تولید (Retrieval‑Augmented Generation یا RAG) و عامل‌های هوش مصنوعی (AI Agents). هر یک از این‌ها یک لایه متفاوت از هوش را فراهم می‌کنند.تشبیه ساده: مغز، دانش و تصمیمیک مثال ساده می‌تواند رابطهٔ میان این سه را روشن کند:LLM نقش مغز را دارد؛ می‌تواند متن را بفهمد، استدلال کند و زبان تولید کند، اما تنها بر اساس اطلاعاتی که هنگام آموزش به آن داده شده است.RAG خوراکی برای مغز فراهم می‌آورد؛ با جست‌وجو در پایگاه‌های داده و اسناد، اطلاعات تازه و مرتبط را پیدا می‌کند و به مدل می‌دهد تا بر اساس واقعیت‌های به‌روز پاسخ دهد.عامل هوش مصنوعی مانند تصمیم‌گیرنده و اجرا‌کننده است؛ هدف را می‌گیرد، برنامه‌ریزی می‌کند و با استفاده از ابزارها یا APIها وظایف را انجام می‌دهد.مدل‌های زبانی بزرگ: مغز هوشمند اما ایستامدل‌های زبانی بزرگ مانند GPT‑4، Claude یا Gemini روی میلیاردها کلمه از کتاب‌ها، مقالات و کد آموزش می‌بینند. آن‌ها یاد می‌گیرند که کلمه بعدی در یک جمله چه باشد و از همین مهارت، قابلیت‌هایی مثل خلاصه‌نویسی، ترجمه و تولید کد شکل می‌گیرد. نکته مهم این‌جاست که دانش LLMها ثابت است؛ نمی‌توانند رویدادهای جدید یا داده‌های خصوصی شما را بدانند و گاه با اطمینان پاسخ نادرست می‌دهند. این مدل‌ها در کارهایی مثل نوشتن، توضیح و ایده‌پردازی عالی هستند، اما برای اطلاعات دقیق و به‌روز نیاز به کمک دارند.مدل‌های زبانی بزرگ – مغزی هوشمند اما محدود به دانسته‌های خودRAG: رساندن دانش تازه به مدلدر الگوی RAG، ابتدا از طریق جست‌وجو یا پایگاه داده، بخش‌های مرتبط با پرسش را پیدا می‌کنیم. سپس این اطلاعات به عنوان زمینه به همراه پرسش به مدل داده می‌شود. این کار بدون نیاز به بازآموزی مدل، پاسخ‌ها را دقیق‌تر و تازه‌تر می‌کند. مزایای RAG عبارت است از افزایش دقت (چون متن بازیابی‌شده به پاسخ اضافه می‌شود)، امکان افزودن سریع اسناد جدید و شفافیت در اینکه مدل از چه منابعی استفاده کرده است.بازیابی همراه با تولید – رساندن دانش تازه و به‌روز به مدلعامل‌های هوش مصنوعی: از دانستن تا انجام دادنعامل‌های هوش مصنوعی یک حلقه کنترلی به مدل زبانی اضافه می‌کنند. آن‌ها هدف را می‌گیرند، گام‌های لازم برای رسیدن به آن را طراحی می‌کنند، اقدامات لازم را اجرا می‌کنند و نتیجه را بررسی می‌کنند. این سازوکار می‌تواند کارهایی مانند تحقیق، استخراج داده، ساخت پاورپوینت یا ارسال گزارش را بدون دخالت مستقیم شما انجام دهد. البته طراحی عامل‌ها چالش‌هایی دارد: باید خطاها را مدیریت کرد، دسترسی‌ها را محدود نمود و سازوکارهای ایمنی را در نظر گرفت تا عامل اشتباهاً کاری نکند.عامل‌های هوش مصنوعی – تبدیل فکر و دانش به عمل و اجرای وظایفچه زمانی از هر کدام استفاده کنیم؟اگر فقط نیاز به نوشتن، ترجمه یا خلاصه کردن دارید، یک LLM به‌تنهایی کافی است.اگر دقت، تازگی و دانش حوزه‌ای اهمیت دارد، لایه RAG را به مدل اضافه کنید.اگر می‌خواهید سیستم به طور خودکار تصمیم بگیرد و چند گام را انجام دهد (مثلا تحقیق و تهیه گزارش)، از عامل استفاده کنید.در بسیاری از کاربردهای پیچیده، این سه لایه با هم ترکیب می‌شوند: مدل زبانی برای استدلال، RAG برای تامین دانش به‌روز و عامل برای برنامه‌ریزی و عمل.چالش‌ها و آیندهترکیب این سه لایه چالش‌هایی دارد: طول و کیفیت زمینه داده‌شده به مدل باید مدیریت شود؛ امنیت و حریم خصوصی داده‌ها مهم است؛ و برای ارزیابی عملکرد این سیستم‌ها باید معیارهای جدیدی فراتر از «دقت» تعریف شود. با این وجود، آینده هوش مصنوعی در همین ترکیب مغز، دانش و عمل است؛ جایی که سیستم‌ها نه‌تنها اطلاعات تولید می‌کنند، بلکه جهان بیرونی را درک می‌کنند و بر اساس آن تصمیم می‌گیرند. مهدی فیروزمندی مهدی فیروزمندی Fri, 31 Oct 2025 20:35:46 +0330 مدل Encoder-Decoder (رمزگذار-رمزگشا) چيست؟ https://virgool.io/@m_z/%D9%85%D8%AF%D9%84-encoder-decoder-%D8%B1%D9%85%D8%B2%DA%AF%D8%B0%D8%A7%D8%B1-%D8%B1%D9%85%D8%B2%DA%AF%D8%B4%D8%A7-%DA%86%D9%8A%D8%B3%D8%AA-liqleeuv8z0s مدل Encoder-Decoder بصورت گسترده در ساختار يادگيری عميق استفاده می شه، هدف از اين نوشته اينه که بفهميم منظور از مدل Encoder-Decoder چيه؟عکس از Michael Dziedzicدر این پست، به معرفی مدل Encoder-Decoder (رمزگذار-رمزگشا) می پردازیم، در برخی موارد به عنوان مدل sequence to sequence (seq2seq) نیز شناخته می شود. برای فهم بهتر این مدل، بهتر است آشنایی ابتدایی ای از شبکه RNN داشته باشیم.از مدل Encoder-Decoder چه زمانی استفاده می کنیم؟1- کپشن گذاری برای تصویر (Image Captioning)مدل های Encoder-Decoder شرایطی را برای یک مدل یادگیری ماشین فراهم می کند تا بتواند برای یک تصویر یک توصیف ارائه کند. در این روش، مدل یک تصویر را به عنوان ورودی دریافت کرده و سپس دنباله ای از کلمات را به عنوان توصیف به خروجی ارائه می کند. این روش در ویدیو نیز کاربرد دارد.خروجی یادگیری ماشین: "جاده توسط درختان نخل که به ساحل منتهی می شود احاطه شده است."، عکس از Milo Miloezger2- تحلیل احساسات (Sentiment Analysis)مدل های Encoder-Decoder معنا و احساسات را درک می کنند. به عنوان ورودی به آنها جمله داده می شود و خروجی آنها شامل سطح و نوع احساس نهفته در آن جمله است. سطح بندی احساسات شامل؛ 1- (برای احساس منفی)، 1 (برای احساس مثبت) و 0 (برای احساس طبيعی و خنثی) است. اين مورد، برای تجزيه و تحليل احساسات مشتری های يک محصول که از طريق پيام صوتی و يا پيام متنی، حس خود را منتقل می کنند استفاده می شود.عکس از نويسنده3- ترجمه (Translation)مدل Encoder-Decoder جمله را به عنوان ورودی گرفته و آن را می خواند سپس پيام و مفهوم آن را فهميده و در نهايت به يک زبان ديگر ترجمه می کند. سرويس ترجمه گوگل براساس ساختار Encoder-Decoder ساخته شده است، براي بدست آوردن اطلاعات بيشتر در اين مورد مي توانيد اين مقاله را مطالعه کنيد.عکس از نويسندهمدل Encoder-Decoder (رمزگذار-رمزگشا) چيست؟بهترين راه برای فهميدن مفهوم مدل Encoder-Decoder، توجه به بازی پيکشنری (Pictionary) است. قوانين در اين بازی بسيار ساده هستند، بازيکن شماره 1 بصورت تصادفی يک کلمه یا عبارت را از داخل يک ليست بيرون می کشد و سپس معنای آن را نقاشی می کشد. بازیکن شماره 2 وظیفه تجزیه و تحلیل نقاشی را برعهده دارد و معنای نقاشی را در قالب یک کلمه می بایست توصیف کند. در این مثال، ما سه عنصر مهم داریم، بازیکن 1 (شخصی که عبارت را به نقاشی تبدیل می کند)، نقاشی (اسب) و شخصی که می بایست نقاشی ترسیم شده را حدس بزند (بازیکن 2). این همه اون چیزی است که ما برای فهم مدل Encoder-Decoder نیاز داریم، در ادامه ما یک مقایسه ی تطبیقی بین بازی پيکشنری (Pictionary) و مدل Encoder-Decoder برای ترجمه فارسی به انگلیسی ارائه می کنیم.بازی پيکشنری (Pictionary)، عکس از نويسندهاگر تصوير بالا را به مفاهيم يادگيری ماشين تبديل کنيم، تصوير زير بدست خواهد آمد. در ادامه به بررسی هر يک از اجزا می پردازيم.مدل encoder-decoder، عکس از نويسنده1- رمزگذار (Encoder) _ نقاش (بازيکن 1)رمزگذاری (Encoding) به معنای تبديل داده به فرمت مورد نياز است. در مثال پيکشنری (Pictionary) ما يک عبارت را که متن بود به يک نقاشی که يک تصوير است تبديل کرديم. در زمينه يادگيری ماشين، ما دنباله ای از کلمات فارسی را به بردار دو بعدی تبديل می کنيم، اين بردار دو بعدی به عنوان حالت پنهان (Hidden State) شناخته می شود. Encoder با استفاده از شبکه عصبی بازگشتی (RNN) ساخته می شود. علت استفاده از RNN اين است که به مدل اجازه می دهد تا متن و وابستگی های دنباله ای کلمات را به يکديگر درک کند. خروجی مرحله Encoder، حالت پنهان يا Hidden State است، که وضعيت آخرين مرحله زمانی از شبکه RNN است.رمزگذار (Encoder)، عکس از نويسنده2- حالت پنهان (Hidden State) _ طرح (نقاشی)خروجی Encoder، يک بردار دو بعدی که معنای کل دنباله ورودی را کپسوله می کند. طول بردار وابسته به تعداد نورون های شبکه RNN است.رمزگذار (Encoder) و حالت پنهان (Hidden State)، عکس از نويسنده3- رمزگشا (Decoder) _ حدس زننده (بازيکن 2)رمزگشايی به معنای تبديل يک پيام رمز شده به يک فرمت قابل فهم است. شخص دوم در بازي پيکشنری (Pictionary) تصوير طراحی شده را به يک عبارت تبديل می کند. در مدل يادگيری ماشين، نقش رمزگشا، تبديل بردار دو بعدی به دنباله خروجی، يعنی جمله انگليسی است. Decoder با استفاده از لايه های شبکه RNN برای پيش بينی کلمات انگليسی ساخته می شود.رمزگشا (Decoder)، عکس از نويسندهنتيجه گيریيکی از مزيت های اين مدل آن است که ممکن است طول دنباله های ورودی و خروجی با يکديگر متفاوت باشد. اين ويژگی امکان خوبی را برای کارهايی مانند؛ ايجاد خودکار زيرنويس برای ويديوها و سيستم های پرسش و پاسخ فراهم می کند. درک مدل های Encoder-Decoder برای آخرين پيشرفت های NLP کليدی است، زيرا اين مدل يکی از موارد اصلی و زيربنای مدل های attention و transformerها است. مهدی فیروزمندی مهدی فیروزمندی Fri, 29 Oct 2021 22:32:01 +0330