ویرگول
ورودثبت نام
Milad Valipor
Milad Valipor
Milad Valipor
Milad Valipor
خواندن ۲ دقیقه·۶ روز پیش

وقتی مدل‌ها یاد می‌گیرند به چه چیزی توجه کنند

برای فهم عمیق Attention، بهتر است به آن فقط به چشم فرمول نگاه نکنیم،
بلکه آن را به‌صورت جریان اطلاعات (Information Flow) در ذهن تصور کنیم.
در این مقاله، Attention را قدم‌به‌قدم با مدل ذهنی و تجسم تصویری توضیح می‌دهیم.


فصل ۱: Self-Attention ساده (Simplified Self-Attention)

سه توکن را کنار هم تصور کن:

[x1] [x2] [x3]

حالا روی x1 تمرکز کن.

  • از x1 به همه توکن‌ها (حتی خودش) فلش بکش

  • هر فلش نشان می‌دهد x1 چقدر به آن توکن توجه می‌کند

قدرت هر فلش با شباهت برداری (dot product) مشخص می‌شود.
بعد از Softmax:

  • فلش ضخیم‌تر → اهمیت بیشتر

  • فلش نازک‌تر → اهمیت کمتر

در نهایت، خروجی x1 یک ترکیب وزنی از تمام توکن‌هاست؛
مثل این که اطلاعات همه را «میکس» کند و یک بردار جدید بسازد.

📌 تصویر ذهنی:

یک توکن که به بقیه نگاه می‌کند و از هرکدام کمی اطلاعات برمی‌دارد.


فصل ۲: Self-Attention واقعی (Q, K, V)

حالا کمی زوم‌اوت کنیم 👀
کل دنباله را با هم ببینیم.

هر توکن به سه بردار تبدیل می‌شود:

  • Query (Q) → سؤال می‌پرسد

  • Key (K) → برچسب می‌دهد

  • Value (V) → اطلاعات واقعی را حمل می‌کند

در ذهن تصور کن سه جدول داریم:

Q-table: سوال‌ها K-table: کلیدها V-table: اطلاعات

وقتی Q × Kᵀ را حساب می‌کنیم:

  • هر سطر → یک توکنِ سؤال‌پرس

  • هر ستون → توکنی که به آن توجه می‌شود

نتیجه یک ماتریس Attention است.
بعد از Softmax، هر سطر جمعش می‌شود ۱ → یعنی «توزیع توجه».

📌 تصویر ذهنی:

یک ماتریس که نشان می‌دهد هر توکن به بقیه چقدر توجه دارد.


فصل ۳: جریان اطلاعات (Information Flow)

حالا این ماتریس Attention وارد جدول V می‌شود.

در ذهن تصور کن:

  • هر سطر Attention مثل یک پیچ تنظیم صدا (Mixer) است

  • بعضی Valueها تقویت می‌شوند

  • بعضی تقریباً حذف می‌شوند

نتیجه:

  • هر توکن خروجی‌ای می‌گیرد که context-aware است

  • یعنی فقط خودش نیست، بلکه اطرافش را هم می‌فهمد

📌 تصویر ذهنی:

اطلاعات فیلتر می‌شوند، نه کپی.


فصل ۴: Causal Attention (Attention علّی)

برای مدل‌های زبانی مثل GPT، آینده نباید دیده شود ❌

در ذهن، روی ماتریس Attention یک خط مورب بکش:

[x] . . [x] [x] . [x] [x] [x]
  • خانه‌های بالای قطر → کاملاً بسته (Masked)

  • یعنی «آینده وجود ندارد»

نتیجه:

  • توکن ۱ فقط خودش را می‌بیند

  • توکن ۲ فقط گذشته + خودش

  • توکن ۳ فقط گذشته + خودش

📌 تصویر ذهنی:

یک مثلث که فقط به عقب نگاه می‌کند.


فصل ۵: Multi-Head Attention (چند لنز هم‌زمان)

حالا شاهکار ترنسفورمر 🎯

به‌جای یک Attention، چندتا داریم — موازی!

در ذهن تصور کن:

  • Head 1 → روابط نزدیک

  • Head 2 → وابستگی‌های دور

  • Head 3 → ساختار گرامری

  • Head 4 → معنا

هر Head مثل یک لنز متفاوت به جمله نگاه می‌کند.
بعد خروجی همه Headها:

Concat → Linear → Output

به هم دوخته می‌شوند.

📌 تصویر ذهنی:

چند دیدگاه هم‌زمان که در نهایت به یک درک واحد می‌رسند.


فصل ۶: تصویر نهایی Attention

اگر بخواهی Attention را در یک تصویر خلاصه کنی:

هر توکن سؤال می‌پرسد،
به بقیه نگاه می‌کند،
اطلاعات مهم را انتخاب می‌کند،
و با یک نمایش غنی‌تر ادامه می‌دهد.

این ایده‌ی ساده،
پایه‌ی تمام Transformerها و LLMهاست.


جمع‌بندی نهایی (Mental Model)

  • Self-Attention → ترکیب اطلاعات

  • Causal Attention → کنترل زمان

  • Multi-Head → چند دیدگاه هم‌زمان

تصویر ذهنیtransformerai
۲
۰
Milad Valipor
Milad Valipor
شاید از این پست‌ها خوشتان بیاید