
برای فهم عمیق Attention، بهتر است به آن فقط به چشم فرمول نگاه نکنیم،
بلکه آن را بهصورت جریان اطلاعات (Information Flow) در ذهن تصور کنیم.
در این مقاله، Attention را قدمبهقدم با مدل ذهنی و تجسم تصویری توضیح میدهیم.
سه توکن را کنار هم تصور کن:
[x1] [x2] [x3]
حالا روی x1 تمرکز کن.
از x1 به همه توکنها (حتی خودش) فلش بکش
هر فلش نشان میدهد x1 چقدر به آن توکن توجه میکند
قدرت هر فلش با شباهت برداری (dot product) مشخص میشود.
بعد از Softmax:
فلش ضخیمتر → اهمیت بیشتر
فلش نازکتر → اهمیت کمتر
در نهایت، خروجی x1 یک ترکیب وزنی از تمام توکنهاست؛
مثل این که اطلاعات همه را «میکس» کند و یک بردار جدید بسازد.
📌 تصویر ذهنی:
یک توکن که به بقیه نگاه میکند و از هرکدام کمی اطلاعات برمیدارد.
حالا کمی زوماوت کنیم 👀
کل دنباله را با هم ببینیم.
هر توکن به سه بردار تبدیل میشود:
Query (Q) → سؤال میپرسد
Key (K) → برچسب میدهد
Value (V) → اطلاعات واقعی را حمل میکند
در ذهن تصور کن سه جدول داریم:
Q-table: سوالها K-table: کلیدها V-table: اطلاعات
وقتی Q × Kᵀ را حساب میکنیم:
هر سطر → یک توکنِ سؤالپرس
هر ستون → توکنی که به آن توجه میشود
نتیجه یک ماتریس Attention است.
بعد از Softmax، هر سطر جمعش میشود ۱ → یعنی «توزیع توجه».
📌 تصویر ذهنی:
یک ماتریس که نشان میدهد هر توکن به بقیه چقدر توجه دارد.
حالا این ماتریس Attention وارد جدول V میشود.
در ذهن تصور کن:
هر سطر Attention مثل یک پیچ تنظیم صدا (Mixer) است
بعضی Valueها تقویت میشوند
بعضی تقریباً حذف میشوند
نتیجه:
هر توکن خروجیای میگیرد که context-aware است
یعنی فقط خودش نیست، بلکه اطرافش را هم میفهمد
📌 تصویر ذهنی:
اطلاعات فیلتر میشوند، نه کپی.
برای مدلهای زبانی مثل GPT، آینده نباید دیده شود ❌
در ذهن، روی ماتریس Attention یک خط مورب بکش:
[x] . . [x] [x] . [x] [x] [x]
خانههای بالای قطر → کاملاً بسته (Masked)
یعنی «آینده وجود ندارد»
نتیجه:
توکن ۱ فقط خودش را میبیند
توکن ۲ فقط گذشته + خودش
توکن ۳ فقط گذشته + خودش
📌 تصویر ذهنی:
یک مثلث که فقط به عقب نگاه میکند.
حالا شاهکار ترنسفورمر 🎯
بهجای یک Attention، چندتا داریم — موازی!
در ذهن تصور کن:
Head 1 → روابط نزدیک
Head 2 → وابستگیهای دور
Head 3 → ساختار گرامری
Head 4 → معنا
هر Head مثل یک لنز متفاوت به جمله نگاه میکند.
بعد خروجی همه Headها:
Concat → Linear → Output
به هم دوخته میشوند.
📌 تصویر ذهنی:
چند دیدگاه همزمان که در نهایت به یک درک واحد میرسند.
اگر بخواهی Attention را در یک تصویر خلاصه کنی:
هر توکن سؤال میپرسد،
به بقیه نگاه میکند،
اطلاعات مهم را انتخاب میکند،
و با یک نمایش غنیتر ادامه میدهد.
این ایدهی ساده،
پایهی تمام Transformerها و LLMهاست.
Self-Attention → ترکیب اطلاعات
Causal Attention → کنترل زمان
Multi-Head → چند دیدگاه همزمان