ویرگول
ورودثبت نام
امید ایروانی
امید ایروانی
امید ایروانی
امید ایروانی
خواندن ۳ دقیقه·۷ ماه پیش

چرا هوش مصنوعی هنوز UX را «نمی‌فهمد»؟

هوش مصنوعی در سال‌های اخیر توانسته قدرت چشم‌گیری در تحلیل داده‌های بصری پیدا کند. از تشخیص اجزای صفحه گرفته تا تولید طراحی‌های گرافیکی، مدل‌هایی مانند CNN به ابزارهای محبوبی برای درک بصری محیط تبدیل شده‌اند. با این حال، وقتی پای تجربه کاربری (UX) به میان می‌آید، هنوز فاصله زیادی بین «دیدن» و «درک کردن» وجود دارد. در این مقاله، نگاهی داریم به محدودیت‌های ذاتی مدل‌های پردازش تصویر در تحلیل تجربه کاربری، و اینکه چرا هنوز هم تصمیم‌گیری نهایی در UX، به انسان نیاز دارد. مدل‌های بینایی ماشین می‌توانند تشخیص دهند که یک دکمه در کجا قرار گرفته یا چیدمان صفحه چگونه است، اما نمی‌دانند چرا کاربر روی دکمه کلیک نمی‌کند یا در چه نقطه‌ای تجربه‌اش دچار اختلال می‌شود.

دون نورمن (Don Norman)، بنیان‌گذار مفهوم UX:
"درک رفتار انسان‌ها به شناسایی الگوها در پیکسل‌ها محدود نمی‌شود. موضوع اصلی، همدلی، نیت و بافت است — چیزهایی که هوش مصنوعی هنوز فاقد آن‌هاست."
مراحل CNN برای پردازش تصویر یک پیتزا
مراحل CNN برای پردازش تصویر یک پیتزا

اما CNN چگونه کار میکند؟

شبکه عصبی کانولوشنی (Convolutional Neural Network یا به‌اختصار CNN) یکی از رایج‌ترین مدل‌های پردازش تصویر است. عملکرد آن را می‌توان در چند مرحله توضیح داد:

  1. ورودی تصویر: مدل یک تصویر را به‌صورت ماتریسی از پیکسل‌ها دریافت می‌کند. هر پیکسل یک مقدار عددی دارد (مثل شدت نور یا رنگ).
  2. لایه‌های کانولوشن (Convolution): فیلترهایی (یا به‌اصطلاح kernel) روی تصویر حرکت می‌کنند و الگوهایی مثل خطوط، لبه‌ها و اشکال ساده را استخراج می‌کنند. هر فیلتر تلاش می‌کند نوع خاصی از ویژگی بصری را تشخیص دهد.
  3. لایه‌های فعال‌سازی (Activation): توابعی مانند ReLU، اطلاعات نامرتبط را حذف کرده و فقط الگوهای مهم را عبور می‌دهند.
  4. لایه‌های تجمعی (Pooling): اندازه داده‌ها را کاهش می‌دهند و ویژگی‌های کلیدی‌تر را نگه می‌دارند.
  5. لایه‌های کاملاً متصل (Fully Connected): در انتهای شبکه، خروجی به‌صورت یک تصمیم نهایی (مثلاً: «این یک دکمه است» یا «این تصویر شامل پیتزا است») ارائه می‌شود.

به‌زبان ساده، CNN فقط یاد می‌گیرد که «چه چیزی شبیه چه چیزی‌ست» — اما نمی‌داند «چرا آن چیز در آنجا قرار دارد» یا «چه تاثیری بر کاربر دارد».

چرا مدل‌های بینایی برای UX کافی نیستند؟

  1. اما UX فقط دیداری نیست: تجربه کاربری مجموعه‌ای پیچیده از تعاملات، احساسات، انگیزه‌ها و زمینه‌های ذهنی کاربر است.
  2. مدل‌ها پیش‌زمینه ندارند: آن‌ها نمی‌دانند کاربر از کجا آمده یا چه انتظاری دارد.
  3. تمرکز CNN بر ساختار است، نه هدف: یعنی بیشتر به دنبال آن است که چیزی «چطور به نظر می‌رسد» تا اینکه «چطور عمل می‌کند».

چه چیزهایی کمک می‌کنند؟

برای آنکه هوش مصنوعی بتواند تجربه کاربری را بهتر بفهمد، باید از مدل‌هایی فراتر از تصویر استفاده کنیم:

  • مدل‌های چندوجهی (Multimodal) مانند CLIP که تصویر و زبان را با هم تفسیر می‌کنند.
  • مدل‌های رفتاری مانند RNN یا GNN که دنباله‌ای از رفتارهای کاربران را تحلیل می‌کنند.
  • سیستم‌های مبتنی بر بازخورد انسانی (Human-in-the-loop) که به‌طور مداوم از انسان می‌آموزند.
تیم فیگما در بلاگ رسمی‌شان نوشته‌اند:
"هوش مصنوعی می‌تواند الگوهای طراحی تولید کند، اما اینکه این الگوها واقعاً قابل‌فهم یا کاربردی باشند، چیزی است که فقط انسان‌ها — و کاربران واقعی — می‌توانند مشخص کنند."

تجربه، با مشاهده تفاوت دارد

طراحی UX یعنی درک اهداف انسانی در بستر انسانی. چیزی فراتر از تشخیص بصری.

جرد اسپول (Jared Spool)، پژوهشگر تجربه کاربری:
"هوش مصنوعی در شبیه‌سازی طراحی عالی عمل می‌کند. اما شبیه‌سازی همدلی؟ آن دیگر طراحی نیست — نمایش است."

جمع‌بندی

هوش مصنوعی می‌تواند ابزار خوبی برای تحلیل رابط کاربری باشد، اما تا زمانی که نتواند نیت، احساس و تجربه انسانی را درک کند، تصمیم‌گیری درباره UX همچنان وظیفه‌ای انسانی باقی می‌ماند.

تا اطلاع ثانوی، طراحی تجربه کاربری هنوز قلمرو طراحان است — و شاید این‌طور هم بهتر باشد.

منابع

  • Figma Blog. (2023). https://www.figma.com/blog/ai-and-ux-design
  • NNgroup. (2021). https://www.youtube.com/watch?v=mBu_LmD69tc&ab_channel=NNgroup
  • CNN Explainer https://poloclub.github.io/cnn-explainer/#article-relu
تجربه کاربریهوش مصنوعیپردازش تصویر
۶
۲
امید ایروانی
امید ایروانی
شاید از این پست‌ها خوشتان بیاید