خواندن ۲ دقیقه·۳ سال پیش

چت‌جی‌بی‌تی، بارد یا بینگ‌چت؟ تفاوت‌های بین هوش‌‌های مصنوعی‌ مولّد

شرکت NNgroup یک تحقیق با متدِ Diary study (مطالعهٔ روزانهٔ رفتار کاربران) با مشارکت ۱۸ شرکت‌کننده در طول تقریبا دو هفته انجام داده است. با ۱۴ نفر از آن‌ها در انتهای ۲ هفته، در می و ژوئن ۲۰۲۳ مصاحبهٔ عمیق‌تری برگزار کرده است.

مشارکت‌کنندگان Bing Chat را کمتر از ChatGPT یا Bard مفید و قابل‌اعتماد ارزیابی کردند. این نتایج را می‌توان به اینترفیسِ پرامکانات و در عین حال ناقص بینگ و به تجمیعِ اطلاعاتِ ضعیف‌تر آن نسبت داد.

در نمودار آماری نشان می‌دهد که بینگ‌چت نسبت به Bard و ChatGPT امتیاز مفیدبودن و قابل‌اعتمادبودن کمتری از دید کاربران آزمایش داشت.

چت‌جی‌بی‌تی با آنکه به اینترنت متصل نیست. متن را در قالب‌های مختلف به کاربر ارايه می‌دهد اما از منظر نگه‌داشت تاریخچهٔ مکالمات بی‌رقیب است. بارد و بینگ در پاسخ‌های خود فایل‌های مالی‌مدیا برمی‌گردانند. بینگ‌چت همچنین منابع و سوالات بعدی پیشنهادی‌ای را برای برخی از پاسخ‌های خود ارائه می‌دهد.

بارد گوکل اینترفیسی شبیه چت‌جی‌بی دارد اگرچه بارد اجازهٔ دسترسی به متن کامل مکالمات گذشته را ندارد. برخی از پاسخ های بارد شامل تصاویر و لینک‌های اینترنتی است. بینگ چت در انتهای پاسخ، قسمت بیشتر بدانید دارد که در آن از متن و لینک و پاورقی لیست شده استفاده می‌کند. بینگ‌چت برای برخی از کابران به فراخور پرامپت مطرح شده پیگیری تاریخچهٔ مکالمات قبلی را پیشنهاد می‌دهد.

رتبه‌بندی مفیدبودن بینگ‌چت از هر دو رقیب خود کمتر ارزیابی شد و بارد از چت‌جی‌پی‌تی هم مفیدتر ارزیابی شده است. اما در رتبه‌بندی قابل اعتمادبودن بارد و چت‌جی‌پی‌تی، هر دو از بینگ‌چت مورد اعتمادتر بوده‌اند. در نهایت باید گفت بینگ‌چت از هر دو رقیب خود به طور چشمگیری در هر دو شاخص ارزیابی عقب‌تر است و این نتیجه جالب‌تر خواهد شد وقتی بدانید بینگ و چت‌جی‌بی‌تی هر دو از هوش‌مصنوعی Open‌AI استفاده می‌کنند.

شرکت NNgroup معتقد است دو دلیل بزرگ برای رتبه‌بندی ضعیف‌تر Bing وجود دارد:

۱. کاوش اطلاعات ضعیف: بخش عظیمی از پاسخ‌های بینگ همیشه شامل تجمیع اطلاعات نمی‌شوند یا آن را فقط در لایهٔ سطحی انجام می‌دهد.

۲. مشکلات رابط کاربری: یک رابط کاربری با عناصرِ بالقوه‌مفید اما ضعیف‌ اجرا‌ شده که به اندازهٔ کافی از کاربران حمایت نمی‌کند و گاهی حواس آن‌ها را از کار در حال انجام منحرف می‌کند.

بینگ‌چت غنی‌ترین رابط کاربری را داشت. دارای ویژگی‌های زیادی (به عنوان مثال، رفرنس‌ها، کوئری‌های پیگیری پیشنهادی) که در رابط‌های دیگر ربات‌ها وجود نداشت. ما معتقدیم که از قضا، این واقعیت به کاهش رتبه‌بندی آن کمک کرده است.

در حالی که، از نظر تئوری، بسیاری از این عناصر می‌توانند افزونه‌های مفیدی باشند، اغلب به‌طور ناقص اجرا می‌شدند و به جای کمک به کاربر، مانع ایجاد می‌کردند. این نتیجه بر اهمیت تجربهٔ کاربر در طراحی ربات‌های هوش‌مصنوعی تاکید می کند.

تجمیع اطلاعات ضعیف چیزی است که محققان هوش مصنوعی می‌توانند آن را برطرف کنند اما رابط کاربری معیوب‌تر به ما (متخصصان UX) مربوط می‌شود. اگر به موضوع علاقه‌مند هستید، مقالهٔ اصلی جزئیات مفید بسیار بیشتری دارد.