شرکت NNgroup یک تحقیق با متدِ Diary study (مطالعهٔ روزانهٔ رفتار کاربران) با مشارکت ۱۸ شرکتکننده در طول تقریبا دو هفته انجام داده است. با ۱۴ نفر از آنها در انتهای ۲ هفته، در می و ژوئن ۲۰۲۳ مصاحبهٔ عمیقتری برگزار کرده است.
مشارکتکنندگان Bing Chat را کمتر از ChatGPT یا Bard مفید و قابلاعتماد ارزیابی کردند. این نتایج را میتوان به اینترفیسِ پرامکانات و در عین حال ناقص بینگ و به تجمیعِ اطلاعاتِ ضعیفتر آن نسبت داد.
چتجیبیتی با آنکه به اینترنت متصل نیست. متن را در قالبهای مختلف به کاربر ارايه میدهد اما از منظر نگهداشت تاریخچهٔ مکالمات بیرقیب است. بارد و بینگ در پاسخهای خود فایلهای مالیمدیا برمیگردانند. بینگچت همچنین منابع و سوالات بعدی پیشنهادیای را برای برخی از پاسخهای خود ارائه میدهد.
بارد گوکل اینترفیسی شبیه چتجیبی دارد اگرچه بارد اجازهٔ دسترسی به متن کامل مکالمات گذشته را ندارد. برخی از پاسخ های بارد شامل تصاویر و لینکهای اینترنتی است. بینگ چت در انتهای پاسخ، قسمت بیشتر بدانید دارد که در آن از متن و لینک و پاورقی لیست شده استفاده میکند. بینگچت برای برخی از کابران به فراخور پرامپت مطرح شده پیگیری تاریخچهٔ مکالمات قبلی را پیشنهاد میدهد.
رتبهبندی مفیدبودن بینگچت از هر دو رقیب خود کمتر ارزیابی شد و بارد از چتجیپیتی هم مفیدتر ارزیابی شده است. اما در رتبهبندی قابل اعتمادبودن بارد و چتجیپیتی، هر دو از بینگچت مورد اعتمادتر بودهاند. در نهایت باید گفت بینگچت از هر دو رقیب خود به طور چشمگیری در هر دو شاخص ارزیابی عقبتر است و این نتیجه جالبتر خواهد شد وقتی بدانید بینگ و چتجیبیتی هر دو از هوشمصنوعی OpenAI استفاده میکنند.
شرکت NNgroup معتقد است دو دلیل بزرگ برای رتبهبندی ضعیفتر Bing وجود دارد:
۱. کاوش اطلاعات ضعیف: بخش عظیمی از پاسخهای بینگ همیشه شامل تجمیع اطلاعات نمیشوند یا آن را فقط در لایهٔ سطحی انجام میدهد.
۲. مشکلات رابط کاربری: یک رابط کاربری با عناصرِ بالقوهمفید اما ضعیف اجرا شده که به اندازهٔ کافی از کاربران حمایت نمیکند و گاهی حواس آنها را از کار در حال انجام منحرف میکند.
بینگچت غنیترین رابط کاربری را داشت. دارای ویژگیهای زیادی (به عنوان مثال، رفرنسها، کوئریهای پیگیری پیشنهادی) که در رابطهای دیگر رباتها وجود نداشت. ما معتقدیم که از قضا، این واقعیت به کاهش رتبهبندی آن کمک کرده است.
در حالی که، از نظر تئوری، بسیاری از این عناصر میتوانند افزونههای مفیدی باشند، اغلب بهطور ناقص اجرا میشدند و به جای کمک به کاربر، مانع ایجاد میکردند. این نتیجه بر اهمیت تجربهٔ کاربر در طراحی رباتهای هوشمصنوعی تاکید می کند.
تجمیع اطلاعات ضعیف چیزی است که محققان هوش مصنوعی میتوانند آن را برطرف کنند اما رابط کاربری معیوبتر به ما (متخصصان UX) مربوط میشود. اگر به موضوع علاقهمند هستید، مقالهٔ اصلی جزئیات مفید بسیار بیشتری دارد.