مقایسه عملکرد ChatGPT و Bard درتشخیص آلزایمر

همه ما به خوبی می‌دانیم که زوال عقل یا آلزایمر (AD) به عنوان یک اختلال عصبی پیشرونده، به یک نگرانی رو به رشد در جهان تبدیل شده است. با وجود درمان‌های دارویی، ارزیابی دقیق این بیماری قبل از شروع هر نوع مداخله بسیار ضروری است. از دست دادن توانایی‌های کلامی از اولین نشانه‌های آلزایمر است؛ پس تجزیه و تحلیل گفتار فی‌البداهه، می‌تواند ابزاری ارزشمند در تشخیص زودهنگام این بیماری باشد.

به تازگی پژوهش جدیدی را تحت عنوان "مقایسه عملکرد چت بات ChatGPT در مقابل Bard در تشخیص آلزایمر" مطالعه کردم که در آن محققان با تحلیل الگوهای گفتاری مثل روانشناسی جملات، استفاده از واژگان و کیفیت آوا با کمک پردازش زبان طبیعی (NLP) و تبدیل گفتار به متن، به دنبال یافتن راهی غیرمستقیم و مقرون‌به‌صرفه برای تشخیص زودهنگام آلزایمر بودند.

در این مطالعه از چت بات های مبتنی بر مدل زبانی بزرگ (LLM) مثل ChatGPT-3.5، ChatGPT-4 و بارد گوگل (Bard) برای ارزیابی توانایی ابزارهای مختلف هوش مصنوعی در تشخیص افراد مبتلا به زوال عقل یا آلزایمر (AD) و افرادی که از نظر شناختی عادی (CN) هستند استفاده شده بود. ورودی متنی مشتق‌شده از گفتار فی‌البداهه داده اصلی بود که محققان این پژوهش با کمک رویکرد یادگیری zero-shot در دو سطح پرس‌و‌جوی متفاوت، مورد استفاده قرار داده بودند.

عملکرد هر چت بات مبتنی بر مدل زبانی بزرگ (LLM) بر اساس دقت، حساسیت، خاص بودن و نمره F1 ارزیابی شد. متوجه شدم که رویکرد chain-of-thought prompting هم در این مطالعه استفاده شده بود که می‌توانست پاسخ های دقیقی را از چت ‌بات‌ ها استخراج کرده و در نتیجه اعتبار اکولوژیکی غربالگری تشخیصی را افزایش بدهد.

مقایسه عملکرد چت بات های مختلف در تشخیص آلزایمر

نتایج به دست آمده در این مطالعه نشان می‌داد که چت‌بات هوش مصنوعی بارد (Bard) در شناسایی مثبت AD، بالاترین امتیاز true-positive (89٪) و بالاترین امتیاز F1 (71٪) را به دست آورده بود. با این حال، این چت‌بات به شکل عجیبی و با اعتماد به نفس کامل، افراد دارای توانایی‌های شناختی عادی را در گروه AD طبق‌بندی می‌کرد. برعکس، برای شناسایی مثبت CN، نسخه 4 چت‌بات شرکت OpenAI یعنی GPT-4 بالاترین false-positive را با 56٪ و بالاترین امتیاز F1 (62٪) را برای تشخیص افراد CN به دست آورده بود.

بر اساس این نتایج متوجه شدم که چت بات های مبتنی بر مدل زبانی بزرگ (LLM) می‌توانند با اتکا بر عواملی غیر از شانس، AD را در مقابل CN تشخیص دهند. با این حال، ظاهراً این ابزارها در حال حاضر الزامات لازم برای کاربردهای بالینی را برآورده نمی‌کنند. این موضوع پتانسیل و محدودیت‌های استفاده از مدل زبانی بزرگ (LLM) در محیط‌های درمانی و مراقبت‌های بهداشتی، به‌ویژه برای کارهایی مثل تشخیص زودهنگام و ارزیابی بالینی آلزایمر را گوشزد می‌کند.

چه نتیجه‌ای از این مطالعه حاصل شد؟

مطالعه‌ای که درباره آن حرف می‌زنم، توانست دیدگاهی ارزشمند در مورد قابلیت‌های مدل‌های زبانی بزرگ در تشخیص‌های پزشکی ارائه کند. در حالی که نتایج حاصل از این پژوهش واقعاً امیدوارکننده هستند، تحقیقات و توسعه بیشتری برای اصلاح این ابزار در کاربردهای بالینی لازم است. این مطالعه می‌تواند به عنوان اولین گام برای ترکیب هوش مصنوعی در حوزه‌های بهداشت و درمان عمل کند و نگاهی اجمالی به آینده‌ای داشته باشد که در آن هوش مصنوعی می تواند از متخصصان در تشخیص زودهنگام و مداخله و درمان شرایطی مانند زوال عقل پشتیبانی کند.

البته من از یافته‌های این مطالعه به نکات مهمی هم پی بردم که می‌توانم به این شکل آن ها را خلاصه کنم:

  • پتانسیل بالینی: این مطالعه نشان می‌دهد که مدل های زبانی بزرگ مانند ChatGPT و Bard می توانند به طور بالقوه در تشخیص زودهنگام زوال عقلی کمک کننده باشند، که نتیجه آن مداخلات زودتر و درمان موفق‌تر بیمار خواهد بود.
  • پیشرفت فناوری: طبق نتایج این پژوهش، فناوری‌های هوش مصنوعی و یادگیری ماشین تا جایی پیشرفت می‌کنند که می‌توانند زبان انسان را برای شناسایی الگوهای پیچیده مرتبط با آسیب‌های شناختی درک و پردازش کنند.
  • نیاز به بهبود: علیرغم نتایج امیدوارکننده، این مطالعه نشان می‌دهد که قبل از اینکه بتوان از این مدل ها به طور قابل اعتماد در محیط های بالینی استفاده کرد، باید اصلاحات زیادی روی آنها انجام داد. نرخ متوسط ​​نتایج «مطمئن» و طبقه‌بندی نادرست اطلاعات، به حوزه‌هایی اشاره دارند که باید در این مدل‌ها بیشتر ارتقا پیدا کنند.
  • ملاحظات اخلاقی: استفاده از هوش مصنوعی در مراقبت های بهداشتی مسائل اخلاقی متعددی را نیز در زمینه حریم خصوصی، امنیت داده ها و احتمال خطاهایی که می تواند بر درمان بیمار تأثیر گذار باشند را برجسته می‌کند.
  • مسیرهای تحقیق: این مطالعه راه های جدیدی را برای تحقیقات آینده باز کرده است و دانشمندان را به توسعه مدل های پیچیده تر برای داشتن یک تشخیص بالینی دقیق تر و قابل اعتمادتر تشویق می کند.
  • تأثیر بر سلامت عمومی جامعه: اگر این ابزارها به قابلیت اطمینان کافی برای استفاده بالینی دست پیدا کنند، می‌توانند با ارائه روش‌های مقیاس‌پذیر و در دسترس، جهت غربالگری وضعیت سلامت شناختی و روانی افراد، تأثیر قابل‌توجهی بر سلامت عمومی داشته باشند.

به طور خلاصه، در حالی که این مطالعه نشان می‌دهد که هوش مصنوعی پتانسیل کمک به تشخیص زوال عقل آلزایمر را دارد، هنوز باید کارهای زیادی انجام شود تا اطمینان پیدا کنیم که این ابزارها می‌توانند به شکلی ایمن و مؤثر در اقدامات تشخیصی و درمانی ترکیب شوند.


منبع mdpi.com