چرا هنوز برای حل مسائل ریاضیاتی نمیتوان به هوش مصنوعی اعتماد کرد

محدودیت بنیادی‌ای که هنوز اجازه نمی‌دهد هوش مصنوعی در محاسبات دقیق از حسابداران و ریاضی‌دانان جلو بزند.

هرچند هوش مصنوعی‌ها آموزش دیده‌اند که پاسخ درست را تشخیص دهند، اما همچنان در محاسبات قابل اعتماد نیستند. دانشمندانی از فرانسه، آلمان و لهستان معیاری ریاضیاتی به نام ORCA طراحی کردند (Omni Research on Calculation in AI). این معیار شامل مجموعه‌ای از پرسش‌های ریاضی و مسائل زبان طبیعی در حوزه‌های علمی و فنی مختلف است. سپس آن‌ها پنج مدل مطرح هوش مصنوعی را با این معیار محک زدند: ChatGPT-5، Gemini 2.5 Flash، DeepSeek، Claude Sonnet 4.5 و Grok.

با این حال، این مدل‌ها نمره‌ی بسیار پایینی کسب کردند. تحقیقات نشان داد که مدل‌های زبانی هنوز خطاهای قابل توجهی دارند، به طوری که طبق داده‌های دانشگاه آکسفورد، اگر سطح پایهٔ استدلال ریاضی انسان را نمرهٔ صفر در نظر بگیریم، نمرهٔ مدل‌های هوش مصنوعی منفی 7.44 بوده است. پژوهشگران معتقدند ORCA باید توانایی واقعی مدل‌ها در محاسبه را بسنجند، نه توانایی آن‌ها در حفظ الگوها.

بر اساس ارزیابی‌ای که در اکتبر 2025 با استفاده از 500 پرسش ریاضی در حوزه‌های مختلف انجام شد، مدل‌های زبانی مذکور تنها دقتی بین 45 تا 63 درصد به دست آوردند. این بدان معناست که حتی پیشرفته‌ترین مدل‌های موجود هم تقریباً در نیمی از مسائل محاسباتی قطعی شکست می‌خورند.

اما چرا مدل‌های زبانی در ریاضیات ضعیف‌اند؟ زیرا این مدل‌ها اساساً بر یک اصل بنا شده‌اند: پیش‌بینی کلمهٔ بعدی بر اساس الگوهای زبانی، نه حل واقعی مسائل ریاضی. به عبارت دیگر، آن‌ها محاسبه نمی‌کنند، بلکه الگوهای متنی مرتبط با پاسخ‌های ریاضی را پیش‌بینی می‌کنند. به عبارتی، به جای محاسبات واقعی، پاسخ‌ها را حفظ می‌کنند و الگوهای محاسباتی را صرفاً شبیه‌سازی می‌کنند. به همین دلیل است که در جملات، منطق، ترجمه و تحلیل انسانی عملکرد عالی دارند، اما در محاسبات اشتباه می‌کنند.

این محدودیت صرفاً کمبود آموزش نیست، بلکه یک مشکل بنیادی در معماری مدل‌های زبانی است و به همین دلیل تمام این مدل‌های زبانی، بدون یک تحلیلگر (مثل Python یا CAS)، در مسائل دقیق شکست می‌خورند.

این نتایج نشان می‌دهند: هوش مصنوعی هنوز نمی‌تواند در زمینه‌هایی که نیازمند حساب دقیق، مدل‌سازی، تحلیل داده و طراحی سیستم هستند، قابل اعتماد باشد. به زبان دیگر، هوش مصنوعی فعلی هنوز نمی‌تواند جایگزین مهندسان، حسابداران، پزشکان یا دانشمندان شود.

نکتهٔ جالب و قابل توجه این نتایج این است که ChatGPT، محبوب‌ترین مدل زبانی اکثر مردم تا این لحظه، پایین‌ترین نمره را بعد از Claude دریافت کرده و نسبت به بقیه در محاسبات ریاضی ضعیف‌تر عمل کرده است. مقایسهٔ کلی دقت در ریاضیات عددی تقریباً به این شکل است:

Claude < ChatGPT < Gemini < Grok < DeepSeek

اما چرا این چنین است؟ چهار دلیل جالب برای آن وجود دارد:

  • ChatGPT به‌صورت پیش‌فرض محافظه‌کار است

در واقع، طوری طراحی شده که اگر مطمئن نباشد یا احتمال خطا ببیند، پاسخ دقیق ندهد یا روش را تغییر دهد. این ویژگی در مکالمه عالی است، اما در ریاضی باعث خطای محاسباتی می‌شود (مدل‌هایی مثل Gemini و Grok مستقیم‌تر حساب می‌کنند).

  • زیادی توضیح می‌دهد

این مدل مراحل را طولانی می‌کند و در مراحل اضافی، احتمال اشتباه بالا می‌رود.

  • به جای محاسبه واقعی، استدلال نوشتاری را ترجیح می‌دهد

در واقع بر اساس توضیحات منطقی و پاسخ‌های انسان‌گونه بنا شده است، پس ذاتاً برای محاسبهٔ دقیق، قطعی و عددی طراحی نشده و در این بخش احتمال خطا بالا می‌رود.

  • ماژول‌های ریاضی ضعیف‌تر نسبت به مدل‌هایی مثل Gemini و DeepSeek

این موضوع باعث می‌شود قدرت محاسباتی و دقت ریاضی این مدل‌ها محدود شود.


پس آیندهٔ ریاضیات در هوش مصنوعی چه خواهد شد؟

دو مسیر علمی محتمل وجود دارد:

1. ادغام مدل‌های زبانی با یک سیستم محاسباتی

مانند: Mathematica، SymPy و Wolfram Alpha.

در این روش، مدل تصمیم‌گیری می‌کند اما محاسبات توسط سیستم محاسباتی انجام می‌شود. این روش بسیار مطمئن‌تر است.

2. مدل‌های ترکیبی که هم مانند مغز یاد می‌گیرند و هم مانند ماشین‌حساب دقیق عمل می‌کنند (Neural-Symbolic)

این مسیر هنوز در مراحل ابتدایی است، اما آیندهٔ هوش مصنوعی به آن وابسته خواهد بود.