کامیونیتی CS12، جایی برای ماژولار بودن | لینکدین مون رو حتما فالو کن!
چرا هنوز برای حل مسائل ریاضیاتی نمیتوان به هوش مصنوعی اعتماد کرد

محدودیت بنیادیای که هنوز اجازه نمیدهد هوش مصنوعی در محاسبات دقیق از حسابداران و ریاضیدانان جلو بزند.
هرچند هوش مصنوعیها آموزش دیدهاند که پاسخ درست را تشخیص دهند، اما همچنان در محاسبات قابل اعتماد نیستند. دانشمندانی از فرانسه، آلمان و لهستان معیاری ریاضیاتی به نام ORCA طراحی کردند (Omni Research on Calculation in AI). این معیار شامل مجموعهای از پرسشهای ریاضی و مسائل زبان طبیعی در حوزههای علمی و فنی مختلف است. سپس آنها پنج مدل مطرح هوش مصنوعی را با این معیار محک زدند: ChatGPT-5، Gemini 2.5 Flash، DeepSeek، Claude Sonnet 4.5 و Grok.
با این حال، این مدلها نمرهی بسیار پایینی کسب کردند. تحقیقات نشان داد که مدلهای زبانی هنوز خطاهای قابل توجهی دارند، به طوری که طبق دادههای دانشگاه آکسفورد، اگر سطح پایهٔ استدلال ریاضی انسان را نمرهٔ صفر در نظر بگیریم، نمرهٔ مدلهای هوش مصنوعی منفی 7.44 بوده است. پژوهشگران معتقدند ORCA باید توانایی واقعی مدلها در محاسبه را بسنجند، نه توانایی آنها در حفظ الگوها.
بر اساس ارزیابیای که در اکتبر 2025 با استفاده از 500 پرسش ریاضی در حوزههای مختلف انجام شد، مدلهای زبانی مذکور تنها دقتی بین 45 تا 63 درصد به دست آوردند. این بدان معناست که حتی پیشرفتهترین مدلهای موجود هم تقریباً در نیمی از مسائل محاسباتی قطعی شکست میخورند.
اما چرا مدلهای زبانی در ریاضیات ضعیفاند؟ زیرا این مدلها اساساً بر یک اصل بنا شدهاند: پیشبینی کلمهٔ بعدی بر اساس الگوهای زبانی، نه حل واقعی مسائل ریاضی. به عبارت دیگر، آنها محاسبه نمیکنند، بلکه الگوهای متنی مرتبط با پاسخهای ریاضی را پیشبینی میکنند. به عبارتی، به جای محاسبات واقعی، پاسخها را حفظ میکنند و الگوهای محاسباتی را صرفاً شبیهسازی میکنند. به همین دلیل است که در جملات، منطق، ترجمه و تحلیل انسانی عملکرد عالی دارند، اما در محاسبات اشتباه میکنند.
این محدودیت صرفاً کمبود آموزش نیست، بلکه یک مشکل بنیادی در معماری مدلهای زبانی است و به همین دلیل تمام این مدلهای زبانی، بدون یک تحلیلگر (مثل Python یا CAS)، در مسائل دقیق شکست میخورند.
این نتایج نشان میدهند: هوش مصنوعی هنوز نمیتواند در زمینههایی که نیازمند حساب دقیق، مدلسازی، تحلیل داده و طراحی سیستم هستند، قابل اعتماد باشد. به زبان دیگر، هوش مصنوعی فعلی هنوز نمیتواند جایگزین مهندسان، حسابداران، پزشکان یا دانشمندان شود.
نکتهٔ جالب و قابل توجه این نتایج این است که ChatGPT، محبوبترین مدل زبانی اکثر مردم تا این لحظه، پایینترین نمره را بعد از Claude دریافت کرده و نسبت به بقیه در محاسبات ریاضی ضعیفتر عمل کرده است. مقایسهٔ کلی دقت در ریاضیات عددی تقریباً به این شکل است:
Claude < ChatGPT < Gemini < Grok < DeepSeek
اما چرا این چنین است؟ چهار دلیل جالب برای آن وجود دارد:
ChatGPT بهصورت پیشفرض محافظهکار است
در واقع، طوری طراحی شده که اگر مطمئن نباشد یا احتمال خطا ببیند، پاسخ دقیق ندهد یا روش را تغییر دهد. این ویژگی در مکالمه عالی است، اما در ریاضی باعث خطای محاسباتی میشود (مدلهایی مثل Gemini و Grok مستقیمتر حساب میکنند).
زیادی توضیح میدهد
این مدل مراحل را طولانی میکند و در مراحل اضافی، احتمال اشتباه بالا میرود.
به جای محاسبه واقعی، استدلال نوشتاری را ترجیح میدهد
در واقع بر اساس توضیحات منطقی و پاسخهای انسانگونه بنا شده است، پس ذاتاً برای محاسبهٔ دقیق، قطعی و عددی طراحی نشده و در این بخش احتمال خطا بالا میرود.
ماژولهای ریاضی ضعیفتر نسبت به مدلهایی مثل Gemini و DeepSeek
این موضوع باعث میشود قدرت محاسباتی و دقت ریاضی این مدلها محدود شود.
پس آیندهٔ ریاضیات در هوش مصنوعی چه خواهد شد؟
دو مسیر علمی محتمل وجود دارد:
1. ادغام مدلهای زبانی با یک سیستم محاسباتی
مانند: Mathematica، SymPy و Wolfram Alpha.
در این روش، مدل تصمیمگیری میکند اما محاسبات توسط سیستم محاسباتی انجام میشود. این روش بسیار مطمئنتر است.
2. مدلهای ترکیبی که هم مانند مغز یاد میگیرند و هم مانند ماشینحساب دقیق عمل میکنند (Neural-Symbolic)
این مسیر هنوز در مراحل ابتدایی است، اما آیندهٔ هوش مصنوعی به آن وابسته خواهد بود.
مطلبی دیگر از این انتشارات
جادی:chatGPT باید از ما یاد بگیرد نه ما از او
مطلبی دیگر از این انتشارات
لینوکس یک فلسفه است، فلسفهٔ آزادی
مطلبی دیگر از این انتشارات
یوتیوب به چت و قابلیت ساخت گروه مجهز شد