Welke AI-chatbot presteert het beste bij eenvoudige wiskunde? Tests van Gemini, ChatGPT en Grok
Welke AI-chatbot is het beste in eenvoudige wiskunde? Gemini, ChatGPT en Grok onder de loep genomen
Onderzoekers hebben de nauwkeurigheid van vijf AI-modellen getest met behulp van 500 alledaagse wiskundige vragen. De resultaten tonen aan dat er ongeveer 40 procent kans is dat een AI het verkeerde antwoord geeft.
Artificial Intelligence (AI) wordt steeds meer een integraal onderdeel van ons dagelijks leven, inclusief dagelijkse berekeningen. Maar hoe goed kunnen deze systemen eigenlijk omgaan met basiswiskunde? En in hoeverre moeten gebruikers hen vertrouwen?
Een recente studie waarschuwt voor voorzichtigheid. Het Omni Research on Calculation in AI (ORCA) toont aan dat wanneer je een AI-chatbot vraagt om alledaagse wiskunde uit te voeren, er ongeveer 40 procent kans is dat het antwoord verkeerd is. De nauwkeurigheid varieert aanzienlijk tussen verschillende AI-bedrijven en bij verschillende soorten wiskundige taken.
Dus welke AI-tools zijn nauwkeuriger, en hoe presteren ze bij verschillende soorten berekeningen, zoals statistieken, financiën of natuurkunde? De resultaten zijn gebaseerd op prestaties over 500 vragen die zijn afgeleid van reële, berekenbare problemen. Elk AI-model werd getest met dezelfde set van 500 vragen. De vijf AI-modellen werden in oktober 2025 getest.
De gekozen modellen zijn:
- ChatGPT-5 (OpenAI)
- Gemini 2.5 Flash (Google)
- Claude 4.5 Sonnet (Anthropic)
- DeepSeek V3.2 (DeepSeek AI)
- Grok-4 (xAI)
De ORCA Benchmark heeft gevonden dat geen enkel AI-model meer dan 63 procent scoorde in alledaagse wiskunde. De leider, Gemini (63 procent), maakt nog steeds bijna 4 van de 10 problemen fout. Grok heeft bijna dezelfde score met 62,8 procent. DeepSeek staat derde met 52 procent. ChatGPT volgt met 49,4 procent, en Claude eindigt als laatste met 45,2 procent.
Het eenvoudige gemiddelde van de vijf modellen is 54,5 procent. Deze scores weerspiegelen de algehele prestaties van de modellen over alle 500 vragen.
“Hoewel de exacte rangschikking zou kunnen verschuiven als we de benchmark vandaag herhalen, zou de bredere conclusie waarschijnlijk hetzelfde blijven: numerieke betrouwbaarheid blijft een zwak punt bij de huidige AI-modellen,” aldus Dawid Siuda, mede-auteur van de ORCA Benchmark.
De hoogste nauwkeurigheid bij wiskunde en conversies, de laagste bij natuurkunde
Hun prestaties variëren in verschillende categorieën. In wiskunde en conversies (147 van de 500 vragen) leidt Gemini met 83 procent, gevolgd door Grok met 76,9 procent en DeepSeek met 74,1 procent. ChatGPT scoort 66,7 procent in deze categorie. Het eenvoudige gemiddelde van de nauwkeurigheid over alle vijf modellen is 72,1 procent, de hoogste onder de zeven categorieën.
Daarentegen is natuurkunde (128 vragen) de zwakste categorie, met een gemiddelde nauwkeurigheid van slechts 35,8 procent. Grok presteert het beste met 43,8 procent, iets boven Gemini met 43 procent, terwijl Claude daalt naar 26,6 procent.
Over de zeven categorieën gezien, staan Gemini en Grok elk drie keer op de eerste plaats, en ze delen de top in één categorie.
DeepSeek’s nauwkeurigheid is slechts 11 procent in biologie en scheikunde
DeepSeek registreerde de laagste nauwkeurigheid in alle categorieën in biologie en scheikunde met 10,6 procent. Dit betekent dat het model in ongeveer negen van de tien vragen geen correct antwoord kon geven.
De grootste prestatieverschillen komen voor in financiën en economie. Grok en Gemini bereiken beiden nauwkeurigheidsniveaus van 76,7 procent, terwijl de andere drie modellen, ChatGPT, Claude en DeepSeek, onder de 50 procent blijven.
Waarschuwing voor gebruikers: controleer altijd met een rekenmachine
“Als de taak kritisch is, gebruik dan rekenmachines of bewezen bronnen, of controleer in ieder geval met een andere AI,” aldus Siuda.
Vier fouten die AI-modellen maken
De experts hebben de fouten in vier categorieën gegroepeerd. De uitdaging ligt in het ‘vertalen’ van een situatie in de echte wereld naar de juiste formule, volgens het rapport.
- “Slordige wiskunde” fouten (68 procent van alle fouten). In deze gevallen begrijpt de AI de vraag en de formule, maar faalt in de daadwerkelijke berekening. Deze categorie omvat ‘nauwkeurigheids- en afrondingsproblemen’ (35 procent) en ‘berekeningsfouten’ (33 procent).
- “Foutieve logica” fouten (26 procent van alle fouten). Deze zijn ernstiger omdat ze tonen dat de AI moeite heeft om de onderliggende logica van het probleem te begrijpen. Dit omvat ‘methode- of formulefouten’ (14 procent), zoals het gebruik van een volledig verkeerde wiskundige benadering, en ‘onjuiste aannames’ (12 procent).
- “Misinterpretatie van instructies” fouten (5 procent van alle fouten). Deze treden op wanneer de AI niet correct interpreteert wat de vraag vraagt. Voorbeelden zijn ‘onjuiste parameterfouten’ en ‘onvolledige antwoorden’.
- “Opgeven” fouten. In sommige gevallen weigert de AI eenvoudigweg de vraag of wijst deze af in plaats van een poging te doen tot een antwoord.
“Hun zwakke punt is afronding – als de berekening uit meerdere stappen bestaat en op een bepaald moment afronding vereist, is het eindresultaat meestal ver van de waarheid,” zei Siuda.
Het onderzoek gebruikte de meest geavanceerde modellen die beschikbaar zijn voor het grote publiek, gratis. Elke enkele vraag had één, en slechts één, correct antwoord.
