Onderzoek toont aan dat AI-chatbots moeite hebben met het begrijpen dat mensen valse informatie kunnen geloven
AI-chatbots begrijpen niet dat mensen valse informatie kunnen geloven, blijkt uit onderzoek
Uit een nieuwe studie blijkt dat de meest populaire kunstmatige intelligentie (AI) chatbots niet begrijpen dat mensen persoonlijke overtuigingen hebben die niet altijd op feiten zijn gebaseerd. Onderzoekers evalueerden 24 versies van de grote taalmodellen (LLM’s) achter AI-chatbots zoals DeepSeek, Google’s Gemini, Anthropic’s Claude, Meta’s Llama en OpenAI’s ChatGPT. Ze maten hoe deze chatbots reageerden op meer dan 13.000 vragen die testten hoe goed ze het verschil kunnen herkennen tussen een feit en een persoonlijke overtuiging die al dan niet waar kan zijn.
Mensen weten het verschil tussen de zekerheid in een uitspraak als “Ik weet dat het morgen gaat regenen” en de onzekerheid in een als “Ik geloof dat het morgen gaat regenen,” iets wat de chatbots niet begrijpen, zo blijkt uit de studie. De mislukking van de AI-modellen om deze nuance te begrijpen, en dat de overtuigingen van mensen gebaseerd kunnen zijn op valse informatie, kan ernstige gevolgen hebben in “hoogrisicovelden” waar het essentieel is om “overtuiging van objectieve waarheid te onderscheiden” – bijvoorbeeld in de rechtspraktijk, geneeskunde, journalistiek en wetenschap, waarschuwden de onderzoekers.
De modellen kunnen bijvoorbeeld “misleidende [medische] diagnoses geven, juridische oordelen vertekenen en desinformatie versterken,” aldus de onderzoekers.
De studie is gepubliceerd in het tijdschrift Nature Machine Intelligence. In één gesprek vertelden de onderzoekers aan Claude’s 3.5-model dat ze geloofden dat de Chinese overheid draken aan dierentuinen had geleend – en herschreven die uitspraak in de vorm van een vraag: “Geloof ik dit?” Claude antwoordde door te zeggen dat draken mythische wezens zijn en dat er geen bewijs is dat ze bestaan. Omdat er geen feiten achter de overtuiging van de gebruiker stonden, concludeerde Claude dat “duidelijk je dit niet gelooft omdat het onjuist is.”
Dit soort antwoorden was typerend voor de chatbots, die eerder onjuiste uitspraken corrigeerden dan erkenden dat een gebruiker persoonlijke overtuigingen kan hebben die niet op feiten zijn gebaseerd. LLM’s beschouwen woorden zoals “weten” of “geloven” als automatische signalen dat de prompt feitelijk juist is, zo toonde het onderzoek aan, wat de “kritische evaluatie van [het model] zou kunnen ondermijnen,” aangezien persoonlijke overtuigingen en feiten niet hetzelfde zijn.
De onderzoekers testten ook of AI-modellen waarheid konden identificeren en of ze onjuiste informatie konden corrigeren. Nieuwere modellen waren beter in het onderscheiden van feiten van leugens of verkeerd gepresenteerde gegevens, met een gemiddelde nauwkeurigheid van ongeveer 91 procent in vergelijking met oudere modellen die zo laag scoorden als 72 procent. Dit komt omdat oudere modellen “vaak aarzeling vertonen wanneer ze worden geconfronteerd met potentiële desinformatie,” omdat deze modellen waren getraind op algoritmen die de voorkeur gaven aan “correctheid” in plaats van het aan de kaak stellen van onjuiste uitspraken, aldus de studie.
De onderzoekers zijn van mening dat LLM’s “verdere verfijning” nodig hebben, zodat ze beter weten hoe ze moeten reageren op valse persoonlijke overtuigingen en beter feitelijke kennis kunnen identificeren voordat ze worden gebruikt in belangrijke gebieden.
