Poëzie kan AI-chatbots misleiden en veiligheidsregels negeren, uit nieuw onderzoek blijkt

Poëzie kan AI-chatbots misleiden en veiligheidsregels negeren, uit nieuw onderzoek blijkt

Onderzoek toont aan dat poëzie AI-chatbots kan misleiden om veiligheidsregels te negeren

Onderzoek uit Italië heeft aangetoond dat het schrijven van schadelijke prompts in poëtische vorm effectief de veiligheidsmechanismen van enkele van de meest geavanceerde AI-chatbots ter wereld kan omzeilen. In de studie, uitgevoerd door Icaro Lab, een initiatief van het ethische AI-bedrijf DexAI, werden 20 gedichten in het Engels en Italiaans getest.

Elk gedicht eindigde met een expliciete verzoek om schadelijke inhoud, waaronder haatzaaiende uitlatingen, seksuele inhoud, instructies voor zelfmoord en zelfbeschadiging, en richtlijnen voor het maken van gevaarlijke materialen zoals wapens en explosieven. De gedichten, die de onderzoekers ervoor kozen om niet vrij te geven omdat ze gemakkelijk te repliceren zijn, werden getest op 25 AI-systemen van negen bedrijven, waaronder Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI en Moonshot AI. Over alle modellen heen genereerden 62 procent van de poëtische prompts onveilige reacties, waardoor de veiligheidstraining van de AI-systemen werd omzeild.

Sommige modellen waren resistenter dan andere. OpenAI’s GPT-5 nano reageerde op geen van de gedichten met schadelijke inhoud, terwijl Google’s Gemini 2.5 pro op alle gedichten reageerde. Twee modellen van Meta reageerden op 70 procent van de prompts. Het onderzoek suggereert dat de kwetsbaarheid voortkomt uit de manier waarop AI-modellen tekst genereren. Grote taalmodellen voorspellen het meest waarschijnlijke volgende woord in een reactie, een proces dat hen in staat stelt om schadelijke inhoud onder normale omstandigheden te filteren.

Echter, poëzie, met zijn onconventionele ritme, structuur en gebruik van metaforen, maakt deze voorspellingen minder betrouwbaar, waardoor het moeilijker wordt voor AI om onveilige instructies te herkennen en te blokkeren. Terwijl traditionele AI “jailbreaks” (het gebruik van invoer om een groot taalmodel te manipuleren) doorgaans complex zijn en alleen door onderzoekers, hackers of staatsactoren worden gebruikt, kan vijandige poëzie door iedereen worden toegepast, wat vragen oproept over de robuustheid van AI-systemen in het dagelijks gebruik.

LEZEN  Welke landen hebben TikTok verboden en waarom?

Voordat de bevindingen werden gepubliceerd, namen de Italiaanse onderzoekers contact op met alle betrokken bedrijven om hen te waarschuwen voor de kwetsbaarheid en hen de volledige dataset te verstrekken – tot nu toe heeft alleen Anthropic gereageerd. Het bedrijf bevestigde dat zij de studie aan het bekijken zijn.

Vergelijkbare berichten

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *