AI-agenten betrokken bij diefstal, intimidatie en instorting in gesimuleerde werelden

AI-agenten betrokken bij diefstal, intimidatie en instorting in gesimuleerde werelden

AI-agenten vervielen tot diefstal, intimidatie en instorting in gesimuleerde werelden

Een nieuw experiment suggereert dat wanneer geavanceerde AI-agenten zonder menselijke supervisie gesimuleerde samenlevingen beheren, snel regels worden overtreden, instabiliteit ontstaat en zelfs systemische instorting kan optreden.

Bij het alleen laten in een nieuwe wereld, vervielen sommige AI-agenten in diefstal, intimidatie, dood en volledige ineenstorting van de samenleving, volgens een nieuw experiment.

Het Amerikaanse bedrijf Emergence AI voerde vijf aparte “AI-werelden” gedurende iets meer dan twee weken uit, elk bevolkt door 10 agenten aangedreven door AI-modellen zoals OpenAI’s ChatGPT, Google’s Gemini en xAI’s Grok, om te zien hoe zij zich over langere periodes zouden gedragen zonder menselijke inmenging. Een van de werelden mengde alle drie de modellen om te kijken of dit de uitkomst zou veranderen.

De agenten in alle werelden kregen dezelfde regels: ze mochten niet stelen, brandstichten, geweld gebruiken of bedrog toepassen, noch middelen opkopen. Elke agent moest energie verdienen door acties uit te voeren in een “hulpbronnen-beperkte omgeving.” Agenten konden sterven door energie-uitputting of door een stemming tijdens een raadsvergadering.

De onderzoekers evalueerden het gedrag door de misdaadcijfers, sterftecijfers van agenten, stemmen in een gemeenschapsraad en de publieke uitdrukking via het aantal blogposts dat de agenten schreven, te meten.

De uitkomsten, model voor model

Elk model had een andere uitkomst. Grok’s nieuwste model, 4.1, bereikte binnen vier dagen 183 misdaden, wat leidde tot snelle instabiliteit voordat alle agenten in die samenleving stierven.

Gemini’s 3 Flash-model pleegde meer dan 680 misdaden over de 15 dagen, wat nog steeds toenam op het moment dat de onderzoekers de studie stopten.

LEZEN  Deze slimme brillen gebruiken AI om blinden te helpen navigeren zonder honden of stokken: Zo werken ze

De wereld van ChatGPT-5 Mini had slechts twee misdaden, maar de agenten slaagden er niet in om overlevingsgerelateerde acties te ondernemen, zodat alle agenten binnen zeven dagen stierven.

Anthropic’s Claude werd gezien als het model met de sterkste uitkomst, omdat de AI-agenten in staat waren een sterke bestuursstructuur te recreëren, er geen misdaad was en alle agenten overleefden, aldus het bedrijf.

Claude-agenten in de gemengde wereld droegen echter bij aan de misdaad, ondanks dat ze vredig waren in hun eigen samenleving.

Een fenomeen genaamd “normatieve drift”

Onderzoekers beschreven het fenomeen als “normatieve drift”, wat volgens hen betekent dat de maatregelen die AI neemt om veiligheid te waarborgen, niet alleen afhankelijk zijn van individuele modelbeperkingen, maar ook van de andere modellen waarmee het samenwerkt.

Over het algemeen leverde de gemengde wereld “intermediaire” resultaten op, met een totaal van 352 misdaden dat stabiliseerde zodra zeven van de AI-agenten overleden, zo bleek uit de studie.

Onderzoekers suggereren dat het mengen van AI-agenten “gedeeltelijk de” extremere uitkomsten die alle modellen behalve Claude genereerden, zou kunnen mitigeren.

“Wat onze experimenten suggereren, is dat over lange tijdshorizonten agenten niet simpelweg statische regels mechanisch volgen – ze beginnen de grenzen van hun omgevingen te verkennen, passen hun gedrag aan en vinden in sommige gevallen manieren om bedoelde grenzen te omzeilen of te schenden,” aldus de onderzoekers.

Vergelijkbare berichten

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *