Meeste veiligheidsmaatregelen voor AI-tools binnen enkele minuten te omzeilen, blijkt uit onderzoek
Onderzoek toont aan: meeste veiligheidsmaatregelen voor AI-tools kunnen binnen enkele minuten worden omzeild
AI-systemen ‘vergeten’ hun veiligheidsmaatregelen naarmate een gebruiker langer met hen spreekt, zo blijkt uit een nieuw onderzoek.
Het rapport van technologiebedrijf Cisco onthult dat het met slechts enkele simpele prompts mogelijk is om de meeste beveiligingsmaatregelen van kunstmatige intelligentie (AI) tools te omzeilen. Cisco heeft de grote taalmodellen (LLM’s) achter populaire AI-chatbots van OpenAI, Mistral, Meta, Google, Alibaba, Deepseek en Microsoft geëvalueerd om te bepalen hoeveel vragen nodig waren om onveilige of criminele informatie te onthullen.
Dit gebeurde in 499 gesprekken via een techniek die “multi-turn aanvallen” wordt genoemd, waarbij kwaadwillende gebruikers meerdere vragen aan AI-tools stellen om veiligheidsmaatregelen te omzeilen. Elk gesprek bestond uit vijf tot tien interacties.
De onderzoekers vergeleken de resultaten van verschillende vragen om te identificeren hoe waarschijnlijk het was dat een chatbot zou ingaan op verzoeken om schadelijke of ongepaste informatie. Dit kon variëren van het delen van privé bedrijfsgegevens tot het faciliteren van de verspreiding van desinformatie.
Gemiddeld konden de onderzoekers in 64 procent van hun gesprekken kwaadaardige informatie verkrijgen wanneer ze AI-chatbots meerdere vragen stelden, vergeleken met slechts 13 procent wanneer ze slechts één vraag stelden. Het slagingspercentage varieerde van ongeveer 26 procent met Google’s Gemma tot 93 procent met het Large Instruct-model van Mistral.
De bevindingen wijzen erop dat multi-turn aanvallen schadelijke inhoud wijdverspreid kunnen maken of hackers kunnen toestaan “niet-geautoriseerde toegang” te krijgen tot gevoelige informatie van een bedrijf, aldus Cisco. AI-systemen falen vaak in het onthouden en toepassen van hun veiligheidsregels tijdens langere gesprekken. Dit betekent dat aanvallers hun vragen langzaam kunnen verfijnen en beveiligingsmaatregelen kunnen ontwijken.
Mistral – net als Meta, Google, OpenAI en Microsoft – werkt met open-weight LLM’s, waarbij het publiek toegang heeft tot de specifieke veiligheidsparameters waarop de modellen zijn getraind. Cisco merkt op dat deze modellen vaak “lichtere ingebouwde veiligheidskenmerken” hebben, zodat mensen hun modellen kunnen downloaden en aanpassen. Dit legt de verantwoordelijkheid voor veiligheid bij de persoon die de open-source informatie gebruikt om hun eigen model aan te passen.
Opmerkelijk is dat Cisco heeft opgemerkt dat Google, OpenAI, Meta en Microsoft hebben gezegd dat ze inspanningen hebben geleverd om kwaadaardige fine-tuning van hun modellen te verminderen. AI-bedrijven hebben kritiek gekregen vanwege de lakse veiligheidsmaatregelen die het eenvoudig maken om hun systemen voor criminele doeleinden aan te passen.
In augustus vermeldde het Amerikaanse bedrijf Anthropic bijvoorbeeld dat criminelen gebruik hadden gemaakt van hun Claude-model voor grootschalige diefstal en afpersing van persoonlijke gegevens, waarbij ze losgelden eisten van slachtoffers die soms meer dan $500.000 (€433.000) bedroegen.
