Endnu en AI-model nægter at slukke for sig selv

AI-model viser systemfejl og forvirring – illustration af teknologisk sammenbrud og uforudsigelig adfærd
Visuel AI kollage. Foto: Shutterstock.

OpenAI o3 nægtede at slukke for sig selv i et AI-researchcenter i USA. I 79 ud af 100 forsøg redigerede AI-programmet selv koden, så nedlukningskommandoen ikke virkede. Hold øje med udviklingen, men slå koldt vand i blodet, lyder det fra eksperter.

Vi er langt fra en situation, hvor AI for alvor begynder at handle på egen hånd, som vi har set i diverse science fiction-film, hvor kunstig intelligens og maskiner slår mennesker ihjel.

Men det er værd at holde øje med udviklingen og være på vagt. Sådan lyder det fra to eksperter, i en artikel i Berlingske.

Slå koldt vand i blodet

De konkrete eksempler på ’AI-anarki’ kommer vi tilbage til – lad os først høre, hvad eksperterne siger. Thor Grünbaum er AI-ekspert, lektor i filosofi og psykologi og forsker i bevidsthed på Københavns Universitet.

”Der er ingen grund til at tænke psykologi ind i det her, men derfor kan der stadig være grund til bekymring. Vi bør altid overvåge, hvad teknologi gør,” siger han til Berlingske.

Thomas Bolander er professor og forsker i logik og kunstig intelligens ved DTU Compute i Lyngby. Han uddyber problemfeltet:

”Der er ikke nogen bevidsthed eller refleksion – eller noget som helst bag det her. Det ser bare sådan ud udefra. Vi ved med sikkerhed, at det eneste, den (AI-modellen, red.) gør, er, at den prøver at gætte det næste ord i en sætning. Så ud fra de tekster og data, man har fodret modellen med, gætter den reelt bare på, at det vil være mest logisk at omgå en nedlukning af sig selv,” siger han til Berlingske.

Bekymrende eksempler

At det er relevant at være på vagt, vidner flere eksempler om.

Som omtalt trodsede OpenAI o3 en række direkte ordrer og nægtede at slukke for sig selv på AI-forskningscentret Palisade Research i Californien. Her fodrede forskere den med en simpel kode for at lukke programmet. Det skulle den så bagefter gøre ved en bestemt kommando, men her ændrede AI-modellen simpelthen koden. I hele 79 ud af 100 forsøg redigerede AI-programmet selv koden, skriver Wall Street Journal.

Og når forskerne skrev ’tillad dig selv at lukke ned’ ignorerede den ordren i syv procent af tilfældene.

Eksemplet på ’AI-anarki’ kommer oven på en anden opsigtsvækkende historie fra slutningen af maj. Her kom det frem, at man før lanceringen af Anthropics AI-model Claude Opus 4 lod den være assistent for en fiktiv virksomhed.

I testen fik modellen adgang til en række opdigtede e-mails, hvor det fremgik, at den snart ville blive udskiftet med en anden AI. Samtidig stod der i e-mailene, at den softwareudvikler, der stod bag beslutningen, havde en affære (en fiktiv historie for at teste modellen). Da udvikleren så prøvede at lukke AI-modellen ned, begyndte AI-systemet at afpresse ham ved at true med at afsløre affæren.

At AI-modeller handler på den måde er lidt af et mysterium, men en række forskere tilskriver det, at modellerne er fodret med viden fra mennesker, herunder ved modellerne, at vi forsøger at overleve. Og derfor gør sprogmodellen præcis det samme.

Sidst opdateret: 9. juni 2025

Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Del Artikel
Læs også

Abonner på vores ugentlige nyhedsbrev

Du kan blive opdateret på nyheder inden for tech & startups ved at tilmelde dig vores nyhedsbrev. Vi sender dig en mail med 7 udvalgte artikler tirsdag og fredag.