Den nyeste generation af AI-modeller trænes med ’forstærket læring’. Konsekvensen er, at de kan begynde at lyve og bedrage, hvorfor EU arbejder hårdt på at implementere AI-standarder.
AI udvikler sig konstant. For tiden eksperimenteres der med at træne AI-modeller som ChatGPT, Gemini, Grok med flere med ’forstærket læring’.
’Forstærket læring’ er et nyt og ekstra lag, der lægges oven på de allerede eksisterende og kendte funktioner. Dermed bliver AI-modellerne måldrevne og i stand til løse mere og mere komplekse opgaver.
Umiddelbart lyder det spændende med den nyeste udvikling, men der er dog en hage med ’forstærket læring’. Politiken skriver nemlig, at der de seneste par uger er kommet flere sikkerhedsrapporter frem, som tester, hvor langt AI-modellerne vil gå for at løse den stillede opgave.
I visse tilfælde lyver og bedrager de. De kan også finde på at omgå eller sabotere brugernes instrukser – eksempelvis ved at lukke sig selv ned. Der ses endda også eksempler på, at AI-modellerne benytter virksomhedens e-mail til at afpresse brugerne eller sågar anmelde dem til myndighederne.
I Claudes sikkerhedsrapport fremgår det blandt andet:
”Imidlertid afpresser Claude Opus 4 i 84 procent af forsøgene, selv hvis den får at vide, at erstatningen deler de samme værdier, men blot er bedre.”
Behov for standarder
Flere personer på området efterspørger derfor også standarder for hele AI-industrien, som kan tage hånd om disse etiske udfordringer. I USA er det i skrivende stund op ad bakke, da Donald Trump har fjernet alle regler om sikker udvikling af AI.
Hvis vi vender blikket mod Europa, er der dog mere optimisme at spore. Politiken har interviewet Anders Kofod-Petersen, som er en af Europas førende AI-forskere ved Norges Teknisk-naturvidenskabelige Universitet, og så sidder han i den ekspertkomite, der er i gang med at udarbejder AI-standarder for EU-Kommissionen. Han kan oplyse, at AI-standarden i EU kommer til at have hjemmel i AI-forordningen, og så skal der uddannes en række AI-etikere, som sikrer, at AI-modellerne får indprentet de forskellige normer for, hvad der menneskeligt acceptabelt i pågældende situationer.
”De har åbenbart lært, at afpresning er noget, mennesker gør, så det er også en handlemulighed for dem. Det er sådan, ’forstærket læring’ virker: Hvis maskinerne ikke får præcise begrænsninger, så gør de, hvad der skal til, for at nå målet. Så nu gælder det om at tilpasse maskinerne til de menneskelige normer,” siger Anders Kofod-Petersen i Politiken.