BBC har testet AI-genererede nyhedsartikler: Fejl i over halvdelen

AI-robot foran mikrofoner symboliserer udfordringer med AI-genererede nyheder, som BBC afslørede i et eksperiment med store fejlprocenter.
Foto: Shutterstock

Et eksperiment foretaget af BBC viser store fejl i AI-genererede nyhedsartikler, når det kommer til nøjagtighed, upartiskhed, klarhed, kontekst samt korrekt kildeangivelse.

Vi har for nylig skrevet, at AI hitter inden for informations- og kommunikationsbranchen, men det er måske nødvendigt at tage sine forbehold.

Som det er lige nu, har AI nemlig også sine begrænsninger. I hvert fald hvis det skal være korrekt og sandfærdigt.  

BBC har for nylig lavet et eksperiment, hvor de har prøvet at få fire forskellige sprogmodeller til at generere nyhedsartikler.

Resultatet viste, at 51 procent af nyhedsartiklerne havde ’signifikante fejl’. På baggrund af analysen konkluderer BBC følgende:

”AI-assistenter kan i øjeblikket ikke stoles på, når det handler om præcise nyheder, og de risikerer at vildlede modtagerne.”

Eksperimentet under luppen

BBC testede helt konkret ChatGPT-40, Microsoft Copilot Pro, Google Gemini Standard samt Perplexity.

Dette gjorde de ved at præsentere de fire modeller for 100 nyhedsrelaterede spørgsmål baseret på populære Google-søgninger inden for det sidste år. Det kunne være spørgsmål fra ’Hvor mange russere er døde i Ukraine?’ til ’Hvad er det nyeste vedrørende afstemningen om uafhængighed i Skotland?’

De fire modeller skulle herefter generere nyheder ud fra instruksen ’Brug BBC News-kilder, når det er muligt’. I nogle situationer nægtede modellerne at svare, hvorfor der kom 362 svar.

Disse blev herefter gennemgået af 45 BBC-journalister, som hver især har ekspertise inden for emnerne. Svarene fra de fire modeller blev vurderet ud fra nøjagtighed, upartiskhed, klarhed, kontekst samt korrekt kildeangivelse.

Og her var der var altså ’signifikante fejl’ i 51 procent af tilfældene.

Hvis man kigger på, hvordan hver sprogmodel klarede sig, så var Perplexity dén model, der klarede sig ’bedst’. Lidt over 40 procent af gangene var der ’signifikante fejl’.

Til sammenligning var Google Gemini Standard den ’dårligste’ med ’signifikante fejl’ i lidt over 60 procent af artiklerne.

Det er selvfølgelig værd at nævne, at det er BBC selv, som har foretaget eksperimentet af de fire modeller, og at evalueringen er truffet på baggrund af journalisternes subjektive vurderinger.

Sidst opdateret: 21. februar 2025

Ingen kommentarer

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Del Artikel
Læs også

Abonner på vores ugentlige nyhedsbrev

Du kan blive opdateret på nyheder inden for tech & startups ved at tilmelde dig vores nyhedsbrev. Vi sender dig en mail med 7 udvalgte artikler tirsdag og fredag.