BinnenlandKunstmatige intelligentie

Wetenschappelijk artikel samenvatten? Dat kun je beter niet aan ChatGPT overlaten

Het bespaart tijd en hoofdbrekens als een AI-chatbot, zoals ChatGPT, een lang en complex artikel samenvat. Maar pas op: zes van de tien populairste chatbots trekken onjuiste conclusies, blijkt uit onderzoek.

Basia Elting, Trouw
14 May 2025 07:12Gewijzigd op 14 May 2025 07:32Leestijd 4 minuten
Vooral ChatGPT, LLaMA en DeepSeek hebben moeite om nuances te bewaren. beeld Trouw, Indy Broeren
Vooral ChatGPT, LLaMA en DeepSeek hebben moeite om nuances te bewaren. beeld Trouw, Indy Broeren

Geef een vraag of opdracht – een zogeheten prompt – en AI-chatbots zoals ChatGPT of DeepSeek leveren binnen seconden een antwoord. Handig voor wie snel iets wil weten over een stad of een bekend persoon. Maar echt efficiënt zouden ze zijn wanneer ze wetenschappelijke artikelen of rapporten samenvatten. Dat kan studenten, onderzoekers en beleidsmakers uren werk besparen. Ideaal, toch?

Niet helemaal. Veel van die samenvattingen blijken onbetrouwbaar, aldus een studie die onlangs in het vakblad Royal Society Open Science werd gepubliceerd. Zes van de tien onderzochte chatbots slaan regelmatig de plank mis: ze overdrijven resultaten of laten belangrijke nuances weg.

De onderzoekers testten tien populaire taalmodellen, zoals ChatGPT, DeepSeek, Claude en LLaMA. Deze AI-tools kregen de opdracht om bijna 4900 wetenschappelijke teksten samen te vatten uit vakbladen als Nature, Science en The Lancet. Deze vergeleken de onderzoekers vervolgens met de originele teksten.

Nuance essentieel

De uitkomst: vooral ChatGPT, LLaMA en DeepSeek hadden moeite om nuances te bewaren. Ze overdreven resultaten in 26 tot 73 procent van de gevallen. Alleen Claude-modellen gaven betrouwbare informatie. Zo zette AI voorzichtig geschreven claims in de verleden tijd om naar stellige uitspraken in de tegenwoordige tijd. Zo werd: „De behandeling was effectief in dit onderzoek” bijvoorbeeld: „De behandeling is effectief”.

Juist zulke nuances zijn essentieel in de wetenschap, zegt hoofdonderzoeker Uwe Peters (Universiteit Utrecht). Hij illustreert dit met een ander voorbeeld: ChatGPT zou de zin ”Nederlandse tieners met obsessieve-compulsieve stoornis (OCD), een vorm van een dwangstoornis, hebben baat bij cognitieve gedragstherapie” kunnen generaliseren naar ”Mensen hebben baat bij cognitieve gedragstherapie”.

Dan vraag je het model toch gewoon om nauwkeuriger te zijn? Precies dat werkt averechts, zegt Peters. „Toen we expliciet vroegen om fouten te vermijden, gingen de modellen juist vaker overdrijven – soms zelfs bijna twee keer zo vaak.”

Duidelijke, zelfverzekerde antwoorden gaan ten koste van de nauwkeurigheid. beeld Trouw, Indy Broeren

Punten scoren

Volgens de onderzoekers zijn er twee hoofdredenen waarom AI-tools onnauwkeurig zijn. Ten eerste leren deze modellen van door mensen geschreven teksten, waarin vaak zelf al weinig genuanceerde conclusies staan. Peters: „AI-chatbots nemen deze menselijke fouten en vooroordelen mee in hun leerproces”.

Toch maken AI-tools bredere claims dan mensen, liefst vijf keer zo vaak. Dat ontdekten de onderzoekers toen ze de AI-samenvattingen vergeleken met die van mensen.

„AI-tools scoren punten met stellige uitspraken ten koste van de nauwkeurigheid”

Uwe Peters, hoofdonderzoeker Universiteit Utrecht

De tweede oorzaak heeft volgens Peters te maken met hoe AI-tools zijn ontworpen om met gebruikers te communiceren. Tijdens het trainen worden modellen bijgestuurd door menselijk gedrag, een proces genaamd ”reinforcement learning”. En waar houden mensen van? Duidelijke, zelfverzekerde antwoorden, zegt Peters. „AI-tools scoren als het ware punten met stellige uitspraken. En dat gaat ten koste van de nauwkeurigheid.”

Dat patroon zagen de onderzoekers ook terug in hun resultaten. Juist de nieuwste versies, zoals ChatGPT-4o en DeepSeek, die ontworpen zijn om behulpzaam en overtuigend te zijn, bleken de minst betrouwbare.

Gevaarlijke consequenties

Volgens Peters maken steeds meer onderzoekers, studenten en artsen gebruik van AI om snel overzicht te krijgen van wetenschappelijke literatuur. Hij verwijst naar een recente internationale enquête: bijna de helft van de 5000 ondervraagde onderzoekers gebruikt AI in hun werk. Zelfs meer dan de helft gelooft dat AI beter samenvat dan een mens.

Met een voorbeeld uit de geneeskunde benadrukt Peters het risico. „Zo’n dertig jaar terug werd een slaapmiddel, zolpidem, op de markt gebracht dat alleen op mannen was getest. Voor vrouwen bleek dezelfde dosering te hoog. Maar in de conclusie van de studie werd geen onderscheid in geslacht gemaakt, waardoor artsen het middel in dezelfde dosering voorschreven aan vrouwen.”

Het gevolg? ’s Ochtends had een groot aantal vrouwen nog te veel van het slaapmiddel in hun bloed, met gevaarlijke consequenties: hun rijvaardigheid was verminderd. Vergelijkbare problemen kunnen ontstaan als artsen zich baseren op onnauwkeurige samenvattingen die door AI zijn gegenereerd.

Claude betrouwbaar

Wie wetenschappelijke teksten wil laten samenvatten, kan volgens Peters het beste kiezen voor versies van de chatbot Claude. „Die trekken de meest betrouwbare conclusies, al zitten ze vaak achter een betaalmuur.”

Dat wil niet zeggen dat Claude op alle gebieden uitblinkt. Voor creatieve of verrassende ideeën kun je beter terecht bij ChatGPT of DeepSeek, zegt hij.

Ook subtiele trucs kunnen helpen. Zo kun je het model vragen: „Wil je deze studie in de verleden tijd samenvatten?” Dat geeft vaak een genuanceerder antwoord en voorkomt dat AI voorzichtige claims uit het verleden herschrijft tot stellige uitspraken in het heden.

Vond je dit artikel nuttig?

RD.nl in uw mailbox?

Ontvang onze wekelijkse nieuwsbrief om op de hoogte te blijven.

Hebt u een taalfout gezien? Mail naar redactie@rd.nl

Home

Krant

Media

Puzzels

Meer