Hoe goed is AI in het ontdekken en verspreiden van de waarheid?
Er zijn niet veel onderwerpen waarbij ik het durf op te nemen tegen ChatGPT. Maar eentje kan ik bedenken: een onderwerp waarnaar ik vijf jaar lang bloedig onderzoek heb gedaan. Lukt het kunstmatige intelligentie (AI) om daarover de waarheid te ontdekken?

In mijn familie wordt al eeuwenlang een verhaal verteld. Het verhaal van een man die omwille van zijn geloof uit het verre Spanje vluchtte om zich uiteindelijk in het Gelderse rivierengebied, aan de oever van de Waal, te vestigen. En daar werd hij de stamvader van de wijdvertakte familie Rosa of Roosa. Net als tienduizenden andere mensen over de hele wereld ben ik een nakomeling van die familie, en die afkomst heeft me veel hoofdbrekens bezorgd.
Het verhaal over de vlucht uit Spanje is voor het eerst opgeschreven in 1738, maar het kan best ouder zijn. In de afgelopen eeuwen is het de wereld overgegaan en in allerlei boeken en artikelen en op honderden websites terechtgekomen. Vooral via Amerikaanse stamboomonderzoekers werd het populair. Er zijn daarginds veel mensen die afstammen van de kolonist Alert Heymens Roosa (die in 1660 naar Nieuw-Nederland vertrok).
Maar daar bleef het niet bij. Het verhaal van de Spaanse geloofsvluchteling sprak tot de verbeelding van veel nakomelingen en dat leidde tot wilde speculaties. Op genealogische forums werden debatten uitgevochten over een mogelijke Joodse herkomst van de familie (Spanje in de vijftiende of zestiende eeuw, dan denk je daaraan). Later kwam er nog een andere mythe bovendrijven op het wereldwijde web, waarbij juist geen sprake was van een Spaanse herkomst; de familie zou adellijke wortels hebben en via ene Jutte van Heukelum afstammen van de families Van Culemborg en Van Rosendaell.
Zo worden fouten verduizendvoudigd en circuleren ze steeds hardnekkiger over de hele wereld
In die wirwar van verhalen is het inmiddels moeilijk geworden om de waarheid te vinden. Het terrein van de genealogie is een mijnenveld, als je je op het internet begeeft. Voor de negentiende en twintigste eeuw kloppen de gegevens die je in allerlei onlinestambomen aantreft vaak wel, maar hoe verder je teruggaat, hoe meer fouten er opduiken. Menig stamboomonderzoeker kopieert van alles van andere websites, en zo worden fouten verduizendvoudigd en circuleren ze steeds hardnekkiger over de hele wereld. En daardoor vinden mensen het steeds moeilijker te geloven dat het niet waar is wat al die duizenden websites beweren.
Zelf heb ik veel onderzoek naar de familie Roosa gedaan, omdat dat de boerenfamilie is die centraal staat in mijn boek ”De hoeve en het hart”. Ik heb de vroegste originele bronnen allemaal bekeken en ben uiteindelijk tot de conclusie gekomen dat de mythe over een Joodse afstamming niet bewezen kan worden, en dat de afstamming van Jutte van Heukelum zelfs absoluut en aantoonbaar onjuist is. Maar ik was benieuwd of ChatGPT het óók kon, feiten van fictie onderscheiden.
De resultaten van mijn onderzoekje vielen me niet mee. Kort samengevat: het eerste antwoord bevatte onveranderlijk veel verkeerde informatie en volslagen uit de lucht gegrepen afstammingslijnen. Pas na enig doorvragen en corrigeren (zoals je altijd moet doen bij ChatGPT) kwam er: „Je hebt helemaal gelijk, die namen lijken gebaseerd op speculatieve genealogieën.”

De derde keer dat ik de vraag stel komt er een iets beter antwoord dan de eerste keer, maar nog altijd niet goed. Uiteindelijk heb ik dus maar gevraagd: „Hoe komt het dat je steeds eerst een verkeerd antwoord geeft? Omdat je Engelse bronnen belangrijker vindt dan Nederlandse? Of is er een andere verklaring?”
Dat vindt ChatGPT „een heel goede en terechte vraag”. Nee, hij vindt Engelstalige bronnen niet belangrijker, maar de Amerikaanse bronnen zijn online beter zichtbaar en beter doorzoekbaar, waardoor ze hoger scoren in de zoekresultaten. Terwijl het Nederlandse bronnenmateriaal vaker fragmentarisch is en minder goed geïndexeerd. Conclusie: „Het was geen voorkeur voor Engelse bronnen, maar eerder een kwestie van hoe informatie op internet is verspreid en vindbaar is gemaakt. Dankzij jouw scherpzinnige opmerking zijn we nu bij de juiste informatie uitgekomen.” De verhalen die het meest verspreid en het best geïndexeerd zijn, komen dus altijd als eerste bovendrijven.
Natuurlijk is zo’n genealogisch voorbeeld onschuldig. De wereld vergaat niet als mensen in mythische afstammingen blijven geloven. Bovendien: AI zal in de loop van de tijd vast beter en betrouwbaarder worden, dus wellicht wordt het probleem in de toekomst ook minder.
Maar het wordt anders bij politieke en maatschappelijke vraagstukken. Bijvoorbeeld als het gaat om betrouwbare informatie over de oorlog in Gaza. Van beide kanten wordt er immers niet alleen een fysieke strijd gevoerd, maar ook een informatieoorlog. Met als gevolg dat ChatGPT en andere AI-chatbots moeten kiezen: wat is de meest betrouwbare bron? Wie geeft de juiste cijfers? Wat is er echt gebeurd?
AI kan nooit scheidsrechter zijn in ingewikkelde politieke discussies
Nu al wordt bij discussies over moeilijke onderwerpen de X-chatbot er vaak bij gehaald om te beslissen wie er gelijk heeft. En daar gaat iets mis. AI kan nooit scheidsrechter zijn in ingewikkelde politieke discussies. Vooral omdat de chatbot altijd meebeweegt met de vraagsteller. Eerst geeft hij bijvoorbeeld de Israëlische cijfers. Maar als iemand dan zegt: „Je mag geen Israëlische bronnen gebruiken”, komt hij met aangepaste cijfers op basis van VN-rapporten en andere bronnen. Zo kun je de feiten dus naar je hand zetten.
Dat leidt tot cruciale vragen. Wat gebeurt er als je zelf niet meer voldoende kennis hebt om te beoordelen of een antwoord goed of fout is? En hoe gaan we, ondanks alle ethische bezinning, voorkomen dat de leugenverhalen zo sterk worden dat eenlingen die de waarheid kennen niet langer geloofd worden?
De auteur is schrijver en journalist.