Big data verandert de maatschappij
Alles wil hij van hen weten. Professor Pentland kent de inwoners van het dorp Trento in de Italiaanse Alpen beter dan zij zichzelf kennen. Daarvoor verzamelt de hoogleraar gegevens van mobiele telefoons, creditcards, afvalstromen, busroutes, gezondheidszorg, enzovoort. Het doel: een samenleving maken die veel beter functioneert dan ze nu doet.
Internet barst uit zijn voegen
Prof. Alex Sandy Pentland, verbonden aan het Massachusetts Institute of Technology (VS), kan het karakter van de inwoners van Trento inschatten aan de hand van de gegevens van de mobiele telefoon van zijn proefpersoon. Hij kijkt hoe mensen hun contactpersonen opslaan, hoelang het duurt voordat ze een sms beantwoorden, hoeveel kilometer per dag ze reizen en hoeveel telefoongesprekken ze beginnen. In totaal zijn er 36 van zulke indicatoren. Daarmee kan Pentland in 63 procent van de gevallen de persoonlijkheid van zijn proefpersoon correct inschatten. Dat weet hij door een computerprogramma los te laten op de enorme hoeveelheid data die een mobiele telefoon prijsgeeft. Pentland hoeft niets te weten over de inhoud van berichten, maar kijkt alleen naar de zogenoemde metadata. Gegevens zoals wie naar wie belt en hoelang dat gebeurt vanaf een bepaalde locatie.
Het grote voordeel van zulke data is volgens Pentland dat gemeten wordt wat mensen daadwerkelijk doen, en niet wat ze zéggen te doen op sociale media. Hij weet waar en wanneer de kinderen van school worden gehaald, hoe snel iemand rijdt en hoeveel tijd mensen spenderen achter het aanrecht.
Door allerlei gegevens te combineren die schijnbaar niets met elkaar te maken hebben, krijgt de hoogleraar verrassende resultaten. Zo kan blijken dat de gemeente het beste kan bezuinigen op de uitgaven voor gezondheidszorg door te investeren in de waterafvoer. Dit omdat er door een nat wegdek meer verkeersslachtoffers vallen, die vervolgens in het ziekenhuis behandeld moeten worden en daardoor voor torenhoge zorgkosten zorgen. Zo hoopt de onderzoeker samen met zijn collega-data-analisten de samenleving veel beter in te richten.
Effectief
Wat in het kleine Trento van Pentland plaatsvindt, gebeurt vandaag de dag ook in het groot. „De laatste twee jaar heeft de mensheid tien keer meer data geproduceerd dan in de rest van de wereldgeschiedenis bij elkaar”, beweert Sander Klous. Hij is sinds anderhalf jaar hoogleraar big data ecosystemen aan de Universiteit van Amsterdam. Een leerstoel die voor zijn komst niet bestond. „Big data is een logische vervolgstap nu internet volwassen is geworden.” Mensen, computers en ‘dingen’ communiceren, rekenen en luisteren en produceren daarmee gigantische hoeveelheden gegevens.
Wanneer je alles kunt meten, zou je dan de samenleving precies zo kunnen ontwerpen als je wilt? Klous: „Nooit voor 100 procent, maar het kan wel een stuk effectiever. Denk aan complexe projecten zoals de Noord/Zuidlijn in Amsterdam. Bestuurders namen daar een grote gok door een keuze te maken die tegenwoordig waarschijnlijk een stuk beter zou kunnen worden onderbouwd met behulp van data-analyse. We hebben gezien dat afwegingen van belangen uit verschillende delen van de maatschappij risico’s meebrengen die zomaar leiden tot miljoenen extra kosten. Big data kan helpen bij het inzichtelijk maken van dit soort effecten. Niet alleen financieel, maar bijvoorbeeld ook bij de beslissing of het voordeel om sneller op je werk te zijn wel opweegt tegen de impact daarvan op het milieu.”
Om een optimale beslissing te kunnen nemen, heeft de computer zo veel mogelijk soorten data nodig. De tijd dat bedrijven alleen hun belangrijkste klantgegevens in een database zetten, is voorbij. Want een slimme onderneming kent nu niet alleen de naam en adresgegevens van de klant, maar ook diens betaalhistorie, interesses en hoe vaak hij op vakantie gaat. „Big data is pas bruikbaar wanneer je die gegevens op de juiste manier kunt gebruiken.” Bijvoorbeeld door klantprofielen te bouwen. En daarvoor moet je de gegevens kunnen analyseren.
„We maken steeds meer keuzes op basis van analyses in plaats van meningen. Maar ik weet uit eigen ervaring dat het moeilijkste van een analyse is om te beoordelen of die klopt.” Klous illustreert dat met een voorbeeld: „Mensen met een reddingsvest blijken vaker te verdrinken dan mensen die zo’n vest niet aanhebben. Draag dus nooit een reddingsvest, zou het advies moeten zijn. Iedereen weet dat zoiets onzin is. Mensen dragen een reddingsvest wanneer ze zich in een gevaarlijke situatie bevinden en verdrinken om die reden vaker dan mensen zonder reddingsvest.”
Politie
„De maatschappij wordt wel steeds meer van data afhankelijk”, weet Klous. „Computers zijn zo geprogrammeerd dat ze zelfstandig kunnen leren en de enorme hoeveelheden data kunnen analyseren en daar beslissingen op kunnen bouwen. Soms gaat dat fout. De ”Flash Crash” van 6 mei 2010 is daar een voorbeeld van. Door automatisch handelende systemen gingen de koersen op de Amerikaanse beurs in enkele minuten met 30 procent onderuit.”
Foto’s van Facebook en tweets van Twitter blijken in grote hoeveelheden een voorspellende waarde te hebben doordat mensen bepaalde patronen in hun gedrag vertonen. „Mensen zijn voorspelbaarder dan deeltjes”, is de beroemd geworden uitspraak van Stephan Wolfram, de bouwer van de gelijknamige zoekmachine die tevens evenals Klous jarenlang onderzoek deed naar het higgsdeeltje in de deeltjesversneller CERN.
In Jacksonville, de grootste stad in de Amerikaanse staat Florida, rijdt de politie tegenwoordig rond met laptops. De software op die computers kan op basis van het verleden tot op 200 meter nauwkeurig voorspellen waar en wanneer de kans op een inbraak groot is. Zo kan de politie gerichter surveilleren.
Kindermisbruik opsporen
Ook dichter bij huis zijn bigdata-analyses populair. De GGD’s in Amsterdam en Eindhoven doen proeven om kindermisbruik in een vroeg stadium op te sporen. Dat doen ze door alle aantekeningen in kinddossiers te doorzoeken. Zo’n 80 procent van de zorgdata bestaat uit gegevens die niet aan elkaar gekoppeld zijn. Zoals aantekeningen van artsen, een vragenlijst, een bijlage, een mailtje van een ouder.
Deze manier om vermeend misbruik op te sporen, is volgens de datawetenschappers van het Utrechtse bedrijf Ynformed effectief omdat het over informatie gaat van 13.000 kinderen, over wie in totaal 200.000 teksten zijn geschreven.
Brein nabouwen
Trento-onderzoeker Pentland loopt voorop in het onderzoeksveld sociale natuurkunde. Hij zoekt manieren om menselijk gedrag beter te begrijpen met big data. Net zoals Google Grieptrends. Alle soorten data die Google krijgt aangeleverd, hoe irrelevant ze ook lijken, worden op één hoop gegooid. „De computer is met die informatie meestal beter in staat om te voorspellen hoe een griepvirus zich verspreidt dan een heel team van wetenschappers van de Wereldgezondheidsorganisatie”, aldus Klous. Google is daarvoor constant op zoek naar trends in menselijk gedrag.
„In Silicon Valley probeert de start-up Numenta de neocortex, het analytische gedeelte van het menselijk brein, na te bouwen. IBM ontwikkelde al een computer die in staat was om de populaire Amerikaanse wetenschapsquiz Jeopardy! te winnen door gebruik te maken van ”cognitive computing”. Met ander woorden: dit apparaat, dat de naam Watson draagt, leert zoals wij leren en ontwikkelt zichzelf. Het enige wat de computer daarvoor nodig heeft, is kennis in de vorm van grote datasets. Zo krijgen computers steeds meer menselijke karaktertrekken.”
Klous vervolgt: „De beste diagnose krijgt een patiënt tegenwoordig nog als het advies van de arts en de adviezen van Watson verstandig worden gecombineerd. Maar al binnen een jaar of tien kan Watson veel betere diagnoses stellen dan de dokter. De vraag is dan of je de robot op zijn blikkerige ogen wilt geloven terwijl de dokter iets anders zegt.”
Zwartrijden
De ontwikkeling van kunstmatige intelligentie zal niet ongemerkt aan ons voorbijgaan, denkt Klous. Al was het alleen maar omdat er steeds minder werkgelegenheid is doordat de computer meer en meer werk uit handen neemt. Met de komst van systemen zoals Watson kunnen zelfs de ‘hogere’ beroepsgroepen zoals artsen en advocaten op termijn verdwijnen, meent hij. „Dat is niet eens meer een voorspelling, dat is een trend die al veertig jaar gaande is. Na elke crisis is het voor mensen moeilijker om vervangend werk te vinden. Omdat hun vorige baan verdwenen is en ze zich om moeten laten scholen.”
Door data komen we in een tijdperk waarin systemen steeds zelfstandiger worden. Een automatisch vliegend vliegtuig is al tien jaar veiliger dan een toestel met piloot, dus wanneer verdwijnt ook dat beroep? Door de opkomst van het ”internet der dingen” gaan apparaten voornamelijk met elkaar communiceren, parallel aan gesprekken tussen mensen onderling of communicatie tussen mensen en machines.
„In de wereld van vandaag heeft niet meer de wetgevende overheid, maar de systeemontwikkelaar de macht in handen om het menselijk gedrag in een richting te sturen wanneer deze ontwikkeling doorgaat”, vreest Klous. „Vroeger kon je ervoor kiezen om zwart te rijden in de trein. Dan kreeg je weliswaar een boete als je gepakt werd, maar je had de keuze om niet te betalen. Nu kom je de trein niet eens meer binnen zonder OV-chipkaart. De systeemontwikkelaars bepalen hoe wij reizen en hoe we lopen. Het systeem is dwingend. Maar zelfs als dat niet zo is, beïnvloeden systemen ons gedrag. Hoeveel mensen zijn al de sloot in gereden omdat hun navigatiesysteem zei dat ze rechtsaf moesten slaan? En in hoeverre wil ik mij laten leiden door mijn fitness-app die zegt dat het tijd is om te gaan hardlopen?”
Razzia
Klous is niet alleen hoogleraar big data geworden omdat hij zo verrukt is vanwege alle nieuwe ontwikkelingen en mogelijkheden. Hij ziet dat er nogal wat schort aan de manier waarop bedrijven en overheden met data omgaan. „Een van de voornaamste redenen waarom ik deze leerstoel bekleed, is omdat ik wil dat data-analyse op een verantwoorde manier plaatsvindt. Mij is vroeger met de paplepel ingegoten dat je je gegevens niet aan iedereen moet toevertrouwen. De razzia’s in de Tweede Wereldoorlog waren mogelijk omdat Nederland zo’n geavanceerd registratiesysteem had. Gegevens kunnen heel snel in verkeerde handen vallen of organisaties kunnen er dingen mee doen die je niet wilt. De informatie die je prijsgeeft, is vaak al snel te herleiden tot jouw persoon.”
Hoe zorgen we ervoor dat de discussie over de ethische aspecten goed wordt gevoerd? Dat is een van de belangrijkste vragen waar de hoogleraar zich mee bezighoudt. „De maatschappij is prima in staat om de discussie over privacy te voeren, maar het staat of valt met de transparantie van de bedrijven.” Dertig procent van de klanten wilde een andere bank opzoeken toen ING bekendmaakte een bigdataproef te gaan doen. De klant- en transactiegegevens van de bank zouden verkocht worden aan bedrijven, zodat zij in ruil daarvoor klanten een op maat gesneden advertentie konden bieden. Dat stuitte op zo veel maatschappelijke weerstand dat ING het plan introk.
Een soortgelijke proef van verzekeraar Achmea heeft de publieke opinie wel overleefd, ondanks maatschappelijke reuring. De polisaanbieder van onder meer autoverzekeringen biedt premiekorting aan in ruil voor gegevens over het rijgedrag van zijn klanten. Een ingebouwd kastje stuurt gegevens over het rijgedrag door naar de verzekeraar. Klous: „Het verwachte gevolg is dat mensen hun rijgedrag aan gaan passen om in aanmerking te komen voor de korting. Achmea heeft minder schademeldingen, de bestuurder loopt minder risico en de maatschappij krijgt veiliger verkeer. Een win-winsituatie.” Ondertussen weet Achmea precies waar zijn klanten rijden, hoe snel ze optrekken en remmen, en waar ongelukken gebeuren en hoeveel schade daarbij komt kijken. Is het niet vervelend dat een verzekeraar alles van je weet?
Informatie beschikbaar stellen moet altijd een bewuste eigen keuze zijn, vindt Klous. „Maar dat wordt wel steeds spannender. Ik werd onlangs via Facebook benaderd voor een reünie van de lagere school. Zonder Facebook was ik nooit uitgenodigd.”
Voor ‘gratis’ diensten van Google en Facebook zijn we als gebruikers sowieso niet de klant, want klanten betalen. Nee, we zijn het product. Als ze een goed product willen leveren, moeten ze ons tevreden houden. Vandaar dat Google en Facebook zo veel moeite voor ons doen. „Het is nog steeds schimmig wat zij met onze data doen, maar ze ontspringen de dans omdat ze te groot zijn om aangepakt te worden en een monopoliepositie hebben. Toen WhatsApp vorig jaar werd overgenomen door Facebook vreesden gebruikers voor hun privacy. Mensen stapten massaal over naar Telegram, een Russische alternatieve chatdienst die privacyvriendelijker zou zijn. Inmiddels gebruiken verreweg de meeste mensen weer WhatsApp, want daar zitten nu eenmaal de meeste andere mensen.”
Google bepaalt
Door het wereldwijde open internet is de illusie ontstaan dat mensen neutrale informatie tot hun beschikking hebben, betoogt Evgeny Morozov in zijn boek ”The Net Delusion”. Volgens hem wordt onze blik in werkelijkheid bepaald door bedrijven zoals de zoekmachine Google, die zoekresultaten laat zien die aansluiten bij de interesses van de gebruiker. Zo zal een autoliefhebber bij de zoekterm ”kever” auto’s als resultaat krijgen, terwijl een dierenliefhebber een insect op zijn scherm ziet.
„Gekleurde informatie is zo oud als de boekdrukkunst, maar tegenwoordig hebben we de illusie dat alles toegankelijk is, en dat maakt het extra risicovol”, stelt Klous. Want Google is niet het enige filter. „De zorgverzekeraar biedt je stoppen-met-rokenadvertenties aan, en op Facebook zie je alleen wat jouw vrienden leuk en interessant vinden. Een mening die waarschijnlijk al aansluit bij je eigen opvattingen. Zo ontstaan allemaal visies op de werkelijkheid naast elkaar zonder dat je het doorhebt.
De ontwikkeling van big data houd je niet tegen, ze gebeurt gewoon”, meent Klous. „Internet is volwassen geworden, en daarop manifesteren zich beursgenoteerde miljoenenbedrijven. Het heeft ook geen zin om bijvoorbeeld de ontwikkeling van taal niet te accepteren omdat er scheldwoorden tussen zitten. Taal ontwikkelt zich nu eenmaal, net als internet. De vraag is hoe we daar op de goede manier mee omgaan.”
serie: De impact van big data in de maatschappij. Dit is het eerste deel van een serie over big data.
Wat is big data?
Het geven van een definitie van big data is niet eenvoudig. Het ligt er maar net aan wie je het vraagt.
In totaal zijn er zes typerende ”v’s” in omloop. Over de volgende drie is iedereen het eens.
Volume
Het gaat om gigantische hoeveelheden data.
Variety
Het betreft allerlei soorten data uit verschillende bronnen. E-mails, foto’s, video’s, bewakingscamera’s, teksten, geluidsopnames, enzovoort.
Velocity
De data komen snel en massaal binnen. Op grond daarvan worden direct beslissingen gemaakt.
Over de vierde component, ”veracity” (waarheidsgetrouwheid), is ook bijna iedereen het eens. Daarbij gaat het om de waarheidsgetrouwheid van informatie.