De toekomst voorspellen met big data
De toekomst voorspellen is nog nooit zo eenvoudig geweest. ”Algoritme” is daarbij het toverwoord.
Op een druk plein in het centrum van Brussel staat een grote witte tent. Binnen zit een waarzegger, die voorbijgangers naar binnen lokt met de belofte gratis hun gedachten te lezen. Dat het gaat om opnames voor een nieuw televisieprogramma trekt de nog aarzelende passanten over de drempel.
„Je hebt vorige maand 300 euro aan kleding uitgegeven”, houdt hij een jongedame voor. „Pijnlijk”, is haar verbaasde reactie. Even later gaat het over bankrekeningnummers, de namen van goede vrienden, banksaldo’s, hobby’s en de aankoopsom van het nieuwe huis. Moeiteloos somt de waarzegger alles op.
Het is gelukkig geen duistere magie waaraan de bezoekers zich blootstellen. Als het doek valt, blijkt in een andere ruimte van de tent een drietal mannen te zitten. Vanachter hun laptop struinen ze internet af. Zodra een klant zijn of haar naam noemt, gaan de drie online op zoek naar informatie over de argeloze bezoeker. Die geven ze door aan de ‘waarzegger’.
Het verhaal is een promotiefilmpje van de Belgische financiële sector om mensen bewust te maken wat ze allemaal op internet posten. Omdat kwaadwillenden misbruik kunnen maken van persoonlijke gegevens. Deze waarzegger hield het nog bij feiten die deze mensen zelf ook wisten, maar er zijn ook al bedrijven en organisaties die meer over mensen weten dan zijzelf.
Zwanger
Een bekend verhaal is dat een Amerikaanse vader de zwangerschap van zijn tienerdochter ontdekte nadat een bedrijf haar geadresseerd reclamedrukwerk met babyspulletjes opstuurde. Dat kan zomaar gebeuren nadat het meisje zulke spullen opgezocht had het internet.
Op het web gaan geruchten dat ook supermarktketen Albert Heijn zwangerschappen kan voorspellen. Doordat ze het aankoopgedrag van een vrouw kunnen vergelijken met dat van honderdduizenden andere Nederlanders. Daaruit kan bijvoorbeeld blijken dat vrouwen negen maanden voordat ze pampers kopen, juist veel geld aan chocolade besteden.
In theorie zou dat kunnen, maar in dit geval is het „klinkklare onzin”, weerspreekt een woordvoerder van Albert Heijn dat gerucht. „Zoiets mogen wij helemaal niet doen. Het College bescherming persoonsgegevens ziet daar op toe. Wij gebruiken gegevens alleen om persoonlijke aanbiedingen te doen. Iemand die vaak pindakaas koopt, kan dan een aanbieding voor pindakaas krijgen. En soms doen we de suggestie om een bruin bolletje te proberen, omdat pindakaas daar lekker op is. Maar wij analyseren de gegevens niet.”
Combineren
De supermarktketen weet dus niet wie er zwanger is. Hij is enkel op de hoogte van het boodschappenlijstje van de klant. Daarmee weet hij nog niet wie die mensen zijn, waar ze wonen, wat ze studeren en hoe ze reizen. Wanneer de gegevens –van gemeente, school en NS– met elkaar gecombineerd zouden worden, ontstaat er een persoonlijk profiel. De organisatie die zulke gegevens in handen heeft, kan gericht adverteren.
Voor bedrijven is dat waardevol. Zo kan de autodealer zijn klant een scherpe aanbieding doen, juist op het moment dat de auto het bijna gaat begeven. ‘Toevallig’ is het dan ook nog eens een auto die de klant mooi vindt en precies binnen het budget past.
Zo’n aanbod doen is complex en simpel tegelijk. Geef de computer zo veel mogelijk informatie over duizend mensen die net een auto kochten. Geef de computer daarna ook informatie van duizend mensen die geen behoefte hebben aan een nieuwe auto. De computer vergelijkt de twee groepen met elkaar en leert zo zichzelf aan welke factoren bepalen of mensen een nieuwe auto willen kopen.
Misdaad als aardbeving
Hoe meer informatiebronnen er beschikbaar zijn, hoe beter de analyse en voorspelling. In verschillende grote steden in de Verenigde Staten hangen daarom overal geluidsmeters en camera’s. Zo krijgt de politie allerlei soorten informatie binnen over opstootjes en rellen. De computer kan dan voorspellen waar een misdaad plaats gaat vinden. En niet alleen de plek staat vast, ook de tijd en de mogelijke slachtoffers zijn door de software al in kaart gebracht.
Misdaadlocaties zijn te vergelijken met plaatsen waar zich een aardbeving voordoet, claimen data-analisten. Met ingewikkelde wiskundige modellen kunnen de experts op basis van het verleden berekenen waar een misdrijf ongeveer zal worden gepleegd. In het gedrag van gangsters, veelplegers, inbrekers en ander gespuis valt een patroon te ontdekken.
De politie kan daarmee op individueel niveau voorspellen wie een misdaad gaat plegen. Zo’n persoon of groep krijgt dan een gesprek met de gezagsdragers ter plaatse. Daarin waarschuwen ze de potentiële misdadigers dat ze streng gestraft zullen worden als ze in de fout gaan.
Datasurveillance
Ook dichter bij huis, onder andere in Amsterdam, is de politie bezig met het voorspellen van woninginbraken, straatroof en overvallen. Ze is nog niet zo ver als de Amerikanen, maar „we weten waar en wanneer we ter plaatse moeten zijn”, aldus een woordvoerder van de politie-eenheid Amsterdam. In het Tijdschrift voor de Politie stellen analisten dat ze 40 procent van de woninginbraken en 60 procent van de straatroven juist voorspellen met het Criminaliteit Anticipatie Systeem (CAS). „In buurten met het CAS-systeem werken we met minder agenten dan in een vergelijkbare wijk. Je zou verwachten dat de criminaliteit dan zou stijgen, maar het tegendeel is het geval.”
Tweewekelijks bepaalt de computer in welke wijken de politie extra moet gaan surveilleren. Het systeem houdt rekening met misdaden in het verleden, de afstand van een plek tot bekende verdachten en of een plaats dicht bij de snelweg ligt. Ook gebruikt de politie enorme datasets van het Centraal Bureau voor de Statistiek. Het CBS weet per postcodegebied onder andere hoeveel werklozen er zijn, hoeveel allochtonen er wonen, wat het gemiddelde inkomen is, wat een huis kost en welke voorzieningen er in de buurt zijn. Allemaal factoren die meespelen voor de politie in de beoordeling van mogelijke toekomstige criminaliteit in een wijk.
Het is de grote wens van de politie om ook rekening te gaan houden met realtime informatiebronnen, zoals de weersomstandigheden en de uitslag van een voetbalwedstrijd. Zo kan de handhavende macht de voorspelbaarheid van criminaliteit verhogen. Sociale media zegt de politie met dit systeem nog niet te gebruiken.
Burgerrechtenorganisatie Bits of Freedom is niet enthousiast over het nieuwe politiesysteem. „Niet strafbaar gedrag maar afwijkend gedrag wordt de basis van het politiewerk”, verklaarde Bits of Freedom vorige maand tijdens de uitreiking van een ‘prijs’ voor organisaties die de privacy schenden.
Bestelling al onderweg
Webwinkel Amazon is bij uitstek een bedrijf dat gebruikersdata al wel op hetzelfde moment analyseert. De webshop vroeg onlangs een patent aan voor ”anticiperend verzenden”. Daarmee wil de webwinkel –met een jaarlijkse omzet van 89 miljard dollar– bestellingen die nog niet zijn gedaan, wel alvast versturen. Het computersysteem kan voorspellen welke producten een klant wil gaan kopen. Het weet dat aan de hand van vorige aankopen, zoektermen en wensenlijstjes en ook de tijd dat de consument met zijn cursor boven een bepaald product zweeft.
Amazon hoopt hiermee de aanlevertijden van zijn producten te verkorten. De webwinkel heeft al eerder laten weten dat het zijn doel is om bestellingen dezelfde dag nog af te leveren. Daarvoor overweegt het bedrijf ook de inzet van onbemande drones.
Data ontdekt
Big data is ”hip en happening”. Niet alleen talloze commerciële bedrijven storten zich op de nieuwe trend. Nederlandse gemeenten slaan ook aan het experimenteren. De gemeente Zaanstad bijvoorbeeld zoekt naar manieren om huiselijk geweld op te sporen. Met veel gegevens kan een beter beeld van een bepaalde wijk worden geschetst. Afgesloten data-eilandjes van politie en gemeente werden gecombineerd. Maar ook de GGD, een ggz-instelling en een aantal scholen leverden informatie aan.
Daarmee weet het systeem hoeveel lage inkomens, GGZ-zorg, eenoudergezinnen, echtscheidingen, gedragsproblemen bij kinderen en alcoholverslaving in een wijk voor komt. Allerlei gegevens die mogelijk de kans op huiselijk geweld verhogen.
Met de huidige privacywetgeving mogen analyses niet op het niveau van individuele huishoudens worden gemaakt. De gemeente Zaanstad garandeert dat informatie goed beveiligd is en alleen herleidbaar is tot een straat of buurt.
„Het mooiste zou zijn als we uiteindelijk bijvoorbeeld een verband kunnen leggen tussen een voetbalwedstrijd of een Twitterpiek en huiselijk geweld”, meent een woordvoerder van Big Data Company, het bedrijf dat met de gemeente Zaanstad het experiment heeft opgezet. „Dan krijgen we steeds meer inzicht in de problematiek en kunnen we uiteindelijk gaan voorspellen waar dit geweld in de toekomst gaat gebeuren.”
Dit is het tweede artikel in een serie over big data.
Vrijwel elk bedrijf is met data-analyse bezig
Ook de fietsenmaker op de hoek kan volgens Maurice op het Veld, partner bij KPMG IT Advies en verantwoordelijk voor data-analyse bij KPMG Nederland, in principe profiteren van data-analyse. De ambachtsman kan zelfs profiteren van de voorspellingen die hij kan doen wanneer hij zijn gegevens analyseert. „Mijn auto geeft zelf een signaal wanneer ik voor onderhoud naar de garage moet. Zo hoef ik niet meer elke 10.000 kilometer naar de garage en sta ik hopelijk ook niet meer langs de kant van de weg. Een fietsenmaker zou, als hij genoeg data verzamelt met sociale media of sensors in de elektrische fietsen, kunnen inschatten wanneer onderhoud nodig is en zijn klant op tijd terugroepen naar de werkplaats en aan klantenbinding werken.”
„Elk bedrijf is met data-analyse bezig, het ene wellicht wat innovatiever dan het andere”, stelt Op het Veld op basis van een onlangs gepubliceerd KPMG-onderzoek onder ruim 800 bedrijven wereldwijd. KPMG werkt bijvoorbeeld aan een project waarmee hij aan de hand van wifisignalen van mobiele telefoons wordt gekeken hoe mensen zich door een winkel bewegen. „We kunnen zien hoe ze lopen, waar ze staan en wat ze doen – natuurlijk wel anoniem.”
Dat maakt inzichtelijk hoe klanten zich gedragen in winkels. Bedrijven zoals tuincentra en meubelzaken kunnen zo zien wanneer het druk wordt bij de kassa’s. Op die manier kunnen wachtrijen in piektijden tot wel 30 procent worden gereduceerd. Ook kan er bijvoorbeeld een verband worden gelegd tussen de drukte in de winkel en de omzet. Hier kan de ondernemer zijn winkelformule of aanbiedingen op aanpassen.
Maar om met die informatie vervolgens geld te verdienen, vinden ondernemers nog lastig. Dat wijst het onlangs gepubliceerde KMPG onderzoek onder ruim 800 bedrijven wereldwijd uit. Slechts één op de vijf is zeer tevreden over de nieuwe inzichten die data-analyse hun biedt. Op het Veld: „Ondernemers twijfelen aan de betrouwbaarheid van de data en missen vaak de juiste mensen om de data te analyseren en er de juiste conclusies uit kunnen trekken.”
Onschuldige mensen de dupe?
Voorzichtigheid is geboden bij het CAS-systeem van de politie dat voorspelt wie waar wanneer een misdaad gaat plegen, meent KPMG’er Maurice op het Veld. „We moeten uitkijken dat niet onschuldige mensen de dupe worden.
„Dit is meer dan een technisch snufje alleen, dit heeft ook sociale en emotionele impact”, meent Op het Veld. Hij vreest dat de politie met dit systeem ook veel ”false positives” krijgt. Conclusies die het systeem trekt, maar die niet blijken te kloppen.
„Ik denk hierbij meteen aan de drie mannen die opgepakt werden omdat ze hun auto hadden geparkeerd voor het restaurant waar de Rotterdamse burgemeester Aboutaleb aan het eten was.” Volgens NOS-bronnen stond de auto met Belgisch kenteken als verdacht gesignaleerd. Toen die auto werd geparkeerd in de buurt van Aboutaleb was dat in het licht van de recente aanslagen in Parijs reden om een arrestatieteam in te zetten.