Consument

Onlinecursus: Tekst opdelven en analyseren

Graven in grote hoeveelheden tekst, dat zou een journalist op het lijf geschreven moeten zijn. Maar de cursus ”Tekst opdelven en analyseren” blijkt vooral hogere wiskunde.

Pieter Beens
25 January 2021 18:15
beeld Pieter Beens
beeld Pieter Beens

Bayesiaanse schattingen en interferentie, probabilistische latente semantische analyse, clustering bias. De onlinecursus ”Text Mining and Analytics” van de universiteit van Illinois is nog maar koud begonnen of professor ChengXiang Zhai slaat me met de meest exotische termen om de oren. Nu durf ik best te beweren dat ik een behoorlijke woordenschat heb, maar die gaat me vandaag niet redden. Want achter die onbevattelijke termen ligt een voor mij nog veel ondoorgrondelijker wereld vol algoritmen, computercodes, kansberekeningen en syntagmatische relaties. Hogere wiskunde dus. Letterlijk ook, want deze cursus mag dan om tekst draaien, wie zijn wiskunde niet beheerst kan maar beter z’n biezen pakken. Daar zit ik dan, op een regenachtige middag in januari. Ploeterend om materie te doorgronden waarvoor ik niet in de wieg gelegd ben.

M’n interesse voor de cursus ”Text Mining and Analytics” wordt gewekt tijdens een masterclass onderzoeksjournalistiek. Met twee andere freelancejournalisten bijt ik me zes maanden lang vast in een onderzoek naar een actueel thema. Daarbij passeren verschillende mogelijkheden om informatie op te diepen de revue. Een ervan bestaat uit het doorspitten van de eindeloze stroom tekst die internetgebruikers dag in, dag uit produceren – op sociale media, in blogs, op nieuwswebsites en in alle mogelijke soorten documenten. Die een voor een uitkammen is onbegonnen werk. ”Text mining” is dan een handige oplossing. Daarbij laat je immers technologie en algoritmen los op een ontembare stroom gegevens om zo interessante aanknopingspunten te vinden die je verder kunnen helpen. Maar waar begin je?

Op coursera.org. Die website biedt namelijk honderden cursussen, die variëren van geesteswetenschappen tot informatietechnologie en van persoonlijke ontwikkeling tot diergezondheid. Hobbyisten en professionals van over de hele wereld gebruiken Coursera om hun kennis te verrijken of competenties naar een hoger niveau te brengen. Leren gebeurt eenvoudig op eigen tempo vanachter de computer of vanuit de luie stoel. Wie wil kan zijn opleidingstraject bovendien afsluiten met een certificaat of heus diploma.

Tweederangs zijn de cursussen zeker niet. Ze worden namelijk aangeboden door gerenommeerde instellingen, zoals de John Hopkins University, de Politecnico di Milano en –dichter bij huis– de Universiteit van Amsterdam. Het concept is niet nieuw. Coursera.org is ook zeker niet de enige website waar kennisvreters en ontwikkelende professionals terechtkunnen. Eerder volgde ik via edx.org een masterclass ”Justice” van de befaamde filosoof Michael J. Sandel van Harvard University, die me via onlinehoorcolleges prikkelde om na te denken over de kern van rechtvaardigheid: een kolfje naar mijn hand. De cursus ”Text Mining and Analytics” op coursera.org volgt hetzelfde principe, al leert een snelle blik me dat de materie gortdroog is. Hier geen uitdagende stellingen en denkexercities, maar feiten en logica. Dat moet bij je passen.

Aanleg is dus wel een voorwaarde om deze cursus te kunnen volgen. Wie als een alfa geboren is, wordt immers nooit een bèta. Bovendien vergt de onlineopleiding een behoorlijke tijdsinvestering. De lesmaterialen worden aangeboden in de vorm van syllabi en instructievideo’s. Die laatste kosten wekelijks zo’n twee uur kijktijd, en deelnemers moeten nog eens dezelfde hoeveelheid tijd reserveren om de inhoud te verwerken. Nadat alle inhoud is doorgenomen, volgt een toets. Om die te halen, moet minimaal 70 procent van de vragen goed beantwoord worden. De quiz kost ook nog eens ongeveer een uur. Dat komt dus al snel neer op minimaal een halve werkdag per week. Voor de echt toegewijde deelnemers is er ook nog een programmeeropdracht in programmeertaal C++, maar die is vrijwillig. En dan is er ook nog het forum, waar gebruikers hun ervaringen kunnen uitwisselen en vragen kunnen stellen. Die gebruikers komen van over de hele wereld, maar de Aziatisch klinkende namen zijn in de meerderheid.

Al die materialen kunnen niet helemaal gratis worden aangeboden. Coursera-abonnees betalen dan ook 41 euro per maand om de website draaiend te houden. Dat bedrag biedt toegang tot álle cursussen. Wie veel tijd heeft, kan voor dat geld dan ook meerdere opleidingen volgen en diploma’s halen. Heb je minder tijd tot je beschikking, dan ben je simpelweg meer geld kwijt voor je opleiding. Voor wie geen cent te makken heeft zijn er echter sponsormogelijkheden. En wil je je kennis vergroten zonder certificaat te behalen, dan kun je de cursussen gratis volgen.

Terug naar de cursus. Die is, hoe abstract hij ook moge klinken, behoorlijk relevant. Die enorme hoeveelheden gegevens die alle internetgebruikers dagelijks genereren, bieden namelijk volop mogelijkheden om „interessante patronen te ontdekken”, aldus professor Zhai. „Zo kan tekst worden omgezet in praktische kennis, die nuttig is voor besluitvorming.” Los van nieuwsgierige onderzoeksjournalisten kunnen dus ook bedrijven er hun voordeel mee doen – en dat gebeurt ook. Fabrikanten gebruiken bijvoorbeeld rapporten en feedback om snel de hoofdoorzaak van productproblemen te vinden, merken graven in de enorme hoeveelheid tekst die op internet beschikbaar is om hun merk beter te presenteren en financiële instellingen analyseren teksten om fraudes te voorkomen. En ik? Ik zou straks algoritmen kunnen gebruiken om berichten op sociale media te analyseren – en de inhoud ervan gebruiken voor journalistieke producties.

Zo ver is het echter nog niet. Eerst wacht een oriëntatiequiz waarin de basisvaardigheden worden getest. „De kans dat je deze cursus voltooit is 57 procent groter als je de toets maakt”, vertelt een (Engelstalige) mededeling. Curieus: Coursera verzamelt en analyseert blijkbaar ook zelf gegevens om deelnemers te informeren én z’n cursusaanbod aan te scherpen. Gelukkig hoef je de toets niet in één keer goed te maken: in theorie kun je eindeloos herkansen, al is er een limiet van drie pogingen per acht uur.

De eerste vragen, over kansberekening, zijn goed te doen. Hoe groot de kans is dat je met één dobbelsteen een even getal gooit, is niet zo ingewikkeld. Maar al snel gaan de vragen de diepte in. Want kansberekening is één ding, lineaire algebra is iets heel anders. Ik heb dan ook geen antwoord op de vraag ”If x=[1,2,3]x=[1,2,3]x=[1,2,3] and y=[1,−2,2]y=[1,-2, 2]y=[1,−2,2], what’s the dot product x.yx \cdot yx.y?”. Het brengt me terug tot een beproefde methode: het afstrepen van de minst logische opties tot er maar één antwoord overblijft. Die methode mag niet baten: ik gok toch te vaak verkeerd. Overleggen op het forum is er niet bij: de vragen daar gaan zo diep dat ik er met mijn basiskennis niet aan te pas kom. Laat staan dat ik bevredigend kan antwoorden op de vraag van een Indiër die een partner zoekt om samen de paradigmatische similariteit voor twee documenten te berekenen. Er zit dan ook weinig anders op dan na de introductie af te haken.

Het voelt niet als falen. Soms is het goed om bevestigd te krijgen waar je niet goed in bent – en om gewoon kennis te nemen van een wereld die ver buiten je bereik en vermogens ligt. Al kijk ik nu met nog meer bewondering naar m’n collega’s die de materie wel beheersen. Als zij de bètakant voor hun rekening nemen, richt ik me wel op socialere zaken.

Je hoeft niet te stoppen met leren in coronatijd. Via de digitale snelweg kan er meer dan je denkt. Een cursus ”Tekst opdelven en analyseren” bijvoorbeeld.

>>

coursera.org

RD.nl in uw mailbox?

Ontvang onze wekelijkse nieuwsbrief om op de hoogte te blijven.

Hebt u een taalfout gezien? Mail naar redactie@rd.nl

Home

Krant

Media

Puzzels

Meer