De woordenschattest van het Groot
(inter)Nationaal Onderzoek naar de Nederlandse taal maakt gebruik van
een woordenlijst waar de testwoorden uit komen. Hoe is de lijst
samengesteld? En hoe maak je niet-bestaande woorden? Taalonderzoeker
Emmanuel Keuleers legt het uit.
De totale lijst van 70.000 woorden, waarvan elke deelnemer er
dus honderd krijgt voorgelegd in het testje, bestaat uit 50.000
Nederlandse woorden en 20.000 nepwoorden die op bestaande Nederlandse
woorden lijken. Taalonderzoeker Keuleers legt uit hoe de lijst is
samengesteld: “In de lijst vinden we voornamelijk de basisvormen van
Nederlandse woorden, zoals bv. 'aap', 'fiets', en 'mooi'. Omdat iemand
die een basisvorm kent, meestal ook de verbogen en vervoegde vormen
kent, zoals 'apen', 'werkte', en 'mooiste', werden die vormen niet
opgenomen. Alleen van onregelmatige werkwoorden die een klankverandering
hebben als je ze vervoegt, zijn ook nog die vervoegde vormen
toegevoegd. Dus ‘werkte’ staat er niet in, maar ‘liep’ wel.”
- Emmanuel Keuleers
“Eigennamen komen niet voor in de lijst. Die kun je namelijk
kennen zonder de taal te kennen,” zegt Keuleers. Hij vervolgt: “Ook
komen niet alle samenstellingen in de lijst voor: wel ‘voetbal’ maar
niet ‘voetbalspeler’ of ‘voetbalcoach’. De betekenis van 'voetbal' is
niet meteen af te leiden uit de delen 'voet' en 'bal', maar uit de delen
'voetbal' en 'speler' kan je wel afleiden wat een voetbalspeler is.”
Schrappen in de lijst was noodzakelijk, volgens Keuleers: “Omdat het
Nederlands erg veel van dat soort samenstellingen heeft, hebben we
besloten hebben om die niet in onze lijst op te nemen. Want hoe groter
de lijst is, hoe minder vaak elk woord in de lijst gescoord wordt op
‘bekend’ of ‘onbekend’. En daardoor worden de resultaten minder
betrouwbaar.”
Naast eigennamen en heel wat samenstellingen werden ook andere
woorden geschrapt. Afleidingen van werkwoorden werden alleen opgenomen
als ze veel worden gebruikt: ‘speler’ en ‘zwemmer’ wel, maar ‘bowler’
niet. En van werkwoorden op ‘-eren’, die bijna allemaal een zelfstandig
naamwoord hebben op ‘-atie’ (bijv. calculeren en calculatie) zijn niet
bij elk woord beide vormen opgenomen. Nadat nog een aantal recente,
vooral Engelse leenwoorden als ‘skybox’ en ‘shocken’ waren toegevoegd,
kwam er een totale lijst van ruim 50.000 woorden uit.
Nepwoorden maken
Om te weten hoeveel woorden iemand kent, is een lijst van woorden niet voldoende: dan vult iemand op alles ‘bekend’ in en worden je testresultaten onbetrouwbaar. Je hebt dus nep woorden nodig, Keuleers noemt dat niet-woorden: lettercombinaties die geen bestaand woord vormen. Deze lettercombinaties moeten natuurlijk niet direct herkenbaar zijn als een niet-bestaand woord, ze moeten lijken op bestaande woorden. Een combinatie als ‘rdfa’ herken je direct als niet-bestaand, maar bij ‘dilt’ wordt het lastiger. Om een goed niet-woord te kunnen zijn, moet de lettercombinatie voldoen aan de spellingsregels en klankregels van de Nederlandse taal. Het moet, kortom, wel een woord kunnen zijn, maar het is het niet!
Om te weten hoeveel woorden iemand kent, is een lijst van woorden niet voldoende: dan vult iemand op alles ‘bekend’ in en worden je testresultaten onbetrouwbaar. Je hebt dus nep woorden nodig, Keuleers noemt dat niet-woorden: lettercombinaties die geen bestaand woord vormen. Deze lettercombinaties moeten natuurlijk niet direct herkenbaar zijn als een niet-bestaand woord, ze moeten lijken op bestaande woorden. Een combinatie als ‘rdfa’ herken je direct als niet-bestaand, maar bij ‘dilt’ wordt het lastiger. Om een goed niet-woord te kunnen zijn, moet de lettercombinatie voldoen aan de spellingsregels en klankregels van de Nederlandse taal. Het moet, kortom, wel een woord kunnen zijn, maar het is het niet!
- Wuggy
Het maken van goede niet-woorden is niet zo makkelijk. Keuleers en Brysbaert ontwikkelden hier een oplossing voor. Wuggy is
een computerprogramma dat met een door Keuleers ontwikkeld algoritme
niet-woorden kan genereren op basis van een bestaande taal. Het
programma deelt alle woorden eerst op in lettergrepen, en vervolgens
elke lettergreep in begin, midden en einde. Het midden is de klinker,
het begin en het einde kunnen leeg zijn, of één of meer medeklinkers
bevatten. Wuggy kijkt vervolgens naar de transitieprobabiliteit tussen
elke van de delen: hoe vaak komt het voor dat dit begin van een
lettergreep gevolgd wordt door dit midden, en dit midden door dit eind?
Neem bijvoorbeeld het eenlettergrepige woord ‘ROOD’: het begin
is R, OO is het midden en D is het eind van de lettergreep. Het
programma rekent dan uit hoe vaak het in het Nederlands R gevolgd wordt
door OO, en OO door een D. Dan slaat Wuggy aan het puzzelen. Sommige
lettercombinaties in het woord ROOD worden vervangen door nieuwe
lettercombinaties waarvan de transitieprobabiliteiten niet veel afwijken
van die in het originele woord. Zo komt Wuggy op basis van ROOD bevat
onder andere uit op ‘roed’ en ‘roog’, maar ook ‘rijd’ en 'lood’.
Sommige lettercombinaties vormen dus een bestaand woord en die worden
uiteraard geschrapt.
Keuleers en zijn collega Marc Brysbaert hebben Wuggy losgelaten
op hun lijst van 50.000 bestaande woorden om 20.000 niet-woorden te
krijgen. Omdat de niet-woorden gebaseerd zijn op bestaande woorden komen
veel voorkomende lettercombinaties ook in de niet-bestaande woorden
terug. Bijna even vaak als voor gewone woorden, beginnen netwoorden op
‘ge-‘, of eindigen ze op ‘-ing’,” licht Keuleers toe. “Je moet dus echt
bekend zijn met de taal, wil je de niet-woorden eruit kunnen halen. En
zelfs iemand met Nederlands als moederstaal lukt dat bijna nooit
foutloos.”
Benieuwd wat de echte woorden zijn en welke zijn gemaakt door
Wuggy? Op de pagina met je resultaten kun je van alle 100 woorden uit
jouw test zien of ze bestaan!
Geen opmerkingen:
Een reactie posten