zaterdag 16 maart 2013

Hoe maak je nepwoorden? Wuggy de woordgenerator

  • Door: Marieke Epping
De woordenschattest van het Groot (inter)Nationaal Onderzoek naar de Nederlandse taal maakt gebruik van een woordenlijst waar de testwoorden uit komen. Hoe is de lijst samengesteld? En hoe maak je niet-bestaande woorden? Taalonderzoeker Emmanuel Keuleers legt het uit.
De totale lijst van 70.000 woorden, waarvan elke deelnemer er dus honderd krijgt voorgelegd in het testje, bestaat uit 50.000 Nederlandse woorden en 20.000 nepwoorden die op bestaande Nederlandse woorden lijken. Taalonderzoeker Keuleers legt uit hoe de lijst is samengesteld: “In de lijst vinden we voornamelijk de basisvormen van Nederlandse woorden, zoals bv. 'aap', 'fiets', en 'mooi'. Omdat iemand die een basisvorm kent, meestal ook de verbogen en vervoegde vormen kent, zoals 'apen', 'werkte', en 'mooiste', werden die vormen niet opgenomen. Alleen van onregelmatige werkwoorden die een klankverandering hebben als je ze vervoegt, zijn ook nog die vervoegde vormen toegevoegd. Dus ‘werkte’ staat er niet in, maar ‘liep’ wel.”
Emmanuel Keuleers
“Eigennamen komen niet voor in de lijst. Die kun je namelijk kennen zonder de taal te kennen,” zegt Keuleers. Hij vervolgt: “Ook komen niet alle samenstellingen in de lijst voor: wel ‘voetbal’ maar niet ‘voetbalspeler’ of ‘voetbalcoach’. De betekenis van 'voetbal' is niet meteen af te leiden uit de delen 'voet' en 'bal', maar uit de delen 'voetbal' en 'speler' kan je wel afleiden wat een voetbalspeler is.” Schrappen in de lijst was noodzakelijk, volgens Keuleers: “Omdat het Nederlands erg veel van dat soort samenstellingen heeft, hebben we besloten hebben om die niet in onze lijst op te nemen. Want hoe groter de lijst is, hoe minder vaak elk woord in de lijst gescoord wordt op ‘bekend’ of ‘onbekend’. En daardoor worden de resultaten minder betrouwbaar.”
Naast eigennamen en heel wat samenstellingen werden ook andere woorden geschrapt. Afleidingen van werkwoorden werden alleen opgenomen als ze veel worden gebruikt: ‘speler’ en ‘zwemmer’ wel, maar ‘bowler’ niet. En van werkwoorden op ‘-eren’, die bijna allemaal een zelfstandig naamwoord hebben op ‘-atie’ (bijv. calculeren en calculatie) zijn niet bij elk woord beide vormen opgenomen. Nadat nog een aantal recente, vooral Engelse leenwoorden als ‘skybox’ en ‘shocken’ waren toegevoegd, kwam er een totale lijst van ruim 50.000 woorden uit.
Nepwoorden maken
Om te weten hoeveel woorden iemand kent, is een lijst van woorden niet voldoende: dan vult iemand op alles ‘bekend’ in en worden je testresultaten onbetrouwbaar. Je hebt dus nep woorden nodig, Keuleers noemt dat niet-woorden: lettercombinaties die geen bestaand woord vormen. Deze lettercombinaties moeten natuurlijk niet direct herkenbaar zijn als een niet-bestaand woord, ze moeten lijken op bestaande woorden. Een combinatie als ‘rdfa’ herken je direct als niet-bestaand, maar bij ‘dilt’ wordt het lastiger. Om een goed niet-woord te kunnen zijn, moet de lettercombinatie voldoen aan de spellingsregels en klankregels van de Nederlandse taal. Het moet, kortom, wel een woord kunnen zijn, maar het is het niet!
Wuggy
Het maken van goede niet-woorden is niet zo makkelijk. Keuleers en Brysbaert ontwikkelden hier een oplossing voor. Wuggy is een computerprogramma dat met een door Keuleers ontwikkeld algoritme niet-woorden kan genereren op basis van een bestaande taal. Het programma deelt alle woorden eerst op in lettergrepen, en vervolgens elke lettergreep in begin, midden en einde. Het midden is de klinker, het begin en het einde kunnen leeg zijn, of één of meer medeklinkers bevatten. Wuggy kijkt vervolgens naar de transitieprobabiliteit tussen elke van de delen: hoe vaak komt het voor dat dit begin van een lettergreep gevolgd wordt door dit midden, en dit midden door dit eind?
Neem bijvoorbeeld het eenlettergrepige woord ‘ROOD’: het begin is R, OO is het midden en D is het eind van de lettergreep. Het programma rekent dan uit hoe vaak het in het Nederlands R gevolgd wordt door OO, en OO door een D. Dan slaat Wuggy aan het puzzelen. Sommige lettercombinaties in het woord ROOD worden vervangen door nieuwe lettercombinaties waarvan de transitieprobabiliteiten niet veel afwijken van die in het originele woord. Zo komt Wuggy op basis van ROOD bevat onder andere uit op ‘roed’ en  ‘roog’, maar ook ‘rijd’ en 'lood’. Sommige lettercombinaties vormen dus een bestaand woord en die worden uiteraard geschrapt. 
Keuleers en zijn collega Marc Brysbaert hebben Wuggy losgelaten op hun lijst van 50.000 bestaande woorden om 20.000 niet-woorden te krijgen. Omdat de niet-woorden gebaseerd zijn op bestaande woorden komen veel voorkomende lettercombinaties ook in de niet-bestaande woorden terug. Bijna even vaak als voor gewone woorden, beginnen netwoorden op ‘ge-‘, of eindigen ze op ‘-ing’,” licht Keuleers toe. “Je moet dus echt bekend zijn met de taal, wil je de niet-woorden eruit kunnen halen. En zelfs iemand met Nederlands als moederstaal lukt dat bijna nooit foutloos.”
Benieuwd wat de echte woorden zijn en welke zijn gemaakt door Wuggy? Op de pagina met je resultaten kun je van alle 100 woorden uit jouw test zien of ze bestaan!

Geen opmerkingen:

Een reactie posten