De wet van Zipf

Als je de woorden in een tekst bekijkt komt het ene woord vaker voor dan het andere. Bijvoorbeeld woorden als is, de, het en een zijn zijn erg frequent in een nederlandse tekst. Als je nu de woorden in een tekst telt en rangschikt naar aflopende frequentie is er dan een verband tussen het rangnummer en de frequentie?
De wet van Zipf zegt dat globaal geldt: rangnummer*frequentie is constant.

Om zo'n verband zelf te onderzoeken heb je de hulp van een computer nodig. Om aan geschikte teksten te komen is internet een mooie manier.
Op deze pagina worden je een aantal hulpmiddelen aangeboden om zelf de wet van Zipf te onderzoeken.

Het programma

Het programma is zelf een webpagina.
Als je het programma start krijg je een webpagina te zien met daarop een tekstvak waarin je tekst kunt invoeren en drie knoppen: Woordfrequenties, letterfrequenties en Wissen.
Probeer eerst eens een kleine tekst in het tekstvak in te typen en druk op Woordfrequenties. Je krijgt nu een nieuwe pagina voor je met daarin de analyse van je tekst.
Teruggaan naar de invoerpagina kan door deze pagina weer te activeren. Dit kun je op twee manieren doen: klikken op deze pagina of via de taakbalk.

Start het programma

Grotere teksten

Grotere teksten kun je beter niet zelf intikken maar ergens vandaan halen. Dat gaat makkelijk met behulp van kopieren (<CRTL C>) en plakken (<CRTL V>). De tekst van deze pagina bijvoorbeeld kun je analyseren door in je browser Bewerken-Alles Selecteren-Kopieren te kiezen. Daarna zorg je ervoor dat je het invoerscherm voor je hebt. Zet de cursor in het tekstvak en plak de tekst in het tekstvak. Analyseer je tekst met de knop: Woordfrequenties.

Op de volgende webadressen kom je grotere teksten tegen:
De websites van de Volkskrant en de NRC.
Nederlandse literaire teksten kun je vinden bij Laurens Jansz Coster

Het analyseren

1Analyseer een (grotere) tekst.
Klopt de wet van Zipf ongeveer?

2Sommige woorden hebben dezelfde frequentie
Bedenk een methode om hiermee rekening te houden

3Let speciaal op de woorden met de hoogste en de laagste frequentie
Klopt de wet hier ook?

4Analyseer nog een aantal teksten
 

5Zoek ook teksten in andere talen. Let op: het programma kan niet goed omgaan met tekens als é en è. Bijvoorbeeld het woord: élève Wat is het probleem hiermee?