Auf der Basis der 5000 häufigsten Wortformen [das Inventar wurde aus einem Korpus des modernen Deutschen mit etwas mehr als 50 Millionen Items[1] extrahiert] werden hier Texte aus verschiedenen 'Gattungen' (: Schullektüren, Songs, Übungstexte, Zeitungsartikel usw.) so vorgestellt, daß die darin vorkommenden Wortformen, welche zu den 1000 häufigsten gehören, farblich markiert sind... Die, welche zur Frequenzgruppe 1001-2000 zählen, mit einer 2. Farben usw. Damit wird sichtbar gemacht, wieviel Text von diesen hochfrequenten Formen 'abgedeckt' wird. Hier finden Sie/findest Du die Aufschlüsselung Farbe-Frequenz (: diese wird auch bei den einzelnen Texten der Einfachheit wegen wiederholt): türkis: 1 – 1000 / grün: 1001 – 2000 / lila: 2001 – 3000 / rot: 3001 – 4000 / gelb: 4001 – 5000
[1] Um genau zu
sein: 50.190.175. Dieser Sprachausschnitt ist Teil des weitaus größeren Korpus
der Abteilung "Automatische Sprachverarbeitung" an der Universität Leipzig,
dessen Umfang z.Zt. rund 1,5 Mrd. laufende Wörter (entspricht ca. 100 Mio.
Sätzen) beträgt -
http://wortschatz.uni-leipzig.de/
|
|