[Werkzeug] Ngram Viewer

20. Dezember 2010

Beim Language Log wurde ja schon ausführlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Korpus, das einen Auszug aus GoogleBooks darstellt, nach Wörtern oder Wortketten suchen und sich ihren Häufigkeitsverlauf anzeigen lassen. Dabei wird die Gebrauchsfrequenz errechnet, indem das Gesuchte (das n-gram, wobei n für die Zahl der Wörter im Suchbefehl steht) durch die Gesamtwortzahl des entsprechenden Jahres geteilt wird.

Die Sache ist für uns aus vielen tausend Gründen problematisch: wilde Textsortenzusammensetzung des Korpus – aber für Englisch gibt es immerhin Unterkorpora wie Fiction, American English und British English –, die Korpusgröße variiert stark, d.h. Funde zu einem relativ frühen Zeitpunkt (z.B. 1800) schlagen stärker zu Buche als später (z.B. 2000), auch wenn normalisiert wurde, …

Messer, Gabel, …

Ein paar mögliche Probleme habe ich mal mit der Suche nach „Messer,Gabel,Löffel“ für 1900 bis 2000 durchgespielt. Man könnte hier den Eindruck erhalten, die Gabel trete am seltensten auf und das Messer sei enorm viel häufiger (alle Diagramme führen direkt zur entsprechenden Suchanfrage mit größeren Darstellungen):

Den Rest des Beitrags lesen »