[Werkzeug] Ngram Viewer

Beim Language Log wurde ja schon ausführlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Korpus, das einen Auszug aus GoogleBooks darstellt, nach Wörtern oder Wortketten suchen und sich ihren Häufigkeitsverlauf anzeigen lassen. Dabei wird die Gebrauchsfrequenz errechnet, indem das Gesuchte (das n-gram, wobei n für die Zahl der Wörter im Suchbefehl steht) durch die Gesamtwortzahl des entsprechenden Jahres geteilt wird.

Die Sache ist für uns aus vielen tausend Gründen problematisch: wilde Textsortenzusammensetzung des Korpus – aber für Englisch gibt es immerhin Unterkorpora wie Fiction, American English und British English –, die Korpusgröße variiert stark, d.h. Funde zu einem relativ frühen Zeitpunkt (z.B. 1800) schlagen stärker zu Buche als später (z.B. 2000), auch wenn normalisiert wurde, …

Messer, Gabel, …

Ein paar mögliche Probleme habe ich mal mit der Suche nach “Messer,Gabel,Löffel” für 1900 bis 2000 durchgespielt. Man könnte hier den Eindruck erhalten, die Gabel trete am seltensten auf und das Messer sei enorm viel häufiger (alle Diagramme führen direkt zur entsprechenden Suchanfrage mit größeren Darstellungen):

Jetzt ist es aber so, dass das Messer und der Löffel auch den Plural die Messer und die Löffel bilden, während wir bei Gabel im Plural die Gabeln haben. Auch die Suche nach “das Messer,die Gabel,der Löffel” hilft nicht aus dem Dilemma, denn nun haben wir bei Messer und Gabel den Nominativ und Akkusativ Singular, während bei Löffel zwar im Singular nur der Nominativ vorliegt, im Plural aber noch dazu der Genitiv. Und “des Messers,der Gabel,des Löffels” zeigt zwar für Messer und Löffel vergleichbare Größen (nur den Genitiv), aber für Gabel nicht (denn hier ist es Genitiv und Dativ)

Schließlich die Lösung: Dativ Plural: “den Messern,den Gabeln,den Löffeln


Die Frequenzen sind enorm gesunken: Während Messer in der ersten Anfrage zu Spitzenzeiten noch 0,001% ausmachte, kommt es im Dativ Plural nur noch auf 0,000009%. Der Unterschied hat sich aber erhalten, mit Ausnahme der relativ hohen Gabel-Frequenz zu Beginn des Zeitraums.

Was mir bei der Spielerei allerdings nicht klargeworden ist: Wie kann ich herausfinden, ob der Unterschied aussagekräftig ist? Das benutzte Korpus ist ja nicht identisch mit GoogleBooks, d.h. eine Suche dort führt nicht zu denselben Ergebnissen. Praktischerweise kann man sich die Daten runterladen und so sehen, wie hoch die Zahlen für das jeweilige Jahr sind, aber die Datenmenge ist so groß, dass ich irgendwann aufgegeben habe, weil kein Programm so viele Daten anzeigen wollte. (NotePad++ hat’s mit Tricks gemacht, aber pro Datei hat mich das ungefähr 10 Minuten gekostet – runterladen, entzippen und öffnen. Nach zwei von neun Dateien habe ich aufgegeben.)

Ach, und: Dass Messer auch in der Bedeutung ‘Gerät/Person, das/die etwas misst’ vorkommen kann, ist mir bewusst. Ich glaube, dass es vernachlässigbar ist, denn meist sind das doch Zusammensetzungen (Gradmesser, Wärmemesser, …), aber getestet hab ich’s nicht.

Computer und sonstiges Lehngut

Nur indirekt kann man Sprachvergleiche machen, was ich besonders für neue Konzepte ganz spannend finde. So zeigt ein Vergleich von Computer zwischen Englisch (der Gebersprache) und Deutsch, dass es im englischen Sprachraum ungefähr zehn Jahre früher losging als bei uns:

Englisch

Deutsch

Und diesen Effekt sieht man auch bei Sprachen, die sich ihr eigenes Wort ausgedacht haben, wie z.B. dem Französischen mit ordinateur:


Ich wollte außerdem ein paar Anglizismen im Vergleich zeigen, aber man braucht welche, die ungefähr die gleiche Frequenz haben, sonst sieht man auf der Grafik nichts. Mit Computer, Internet und Manager klappt’s ganz gut:


Und die Einführung der Pizza in den deutschen Buchmarkt sowie ihre recht kontinuierlichen Pluralschwankungen:


Man kann bestimmt noch tausend andere Spielereien damit machen – ich bin gespannt, was in der nächsten Zeit alles auftaucht!

Vertiefende Links:

[Edit: Mir ist aufgefallen, dass ich nur Beispiele habe, bei denen die Kurven gleichbleiben oder ansteigen – als bis vor kurzem totgeglaubtes Wort, dessen Spitzenzeiten zwischen 1860 und 1920 lagen, empfehle ich: Depesche. Und die großen Zeiten von Telegramm sind wahrscheinlich wirklich vorbei.]

About these ads

5 Antworten zu [Werkzeug] Ngram Viewer

  1. ke sagt:

    Zu der Sache mit NotePad++: Ich empfehle die Kommandozeile und das Programmieren! Ein kleines Python-Skript könntest du zum Beispiel gut einsetzen, um die Frage zu klären.

    • Kristin sagt:

      Ja, (wenigstens ein bißchen) Programmierenkönnen steht ziemlich weit oben auf meiner Weihnachtswunschliste. Ich fürchte aber, dass ich es von da zu den Neujahrsvorsätzen verschieben muss. Egal wie: Ist für die nähere Zukunft eingeplant!

  2. Hagen sagt:

    Mir scheint ich korreliere negativ mit Weltkriegsenden:

    http://ngrams.googlelabs.com/graph?content=Hagen&year_start=1900&year_end=2000&corpus=8&smoothing=1

    Zu was für erschreckende Vorhersagen dieser Graph veranlasst.

    • Hagen sagt:

      Gott, Bibel, Liebe, Treue und dergleichen haben übrigens alle kurz nach ’45 einen extremen Peak. Sehr amüsantes Ding.
      Aber ich sollte vermutlich linguistischen Fragestellungen nachgehen, wenn ich hier dazu posten will.. ;)

    • Kristin sagt:

      *hehe*
      Neben einem Vornamen ist Hagen aber auch ein Nachname und eine Stadt, und in ebendiesen Eigenschaften tritt das Wort besonders oft auf, wenn man sich die ersten GoogleBooks-Seiten anschaut. Vielleicht gab es da 1910 und 1942 einen besonders produktiven Hagen Hagen aus Hagen?

      (Das gilt übrigens auch für meine Messer-Gabel-Löffel-Übersicht: alle drei kommen auch als Nachnamen vor, wobei auf Löffel die gerinste Namenträgerzahl entfällt. Wer weiß, was das mit den Daten gemacht hat!)

      Kristin korreliert übrigens positiv mit der Zunahme von Internet (man kann sie leider nur nicht beide in ein Diagramm packen, sonst sieht man, wie belanglos Kristin ist) ;)

Folgen

Erhalte jeden neuen Beitrag in deinen Posteingang.

Schließe dich 32 Followern an