Mehr Spaß mit Ngrams

Heute gibt es ein buntes Sammelsurium von Abfragen mit dem Ngram Viewer. Ich finde sie alle aus dem einen oder anderen Grund ganz erhellend. Vielleicht ja sonst noch wer?

Ab wann ist das Korpus brauchbar?

Meine “schönste” Abfrage ist sicher die folgende, die ich kürzlich (in einer minimal abweichenden Version) auch in den Sprachlog-Kommentaren gepostet habe:

Wie man sieht, wenn man draufklickt, habe ich Allerweltswörter abgefragt: der, die, und, in, … Das sind Wörter, die so häufig sind, dass man in einem ausgewogenen Korpus eigentlich keine großen Schwankungen erwarten würde. Man braucht sie einfach immer, für jeden Text. Klar, das geht nicht unbegrenzt weit zurück, irgendwann sind die Artikel ja auch entstanden, und Personalpronomen waren z.B. im Althochdeutschen noch lange nicht so gebräuchlich wie heute. Aber für die späte frühneuhochdeutsche und neuhochdeutsche Zeit, die der Ngram Viewer abdeckt, sollte es doch einigermaßen passen.

Meine Überlegung ist also, dass die Kurven für diese Wörter eigentlich ziemlich stabil sein müssten. Keine starken Schwankungen, sondern eben mehr oder weniger horizontale Linien. Das bestätigt sich auch einigermaßen für die letzten zweihundert Jahre. Schaut man sich allerdings die Jahrhunderte davor an, so geht es ziemlich turbulent zu. Hier muss etwas mit dem Textkorpus im Argen liegen – wenn es ewig keine Texte gibt, die der oder die enthalten, dann kann das nur daran liegen, dass a) es in dieser Zeit einfach gar keine Texte gibt oder b) die Texte dieser Zeit so schlecht texterkannt wurden, dass nicht einmal diese kurzen Wörtchen lesbar wurden.

Ob es da Texte gibt, lässt sich leider nicht testen, weil die Bücher aus dem Projekt nicht identisch mit denen sind, die man generell bei GoogleBooks finden kann. Da gibt es nämlich einen ganzen Haufen alte Sachen, z.B. hier von 1523, die müssen aber nicht zwangsläufig auch Teil des Culturomics-Korpus sein.

Dass die Texte schlecht texterkannt sind, ist fatal für das Korpus: Entweder findet man die entsprechenden Wörter gar nicht oder nur teilweise. Wenn man das eben verlinkte Buch automatisch nach der durchsucht, taucht kein einziger Treffer auf:

Wenn man allerdings seine Augen benutzt, dauert es gar nicht lange …

Acta oder geschicht || wie es vff dem gesprech der || 26.27.vnnd. 28. tagen Wynmonadts / in der Christenlichen Statt Zürich / vor eim Ersame_ ...

Da wird auch schnell klar, warum das nicht geklappt hat, das <d> ist ziemlich verschnörkelt. Durchsucht das Buch mal zum Spaß nach <ser> … Ebenso geht es der Texterkennung mit vielen anderen Buchstaben in gebrochener Schrift, allen voran mit dem langen <ſ>. Und die ziemlich lang ziemlich konsequente Verwendung von <v> am Wortanfang und <u> im Wortinneren sorgt zum Beispiel dafür, dass sich keine <und>s finden lassen, aber doch immerhin ein paar <vnd>s.

Die Spitzen, die meine Suche nach hochfrequenten Wörtern in den frühen Jahren anzeigt, weisen also darauf hin, dass auf so frühe Ergebnisse kein Verlass ist. Den ersten Ausschlag gibt es 1564 – wahrscheinlich weil hier das erste Buch vorliegt (oder auch mehrere, wer weiß). Wenn man nun nach ganz anderen Wörtern sucht, die nicht sooo häufig sind, könnte man denken, dass die Suchwörter 1564 aus irgendeinem Grund besonders häufig verwendet wurden. Man könnte die schönsten Theorien entwickeln … Schaut mal hier für das Wort Buch:

Die frühe Spitze liegt aber nicht an der gesteigerten Bedeutung oder Verfügbarkeit von Büchern oder irgendsowas, sondern ist eben ein Artefakt.

Wenn das Korpus schon bei hochfrequenten Wörtern so verletzlich ist, dann muss man bei seltenen Wörtern natürlich noch besser aufpassen. Oder erscheint es euch plausibel, dass man heute viel weniger über die Sonne schreibt als vor zweihundert Jahren?

Verwandtschaft: Der Onkel macht den Oheim kalt

Ich hatte hier im Schplock mal eine kleine Serie zu Verwandtschaftsbezeichnungen im Deutschen, darunter einen Text, in dem es um Oheim, Vetter, Base und Muhme ging. Die Bedeutungsverschiebungen dieser Begriffe lässt sich natürlich nicht darstellen, aber man kann immerhin sehen, wie sie gegen ihre moderneren Entsprechungen verloren haben:

Oheim vs. Onkel

Der Vetter hält sich wesentlich besser gegen den Cousin. Vielleicht kriegt er auch noch Verstärkung vom Familiennamen Vetter? Der Kampf zwischen Muhme und Tante scheint schon früher gelaufen zu sein, Cousine und Base lassen sich leider nicht vergleichen, weil Base zu viele andere Bedeutungen hat.

Fußgänger laufen auf dem …

Bürgersteig? Gehweg? Trottoir?

Übersetzt von …

Bücher sind ja eine Textsorte, die so ihre eigenen Merkmale hat. Dazu gehört zum Beispiel, dass vermerkt wird, wenn es sich um eine Übersetzung handelt. Und da haben wir …

Englisch vor Französisch vor Amerikanisch ...

Meine Suchabfrage war dem Englischen von, wie in “Übersetzt aus dem Englischen von XY/Aus dem Englischen von XY/…”. (Ich habe auf aus verzichtet, weil die Suche zwischen Groß- und Kleinschreibung unterscheidet, die Kurven sind kleiner, verlaufen aber quasi identisch, wenn man es dazunimmt.)

Interessant, dass Amerikanisch als Sprachbezeichnung erst 1945 richtig auftaucht. Es legt dann eine ziemlich steile Karriere hin …

Autos und große Autos

Hier sieht man, wann PKW und LKW ihre Langformen Personenkraftwagen und Lastkraftwagen überholt haben:

Der Wechsel von Lastkraftwagen zu LKW scheint 1976 zu erfolgen, der von Personenkraftwagen zu PKW schon früher, nämlich 1967. Allerdings war Personenkraftwagen nie sooo gebräuchlich. PKW hat es wahrscheinlich weniger ersetzt als sich vielmehr in die Auto-Domäne hineingedrängt. Spekuliere ich mal, total wild.

Soziale Netzwerke

Wie StudiVZ von Facebook überholt wurde:

Wer um alles in der Welt schreibt eigentlich Bücher über die beiden? Hmhmhm.

Und damit empfehle ich mich für heute. Ein wunderbares Wochenende euch allen!

schönes Wochenende

 

 

2 Antworten zu Mehr Spaß mit Ngrams

  1. Thomas sagt:

    Texterkennung: Da müsstest du mal schauen, was OCR-Programme – am besten auf Standard gestellt, was immmer noch ASCII ist oder wenig mehr – aus heutigen Ausdrucken oder Schreibmaschinenmanuskripten machen (PDF-Kopien ‚exotischer‘ Dissertationen, ich will mich also nicht beschweren, die hätte ich sonst nie halbautomatisch durchsuchen können).
    Das ist dann besser als nur das Bild, aber extrem anfällig bei allem, was jenseits von ASCII liegt. <é> ist dann eben im ‘erkannten’ Text <b>. Aber nicht immer, wenn die Seite nicht ganz gerade lag beim Scannen… Ganz zu schweigen von Diakritika jenseits von Westeuropa (<ā>, <ę>).
    Die Geschichte mit <s> statt <d> passt da genau rein. Ich hätte sogar eher <B> oder <8> für beide erwartet bei dem Schriftbild.

    • Kristin sagt:

      Sooo, jetzt mit reineditierten Graphemklammern :)

      Zum Thema: Die müssen schon speziellere Texterkennungsprogramme haben. Es gibt z.B. eines von ABBYY FineReader, das auf Fraktur ausgelegt ist, allerdings klappt das wohl richtig gut nur für das 19. Jahrhundert und nur, wenn die Vorlagen sauber sind.
      Ich habe das mal ausprobiert, weil ich ja momentan auch größere Mengen Text aus frühneuhochdeutschen Drucken in maschinenlesbare Form bringe – lieferte aber für frühe Drucke ganz furchtbare Resultate, man war so lange mit Korrigieren beschäftigt, wie man auch zum Abtippen brauchte … (Außerdem braucht das Programm ja auch immer Trainingsläufe, und wenn ich es fünf Seiten lang trainiere, aber insgesamt nur zehn brauche, weil der nächste Druck dann wieder mit anderen Lettern gesetzt wurde, lohnt sich das letztlich nicht mehr.)