[Werkzeug] Ngram Viewer

20. Dezember 2010

Beim Language Log wurde ja schon ausführlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Korpus, das einen Auszug aus GoogleBooks darstellt, nach Wörtern oder Wortketten suchen und sich ihren Häufigkeitsverlauf anzeigen lassen. Dabei wird die Gebrauchsfrequenz errechnet, indem das Gesuchte (das n-gram, wobei n für die Zahl der Wörter im Suchbefehl steht) durch die Gesamtwortzahl des entsprechenden Jahres geteilt wird.

Die Sache ist für uns aus vielen tausend Gründen problematisch: wilde Textsortenzusammensetzung des Korpus – aber für Englisch gibt es immerhin Unterkorpora wie Fiction, American English und British English –, die Korpusgröße variiert stark, d.h. Funde zu einem relativ frühen Zeitpunkt (z.B. 1800) schlagen stärker zu Buche als später (z.B. 2000), auch wenn normalisiert wurde, …

Messer, Gabel, …

Ein paar mögliche Probleme habe ich mal mit der Suche nach „Messer,Gabel,Löffel“ für 1900 bis 2000 durchgespielt. Man könnte hier den Eindruck erhalten, die Gabel trete am seltensten auf und das Messer sei enorm viel häufiger (alle Diagramme führen direkt zur entsprechenden Suchanfrage mit größeren Darstellungen):

Den Rest des Beitrags lesen »

Werbung

Von r, Nasalstrichen und Häkchen

17. Dezember 2010

Ich trage seit Urzeiten die Kindheitserinnerung mit mir herum, dass ich lange Zeit dachte, die Goten bei Asterix und die Goten hätten einen Sprachfehler, weil sie immer f statt s sagten. Wer’s nicht kennt: Die Goten “sprechen” in Frakturschrift. Das ist eine sogenannte “gebrochene Schrift”, die neben dem runden <s> auch das lange <ſ> besitzt. (Die Verteilung ist ganz grob: Silbenanfang und -mitte <ſ>, Silbenende <s>.) Nun habe ich eben einmal nach einem Beispiel gegooglet und entdeckt, dass die Erinnerung wohl falsch ist: In den Comics wird immer das <s> benutzt. Hier z.B. müsste das <ſ> in <marschieren>, <ist> und <Lust> stehen und auch hier ist es nirgends zu finden. Eine vom heutigen Standpunkt aus leserfreundliche Entscheidung.

Dass <ſ> und <f> sich in gebrochenen Schriften sehr ähnlich sehen, ist ja recht weit verbreitetes Wissen:

nit vstopffē lassē

r gegen r!

Aber wusstet Ihr, dass es zwei Schreibungen von <r> gab? Schaut mal:

.../deßhalben sol man sich daruor hüten/vnd sonderlich/vor grossem zoren/Vnmuot/Sorgfeltigkayt/vnnd forchte des todts

Den Rest des Beitrags lesen »


Wie man ein Korpus zusammenstückelt und einen Teufelspakt schließt

3. Dezember 2010

Ich bin momentan dabei, eine Sammlung frühneuhochdeutscher Texte (ein „Korpus“), aus denen man idealerweise Aussagen über das Deutsch der damaligen Zeit ableiten kann, für mein Dissertationsvorhaben anzupassen. Das Korpus wurde ursprünglich zusammengestellt, um die Entstehung der Substantivgroßschreibung zu untersuchen, deshalb machte es z.B. nichts aus, dass auch übersetzte Texte darin enthalten waren. Bei meiner Fragestellung habe ich aber ein bißchen Angst, dass die Wort- und Satzstruktur durch direkte lateinische Vorlagen beeinflusst sein könnte. Deshalb werfe ich übersetzte Texte raus und nehme andere rein.

Ich war also in der letzten Zeit viel auf der Suche nach passenden Texten – sie müssen aus bestimmten Zeitspannen sein, als Drucke vorliegen und von bestimmten Druckorten (oder wenigstens aus deren Dialektgebiet) stammen. Ach ja, Gereimtes darf auch nicht. Und mindestens 4000 Wörter lang. Und sie müssen Originale oder Faksimiles als Vorlage haben.

Perfekt sind Texte, die elektronisch vorliegen, wie z.B. die Texte des Bonner Frühneuhochdeutschkorpus. Auch bei Wikisource findet sich für vergangene Jahrhunderte einiges, was sorgfältig von den Originalen abgetippt und korrekturgelesen wurde und sich damit auch bei Unsicherheiten immer vergleichen lässt. Weniger perfekt, aber als Lückenfüller geeignet ist auch GoogleBooks – die Texterkennung, die man über die alten Drucke gejagt hat, taugt zwar für Fraktur nichts, aber man kann sich viele alte Bücher als Pdf runterladen und dann per Auge durchsuchen. Ansonsten gibt es auch noch eine ganze Reihe von Unibibliotheken, die ihre alten Drucke und Manuskripte als Bilder digitalisieren, z.B. Heidelberg und Göttingen. (Heidelberg hat auch eine enorm ausführliche Linkliste zum Thema.)

Auf meiner Suche habe ich viele Texte angelesen – auch welche, die gar nicht geeignet, aber dafür sehr kurios sind. Zum Beispiel diesen (Foto von Historiograf):

Den Rest des Beitrags lesen »


Wörter auf -nf

10. Oktober 2010

Vor einer Weile kam jemand mit der Suchanfrage

wörter mit endung nf

hierher. Offline könnte man so etwas mit einem sogenannten „rückläufigen Wörterbuch“ herausfinden. Aber was’n Stress!

Meine Online-Standardlösung in solchen Fällen ist canoo.net. Ging hier aber erstmal nicht, denn da muss man mindestens drei Buchstaben eingeben. Die Anfrage *nf führt zu “Bitte seien Sie genauer: Wildcards sind erst ab 3 Buchstaben erlaubt”. Wie nervig, es will ja keiner tausend (= 30) Abfragen mit *anf, *bnf, … machen!

Aber elexiko vom Institut für Deutsche Sprache ist kooperativ, es spuckt 15 Treffer aus. Sucht man sich davon nur die einfachen Wörter aus, schnurrt die Zahl derer auf –nf ganz schnell auf vier zusammen: Hanf, Senf, fünf und der Eigenname Genf. Sind das schon alle? Den Rest des Beitrags lesen »


[Schplock goes English] How to pronounce German ö and ü

11. Juli 2010

This post has been moved to sprachlog.de – click here to read it!