[Werkzeug] Es läppert sich …

24. August 2011

Kürzlich kam jemand mit der Suchanfrage es läppert sich ethymologisch hierher. Zu ethymologisch hab ich schon mal was geschrieben, zum Läppern aber nicht. Wie zur Herkunft vieler anderer Wörter oder Phrasen auch nicht. Daher gibt’s heute ein bißchen Hilfe zur Selbsthilfe.

Will man die Bedeutungs- und Lautgeschichte eines Wortes erkunden, dann hilft ein Blick in ein sogenanntes “Etymologisches Wörterbuch”. Für das Deutsche gibt es da mehrere, zum Beispiel den Kluge, den Pfeifer und das Duden-Herkunftswörterbuch (genaue Angaben s.u.). Ich habe früher meist den Kluge benutzt, finde aber Pfeifer mittlerweile besser, weil er mehr Wortbildungen verzeichnet. Und die gute Nachricht: Die Einträge aus dem Pfeifer gibt es auch online, und zwar auf der DWDS-Seite.

Einfach in das Suchfeld das fragliche Wort (hier: läppern) eingeben. Die Suche erfolgt in allen Komponenten des DWDS (das sind u.a. Korpora und ein “normales” Wörterbuch) und die Ergebnisse werden in kleinen Kästen präsentiert. Der Etymologie-Kasten befindet sich oben rechts, hier orange  hinterlegt:

Da zeigt sich dann, dass es läppert sich (bzw. es läppert sich zusammen) die Bedeutung ‘in kleinen Mengen zusammenkommen’ hat. Sie lässt sich mit der Geschichte des Verbs läppern recht gut nachvollziehen: Den Rest des Beitrags lesen »


[Schplock goes English] Last names in Germany

14. März 2011

This is a (slightly modified) translation of a text I wrote in January on the distribution of last names in Germany. It was requested by Petra and I hope it meets your expectations! My heartfelt thanks go to Robert for proofreading, all remaining errors are of course my own.

During the Christmas holidays I noticed once more how names can shape a region. When I’m travelling south, I realize that I’ve arrived home not only because the Alemannic dialect creeps into people’s speech but also because people are suddenly named Himmelsbach, Göppert and Ohnemus: Names that are, to my ear, deeply rooted in the region.

And sure enough: All of them can be shown to have the highest frequency in “my” or one of the neighboring districts (“Landkreise”). I then discovered an excellent strategy to find more of these last names: I scrolled through the facebook friends of my relatives. (And I got lots of ideas doing that – you could analyze public facebook profiles that specify the place of residence in order to created a city’s “name profile”. You could put more weight on names of high school students, because they tend to live were they were born. Major cities would have to be ignored because people move a lot, etc. However that research strategy might border on illegality and would set a rather bad example concerning privacy.)

So, what to do if you suspect that a last name is typical for a certain region? How can you localize it? Den Rest des Beitrags lesen »


Mehr Spaß mit Ngrams

28. Januar 2011

Heute gibt es ein buntes Sammelsurium von Abfragen mit dem Ngram Viewer. Ich finde sie alle aus dem einen oder anderen Grund ganz erhellend. Vielleicht ja sonst noch wer?

Ab wann ist das Korpus brauchbar?

Meine “schönste” Abfrage ist sicher die folgende, die ich kürzlich (in einer minimal abweichenden Version) auch in den Sprachlog-Kommentaren gepostet habe:

Wie man sieht, wenn man draufklickt, habe ich Allerweltswörter abgefragt: der, die, und, in, … Das sind Wörter, die so häufig sind, dass man in einem ausgewogenen Korpus eigentlich keine großen Schwankungen erwarten würde. Man braucht sie einfach immer, für jeden Text. Klar, das geht nicht unbegrenzt weit zurück, irgendwann sind die Artikel ja auch entstanden, und Personalpronomen waren z.B. im Althochdeutschen noch lange nicht so gebräuchlich wie heute. Aber für die späte frühneuhochdeutsche und neuhochdeutsche Zeit, die der Ngram Viewer abdeckt, sollte es doch einigermaßen passen. Den Rest des Beitrags lesen »


[Werkzeug] Burnouts bei Cosmas II

25. Januar 2011

Ein Freund hat mich gefragt, ob die Verwendung des Begriffs Burnout seit den 1990ern in Zeitungstexten zugenommen habe und wie er das herausfinden könne. Für eine medizinische Doktorarbeit. Juhu, konkreter Nutzen für die Menschheit involviert!

Nun gibt es elektronische Textsammlungen, mit denen sich solche Abfragen machen lassen, aber oft sind sie für Laien schwer zu durchschauen. (Und ich will nicht behaupten, dass ich da den vollen Durchblick hätte.) Eine davon ist das Deutsche Referenzkorpus, das man über Cosmas II nutzen kann. Bei Beiträgen zum Anglizismus des Jahres 2010 kamen schon öfter Recherchen dazu vor, jetzt will ich einmal exemplarisch zeigen, wie man an solche Fragestellungen herangehen kann.

Ich benutze hier die Weboberfläche, aber man kann sich die Software auch installieren. Zuerst braucht man aber (aus rechtlichen Gründen) auf jeden Fall ein Nutzerkonto. Leider ist die Navigation der Oberfläche suboptimal, man muss ständig zwischen der horizontalen Leiste und der linken Spalte hin- und herspringen. Zunächst einmal oben auf “Anmeldung”, dann links auf “Login” und dann oben wieder auf “Recherche”. Und wieder links auf “Archiv”. Hier kann man jetzt unter den folgenden Archiven auswählen:

  • W – Archiv der geschriebenen Sprache
  • W-ÜBRIG – Archiv der aussortierten geschriebenen Korpora
  • HIST – Archiv der historischen Korpora
  • GFDS – Kartei der Gesellschaft für deutsche Sprache
  • TAGGED – Archiv der morphosyntaktisch annotierten Korpora
  • WK-PH – Archiv der phasengegliederten Wendekorpora
  • W-TAGGED – Auswahl mit CONNEXOR getaggter Korpora

Für unsere Zwecke brauchen wir das W-Archiv, die anderen sind entweder zeitlich nicht relevant oder zu klein oder beides. Nach dem Klick darauf erscheint eine Übersicht über alle “virtuellen Korpora”, die darin enthalten sind. Das sind hauptsächlich Zeitungstexte aus ganz verschiedenen Jahren und ganz verschiedenen Umfangs. Damit wir sicher sagen können, dass es eine relative Zunahme von Burnout gibt, müssen wir sicherstellen, dass wir für alle untersuchten Jahre ungefähr gleiche Textmengen haben – wir brauchen also Zeitungen, die die gleichen Jahrgänge abdecken.

Den Rest des Beitrags lesen »


Namenlandschaften 1: Große Flächen

3. Januar 2011

Dieser Artikel ist ins neue Sprachlog umgezogen und ab sofort hier zu finden!


[Werkzeug] Ngram Viewer

20. Dezember 2010

Beim Language Log wurde ja schon ausführlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Korpus, das einen Auszug aus GoogleBooks darstellt, nach Wörtern oder Wortketten suchen und sich ihren Häufigkeitsverlauf anzeigen lassen. Dabei wird die Gebrauchsfrequenz errechnet, indem das Gesuchte (das n-gram, wobei n für die Zahl der Wörter im Suchbefehl steht) durch die Gesamtwortzahl des entsprechenden Jahres geteilt wird.

Die Sache ist für uns aus vielen tausend Gründen problematisch: wilde Textsortenzusammensetzung des Korpus – aber für Englisch gibt es immerhin Unterkorpora wie Fiction, American English und British English –, die Korpusgröße variiert stark, d.h. Funde zu einem relativ frühen Zeitpunkt (z.B. 1800) schlagen stärker zu Buche als später (z.B. 2000), auch wenn normalisiert wurde, …

Messer, Gabel, …

Ein paar mögliche Probleme habe ich mal mit der Suche nach “Messer,Gabel,Löffel” für 1900 bis 2000 durchgespielt. Man könnte hier den Eindruck erhalten, die Gabel trete am seltensten auf und das Messer sei enorm viel häufiger (alle Diagramme führen direkt zur entsprechenden Suchanfrage mit größeren Darstellungen):

Den Rest des Beitrags lesen »


Von r, Nasalstrichen und Häkchen

17. Dezember 2010

Ich trage seit Urzeiten die Kindheitserinnerung mit mir herum, dass ich lange Zeit dachte, die Goten bei Asterix und die Goten hätten einen Sprachfehler, weil sie immer f statt s sagten. Wer’s nicht kennt: Die Goten “sprechen” in Frakturschrift. Das ist eine sogenannte “gebrochene Schrift”, die neben dem runden <s> auch das lange <ſ> besitzt. (Die Verteilung ist ganz grob: Silbenanfang und -mitte <ſ>, Silbenende <s>.) Nun habe ich eben einmal nach einem Beispiel gegooglet und entdeckt, dass die Erinnerung wohl falsch ist: In den Comics wird immer das <s> benutzt. Hier z.B. müsste das <ſ> in <marschieren>, <ist> und <Lust> stehen und auch hier ist es nirgends zu finden. Eine vom heutigen Standpunkt aus leserfreundliche Entscheidung.

Dass <ſ> und <f> sich in gebrochenen Schriften sehr ähnlich sehen, ist ja recht weit verbreitetes Wissen:

nit vstopffē lassē

r gegen r!

Aber wusstet Ihr, dass es zwei Schreibungen von <r> gab? Schaut mal:

.../deßhalben sol man sich daruor hüten/vnd sonderlich/vor grossem zoren/Vnmuot/Sorgfeltigkayt/vnnd forchte des todts

Den Rest des Beitrags lesen »


Folgen

Erhalte jeden neuen Beitrag in deinen Posteingang.

Schließe dich 32 Followern an