Physiker entdecken eine versteckte Struktur in der Englischen Sprache

Zwei argentinische Physiker haben jetzt eine versteckte Struktur in der englischen Sprache entdeckt. Aus der Verteilung der Wörter in einem Text können sie mit Hilfe eines mathematischen Modells darauf schliessen, ob es sich bei einem Wort um ein Verb oder ein Nomen handelt. Ihr Modell könnte beispielsweise für das Entziffern verschlüsselter Nachrichten nützlich sein.
Schon 1940 untersuchte der amerikanische Soziologe George Kingsley Zipf die Struktur der Englischen Sprache. Seine Studenten zählten alle Worte in Shakespeare's Hamlet und stellten, nach der Häufigkeit ihres Vorkommens, eine Rangfolge auf. Auf Platz 1 landete das Wort "the", es kam mit 1087 mal am häufigsten vor. Zipf stellte weiter fest, dass das Vorkommen der Worte im "Hamlet" einem mathematischen Gesetz folgt: er trug den Logarithmus der Rangfolge eines Wortes gegen den Logarithmus der Worthäufigkeit auf und erhielt dadurch eine gerade Linie.

Dieses Gesetz scheint auch für andere englische Texte zu gelten, es sagt aber nichts über die Bedeutung eines Wortes aus. So liegt beispielsweise das Wort "or" auf Platz 45 in der Rangfolge und schon auf Platz 47 folgt das Wort "Hamlet". Sicherlich kommt das Wort "or" in allen von Shakespeare geschriebenen Schauspielen vor - "Hamlet" dagegen aber nur in einem. Einige Worte sind daher von genereller Bedeutung für alle Texte. Andere sind, selbst wenn sie in einem Text relativ häufig vorkommen, nur für diesen speziellen Text von Bedeutung.

Die argentinischen Physiker Marcelo Montemurro von der National University of Cordoba und Damian Zanette vom Centre for Atomic Science in Bariloche entwickelten jetzt ein neues Strukturmodell der englischen Sprache. Um die Bedeutung eines Wortes in die statistische Auswertung einzubinden teilten sie jedem Wort einen Faktor, die "Shannon Entropie", zu. Sie gibt an ob ein Wort von genereller Bedeutung für alle Texte ist. Ihr Modell testeten sie an allen von Shakespeare geschriebenen Stücken. Dabei stellten sie fest, dass sie allein durch die Verteilung der Wörter in einem Text darauf schliessen können ob es sich um ein Verb oder ein Nomen handelt.
Ralf Möller


Reload-Capcha neu laden Text der identifiziert werden soll

Bitte geben Sie zusätzlich noch den Sicherheitscode ein!

Rubriken

 


Harte Nuss
Rätsel: Berühmte Entdecker gesucht

 

Der Buchtipp

Eine kurzweilige Führung durch den Bienenstock mit einer erhellenden Dosis Wissenschaft – das bietet das Buch "Die Honigfabrik" von Jürgen Tautz.

Zu allen Buchtipps


Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der Konradin Mediengruppe