Den Informationsgehalt eines Wortes zu bestimmen, ist allerdings schwierig, da er auch vom Kontext im Satz abhängt. Für ihre Analyse gingen die Forscher daher von der Annahme aus, dass ein Wort umso weniger Informationen transportiert, desto vorhersehbarer es ist. Ein Beispiel ist das Wort „stumm“ in den beiden folgenden Sätzen: Bei „ein Männlein steht im Walde, ganz still und stumm“ drängt es sich nach dem „und“ nahezu auf, vermittelt jedoch keine Information, die nicht schon im Rest des Satzes enthalten gewesen wäre. Dagegen ist es bei „das Wort, das Du jetzt hören wirst, ist ?stumm?“ absolut unverzichtbar – fehlt es, fehlt gleichzeitig eine Schlüsselinformation im Satz. Dieses Prinzip machten sich die Forscher zunutze, indem sie eine mathematische Formel für die Wahrscheinlichkeit entwickelten, mit der ein Wort mit anderen Wörtern verknüpft ist, und daraus den durchschnittlichen Informationsgehalt errechneten. Diese Formel wendeten sie auf tschechische, niederländische, englische, französische, deutsche, italienische, portugiesische, rumänische, spanische und schwedische Texte an.
Anhand des so berechneten Informationsgehaltes ließ sich die Wortlänge tatsächlich besser vorhersagen als auf Basis der Häufigkeit des Wortes, zeigte die Auswertung – auch wenn es sich um ein recht stark vereinfachtes Modell gehandelt habe, sagt Piantadosi. Er vermutet, dass das Verhältnis zwischen Wortlänge und Informationsgehalt nicht nur die Effizienz bei der Vermittlung von Inhalten steigert, sondern auch das Verständnis beim Leser oder Zuhörer verbessert: Wenn Informationsgehalt und Länge eines Wortes zusammenhängen, ist die Informationsdichte sehr gleichmäßig, das heißt, ein Sprecher vermittelt pro Zeiteinheit immer etwa gleich viele Informationen. Gäbe es diesen Zusammenhang nicht, würde es immer wieder zu einer Verdichtung im Informationsfluss kommen, bei der sehr schnell sehr viele Daten transportiert werden. Verpasst man diesen Moment oder versteht den Sprecher nicht richtig, verliert die Sprache an Effizienz.