Blindtextgenerator nach aktuellen Themen und Sprache

Erste Version eines Blindtextgenerators dessen Texte je nach Trainingsdaten den Schreibstil, die Wortwahl und die Sprache ändert. Es folgen Beispiele ..

EDIT: Aufgrund der berechtigten Hinweise, heben wir die Zeichensetzung verbessert und einen Absatz eingebaut.

Ein Klick auf “Nochmal!” generiert drei neue Texte zum entsprechenden Thema.

Dantes Göttliche Komödie: Eine semidiotische Analyse

Es ist die mystische Verklärtheit, die Dantes Werk – und im Besonderen der Divina Commedia – ihre seit Jahrhunderten anhaltende Faszination verleiht. Die “Göttlich Komödie” wurde erst kürzlich wieder ins Licht der Öffentlichkeit (nicht nur bei Verschwörungstheoretikern) gezerrt, nachdem der berühmt fiktive Kunsthistoriker Robert Langdon im neuen Roman von Dan Brown auf den infernalen Spuren Dantes durch Florenz und Venedig springt. Langdon ist Spezialist für Symbole. Auch wenn die Symbologie zwar ebenso wenig mit Semiotik zu tun hat, wie die Disziplin der Semidiotik, kann die Definition doch Licht ins Dunkle bringen.

Die erkenntnistheoretische Wissenschaftsdisziplin der Semiotik (altgr. σημεῖον sēmeĩon „Zeichen“, „Signal“) befasst sich mit Zeichensystemen im allgemeinen  (zum Beispiel Bilderschrift, Gestik, Formeln, Sprache, Verkehrszeichen). Die Semidiotik ist dem sehr ähnlich und mindestens genauso ernst zu nehmen!

Und tatsächlich: Semidiotisch betrachtet offenbart sich im alten Werk Dantes ein Detail, welches an Genialität und Schöpfungseifer der Mathematik der alten Ägypter in nichts nachsteht.

Ist es ein Zufall, oder eine geheime Botschaft, die Dante vor hunderten Jahren in seinem Werk versteckte? Diese Gleichverteilung über 3 Bücher mit 100 Kapiteln und mehr als 500000 Zeichen. Atemberaubend!

Hölle (Canto I-XXXIV)  Fegefeuer (Canto I-XXXIII) Paradies (Canto I-XXXIII)

Quellen

Datensatz der Analyse

Wikipedia: Dantes Göttliche Komödie
Text bei Projekt Gutenberg
Inferno von Dan Brown

Simple Novelty Detection – Am Beispiel der Neujahrsrede unserer Kanzlerin

MerkelAnspracheTimeTTR

Heute mal ein kleiner Exkurs. Weg von Netzen hin zur Bestimmung des Neuigkeitsgrades einer Information, die in einem Text gegeben wird.

Spezieller geht es darum, einen gegebenen Text, ohne jegliche Segmentierung an der Oberfläche durch Absätze, in inhaltlich logische Segmente zu zerlegen.

Es gibt viele Verfahren, die zu diesem Zwecke instrumentalisiert werden können. In der hohen Wissenschaft bzw. bei einer der renommiertesten internationalen Konferenzen zur Textanalyse, der TRAC (Text Retrieval Conference), gab es schon eigene Tracks, die sich ausschließlich diesem Thema (novelty detection) widmeten. Daher ist es kaum verwunderlich, dass sich hochmathematische Papers finden lassen, in denen  alle Arten an machine-learning-Algorithmen zum Einsatz kommen und neben der Anwendung statistischen Verfahren, Texte auch in Form von Graphen und/oder Vektoren repräsentiert betrachtet werden, um den Neuigkeitsgrad zu bestimmen.

Alles für die Wissenschaft! Continue reading

MTLD neu implementiert

Sprachprofilanalyse

Tulpe L2 v2 nimmt Fahrt auf! Inzwischen haben wir das Framework portiert und den Algorithmus zur Berechnung des Wertes für MTLD (measure of textual lexical diversity) neu implementiert. Wenn alles gut geht kommt die neue Version unserer Profilanalysesoftware noch dieses Jahr online!

MTLD steht für measure of textual lexical diversity. Das Verfahren kam erstmals im LDAT (Lexical Diversity Assessment Tool) zur Anwendung (vgl. McCarthy, P.M., & Jarvis, S. 2010).
MTLD, vocd-D, and HD-D: A validation study of sophisticated approaches to lexical diversity assessment, Behavior Research Methods, 42(2): 381-392 Continue reading