Navigation auf uzh.ch
Auf dieser Seite wird der Ablauf von der Erhebung der Daten für das Projekt bis hin zur Visualisierung der Ergebnisse beschrieben.
Zunächst wurden aus den HTML-Dateien saubere XML-Dateien generiert, wofür wir ein selbstentwickeltes Python-Programm verwenden.
Einerseits werden dabei die Korpus-Dateien generiert, die den Text enthalten, andererseits Dateien, welche die Metadaten enthalten. Mit einem Tagger wurden die Texte ausserdem tokenisiert und getaggt. Der Tagger basiert auf der gratis verfügbaren FreeLing-Plattform (Link).
Die saubere, getaggte XML-Datei sieht schliesslich so aus (Ausschnitt):
Dazu sind die Metadaten in einer separaten Datei festgehalten (publicationID und authorID verlinken die Datensätze):
Jeder Datensatz wird manuell nochmal durchkorrigiert. Dazu wird die XML-Datei mit dem Python-Programm zu einer Webanno-Importdatei umgewandelt, welche dann zu Webanno importiert wird.
In dieser Oberfläche kann nun jeder Satz einzeln korrigiert oder mit weiteren Annotationen versehen werden. Ist die Korrektur/Annotation abgeschlossen, wird eine Webanno-Datei exportiert, die wieder zur eigenen XML-Struktur konvertiert wird.
Zur Auswertung der Daten bedienen wir uns wiederum eines eigenen Python-Skriptes, welches es ermöglicht, nach ganz bestimmten Wort-, POS- oder Dependent-Kombinationen zu suchen.
Es ist auch möglich, die Suche auf bestimmte Jahre, Autoren, usw. zu beschränken. Die Suche gibt zwei Dateien aus: Erstens eine HTML-Datei, in der die Suchergebnisse dank Markup deutlich angezeigt werden können. Zweitens eine XML-Datei, die der Standard-Struktur entspricht, aber auf die gefundenen Sätze beschränkt ist.
Die gefundenen Daten können dann von Hand weiter ausgewertet und verglichen werden.
Die gefundenen Daten können mit R und googleVis schliesslich auf Motioncharts dargestellt werden.