Page Content
Abstract
Der Bearbeitungsverlauf von
Texten ist Gegenstand mehrerer Untersuchungen im Bereich der
Computerlinguistik. Diese Arbeit beschreibt das methodische Vorgehen
bei der Erstellung eines Korpus, welcher aus dem Bearbeitungsverlauf
von Online- Nachrichtenartikeln besteht. Die Datengrundlage bilden
Artikel aus dem QuoteMine- Korpus. Im
ersten Schritt wird eine Ähnlichkeitsanalyse dargestellt, welche
zum Ziel hat, Versionen eines Artikels zu erkennen und einander
zuzuordnen. Im zweiten Schritt wird das Vorgehen der Extraktion,
Typisierung und Quantifizierung textueller Änderungen zwischen
chronologisch aufeinanderfolgenden Artikelversionen beschrieben.
Hierbei wird eine Distanzmetrik mit 47 Kennziffern erläutert,
welche die Grundlage für die Quantifizierung bildet. Das Ergebnis
ist ein Korpus mit 7.429 Artikelverläufen und 31.172 quantifizierten
textuellen Änderungen.