TU Berlin

Fachgebiet Datenbanksysteme und InformationsmanagementAutomatisierte Extraktion textueller Änderungen aus dem Bearbeitungsverlauf von Online-Nachrichtenartikeln

Logo FG DIMA-new  65px

Inhalt

zur Navigation

Kurzinfo

Bearbeiter: Christian Niedrich

Betreuer: Alan Akbik

Angestrebter Abschluss: Diplom

Zusammenfassung

Der Bearbeitungsverlauf von Texten ist Gegenstand mehrerer Untersuchungen im Bereich der Computerlinguistik. Diese Arbeit beschreibt das methodische Vorgehen bei der Erstellung eines Korpus, welcher aus dem Bearbeitungsverlauf von Online- Nachrichtenartikeln besteht. Die Datengrundlage bilden Artikel aus dem QuoteMine- Korpus. Im ersten Schritt wird eine Ähnlichkeitsanalyse dargestellt, welche zum Ziel hat, Versionen eines Artikels zu erkennen und einander zuzuordnen. Im zweiten Schritt wird das Vorgehen der Extraktion, Typisierung und Quantifizierung textueller Änderungen zwischen chronologisch aufeinanderfolgenden Artikelversionen beschrieben. Hierbei wird eine Distanzmetrik mit 47 Kennziffern erläutert, welche die Grundlage für die Quantifizierung bildet. Das Ergebnis ist ein Korpus mit 7.429 Artikelverläufen und 31.172 quantifizierten textuellen Änderungen.

Navigation

Direktzugang

Schnellnavigation zur Seite über Nummerneingabe