direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

Short info

Candidate: Christian Niedrich

Advisor: Alan Akbik

Desired degree: Diploma

Abstract

Der Bearbeitungsverlauf von Texten ist Gegenstand mehrerer Untersuchungen im Bereich der Computerlinguistik. Diese Arbeit beschreibt das methodische Vorgehen bei der Erstellung eines Korpus, welcher aus dem Bearbeitungsverlauf von Online- Nachrichtenartikeln besteht. Die Datengrundlage bilden Artikel aus dem QuoteMine- Korpus. Im ersten Schritt wird eine Ähnlichkeitsanalyse dargestellt, welche zum Ziel hat, Versionen eines Artikels zu erkennen und einander zuzuordnen. Im zweiten Schritt wird das Vorgehen der Extraktion, Typisierung und Quantifizierung textueller Änderungen zwischen chronologisch aufeinanderfolgenden Artikelversionen beschrieben. Hierbei wird eine Distanzmetrik mit 47 Kennziffern erläutert, welche die Grundlage für die Quantifizierung bildet. Das Ergebnis ist ein Korpus mit 7.429 Artikelverläufen und 31.172 quantifizierten textuellen Änderungen.

Zusatzinformationen / Extras