TU Berlin

Database Systems and Information Management GroupGilbert: A distributed sparse linear algebra environment executed in massively parallel dataflow systems

Logo FG DIMA-new  65px

Page Content

to Navigation

Short info

Candidate: Christian Niedrich

Advisor: Alan Akbik

Desired degree: Diploma

Abstract

Der Bearbeitungsverlauf von Texten ist Gegenstand mehrerer Untersuchungen im Bereich der Computerlinguistik. Diese Arbeit beschreibt das methodische Vorgehen bei der Erstellung eines Korpus, welcher aus dem Bearbeitungsverlauf von Online- Nachrichtenartikeln besteht. Die Datengrundlage bilden Artikel aus dem QuoteMine- Korpus. Im ersten Schritt wird eine Ähnlichkeitsanalyse dargestellt, welche zum Ziel hat, Versionen eines Artikels zu erkennen und einander zuzuordnen. Im zweiten Schritt wird das Vorgehen der Extraktion, Typisierung und Quantifizierung textueller Änderungen zwischen chronologisch aufeinanderfolgenden Artikelversionen beschrieben. Hierbei wird eine Distanzmetrik mit 47 Kennziffern erläutert, welche die Grundlage für die Quantifizierung bildet. Das Ergebnis ist ein Korpus mit 7.429 Artikelverläufen und 31.172 quantifizierten textuellen Änderungen.

Navigation

Quick Access

Schnellnavigation zur Seite über Nummerneingabe