direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Page Content

Short info

Candidate: Philipp Keese

Advisor: Alan Akbib, Martin Schenck

Desired degree: Diploma

Abstract

Zitate sind eine beliebte Art in Nachrichtenartikeln Themen fundiert aufzuarbeiten. In der vorliegenden Arbeit wurde untersucht, wie sich Zitate und deren Sprecher möglichst vollständig aus Webdokumenten in deutscher Sprache mit regelbasierten Techniken extrahieren lassen. Zusätzlich wurden Appositionen zu den Sprechern und Themen extrahiert.

Im ersten Schritt wurden verschiedene Text Mining Techniken untersucht und auch Anwendungsfälle der Zitatextraktion analysiert. Als größte Herausforderungen stellten sich im Verlauf der Untersuchungen, die Erkennung der Sprecher und deren Zuordnung zu den richtigen Zitaten, heraus. Nach einem Vergleich der verschiedenen verwendeten Ansätze und der Einbeziehung des erarbeiteten Wissens im Rahmen des Semesterprojekts „QuoteMine“ wurde eine Pipeline in Java erarbeitet. Diese extrahiert regelbasiert Zitate, die zugehörigen Sprecher und Themen aus Webdokumenten.

Im zweiten Schritt wurde ein Gold Standard annotiert, um messbare Ergebnisse zu erzielen. In Ergänzung dazu wurde ein Java Package implementiert, welches die Extraktoren für Zitate, Sprecher und Themen automatisiert validiert. Nach der Fertigstellung konnte die Pipeline auf diesem Wege hinsichtlich der Parameter Precision und Recall für jede Änderung im Vergleich zur Baseline validiert werden. Durch diese Herangehensweise konnten deutliche Verbesserungen der Parameter erreicht werden. Dabei wurden verschieden POS und NER Tagger getestet und unterschiedlicher Algorithmen zur Erkennung und Zuordnung von Sprechern. Das finale Ergebnis zeigt eine Verbesserung zu den Ergebnissen von QuoteMine auf.

Zusatzinformationen / Extras