direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Page Content

Short info

Candidate: Oleksii Gopanchuk Advisor: Prof. Dr. Volker Markl / Dr. Alexander Löser Desired degree: Diplom

Abstract

Einleitung
Heutzutage wird immer mehr Information automatisch bearbeitet und analysiert. Die automatisierte Extraktion von strukturierten Daten aus unstrukturierten Texten gewinnt immer mehr an Bedeutung. Diesen Ansatz verfolgt unter anderem das Projekt GOOLAP der Technischen Universität Berlin. Es hat zum Ziel, existierende strukturierte Daten mit extrahierten Daten aus dem Web zu ergänzen und darüber OLAP-ähnliche Anfragen auszuführen. Um die Richtigkeit der gewonnen Information zu gewährleisten, muss eine Qualitätskontrolle der, durch automatische Algorithmen bearbeiteter, Information stattfinden. Diese Kontrolle muss zum Teil durch einen Mensch erfolgen, jedoch ist es sehr wichtig diesen Teil zu minimieren, weil es zu viel an Daten gibt, dass der Mensch alles kontrollieren kann.

Herausforderungen und Fragestellung der Arbeit
Ein Schwerpunkt bei der Sicherung der Qualität der extrahierten Information ist die Bewertung der einzelnen Regeln für die Extraktion dieser Information. Die ausstehende Arbeit basiert auf existierenden Vorarbeiten zur Relationship Extraction [1, 2, 3]. Ein wesentliches Problem dabei ist der Vergleich zwischen automatisch extrahierten Information und Informationen, die ein Mensch für sich „extrahieren“ kann. Zur Automatisierung von diesem Vergleich wird ein, auf die vorhandene Regel abgestimmtes, annotiertes Datensatz benötigt. Das Erstellen von dem Datensatz benötigt viel menschlichen Einsatz, der, soweit
wie möglich, erleichtert werden soll. Auch die Auswahl der richtigen Bewertungsmethode für die Qualität der Regel und Vergleich zur Konkurrenz soll Bestandteil der Arbeit sein.


Das methodische Vorgehen der Arbeit beinhaltet die Untersuchung folgender
Fragestellungen:

1.
Reduzierung des menschlichen Aufwandes bei erstellen von annotirtem
Datensatz für Qualitätskontrolle. Ein Mensch erkennt in einem Text sofort Fakten, die ihn interessieren – ein Computer braucht dafür gewisse Regeln. Um herausfinden zu können welche dieser Regeln gut sind wird ein von Menschen annotiertes Datensatz benötigt. Der Aufwand um diesen Datensatz zu erstellen wächst sehr schnell mit der Anzahl von Regeln, weil eine Regel mehrere Patterns hat und die neu hinzugekommene Texte mit alten und neuen Regeln annotierten werden müssen. Um diese Arbeit zu erleichtern kann man halb-manuelles Annotieren einsetzen. Dabei werden die einzelne Fakten, wie Person, Organisation, Ort, etc., automatisch mit Hilfe von einzelnen dafür abgestimmten Annotatoren annotiert. Viel interessanter ist zu wissen in welcher Beziehung einzelne Objekte zueinander stehen, deswegen wird im
nächsten Schritt einem Menschen alle mögliche Beziehungen zwischen den Onjekten präsentiert. Aus dieser Liste wählt er dann die Richtigen, die aus dem gegebenen Text ersichtlich sind. Das Aufbauen von diesem Datensatz wird mit Hilfen von online Service realisiert, den viele Menschen benutzen können, damit er schneller aufgebaut werden kann. Die von anderen schon annotirten Beziehungen werden ausgefiltert, damit keine doppelte Arbeit gemacht wird.

2.
Entwicklung der Auswahlmethoden für Patterns. Die einfachsten Parameter, mit
denen die Patterns ausgewählt werden können, sind Recall und Precision. Diese Parameter berücksichtigen aber keine andere Einflussfaktoren (z.B. wie
vertrauenswürdig die Quelle ist). Ohne Zweifel sind das die wichtigsten
Bewertungskriterien, sie zeigen die Trefferquote (Recall) und Genauigkeit (Precision) in einem Text. Möglich wäre noch einen Gewichtungsfaktor einzuführen, mit dem Patterns, die von vertrauenswürdigen Webseiten (siehe nächsten Abschnitt) extrahiert wurden, einen größeren Gewichtungsfaktor zuweist.

3.
Auswahl der geeigneten Texten und Aufbau eines Datensatzes für
Qualitätskontrolle der Patterns. Es stellt sich die Frage, welche Texte sind am
besten für den Datensatz geeignet. Diese Texte sollten so viel wie möglich Patterns abdecken, dennoch sollen sie auch zusammenhängend und sinnvoll sein, damit die Situation mit der Realität vergleichbar bleibt. Mit dem Hinzukommen neuer Relationen müssen auch neue Texte annotiert und in den Datensatz aufgenommen werden. Das Heraussuchen von diesen Texten soll nach Möglichkeit automatisch durchgeführt werden. Sinnvoll wäre eine Liste von Webseiten oder bestimmten Bereichen von Webseiten, in denen am häufigsten die uns interessierende Texte vorkommen und die als vertrauenswürdig gelten. Zum Beispiel sind Wirtschafts- und Politikbereiche der großen achrichtenwebseiten sehr gut dafür geeignet. Danach kann ein Mensch
die am besten passende Texte auswählen.

4.
Vergleich zu Konkurrenz (z.B. OpenCalais). Um einen sinnvollen Vergleich
zwischen GOOLAP und OpenCalais zu machen muss man einige Probleme
erkennen und sie lösen. Ein Problem ist der Semantic Mismatch. Z.B. Erkennt
OpenCalais die Relationen satzübergreifend (z.B. mit Hilfe pronominaler Anaphora-Auflösung), während Goolap nur Relationen pro Satz erkennen kann. Hinzu kommt das Mapping der erkannten Relationship-Typen von GoOlap auf Calais. Es stellt sich auch die Frage welche Parameter für einen Vergleich benutzt werden sollen.

Literatur:
[1] Ralf Heyde. Nicht überwachte Relation Extraktion auf Basis eines parallel verarbeitenden
Systems. TU Berlin 2009
[2] Martin Bach. Extraktion komplexer Relationen aus englischsprachigen Webseiten. TU
Berlin 2010
[3] Oleg Majevsky.

Zusatzinformationen / Extras