direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

Short info

Candidate: Oleg Mayevskiy Advisor: Prof. Dr. Volker Markl, Dr. Alexander Löser Desired Degree: Diploma    

Abstract

Zielstellung
Ziel der Diplomarbeit ist die Erweiterung des Informationsextraktionssystems ENJOY
[Bac10, Hey10, Sch10] um einen leistungsfähigen und skalierbaren webbasierten
Extraktionsdienst für Basis-, komplexe und generische Typen [CLRR10]. Dabei wird das
methodische Vorgehen der Arbeit auf folgende Fragestellungen unterteilt:

1a. Basis Extraktion
Der Dienst umfasst Basisextraktoren wie Sätze, Part-of-speech (Shallow Analysis),
listenbasierte Extraktoren, Named-entity-recognition (NER) sowie Extraktoren zum
Erkennen von Metriken und Datumsangaben.

1b. Extraktion binärer und komplexer Relationship-Typen
Eine Besonderheit ist die Extraktion von binären und komplexen Relationship-Typen
mittels vorab erlernter Muster [Bac10, Hey10, EBSW08, RF06, RF08]. Die Datenstruktur
der durch das ENJOY System erzeugten Muster wird als Grundlage für die Online-
Extraktion verwendet. Dazu sollen die Muster im Speicher gehalten werden (z.B. auf
Basis von [RRK+08, KSZ08]), damit die Verarbeitungszeit minimiert werden kann.

1c. Extraktion generischer Beziehungen zwischen zwei Basistypen
Nicht immer ist es möglich, jedem lexiko-syntaktischen Pattern zwischen Basistypen
einen eindeutigen Relationship-Typ zuzuweisen. Z.B. kann für das Muster „<Person>
died in <Location>“ noch kein Basisextraktor vorhanden sein, der eine Relation vom Typ
DiedIn(Person, Location) erkennt. Daher soll für jedes Auftreten von mindestens zwei
Instanzen von Basistypen innerhalb einer strukturellen Einheit (z.B. eines Satzes)
untersucht werden, ob ein möglicher Kandidat für einen binären oder komplexen
Relationship-Typ vorliegt. In der Arbeit werden dazu lexiko-syntaktische Muster [EBSW
08] für die englische Sprache verwendet.

2. Skalierbarer Web Dienst (REST und Human Interface)
Das ENJOY System wird um eine webbasierte Endbenutzer- und eine
Batchverarbeitungsschnittstelle erweitert. Analog zu anderen Diensten, wie z.B.
OpenCalais [Ope10], wird es dadurch möglich, einzelne oder mehrere tausend
englischsprachige Texte entgegenzunehmen und erkannte Instanzen für Relationship-
Typen und Basisentitäten z.B. im UIMA -JSON-CAS-Format [Sch09] zurückzuliefern.
Der Dienst soll möglichst skalierbar, das heißt auf mehreren Rechnern verteilt,
ausführbar sein.

3. Cache bereits extrahierter Instanzen
Ein weiteres wichtiges Ziel ist der Fokus auf die Parsegeschwindigkeit pro Dokument.
Die Bearbeitungszeit pro Dokument soll nicht länger als fünf Sekunden dauern. Dafür
wird der Cache auf bereits verarbeitete Dokumente untersucht. Zusätzlich dient der
Cache zur Analyse von extrahierten Instanzen. Z.B. kann über den Cache analysiert
werden, ob eine Instanz eines Relationship-Typen durch mehrere unterschiedliche
Muster und in mehreren Webseiten erkannt wurde. Ebenfalls ermöglicht der Cache die
Gewinnung von Statistiken aus dem laufenden Betrieb, so z.B. Informationen, welche
Relationship-Typen besonders häufig auftreten bzw. welche Muster besonders häufig
erkannt wurden. Statistiken dienen insbesondere auch zur Identifikation von besonders
häufigen Mustern generischer Beziehungen zwischen Basistypen, für die noch kein
Relationship-Extraktor existiert. Der Cache und Statistiken sollen in einem RDBMS
realisiert werden.

4. Systematisches Testen
Der Extraktionsdienst und Cache soll an Mustern für fünfzig Relationship-Typen getestet
werden. Dazu gehören zwanzig Muster für binäre und dreißig für komplexe Relationship-
Typen. 15 der 50 Relationship-Typen sollen vom Kandidaten selbst gewählt und durch
das ENJOY-Framework erzeugt werden, die Muster für die weiteren 35 Relationship-
Typen werden in anderen Diplomarbeiten erzeugt.

Besondere Schwierigkeit der Arbeit und Methodik
Die Arbeit erfordert eine enge Koordination mit anderen Arbeiten, z.B. in Bereich der
Erstellung der Regeln [Mark Jes10] oder im Bereich der Bewertung der extrahierten
Instanzen und dafür verwendeten Regeln [Oleksii10]. Es muss z.B. sichergestellt
werden, dass aus den Statistiken, die aus dem Cache ermittelt werden, auch
verwertbare Rückschlüsse für die Erhöhung der Genauigkeit und für das Training der
Relationship-Extraktoren gewonnen werden können. Eine weitere Anforderung ist die
produktionsnahe Leistungsfähigkeit des Prototypes, so ist es geplant, den Prototyp unter
realen Bedingungen (z.B. mit Webseiten des European Archive [EA10]) zu testen. Auf
der anderen Seite stehen bereits leistungsfähige Werkzeuge für die Basisextraktion zur
Verfügung. Für die Arbeit wird folgende Vorgehensweise vorgeschlagen:
· Recherche der Literatur (siehe unten)
· Erzeugung von fünf binären Relationship-Typen
· Entwicklung und Testen des Dienstes bzw. der Webschnittstelle
· Erzeugung von zehn komplexen Relationship-Typen
· Extraktion generischer Relationship-Typen
· Design und Implementierung des Caches und der Analyseskripte

Literatur
[Bac10] Martin Bach, Extraktion komplexer Relationen aus englischsprachigen
Webseiten. TU Berlin 2010, Diplomarbeit
[Hey10] Ralf Heyde, Nicht überwachte Relation Extraktion auf Basis eines parallel
verarbeitenden Systems. TU Berlin 2009, Diplomarbeit
[Sch09] Ronny Schwierzinski, Operatoren zur verteilten Informationsextraktion.
TU Berlin 2009, Diplomarbeit
[Mark Jes10] Mark Jesionowski, Erweiterung der JOY Sprache innerhalb des ENJOY
Systems. TU Berlin 2010, Diplomarbeit noch in Planung
[Oleksii10] Oleksii Gopanchuk, Entwicklung eines Testsystems für das ENJOY
System. TU Berlin 2010, Diplomarbeit noch in Planung
[EA10] European Archive. www.europarchive.org
(Last visited 01/07/10)
[EBSW08] Oren Etzioni, Michele Banko, Stephen Soderland, Daniel S. Weld: Open
information extraction from the web. Commun. ACM 51(12): 68-74 (2008)
[CLRR10] Laura Chiticariu, Yunyao Li, Sriram Raghavan, Frederick Reiss:
Enterprise information extraction: recent developments and open challenges. SIGMOD
Conference 2010: 1257-1258
[Ope10] OpenCalais. www.opencalais.com
(Last visited 01/07/10)
[RRK+08] Frederick Reiss, Sriram Raghavan, Rajasekar Krishnamurthy, Huaiyu
Zhu, Shivakumar Vaithyanathan: An Algebraic Approach to Rule-Based Information
Extraction. ICDE 2008: 933-942
[KSZ08] Rajasekar Krishnamurthy, Sriram Raghavan, and Huaiyu Zhu: "Evolution
of Rule-Based Information Extraction: From Grammars to Algebra", Tutorial given at
CIKM 2008.
[RF06] Binyamin Rosenfeld, Ronen Feldman: URES : an Unsupervised Web
Relation Extraction System. ACL 2006
[RF08] Benjamin Rosenfeld, Ronen Feldman: Self-supervised relation extraction
from the Web. Knowl. Inf. Syst. 17(1): 17-33 (2008)

Zusatzinformationen / Extras