TU Berlin

Database Systems and Information Management GroupA Workflow for Defining Information Extraction Patterns

Logo FG DIMA-new  65px

Page Content

to Navigation

Short info

Candidate: Oresti Konomi

Advisor: Alan Akbik

Abstract

Informationsstrukturierung ist ein wichtiges Werkzeug zur Aufbereitung von unstrukturierten Daten, die unter anderem in Form von Texten vorliegen. Die modernen Informationsstrukturierungssysteme müssen sowohl mit tagtäglich wachsenden Datenmenge skalieren als auch mit besserer Qualität des Ergebnisses aufwarten können. In dieser Ausarbeitung wird daher ein Konzept vorgestellt, wie solch ein System aussehen könnte. Hierbei wird die Verbesserung der Qualität des Ergebnisses auf dem Wege der Nutzung von lexiko-syntaktischen Pattern angestrebt, kombiniert mit der horizontaler Skalierung. Schlussendlich wird anhand von Testreihen ermittelt, wie gut die gewählte Persistenzform sich gegenüber dem RDF-Datenmodell behaupten kann und wie sich die horizontale Skalierung auf die Ausführungszeiten auswirkt.

Navigation

Quick Access

Schnellnavigation zur Seite über Nummerneingabe