direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Page Content

Short info

Candidate: Sung-Ill Ann Advisor: Fabian Hüske

Abstract

1 Motivation

Deutschland hat ein umfangreiches Angebot von anerkannten Hochschulen und Studiengängen, das viele internationale Studenten dazu bewegt, ihr Stu- dium an einer deutschen Hochschule zu beginnen oder fortzuführen. Natürlich bringt so eine Entscheidung viele Ängste und Unsicherheiten mit sich, die man durch ausführlichste Informationen (auch von Leuten, die diese Erfahrung schon gemacht haben) verringern kann. Schon bevor man nach Deutschland kommt gibt es viele Dinge, die man erledigen muss, wie z.B. Wohnungssuche, Anmeldung im Rathaus, Handyvertrag etc. Für Personen, die der deutschen Sprache nicht mächtig sind kann dies sehr schwer werden. Erstmal angekommen in Deutschland braucht man wieder Informationen zu Sprachschulen (Preise, Qualifikation etc.) und letztendlich zur Anmeldung bei den Hochschulen.
Musikstudenten müssen eine Eignungsprüfung ablegen. Im Durchschnitt ver- schickt jeder Student hierzu pro Semester 10 Anmeldungen an verschiedene Hochschulen. Viele Bewerber schaffen es nicht gleich beim ersten Anlauf an einer Hochschule angenommen zu werden. So müssen sie diesen Prozess Se- mester für Semester wiederholen.
Vor diesem Hintergrund wird ein mehrsprachiges Online Portal entwickelt, welches all diese Informationen bereitstellt und bei formellen Aufgaben, wie zum Beispiel die Bewerbung an den Hochschulen, Hilfestellung geben soll.

2 Problemstellung

Um ein solches Portal effektiv nutzen bzw. betreiben zu können, ist es zwin- gend notwendig, dass alle angeboten Informationen, wie z.B. Termine und Informationen zu den Studiengängen, auf dem aktuellen Stand sind. Die- se Informationen von allen 379 ([3]) staatlichen und staatlich anerkannten Hochschulen Deutschlands jedes mal von Hand zusammenzutragen wäre ein immenser Aufwand. Es ist erforderlich, dass die Informationen für das Portal automatisiert zusammengetragen werden.
Die Arbeit wird sich mit der Informationsextraktion der benötigten Infor- mationen beschäftigen, wobei hier erst einmal auf die Informationen für die Anmeldung an den verschiedenen Musik-Hochschulen eingeschränkt wird. Der Fokus liegt also auf der Informationsfindung für Musikstudenten.
Der User des Portals soll die Möglichkeit haben, aus einer Liste von Hoch- schulen auswählen zu können, an welchen er sich bewerben möchte. Diese Liste muss die für den User relevanten und aktuellen Informationen der entsprechenden Hochschulen beinhalten. Es gilt diese Informationen aus gegebenen Quellen/Webseiten zu extrahie- ren. Im Gegensatz zum Information Retrieval, das sich mit den Verfahren zum Finden von gesuchten Informationen aus umfangreichen Quellen, bei- spielsweise dem Web, befasst[8], soll sich diese Arbeit mit der Extraktion der Informationen befassen. Es sollen gezielt geforderte Informationen aus ge- gebenen Quellen bzw. Texten extrahiert und die entsprechenden Relationen zueinander erkannt werden[7]. Folgende Informationen sollen extrahiert werden:
• Universitätsname
• Anmeldeschluss-Termin des entsprechenden Semesters
• Termine für die Aufnahmeprüfungen
• notwendige Deutschvorkenntnisse (Grundstufe, Mittelstufe, DSH)
• mögliche Abschlüsse (Bachelor, Master, Examen, Diplom)
• Studienzeiten (Anzahl der möglichen Semester)
• Altersbeschränkungen

Das Ziel ist die automatische Extraktion dieser vorgegebenen Daten und das Füllen eines entsprechend vorgegebenen Datenbankschemas. Hierfür muss ein Analyse-Prozess definiert und optimiert werden, der das Precision bzw. Recall der Extraktoren optimiert, und somit so viele nicht relevante Informationen wie möglich unberücksichtigt lässt und so viele rele- vante Informationen wie möglich in jedem Fall findet.

3 Umsetzung

Bevor die Extraktoren selbst konzipiert und entwickelt werden, soll zunächst auf die methodischen Grundlagen zu Informationsextraktoren ansich einge- gangen werden. Bestehende Ansätze und verwandte Themen, die dieser Ar- beit als Grundlagen dienen oder dienen könnten, sollen aufgezeigt, erörtert und ggf. mit dem Ansatz dieser Arbeit verglichen werden.
Für die Entwicklung von Informationsextraktoren gibt es zwei Haupttechno- logien. Der Ansatz der Lernenden Systeme (trainable Systems) und der An- satz der Wissensbasierten Entwicklung (knowledge Engineering)[5][6].
Welche Technologie zum Einsatz kommt, ist zu diskutieren.
Es soll grob in 4 Schritten vorgegangen werden.

1. Erstellen eines Trainingsdatensatzes (Goldstandards):

Es müssen zunächst Dokumente gesucht werden, die relevante Informa- tionen enthalten. Die Dokumente sollen im HTML bzw. PDF Format vorliegen. In diesen Dokumenten werden dann manuell die gesuchten Informationen markiert. Mit diesem manuell erstelltem Goldstandard hat man später die Möglichkeit die Extraktoren zu trainieren und zu evaluieren.

2. Textanalyse bzw. Textverarbeitung (Preprocessing):

Bevor Informationsextraktion auf den Dokumenten ausgeführt werden kann, müssen die Dokumente vorbereitet werden. Es müssen beispiels- weise die HTML-Tags entfernt werden und die Texte aus den PDF Dateien extrahiert werden, damit man die Informationsextraktion auf reinem Text ausführen kann.

3. Design und Implementierung der Extraktoren

Die entsprechenden Datenbankschemata, in denen die Informationen letztendlich abgespeichert werden sollen, werden als MySQL Daten- bank realisiert[4].
Um gegebenenfalls Funktionen von vorhandenen Frameworks integrie- ren zu können, wird als Programmiersprache für die Entwicklung der Extraktoren C++ oder Java in betracht gezogen. Das Apache UI- MA Projekt beispielsweise ist ein solches Framework, welches zusätz- lich noch Perl und Python unterstützt und somit große Flexibilität bietet[2].
Für die Analyse benötigt man auch umfangreiche Lexika mit dem Text- bausteine gematcht werden können. Es ist zu diskutieren, ob und wie man bereits vorhandene integrieren kann.

4. Evaluation mit vorher erstelltem Goldstandard

Als letzten Schritt müssen die gefundenen Ergebnisse der Extraktoren validiert werden. Dies soll mit dem manuell erstellten Goldstandard geschehen. Sind die Ergebnisse nicht zufriedenstellend sollte die Text- analyse bzw. die Extraktoren erneut optimiert werden.
Der eigentliche Prozess der Informationsextraktion soll in Amazons Elastic Compute Cloud (Amazon EC2) stattfinden[1].

Zusatzinformationen / Extras