direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

AIM-3: Advanced Information Management III – Scalable Data Analysis and Data Mining

Format und Leistungspunkte: Integrierte Veranstaltung (IV, 4 SWS, 6 ECTS)

Lernziele: Durch die technologischen Entwicklungen der letzten Jahren entstehen immer größere Datenmengen, die kostengünstig und effizient analysiert werden müssen. In diesem Kurs werden Konzepte der skalierbaren Analyse von großen Datenmengen vorgestellt und praktisch anhand von Open-Source Technologien eingeübt. Die Teilnehmer/innen dieses Moduls erwerben vertiefte konzeptionelle, methodische und praktische Kenntnisse für die skalierbare Datenanalyse und skalierbares Data Mining an Beispielen aus den verschiedenen Anwendungsbereichen.

Zielgruppe: Diese Lehrveranstaltung wendet sich an Master-Studenten mit Schwerpunkt im Bereich Datenbanksysteme und Informationsmanagement ab dem 1. Semester. Die Voraussetzungen sind das abgeschlossene Bachelorstudium und Kenntnis der Inhalte aus den Lehrveranstaltungen MPGI 1-5. Außerdem werden gute Programmierkenntnisse in Java vorausgesetzt. Ein Grundverständnis von Statistik und Stochastik, wie auch der linearen Algebra ist von Vorteil. Die Literatur für diese Veranstaltung ist in vielen Fällen in englischer Sprache abgefasst, daher sind fließende  Englischkenntnisse erforderlich. Die Veranstaltung ist aus Kapazitätsgründen auf 30 Teilnehmer begrenzt.

Inhalt: Large Scale Data Analysis and Data Mining:

 

  • Der Fokus des Moduls liegt auf dem Kennenlernen verschiedener Parallel Processing Platforms und Paradigmen.
  • Verständnis verschiedener Paradigmen und Plattformen zur parallelen Verarbeitung großer Datenmengen auf Rechenclustern.
  • Anwendbarkeit dieser Technologien auf verschiedenste Data Mining und Machine Learning Probleme (Naive Bayes, k-Means Clustering, PageRank).
  • Sammeln von Erfahrungen in der praktischen Umsetzung solcher Verfahren mit Open-Source Plattformen wie Apache Hadoop, Stratosphere und Apache Giraph.

Die von den Studenten zu bearbeitenden Fallbeispiele umfassen die praktische Umsetzung von Analyse-Algorithmen.

Ihre Leistung:           

 

  • Aktive Projektarbeit in Gruppen
  • Übungsaufgaben
  • Mündliche Prüfung
  • Abschlusspräsentation der Projektarbeit

Literatur: Anand Rajaraman, Jeffrey David Ullman : Mining of Massive Datasets  (Free Online: infolab.stanford.edu/~ullman/mmds/book.pdf)

Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques.

Tom White: Hadoop: The Definitive Guide von Tom White.

Daneben zu jedem Themenkomplex klassische und aktuelle Forschungspapiere.

Zusatzinformationen / Extras

Quick Access:

Schnellnavigation zur Seite über Nummerneingabe

Auxiliary Functions