direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

DORIAN

DORIAN ist ein Projekt des Software Campus.

Moderne Unternehmen sind in hohem Maße auf datengestützte Erkenntnisse angewiesen. Sie setzen komplexe Data-Science-Prozesse ein, die aus einem breiten Spektrum von Aufgaben bestehen: Analyse von Geschäftsfällen, Datenerfassung, Integration, Vorverarbeitung, Modellierung und prädiktive Analyse, Experimentieren und Auswertung der Ergebnisse, Bereitstellung, Überwachung, Visualisierung und Berichterstattung. Der Prozess selbst ist in hohem Maße iterativ und dynamisch, wie die modernen Geschäfts- und Rechenumgebungen es sind. Die Datenquellen und Ausführungssysteme sind heterogen, die verantwortlichen Teams sind vielfältig. Die hohe Komplexität und Variabilität der Umgebung führt zu einem erheblichen Overhead für Analysten, die datenintensive Anwendungen ausführen und verwalten.

In diesem Projekt wollen wir den daraus resultierenden Overhead bei der Überwachung und Inspektion komplexer Data-Science-Workflows reduzieren, indem wir einen Prototyp des Systems für das End-to-End-Management von Data-Science-Prozessen entwickeln. Wir konzentrieren uns auf eine gemeinsame Managementaufgabe - die automatisierte Dokumentation von Arbeitsabläufen für datenintensive Experimente, um die Reproduzierbarkeit, den systematischen Vergleich und die weitere Wiederverwendung zu erleichtern. Unter Dokumentation verstehen wir den Prozess der Ableitung einer deklarativen Darstellung des Workflows, die die Herkunft und Metadaten der zugrunde liegenden digitalen Artefakte (z. B. Datensätze, DS-Pipeline, Vorhersagemodell) zur Laufzeit erfasst, um den Zustand des Experiments (Softwareabhängigkeiten, Hardwarespezifikation, Versionierung des Quellcodes, Zwischenartefakte usw.) zu kontrollieren und Reproduzierbarkeit zu ermöglichen.

Im Rahmen dieses Projekts entwerfen wir die High-Level-Abstraktion für die deklarative Spezifikation der DS-Workflows. Wir implementieren einen Prototyp des Managementsystems, das diese deklarative Zwischenrepräsentation (IR) automatisch aus einem datenwissenschaftlichen Experiment extrahiert und in einer Experimentdatenbank für weitere Reproduzierbarkeit, Suche, Vergleich und Wiederverwendung speichert.

Weitere Informationen finden Sie unter https://softwarecampus.de/en/project/dorian-reproducibility-inspection-and-automation-of-data-oriented-experiments/.

 

Projektlaufzeit: 01/01/2020 - 31/12/2021

Projektleitung: Prof. Dr. Volker Markl

Software-Campus-Teilnehmer: Philipp Grulich

Projektpartner: Software AG

Mittelgeber: Deutsches Zentrum für Luft- und Raumfahrt (DLR)

Zusatzinformationen / Extras

Direktzugang:

Schnellnavigation zur Seite über Nummerneingabe

Ansprechpartner

Prof. Dr. Volker Markl
Email:
prof[at]dima.tu-berlin