Ein Vergleich von Big-Data-Analytics-Plattformen
Im Projekt PArADISE wird die datengetriebene Entwicklung von Assistenzsystemen durch die hochparallele Analyse großer Mengen von Sensordaten unterstützt. Um dabei verschiedene Ziele wie die Sicherung von Privatsphäre, Provenance und Nachhaltigkeit zu erreichen, sind wir darauf angewiesen, die Analyseprogramme (Mining- oder Machine-Learning-Algorithmen) in SQL umzusetzen und dann möglichst mit parallelen DBMS zu realisieren. Dabei stehen diese parallelen DBMS-Lösungen auf zeilenorientierten DBMS-Architekturen natürlicherweise in Konkurrenz zu spaltenorientierten Architekturen, gleichzeitig aber auch zu modernen Big-Data-Analyse-Umgebungen wie MapReduce- oder Datenflussprogrammierungsansätzen. In einem Artikel von Stonebraker ((Michael Stonebraker u. a. „MapReduce and parallel DBMSs: friends or foes?“ In: Communications of the ACM 53.1 (2010), S. 64–71.)) wurde die Überlegenheit von zeilen- und spaltenorientierten DBMS gegenüber eines MapReduce-Ansatzes (Hadoop) gezeigt. Die Ergebnisse von Stonebraker sollten nun einige Jahre später in zwei studentischen Projekten an der Universität Rostock nachvollzogen, aber auch auf andere Arten von Problemen und neuere Software-Plattformen übertragen werden. Ziel dieses Artikels ist, die Ergebnisse der beiden studentischen Projekte zu präsentieren.