Big Data Analytics (Master)

Belegnummer Master 41.4984 (V) [Modulbeschreibung]

Vorlesung und Praktikum (3V+1P)

Vorlesung - gemeinsam mit Markus Döhring

Mittwoch 5x und Donnerstag 5xy

Beginn: Mittwoch, 04.04.2018, Raum D14/004, 16:00 - 17:30 Uhr

Praktikum - gemeinsam mit Markus Döhring und Johannes Schaffrath (B.Sc.)

Gruppe 1, Dienstag 3y 12:30 - 14:00 Uhr, D14/112 - Beginn: 10.04.2018
Gruppe 2, Dienstag 3x 12:30 - 14:00 Uhr, D14/112 - Beginn: 17.04.2018

Klausurtermin:  Montag, 16.07.2018, 12:30 - 14:00 Uhr - Raum wird noch bekannt gegeben -

Vorlesung - Materialien werden in Moodle zur Verf√ľgung gestellt

Organisatorisches
Kapitel 1               Die Phasen im Data Science-Prozess -
Besonderheiten im Hinblick auf Big Data, Datenvorbereitung
Kapitel 2Mining-Algorithmen auf horizontal skaliertem Datenmanagement
- Clustering und Klassifikation: Data at Rest
Kapitel 3Stream Processing - Data in Motion
Kapitel 4Referenzarchitekturen im Bereich Big Data
- Lambda- und Kappa-Architektur
Kapitel 5Graph Analysis und Graph Mining


Praktikum - Materialien werden in Moodle zur Verf√ľgung gestellt

Das Praktikum wird auf dem Big Data Cluster des Fachbereichs Informatik durchgef√ľhrt.
Praktikum 1 und 2: Spark 2.2 MLlib (Scala) und Tableau 10 (Visualisierung)
F√ľr die Teilnehmer werden kostenlose Tableau-Lizenzen zur Verf√ľgung gestellt.
Praktikum 3 und 4: Spark Structured Streaming 2.2.0
Praktikum 5: GRADOOP: Scalable Graph Data Management and Analytics with Hadoop (Database Group, Universität Leipzig)

Praktikum 1Explorative Datenanalyse einer Stichprobe des "Million Song Dataset" (MSD)* - Datenvorbereitung f√ľr Praktikum 2 (Spark 2.2 MlLib, Tableau 10)
Praktikum 2Clustering, Evaluation und Visualisierung des MSD (Spark 2.2 MlLib, Tableau 10)
Praktikum 3Einf√ľhrung in das Arbeiten mit Spark Structured Streaming
Praktikum 4Ausgewählte Aufgaben zu Streaming Analytics (Spark Structured Streaming)
Praktikum 5Ausgewählte Aufgaben zu Graph-Analytics (Gradoop)

* Thierry Bertin-Mahieux, Daniel P.W. Ellis, Brian Whitman, and Paul Lamere. The Million Song Dataset. In Proceedings of the 12th International Society for Music Information Retrieval Conference (ISMIR 2011), 2011. [pdf] [bib]