Big Data Analytics (Master)

Belegnummer Master 41.4984 (V) [Modulbeschreibung]

Vorlesung und Praktikum (3V+1P)

Vorlesung

Beginn der Vorlesung:
Donnerstag, 12.10.2017, Raum D14/303, 14:15 - 15:45 Uhr
Ein zusätzlicher Vorlesungstermin findet 14-tägig statt, erstmals am 20.10.2017
Freitag, y-Woche, Raum D14/303, 12:30 - 14:00 Uhr

Praktikum - gemeinsam mit Johannes Schaffrath (B.Sc.)

Gruppe 1, Mittwoch 5y 16:00 - 17:30 Uhr, D14/112 - Beginn: 18.10.2017
Gruppe 2, Mittwoch 5x 16:00 - 17:30 Uhr, D14/112 - Beginn: 25.10.2017

Achtung! - ge√§nderter Klausurtermin:  Freitag, 16.02.2018, 12:00 - 13:30 Uhr - Raum wird noch bekannt gegeben -

Vorlesung - Materialien zum Download

... werden ab Beginn der KW 41 zur Verf√ľgung gestellt

Organisatorisches
Kapitel 1               Die Phasen im Data Science-Prozess -
Besonderheiten im Hinblick auf Big Data

Kapitel 2Mining-Algorithmen auf horizontal skaliertem Datenmanagement
- Teil 1: Clusteranalyse und Dimensionsreduktion
- Bahmani: Scalable k-Means++ (Foliensatz)
- Teil 2: Klassifikation: Datenvorbereitung, Datenqualität, Random Forests
- Teil 3: Predictive Model Markup Language (PMML) und Portable Format for Analytics (PFA)
- H√∂rsaalbeispiel mit SAS f√ľr Hadoop: Visual Analytics
- integrierter Tableau-Workshop am 02.11.2017
Kapitel 3Stream Processing (v2)
Apama Streaming Analytics, SAG - Architektur und Konzepte
- Spark Structured Streaming (Foliensatz, s. auch Praktikum 4)
- Exkurs: Model Persistence - Gast-Vortrag von Christos Votskos am 30.11.2017
- Exkurs: Parquet (Foliensatz, s. auch Praktikum 5)
Kapitel 4Referenzarchitekturen im Bereich Big Data
Kapitel 5Graph Analysis und Mining
- Exkurs: Graphen - Matrizen - Eigenwerte


Praktikum - Materialien zum Download

... werden ab Beginn der KW 41 zur Verf√ľgung gestellt

Das Praktikum wird auf dem Big Data Cluster des Fachbereichs Informatik durchgef√ľhrt.
Praktikum 1, 2 und 3: Spark 2.2 MLlib (Scala) und Tableau 10 (Visualisierung)
F√ľr die Teilnehmer werden kostenlose Tableau-Lizenzen zur Verf√ľgung gestellt.
Praktikum 4 und 5: Spark Structured Streaming 2.2.0
Praktikum 6: GRADOOP: Scalable Graph Data Management and Analytics with Hadoop (Database Group, Universität Leipzig)

Bitte beachten Sie auch die Materialien des Scala Crashkurs vom WS 16/17!

Praktikum 1
18.10./25.10.
Einf√ľhrung in die Laborinfrastruktur auf dem Big Data Cluster:
- Aufgabenblatt
- Spark 2.2: SQL und Dataframes, MlLib:
   Einf√ľhrung in die Infrastruktur und
   A Quick Introduction to Spark 2.2
- Tableau 10 zur Visualisierung von Daten:
   Connecting Tableau to Spark
Praktikum 2
01.11./08.11.
Explorative Datenanalyse einer Stichprobe des "Million Song Dataset" (MSD)* - Datenvorbereitung f√ľr Praktikum 2 (Spark 2.2 MlLib, Tableau 10)
- Aufgabenblatt
Praktikum 3
15.11./22.11.
Clustering, Evaluation und Visualisierung des MSD (Spark 2.2 MlLib, Tableau 10)
- Aufgabenblatt
Praktikum 4
29.11./06.12.
Einf√ľhrung in das Arbeiten mit Spark Structured Streaming
- Aufgabenblatt (v2)
- Spark Structured Streaming (Foliensatz, Exkurs zu Kapitel 3)
Praktikum 5
13.12./20.12.
Ausgewählte Aufgaben zu Streaming Analytics (Spark Structured Streaming)
- Aufgabenblatt - Teil I
- Exkurs: Parquet (Foliensatz, s. auch Kapitel 3)
- Aufgabenblatt - Teil II
- Kafka Infrastruktur (Folien)
Praktikum 6
17.01./24.01.
Ausgewählte Aufgaben zu Graph-Analytics (Gradoop)
- Aufgabenblatt zur Vorbereitung
- Gradoop - Graph Analytics mit Apache Flink (Foliensatz)
- Projekt (Java) zur Implementierung der Analyseaufgaben im Praktikum
- Aufgabenblatt zur Durchf√ľhrung

* Thierry Bertin-Mahieux, Daniel P.W. Ellis, Brian Whitman, and Paul Lamere. The Million Song Dataset. In Proceedings of the 12th International Society for Music Information Retrieval Conference (ISMIR 2011), 2011. [pdf] [bib]