Apache Spark für Entwickler - Schulung (4 Tage)
Apache Spark for Developers
Kurzbeschreibung
Apache Spark ist ein etablierter Bestandteil des Big Data und Hadoop Ökosystems. Dieses Seminar fokussiert die Möglichkeiten der Datenverarbeitung mit Apache Spark und spricht die wesentlichen Aufgaben an, mit denen ein Entwickler in der Umsetzung von Big Data Projekten auf Basis von Apache Spark konfrontiert wird. Einstieg ist eine Einführung in die Programmiersprache Scala. Wir empfehlen diese Programmiersprache, da Apache Spark selbst in Scala programmiert wurde und Neuerungen zuerst auf dieser Sprache optimiert werden (Alternativ kann auch Python angeboten werden). Darauf aufbauend wird die Apache Spark Infrastruktur vorgestellt und auf Basis von "Hands on Trainings" die Möglichkeiten der Datenverarbeitung praxisbezogen geschult. Im Weiteren lernen Sie in diesem Seminar mit Apache Spark Streaming, DStreams, Spark Socket und der Lambda Architektur relevante Komponenten zur Verarbeitung von Streamingdaten kennen. Für das Thema Machine Learning werden GraphX Architektur, Apache Spark ML und Apache Spark MLlib sowie deren Anwendung vorgestellt. Abschluss dieses Seminars bildet das Thema Apache Spark 2.0.
Voraussetzungen
Für die Schulung wird eine funktionierende Spark-Umgebung für die Teilnehmer benötigt. Eine Möglichkeit ist die von Cloudera kostenlos erhältliche Cloudera QuickStart VM. Eine andere Möglichkeit stellt Amazon Web Services, kurz AWS, dar. Details zu diesem Seminar werden im Vorfeld mit dem Trainer besprochen.
Seminarinhalt
1. Kurs Modul Scala
Einführung in Spark, Hadoop & Zeppelin
Einführung in Scala (hands on training)
• Flow Control & Loops
• Classes, Objects & Case Classes
• Type Matching
• Ausnahmebehandlung
• Grundlegende I/O Operationen
• Generics
• Implicits
• Funktionale Programmierung
• Scala Collections
• Beispiel WordCount
• Scala Übungen
Scala Programme entwickeln
• Maven & SBT
• ScalaTest
2. Kurs Modul Apache Spark
Einführung in Apache Spark RDD API (hands on training)
• Elemente einer Spark Anwendung
• Laden von Daten aus HDFS
• Extraktion & Transformation
• Gruppierung & Aggregation von Daten
• Caching
• Joining
• Storing
• Spark Broadcast Variable & Spark Accumulators
• Web-Interface
Implementieren von Apache Spark
• Shuffling
• Serialization
• Closures
Apache Spark RDD Übungsaufgaben
Apache Spark DataFrame Architektur
Spark DataFrame API (Hnds on Training)
• Daten laden aus HDFS
• Unterschied von RDD und DataFrame
• DataFrame Operations (Joins, Selects, Grouping,...)
• SparkSQL
• Speicher von Daten in HDFS
• Arbeiten mit unterschiedlichen File Formaten
• Apache Spark DataFrame Übungsaufgaben
3. Kurs Modul: Apache Spark Streaming
Spark Streaming Architektur
• Anwendungsbeispiele für Spark Streaming (hands on Training)
• Arbeiten mit DStreams
• Einlesen von Daten aus Spark Socket
Lambda Architektur
• Streaming oder Batch
• Mindestens Einmal oder Genau einmal
• Kafka & Flume
• Realtime View & Batch View
4. Kurs Modul: Spark
GraphX
• Architektur
Record Linking mit GraphX (hands on training)
• Graphen aus raw data
• Aufspüren von linked records mit GraphX
Spark Machine Learning Architektur
• Apache Spark ML & Apache Spark MLlib
Arbeiten mit Apache SparkML
• Funktionen von SparkML
• Transformationen
• Model Learning
• Erstellung von Prognosen
Spark 2.0
Zielgruppen
Entwickler, Big Data Engineers, Hadoop ETL Experten und alle, die sich mit der Datenverarbeitung von Big Data Lösungen auf Basis von Apache Spark beschäftigen.
Preise und Termine
Eine offene Schulung findet in einem unserer Schulungszentren statt.
Dauer: | 4 Tage |
Preis: | 1.995,00 € zzgl. USt. pro Teilnehmer (2.374,05€ inkl. USt.) |
Seminarstandorte: | |
Starttermine: (ortsabhängig) | |
Unterlagen: | zzgl. |
Verpflegung: | zzgl. |
Prüfung/Zertifizierung: | zzgl. |
Eine Firmenschlung kann sowohl bei Ihnen vor Ort als auch in einem unserer Schulungszentren stattfinden.
Dauer: | 4 Tage |
Preis ab: | 1.690,00 € zzgl. USt. pro Tag (2.011,10€ inkl. USt.) |
Schulungszentren: |
|
Starttermin: | individuelle Vereinbarung |
Unterlagen: | zzgl. |
Verpflegung: | zzgl. |
Prüfung/Zertifizierung: | zzgl. |
Verwandte Schulungen
Apache Spark für Data Scientists - SchulungApache Spark: Datenverarbeitung, Streaming, relationale Abfragen auf unstrukturierte Daten und Machine Learning für Entwickler und Data Scientists - SchulungKünstliche Intelligenz (KI) Einführung, Möglichkeiten und Grenzen von KI im Anwendungsbereich Industrie 4.0, Sensordaten, Robotik - SchulungBig Data und Hadoop Grundlagen - Schulung
Seminarsprache
die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.