Apache Spark für Data Scientists - Schulung (2 Tage)
Kurzbeschreibung
Sie erhalten in dieser Schulung mit der Einführung in Distributed Computing, Hadoop Map and Reduce, HDFS, Hive und Spark ein Grundverständnis über das Hadoop Ökosystem. Innerhalb einer virtuellen Mashine auf Basis von Cloudera lernen Sie mit den entsprechenden Werkzeugen umzugehen und Daten zu importieren. Sie nutzen diese Infrastruktur in diesem Seminar und lernen an Hand von verschiedenen Beispieldaten die Apache Spark Infrastruktur und deren Schnittstelle kennen. Sie erstellen Resilient Distributed Datasets, Laden Daten aud dem Hadoop File System, erstellen einfach Analysen und Aggregationen und speichern die Ergebnisse zurück im HDFS. Mit Spark DataFrame lernen Sie die vergleichsweise leicht zu erlernende und mittlerweile vorherrschende API zur flexiblen Datenanalyse kennen. Für Ansätze zum Machine Learning und künstlicher Intelligenz lernen Sie Spark MLlib, die entsprechende Architektur und beispielhaft die Möglichkeiten linearer Regressionsanalysen kennen. Zum Abschluss dieses Kurses bauen Sie einen Ablaufprozess für Machine Learning und data mining mit Apache Spark auf.
Der Aufbau der Schulung ist modular und kann auf Wunsch um weitere Themen ergänzt werden. Beispiele hierzu sind:
• Datenanalyse mit Python und Apache Spark (0,5 Tage)
• Datenverarbeitung und Datenanalyse mit Scala und Apache Spark (1 Tag)
• Auf Wunsch ist es auch möglich Seminare auf eigenen Datenbeständen durchzuführen. Fragen Sie nach einem individuellen Workshop und in House Seminare zu Apache Spark für Data Scientists.
Seminarinhalt
Einführung Hadoop Ecosystem
• Distributed Computing
• Hadoop Map/Reduce
• HDFS
• Hive
• Spark
Aufbau einer Apache Spark Umgebung
• Cloudera Quickstart VM
• Hadoop User Experience - Hue
• Installierung
• Apache Zeppelin
• Daten laden
Apache Spark Grundlagen
• Apache Spark Architektur
• "Hello World" in PySpark: Worte zählen
Beispiel Wortzählung (hands on training)
• Elemente einer Spark Applikation
• SparkContext
• Lokaler Betrieb oder Clusterbetrieb
Intorduction Park Rdd API (hands on training)
• Creating RDDs
• Loading Data from HDFS
• Extraktion & Transformation
• Joining, Grouping & Datenaggregation
• Caching
• Datenhaltung im HDFS, Hadoop File System
• Broadcast Variablen & Acculumators
• Web-Interfaces richtig verstehen
Apache Spark Implementation
• Shuffling
• Serialization
• Closures
Apache Spark DataFrame Architektur
Apache Spark DataFrame API (hands on training)
• Auslesen von Daten aus HDFS
• RDD <=> DataFrame
• DataFrame Operations (Joins, Selects, Grouping...)
• SparkSQL
• Daten speichern im HDFS
• Verarbeitung von Daten in Hive
Apache Spark ML Architektur
Aufbau von Spark ML Pipelines (hands on training)
• Funktionen
• Modelle
• Transformation
• Regression & Classification
• Pipelines
• Evaluationsmodell
• Parameter Selection / Cross Validation
Zielgruppen
Dieses Apache Spark Seminar richtet sich an die Zielgruppe Data Scientist, Daten Journalist, Big Data Analyst und alle, die sich mit der Datenanalyse von Daten und Big Data beschäftigen.
Preise und Termine
Eine offene Schulung findet in einem unserer Schulungszentren statt.
Dauer: | 2 Tage |
Preis: | 1.290,00 € zzgl. USt. pro Teilnehmer (1.535,10€ inkl. USt.) |
Seminarstandorte: | |
Starttermine: (ortsabhängig) | |
Unterlagen: | zzgl. |
Verpflegung: | zzgl. |
Prüfung/Zertifizierung: | zzgl. |
Eine Firmenschlung kann sowohl bei Ihnen vor Ort als auch in einem unserer Schulungszentren stattfinden.
Dauer: | 2 Tage |
Preis ab: | 1.690,00 € zzgl. USt. pro Tag (2.011,10€ inkl. USt.) |
Schulungszentren: |
|
Starttermin: | individuelle Vereinbarung |
Unterlagen: | zzgl. |
Verpflegung: | zzgl. |
Prüfung/Zertifizierung: | zzgl. |
Verwandte Schulungen
Apache Spark: Datenverarbeitung, Streaming, relationale Abfragen auf unstrukturierte Daten und Machine Learning für Entwickler und Data Scientists - SchulungApache Spark für Entwickler - SchulungBig Data und Hadoop Grundlagen - SchulungBig Data, Data Mining und Machine Learning: Überblick, Nutzen und Ideen für den individuellen Einsatz im Unternehmen - WorkshopKünstliche Intelligenz (KI) Einführung, Möglichkeiten und Grenzen von KI im Anwendungsbereich Industrie 4.0, Sensordaten, Robotik - Schulung
Seminarsprache
die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.