Cechy
Opis
InfoShare Academy to wiodąca akademia IT oferująca kompleksowe programy edukacyjne z nowych technologii dla firm. Od 2015 roku wspieramy organizacje w rozwoju zespołów technologicznych poprzez dedykowane kursy Machine Learning, DevOps, Data Engineering, Python, UX/UI Design, AWS i Kubernetes. Nasze szkolenia opierają się na praktycznych umiejętnościach i rzeczywistych przypadkach biznesowych. Współpracujemy z ponad 300 trenerami-praktykami z branży IT, dzięki czemu programy są dostosowane do aktualnych potrzeb rynku. Specjalizujemy się w reskillingu i upskillingu pracowników. Z nami zbudujesz efektywne zespoły wdrażające nowe technologie, które przyspieszą innowacje i wzmocnią konkurencyjność firmy na rynku. Sprawdź naszą ofertę szkoleń dedykowanych dla firm, które zostały stworzone z myślą o rozwijaniu kompetencji Twoich pracowników w obszarze IT.
- Szkolenie Apache Spark to intensywny, dwudniowy kurs, skoncentrowany na praktycznym zastosowaniu tego popularnego frameworka do przetwarzania dużych zbiorów danych. Program szkolenia jest zaprojektowany w taki sposób, aby 80% czasu było poświęcone na praktyczne warsztaty, a 20% na teorię. Uczestnicy zdobędą solidne podstawy teoretyczne oraz praktyczne umiejętności w korzystaniu z Apache Spark, pracując na rzeczywistych danych i rozwiązując praktyczne problemy.
- Wymagane umiejętności technologiczne:
- Znajomość podstaw programowania w Pythonie lub Scali
- Podstawowa wiedza z zakresu przetwarzania danych
- Umiejętność pracy w środowisku Unix/Linux
- Programistów i inżynierów danych, którzy chcą poszerzyć swoje umiejętności o Apache Spark
- Data scientistów i analityków danych, pragnących przetwarzać duże zbiory danych w efektywny sposób
- Specjalistów IT i big data, którzy chcą wykorzystać Apache Spark w swoich projektach
- Nauczysz się:
- Jak zainstalować i skonfigurować Apache Spark w różnych środowiskach
- Jak przetwarzać i analizować dane z użyciem RDD, DataFrame i Spark SQL
- Jak optymalizować zapytania i zarządzać zasobami w Apache Spark
- Jak wdrożyć aplikacje Apache Spark w środowisku produkcyjnym
Dzień 1: Wprowadzenie do Apache Spark i podstawy przetwarzania danych
Wprowadzenie do Apache Spark
Historia i rozwój Apache Spark
Architektura i główne komponenty (RDD, DataFrame, Spark SQL)
Instalacja i konfiguracja środowiska
Instalacja Apache Spark i zależności
Konfiguracja środowiska pracy (Standalone, Hadoop, AWS)
Podstawy przetwarzania danych w Apache Spark
Praca z plikami: JSON, CSV, XML, TXT, Parquet, AVRO
Transformacja i Akcja – zasada Lazy Evaluation
Dzień 2: Zaawansowane techniki i praktyczne zastosowania
Zaawansowane przetwarzanie danych z użyciem DataFrame i Spark SQL
Tworzenie i zarządzanie DataFrame
Użycie Spark SQL do zapytań na dużych zbiorach danych
Transformacja danych
Sortowanie, grupowanie i filtrowanie danych
Transformacje danych z wykorzystaniem funkcji map, flatMap, UDF
Funkcje okna (analityczne)
Warsztat: Przetwarzanie i analiza danych z użyciem DataFrame
Implementacja operacji na DataFrame i zapytań SQL
Analiza dużych zbiorów danych z użyciem Spark SQL
Optymalizacja i tuning wydajności
Techniki optymalizacji zapytań i działania Spark
Zarządzanie pamięcią i rozdzielanie zasobów
Partycjonowanie i zapis danych
Deployowanie aplikacji Apache Spark
Przygotowanie i eksportowanie aplikacji Spark
Wdrożenie aplikacji w środowisku produkcyjnym
16 h/2 dni
- Certyfikat ukończenia szkolenia
- Miesięczny dostęp do nagrania szkolenia (w przypadku formy online)
- Dostosowanie programu szkolenia do potrzeb klienta