Cechy

Cechy produktu
Certyfikat:
  • TAK
Język szkolenia:
  • polski
Liczba godzin:
  • 16
Poziom szkolenia:
  • Podstawowy
Producent:
Rodzaj szkolenia:
  • stacjonarnie; online; warsztat
Szkolenie zamknięte:

Opis

Opis firmy

InfoShare Academy to wiodąca akademia IT oferująca kompleksowe programy edukacyjne z nowych technologii dla firm. Od 2015 roku wspieramy organizacje w rozwoju zespołów technologicznych poprzez dedykowane kursy Machine Learning, DevOps, Data Engineering, Python, UX/UI Design, AWS i Kubernetes. Nasze szkolenia opierają się na praktycznych umiejętnościach i rzeczywistych przypadkach biznesowych. Współpracujemy z ponad 300 trenerami-praktykami z branży IT, dzięki czemu programy są dostosowane do aktualnych potrzeb rynku. Specjalizujemy się w reskillingu i upskillingu pracowników. Z nami zbudujesz efektywne zespoły wdrażające nowe technologie, które przyspieszą innowacje i wzmocnią konkurencyjność firmy na rynku. Sprawdź naszą ofertę szkoleń dedykowanych dla firm, które zostały stworzone z myślą o rozwijaniu kompetencji Twoich pracowników w obszarze IT.

Opis szkolenia
  • Szkolenie Apache Spark to intensywny, dwudniowy kurs, skoncentrowany na praktycznym zastosowaniu tego popularnego frameworka do przetwarzania dużych zbiorów danych. Program szkolenia jest zaprojektowany w taki sposób, aby 80% czasu było poświęcone na praktyczne warsztaty, a 20% na teorię. Uczestnicy zdobędą solidne podstawy teoretyczne oraz praktyczne umiejętności w korzystaniu z Apache Spark, pracując na rzeczywistych danych i rozwiązując praktyczne problemy.
  • Wymagane umiejętności technologiczne:
  • Znajomość podstaw programowania w Pythonie lub Scali
  • Podstawowa wiedza z zakresu przetwarzania danych
  • Umiejętność pracy w środowisku Unix/Linux
Dla kogo szkolenie
  • Programistów i inżynierów danych, którzy chcą poszerzyć swoje umiejętności o Apache Spark
  • Data scientistów i analityków danych, pragnących przetwarzać duże zbiory danych w efektywny sposób
  • Specjalistów IT i big data, którzy chcą wykorzystać Apache Spark w swoich projektach
Cele

 

Korzyści
  • Nauczysz się:
  • Jak zainstalować i skonfigurować Apache Spark w różnych środowiskach
  • Jak przetwarzać i analizować dane z użyciem RDD, DataFrame i Spark SQL
  • Jak optymalizować zapytania i zarządzać zasobami w Apache Spark
  • Jak wdrożyć aplikacje Apache Spark w środowisku produkcyjnym
Program szkolenia

Dzień 1: Wprowadzenie do Apache Spark i podstawy przetwarzania danych

  1. Wprowadzenie do Apache Spark

  • Historia i rozwój Apache Spark

  • Architektura i główne komponenty (RDD, DataFrame, Spark SQL)

  1. Instalacja i konfiguracja środowiska

  • Instalacja Apache Spark i zależności

  • Konfiguracja środowiska pracy (Standalone, Hadoop, AWS)

  1. Podstawy przetwarzania danych w Apache Spark

  • Praca z plikami: JSON, CSV, XML, TXT, Parquet, AVRO

  • Transformacja i Akcja – zasada Lazy Evaluation

Dzień 2: Zaawansowane techniki i praktyczne zastosowania

  1. Zaawansowane przetwarzanie danych z użyciem DataFrame i Spark SQL

  • Tworzenie i zarządzanie DataFrame

  • Użycie Spark SQL do zapytań na dużych zbiorach danych

  1. Transformacja danych

  • Sortowanie, grupowanie i filtrowanie danych

  • Transformacje danych z wykorzystaniem funkcji map, flatMap, UDF

  • Funkcje okna (analityczne)

  1. Warsztat: Przetwarzanie i analiza danych z użyciem DataFrame

  • Implementacja operacji na DataFrame i zapytań SQL

  • Analiza dużych zbiorów danych z użyciem Spark SQL

  1. Optymalizacja i tuning wydajności

  • Techniki optymalizacji zapytań i działania Spark

  • Zarządzanie pamięcią i rozdzielanie zasobów

  • Partycjonowanie i zapis danych

  1. Deployowanie aplikacji Apache Spark

  • Przygotowanie i eksportowanie aplikacji Spark

  • Wdrożenie aplikacji w środowisku produkcyjnym

Czas trwania

16 h/2 dni

Cena zawiera
  • Certyfikat ukończenia szkolenia
  • Miesięczny dostęp do nagrania szkolenia (w przypadku formy online)
  • Dostosowanie programu szkolenia do potrzeb klienta

Zamów szkolenie