ACF - Formation SPARK, DÉVELOPPER POUR LE BIG DATA GRENOBLE (Big data et intelligence artificielle)

Programme SPARK, DÉVELOPPER POUR LE BIG DATA

Participants : Développeurs, architectes

Durée : 5 jours - 35 heures
Tarif : Nous contacter pour une formation INTER – INTRA ou en COURS PARTICULIER

La formation est délivrée en présentiel ou distanciel (e-learning, classe virtuelle, présentiel et à distance). Le formateur alterne entre méthodes démonstrative, interrogative et active (via des travaux pratiques et/ou des mises en situation). La validation des acquis peut se faire via des études de cas, des quiz et/ou une certification.

Cette formation est animée par un consultant-formateur dont les compétences techniques, professionnelles et pédagogiques ont été validées par des diplômes et/ou testées et approuvées par l’éditeur et/ou par Audit Conseil Formation.

Dates des formations

Contactez-nous pour des informations sur les disponibilités pour cette formation.

Télécharger ce plan de cours
Mise à jour : 15/04/2026

Demande de devis

Formation

Cadre

Professionnel
Personnel
Pôle Emploi

Nom/Prénom

Société

E-mail

Téléphone

Indiquez la période souhaitée pour le déroulement de la formation

Période

Souhaitez-vous être contacté par un formateur pour évaluer votre niveau ?

Evaluer mon niveau

OUI
NON

Les objectifs

Maîtriser

les concepts fondamentaux de Spark.

Développer

des applications avec Spark Streaming.

Faire

de la programmation parallèle avec Spark sur un cluster.

Exploiter

des données avec Spark SQL.

pré-requis

Bonnes connaissances du langage Scala, Python ou R.

Moyens pédagogiques, techniques et d'encadrement

1 poste de travail complet par personne
De nombreux exercices d'application
Mise en place d'ateliers pratiques
Remise d'un support de cours
Remise d'une attestation de stage

Modalités d'évaluation des acquis

- Evaluation des besoins et objectifs en pré et post formation
- Evaluation technique des connaissances en pré et post formation
- Evaluation générale du stage

Accessibilité handicapés

Au centre d’affaires ELITE partenaire d’ACF à 20 m.
Guide d’accessibilité à l’accueil.

Voir tout le programme

Le Programme

Introduction

Historique du Framework.
Comparaison avec l'environnement Apache Hadoop.
Les différents modules de Spark.
Langages supportés.

Travaux pratiques

Installation et configuration de Spark.
Exécution d'un premier exemple avec le comptage de mots.

Programmer avec les Resilient Distributed Dataset (RDD)

Présentation des RDD.
Créer, manipuler et réutiliser des RDD.
DAG Directed Acyclic Graph.
Accumulateurs et variables broadcastées.
Utiliser des partitions.

Travaux pratiques

Manipulation de différents Datasets à l'aide de RDD et utilisation de l'API fournie par Spark.

Manipuler des données structurées avec Spark SQL

Spark Context vs Spark Session.
SQL, DataFrames et Datasets.
Les différents types de sources de données.
Interopérabilité avec les RDD.
Utilisation de SQL avec des Dataframes.
Performance de Spark SQL.
JDBC/ODBC server et Spark SQL CLI.
L'analyse du DAG via Spark-UI

Travaux pratiques

Manipulation de Dataframes via des requêtes SQL.

Spark sur un cluster

Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.
Configurer un cluster en mode Standalone.
Packager une application avec ses dépendances.
Déployer des applications avec Spark-submit.
Dimensionner un cluster.

Travaux pratiques

Mise en place d'un cluster Spark.

Manipuler des graphes avec GraphX

Présentation de GraphX.
Les différentes opérations.
Créer des graphes.
Vertex and Edge RDD.
Présentation de différents algorithmes.

Travaux pratiques

Manipulation de l'API GraphX à travers différents exemples.

L'architecture Kafka

L'aperçu de Kafka Producers, Brokers, Consumers.
Les fichiers journaux de Kafka.
Les schémas Avro.
Utilisation de ZooKeeper.

Travaux pratiques

Étude de la configuration de Kafka dans l'architecture KAPPA.

Spark Structured Streaming

Structured Streaming API.
Streaming Context.
Static et Dynamic Datasets.
Fenêtrage et Agrégation.
Checkpointing & Watermarking.
Fiabilité et tolérance aux pannes.
Intégration avec Kafka.

Travaux pratiques

Mise en œuvre de l’analyse en temps-réel d'un fichier de log.

Introduction au Machine Learning

Introduction au Machine Learning.
Les différentes classes d'algorithmes.
Présentation de MLlib.
Implémentations des différents algorithmes dans MLlib.
Clustering : KNN, K-mean
Régression : Arbre de régression
Classification : Random Forest, SVM, AUC, Courbe ROC

Travaux pratiques

Mise en œuvre des analyses sur plusieurs jeux de données.

Découvrez notre formation SPARK, DÉVELOPPER POUR LE BIG DATA

Programme SPARK, DÉVELOPPER POUR LE BIG DATA

Demande de devis

Les objectifs

pré-requis

Moyens pédagogiques, techniques et d'encadrement

Modalités d'évaluation des acquis

Accessibilité handicapés

Le Programme

Introduction

Travaux pratiques

Programmer avec les Resilient Distributed Dataset (RDD)

Travaux pratiques

Manipuler des données structurées avec Spark SQL

Travaux pratiques

Spark sur un cluster

Travaux pratiques

Manipuler des graphes avec GraphX

Travaux pratiques

L'architecture Kafka

Travaux pratiques

Spark Structured Streaming

Travaux pratiques

Introduction au Machine Learning

Travaux pratiques

Rechercher une formation

Découvrez notre formation

SPARK, DÉVELOPPER POUR LE BIG DATA