Durée : 5 jours - 35 heures
Tarif : Nous contacter pour une formation INTER – INTRA ou en COURS PARTICULIER
La formation est délivrée en présentiel ou distanciel (e-learning, classe virtuelle, présentiel et à distance). Le formateur alterne entre méthodes démonstrative, interrogative et active (via des travaux pratiques et/ou des mises en situation). La validation des acquis peut se faire via des études de cas, des quiz et/ou une certification.
Cette formation est animée par un consultant-formateur dont les compétences techniques, professionnelles et pédagogiques ont été validées par des diplômes et/ou testées et approuvées par l’éditeur et/ou par Audit Conseil Formation.
Bonnes connaissances du langage Scala, Python ou R.
- Evaluation des besoins et objectifs en pré et post formation
- Evaluation technique des connaissances en pré et post formation
- Evaluation générale du stage
Historique du Framework.
Comparaison avec l'environnement Apache Hadoop.
Les différents modules de Spark.
Langages supportés.
Installation et configuration de Spark.
Exécution d'un premier exemple avec le comptage de mots.
Présentation des RDD.
Créer, manipuler et réutiliser des RDD.
DAG Directed Acyclic Graph.
Accumulateurs et variables broadcastées.
Utiliser des partitions.
Manipulation de différents Datasets à l'aide de RDD et utilisation de l'API fournie par Spark.
Spark Context vs Spark Session.
SQL, DataFrames et Datasets.
Les différents types de sources de données.
Interopérabilité avec les RDD.
Utilisation de SQL avec des Dataframes.
Performance de Spark SQL.
JDBC/ODBC server et Spark SQL CLI.
L'analyse du DAG via Spark-UI
Manipulation de Dataframes via des requêtes SQL.
Les différents types d'architecture : Standalone, Apache Mesos ou Hadoop YARN.
Configurer un cluster en mode Standalone.
Packager une application avec ses dépendances.
Déployer des applications avec Spark-submit.
Dimensionner un cluster.
Mise en place d'un cluster Spark.
Présentation de GraphX.
Les différentes opérations.
Créer des graphes.
Vertex and Edge RDD.
Présentation de différents algorithmes.
Manipulation de l'API GraphX à travers différents exemples.
L'aperçu de Kafka Producers, Brokers, Consumers.
Les fichiers journaux de Kafka.
Les schémas Avro.
Utilisation de ZooKeeper.
Étude de la configuration de Kafka dans l'architecture KAPPA.
Structured Streaming API.
Streaming Context.
Static et Dynamic Datasets.
Fenêtrage et Agrégation.
Checkpointing & Watermarking.
Fiabilité et tolérance aux pannes.
Intégration avec Kafka.
Mise en œuvre de l’analyse en temps-réel d'un fichier de log.
Introduction au Machine Learning.
Les différentes classes d'algorithmes.
Présentation de MLlib.
Implémentations des différents algorithmes dans MLlib.
Clustering : KNN, K-mean
Régression : Arbre de régression
Classification : Random Forest, SVM, AUC, Courbe ROC
Mise en œuvre des analyses sur plusieurs jeux de données.