Programme ADMINISTRATION DE HADOOP® POUR SOLUTIONS BIG DATA

Participants : Aux administrateurs Hadoop, aux administrateurs de systèmes Linux, aux administrateurs de bases de données, aux administrateurs de réseaux et aux développeurs qui ont besoin de savoir comment installer et gérer leurs clusters de développement Hadoop. 

Durée : 4 jours - 28 heures
Tarif : Nous contacter pour une formation INTER – INTRA ou en COURS PARTICULIER

La formation est délivrée en présentiel ou distanciel (e-learning, classe virtuelle, présentiel et à distance). Le formateur alterne entre méthodes démonstrative, interrogative et active (via des travaux pratiques et/ou des mises en situation). La validation des acquis peut se faire via des études de cas, des quiz et/ou une certification.

Cette formation est animée par un consultant-formateur dont les compétences techniques, professionnelles et pédagogiques ont été validées par des diplômes et/ou testées et approuvées par l’éditeur et/ou par Audit Conseil Formation.

Dates des formations
Contactez-nous pour des informations sur les disponibilités pour cette formation.
Logo ACF

Demande de devis

Formation
Cadre
Pôle Emploi
Nom/Prénom
Société
E-mail
Téléphone
Période
Evaluer mon niveau

Les objectifs

Au
Au
cours de cette formation, vous apprendrez à installer, configurer et gérer la plateforme Hadoop d'Apache et son écosystème, mais aussi à surveiller des tâches Hadoop avec des fonctionnalités intégrées et des outils dédiés, comme par exemple Ganglia.

pré-requis

Une expérience en programmation est utile mais pas obligatoire.

Moyens pédagogiques, techniques et d'encadrement

  • 1 poste de travail complet par personne
  • De nombreux exercices d'application
  • Mise en place d'ateliers pratiques
  • Remise d'un support de cours
  • Remise d'une attestation de stage

Modalités d'évaluation des acquis

- Evaluation des besoins et objectifs en pré et post formation
- Evaluation technique des connaissances en pré et post formation
- Evaluation générale du stage

Accessibilité handicapés

  • Au centre d’affaires ELITE partenaire d’ACF à 20 m.
  • Guide d’accessibilité à l’accueil.

Le Programme

Installation du système de fichiers distribuéHadoop (HDFS)

  • Définir l'architecture globale et ses principaux composants
  • Configurer et installer le système de fichiers
  • Exécuter des commandes depuis la console
  • Accéder aux fichiers en lecture et en écriture

Préparer l'environnement pour MapReduce

  • Revoir les principes de MapReduce
  • Découvrir les démons informatiques
  • Examiner une tâche MapReduce

Planification de l'architecture

  • Choisir le matériel adéquat
  • Concevoir un cluster évolutif

Développement du cluster

  • Installer les démons Hadoop
  • Optimiser l'architecture du réseau

Préparation du système HDFS

  • Paramétrer les principales options de configuration
  • Configurer les redondance, réplication et affectation des blocs

Déploiement de MapReduce

  • Installer et paramétrer l'environnement MapReduce
  • Réaliser l'équilibrage de charge par la connaissance des racks

Créer un système de fichiers tolérant aux pannes

  • Isoler les éléments dysfonctionnels
  • Garantir la haute disponibilité
  • Déclencher manuellement le basculement
  • Automatiser le basculement avec Zookeeper

Optimiser la fédération des nœuds de nommage

  • Développer des ressources HDFS
  • Gérer les volumes des espaces de noms

Présentation de YARN

  • Analyser l'architecture de YARN
  • Identifier les nouveaux démons

Affectation des ressources

  • Définir des quotas pour limiter l'utilisation du système HDFS
  • Planificateurs pour hiérarchiser l'accès à MapReduce

Gestion de HDFS

  • Démarrer et arrêter des démons Hadoop
  • Surveiller l'état du système HDFS
  • Ajouter et supprimer des nœuds de données

Administration de MapReduce

  • Gérer les tâches MapReduce, suivre l'avancement avec des outils d'analyse, mise en service et arrêt des nœuds de calcul

Utiliser les outils standards intégrés

  • Gérer et déboguer les processus avec les mesures JVM
  • Vérifier l'état d'Hadoop

Utiliser des outils de personnalisation complémentaires

  • Évaluer les performances avec Ganglia et Chukwa
  • Benchmarking pour garantir des performances continues

Simplifier l'accès aux informations

  • Activer l'envoi de requêtes de type SQL avec Hive
  • Installer Pig pour créer des tâches MapReduce

Intégrer des éléments supplémentaires de l'écosystème

  • Afficher le système HDFS sous forme de tableau avec HBase
  • Configurer Oozie pour la planification des workflows

Faciliter l'entrée / la sortie de données génériques

  • Déplacer des blocs de données depuis ou vers Hadoop
  • Transférer des données HDFS via HTTP avec WebHDES

Recueillir des données d'application

  • Récupérer des fichiers journaux provenant de différentes sources avec Flume, importer et exporter des informations sur les bases de données relationnelles avec Sqoop

Planification des stratégies de sauvegarde, de récupération et de sécurité

  • Gérer les pannes matérielles courantes
  • Sécuriser le cluster Hadoop