Découvrez la puissance du moteur de traitement Apache Spark

par Retengr


Apache Spark est un moteur de traitements distribués sur des gros volumes de données.
Souvent mis en opposition au modèle mapreduce implémenté dans Hadoop, il en est en fait une extension qui peut en diviser les temps d’exécution jusqu’à un facteur de 100 en maximisant le travail « in-memory ».


Spark exploite les principes de programmation fonctionnelle afin d’optimiser l’empreinte mémoire nécessaire à son exécution. Conçu pour mettre en œuvre des traitements distribués, Spark peut s’appuyer sur plusieurs types de clusters, dont YARN le négociateur de ressources intégré à Hadoop.


📅  4 jours à temps plein

📚  classe virtuelle ou en présentiel

💶  1 980€


Pour en savoir + sur le programme ou échanger avec l'organisme de formation c'est par ici 

⬇️



Faites financer cette formation !

Cet Organisme de Formation est certifié Qualiopi, vous pouvez mobiliser les dispositifs de financement de l'Etat.

Contactez-nous si vous avez besoin d'aide.



Vous pouvez également nous contacter au 06 30 90 99 06.

Pour qui est fait ce programme

La connaissance d’un langage de programmation est souhaitable.

  • Architectes

  • Data miner ou Développeurs

  • Chefs de projet

Avec ce programme vous pourrez :

  • Concevoir une application avec Spark .

  • Comprendre le principe de distribution des traitements.

  • Maîtriser les concepts fondamentaux des et des Resilient Distributed Dataset.

  • Utiliser les dataframes via Spark SQL.

  • Utiliser SparkUI afin d’analyser les jobs et tâches de Spark.

  • Positionner SparkML dans un contexte de data science.

  • Traiter des données en continu avec Spark Streaming.

L'organisme de formation

Retengr

À travers un service personnalisé, flexible et intelligent, Retengr accompagne dans une atmosphère chaleureuse vers la performance, le tout avec empathie et professionnalisme.

Vous allez adorer Retengr si vous pensez que...

- Une formation doit être au service de la performance du collaborateur et de l’entreprise

- L’expertise technique est aussi importante que les qualités pédagogiques

- Un cadre d’apprentissage soigné permet une formation plus efficace

- “Qui cherche la perfection obtient l’excellence”

Votre instructeur


Denis Peyrusaubes

Denis est fondateur et dirigeant de Retengr.
Après des années passées dans le monde de la formation, il a décidé de créer Retengr, un organisme de formation à son image : chaleureux, spécialisé et à forte valeur ajoutée.
Ingénieur passionné de hautes technologies, il assure lui-même certaines formations et ne cesse jamais d’apprendre et de se former.
Sa quête d’excellence lui a permis de former les meilleurs ingénieurs de groupes leaders de leurs secteurs, ainsi que des start-up et PME dans le domaine de l’IT.

Curriculum du programme

Présentation de Spark

  • Spark : un besoin de distribuer vos traitements
  • Architecture de Spark runtime : driver, executor, master
  • Positionner Spark vs Hadoop
  • Les langages du framework : Java | Scala | Python | R

 

RDD : Resilient Distributed Dataset

  • RDD : Le composant fondateur du fonctionnement de Spark
  • Les partitions : la base de la distribution
  • Transformations, actions et directed acyclic Graph
  • Manipuler un RDD : Une API riche
  • Le cas particulier des Pairs RDD

 

SparkSQL, Dataframes et Datasets

  • Un modèle de programmation haut niveau
  • Initialisation d’un dataframe
  • Manipulation : sélection, tri et fonctions d’agrégation.
  • Dataset : une surcouche typée des dataframes
  • Comprendre le plan d’exécution d’une requête
  • Bonnes et mauvaises pratiques avec SparkSQL

 

Mise en cluster : Les infrastructures de déploiement

  • Les composants d’une exécution Spark : Jobs, stages et tasks
  • Un principe important : Data locality
  • Distribution des données dans le cadre d’un cluster : les partitions
  • Redistribution des données : le shuffle
  • Bonnes pratiques et performance

 

Machine Learning

  • Comprendre les principes fondamentaux du Machine Learning
  • Apprentissage et création d’un modèle avec SparkML

 

Spark streaming

  • Collecte et traitement des données en continu
  • Stream processing avec Spark
  • Comprendre le principe du micro-batching

Qu'en pensent les alumni ?

Merwann S.

DataScientist dans une ESN

Très sympa et très pédagogue. Il sait appuyer sur les points importants (le vocabulaire). Un très bon équilibre entre théorie et pratique avec des cas d'usages intéressants.

Classe virtuelle ou présentiel (à Paris, Toulouse)

Composée à 70% de pratique, cette formation utilise des exercices illustrés et didactiques.

Une évaluation quotidienne de l’acquisition des connaissances de la veille est effectuée.

Une synthèse est proposée en fin de formation.

Une évaluation à chaud sera proposée au stagiaire à la fin du cours. Un support de cours sera remis à chaque participant comprenant les slides sur la théorie, les exercices. Une feuille d’émargement par demi-journée de présence est fournie en fin de formation ainsi qu’une attestation de fin de formation si le stagiaire a bien assisté à la totalité de la session.

Un suivi et un échange avec les participants seront mis en place quelques jours après la formation.

Une journée type de formation à distance se décompose de la façon suivante :

Matin :
- 2h de théorie en visioconférence
- 10 à 15 minutes de présentation d’exercices en visio
- 1h de TP en autonomie avec possibilité de solliciter le formateur (partage d’écran à distance pour une assistance efficace).

Après-midi :
- 2h de théorie en visioconférence
- 10 à 15 minutes de présentation d’exercices en visio
- 1h de TP en autonomie avec possibilité de solliciter le formateur (partage d’écran à distance pour une assistance efficace).