Apache Spark

Formation Apache Spark

Prix : 1 980€

Découvrez la puissance du moteur de traitement Apache Spark

par Retengr

Apache Spark est un moteur de traitements distribués sur des gros volumes de données.
Souvent mis en opposition au modèle mapreduce implémenté dans Hadoop, il en est en fait une extension qui peut en diviser les temps d’exécution jusqu’à un facteur de 100 en maximisant le travail « in-memory ».

Spark exploite les principes de programmation fonctionnelle afin d’optimiser l’empreinte mémoire nécessaire à son exécution. Conçu pour mettre en œuvre des traitements distribués, Spark peut s’appuyer sur plusieurs types de clusters, dont YARN le négociateur de ressources intégré à Hadoop.

📅 4 jours à temps plein

📚 classe virtuelle ou en présentiel

💶 1 980€

Pour en savoir + sur le programme ou échanger avec l'organisme de formation c'est par ici

⬇️

Je suis intéressé.e !

Organisme Curriculum Formhttps://www.neoddity.com/courses/dev-web-reconversion-proat

Faites financer cette formation !

Cet Organisme de Formation est certifié Qualiopi, vous pouvez mobiliser les dispositifs de financement de l'Etat.

Contactez-nous si vous avez besoin d'aide.

Obtenir de l'aide Lire le kit de survie !

Vous pouvez également nous contacter au 06 30 90 99 06.

Pour qui est fait ce programme

La connaissance d’un langage de programmation est souhaitable.

Architectes
Data miner ou Développeurs
Chefs de projet

Vous n’êtes pas encore sûr que ce programme soit le perfect match.
Neoddity est là pour vous guider !

Échanger avec un mentor

C'est gratuit !

Avec ce programme vous pourrez :

Concevoir une application avec Spark .
Comprendre le principe de distribution des traitements.
Maîtriser les concepts fondamentaux des et des Resilient Distributed Dataset.
Utiliser les dataframes via Spark SQL.
Utiliser SparkUI afin d’analyser les jobs et tâches de Spark.
Positionner SparkML dans un contexte de data science.
Traiter des données en continu avec Spark Streaming.

L'organisme de formation

Retengr

À travers un service personnalisé, flexible et intelligent, Retengr accompagne dans une atmosphère chaleureuse vers la performance, le tout avec empathie et professionnalisme.

Vous allez adorer Retengr si vous pensez que...

- Une formation doit être au service de la performance du collaborateur et de l’entreprise

- L’expertise technique est aussi importante que les qualités pédagogiques

- Un cadre d’apprentissage soigné permet une formation plus efficace

- “Qui cherche la perfection obtient l’excellence”

Voir l'organisme de formation

Votre instructeur

Denis Peyrusaubes

Denis est fondateur et dirigeant de Retengr.
Après des années passées dans le monde de la formation, il a décidé de créer Retengr, un organisme de formation à son image : chaleureux, spécialisé et à forte valeur ajoutée.
Ingénieur passionné de hautes technologies, il assure lui-même certaines formations et ne cesse jamais d’apprendre et de se former.
Sa quête d’excellence lui a permis de former les meilleurs ingénieurs de groupes leaders de leurs secteurs, ainsi que des start-up et PME dans le domaine de l’IT.

Curriculum du programme

Présentation de Spark

Spark : un besoin de distribuer vos traitements
Architecture de Spark runtime : driver, executor, master
Positionner Spark vs Hadoop
Les langages du framework : Java | Scala | Python | R

RDD : Resilient Distributed Dataset

RDD : Le composant fondateur du fonctionnement de Spark
Les partitions : la base de la distribution
Transformations, actions et directed acyclic Graph
Manipuler un RDD : Une API riche
Le cas particulier des Pairs RDD

SparkSQL, Dataframes et Datasets

Un modèle de programmation haut niveau
Initialisation d’un dataframe
Manipulation : sélection, tri et fonctions d’agrégation.
Dataset : une surcouche typée des dataframes
Comprendre le plan d’exécution d’une requête
Bonnes et mauvaises pratiques avec SparkSQL

Mise en cluster : Les infrastructures de déploiement

Les composants d’une exécution Spark : Jobs, stages et tasks
Un principe important : Data locality
Distribution des données dans le cadre d’un cluster : les partitions
Redistribution des données : le shuffle
Bonnes pratiques et performance

Machine Learning

Comprendre les principes fondamentaux du Machine Learning
Apprentissage et création d’un modèle avec SparkML

Spark streaming

Collecte et traitement des données en continu
Stream processing avec Spark
Comprendre le principe du micro-batching

Pour en savoir + ou échanger avec l'organisme de formation c'est par ici

👇

Je suis intéressé.e

Qu'en pensent les alumni ?

Merwann S.

DataScientist dans une ESN

Très sympa et très pédagogue. Il sait appuyer sur les points importants (le vocabulaire). Un très bon équilibre entre théorie et pratique avec des cas d'usages intéressants.

Classe virtuelle ou présentiel (à Paris, Toulouse)

Composée à 70% de pratique, cette formation utilise des exercices illustrés et didactiques.

Une évaluation quotidienne de l’acquisition des connaissances de la veille est effectuée.

Une synthèse est proposée en fin de formation.

Une évaluation à chaud sera proposée au stagiaire à la fin du cours. Un support de cours sera remis à chaque participant comprenant les slides sur la théorie, les exercices. Une feuille d’émargement par demi-journée de présence est fournie en fin de formation ainsi qu’une attestation de fin de formation si le stagiaire a bien assisté à la totalité de la session.

Un suivi et un échange avec les participants seront mis en place quelques jours après la formation.

Une journée type de formation à distance se décompose de la façon suivante :

Matin :
- 2h de théorie en visioconférence
- 10 à 15 minutes de présentation d’exercices en visio
- 1h de TP en autonomie avec possibilité de solliciter le formateur (partage d’écran à distance pour une assistance efficace).

Après-midi :
- 2h de théorie en visioconférence
- 10 à 15 minutes de présentation d’exercices en visio
- 1h de TP en autonomie avec possibilité de solliciter le formateur (partage d’écran à distance pour une assistance efficace).

Formation Apache Spark

Découvrez la puissance du moteur de traitement Apache Spark

Pour en savoir + sur le programme ou échanger avec l'organisme de formation c'est par ici

⬇️

Faites financer cette formation !

Pour qui est fait ce programme

Architectes

Data miner ou Développeurs

Chefs de projet

Vous n’êtes pas encore sûr que ce programme soit le perfect match.
Neoddity est là pour vous guider !

Échanger avec un mentor

C'est gratuit !

Avec ce programme vous pourrez :

L'organisme de formation

Votre instructeur

Curriculum du programme

Présentation de Spark

RDD : Resilient Distributed Dataset

SparkSQL, Dataframes et Datasets

Mise en cluster : Les infrastructures de déploiement

Machine Learning

Spark streaming

Pour en savoir + ou échanger avec l'organisme de formation c'est par ici

👇

Qu'en pensent les alumni ?

Merwann S.

Classe virtuelle ou présentiel (à Paris, Toulouse)

Formations qui pourraient vous intéresser

Pensez comme un Data scientist

Workshop Deep Learning

Vulgarisation de la DataVisualisation

Architecture Big Data

Formation Kafka

Formation Kubernetes

Formation Docker

Workshop CICD Docker, Gitlab et Kubernetes

Workshop IaC - Infrastructure as Code

Workshop Angular