Tech

Développer, déployer et optimiser une application avec Spark

mis à jour le 03/11/2021

Télécharger le programme au format PDF.

Programme de la formation

Cette formation part du constat qu’une fois que l’on connaît les bases de Spark, il devient difficile de trouver des ressources qui permettent de pleinement maîtriser ce framework. Son contenu est donc basé sur les difficultés et problèmes qu’ont dû résoudre nos consultants lors de leurs différentes missions, et sera donc composé de nombreux retours d’expérience.

Jour 1 :

Les bases

map reduce – partitionnement des données (lazy eager) – exécution des opérations en parallèle (task, stage, job) – Spark UI

Testing

tester des dataframe – accélérer les tests (shared spark session) User Defined Function

udf – udaf – task not serializable – window function

La mémoire

le cache – l’utilisation de la mémoire dans spark – les erreurs de mémoire : OOM, GC overhead

Catalyst

les différents plans – fonctionnement

Jour 2 :

Shuffle et Join

les différents types de shuffle – gérer les shuffles et le partitionnement – broadcast join

PySpark

particularités – utiliser des udf scala en python – distribuer son traitement scikit-learn

Logging

logger dans des udf – spark metrics – spark aggregator

Méthodes pédagogiques

Chaque chapitre est accompagné d’exercice en Scala ou en Python mettant en œuvre les différents concepts développés.

Durée

2 jours soit 14 heures

Tarif HT

inter : 2 490 €

intra : Sur demande

Prochaines dates

2 - December 3

7 - February 8

16 - June 17

8 - September 9

5 - December 6

Inscription

Public visé

Cette formation est à destination des développeurs qui utilisent déjà Spark et qui souhaiteraient approfondir et optimiser son fonctionnement.

Prérequis

Avoir déjà regardé la documentation de Spark en Scala et en Python. Savoir faire des jointures, select, where sur des DataFrame. Savoir écrire un word count en Spark en Scala et en Python.

Objectifs de la formation

A l’issue de la formation, les participants sauront :

  • Expliquer le fonctionnement de Spark (shuffle, mémoire, …)
  • Tester des DataFrame et faire des tests performants
  • Utiliser efficacement des UDF
  • Expliquer et résoudre des erreurs courantes
  • Expliquer le fonctionnement de catalyst et de PySpark
  • Optimiser des jobs Spark
  • Faire du logging et du monitoring

Validation

À la fin de cette formation, les stagiaires recevront une attestation de présence.

Informations complémentaires

Modalités et délais d'accès

Inscription par email ou téléphone.

Clotûre des inscriptions inter-entreprises 48h avant le début de la formation.

Pour les demandes de formations intra-entreprises :

  • Le tarif intra-entreprise est déterminé suite à l'analyse du besoin.
  • Les dates sont validées d'après les plannings respectifs du demandeur et du prestataire. La date de formation doit être validée idéalement 2 semaines avant le début de la formation.

Accessibilité

Si un bénéficiaire a des contraintes particulières liées à une situation de handicap, veuillez nous contacter au préalable afin que nous puissions, dans la mesure du possible, adapter l’action de formation.

Indicateurs formations Techniques

  • Taux de satisfaction moyen : 93%
  • Taux d’assiduité : 100%
  • Nombre de personnes formées sur 2021 au 17/11/21 : 110

Formateurs

Alban Phelip

Alban Phelip

Alban est Data Engineer chez Publicis Sapient France. Issu d’une formation en statistiques il s’est spécialisé dans l’ingéniérie des données. Ses outils préférés : Spark et R. Speaker et bloggeur il se passionne par tout ce qui touche de près ou de loin au Big Data et à la Data Science.

Franck Cussac

Franck Cussac

Franck a suivi une formation de développeur et a fait ses débuts de carrière en tant que data ingénieur, mais s'est pris très vite de passion pour l'intégration et le déploiement automatisé. Aujourd'hui il intervient autant sur le développement applicatif que sur la gestion de l'infrastructure cloud.