Tech

Analyse de données et Machine Learning avec Spark

mis à jour le 03/11/2021

Télécharger le programme au format PDF.

Programme de la formation

Passez au niveau supérieur en termes de connaissances grâce à la formation Analyse de données et Machine Learning avec Spark. Cette formation de trois jours, axée sur Spark SQL et Spark ML, vous apprendra à appliquer l’analyse traditionnelle des données, l’analyse statistique et des algorithmes de Machine Learning au Big Data.

Vue globale : Apache Spark permet d’écrire simplement des applications distribuées complexes qui permettent de prendre des meilleures décisions plus rapidement et des actions en temps réel, appliquées à une grande variété de cas d’utilisations, d’architectures et de secteurs d’activités.

Spark SQL est le module de Spark permettant de gérer de la donnée structurée. Il permet l’utilisation de DataFrames, une collection de données organisées en colonnes, donnant accès à de multiples fonctionnalités pour l’analyse et de traitement de données.

Spark ML est un des modules de Spark pour le Machine Learning. Il permet l’utilisation d’un grand nombre d’algorithmes de traitement de la donnée et de Machine Learning (classification, régression, clustering), ainsi que de nombreuses étapes de pré-processing de la donnée (Feature Engineering).

Contenu du programme :

1/ Analyse de données structurées avec Spark DataFrames

Introduction à Spark sur Hadoop

  • RDD (Resilient Distributed Datasets) / Interagir avec HDFS / Soumettre une requête Python

Hands-On : DataFrame

  • L’API de base / Chargement de données structurées / Manipulations basiques / Types de données / Opérations et statistiques

Hands-On : Manipulations avancées des DataFrames

  • Aggregations / Jointures / Window aggregations / Chargement et sauvegarde pour différents formats / SQL sur Spark

Hands-On : Bonnes pratiques et performances

  • Format des données et compression / Fonctionnement de Catalyst / Partition discovery / Python, R ou Scala pour Spark, que choisir ?

Questions – Réponses

2/ Machine Learning avec Spark ML

Rappels sur le Machine Learning Spark ML – MLib

  • Structure de l’API & Concepts clés / Données d’entrée / Exemples supervisé et non supervisé / Limites de l’API

Hands-On : Spark ML

  • Structure de l’API & Concepts clés / Transformer / Estimator / Paramètres / Évaluation de modèles (classification, régression)

Hands-On : Feature Engineering

  • Indexing / Encoding / Text Processing / Scaling

Hands-On : Tuning de paramètres

  • Train-Validation Split / Grid-Search / Cross Validation

Hands-On : Pipeline

  • Construction de Pipeline de Machine Learning

Hands-On : Autres applications

  • Réduction de Dimension / Clustering / Systèmes de Recommandation

Questions – Réponses

Méthodes pédagogiques

Au travers de discussions dirigées par le formateur et d’exercices “Hands-On” interactifs, les participants apprendront à travailler sur les différentes fonctionnalités de Spark.

La partie pratique s’articulera autour d’un projet fil rouge tout au long de la formation. Dans un premier temps, l’accent sera mis sur la manipulation avancée de données sur les tables à disposition. Sur la partie Machine Learning, les participants travailleront sur l’élaboration d’un premier modèle supervisé simple et son évaluation, pour ensuite l’améliorer en le complexifiant avec les différentes notions vues dans les différents chapitres.

Durée

3 jours soit 21 heures

Tarif HT

inter : 2 100 €

intra : Sur demande

Prochaines dates

6 - December 8

9 - February 11

6 - April 8

28 - June 30

11 - October 13

Inscription

Public visé

Cette formation Analyse de données et Machine Learning est parfaitement adaptée aux analystes de données, Data Scientists ou développeurs ayant une appétence pour le Machine Learning.

Prérequis

Une connaissance de Python, R, Scala ou SQL, est préférable.

Une connaissance préalable de Java, et Spark n’est pas requise.

Veuillez noter que cette formation se focalise sur l’utilisation de Spark dans le cadre de l’Analyse de Données et du Machine Learning et n’est pas une formation dédiée au fonctionnement interne de Spark d’un point de vue développeur. Si vous souhaitez une formation 100% dédiée au développement sur Spark (et donc moins de focus sur ses APIs d’analyse de données), nous conseillons plutôt la formation Apache Spark pour développeurs que nous proposons également.

Les postes de travail et les logiciels nécessaires au bon déroulement de la formation sont fournis par Xebia. Les participants peuvent amener leurs propres postes s’ils le souhaitent, sans configuration particulière préalable.

Objectifs de la formation

À la suite de cette formation, les participants pourront travailler sur les différentes fonctionnalités de Spark. Ils adresseront aisément les sujets suivants :

  • Notions fondamentales de Spark et son fonctionnement sur Hadoop.
  • Comment charger, explorer et analyser des données provenant de diverses sources avec les DataFrames de Spark SQL.
  • Comment préparer et transformer des données puis utiliser des algorithmes de Machine Learning avec Spark ML.

Validation

À la fin de cette formation, les stagiaires recevront une attestation de présence.

Informations complémentaires

Modalités et délais d'accès

Inscription par email ou téléphone.

Clotûre des inscriptions inter-entreprises 48h avant le début de la formation.

Pour les demandes de formations intra-entreprises :

  • Le tarif intra-entreprise est déterminé suite à l'analyse du besoin.
  • Les dates sont validées d'après les plannings respectifs du demandeur et du prestataire. La date de formation doit être validée idéalement 2 semaines avant le début de la formation.

Accessibilité

Si un bénéficiaire a des contraintes particulières liées à une situation de handicap, veuillez nous contacter au préalable afin que nous puissions, dans la mesure du possible, adapter l’action de formation.

Indicateurs formations Techniques

  • Taux de satisfaction moyen : 93%
  • Taux d’assiduité : 100%
  • Nombre de personnes formées sur 2021 au 17/11/21 : 110

Formateurs

Yoann Benoit

Yoann Benoit

Diplômé de l’Ecole Centrale de Lille avec une spécialisation en Analyse de données et en Machine Learning, Yoann intervient sur des sujets relevants à la fois du Data Engineering et de la data Science. Il est formateur en Machine Learning sur Spark ainsi que sur le Deep Learning sur TensorFlow.

Il travaille sur des projets Data Science de bout en bout, de l’analyse exploratoire à leur mise en production. Il intervient sur les phases d’idéation et de prototypages de Use Cases Data Science ainsi que sur des expertises Deep Learning.

Il est intervenu en tant que speaker à Devoxx Guest aux côtés d’Anne-Sophie Girault le Mault pour sa conférence sur la dynamique de groupe et la structuration du temps.

Yoann est également speaker sur des conférences techniques d’envergure nationale :

  • On-Device Intelligence : Intégrez du Deep Learning sur vos Smartphones (DevFest Nantes 2017, XebiCon 2017, AndroidMakers 2017)
  • Le Deep Learning dans la vraie vie (XebiCon 2017)
  • Data Science & Craftsmanship : Je t'aime, moi non plus (XebiCon 2016, PyData 2016)
  • Utiliser du Deep Learning pour interpréter des photographies (XebiCon 2016)
  • Machine Learning sur Spark (Devoxx 2015, Mix-IT 2015, BreizhCamp 2015)

Quelques publications :

Retrouvez égalemeent ses articles sur le blog Technique de Xebia.

Sandra Pietrowska

Sandra Pietrowska

Sandra a 6 ans d’expérience en Data Science. Elle est diplômée de l'Université Polytechnique de Catalogne, de l'Université de Lyon 2 en Data mining et gestion de connaissances et de la Haute Ecole de Commerce de Varsovie en Méthodes Quantitatives en Économie et Systèmes d’Information.

Elle participe à toutes les phases de réalisation d’un projet Data Science, de l’idéation à la mise en production des modèles ainsi que la visualisation des données et le reporting. Ses dernières expériences lui ont permis de développer des compétences en Data Engineering ainsi que dans le rôle de Scrum Master.