Tech

Data Platform sur AWS

Programme de la formation

Les entreprises récoltent toujours de plus en plus de données et ont besoin de les stocker, de les traiter et de les analyser. Pour répondre à leurs besoins, Amazon Web Services déploie un myriade de services couvrant l’ensemble du cycle de gestion des données : collecte, stockage, traitement / analyse, consommation / visualisation. La difficulté réside dans l’interconnexion de ces services pour former un tout cohérent.

Jour 1

Introduction (30 min)

  • Qu’est ce qu’une Data Platform ?
  • Une implémentation possible sur AWS

Avant de commencer

  • L’infra as code avec cloudformation
  • Cloudwatch (metrics / logs, insights)
  • Gestion des permissions (IAM)
  • Déploiement d’un bucket S3 via cloudformation

Le stockage de la donnée

  • Présentation de S3 : S3 / Glacier / Pricing / Policy / LifeCycle / Chiffrement / Versioning / Limitations
  • Organisation de la donnée
  • TP : déploiement du bucket, bucket policy, life cycle IA, versioning, chiffrement par défaut)

Acquisition de la donnée batch

  • Zone incoming sur S3
  • AWS Transfer Family
  • Patterns de complétude des fichiers lors du transfert

Jour 2

Conversion en parquet avec Spark

  • AWS Glue Job
  • AWS Glue Studio
  • Debugging spark
  • Packaging du job
  • AWS EMR
  • Spark EMR EKS

Scheduling de jobs

  • Lambda
  • Orchestration avec Step Functions

Catalogue de données

  • AWS Glue Data Catalog
  • Lake Formation

Transformation métier

  • AWS Athena : Query (Presto) / CTAS / Views / Limitations / Pricing / Federated queries / Glue Data Brew
  • AWS Glue Elastic Views

Time series

  • Kinesis
  • MSK
  • Timestream

Jour 3

Partage des données

  • Exposition du Data Catalogue à d’autres comptes AWS via Lake Formation
  • Exposition du Data Catalogue à des utilisateurs métiers

Analyse des données

  • Analyse et dashboard avec Quicksight
  • Analyse et dashboard via des outils de BI (athena JDBC / ODBC)
  • Notebooks (Sagemaker, Sagemaker Data Wrangler)

Backup

  • S3 replication
  • S3 pit restore
  • Data Catalogue

Gestions des coûts

  • Cost explorer
  • Alertes via des AWS Budget
  • Exemple de coût d’un vrai projet avec les causes et les actions effectuées pour diminuer les coûts

Méthodes Pédagogiques

Répartition : 60% théorie et 40% de mise en application.

Un cas d’utilisation servira de fil conducteur pour illustrer les cas d’usage de la Data Platform. À la fin de la formation chaque stagiaire repartira avec la base de code (cloudformation) de la Data Platform.

Durée

3 jours soit 21 heures

Tarif HT

inter : 2 500€

intra : Sur demande

Prochaines dates

24 - February 26

29 - March 31

3 - May 5

28 - June 30

20 - October 22

24 - November 26

Inscription

Public visé

Cette formation est destinée à des développeurs (data ingénieurs) et à des architectes.

Prérequis

Être familier avec les concepts du cloud AWS, sans nécessairement avoir préalablement pratiqué. Chaque service AWS utilisé sera détaillé et/ou manipulé. Les rappels nécessaires transverses (réseau, IAM…) seront donnés en temps voulu. Une connaissance de Git est indispensable pour réaliser les TP.

Objectifs de la formation

Cette formation vous donnera les éléments théoriques et pratiques pour vous permettre de construire votre Data Platform sur AWS.

À travers un cas d’utilisation fil-rouge vous utiliserez les services AWS pour construire une Data Platform répondant aux considérations suivantes :

  • Les données sont ingérées en batch au format CSV et converties en parquet pour le stockage
  • Certaines données proviennent de capteurs (time series) et doivent être ingérées en streaming
  • Les données sont stockées sur S3
  • Certaines données sont montées dans Redshift
  • Le catalogue de données recense les données de la Data Platform
  • Les données sont interrogeables en SQL via des outils de BI
  • Les donnée sont explorables grâce à des notebooks
  • Des jeux de données métiers sont constitués à partir des données brutes
  • L’accès aux données est contrôlée et sécurisé
  • La plateforme est monitorée

Pour cela vous verrez en détail les points suivants :

  • Choisir les options de stockage de données appropriées
  • Gestion des droits avancés via Lake Formation et sécurité des données
  • Identifier les options pour l’acquisition, le transfert et la compression de données
  • Identifier les services de traitement de la données (Glue, EMR, Athena, Data Brew)
  • Requêtage des données via AWS Athena
  • Génération de jeux de données via AWS Athena

Validation

À la fin de cette formation, les stagiaires recevront une attestation de présence.

Formateurs

Alban Phelip

Alban Phelip

Alban est Data Engineer chez Publicis Sapient France. Issu d’une formation en statistiques il s’est spécialisé dans l’ingéniérie des données. Ses outils préférés : Spark et R. Speaker et bloggeur il se passionne par tout ce qui touche de près ou de loin au Big Data et à la Data Science.