Tech

Statistiques pour un pilotage Data Driven

Notre conviction

L’innovation dans un contexte en constante évolution demande une grande réactivité. Pour cela nous pensons qu’il est essentiel pour une organisation/équipe de maîtriser pleinement les informations de son environnement (internes et externes) et d'adopter une démarche de Test & Learn by design, systématique et de qualité. Ce choix doit permettre d’imaginer de nouvelles options, de les mettre à l'épreuve afin d’abandonner rapidement les actions qui ne fonctionnent pas, sans coûts financiers ni humains excessifs, et d’adopter celles qui sont les plus bénéfiques. C’est notre conception d’une organisation Data Driven.

Les Data Scientists et Data Analysts tout comme les décideurs doivent avoir confiance dans ces données et dans les insights qui en sont tirées. Cette formation a pour but de consolider ce que l'on considère être les Core Skills d’une équipe data driven, à savoir les statistiques et l'activation des données. Tout au long de cette formation, nous verrons comment tirer des insights activables à partir de vos données, le tout en gardant un haut niveau de confiance dans celles-ci. Nous vous proposons des clefs pour gagner en confiance et en efficacité dès les premières explorations et expérimentations, et ce jusqu'à l'utilisation de vos modèles de Machine Learning.

Description

Cette formation permettra aux stagiaires de se familiariser avec les outils mathématiques indispensables à la mise en oeuvre d’une organisation data driven. Ils sont orientés vers 4 objectifs majeurs :

  • analyser des informations complexes ;
  • visualiser des KPIs facilement ;
  • tester des hypothèses de manière optimisée ;
  • comprendre la valeur apportée par le machine learning.

Pour cela nous vous présentons des concepts, mais également des retours d’expériences, des cas pratiques, ainsi que des outils faciles à prendre en main.

Programme de la formation

1 - Analyser : s’informer dans un environnement complexe

  • statistiques descriptives :

    • principaux concepts de statistiques descriptives (moyenne, médiane, écart-type, percentiles et corrélations)
    • concepts et principaux théorèmes de probabilité
    • calculer des métriques pertinentes
    • éviter les contre-sens
  • modéliser des phénomènes :

    • concepts et principaux théorèmes (variables aléatoires, loi et densité de probabilité, notion de convergence, loi des grands nombres, théorème centrale limite, inférence statistique)
    • outils de projection pour synthétiser l’information (notamment ACP, ACM, t-sne, clustering)
    • modélisations linéaires (notamment MCO, Logit et outils d’interprétation)
    • analyses latentes et modélisation (notamment LDA, LSA, text mining, modèles de survie)

2 - Visualiser : suivre ses KPIs en un coup d’oeil pour s'informer efficacement

  • Choisir le bon graphique pour transmettre la bonne information

    • les différents types de graphique
    • choix des échelles, titres et couleurs
  • Rester dynamique pour être réactif

    • la mise à jour des données
    • exemple de graphiques interactifs en python (Dash, Bokeh)

3 - Tester : récupérer de l’information activable pour prendre des décisions et maitriser ses risques

  • Planifier ses expériences :

    • principe d’un test statistique et principaux concepts (statistique de test, minimum detectable effect, représentativité, taille minimale)
    • calibration d’un A/B test classique
    • les différentes techniques d'échantillonnage
  • Optimiser ses tests :

    • utiliser les probabilités bayésiennes pour raccourcir la durée de son test
    • le problème du bandit manchot et les solutions algorithmiques pour réduire le coût du test (exemple UCB)
    • techniques avancées pour une prise de décision en temps réel

4 - Maîtriser : comprendre la valeur apportée par des modèles de machine learning

  • Le principe de l’apprentissage supervisé

    • les données utilisées
    • optimisation des métriques et descente de gradient
  • Comprendre les limites des modèles de machine learning pour en tirer un maximum de valeur

    • analyser les biais pour éviter les comportements non souhaités
    • le cycle de vie d’un modèle de machine learning (discussion de la date de péremption)
    • aller au delà du cas d'école : analyse des métriques métiers avant la mise en production
    • interprétabilité des modèles

Méthodes pédagogiques

Formation de 3 jours découpée en 4 modules. Chaque module se décompose en présentations théoriques et exercices avec la présentation d’un cas pratique ou d’une mise en situation pour chaque partie.

Les exercices sont présentés sous forme de notebooks Jupyter pour implémenter et tester les solutions présentées dans les parties théoriques.

Durée

3 jours, soit 21 heures

Tarif HT

inter : 2 490 €

intra : Sur demande

Prochaines dates

24 - March 26

14 - April 16

26 - May 28

28 - July 30

15 - September 17

3 - November 5

Inscription

Public visé

Tout professionnel traitant régulièrement des données. En particulier les data scientists, analysts et engineers, ainsi que les tech leads sur des projets data.

Prérequis

Avoir des bases dans l’un des langages python ou R. Bases en mathématiques et statistiques.

Objectifs de la formation

Enrichir sa connaissances des outils mobilisables pour traiter des données dans le but d’imaginer des solutions innovantes, de prendre des décisions, produire des informations pertinentes et mener des experimentations. Construire de bons réflexes pour une utilisation maîtrisée de ses données. Approfondir ses connaissances des mathématiques utilisées en machine learning pour mieux maîtriser la valeur produite par l’implémentation des modèles.

Validation

À la fin de cette formation, les stagiaires recevront une attestation de présence.

Formateurs

Johan Jublanc

Johan Jublanc

Statisticien de formation, Johan Jublanc est consultant en Data Science chez Publicis Sapient. Il aide nos clients à élaborer des solutions data science end-to-end et se passionne notamment pour le machine learning et le deep learning.