Spécialité Statistique

Master Mathématiques et Applications
Sorbonne Université

Cours spécialisés

Pour le second semestre, les UE proposées sont organisées en deux majeures :

  • data science ;
  • statistique mathématique.

Les étudiants doivent sélectionner l’UE de 6 ECTS correspondant à la majeure de leur choix, à l'intérieur de laquelle 2 cours sont à choisir. Ils doivent de plus suivre 2 cours de leur choix parmi les cours définissant l’UE d’option à 6 ECTS.


Majeure Data Science

Code et crédits : 5MS103, 6 ECTS
Période : janvier à mars

Cours 1 : Compressed sensing, reconstruction et complétion de matrices

Responsable : C. Boyer
Contact : claire.boyer@upmc.fr
Objectif : L’objectif de ce cours est double : illustrer le traitement de données en grande dimension lorsque des données sont manquantes (par le prisme de l’acquisition compressée et de la complétion de matrice), et acquérir les bases d’optimisation convexe. Ces deux thèmes, qui seront abordés de concert car intimement liés, ouvrent la voie à de nombreux autres domaines d’apprentissage statistique et problèmes rencontrés en science des données.
Prérequis : Notions fondamentales de probabilités, statistique inférentielle et algèbre linéaire, calcul scientifique en Python

  1. Introduction à l’acquisition compressée et à la complétion de matrice
  2. Outils d’analyse convexe
  3. Parcimonie, relaxation convexe et algorithmes primaux
  4. Conditions RIP pour l’acquisition compressée
  5. Dualité et algorithmes duaux

Cours 2 : Analyse statistique de graphes

Responsable : T. Rebafka et Fanny Villers
Contacts : tabea.rebafka@upmc.fr et fanny.villers@upmc.fr
Objectif : apprendre à manipuler des données de type réseaux (sociaux, biologiques, internet, etc.)
Prérequis : notions fondamentales de Probabilités et Statistique, régression, logiciel R

  1. Graphes aléatoires et stockage informatique des données
  2. Statistiques descriptives des réseaux et visualisation des données
  3. Classification des nœuds

Cours 3 : Gestion des données

Responsable : O. Schwander
Contact : olivier.schwander@lip6.fr
Objectif : apprendre à charger et manipuler des données réelles, déployer une chaîne de traitement telle qu'utilisée en entreprise, comprendre les problèmes posés par la manipulation de données dans une application réelle. Ces points sont des préliminaires essentiels à l'intégration de méthodes statistiques avancées dans des applications réelles.
Prérequis : connaissances basiques d'un langage de programmation

  1. Systèmes de gestion des bases de données (SQL et noSQL)
  2. Business Intelligence (ETL, Data Warehouse, OLAP)
  3. Extraction de données sur le web

Cours 4 : Réseaux de neurones artificiels

Responsable : A. Valibouze
Contact : annick.valibouze@upmc.fr
Objectif : fondements et principes des réseaux de neurones artificiels, description des principaux modèles jusqu’aux réseaux profonds et usage de différents logiciels, soit dédiés soit incluant des fonctionnalités neuronales.
Prérequis : avoir pratiqué au moins un logiciel scientifique (par exemple R)

  1. Principes généraux et domaines d’applications
  2. Modèles classiques
  3. Réseaux profonds
  4. Logiciels dédiés ou incluant des fonctionnalités neuronales

Cours 5 : Machine learning pour données médicales

Responsable : N. Sokolovska
Contact : nataliya.sokolovska@upmc.fr
Objectif : Le but de ce cours est double : d'une part, découvrir les défis réels de la biologie fondamentale et de la médecine où l'apprentissage statistique est déjà utilisé avec succès ; d'autre part, acquérir les bases pour modéliser des données médicales complexes.
Prérequis : notions fondamentales de probabilités et statistique, algèbre linéaire, Python

  1. Médecine et apprentissage statistique
  2. Clustering des données médicales : analyse exploratoire
  3. Stratification efficace des individus (patients) pour le développement des méthodes de médecine personnalisée
  4. Modèles interprétables
  5. A la recherche de la causalité dans des données (drug effects, variables latentes)

Cours 6 : Outils pour le Cloud

Responsable : Olivier Schwander
Contact : olivier.schwander@lip6.fr
Objectif : découvrir la notion de cloud computing et le paradigme de programmation MapReduce utilisé pour réaliser des calculs distribués sur des données très volumineuses (plusieurs téra-octets).
Prérequis : connaissances basiques d'un langage de programmation

  1. Cloud computing
  2. Machines virtuelles
  3. Paradigme MapReduce
  4. Stockage distribué de données
  5. Utilisation des outils Hadoop et Spark

Majeure Statistique Mathématique

Code et crédits : 5MS103, 6 ECTS
Période : janvier à mars

Cours 1 : Optimisation convexe en ligne et applications

Responsable : O. Wintenberger
Contact : olivier.wintenberger@upmc.fr
Objectif : le principe de ce cours est d’étudier la convergence de nombreux algorithmes en ligne, d’abord dans un cadre déterministe puis aléatoire. Il sera démontré que l'apprentissage séquentiel fournit des solutions adaptatives et robustes à de nombreux problèmes d’optimisations convexes, avec ou sans contraintes.
Prérequis : notions fondamentales de probabilités, calcul scientifique en Python

  1. Introduction au cadre séquentiel, aux algorithmes en lignes et à l’optimisation convexe
  2. Algorithmes du premier et du second ordre
  3. Régularisation et algorithmes libres de projection
  4. Problème du bandit, théorie des jeux
  5. Apprentissage dans un cadre stochastique et généralisation

Cours 2 : Processus empiriques

Responsable : P. Deheuvels
Contact : pd@ccr.jussieu.fr
Objectif : introduire la théorie des processus empiriques en vue des applications statistiques pour des variables aléatoires réelles
Prérequis : notions fondamentales de Probabilités et Statistique

  1. Statistiques d’ordre et de rang
  2. Outils probabilistes et statistiques de base
  3. Principes d’invariance et lois limites fonctionnelles
  4. Processus empiriques locaux
  5. Processus empiriques spéciaux
  6. Processus empiriques indexés par des fonctions ou des ensembles

Cours 3 : Statistique inférentielle

Responsable : M. Broniatowski
Contact : michel.broniatowski@upmc.fr
Objectif : approfondir quelques thèmes classiques de la statistique inférentielle
Prérequis : notions fondamentales de Probabilités et Statistique

  1. Exhaustivité, risque, bornes minimax, méthodes classiques
  2. Critères statistiques, minimisation de divergences, cadre paramétrique
  3. Robustesse, statistiques différentiables, fonction d’influence

Cours 4 : Statistique bayésienne non paramétrique

Responsable : I. Castillo
Contact : ismael.castillo@upmc.fr
Objectif : Expliquer l'approche bayésienne non-paramétrique. Le paramètre d'intérêt est de dimension infinie et on étudie la loi a posteriori bayésienne correspondante sous l'angle de la convergence.
Prérequis : notions fondamentales de Probabilités et Statistique
Nota Bene : cours du M2 de Probabilités et Modèles Aléatoires, dates particulières (cours en février et mars)

  1. Loi a priori, loi a posteriori. Cadre général d'obtention de vitesses de convergence
  2. Processus gaussiens, processus de Dirichlet, cascades multiplicatives
  3. Forme limite de lois a posteriori : théorème de Bernstein-von Mises, cadre paramétrique et non-paramétrique
  4. Page web du cours

Cours 5 : Inférence géométrique

Responsable : Eddie Aamari
Contact : aamari@lpsm.paris
Objectif : Les données peuvent souvent être représentées par des nuages de points dans des espaces de grande dimension. En pratique, on constate que ces points ne sont pas distribués uniformément dans l’espace ambiant : ils se localisent à proximité de structures non-linéaires de plus petite dimension, comme des courbes ou des surfaces, qu’il est intéressant de comprendre. L'inférence géométrique, aussi appelée analyse topologique de données, est un domaine récent consistant en l'étude des aspects statistiques associés à la géométrie des données. Ce cours a pour but de donner une introduction à ce sujet en pleine expansion.
Prérequis : notions fondamentales de Probabilités et Statistique. Toutes les notions nécessaires de géométrie et de topologie seront introduites ou rappelées au fil du cours.

  1. Introduction, motivations et rappels
  2. Reconstruction de support
  3. Estimation de l'homologie d'une sous-variété
  4. Persistance topologique
  5. Distance à la mesure et inférence robuste
  6. Estimation de paramètres de régularité géométrique

UE d'Option

Code et crédits : 5MS104, 6 ECTS
Période : janvier à mars
Rappel : les étudiants doivent suivre 2 cours de leur choix parmi les cours suivants.

Cours 1 : Modélisation et statistique bayésienne computationnelle

Responsable : N. Bousquet
Contact : nicolas.bousquet@edf.fr
Objectif : présenter d’une part les principales méthodologies de modélisation bayésienne appliquées à des problèmes d’aide à la décision en univers risqué sur des variables scalaires et fonctionnelles, et d’autre part des méthodes avancées de calcul inférentiel permettant l’enrichissement de l’information utile, en fonction de l’emploi et de la nature des modèles.
Prérequis : notions fondamentales de probabilités et statistique, introduction aux statistiques bayésiennes, méthodes de Monte-Carlo, calcul scientifique en R

  1. Formalisation et résolution de problèmes d’aide à la décision en univers risqué, représentation probabiliste des incertitudes (Cox-Jaynes, de Finetti)
  2. Maximum d’entropie, familles exponentielles, modélisation par données virtuelles
  3. Règles d’invariance, de compatibilité et de cohérence pour les modèles bayésiens
  4. Algorithmes de Gibbs via OpenBUGS, MCMC adaptatives, introduction aux chaînes de Markov cachées, méthodes de filtrage et approches « likelihood-free » (ABC)
  5. Modélisation bayésienne fonctionnelle, processus gaussiens, calibration par expériences numériques, critères d’enrichissement bayésiens

Cours 2 : Modèles de durées

Responsable : O. Lopez
Contact : olivier.lopez0@upmc.fr
Objectif : présenter les spécificités de l’étude statistique de variables de durées, les principales techniques d’inférence statistique dans ce cadre, et leurs applications en actuariat et biostatistique
Prérequis : notions fondamentales de Probabilités et Statistique

  1. Spécificités des modèles de durées
  2. Estimation non paramétrique
  3. Construction de tables de mortalité d’expérience
  4. Modèles paramétriques
  5. Modèles de régression
  6. Modèles de durées multivariés
  7. Page web du cours

Cours 3 : Séries temporelles

Responsable : F. Guilloux
Contact : frederic.guilloux@upmc.fr
Objectif : apprendre à modéliser et à manipuler des données dont la structure est déterminée par les corrélations au cours du temps (données météorologiques, économiques, etc.).
Prérequis : notions fondamentales de probabilités, statistique et algèbre linéaire, connaissance basique de R ou Python

  1. Stationnarité, structure de corrélation entre les variables
  2. Prévision et illustration dans un cadre paramétrique (ARMA)
  3. Analyse spectrale, tests, séries multidimensionnelles, modèles à espaces d’état

Cours 4 : Anglais (préparation au TOEIC)

Responsable : J. Ait Mouhoucht
Contact : jamal.ait.mouhoucht@gmail.com
Objectif : l’enseignement de préparation au TOEIC se déroule en ligne et comporte un contrôle continu et un examen terminal. Ce dernier correspond à une épreuve de type TOEIC sur table en salle informatisée ou en amphi. Il a lieu à l’issue du premier semestre.

Cours 5 : Data science en pratique

Responsable : A. Llau
Contact : arthur.llau@safety-line.fr
Objectif : Présenter un ensemble de méthodes permettant à partir de données brutes de réaliser des modèles de machine learning avancés, à travers des exemples de type Kaggle.

  1. Préparation des données et visualisation
  2. Techniques de features engineering
  3. Optimisation d'hyperparamètres
  4. Sélection de modèles
  5. Algorithmes de Machine Learning avancé
  6. Méta-learning et agrégation de modèles
  7. Introduction à des sujets de deep learning (Classification d'images, NLP ...)

Cours 6 : Séminaires de recherche

Responsables :  C. Dion et M. Thomas
Contact :  charlotte.dion@upmc.fr
Objectif : Le principe de ce séminaire est de présenter des thèmes de recherche actuels tout en les reliant aux cours dispensés tout au long du M2. Les orateurs invités introduiront leur thématique de façon générale avant de détailler un ou des points techniques spécifiques à ce domaine.

  1. Données manquantes, François Husson (05/12/2018)
  2. Données fonctionnelles, Angelina Roche (23/01/2019)
  3. Modèle de Cox et estimation, Sarah Lemler (31/01/2019)
  4. Segmentation, Emilie Lebarbier (07/01/2019)
  5. Théorie des valeurs extrêmes, Maud Thomas (20/02/2019)
  6. Modèles mixtes, Anna Bonnet (07/03/2019)
  7. Forêts aléatoires, Sylvain Arlot (21/03/2019)