Spécialité Statistique

Master Mathématiques et Applications
Université Pierre et Marie Curie

Cours spécialisés

Pour le second semestre, les UE proposées sont organisées en deux majeures :

  • data science ;
  • statistique mathématique.

Les étudiants doivent sélectionner l’UE de 6 ECTS correspondant à la majeure de leur choix, à l'intérieur de laquelle 2 cours sont à choisir. Ils doivent de plus suivre 2 cours de leur choix parmi les cours définissant l’UE d’option à 6 ECTS.


Majeure Data Science

Code et crédits : 5MS33, 6 ECTS
Période : janvier à mars

Cours 1 : Une introduction à l'acquisition compressée et à la reconstruction de matrices : théorie, applications, outils d'optimisation convexe

Responsable : C. Boyer
Contact : claire.boyer@upmc.fr
Objectif : L’objectif de ce cours est double : illustrer le traitement de données en grande dimension lorsque des données sont manquantes (par le prisme de l’acquisition compressée et de la complétion de matrice), et acquérir les bases d’optimisation convexe. Ces deux thèmes, qui seront abordés de concert car intimement liés, ouvrent la voie à de nombreux autres domaines d’apprentissage statistique et problèmes rencontrés en science des données.
Prérequis : Notions fondamentales de probabilités, statistique inférentielle et algèbre linéaire, calcul scientifique en Python

  1. Introduction à l’acquisition compressée et à la complétion de matrice
  2. Bases d’analyse convexe
  3. Parcimonie, relaxation convexe et algorithmes primaux
  4. Conditions RIP pour l’acquisition compressée
  5. Dualité et algorithmes duaux
  6. Page web du cours

Cours 2 : Analyse statistique de graphes

Responsables : C. Matias et T. Rebafka
Contacts : catherine.matias@upmc.fr et tabea.rebafka@upmc.fr
Objectif : apprendre à manipuler des données de type réseaux (sociaux, biologiques, internet, etc.)
Prérequis : notions fondamentales de Probabilités et Statistique, régression, logiciel R

  1. Graphes aléatoires et stockage informatique des données
  2. Statistiques descriptives des réseaux et visualisation des données
  3. Classification des nœuds
  4. Page web du cours

Cours 3 : Gestion des données

Responsable : O. Schwander
Contact : olivier.schwander@lip6.fr
Objectif : apprendre à charger et manipuler des données réelles, déployer une chaîne de traitement telle qu'utilisée en entreprise, comprendre les problèmes posés par la manipulation de données dans une application réelle. Ces points sont des préliminaires essentiels à l'intégration de méthodes statistiques avancées dans des applications réelles.
Prérequis : connaissances basiques d'un langage de programmation

  1. Systèmes de gestion des bases de données (SQL et noSQL)
  2. Business Intelligence (ETL, Data Warehouse, OLAP)
  3. Extraction de données sur le web
  4. Page web du cours

Cours 4 : Réseaux de neurones artificiels

Responsable : A. Valibouze
Contact : annick.valibouze@upmc.fr
Objectif : fondements et principes des réseaux de neurones artificiels, description des principaux modèles jusqu’aux réseaux profonds et usage de différents logiciels, soit dédiés soit incluant des fonctionnalités neuronales.
Prérequis : avoir pratiqué au moins un logiciel scientifique (par exemple R)

  1. Principes généraux et domaines d’applications
  2. Modèles classiques
  3. Réseaux profonds
  4. Logiciels dédiés ou incluant des fonctionnalités neuronales


Majeure Statistique Mathématique

Code et crédits : 5MS33, 6 ECTS
Période : janvier à mars

Cours 1 : Statistique mathématique pour l'analyse de données volumineuses

Responsable : E. Roquain
Contact : etienne.roquain@upmc.fr
Objectif : approfondir les connaissances en statistique mathématique pour traiter, notamment, les données de grande dimension, dans lesquelles le nombre de variables est bien plus élevé que la taille de l'échantillon
Prérequis : théorie générale des probabilités et des processus, notions élémentaires en statistique mathématique

  1. Estimation : modèle linéaire général, surajustement, sélection de modèle, estimateur Lasso et variantes, validation croisée
  2. Tests : test multiple général, contrôle du taux d’erreur par famille, contrôle du taux de faux positifs, taux de fausses couvertures
  3. Page web du cours

Cours 2 : Processus empiriques

Responsable : P. Deheuvels
Contact : pd@ccr.jussieu.fr
Objectif : introduire la théorie des processus empiriques en vue des applications statistiques pour des variables aléatoires réelles
Prérequis : notions fondamentales de Probabilités et Statistique

  1. Statistiques d’ordre et de rang
  2. Outils probabilistes et statistiques de base
  3. Principes d’invariance et lois limites fonctionnelles
  4. Processus empiriques locaux
  5. Processus empiriques spéciaux
  6. Processus empiriques indexés par des fonctions ou des ensembles

Cours 3 : Statistique inférentielle

Responsable : M. Broniatowski
Contact : michel.broniatowski@upmc.fr
Objectif : approfondir quelques thèmes classiques de la statistique inférentielle
Prérequis : notions fondamentales de Probabilités et Statistique

  1. Exhaustivité, risque, bornes minimax, méthodes classiques
  2. Critères statistiques, minimisation de divergences, cadre paramétrique
  3. Robustesse, statistiques différentiables, fonction d’influence

Cours 4 : Statistique bayésienne non paramétrique

Responsable : I. Castillo
Contact : ismael.castillo@upmc.fr
Objectif : Expliquer l'approche bayésienne non-paramétrique. Le paramètre d'intérêt est de dimension infinie et on étudie la loi a posteriori bayésienne correspondante sous l'angle de la convergence.
Prérequis : notions fondamentales de Probabilités et Statistique
Nota Bene : cours du M2 de Probabilités et Modèles Aléatoires, dates particulières (cours en février et mars)

  1. Loi a priori, loi a posteriori. Cadre général d'obtention de vitesses de convergence
  2. Processus gaussiens, processus de Dirichlet, cascades multiplicatives
  3. Forme limite de lois a posteriori : théorème de Bernstein-von Mises, cadre paramétrique et non-paramétrique
  4. Page web du cours


UE d'Option

Code et crédits : 5MS34, 6 ECTS
Période : janvier à mars
Rappel : les étudiants doivent suivre 2 cours de leur choix parmi les cours suivants.

Cours 1 : Modélisation et statistique bayésienne computationnelle

Responsable : N. Bousquet
Contact : nicolas.bousquet@edf.fr
Objectif : présenter d’une part les principales méthodologies de modélisation bayésienne appliquées à des problèmes d’aide à la décision en univers risqué sur des variables scalaires et fonctionnelles, et d’autre part des méthodes avancées de calcul inférentiel permettant l’enrichissement de l’information utile, en fonction de l’emploi et de la nature des modèles.
Prérequis : notions fondamentales de probabilités et statistique, introduction aux statistiques bayésiennes, méthodes de Monte-Carlo, calcul scientifique en R

  1. Formalisation et résolution de problèmes d’aide à la décision en univers risqué, représentation probabiliste des incertitudes (Cox-Jaynes, de Finetti)
  2. Maximum d’entropie, familles exponentielles, modélisation par données virtuelles
  3. Règles d’invariance, de compatibilité et de cohérence pour les modèles bayésiens
  4. Algorithmes de Gibbs via OpenBUGS, MCMC adaptatives, introduction aux chaînes de Markov cachées, méthodes de filtrage et approches « likelihood-free » (ABC)
  5. Modélisation bayésienne fonctionnelle, processus gaussiens, calibration par expériences numériques, critères d’enrichissement bayésiens

Cours 2 : Modèles de durées

Responsable : O. Lopez
Contact : olivier.lopez0@upmc.fr
Objectif : présenter les spécificités de l’étude statistique de variables de durées, les principales techniques d’inférence statistique dans ce cadre, et leurs applications en actuariat et biostatistique
Prérequis : notions fondamentales de Probabilités et Statistique

  1. Spécificités des modèles de durées
  2. Estimation non paramétrique
  3. Construction de tables de mortalité d’expérience
  4. Modèles paramétriques
  5. Modèles de régression
  6. Modèles de durées multivariés
  7. Page web du cours

Cours 3 : Séries temporelles

Responsable : F. Guilloux
Contact : frederic.guilloux@upmc.fr
Objectif : apprendre à modéliser et à manipuler des données dont la structure est déterminée par les corrélations au cours du temps (données météorologiques, économiques, etc.).
Prérequis : notions fondamentales de probabilités, statistique et algèbre linéaire, connaissance basique de R ou Python

  1. Stationnarité, structure de corrélation entre les variables
  2. Prévision et illustration dans un cadre paramétrique (ARMA)
  3. Analyse spectrale, tests, séries multidimensionnelles, modèles à espaces d’état

Cours 4 : Logiciel SAS

Responsable : S. Michel
Contact : Suzanne.MICHEL@ag2rlamondiale.fr
Objectif : acquérir les principes fondamentaux de l’utilisation du logiciel SAS pour les applications statistiques. Ce cours/TP s’articule autour des formations prodiguées par l’entreprise SAS elle-même, et est conçu de manière à préparer l’étudiant à la certification “SAS Base Programming”, ainsi qu’à une utilisation opérationnelle de SAS. L’évaluation du cours se fait à l’aide d’un projet commun d’analyse de données réelles, remis sous la forme d’un rapport de 30 pages et rédigé comme un compte-rendu professionnel.
Prérequis : notions fondamentales en Informatique, Probabilités et Statistique

  1. Programmation SAS niveau 1 (étape data, bibliothèques, log, etc.)
  2. Importation, exportation, manipulation et formatage de données
  3. Production de rapports automatiques
  4. Programmation SAS niveau 2 (contrôle entrées et sorties, réduction et transformation de données, etc.)
  5. Importation, transformation et restructuration de données brutes
  6. Techniques de correction de code, programmation itérative
  7. SAS SQL et macro langage
  8. Analyses catégorielles, tables de contingence
  9. Régression logistique binomiale et multinomiale
  10. Choix de modèles
  11. Analyse de variance et modèles linéaires

Cours 5 : Anglais (préparation au TOEIC)

Responsable : S. Aji
Contact : sabine.aji@upmc.fr
Objectif : l’enseignement de préparation au TOEIC se déroule en ligne et comporte un contrôle continu et un examen terminal. Ce dernier correspond à une épreuve TOEIC complète sur table en salle informatisée ou en amphi, il a lieu à l’issue du premier semestre, avec un score sur 990. Tous les étudiants ayant obtenu un score supérieur ou égale à 785 sur 990 se verront offrir le passage de la véritable épreuve du TOEIC par le SIAL-Sorbonne. Le passage de cet examen aura lieu en avril ou mai.
Descriptif : présentation détaillée de l'UE.

Cours 6 : Data science en pratique & insertion professionnelle

Responsable : A. Llau

Objectif : présenter la science des données à travers les challenges, acquérir les méthodologies essentielles pour remporter de tels challenges et préparer des entretiens d'embauche dans le secteur de la science des données.
Cours 1
Cheat sheets