Formation/Cours

Apprentissage par renforcement

Etablissement : ECOLE DU NUMERIQUE

Langue : Français

Formation(s) dans laquelle/lesquelles le cours apparait :

Aucune formation en lien avec ce cours.

Période : S4

Prérequis

Objectif(s)

Contenu

Introduction à l’intelligence artificielle et aux méthodes d’apprentissage automatique.

Programmation en Python : implémentation d’algorithmes, calcul d’indicateurs d’évaluation, visualisation (courbes de convergence, comparaison entre algorithmes).

Ce cours vise à introduire les fondements théoriques et pratiques de l’apprentissage par renforcement, une branche de l’intelligence artificielle qui permet à un agent d’apprendre à interagir avec un environnement. Les étudiants y développent des compétences essentielles pour modéliser la prise de décision dans des environnements dynamiques et incertains, formuler des critères d’évaluation de performance, et concevoir des approches d’optimisation séquentielle. Ces compétences sont transférables à de nombreux domaines de l’intelligence artificielle appliquée — tels que la robotique, la gestion adaptative de systèmes complexes, ou encore l’analyse prédictive — et renforcent leur capacité à concevoir, expérimenter et évaluer des solutions autonomes et intelligentes dans un cadre interdisciplinaire.
Les notions étudiées seront également mises en lien avec d’autres modules du Master, tels que Introduction aux architectures robotiques.

Les concepts suivants seront introduits et approfondis à travers des exercices dirigés (TD) afin de mettre en pratique les algorithmes étudiés, puis consolidés par la mise en œuvre d’un projet courant la deuxième partie du semestre.

Introduction, terminologies et motivation autour de l’apprentissage par renforcement.

Agents décisionnels et processus de décision : Processus Décisionnels de Markov (MDP), fonctions de valeur, programmation dynamique, équation de Bellman.

Méthodes d’apprentissage par renforcement et politiques : model-based, model-free, on-policy, off-policy, compromis exploration/exploitation, solutions optimales et sous-optimales.

Présentation et implementation des algorithmes RL comme : Q-Learning (off-policy) et SARSA (on-policy)

Le fléau de la dimension : taille de problème, nombre de visites vs taille des tableaux de valeurs, stratégies de réduction de complexité (heuristiques, structures sous-jacentes, etc.).

Dans le cas où le cours avance bien, on présente des solutions anytime à base simulation tel que Monte Carlo.

Panorama d’applications et analyse de leurs spécificités.