Transformations de politiques d’action de processus décisionnels de Markov pour l’explicabilité et le contrôle d’un apprentissage par renforcement - Collège Systèmes Multi-Agents et Agents autonomes (SMAA)

L’apprentissage par renforcement (Sutton & Barto, 2018) est un paradigme algorithmique consistant à apprendre à un agent autonome à agir dans son environnement. Il fonctionne par un mécanisme d’essais/erreurs dans le but de trouver une politique d’actions optimale, c’est-à-dire qui associe à chaque état de l’environnement la meilleure action à effectuer. Les méthodes d’apprentissage par renforcement se sont révélées efficaces pour apprendre automatiquement à agir dans plusieurs domaines d’application : l’IA pour les jeux (Silver et al, 2017), pour des systèmes mobiles robotisés (Kober et al, 2013) ou des environnements simulés (Mnih et al., 2015).
Généralement, l’apprentissage par renforcement définit un processus décisionnel de Markov (MDP) satisfaisant la propriété des chaînes de Markov impliquant que l’état suivant dépend uniquement de l’état actuel et de l’action ou des actions de l’agent, et non des états passés. Dans cette thèse, nous nous intéresserons plus précisément à des MDP partiellement observables (POMDP) définis par M = (S, A, O, T (-|s, a), Z(-|s), r,Init, γ) avec S l’ensemble des états possibles de l’environnement, A l’ensemble des actions que l’agent peut accomplir, O l’ensemble des observations que peut avoir l’agent sur l’état, T la matrice de transition entre états, Z la probabilité qu’une observation soit faite dans un état, r la fonction de récompense Init une distribution initiale sur l’environnement et γ une constante réelle pour diminuer l’impact des récompenses quand elles interviennent à un horizon lointain. Le formalisme des POMDP est plus réaliste pour une utilisation en conditions réelles car il ne fait pas l’hypothèse d’une perception parfaite et complète de l’environnement d’un agent et permet de traiter l’incertitude.
Depuis 2017, une branche de l’Intelligence Artificielle s’est développée sous l’impulsion de D. Gunning et du projet CwC & XAI de la DARPA1 pour promouvoir une Intelligence Artificielle Explicable (XAI). Cette nouvelle orientation est aussi au coeur des récentes directives européennes d’abord en 2017 puis en 2019 par le European Union High Level Expert Group on AI pour favoriser la transparence des systèmes utilisant de l’IA. Partant du constat que les approches actuelles fondées sur l’apprentissage d’un modèle de type « boîte-noire » proposent des sorties sans explication, les approches fondées sur l’IA Explicable visent à faire évoluer ce type de modèle vers un couple (modèle explicable, interface d’explication) associé éventuellement à un nouveau processus d’apprentissage. L’IA explicable s’est d’abord intéressée à l’apprentissage automatique pour expliquer en reconnaissance d’images les caractéristiques discriminantes en mettant en évidence certaines zones de l’ image analysée. Récemment, cette orientation a suscité de nouvelles approches pour l’apprentissage par renforcement par l’apparition du domaine du XRL (eXplainable Reinforcement Learning). L’objectif est de rendre interprétable par l’humain le déroulement d’un apprentissage par renforcement pour expliquer pourquoi il a convergé vers une politique d’actions, ou expliquer la politique elle-même. Dans la littérature, on peut classer les quelques récents travaux selon deux critères (Puiutta & Veith, 2020) : le moment de la génération d’explications (intrinsèque ou post-hoc) et la portée (globale ou locale). Le premier critère distingue les travaux visant à produire des explications pendant l’apprentissage par renforcement de ceux qui fournissent les explications quand il a convergé sur une politique. Le second distingue la production d’explications sur l’ensemble de la politique de ceux se focalisant sur quelques états ou actions spécifiques répondant à une question formulée.
La plupart des travaux existants sur l’explication post-hoc propose une approche locale consistant à fournir un mécanisme d’association d’une réponse à une question par le maintien de modèles structurés de causalité (Prashan et al 2019) ou d’arbres de décision (Prashan et al, 2020). Nous nous focaliserons dans cette thèse au XRL post-hoc à portée globale. L’objectif est de fournir à un utilisateur une description compréhensible d’une politique complète après que l’apprentissage ait convergé. Plusieurs formalismes de représentation seront étudiés avec une attention particulière sur la transformation d’une politique sous la forme d’un programme tel que cela est réalisé dans le modèle PIRL (Verma et al, 2018). Un second objectif de la thèse est de permettre à l’humain de modifier la représentation de la politique qui lui est présentée et de proposer un modèle de projection vers le POMDP pour appliquer les modifications. La réalisation de ces deux objectifs permettra une co-construction d’une politique d’actions associant agent autonome et humain. De cette manière, un humain pourra fournir corriger d’éventuels erreurs ou biais dans la définition du POMDP, de la fonction de récompense, aider l’agent autonome à sortir d’optima locaux, ou fournir une politique initiale par son expertise affinée par l’agent.
Les travaux de thèse se dérouleront selon les quatre tâches suivantes :

Définition d’un modèle d’explication : la notion même d’explication est encore sujette à débat dans le jeune domaine du XAI. La première tâche sera d’étudier les récentes taxonomies sur ce concept, de choisir le type d’explication adapté au problème posé et d’en définir un modèle formel ;
Création d’une représentation compréhensible d’une politique : un algorithme de génération d’une politique explicable fondée sur les éléments du POMDP sera proposé ;
Modification de la politique explicable et du POMDP : selon le modèle de représentation qui sera choisi, il conviendra de définir des primitives de modification de la politique explicable qui pourront être appliquées par l’humain. Un algorithme de transformation du POMDP pour répercuter les modifications devra également être défini ;
Expérimentations : Les contributions théoriques seront évaluées expérimentalement. Elles le seront sur les plateformes virtuelles classiquement utilisées en apprentissage par renforcement, tel que Arcade Learning Environment pour évaluer la prise de décision automatique sur des jeux Atari, mais aussi sur des données réelles collectées lors du projet IoT.H2O de l’équipe.

Références:

Kober, J., Bagnell, J.A., Peters, J.: Reinforcement learning in robotics: A survey. The International Journal of Robotics Research 32(11), 1238–1274 2013
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al. Human-level control through deep reinforcement learning. Nature, 518 (7540):529, 2015
Prashan M. , et al. Explainable reinforcement learning through a causal lens. arXiv preprint arXiv:1905.10958 2019
Prashan M. , et al. Distal Explanations for Explainable Reinforcement Learning Agents arXiv preprint arXiv:2001.10284 2020
Puiutta E. , Veith E., Explainable Reinforcement Learning: A Survey, arXiv:2005.06247, 2020
Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T., Baker, L., Lai, M., Bolton, A., et al.: Mastering the game of go without human knowledge. Nature 550(7676), 354–359 2017
Sutton, R. S. and Barto, A. G. Reinforcement learning: An introduction. MIT press, 2018.
Verma, A., Murali, V., Singh, R., Kohli, P., Chaudhuri, S.: Programmatically interpretable reinforcement learning. PMLR 80:5045-5054 2018

Encadrement: Nicolas Delestre, Laurent Vercouter
Localisation: Laboratoire LITIS, INSA Rouen, St-Etienne du Rouvray