Par :
Misoss,
09/07/2018
DeepMind a testé la méthode de l’apprentissage par renforcement avec le jeu vidéo Quake Arena III. Sans entraînement préalable, des agents artificiels (appelés aussi "bots") ont joué en équipe avec d’autres IA ou avec des humains. Bilan : les équipes 100% IA sont les plus susceptibles de gagner.
Tous ceux qui alertent sur les dangers en germe dans les progrès de l'intelligence artificielle, voire craignent pour l'avenir de l'espèce humaine, seront heureux d'apprendre que
DeepMind a appris à des agents artificiels à jouer à Quake III Arena ! Résultat ? L'IA s'est avérée nettement plus performante que des joueurs humains…
Pour être exact, ce ne sont pas les chercheurs de DeepMind, division intelligence artificielle de Google, qui ont entraîné ces bots. Ce sont ces derniers qui ont appris par eux-mêmes à se déplacer et se repérer dans cet environnement en 3D, à interagir avec les divers éléments (notamment les adversaires et coéquipiers), à échafauder des stratégies et à comprendre les enjeux. DeepMind a utilisé la méthode dite de l'apprentissage par renforcement. Cette technique consiste à faire apprendre à un programme comment agir en le laissant faire, sans l'entraîner au préalable sur un jeu de données ou, pour le cas présent, sans lui inculquer les règles du jeu. Autrement dit : il apprend à apprendre.
Une méthode facilement applicable au jeuLe mécanisme d'apprentissage dépend ici d'un signal de gratification ou de pénalité envoyé au programme. En l'occurrence, avec un jeu vidéo, l'IA comprend si ses actions sont bien ou mal fondées parce qu'elle gagne ou perd la partie. C'est pourquoi la méthode marche particulièrement bien dans le cadre d'un jeu. Le laboratoire d'intelligence artificielle de Facebook s'est également livré à de tels tests avec Doom (un autre jeu de tir) ou le jeu de stratégie en temps réel StarCraft.
Les agents artificiels ne connaissaient donc rien à Quake III Arena, ce sont leurs milliers de parties, leurs échecs et leurs réussites, qui les ont fait progresser. Les chercheurs ont utilisé le mode "Capture du drapeau" du jeu qui se pratique en équipe et consiste à attraper et ramener dans son camp le drapeau de l'équipe adverse planté sur leur base, tout en protégeant le sien.
Comme l'équipe le signale sur un
post de blog dédié à ce projet "les règles de Capturer le Drapeau sont simple mais les dynamiques sont complexes". Elles nécessitent coordination, réactivité et la mise en oeuvre de tactiques défensives et offensives. Les chercheurs ont aussi compliqué la tâche des bots : à chaque nouvelle partie, l'environnement 3D était modifié, afin que l'apprentissage ne soit pas lié à un cadre précis mais valable en toute circonstance. Enfin, les bots, comme n'importe quel joueur humain, n'avaient accès à aucune autre donnée que les images, les pixels, pour apprendre.