Recevez chaque jour toute l'actualité du numérique

x

DeepMind dévoile MuZero, une IA capable de maîtriser plusieurs jeux sans en connaître les règles à l'avance

Vu ailleurs MuZero, le nouveau système d'intelligence artificielle développé par DeepMind, peut remporter divers jeux comme le Go, les échecs ou le shôgi sans qu'on ne lui en ait appris les règles en amont. Il est capable de s'adapter à un environnement qu'il ne connaît pas et d'anticiper les règles à l'aide de simulations.
Twitter Facebook Linkedin Flipboard Email
×

DeepMind dévoile MuZero, une IA capable de maîtriser plusieurs jeux sans en connaître les règles à l'avance
DeepMind dévoile MuZero, une IA capable de maîtriser plusieurs jeux sans en connaître les règles à l'avance © DeepMind

DeepMind a dévoilé mercredi 23 décembre 2020 son nouveau système d'intelligence artificielle MuZero. La pépite du deep learning qui fut rachetée par Google en 2014 s'est fait une spécialité de développer des programmes d'intelligence artificielle capables d'exceller dans divers jeux, au point d'en battre les champions humains.

MuZero ne connaissait pas les règles
Dans un premier temps, rappelle Engadget, DeepMind a présenté AlphaGo, un programme d'intelligence artificielle qui fut capable de battre les meilleurs joueurs au Go. Puis, la pépite du deep learning a présente une nouvelle version : AlphaGo Zero. Là où son prédécesseur a appris à jouer en observant des matchs amateurs et professionnels, AlphaGo Zero est parvenu à maîtriser ce jeu en jouant contre lui-même. DeepMind a ensuite créé AlphaZero, un programme qui a su maîtriser différents jeux (le Go, les échecs et le shôgi) avec un seul algorithme.

Tous ces systèmes d'intelligence artificielle avaient en commun le fait de connaître les règles des jeux en amont. MuZero, la dernière création de DeepMind, n'a pas eu besoin de connaître les règles du Go, des échecs, du shôgi ou de plusieurs jeux vidéo Atari auxquels elle a joué pour apprendre à les maîtriser. MuZero a appris de lui-même les diverses régles, et ce programme s'avère tout aussi doué que les autres, voire encore meilleur. DeepMind explique que sa capacité à planifier des stratégies gagnantes dans des environnements inconnus a permis à MuZero de comprendre les règles par lui-même.

Impossible de simuler tous les mouvements
La création d'un algorithme capable de s'adapter à une situation dans laquelle il ne connaît pas toutes les règles régissant la simulation et où il doit trouver lui-même un moyen de gagner est une avancée notable pour la recherche. DeepMind s'est basé sur une approche appelée recherche par anticipation. Avec cette méthode, l'algorithme réfléchit aux états futurs possibles avant d'agir.

Toutefois cette approche a ses limites. La plupart des situations du monde réel, et même celles rencontrées dans certains jeux, n'ont pas un ensemble simple de règles régissant leur fonctionnement. Il est impossible de considérer et simuler tous les mouvements possibles. Plutôt que de tout modéliser, MuZero cherche donc uniquement à prendre en compte trois facteurs considérés comme essentiels. Avant de prendre une décision. MuZero, étudie la position actuelle dans laquelle il se trouve, réfléchit à la meilleure action à entreprendre et examine le résultat de sa décision précédente.

Des débouchés dans la robotique
Lors des tests, MuroZero a été aussi bon qu'AlphaZero aux échecs, au Go et au shôgi. Le programme fut même meilleur que les autres aux jeux Atari. Les chercheurs ont également constatés que plus ils laissaient de temps à MuroZero, meilleures étaient ses performances.

La capacité de MuZero à développer tout seul un modèle depuis son environnement et à l’utiliser pour planifier avec succès ses actions démontre une avancée significative dans l’apprentissage par renforcement et le développement d'algorithmes pour des usages généraux d'après DeepMind. Il pourrait facilement avoir des débouchés dans la robotique ou les systèmes d'automatisation industrielle.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.