Deux IA distinctes avaient déjà réussi à battre des professionnels dans une variante à deux joueurs il y a plus de deux ans de cela, mais c’est la toute première fois qu’une intelligence artificielle remporte une partie avec plus de deux joueurs d’élite. Le fait de passer directement à six joueurs représente un formidable bond en avant. En plus d’ajouter en complexité brute à cause de la multiplication des possibilités, cela introduit toute une dimension supplémentaire, liée à toutes les problématiques intangibles qui résultent des interactions entre joueurs.
Ces tests se sont déroulés sur une période de 12 jours contre douze professionnels faisant partie de l’élite mondiale, durant laquelle plus de 10.000 mains ont été jouées selon deux configurations différentes. Dans la première, Pluribus affrontait cinq joueurs humains, tandis que dans le seconde, cinq versions du bot (qui ne pouvaient cependant pas collaborer) jouaient avec un humain.
Dans les deux cas, le verdict est sans appel : d’après un des pères du projet interviewé par The Verge, Pluribus a gagné une moyenne de 5$ par main et environ 1000$ de gains à l’heure, soit une “marge décisive décisive de victoire” témoin d’un niveau “surhumain”. Un avis partagé par Chris Ferguson, champion aux World Series of Poker et membre du groupe de 12 joueurs battus par l’IA.
Pluribus est un adversaire très difficile à affronter. C’est très difficile de le coincer, peu importe sa main.
Le Texas Hold’em, un Mont Everest de l’IA
Ce n’est pas la première fois qu’une IA bat un professionnel à son propre jeu, loin s’en faut. Depuis la défaite de de Garry Kasparov contre Deep Blue, le 10 février 1996, les machines ont commencé à collectionner les victoires d’envergure. Depuis cette date historique, les ordinateurs ont évolué au point de constitue une catégorie à part, très largement inabordable même pour les grand maîtres les plus doués. A tel point qu’ils ont même leur propre compétition, sobrement baptisée Computer Chess Championship.
En 2018, c’est un autre pallier qui a été atteint : Lee Sedol, véritable dieu sud-coréen du jeu de Go qui survole pourtant la compétition depuis près de dix ans, est battu par AlphaGo. Cette IA conçue par l’entreprise DeepMind de Google a réalisé un véritable exploit. Jusque là, on pensait le jeu de go hors de portée des intelligences artificielles, la faute à un nombre de combinaisons hallucinant, encore bien plus élevé qu’aux échecs. On estime ainsi qu’il existe plus de possibilités au jeu de go qu’il n’y a d’atomes dans l’univers… Ce qui n’a pourtant pas empêché la défaite de Lee Sedol.
Plus récemment, on a même vu les IA de DeepMind ridiculiser les joueurs de Dota et Starcraft II. Récemment, on a même appris que cette même IA comptait s’attaquer au ladder 1V1 européen. Ces victoires ont participé à confirmer une impression qui existait depuis un certain temps déjà : aujourd’hui, les bots de DeepMind sont plus ou moins invincibles lorsqu’ils affrontent un humain dans un matchs à deux joueurs d’un jeu à somme nulle (où un joueur gagne exactement ce que l’autre perd, et vice versa).
Mais avec le poker à six, la théorie des jeux ne suffit plus car on a affaire à un scénario où de multiples parties avec des intérêts différents s’affrontent dans un jeu sans condition claire de défaite ou de victoire… De plus, le poker est un jeu à informations incomplètes, où le joueur ne dispose jamais de la totalité des informations qui lui seraient nécessaires pour assurer sa victoire.
Cela nécessite donc de créer des modèles de prise de décision des adversaires en plus de sa propre stratégie – les deux étant interdépendants. Un niveau de complexité bien supérieur, bien résumé dans cette étude. L’approche traditionnelle, qui consiste à parcourir de gigantesques arbres de décision pondérés, est donc assez peu adaptée à ce scénario…
Pluribus a donc utilisé une approche différente : contrairement aux IAs plus traditionnelles, il ne cherche pas le meilleur coup en vérifiant toutes les possibilités jusqu’à la fin du jeu. Il cherche seulement quelques coups à l’avance, privilégiant ainsi la capacité d’adaptation à court terme : c’est cette approche, qui pourrait sembler contre-intuitive, qui s’est révélée décisive pour réaliser ces exploits. Ce qui rend également cette IA bien plus rapide à entraîner, et nécessite un hardware ridicule en comparaison des supercalculateurs qui réalisent habituellement ces tâches par la méthode traditionnelle… et a permis de l’entraîner en seulement huits jours pour un prix estimé à 150$, contre plusieurs centaines de milliers d’euros pour un supercalculateur !
L’IA sait chercher et trouver, reste à lui apprendre à inventer
Le résultat a été assez traumatisant pour les joueurs présents qui ont tous plébiscité sa “constance implacable dans l’inconstance”, notamment dans le bluff, le rendant incroyablement imprévisible en permanence. Et ce, alors qu’on pensait cette capacité être le propre de l’Homme. Un peu comme le Go, dont on disait qu’il fallait un “instinct humain” pour pouvoir maîtriser le jeu. Après la défaite de Sedol, c’est une autre conception humaine qui mord la poussière face à l’IA.
Or Pluribus s’est entraîné tout seul contre lui-même, à partir de zéro, sans se baser sur des humains. Comme AlphaZero aux échecs à son époque ou AlphaGo (en partie). Cela a eu une conséquence très intéressante : l’IA utilise avec succès des techniques jugées douteuses, voire mauvaises par l’humain.
Ainsi, dans la vidéo ci-dessus, on voit les commentateurs, puis le champion complètement hébétés par le 37e coup de la machine : tous les spécialistes s’accordaient à dire qu’ il n’y avait “pas un seul joueur humain qui aurait choisi ce coup”. C’est dire s’il semblait contre-intuitif. Il se révélera pourtant être un véritable coup de génie, de ceux qui sont tellement brillants qu’ils verrouillent un match et restent dans les annales. De la même façon, Pluribus s’est distingué en faisant usage de stratégies inconnues, ou jamais utilisées par les humains.
Et c’est certainement là que réside la majeure partie de l’intérêt de cette grande victoire au poker. Car si posséder une IA capable de massacrer tout le monde à ce jeu très axé sur la psychologie est intéressant, force est de constater que les applications pratiques sont limitées. L’intérêt résiderait dans le fait d’extrapoler certains des mécanismes formalisés par l’IA pendant son auto-apprentissage, exempt de toute influence (et donc des préjugés et biais de raisonnement) humaine ! Par exemple, si une IA est capable de décider de bluffer si elle considère ce choix le plus judicieux, on peut tout à fait imaginer qu’elle pourrait par exemple être appliquée à des domaines comme la négociation commerciale, la détection de fraude ou de contrefaçons, les décisions en temps réel des voitures autonomes…
Tout le challenge réside dans le fait de réussir à “extraire” des principes plus larges de l’exemple très précis qu’est le poker. Apprendre à apprendre avec un algorithme pour professeur, en somme. Il y a fort à parier que la prochaine étape dans cette direction soit de concevoir une IA capable d’atteindre des niveaux aussi surhumains dans plusieurs jeux à la fois, ce qui relève d’ une capacité générale plutôt que d’une compétence de niche. Voire même de concevoir de nouveaux jeux, ce qui semble apparaître comme le nouvel Everest de l’IA appliquée aux jeux.
Et si cet obstacle-là est gravi, il y a fort à parier qu’on s’approche très près d’une solution universelle à la recherche de solutions. Cette formulation vous rappelle quelque chose ? C’est normal : c’est, en substance, l’énoncé du Problème du Prix du Millénaire connu sous le nom de “P = NP”. En effet, la plupart des scientifiques travaillant sur le sujet s’accordent à dire qu’il sera difficile de progresser dans cette direction en l’absence d’une grande idée révolutionnaire. Il n’est pas interdit d’imaginer qu’à terme, cette grande idée puisse émerger d’une IA auto-entraînée …
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
L’article est bien foutu, merci
Sacrée ouverture en conclusion. P=NP, rien de moins.
Et pourquoi pas 42 ?