[AlphaZero] Il n’a fallu que quelques heures à la nouvelle I.A. de Google pour martyriser un des plus puissants programmes d’Échecs

Par Fabio le 7 décembre 2017 à 10h13

En octobre dernier, l’on apprenait l’existence de la petite sœur d’AlphaGo (l’I.A. qui a roulé sur tous les champions de Go en 2016), qui s’annonçait encore…

En octobre dernier, l’on apprenait l’existence de la petite sœur d’AlphaGo (l’I.A. qui a roulé sur tous les champions de Go en 2016), qui s’annonçait encore plus puissante que son aînée, notamment pour sa capacité à apprendre sans une aide humaine. AlphaZero vient de démontrer une partie de son potentiel sur un jeu d’Échecs.

Now the era of computer chess engine programming also seems to be over: AlphaZero, developed by @DeepMindAI & @demishassabis, took just 4 hours playing against itself to learn to play better than Stockfish (it won 64:36)! Replay 10 example games: https://t.co/cBEuoEFMTN #c24live pic.twitter.com/U2bn1KyJbL

— chess24.com (@chess24com) 6 décembre 2017

Ce qui est impressionnant chez AlphaZero, c’est qu’elle n’a pas eu besoin d’emmagasiner des millions de parties humaines pour apprendre à maîtriser le jeu, contrairement à AlphaGo avec le jeu de Go. Seules les règles du jeu et la position des pièces sur le plateau lui ont suffit ; elle a alors pu enchaîner des millions de parties contre elle-même et progresser petit à petit. C’est ce qu’on appelle un apprentissage de renforcement général.

Des progrès fulgurants

Après neuf heures et 44 millions de parties “d’entrainement”, AlphaZero s’est donc mesurée à Stockfish, un puissant programme d’Échecs en open source. En quatre heures d’apprentissage, elle a pu résister au programme concurrent, et sur 100 matchs, elle en a gagné 28, concédant rien de moins qu’un nul sur les autres manches.

Au delà de son invincibilité, un des points les plus intéressants de sa performance réside dans le fait qu’AlphaZero n’avait pas besoin d’explorer une quantité très importante de coups, note Chess24. 80 000 positions étaient analysées par AlphaZero contre 70 millions pour Stockfish, AlphaZero étant capable, par son réseau neuronal, de réduire le corpus des coups pouvant être joués à ceux qui étaient les plus prometteurs.

Vers une intelligence artificielle plus fine

On se rapproche ici d’une intelligence humaine, qui pourrait ouvrir bien de nouvelles perspectives dans plein d’autres domaines, comme l’espèrent ses créateurs. Même si, comme l’expliquait Tristan Cazenave au journal Le Monde en octobre dernier, cette méthode d’apprentissage nécessite que le cadre soit très défini et que les règles soient claires et ne permettent pas d’imprévu.

Si vous voulez avoir plus de détails sur le duel entre AlphaZero et Stockfish, Chess24 a écrit un très éclairant compte-rendu.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.

𝕏

8 commentaires Signaler une erreur

Source : Source

[Ce n'est pas une blague] Ryan Reynolds va jouer Pikachu dans le prochain film Pokémon

#YouTubeRewind : YouTube sort sa compilation des tendances virales de 2017

8 commentaires

Wiseman dit :

7 décembre 2017 à 11:04

Et une autre étape franchie vers l’anéantissement de la race humaine par les machines… Bravo -.-

Répondre
1. jeknoz dit :
  
  8 décembre 2017 à 18:15
  
  22 victoire aux échecs vont faire disparaître les humains…. Terminator, c’est un film de science fiction ! ?
  
  Répondre
sonzaika44 dit :

7 décembre 2017 à 12:02

une coquille dans l’article : “sur 100 matchs, elle en a gagné 28, concédant rien de moins qu’un nul sur les autres manches.” 0 Défaites + 28 Victoire + 1 Nul (on dit pat) = 100 Parties. ou pas

Selon la source c’est 28 Victoires pour aucune défaite et donc 72 pat
“Stockfish lost 28 games and won none,
with the remaining 72 drawn”

Répondre
1. Leyft dit :
  
  7 décembre 2017 à 12:09
  
  Non c’est correct, “ne concédant rien de moins qu’un nul sur les autres manches” = résultat nul sur toutes les autres manches…
  
  Répondre
Yaoming dit :

7 décembre 2017 à 13:54

“Après neuf heures et 44 millions de parties” dans le tweet cité dans l’article il est écrit : “AlphaZero, […], took just 4 hours playing against itself to learn to play better than Stockfish (it won 64:36)”.

Coquille ou j’ai mal compris un truc ?

Répondre
Elesday dit :

7 décembre 2017 à 16:25

Ce n’est pas de « l’apprentissage de renforcement général » mais de « l’apprentissage générique par renforcement ».

Apprentissage par renforcement = tester et apprendre grâce aux résultats.
Apprentissage générique = faire une IA qui marche sur tous les problèmes/jeux. Donc une IA qui apprend les règles au lieu qu’on les lui fournisse.

Là elle apprend par renforcement, et elle apprend aussi les règles grâce au renforcement (« Ah, faire ça me fait gagner. Tiens ce coup là me fait toujours perdre, ce doit être un coup interdit »). Donc apprentissage générique par renforcement (generic reinforcement learning).

Répondre
Ka dit :

7 décembre 2017 à 18:44

Est-ce que ça veut dire qu’avec une IA qui aurait visionné des milliers de matchs de foot on n’aurait plus jamais de fautes d’arbitrage ? Ou bien ça se limite à des jeux de plateau monochromes ?

Répondre
1. Sam dit :
  
  7 décembre 2017 à 20:56
  
  Pour le moment, ce sont effectivement des “jeux de plateau monochromes” où les règles et le cadre son fixes et les pions n’ont pas de libre arbitre. Nous sommes similaire à la génération qui vu débarquer Pong, puis Pac-Man, et l’évolution qui a suivi… Le raccourci avec les jeux vidéos est rapide, mais l’idée générale reste que oui, à terme, les IA pourront arbitrer un match de foot (si la FIFA l’y autorise… 😉
  
  Répondre