L’I.A. AlphaGo a été balayée par sa petite soeur AlphaGo Zero, qui apprend désormais sans l’expérience humaine

Par Fabio le 19 octobre 2017 à 11h22

AlphaGo, l’intelligence artificielle de Google DeepMind, avait surpris son monde en 2016 en venant à bout de Lee Sedol, un des meilleurs joueurs mondiaux de Go. Un peu plus d’un an après, cette version de l’intelligence artificielle a été elle-même surpassée – et de loin – par la nouvelle création de Google DeepMind.

C’est dans la revue scientifique Nature que les cerveaux derrière AlphaGo ont annoncé avoir accouché d’une intelligence artificielle bien plus puissante que la précédente. Plus épatant encore, AlphaGo Zero, c’est son petit nom, n’a pas eu besoin d’emmagasiner des millions de parties de Go humaines pour apprendre à le maîtriser. Non, elle n’a eu besoin que de connaître les règles du jeu et la position des pièces sur le plateau. AlphaGo Zero a alors pu enchaîner des millions de parties contre elle-même et bâtir petit à petit ses propres stratégies.

Plus efficace, plus vite

La courbe de progression du programme, que détaillent ses créateurs sur le site de DeepMind, est impressionnante. Après 4,9 millions de parties jouées contre elle-même en 3 jours seulement, AlphaGo Zero est devenue plus puissante que l’AlphaGo de 2016, entraînée pourtant avec 30 millions de parties. Elle a ainsi infligé à son aînée 100 défaites sur 100 parties.

De nouvelles perspectives

La nature de la progression d’AlphaGo Zero ouvre de larges perspectives, dans bien d’autres domaines, même si les conditions pour que la machine puisse faire avancer un domaine sans l’aide humaine relève encore du fantasme, comme l’explique Tristan Cazenave au journal Le Monde : « Pour appliquer cette méthode, il faut que le cadre soit très défini, qu’on ait une représentation solide du domaine, pas trop de flou dans les règles, et que le problème soit bien défini. Cela s’applique bien au jeu car il y a une connaissance parfaite de l’environnement, des règles, et qu’il y a peu d’imprévu ».

On vous invite une nouvelle fois à aller relire notre interview de Bruno Poucet et Claude Touzet, spécialistes de l’intelligence artificielle, au sujet des progrès fulgurants de celle-ci.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.

𝕏

7 commentaires Signaler une erreur

alphago DeepMind Google

[Trump's Approval] Il existe dès à présent une manette de PS4 pour ceux qui ont de petites mains (ou des enfants)

Bon Plan : les Sneakers connectées de Xiaomi à seulement 30€ !

7 commentaires

Carman dit :

19 octobre 2017 à 12:46

super intéressant, mais ça fait aussi super peur.
Que la machine ne se base plus sur l’expérience humaine mais crée elle même sa propre expérience….

Répondre
1. Wakizashi dit :
  
  19 octobre 2017 à 14:54
  
  Je ne vois pas en quoi ça fait peur. On ne parle pas d’un robot qui prend son autonomie et qui va renverser le monde tel Terminator, mais d’un logiciel qui étudie un environnement contrôlé et définit par l’homme (un plateau de jeu virtuel, des règles) et qui annonce quel coup jouer en se basant sur toutes les situations qu’il a enregistré (je vulgarise). Jamais le robot saura t’expliquer pourquoi ce coup était meilleur, c’est juste que le coup qu’il joue a toujours favorisé la victoire ou a une évaluation positive.
  
  Concrètement et simplement, si tu joues à puissance 4, quand 3 jetons adverses sont alignés, tu sais qu’il faut bloquer la ligne, la colonne ou la diagonale concernée. l’IA elle sait surtout qu’il ne faut pas qu’elle joue un autre coup car ça la rapprocherait de la défaite. Et elle le sait car elle l’a déjà expérimenté dans des parties précédentes, ou bien parce qu’en évaluant le prochain coup qu’elle joue ça lui donne un résultat négatif (celui de la défaite). D’ailleurs l’IA n’est pas nécessairement au courant des règles. Si elle reçoit une évaluation négative quand 4 jetons s’alignent elle finira par retenir (et non comprendre) que 4 jetons adverses alignés = défaite.
  
  Au final l’homme a quand même son mot à dire dans tout ça. Car c’est lui qui définit les paramètres ou les facteurs permettant de dire si une évaluation est positive ou non. Aux échecs, ça sera en donnant une valeur différentes pièces par exemple, ou une valeur plus ou moins élevée si on contrôle le centre du plateau, etc. Après pour une IA aussi évoluée peut être qu’elle sait définir ses propres paramètres et facteurs d’évaluation.
  
  Répondre
  1. mpolo dit :
    
    19 octobre 2017 à 22:27
    
    Oui, et il faut préciser que le cadre est “fini”. Le nombre de combinaisons n’est pas illimité.
    La force de la machine c’est de toutes les tester et de les mémoriser, ce qu’un humain ne peut pas faire.
    La machine ne conçoit pas elle n’imagine pas, elle ne créé pas, elle execute et trie les combinaisons bonnes et les pas bonnes.
    
    Répondre
    1. Fail To Connect dit :
      
      19 octobre 2017 à 22:58
      
      N’est pas infini ? Tu ne dois pas
      Bien connaître le go toi 🙂
      
      Répondre
      1. SilverBob dit :
        
        20 octobre 2017 à 9:10
        
        Si il y a un nombre de case fini (ici 361) et un nombre de pion fini (361 aussi) alors le nombre de combinaisons possible, de déplacement possibles et de strategies possible est fini, c’est mathématique
      2. valabas dit :
        
        20 octobre 2017 à 10:47
        
        Même si il est gigantesque il est fini.
bertrouf6111 dit :

20 octobre 2017 à 10:00

Je suis d’accord avec @Carman7:disqus, ça fait peur. Imaginons cette intelligence artificielle appliquée à la bourse, capable d’intégrer ses propres analyses sans utiliser d’expérience humaine.
Mon scénario n’a rien d’irréaliste. On nourri une machine de dépêches de presse et de cours de la bourse et on lui laisse faire des millions d’opérations boursières fictives.
A partir d’un certain gain, la machine va être considérée comme un graal pour gagner de l’argent par toutes les agences de trading assez riches pour s’acheter les services de ce bot, et on va progressivement lui laisser le champ libre.
Et générer en moins de 6 mois de dérive le plus gros krach boursier de tous les temps !

Répondre