On savait DeepMind joueuse. On savait DeepMind artiste. On sait maintenant que DeepMind est capable de lire sur les lèvres des humains. C’est en tout cas ce que viennent de démontrer des chercheurs de l’université d’Oxford en publiant une étude sur le sujet. Ces derniers ont en effet passé près de 5000 heures de programmes TV issus de la BBC afin de l’entraîner à annoter des vidéos simplement en analysant les lèvres des intervenants.
Et les résultats sont franchement encourageants. DeepMind est ainsi capable de sous-titrer les vidéos avec un taux d’exactitude de 46,8 %. Moins d’un mot sur deux, cela peut sembler très peu, mais il faut savoir qu’un humain entraîné à lire sur les lèvres n’est capable de deviner en moyenne que 12,4 % des mots sur de telles vidéos. Autant dire que dans ce domaine, l’IA de Google le surpasse largement.
Aider Siri ou Google Assistant à mieux comprendre les demandes des utilisateurs ?
Pour parvenir à un tel résultat, les chercheurs de DeepMind ont fait regarder à l’IA des émissions telles que Newsnight, Question Time et The World Today, des programmes d’actualités traitant de politique ou d’économie. L’IA aurait ainsi réussi à « décoder » 118 000 phrases différentes et quelques 17 500 mots uniques. Une belle performance.
Mais pour quoi faire ? Les chercheurs derrière cette application voient déjà plusieurs utilisations de cette nouvelle spécialité de DeepMind : aide aux personnes malentendantes, sous-titrage automatique de films muets voire, pourquoi pas, donner la possibilité à Siri ou Google Assistant d’utiliser la caméra frontale de nos smartphones pour mieux lire sur nos lèvres nos demandes. Ou, comme me le souffle l’un de mes confrères, mieux comprendre nos suppliques au moment où les machines, devenues bipèdes et capables de s’armer, auront définitivement pris possession de la Terre. Allez savoir.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
C’est aussi une composante capitale pour le HAL 9000.
SKYNEEEEEEET
On va finir par mettre un scotch devant la caméra de notre ordi car bientôt Google va lire dans nos pensées !
Dans toutes les langues ?…