L'Homme a beaucoup de mal pour lire sur les lèvres, mais pas les IA

L’Homme a beaucoup de mal pour lire sur les lèvres, mais pas les IA

Lire sur les lèvres est une discipline très difficile à maîtriser et pourtant essentielle pour les sourds et les malentendants.

Le moine bénédictin Pedro Ponce de León est reconnu par les historiens comme la première personne à avoir eu l’idée, et les capacités de lire sur les lèvres. Il a d’ailleurs fondé une école au sein de son monastère à Ona, en Castille au début du XVIe siècle.

Depuis, la lecture labiale (lire sur les lèvres) est devenu un art maitrisé par de nombreuses personnes à travers le monde. En première ligne, les sourds et les malentendants qui arrivent ainsi à communiquer avec le monde entendant. Mais cette solution présente malgré tout un certain nombre de faiblesses. Une étude de 2011 assure qu’une personne entendante, qui n’a jamais vraiment travaillé cette méthode serait capable de reconnaître entre 3 et 4 mots dans une phrase de 12.

Un humain arrive à lire entre 10 et 15 % des mots

Dans l’ensemble une personne lambda devrait réussir à comprendre entre 10 et 15 % d’un discours. Si l’idée de fond devait ainsi être saisie, non sans mal, cela ne serait pas le cas des petites nuances et des subtilités. Cette même étude, menée par des chercheurs de l’université d’Oklahoma, assure que les personnes sourdes ou malentendantes qui travaillent la lecture sur les lèvres au quotidien arrivent à comprendre près de 30 % d’un texte.

Les meilleurs arrivent à atteindre un score de 45 %. C’est largement suffisant pour comprendre une discussion de tous les jours, mais pas assez pour un discours plus fluide et travaillé. C’est cette incapacité à lire sur les lèvres de manière fluide qui amène des traducteurs en langue des signes sur les côtés de nos téléviseurs lors d’allocution présidentielle ou durant certains programmes.

Les IA bien meilleures que les humains

Mais depuis quelques années, de nouveaux chercheurs s’intéressent à la lecture sur les lèvres. Ils expliquent qu’une intelligence artificielle est bien plus forte que nous, notamment car elle arrive à voir des subtilités dans les micro-mouvements de nos lèvres. Une IA peut également traiter des centaines de milliers de situations chaque seconde, alors qu’un humain est loin de ce compte.

Aujourd’hui les systèmes intelligents à la pointe de la technologie se vantent d’un taux de précision autour des 95 %. C’est bien mieux qu’un humain, mais l’ordinateur commet encore quelques impairs. Yannis Assael, chercheur à l’université d’Oxford a développé LipNet en prenant en compte non seulement les mouvements des lèvres, mais aussi de la langue et des dents.

Certains sons utilisent ces parties de notre bouche, sans même que nous ne nous en rendions compte. Pour un humain il est impossible de le voir, mais des systèmes perfectionnés arrivent à faire la nuance entre un son créé par les dents et un autre par les lèvres. Cela permet d’augmenter encore un peu le niveau de précision de ces outils.

Un nouveau système qui s’adapte à toutes les langues

Avec le système « Bad Lip Reading » mis en place il y a quelques années par un groupe de chercheurs, Fabian Campbell-West, directeur technique du développement d’applications, explique que cette méthode permet de lire aussi bien l’anglais, que le français ou le mandarin.

« Chaque langue a des règles de syntaxe et de prononciation qui affecteront la façon dont elle est interprétée. De manière générale, les méthodes de compréhension sont les mêmes. » Il explique ainsi que les langues toniques sont un vrai défi pour leur système. « Elles utilisent le même mot avec des changements de ton différents (comme le ton musical) pour transmettre le sens. »

Mais finalement cette nuance est visible. « Le changement de ton entraîne toujours des changements physiologiques qui sont manifestes. » Le chercheur ajoute que les systèmes de lecture automatique prennent aussi en compte l’ensemble de la phrase pour deviner le mot suivant. Cela permet de limiter à l’avance le nombre de mots à étudier pour l’IA, rendant son travail plus simple et donc plus rapide.

Ce travail autour de l’IA pourrait se concrétiser de bien des façons. Il serait ainsi possible de comprendre les mots des films muets, mais aussi traduire à une grande audience un discours avec une fiabilité quasi-parfaite. Pour les personnes sourdes et malentendantes, avoir une IA aussi développé pourrait les aider à s’améliorer et interpréter toujours mieux les petites nuances sur nos lèvres.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.