Même s’il s’est séparé de Boston Dynamics, Google continue de peaufiner ses progrès sur l’humanisation de tout ce qui a quelques circuits et des processeurs. Après une première génération de systèmes capables de retranscrire avec quelques ratés le timbre et la prononciation de la voix humaine, la firme a dévoilé la nouvelle phase de ses recherches, qui porte le doux nom de Tacotron 2.
Dans les faits, ce système permettant de traduire du texte en mots prononcés est basé sur les connaissances en deep learning de Google : un premier réseau neuronal artificiel décompose le texte en spectrogramme, qui permet de visualiser les fréquences des séquences de mots, puis il est secondé par WaveNet. Ce dernier est une I.A. qui s’occupe de gérer tout ce qui a trait à l’alphabet, lisant le graphique obtenu et traduisant tout cela en sonorités. Mais ce n’est pas tout.
I’m sorry Dave
Le système Tacotron 2 possède la petite particularité de pouvoir analyser et prononcer des mots et des noms compliqués, sans donner lieu à un charabia qui fait parfois croire à une invocation démoniaque. Mieux, il a la capacité de prendre en compte la casse des mots. Par exemple, il insistera sur des termes en majuscules avec une subtilité étonnante. Et si pour le moment, cette technologie n’a pas encore fait l’objet d’une review (vérification par des pairs de la validité d’une recherche), elle témoigne de l’évolution rapide dans le domaine de l’I.A. Enfin, que ces messieurs se rassurent, la synthèse vocale est pour le moment uniquement calée sur une voix féminine, mais Google travaille sur son pendant masculin. Voici d’ailleurs quelques extraits vocaux ainsi qu’un lien vers la banque de données où les écouter tous :
Voici une phrase prononcée via Tacotron 2 qui appuie sur les mots “problem” et solution”
La même prononcée par le système de Google avec les deux mots en majuscules montre une accentuation.
Un autre exercice compare voix humaine et voix synthétique : ici et là.
Impressionnant.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
Je sais pas pourquoi, mais je suis super hypé par une voix aux sonorités humaine !
C’est vrai que maintenant qu’on y pense c’est une des meilleures choses qu’on puisse apporter à ce qu’on a déjà.
Petite erreur: la première phrase n’est pas prononcée par “une personne en chair et en os” mais par Tacotron 2 sans insister sur les deux mots, la deuxième correspondant bien à Tacotron 2 lisant la même phrase avec des majuscules sur ces deux mots
En effet, erreur de lien. La comparaison était sur une autre piste. Corrigé, merci.
La premiere phrase n’est pas prononcée par un humain… C’est juste un exemple qui montre la différence de prononciation sur des mots en majuscule… Lisez vos sources avant d’écrire n’importe quoi!
https://google.github.io/tacotron/publications/tacotron2/index.html
“The speaker is instructed to stress on capitalized words in our training set. So simply capitalizing some words will change the overall intonation.”
Il sait peut-être pas lire l’anglais, l’ami Jean-Claude… pourtant, avec un pseudo pareil !!!
En réalité, l’article en source a édité sa page pour corriger l’affirmation selon laquelle les textes était lus par une personne. Un des exemples concernait d’une comparaison sur la casse. Le second exemple est bien une comparaison humain vs Tacotron 2.