Les outils de traduction automatique marchent de mieux en mieux. A quoi est-ce lié?
On a changé d’approche il y a quelques années et cela a permis de gros progrès. Depuis les années 90, on utilisait surtout l’approche statistique qui avait beaucoup amélioré la discipline. Cette approche exploite des corpus de textes alignés c’est à dire des textes où l’on a une version dans la langue source (ex: l’anglais ) et une version dans la langue cible (ex: le français). Cela permet de trouver des équivalences au niveau des mots, des expressions et d’assembler petit à petit une phrase. Mais récemment, une nouvelle approche a permis d’aller plus loin : le deep learning. Cette méthode permet d’étudier la fréquence avec laquelle les mots apparaissent à proximité les uns des autres. Même si on n’encode pas le sens, analyser ces récurrences permet de constituer des classes de mots, des familles de sens très homogènes. Avec le deep learning, on ne se contente plus d’assembler des bouts de mot, d’expressions. On a une représentation directe de la phrase. Et l’analyse du contexte permet d’identifier plus facilement la traduction la mieux adaptée. Si le terme avocat apparaît dans une phrase qui suggère un contexte juridique, la traduction proposée en anglais sera par exemple “lawyer” et non “avocado” (ndlr: le fruit).
Dans quels cas la traduction automatique risque-t-elle de se tromper ?
Avec le deep learning, la hausse de puissance de calcul et celle des volumes de données disponibles, le niveau global est devenu bon. Mais ces outils ont encore leurs limites. Ils ont souvent du mal à traiter les expressions figées comme “pleuvoir à verse”. Si la langue est très éloignée de l’anglais en terme de typologie linguistique, le risque d’erreur est également plus élevé. L’arabe ou le finnois, par exemple, sont des langues dans lesquelles un même mot peut avoir beaucoup de variations (selon qu’il est sujet ou objet, qu’il s’accompagne d’un possessif, etc.) Ce genre de choses va être plus complexe à traiter.
Un autre problème que l’on rencontre est celui des langues pour lesquelles nous avons peu de données. Il faut enfin garder en tête que les outils proposent en général une traduction très littérale. Dans certains cas (sur des textes techniques par exemple), cela peut s’avérer parfaitement adapté. Mais sur de la poésie ou certains types d’œuvres littéraires, ça l’est parfois moins.
Aurons-nous bientôt des appareils capables de traduire fidèlement et en temps réel ce que quelqu’un nous dit ?
C’est sans doute le champ d’application qui attire le plus d’investissements. Pour le moment, c’est encore un peu de la science-fiction mais je pense que d’ici cinq ou dix ans, il y aura de la traduction en direct, peut-être pas parfaite mais utilisable.
“Babel 2.0” par Thierry Poibeau aux éditions Odile Jacob.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
Vous venez de m’apprendre que l’on écrit “il pleut à verse”. Merci.
c’est pas mal mais ce n’est vraiment pas encore le top et surtout pas fiable. Je dois utiliser des traducteurs pour parler avec ma copine. Mais c’est juste pour les phrase simple. Utiliser des expressions ou des phrases technique et c’est l’incompréhension totale. Mais ça aide quand même pas mal. IL faut juste ne pas faire confiance à la traduction.
Le 27 février 2012, sous le titre en espéranto “Tutmonda helplingvo por ĉiuj homoj“ (Une langue auxiliaire mondiale pour tous les hommes), Thorsten Brants, chercheur scientifique de Google Translate, avait annoncé en anglais l’ajout de la Langue internationale aux 63 langues jusqu’alors traitées en traduction automatique :
“(…) L’espéranto et Google Translate partagent l’objectif d’aider les gens à se comprendre.(…) L’équipe Google Translate a en fait été surprise de la haute qualité de la traduction automatique pour l’espéranto. (…) L’espéranto a été construit de telle sorte qu’il soit facile à apprendre pour les humains, ce qui semble également aider la traduction automatique. Bien que le système soit encore loin d’être parfait, nous espérons que notre dernier ajout vous aidera à en apprendre davantage sur l’histoire et la culture de l’espéranto.(…)“
Google Translate traite aujourd’hui, presque dix ans après, 113 langues avec une fidélité et une fiabilité très variables suivant les langues et aussi le style. Sous cet aspect, l’anglais est loin de briller.
L’espéranto se tient à un niveau convenable qui continue de s’améliorer.
De l’avis d’Eckhard Bick, de l’Institut des Langues et de la Communication de l’Université du Sud-Danemark, spécialiste en la matière, l’anglais se prête mal au rôle de langue-pont :
“L’anglais fonctionne mal comme langue-pont pour Google, par exemple entre le danois et le suédois. Dans notre firme [GramTrans] nous traduisons ou directement, sans langue-pont, ou avec une langue-pont typologiquement très parente, soit avec la langue source, soit avec la langue de destination (le cas des langues scandinaves entre elles)“.
Eckhard Bick a réalisé la traduction automatique en espéranto de la version en anglais de Wikipedia sous le nom de WikiTrans : 4 948 870 articles — https://epo.wikitrans.net/