Passer au contenu

Siri, Alexa et consorts pourraient vous espionner… sans le faire exprès

Des chercheurs allemands sont parvenus à trouver plus d’un millier de faux positifs capables d’activer la reconnaissance vocale de nombreux assistants connectés par inadvertance… et ainsi de créer un problème de confidentialité, sans même le faire exprès.

© Thomas Kolnowski – Unsplash

Aux premières heures des assistants connectés, quand cette technologie en était encore à l’état d’embryon, ces erreurs d’interprétation alors encore plus grossières qu’aujourd’hui prêtaient plutôt à sourire. Mais depuis, à la lumière de nombreuses révélations, la donne a fini par changer et ces approximations n’amusent plus personne. L’année dernière, nous avons eu droit à une succession de scandales sur le thème des assistants vocaux connectés. De Google à Apple, tous les grands noms du secteur en ont pris pour leur grade et se sont retrouvés épinglés pour des motifs sordides, qui allaient de l’enregistrement non souhaité au traitement d’enregistrements vocaux par des humains en chair et en os. S’ils ont tous fait amende honorable depuis, en supprimant par exemple l’analyse humaine des clips vocaux, la discrétion qu’offrent ces appareils demeure tributaires des mécanismes qui commandent leur activation… dont les commandes vocales.

Le problème central, c’est que la technologie de reconnaissance vocale qui sous-tend ces technologies est loin d’être irréprochable. C’est même la raison précise pour laquelle autant de clips audio sont envoyés dans le cloud, pour y être décortiqués et ainsi améliorer les algorithmes de reconnaissance vocale. Sauf qu’en cas d’erreur d’interprétation, cela peut donner lieu à des enregistrements inopinés, et les cas semblent bien plus nombreux que prévu. C’est la découverte que viennent de faire des chercheurs allemands, en testant tout un panel d’enceintes connectées telles que l’Echo Dot, d’Amazon, le Home Mini de Google, le HomePod, d’Apple, et l’Harman Kardon Invoke. Le résultat est assez impressionnant : les chercheurs ont décelé plus de mille séquences en langue anglaise susceptibles de déclencher des enregistrements accidentels. Des échantillons sont disponibles à cette adresse.

Pour obtenir ces résultats, les chercheurs ont subdivisé certaines phrases mal interprétées en plus petites sous-unités, et ont ainsi pu identifier précisément les parties problématiques. Ils ont ensuite enfoncé le clou pour trouver un maximum de faux positifs. Les exemples présentés concernent tous la langue anglaise : Alexa est confondu avec “Unacceptable“, “Ok Google” avec “Ok Cool“, “Cortana” avec “Montana“, et ainsi de suite. Une liste longue comme un rouleau de papier toilette qui aurait dévalé un escalier, et à laquelle il faut probablement ajouter tout un tas de faux déclencheurs dans de nombreuses autres langues, dont le français.

Cloud-computing et assistants vocaux : un paradigme à reconstruire ?

Ce problème découle directement du mode de fonctionnement de ces appareils, comme l’explique dans un communiqué Dorothea Kolossa, une chercheuse qui a participé à cette étude : “Les appareils sont intentionnellement programmés d’une manière un peu indulgente, car ils sont censés être capables de comprendre les humains. Par conséquent, ils vont avoir tendance à démarrer trop souvent plutôt que pas du tout.” Le souci, c’est que même si ces extraits audio ne sont (techniquement) plus analysés par des humains, ils restent envoyés dans le cloud et sont donc, de fait, potentiellement exposés à l’intervention d’un tiers. Ce qui inquiète Thorsten Holz, un autre chercheur ayant participé à l’étude, qui juge ce constat “alarmant du point de vue de la confidentialité” avec des conversations “très privées qui peuvent se retrouver chez un tiers”. Cette affaire illustre bien le fait que l’IA ne se comporte pas forcément comme on peut s’y attendre, et qu’il faudra à terme mettre en place des couches de sécurité supplémentaires pour rendre ces appareils plus sains en termes de sécurité des données. Quitte à devoir, peut-être, faire une concession sur la qualité de la reconnaissance vocale ?

[amazon box=”B07PHPXHQS”]

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.

3 commentaires
  1. Pourtant ça peut être pratique , par exemple :
    – “Alexa , comment se conjugue le verbe “jeter” ? “
    ou encore
    -“Alexa, comment faire la différence entre le “ces” démonstratif et le “c’est” du verbe être ? ”

    Et puis si t’as encore le temps tu peux aussi demander la différence tous/tout et les règles sur le pluriel des noms communs….. bref dans le doute ne rien jeter tout de suite 🙂

Les commentaires sont fermés.

Mode