Les interfaces vocales — Siri, Alexa, Google Assistant… — sont de plus en plus présentes, des enceintes intelligentes aux assistants IA. Mais gare : une étude des chercheurs d’Amazon Web Services (AWS) a mis en lumière des failles de sécurité significatives dans ces modèles de langage (SLMs).
Des modèles de langage trop faciles à manipuler
L’étude, intitulée « SpeechGuard : explorer la robustesse aux attaques par exemples contradictoires des modèles de langage multimodaux », détaille comment ces systèmes peuvent être manipulés pour générer des réponses nuisibles ou contraires à l’éthique via des attaques audio minutieusement conçues.
Les chercheurs ont démontré que, malgré les contrôles de sécurité intégrés, les SLMs sont très vulnérables aux « attaques par exemples contradictoires ». Elles consistent en de légères perturbations de l’entrée audio, imperceptibles pour les humains, mais capables de modifier complètement le comportement du modèle.
Les chercheurs ont réussi à créer des exemples contradictoires qui incitaient systématiquement les SLMs à produire des sorties toxiques dans 12 catégories différentes, allant de la violence explicite aux discours de haine. Avec un accès complet au modèle, ils ont atteint un taux de succès de 90 % dans la compromission des barrières de sécurité.
L’étude révèle également que les attaques audio conçues pour un SLM peuvent souvent être transférées à d’autres modèles, même sans accès direct. Ce scénario réaliste est particulièrement préoccupant, étant donné que la plupart des fournisseurs de ces assistants ne proposent qu’un accès limité via une API. Le taux de succès des attaques chute alors à 10 %, ce qui représente néanmoins une vulnérabilité sérieuse.
« La capacité de transfert de ces attaques à travers différentes architectures de modèles suggère qu’il ne s’agit pas seulement d’un problème lié à une implémentation spécifique, mais d’une faille plus profonde dans notre façon de former des systèmes sûrs », a commenté Raghuveer Peri, auteur principal de l’étude.
Les implications sont vastes, car de plus en plus d’entreprises comptent sur l’IA vocale pour des services clients, l’analyse de données et d’autres fonctions essentielles. Au-delà des dommages à la réputation qu’une IA hors de contrôle pourrait causer, ces attaques pourraient être exploitées pour la fraude, l’espionnage ou même des dommages physiques si elles sont connectées à des systèmes automatisés.
Les chercheurs proposent heureusement plusieurs contre-mesures, comme l’ajout de bruit aléatoire à l’entrée audio, une technique connue sous le nom de lissage aléatoire. Dans leurs expériences, cette technique a considérablement réduit le taux de succès des attaques. Les auteurs avertissent toutefois que ce n’est pas une solution complète. « Se défendre contre les attaques par exemples contradictoires est une course aux armements en cours », a souligné Raghuveer Peri. « Au fur et à mesure que les capacités de ces modèles augmentent, le potentiel de mauvaise utilisation progresse également ».
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.