Kyutai a présenté cette semaine Moshi, un modèle IA multimodal capable de traiter des flux audio en temps réel. Ce modèle, qui surpasse certaines fonctionnalités de GPT-4o d’OpenAI, est conçu pour comprendre et s’exprimer très rapidement, et même de couper la parole à son interlocuteur humain. À l’heure actuelle, Moshi parle et comprends l’anglais avec différents accents, y compris le français, et peut écouter et générer de l’audio et du discours tout en maintenant une continuité dans ses pensées textuelles.
Une technologie ouverte à tous
Une caractéristique majeure de Moshi est sa capacité à gérer simultanément deux flux audio, ce qui lui permet d’écouter et de parler en même temps. Cette interaction en temps réel est rendue possible grâce à un pré-entraînement conjoint sur un mélange de texte et d’audio : le modèle de Moshi utilise des données textuelles synthétiques du modèle Helium, un modèle de langue de 7 milliards de paramètres développé par Kyutai.
Le processus d’affinement de Moshi a impliqué 100.000 conversations synthétiques orales, converties grâce à la technologie de synthèse vocale (TTS). La voix du modèle a été entraînée sur des données générées par un modèle TTS séparé, qui a atteint une latence de bout en bout de 200 millisecondes, plutôt impressionnant.
Kyutai a également développé une variante plus petite de Moshi, capable de fonctionner sur un MacBook ou un GPU de taille grand public, permettant à cette technologie de s’intégrer plus facilement chez de nombreux utilisateurs.
Kyutai a martelé l’importance de l’utilisation responsable de l’IA : un filigrane est intégré pour détecter l’audio généré par l’IA, une fonction encore en développement. La décision de publier Moshi en open source reflète par ailleurs l’engagement du labo en faveur de la transparence et du développement collaboratif au sein de la communauté de l’IA.
« Le code et les poids des modèles seront bientôt partagés librement et gratuitement, ce qui est également inédit pour une telle technologie », explique Kyutai. « Ils serviront aussi bien aux chercheurs du domaine qu’aux développeurs travaillant sur des produits et des services basés sur la voix ».
L’équipe prévoit de publier un rapport technique et des versions ouvertes du modèle, y compris la base de code d’inférence, le modèle 7B, le codec audio et l’ensemble de la pile optimisée. Les futures versions (Moshi 1.1, 1.2 et 2.0) affineront le modèle en fonction des retours des utilisateurs. La licence de Moshi se veut aussi ouverte que possible, ce qui devrait favoriser l’adoption la plus large possible.
Il est d’ores et déjà possible de tester Moshi, puisque le bot est en ligne à cette adresse.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.
Je viens de tester , une véritable horreur. Ca rame , elle ne comprend rien et parle comme un étranger qui ne sait pas faire des phrases avec sujet verbe complement …