Un document de recherche publié récemment par des ingénieurs d’Apple révèle que l’entreprise réalise de nouveaux investissements significatifs dans l’IA générative. Ce document détaille le développement de MM1, un modèle d’IA capable de traiter texte et images, et de répondre à des questions sur des photos avec une compétence équivalente à celle des chatbots comme ChatGPT. La conception de MM1 s’apparente à celle des modèles récents d’autres géants technologiques, ce qui suggère une intégration future dans les produits d’Apple.
Le pari discret d’Apple sur l’IA multimodale
MM1, pour MultiModal 1, est un modèle de langage large multimodal (MLLM), formé à partir d’images et de textes, permettant de répondre à des questions complexes sur des images spécifiques. Par exemple, MM1 a correctement estimé le coût des bouteilles de bières posées sur une table en analysant une photo, ce qui illustre sa capacité à intégrer textes et images pour fournir des réponses précises et cohérentes.
L’étude sur MM1 se distingue aussi par le niveau de détail sur les méthodes d’entraînement, ce qui est inédit pour une publication provenant d’une entreprise — une ouverture inhabituelle pour Apple. Cette transparence pourrait être une stratégie pour attirer les talents nécessaires pour rester compétitif dans ce domaine crucial.
Selon Kate Saenko, professeure spécialisée en vision par ordinateur et apprentissage machine, la taille relativement modeste de MM1 en termes de paramètres pourrait faciliter les expérimentations des ingénieurs d’Apple avec différentes méthodes d’entraînement. Cette stratégie pourrait préparer le terrain à l’élaboration de modèles plus complexes et efficaces.
Même si le document de recherche ne permet pas de tirer des conclusions définitives sur les projets d’Apple, il indique que MM1 pourrait marquer un jalon vers la création d’un assistant multimodal capable de décrire et d’interagir avec des photos, des documents, ou des graphiques.
Ruslan Salakhutdinov, ancien responsable de la recherche en IA chez Apple, suggère auprès de Wired que le constructeur pourrait se concentrer sur le développement de modèles de langage larges pouvant être installés et exécutés de manière sécurisée sur ses appareils, en accord avec sa politique de protection de la vie privée des utilisateurs. L’expertise d’Apple en matière de contrôle intégré du matériel et du logiciel, ainsi que l’inclusion d’un moteur neuronal dans ses puces mobiles depuis l’iPhone X, pourrait lui conférer un avantage distinct dans l’utilisation de l’IA générative.
La pression est forte sur Apple pour que la société se mette à niveau face à ses concurrents, tels que Samsung et Google, qui ont déjà intégré des outils d’IA générative dans leurs appareils. La possibilité d’exploiter Gemini (un modèle créé par Google) en remplacement de la recherche Google traditionnelle, tout en développant de nouveaux outils basés sur MM1, indique qu’Apple a la volonté d’explorer différentes voies.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.