Mistral AI : Le Chat se connecte à un nouveau modèle capable de comprendre les images

Depuis sa création, la startup française Mistral fait beaucoup parler dans le petit monde de l’IA générative. Avec son chatbot baptisé Le Chat, la jeune entreprise propose un accès gratuit à plusieurs modèles d’intelligence artificielle, dont le tout nouveau Pixtral, capable de comprendre aussi bien les textes que les images.

Le Chat est un chatbot gratuit accessible à tous. Pour commencer à utiliser cet outil, rendez-vous sur l’adresse chat.mistral.ai. Une fois sur la plateforme, la création d’un compte est nécessaire, que vous pouvez effectuer en utilisant soit votre adresse e-mail, soit un compte Google ou Microsoft. Dès que votre compte est activé, il vous suffit de vous connecter et… d’utiliser le bot !

Comment se connecter à Le Chat ?

Si vous êtes déjà familier avec des outils comme ChatGPT ou Gemini, vous trouverez l’interface de Le Chat intuitive et facile à prendre en main. Sinon, sachez que l’outil permet de sélectionner le modèle d’intelligence artificielle que vous souhaitez utiliser parmi plusieurs proposés par Mistral. Il suffit de cliquer sur le bouton à côté du champ de texte pour choisir le modèle le plus adapté à vos besoins.

Ce qui distingue Le Chat des autres chatbots, c’est la diversité des modèles d’IA qu’il met à disposition. Parmi eux, on retrouve notamment Mistral Nemo, un modèle rapide et abordable, mais aussi Codestral, spécialisé dans le codage informatique, et Mistral Large 2, dont les performances rivalisent avec les grands noms du secteur comme GPT-4o et Claude Opus 3.

La grande nouveauté de Mistral est le lancement de Pixtral, un modèle multimodal qui permet de traiter non seulement du texte, mais aussi des images. Cette technologie positionne Le Chat en tête des plateformes capables de répondre à des questions complexes à partir de documents visuels. Par exemple, avec Pixtral, il est possible de soumettre un graphique et de demander à l’IA d’en extraire des données.

Ce modèle affiche aussi des performances de haut vol sur les tâches de compréhension de documents, de graphiques, ainsi que sur des tâches multimodales, ce qui le rend particulièrement adapté pour des analyses approfondies.

D’un point de vue technique, Pixtral intègre un encodeur de vision de 400 millions de paramètres qui est capable de traiter des images de différentes tailles et résolutions. Ce modèle peut gérer jusqu’à 128.000 tokens, ce qui signifie qu’il peut analyser plusieurs images en même temps dans un long contexte conversationnel.

La performance de Pixtral a été évaluée sur différents benchmarks, où il s’est avéré supérieur à de nombreux modèles de grande taille, surpassant parfois même des modèles fermés comme Claude 3 Haiku. Mistral met en avant l’aptitude de Pixtral à exceller dans les tâches nécessitant une compréhension multimodale, sans pour autant sacrifier ses compétences sur les benchmarks textuels.

🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.