En matière d’intelligence artificielle, l’entraînement des modèles est un casse-tête : c’est lent, coûteux et demande beaucoup de matériel. Pour résoudre ce problème, Apple a mis au point une technologie ingénieuse appelée ReDrafter, qu’elle a partagée en open source en début d’année. L’objectif ? Accélérer le processus de génération des « tokens » — ces petits blocs qui composent les réponses des IA comme ChatGPT.
Une méthode futée pour réfléchir plus vite
Traditionnellement, ces tokens sont produits un par un dans un processus séquentiel, un peu comme si vous écriviez une phrase lettre par lettre. C’est là que ReDrafter change la donne : cette méthode utilise une approche appelée « décodage spéculatif ». Plutôt que de produire chaque token en suivant un chemin unique, ReDrafter génère plusieurs options en parallèle, puis valide la meilleure.
Pour y arriver, la technologie s’appuie sur un réseau neuronal récurrent (RNN) et une structure en arbre. Cela peut sembler technique, mais imaginez un moteur qui essaie plusieurs phrases en même temps, garde la plus pertinente, puis continue. Résultat : jusqu’à 3,5 fois plus de tokens générés par étape, ce qui réduit drastiquement le temps d’entraînement.
Pour qu’une telle technologie soit utilisable à grande échelle, il faut qu’elle fonctionne avec des GPU, ces super-processeurs souvent utilisés pour les tâches complexes d’IA. Apple a donc collaboré avec Nvidia pour intégrer ReDrafter au framework TensorRT-LLM, un outil conçu pour optimiser les calculs sur les GPU Nvidia.
Et ça marche ! En testant un modèle de plusieurs dizaines de milliards de paramètres sur des GPU Nvidia H100 (les stars du moment), Apple a constaté une vitesse multipliée par 2,7 pour la génération des tokens. En clair, on va beaucoup plus vite avec moins de matériel. Les entreprises y gagnent en réduisant leurs coûts, et les utilisateurs profitent de réponses plus rapides aux requêtes dans le cloud.
Pour le grand public, cela signifie des services d’IA plus rapides et peut-être plus accessibles. Imaginez poser une question à un assistant virtuel et obtenir une réponse quasi instantanée, même aux heures de pointe.
Pour les développeurs et les entreprises, ReDrafter est une promesse d’efficacité. En intégrant la validation directement dans le moteur de calcul, Nvidia et Apple ont réussi à réduire les opérations inutiles, tout en laissant de la place pour concevoir des modèles encore plus sophistiqués à l’avenir.
Cette collaboration s’inscrit dans une dynamique plus large : Apple explore également d’autres technologies, comme les puces Trainium2 d’Amazon, pour continuer à pousser les performances de ses modèles d’intelligence artificielle. Avec ReDrafter, les bases sont posées pour de nouveaux progrès, sans faire exploser la facture énergétique.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités. Et si vous nous adorez, on a une newsletter tous les matins.