Résumé exécutif
- Mercury 2 est le premier modèle de langage commercial utilisant la diffusion pour le texte, générant des réponses complètes en une fois avant de les affiner.
- Il atteint un débit de 1000 tokens par seconde sur des GPU NVIDIA Blackwell, soit environ 10 fois celui de Claude 4.5 Haiku et GPT 5.2 Mini.
- Son coût est de 0,25 $ par million de tokens en entrée et 0,75 $ par million en sortie, divisant le prix des principaux concurrents par 4 à 6,5.
- La technologie de diffusion traite les tokens en parallèle, éliminant le goulot d’étranglement séquentiel des modèles autogressifs classiques comme GPT ou Claude.
- Les cas d’usage prioritaires sont les environnements où la latence est critique : IDE de code, agents vocaux et support client automatisé.
- Une autre approche, les modèles à base d’énergie, complète la diffusion en offrant une vérification instantanée du raisonnement pour des réponses vérifiables.
- Ces paradigmes parallèles pourraient aboutir à des boucles de raisonnement 30 à 50 fois plus rapides à une fraction du coût actuel.
Introduction
Les modèles de langage principaux, de ChatGPT à Claude, reposent sur l’autorégression. Ils génèrent un token à la fois, de gauche à droite, comme une prédiction séquentielle. Cette approche est intrinsèquement lente et inefficace sur le plan informatique, car elle ne peut pas pleinement exploiter le parallélisme des GPU modernes.
La diffusion, technologie derrière des modèles comme Midjourney ou Sora pour les images, fonctionne différemment. Elle part d’un bruit aléatoire et l’affine progressivement pour obtenir un résultat cohérent. L’équipe de Stefano Ermon à Stanford a appliqué ce principe au texte. Leur société vient de lancer Mercury 2, un modèle de raisonnement par diffusion qui pourrait redéfinir les attentes en matière de vitesse et de coût pour l’IA générative.
Le fonctionnement de la diffusion appliquée au texte
Contrairement à un modèle autogressif, Mercury 2 ne génère pas token par token. Il produit une première version complète, bien que bruitée, de la réponse. Ensuite, il procède par itérations successives de dé-bruitage pour affiner le texte.
Ce processus est massivement parallèle. L’ensemble des tokens de la séquence est traité simultanément lors de chaque étape de raffinement. L’architecture libère le modèle de la contrainte de mémoire séquentielle, principale limite des LLM classiques. Ces derniers passent l’essentiel de leur temps à déplacer des données pour la prédiction du token suivant, plutôt qu’à calculer.
La formation reflète cette logique. Les modèles de diffusion apprennent à corriger des erreurs introduites volontairement dans un texte, et non à prédire le mot suivant. Cela les dote d’une capacité intrinsèque à réviser et à améliorer une sortie globale.
Performances, coûts et spécifications techniques
Le débit est la métrique la plus frappante. Sur des GPU NVIDIA Blackwell, Mercury 2 atteint 1000 tokens par seconde. Ce taux est environ dix fois supérieur à celui de modèles de qualité comparable comme Claude 4.5 Haiku ou GPT 5.2 Mini.
La tarification casse les standards du marché. L’entrée est facturée 0,25 $ par million de tokens, soit la moitié du prix de Gemini 3 Flash et quatre fois moins que Claude Haiku. La sortie coûte 0,75 $ par million de tokens, ce qui est quatre fois moins cher que Gemini 3 Flash et 6,5 fois moins que Haiku.
Le modèle dispose d’une fenêtre de contexte de 128 000 tokens. Il supporte nativement l’utilisation d’outils et la production de sorties au format JSON, le rendant compatible avec les architectures d’agents actuelles.
Cas d’usage où le modèle excelle
La vitesse et le faible coût ouvrent des applications où la latence est inacceptable. Les environnements de développement intégrés pour le code bénéficient de suggestions complètes générées en millisecondes.
Les agents vocaux en temps réel peuvent répondre sans les pauses perceptibles des modèles séquentiels. Le support client automatisé traite les requêtes avec un temps de réponse quasi instantané, améliorant l’expérience utilisateur.
Toute tâche où un humain attend une réponse synchrone, et où une qualité raisonnable est suffisante, devient économiquement et techniquement viable avec ce type de modèle. La parallélisation permet de servir un plus grand nombre d’utilisateurs avec moins de matériel.
L’approche complémentaire des modèles à base d’énergie
Logical Intelligence, avec Yann LeCun, développe une autre alternative à l’autorégression : les modèles à base d’énergie. Leur objectif n’est pas la vitesse brute, mais l’exactitude vérifiable.
Ces modèles ne génèrent pas de texte. Ils évaluent et notent des traces de raisonnement partielles, agissant comme un vérificateur de faits intégré. Ils peuvent identifier une erreur logique au milieu d’un processus de pensée.
Sur le benchmark ARC-AGI, leur modèle a atteint un score de 20% là où les LLM classiques plafonnaient à 2%. Leur système de raisonnement formel, ReMath, excelle sur des problèmes de mathématiques.
Implications pour l’industrie et les infrastructures
Le paradigme autogressif dominant est remis en question. La diffusion pour le texte démontre que des gains d’un ordre de grandeur en vitesse et en coût sont possibles sans sacrifier la qualité utile pour de nombreuses applications.
L’efficacité computationnelle est radicalement améliorée. Les GPU sont utilisés pour du calcul parallèle intensif plutôt que pour de l’accès mémoire séquentiel. Cela pourrait modifier les exigences matérielles futures et réduire l’empreinte énergétique de l’IA générative.
La combinaison potentielle de la diffusion pour la génération rapide et des modèles à base d’énergie pour la vérification instantanée est prometteuse. Elle pourrait conduire à des boucles de raisonnement interactives 30 à 50 fois plus rapides, avec des garanties de justesse dans des domaines vérifiables.
À retenir
- Mercury 2 prouve la viabilité des modèles de diffusion pour le texte, offrant des gains de vitesse et de coût d’un ordre de grandeur.
- La clé réside dans le traitement parallèle de séquences entières, éliminant le goulot d’étranglement mémoire des modèles autogressifs.
- Un prix de 0,75 $ par million de tokens en sortie change l’équation économique pour le déploiement à grande échelle d’agents IA.
- Les IDE, agents vocaux et automates de support client sont les premiers bénéficiaires de cette réduction de latence.
- Les modèles à base d’énergie offrent une voie complémentaire pour certifier l’exactitude du raisonnement, ciblant des domaines exigeants.
- L’industrie n’est plus contrainte par l’architecture séquentielle ; une nouvelle phase d’innovation architecturale est engagée.
- L’impact à terme pourrait être des systèmes d’IA plus rapides, moins chers et plus fiables pour des interactions en temps réel.
Questions fréquentes
La diffusion élimine-t-elle les hallucinations ?
Non. Stefano Ermon indique que les modèles de diffusion hallucinent aussi. La technologie réduit certaines erreurs liées à la séquence, mais ne garantit pas la véracité factuelle. Elle améliore la cohérence globale du texte généré.
La qualité est-elle comparable aux LLM classiques ?
Oui, pour les tâques ciblées. Dans les benchmarks de raisonnement et de codage, Mercury 2 atteint une qualité comparable aux modèles autogressifs de taille similaire. La différence majeure réside dans le débit, pas dans les scores bruts.
Pourquoi les grands labos n’utilisent-ils pas encore la diffusion ?
L’écosystème entier est optimisé pour l’autorégression : infrastructures, bibliothèques, compétences. La transition nécessite de repenser la formation, l’inférence et l’évaluation. Le risque et le coût de changement sont élevés pour des acteurs établis.
Les GPU NVIDIA Blackwell sont-ils obligatoires ?
Non, mais ils sont optimisés pour ce type de calcul parallèle. Les gains de performance sont significatifs sur cette architecture. Le modèle peut fonctionner sur d’autres GPU, mais le débit de 1000 tokens/seconde est annoncé pour Blackwell.
Le modèle est-il adapté à la génération de textes créatifs longs ?
Son avantage est le raisonnement et la réponse concise. Pour de longs textes narratifs, l’approche autogressive peut encore être compétitive. La diffusion peut être utilisée, mais son raffinement d’ensemble est plus adapté à des réponses structurées.
Conclusion
Mercury 2 représente une rupture architecturale significative dans le domaine des modèles de langage. En adoptant la diffusion pour le texte, il démontre que le traitement parallèle peut résoudre les problèmes fondamentaux de vitesse et de coût des LLM.
Cette avancée, couplée au développement des modèles à base d’énergie pour la vérification, suggère une future divergence des architectures d’IA. Le modèle universel autogressif pourrait laisser place à une spécialisation des composants : un pour la génération rapide, un autre pour la validation rigoureuse.
L’enjeu pour l’industrie sera d’adapter ses outils et ses pratiques à ces nouveaux paradigmes. Les bénéfices potentiels en termes d’accessibilité, d’efficacité énergétique et de nouvelles applications justifient cette transition complexe.