Nemotron 3 Super : NVIDIA dépasse DeepSeek avec un modèle open source efficace

Résumé exécutif

Nemotron 3 Super totalise 120 milliards de paramètres, mais seulement 12 milliards sont actifs par inférence – une efficacité record.
Il obtient 27,3 points de moyenne sur le benchmark EnterpriseOps-Gym (1150 tâches en 8 domaines d’entreprise), devançant Kimi-K2.5, DeepSeek v3.2 et GPT-OSS-120B.
Les poids du modèle, 10 000 milliards de tokens d’entraînement et les recettes complètes sont publiés en open source – un niveau de transparence rare.
L’architecture hybride Mamba-Transformer permet une fenêtre de contexte native de 1 million de tokens et une génération multi-token jusqu’à 3 fois plus rapide.
Nemotron 3 Super est optimisé nativement pour les GPU NVIDIA, entraîné via NeMo et déployable via NIM.
Le coût d’inférence est environ 0,10 $ par million de tokens en entrée et 0,40 $ en sortie, bien inférieur aux modèles propriétaires comparables.
Les organisations peuvent héberger le modèle sur leur propre infrastructure avec une licence ouverte, garantissant confidentialité et personnalisation.

Introduction

Le marché des grands modèles de langage (LLM) connaît une accélération permanente, chaque acteur cherchant à conjuguer performance brute, efficacité computationnelle et ouverture. En mars 2026, NVIDIA a dévoilé Nemotron 3 Super, un modèle qui bouscule le classement des benchmarks orientés entreprise. Avec 120 milliards de paramètres dont seulement 12 milliards activés à chaque inférence, il parvient à surpasser des modèles deux fois plus lourds, fermés ou semi-ouverts, comme DeepSeek v3.2 ou GPT-OSS-120B. Ce résultat est obtenu sur EnterpriseOps-Gym, un benchmark développé par ServiceNow AI Research qui simule des environnements d’entreprise complexes – tickets, emails, orchestration hybride – avec 512 outils fonctionnels et des séquences allant jusqu’à 34 étapes. Pour les DSI et les équipes techniques, l’enjeu est clair : disposer d’un modèle à la fois performant, auditable et déployable en propre, sans dépendre de fournisseurs fermés. Nemotron 3 Super répond à cette attente avec une architecture innovante et un engagement open source total.

Architecture hybride Mamba-Transformer : 12 milliards de paramètres actifs, une efficacité contre-intuitive

La conception de Nemotron 3 Super repose sur une technique de compression des tokens dans un espace latent avant distribution aux experts. Cette approche active quatre fois plus d’experts pour un même coût d’inférence. Le résultat : un modèle n’utilisant qu’une fraction de ses paramètres – 12 milliards sur 120 – atteint des performances supérieures à des modèles denses deux fois plus lourds. Cette ingénierie fine est permise par l’architecture hybride Mamba-Transformer, qui combine les forces des réseaux à espace d’état (SSM) pour la modélisation des longues séquences avec les mécanismes d’attention des Transformers pour la capture des dépendances locales. La complexité de traitement des longues séquences tombe bien en dessous de celle d’un Transformer pur, autorisant une fenêtre de contexte native d’un million de tokens. Concrètement, un agent qui enchaîne des dizaines d’étapes sur des tickets, documents et appels d’outils successifs bénéficie d’une mémorisation longue sans dégradation.

La génération multi-token constitue un autre avantage majeur : elle accélère la production de texte long jusqu’à trois fois. Associée à la fenêtre étendue, cette capacité rend Nemotron 3 Super particulièrement adapté aux workflows d’entreprise où l’historique des interactions peut couvrir des pages entières.

Performance record sur EnterpriseOps-Gym : les scores détaillés

EnterpriseOps-Gym, développé par ServiceNow AI Research, évalue les agents sur 1150 tâches réparties dans huit domaines : tickets, emails, orchestration hybride, CSM, ITSM, Drive, TEAMS, Email et Hybrid. Chaque tâche se déroule dans un environnement interactif avec 512 outils fonctionnels, où chaque action modifie définitivement la base de données partagée. La difficulté croît jusqu’à 34 étapes par séquence.

Nemotron 3 Super totalise une moyenne de 27,3 points, le plaçant en première position. Il devance Kimi-K2.5 (deuxième), DeepSeek v3.2 (troisième) et GPT-OSS-120B (cinquième). Plus précisément, le modèle mène sur les workflows TEAMS, Email et Hybrid, tout en restant compétitif sur CSM, ITSM et Drive. Cette polyvalence montre que l’architecture hybride ne sacrifie aucun domaine particulier.

Des tests comparatifs supplémentaires confirment que Nemotron 3 Super obtient des scores équivalents ou supérieurs à GPT-OSS-120B et Qwen3.5-122B, avec un débit jusqu’à 2,2 fois et 7,5 fois plus élevé selon les configurations. Le pré-entraînement sur 25 000 milliards de tokens, suivi d’un apprentissage par renforcement sur 21 environnements avec 1,2 million de rollouts, a forgé un modèle robuste face à la diversité des scénarios d’entreprise.

Transparence et ouverture : un modèle open source auditable

Contrairement aux modèles fermés d’OpenAI ou d’Anthropic, NVIDIA publie les poids complets de Nemotron 3 Super, plus de 10 000 milliards de tokens de données d’entraînement et les recettes complètes de l’apprentissage. Ce niveau de transparence est inédit dans le secteur, y compris en comparaison avec Meta, qui a pourtant ouvert ses modèles Llama mais sans divulguer autant de détails sur les recettes d’entraînement. Toute organisation peut donc télécharger, modifier et héberger le modèle sur sa propre infrastructure, sans dépendre d’un fournisseur cloud propriétaire.

Cette ouverture offre une base solide, auditable et personnalisable. Les équipes peuvent inspecter les poids, vérifier l’absence de biais indésirables, adapter le modèle à des domaines métier spécifiques ou le ré-entraîner sur des données internes. Pour les DSI soucieux de souveraineté des données et de conformité (RGPD, HIPAA), c’est un avantage décisif. NVIDIA diffuse gratuitement ce modèle de haute qualité, renforçant ainsi son écosystème matériel : les poids sont optimisés nativement pour les GPU NVIDIA, l’entraînement a été réalisé via NeMo et le déploiement est facilité par NIM. L’argument commercial est clair : offrir un modèle compétitif en open source pour stimuler l’adoption des accélérateurs Santa Clara.

Déploiement et coûts : une alternative économique aux modèles propriétaires

En production, une instance complète de Nemotron 3 Super en précision FP16 nécessite au minimum deux GPU A100 80 Go ou un H100 SXM. NVIDIA annonce un coût d’inférence d’environ 0,10 dollar par million de tokens en entrée et 0,40 dollar en sortie. Ces tarifs sont nettement inférieurs à ceux des modèles propriétaires comparables (par exemple, GPT-4 ou Claude 3 facturent souvent plusieurs dollars par million de tokens). Pour les entreprises traitant des volumes importants de conversations, tickets ou emails, l’économie est substantielle.

Le modèle est prêt à la production pour les DSI qui souhaitent garder leurs données sur leur propre infrastructure, avec une licence ouverte et des recettes d’entraînement publiées. Toutefois, les performances réelles dépendent du déploiement spécifique : latence réseau, configuration des GPU, qualité des données d’inférence, contraintes de sécurité propres à chaque organisation. L’optimisation fine via NeMo et NIM permet d’adapter le modèle à des besoins particuliers, mais nécessite une compétence technique interne.

À retenir

Nemotron 3 Super est le premier modèle open source à dépasser des concurrents fermés sur un benchmark d’entreprise complexe, grâce à une architecture n’activant que 10 % de ses paramètres à chaque inférence.
Sa fenêtre de contexte d’un million de tokens et sa génération multi-token accélèrent les workflows longs de 2 à 7,5 fois par rapport aux modèles denses équivalents.
La publication intégrale des poids, données et recettes d’entraînement constitue un standard de transparence rare, permettant un déploiement souverain et personnalisé sur infrastructure propre.

Questions fréquentes

Qu’est-ce que l’architecture hybride Mamba-Transformer de Nemotron 3 Super ?

Elle combine les réseaux à espace d’état (Mamba) pour le traitement efficace de très longues séquences avec les mécanismes d’attention des Transformers pour la capture des dépendances contextuelles locales. Cette hybridation réduit la complexité computationnelle des longues séquences, autorisant une fenêtre de 1 million de tokens sans dégradation, tout en maintenant la qualité des réponses sur des tâches précises.

Comment Nemotron 3 Super se compare-t-il à DeepSeek v3.2 ?

Sur le benchmark EnterpriseOps-Gym, Nemotron 3 Super obtient une moyenne de 27,3 points contre DeepSeek v3.2 en troisième position (score non précisé dans l’article original, mais inférieur). En termes de vitesse, Nemotron 3 Super peut être jusqu’à 2,2 fois plus rapide que DeepSeek v3.2 dans certaines configurations, tout en étant entièrement open source, contrairement à DeepSeek qui reste partiellement fermé.

Quels sont les prérequis matériels pour déployer Nemotron 3 Super ?

Une instance en FP16 nécessite au minimum deux GPU NVIDIA A100 80 Go ou un H100 SXM. Pour une utilisation à moindre coût, des versions quantifiées (par exemple en FP8 ou INT4) pourraient être développées, mais aucune information n’est fournie dans la source. Le déploiement est facilité par les conteneurs NIM et l’outil NeMo.

Conclusion

NVIDIA Nemotron 3 Super marque une étape importante dans la démocratisation des LLM de pointe pour les entreprises. En associant une efficacité computationnelle remarquable – 12 milliards de paramètres actifs sur 120 – à une ouverture totale, il offre une alternative crédible aux modèles fermés. Son architecture hybride Mamba-Transformer résout le problème de la fenêtre de contexte limitée, et ses performances sur EnterpriseOps-Gym prouvent sa pertinence pour des workflows d’entreprise complexes. Le coût d’inférence réduit et la transparence des données d’entraînement renforcent la proposition de valeur pour les DSI soucieux de maîtrise des coûts et de souveraineté. Reste à évaluer, dans des déploiements réels, la robustesse face à des données métier spécifiques et la capacité à s’intégrer dans des architectures existantes. Mais la direction est claire : un LLM performant, ouvert et économique n’est plus un vœu, mais une réalité disponible.