Super Mario devient le nouveau test de référence pour l’Intelligence Artificielle
Vous pensiez que Pokémon était un défi complexe pour l’IA ? Selon des chercheurs, Super Mario Bros représente un niveau de difficulté encore plus élevé. Une équipe du laboratoire Hao AI de l’Université de Californie San Diego vient de mettre différents modèles d’IA à l’épreuve sur ce jeu culte, avec des résultats surprenants. Plongée dans cette expérience où notre plombier moustachu met l’IA au défi.
Les modèles d’IA face au défi Mario
Le laboratoire Hao AI a récemment testé plusieurs modèles d’IA de premier plan sur Super Mario Bros. Claude 3.7 d’Anthropic est sorti vainqueur, suivi de près par Claude 3.5. Les modèles Gemini 1.5 Pro de Google et GPT-4o d’OpenAI ont quant à eux montré plus de difficultés.
Une version adaptée pour l’expérience
L’équipe a utilisé une version émulée du jeu, intégrée à un framework baptisé GamingAgent. Ce système permet aux IA de contrôler Mario via des instructions basiques comme « Si un obstacle ou un ennemi est proche, sauter/se déplacer à gauche pour l’éviter ».
Pourquoi Mario est un benchmark pertinent
- Réactivité en temps réel requise
- Planification stratégique nécessaire
- Combinaison de réflexes et de stratégie
Les défis spécifiques pour l’IA
Les chercheurs ont découvert que les modèles de « raisonnement », comme o1 d’OpenAI, performaient moins bien que les modèles « non-raisonnants », malgré leur supériorité théorique. La raison ? Le temps de réflexion trop long – quelques secondes peuvent être fatales dans Super Mario Bros.
Les jeux vidéo comme tests d’IA : pertinent ou non ?
Si les jeux servent depuis longtemps à évaluer l’IA, certains experts remettent en question cette approche. Contrairement au monde réel, les jeux offrent un environnement simplifié et une quantité illimitée de données d’entraînement.
La crise de l’évaluation de l’IA
Comme le souligne Andrej Karpathy, ancien chercheur chez OpenAI : « Je ne sais pas vraiment quelles métriques observer actuellement. En résumé, je ne sais pas réellement à quel point ces modèles sont performants. »
FAQ
Pourquoi utiliser Super Mario Bros comme benchmark ?
Le jeu combine des défis de réactivité en temps réel et de planification stratégique, ce qui en fait un test intéressant pour évaluer différentes capacités des IA.
Quels modèles d’IA ont le mieux performé ?
Claude 3.7 d’Anthropic s’est montré le plus performant, suivi par Claude 3.5. Les modèles de Google et OpenAI ont rencontré plus de difficultés.
Conclusion
Bien que l’utilisation de Super Mario Bros comme benchmark d’IA soulève des questions intéressantes, elle met en lumière les défis actuels de l’évaluation des modèles d’IA. Une chose est sûre : regarder des IA tenter de maîtriser ce classique du jeu vidéo nous rappelle que même les systèmes les plus sophistiqués peuvent trébucher sur des obstacles apparemment simples.



