DeepSeek dans la tourmente : Le géant chinois accusé d’avoir copié l’IA de Google

DeepSeek dans la tourmente : Le géant chinois accusé d'avoir copié l'IA de Google

DeepSeek aurait utilisé Gemini de Google pour entraîner son dernier modèle d’IA

Une nouvelle controverse secoue le monde de l’intelligence artificielle : le laboratoire chinois DeepSeek est soupçonné d’avoir utilisé les données de Gemini, le modèle phare de Google, pour entraîner sa dernière version. Entre espionnage industriel et course à l’innovation, plongée dans les coulisses d’une bataille technologique qui ne fait que commencer.

Les indices qui pointent vers l’utilisation des données de Google

La semaine dernière, DeepSeek a dévoilé une mise à jour de son modèle R1, particulièrement performant en mathématiques et en programmation. Si l’entreprise est restée discrète sur l’origine des données d’entraînement, plusieurs experts en IA ont relevé des similitudes troublantes avec Gemini.

Des traces qui ne trompent pas

  • Le modèle utilise un vocabulaire très proche de celui de Gemini 2.5 Pro
  • Les « traces de raisonnement » ressemblent étrangement à celles du modèle de Google
  • Des schémas de réponse similaires ont été identifiés par plusieurs chercheurs

Un précédent avec ChatGPT

Ce n’est pas la première fois que DeepSeek est pointé du doigt. En décembre dernier, son modèle V3 s’identifiait régulièrement comme étant ChatGPT, laissant supposer un entraînement sur les données d’OpenAI. Microsoft a d’ailleurs détecté d’importantes extractions de données fin 2024.

La technique de la distillation

DeepSeek utiliserait la « distillation », une méthode permettant d’extraire les connaissances des grands modèles pour les transférer vers des modèles plus petits. Une pratique courante mais interdite par les conditions d’utilisation de la plupart des géants de l’IA.

La riposte des géants de l’IA

Face à ces pratiques, les entreprises renforcent leur sécurité :

  • OpenAI exige désormais une vérification d’identité pour accéder à ses modèles avancés
  • Google résume désormais les traces de ses modèles pour compliquer leur réutilisation
  • Anthropic a également adopté des mesures similaires

FAQ

La distillation est-elle illégale ?

Non, mais elle est généralement interdite par les conditions d’utilisation des fournisseurs d’IA.

Comment détecter l’utilisation non autorisée des données ?

Les experts analysent les patterns linguistiques et les comportements spécifiques des modèles.

Conclusion

Cette affaire DeepSeek illustre les défis éthiques et légaux de l’IA moderne. Entre protection de la propriété intellectuelle et course à l’innovation, l’industrie doit trouver un équilibre délicat. L’avenir nous dira si ces pratiques conduiront à une régulation plus stricte du secteur.

Scroll to Top