IA : 35 % des nouveaux sites web créés par IA en 2025

Résumé exécutif

À la mi-2025, environ 35 % des sites web nouvellement créés sont générés ou assistés par intelligence artificielle, contre zéro avant le lancement de ChatGPT fin 2022.
L’étude a été menée par des chercheurs de l’Université Stanford et de l’Imperial College de Londres.
L’IA a façonné une part majeure d’Internet en seulement trois ans, une transformation sans précédent.
Les chercheurs n’ont pas constaté d’augmentation des déclarations manifestement fausses sur ces nouveaux sites.
En revanche, le volume d’affirmations invérifiables (non contrôlables avec les outils existants) pourrait avoir augmenté discrètement.
Internet n’a jamais été un espace particulièrement attaché à la vérité, ce qui relativise l’impact de l’IA sur la désinformation.
La prolifération des contenus IA pose des défis pour la vérification des faits, la qualité de l’information et la confiance en ligne.

Introduction

L’essor fulgurant de l’intelligence artificielle générative a bouleversé de nombreux secteurs, et le web n’a pas échappé à cette onde de choc. Depuis la publication de ChatGPT en novembre 2022, la capacité à produire des textes, des images et des pages entières sans intervention humaine s’est démocratisée. Cette facilité de création soulève une question centrale : dans quelle mesure le paysage numérique est-il désormais façonné par l’IA ? Et surtout, quelles en sont les conséquences sur la fiabilité de l’information en ligne ?

Une étude récente, intitulée « l’impact des textes générés par l’IA sur Internet », apporte des premiers éléments de réponse chiffrés. Menée par une équipe de Stanford et de l’Imperial College de Londres, elle analyse la part des sites web créés avec l’aide de l’IA et examine si cette explosion s’accompagne d’une hausse de la désinformation. Les résultats, publiés en avril 2026, dessinent un tableau nuancé : une transformation rapide du web, mais pas encore une pollution massive par le mensonge – du moins pas comme on pourrait le craindre.

Une adoption massive et rapide de l’IA dans la création de sites

L’étude révèle que la croissance des sites générés par IA a été exponentielle. Avant 2023, cette catégorie était quasiment inexistante. En l’espace de deux ans et demi, elle représente désormais plus d’un tiers des nouvelles créations. Les chercheurs ont classé un site comme « généré par IA » ou « assisté par IA » en utilisant des méthodes de détection automatique, croisées avec des analyses manuelles. Ce seuil de 35 % n’est pas anecdotique : il témoigne d’un changement structurel dans la production de contenu en ligne.

Plusieurs facteurs expliquent cette adoption rapide. D’abord, la baisse des coûts : générer un texte de plusieurs centaines de mots avec un modèle comme GPT-4 ou Claude coûte aujourd’hui quelques centimes. Ensuite, la simplicité d’utilisation : des outils comme Wix ADI, Jasper ou des plugins WordPress permettent de créer un site complet en quelques clics, sans compétence technique. Enfin, les incitations économiques : le marketing de contenu, le référencement et les sites d’affiliation ont tout à gagner à produire des volumes importants de pages, même de qualité médiocre.

L’étude précise que la proportion varie selon les secteurs. Les sites d’actualités généralistes, les blogs de niche et les pages de produits sont les plus touchés. À l’inverse, les sites institutionnels, juridiques ou médicaux restent majoritairement rédigés par des humains, même si l’IA commence à y être utilisée pour des tâches auxiliaires (résumés, traductions).

L’IA n’a pas encore transformé le web en espace de mensonges

L’une des craintes les plus répandues est que l’IA générative inonde Internet de fausses informations, rendant la vérité indiscernable. L’étude a spécifiquement recherché une augmentation des « déclarations manifestement fausses » – c’est-à-dire des affirmations factuelles contredites par des sources vérifiables. Résultat : aucune hausse significative n’a été observée. Les chercheurs précisent que leur méthode de détection des faussetés est robuste, mais limitée aux cas les plus évidents.

Comment expliquer cette absence de hausse ? Plusieurs hypothèses sont avancées. D’une part, les modèles de langage sont entraînés sur des données majoritairement factuelles et évitent, par construction, les affirmations trop absurdes (sauf en cas de « hallucination »). D’autre part, les créateurs de sites IA visent souvent un objectif marketing ou commercial, où la crédibilité est un atout : ils évitent donc les mensonges trop flagrants qui nuiraient à leur image ou à leur référencement.

Cependant, le co-auteur Jonáš Doležal nuance : « Il se pourrait que l’IA augmente discrètement le volume des affirmations invérifiables, celles qui ne peuvent être contrôlées à l’aide des outils et des infrastructures de vérification des faits existants. » En d’autres termes, le problème ne serait pas tant le mensonge que l’opacité : des informations qui ne sont ni vraies ni fausses, mais impossibles à confirmer ou infirmer. Par exemple, des témoignages anonymes, des prédictions floues, des opinions présentées comme des faits.

La vérification des faits face à un volume inédit de contenu

L’explosion du nombre de pages web générées par IA pose un défi logistique aux organisations de fact-checking. Les vérificateurs humains, déjà en sous-effectif, ne peuvent pas traiter des millions de nouvelles pages chaque jour. Les outils automatisés de détection de désinformation (comme ClaimBuster ou les modèles de classification) sont eux-mêmes entraînés sur des jeux de données limités et peinent à suivre l’évolution rapide des techniques de génération.

Une conséquence pratique : les sites IA peuvent propager des affirmations non vérifiées sans être détectés, simplement parce qu’aucune structure n’a le temps ou les ressources pour les contrôler. Cela crée un espace d’incertitude où le lecteur ne peut plus distinguer un contenu produit par un humain d’un contenu généré automatiquement. La confiance dans l’information en ligne s’en trouve fragilisée, même si l’intention de tromper n’est pas toujours présente.

Une autre dimension est celle de la réutilisation. Un site IA peut puiser dans le contenu d’autres sites IA, créant des boucles de redondance où l’information se dégrade progressivement. Ce phénomène, parfois appelé « cannibalisation de contenu », réduit la diversité des sources et peut amplifier les biais initiaux.

Internet n’a jamais été un temple de la vérité

La remarque cynique de Jonáš Doležal – « Internet n’a jamais été, au départ, un espace particulièrement attaché à la vérité » – mérite d’être développée. Avant l’IA, le web était déjà saturé de rumeurs, de théories du complot, de publicités trompeuses et de désinformation délibérée. Les réseaux sociaux, les forums et les sites d’hébergement de vidéos ont amplifié ce phénomène bien avant l’arrivée de ChatGPT.

Dans cette perspective, l’IA ne crée pas un problème entièrement nouveau ; elle accélère et mécanise des pratiques existantes. Les trolls et les spammeurs manuels sont remplacés par des bots capables de générer des milliers de messages par jour. La nouveauté réside dans la scalabilité : ce qui était autrefois une nuisance limitée devient un raz-de-marée.

Cette observation relativise l’impact direct de l’IA sur la désinformation, mais elle ne le minimise pas. Elle déplace plutôt l’attention vers la qualité de l’écosystème informationnel dans son ensemble. Si Internet était déjà fragilisé, l’IA pourrait aggraver des tendances préexistantes plutôt que d’en créer de toutes pièces.

À retenir

35 % des nouveaux sites web mi-2025 sont créés avec l’IA – une proportion qui continue de croître.
L’IA n’a pas augmenté le nombre de fausses déclarations flagrantes, mais elle accroît le volume d’affirmations invérifiables.
La vérification des faits est dépassée par la vitesse et le volume du contenu généré.
Internet n’était pas un espace de vérité avant l’IA ; celle-ci amplifie des problèmes structurels.
Les créateurs de sites IA privilégient souvent la crédibilité commerciale, ce qui limite les mensonges grossiers.
Les boucles de contenu entre sites IA peuvent dégrader la qualité et la diversité de l’information.
La transparence sur l’origine des contenus (étiquetage IA) devient un enjeu crucial pour la confiance.

Questions fréquentes

Quel pourcentage de sites web sont générés par IA en 2025 ?

L’étude de Stanford et Imperial College estime qu’à la mi-2025, 35 % des sites nouvellement créés sont générés ou assistés par IA. Cela ne concerne que les nouvelles créations, pas l’ensemble du web.

L’IA génère-t-elle plus de fausses informations ?

Non, l’étude n’a pas trouvé d’augmentation des déclarations manifestement fausses. En revanche, le nombre d’affirmations impossibles à vérifier (invérifiables) a probablement augmenté.

Comment les chercheurs ont-ils détecté les sites IA ?

Ils ont utilisé une combinaison d’outils automatiques (analyse stylométrique, détection de patterns propres aux modèles de langage) et de vérifications manuelles sur un échantillon.

Quels types de sites sont les plus touchés par l’IA ?

Les sites d’actualités légères, les blogs de niche, les pages de produits et les sites d’affiliation. Les sites institutionnels et médicaux restent majoritairement humains, bien que l’IA y soit utilisée ponctuellement.

Que faire pour éviter la désinformation liée à l’IA ?

Développer des outils de détection plus performants, promouvoir l’étiquetage obligatoire des contenus générés par IA, et renforcer l’éducation aux médias des internautes.

Conclusion

L’étude de Stanford et Imperial College confirme une transformation accélérée du web : en trois ans, un tiers des nouveaux sites sont désormais le fruit de l’IA. Si les craintes d’une explosion de la désinformation ne se vérifient pas encore, le problème se déplace vers l’invérifiable et l’opacité. Les outils de vérification des faits, déjà sous pression, doivent s’adapter à ce nouveau régime de production de contenu. L’IA n’a pas tué la vérité sur Internet, mais elle brouille les frontières entre l’humain et l’automatique, rendant plus nécessaire que jamais une transparence accrue et une éducation critique des utilisateurs.