Cybersécurité

Internet

Start-up

Perplexity AI accusé de contourner les blocages de sites web afin de collecter leurs données

Cloudflare assure que la start-up, connue pour son moteur de recherche IA, a utilisé des robots d'indexation – ou crawlers – ignorant les procédures de blocage mises en place par les sites web dans la collecte de données. Le tout, en se faisant passer pour un navigateur classique et en utilisant des adresses IP non répertoriées. Perplexity dénonce de son côté un “baratin commercial”.

Yoann Bourgin

05 août 2025 \ 18h30

2 min. de lecture

Réagir

Mon actualité personnalisable

Profitez à tout moment des informations clés selon vos intérêts.

Sélectionnez les thèmes qui vous intéressent :

Gérer mes thèmes favoris

2 min. de lecture

Réagir

Yoann Bourgin

05 août 2025 \ 18h30

Perplexity AI accusé de contourner les blocages de sites web afin de collecter leurs données

Perplexity est dans de beaux draps. La start-up américaine d'IA générative derrière le moteur de recherche du même nom est accusée par Cloudflare d'avoir mis au point des robots d'indexation (aussi appelés crawlers) furtifs. Elle estime que les robots ont collecté les contenus de sites web ayant explicitement mis en place des mesures de protection contre ces outils d'IA.

De manière générale, pour éviter que les crawlers ne collectent librement des données, les éditeurs de sites web peuvent utiliser un fichier robots.txt. Ce dernier va indiquer aux moteurs de recherche et aux sociétés d'IA générative les pages qui peuvent être indexées ou non. Ils peuvent aussi mettre en place des règles de pare-feu d'applications web (WAF).

Imitation de navigateur Chrome et système de rotation d'adresses IP

Cloudflare explique que Perplexity a tout d'abord contourné ces blocages en utilisant un user-agent, qui identifie un visiteur par le type d'appareil. “Nous avons constaté que Perplexity utilise non seulement son user-agent déclaré, mais également un navigateur générique destiné à imiter Google Chrome sur MacOS lorsque son robot d'indexation déclaré était bloqué”, affirme l'hébergeur américain.

Schéma scraping de données Cloudflare Perplexity

La start-up d'IA générative aurait également mis en place un système de rotation d'adresses IP pour éviter d'être repérée. Cloudflare a aussi observé des requêtes provenant de différents ASN, soit des identifiants attribués à un réseau ou à un groupe de réseaux. “Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour, poursuit Cloudflare. Nous avons pu identifier ce robot d'exploration grâce à une combinaison de machine learning et de signaux réseau.” Dans certains cas, les crawlers ont même ignoré entièrement les fichiers robots.txt.

Une défense qui laisse perplexe

Perplexity explique dans un communiqué que son système est activé uniquement par l'utilisateur. “Lorsque Perplexity récupère une page web, c'est parce que vous avez posé une question spécifique nécessitant des informations actualisées, soutient la start-up. Le contenu n'est pas stocké pour l'entraînement ; il est utilisé immédiatement pour répondre à votre question.” Elle affirme que Cloudflare “a réussi à se tromper sur presque tout le fonctionnement réel des assistants IA modernes” et que l'hébergeur “avait besoin d'un moment publicitaire”.

Un argument qui peine à convaincre, d'autant que Perplexity a déjà été mêlé à des affaires de scraping sans autorisation. Plusieurs médias américains, tels que Forbes et Wired, avaient accusé l'année dernière la start-up de plagier des articles ou d'extraire du contenu.

Ce rapport intervient un mois après l'annonce par Cloudflare du blocage par défaut de l'accès des sites de ses clients au crawlers d'IA générative. L'hébergeur américain travaille également sur une fonctionnalité intitulée “Pay per Crawl”, qui permettra aux éditeurs de sites web de choisir les robots accéder à leurs contenus en échange de paiements.

Sélectionné pour vous

Data centers, nouveau LLM Qwen 3-Max… Alibaba multiplie les annonces en matière d’IA

Sujets associés

Cybersécurité Internet Start-up Moteurs de recherche Collecte de données Etats-Unis

Perplexity AI accusé de contourner les blocages de sites web afin de collecter leurs données

Mon actualité personnalisable

Imitation de navigateur Chrome et système de rotation d'adresses IP

Une défense qui laisse perplexe

Data centers, nouveau LLM Qwen 3-Max… Alibaba multiplie les annonces en matière d’IA

La contre-offensive de Meta face aux réglementations sur l'intelligence artificielle

Les agences gouvernementales américaines vont utiliser les modèles Llama de Meta

SUR LE MÊME SUJET

Sujets associés

ARTICLES LES PLUS LUS