Perplexity AI accusé de contourner les blocages de sites web afin de collecter leurs données
Cloudflare assure que la start-up, connue pour son moteur de recherche IA, a utilisé des robots d'indexation – ou crawlers – ignorant les procédures de blocage mises en place par les sites web dans la collecte de données. Le tout, en se faisant passer pour un navigateur classique et en utilisant des adresses IP non répertoriées. Perplexity dénonce de son côté un “baratin commercial”.
Perplexity est dans de beaux draps. La start-up américaine d'IA générative derrière le moteur de recherche du même nom est accusée par Cloudflare d'avoir mis au point des robots d'indexation (aussi appelés crawlers) furtifs. Elle estime que les robots ont collecté les contenus de sites web ayant explicitement mis en place des mesures de protection contre ces outils d'IA.
De manière générale, pour éviter que les crawlers ne collectent librement des données, les éditeurs de sites web peuvent utiliser un fichier robots.txt. Ce dernier va indiquer aux moteurs de recherche et aux sociétés d'IA générative les pages qui peuvent être indexées ou non. Ils peuvent aussi mettre en place des règles de pare-feu d'applications web (WAF).
Imitation de navigateur Chrome et système de rotation d'adresses IP
Cloudflare explique que Perplexity a tout d'abord contourné ces blocages en utilisant un user-agent, qui identifie un visiteur par le type d'appareil. “Nous avons constaté que Perplexity utilise non seulement son user-agent déclaré, mais également un navigateur générique destiné à imiter Google Chrome sur MacOS lorsque son robot d'indexation déclaré était bloqué”, affirme l'hébergeur américain.
La start-up d'IA générative aurait également mis en place un système de rotation d'adresses IP pour éviter d'être repérée. Cloudflare a aussi observé des requêtes provenant de différents ASN, soit des identifiants attribués à un réseau ou à un groupe de réseaux. “Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour, poursuit Cloudflare. Nous avons pu identifier ce robot d'exploration grâce à une combinaison de machine learning et de signaux réseau.” Dans certains cas, les crawlers ont même ignoré entièrement les fichiers robots.txt.
Une défense qui laisse perplexe
Perplexity explique dans un communiqué que son système est activé uniquement par l'utilisateur. “Lorsque Perplexity récupère une page web, c'est parce que vous avez posé une question spécifique nécessitant des informations actualisées, soutient la start-up. Le contenu n'est pas stocké pour l'entraînement ; il est utilisé immédiatement pour répondre à votre question.” Elle affirme que Cloudflare “a réussi à se tromper sur presque tout le fonctionnement réel des assistants IA modernes” et que l'hébergeur “avait besoin d'un moment publicitaire”.
Un argument qui peine à convaincre, d'autant que Perplexity a déjà été mêlé à des affaires de scraping sans autorisation. Plusieurs médias américains, tels que Forbes et Wired, avaient accusé l'année dernière la start-up de plagier des articles ou d'extraire du contenu.
Ce rapport intervient un mois après l'annonce par Cloudflare du blocage par défaut de l'accès des sites de ses clients au crawlers d'IA générative. L'hébergeur américain travaille également sur une fonctionnalité intitulée “Pay per Crawl”, qui permettra aux éditeurs de sites web de choisir les robots accéder à leurs contenus en échange de paiements.
SUR LE MÊME SUJET
Perplexity AI accusé de contourner les blocages de sites web afin de collecter leurs données
Tous les champs sont obligatoires
0Commentaire
Réagir