Perplexity AI accusé de contourner les blocages de sites web afin de collecter leurs données

Cloudflare assure que la start-up, connue pour son moteur de recherche IA, a utilisé des robots d'indexation – ou crawlers – ignorant les procédures de blocage mises en place par les sites web dans la collecte de données. Le tout, en se faisant passer pour un navigateur classique et en utilisant des adresses IP non répertoriées. Perplexity dénonce de son côté un “baratin commercial”.

Partager
Perplexity AI accusé de contourner les blocages de sites web afin de collecter leurs données

Perplexity est dans de beaux draps. La start-up américaine d'IA générative derrière le moteur de recherche du même nom est accusée par Cloudflare d'avoir mis au point des robots d'indexation (aussi appelés crawlers) furtifs. Elle estime que les robots ont collecté les contenus de sites web ayant explicitement mis en place des mesures de protection contre ces outils d'IA.

De manière générale, pour éviter que les crawlers ne collectent librement des données, les éditeurs de sites web peuvent utiliser un fichier robots.txt. Ce dernier va indiquer aux moteurs de recherche et aux sociétés d'IA générative les pages qui peuvent être indexées ou non. Ils peuvent aussi mettre en place des règles de pare-feu d'applications web (WAF).

Imitation de navigateur Chrome et système de rotation d'adresses IP

Cloudflare explique que Perplexity a tout d'abord contourné ces blocages en utilisant un user-agent, qui identifie un visiteur par le type d'appareil. “Nous avons constaté que Perplexity utilise non seulement son user-agent déclaré, mais également un navigateur générique destiné à imiter Google Chrome sur MacOS lorsque son robot d'indexation déclaré était bloqué”, affirme l'hébergeur américain.

Schéma scraping de données Cloudflare Perplexity

La start-up d'IA générative aurait également mis en place un système de rotation d'adresses IP pour éviter d'être repérée. Cloudflare a aussi observé des requêtes provenant de différents ASN, soit des identifiants attribués à un réseau ou à un groupe de réseaux. “Cette activité a été observée sur des dizaines de milliers de domaines et des millions de requêtes par jour, poursuit Cloudflare. Nous avons pu identifier ce robot d'exploration grâce à une combinaison de machine learning et de signaux réseau.” Dans certains cas, les crawlers ont même ignoré entièrement les fichiers robots.txt.

Une défense qui laisse perplexe

Perplexity explique dans un communiqué que son système est activé uniquement par l'utilisateur. “Lorsque Perplexity récupère une page web, c'est parce que vous avez posé une question spécifique nécessitant des informations actualisées, soutient la start-up. Le contenu n'est pas stocké pour l'entraînement ; il est utilisé immédiatement pour répondre à votre question.” Elle affirme que Cloudflare “a réussi à se tromper sur presque tout le fonctionnement réel des assistants IA modernes” et que l'hébergeur “avait besoin d'un moment publicitaire”.

Un argument qui peine à convaincre, d'autant que Perplexity a déjà été mêlé à des affaires de scraping sans autorisation. Plusieurs médias américains, tels que Forbes et Wired, avaient accusé l'année dernière la start-up de plagier des articles ou d'extraire du contenu.

Ce rapport intervient un mois après l'annonce par Cloudflare du blocage par défaut de l'accès des sites de ses clients au crawlers d'IA générative. L'hébergeur américain travaille également sur une fonctionnalité intitulée “Pay per Crawl”, qui permettra aux éditeurs de sites web de choisir les robots accéder à leurs contenus en échange de paiements.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

CHERCHE TALENTS NUMERIQUE

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS