Les sites web sont de plus en plus nombreux à interdire OpenAI d'aspirer leurs contenus

D'après une étude de la société Originality.ai, le crawler d'OpenAI qui passe au crible les contenus en ligne du monde entier afin d'entraîner son grand modèle de langage GPT est bloqué par de plus en plus de sites Internet.

Partager
Les sites web sont de plus en plus nombreux à interdire OpenAI d'aspirer leurs contenus

Et si la montée en puissance du grand modèle de langage (LLM) d'OpenAI tenait au nombre de pages web que ses robots de collecte (crawlers en anglais) peuvent scanner ? La société américaine, qui a en quelque sorte initié un mouvement d'euphorie générale autour de l'intelligence artificielle générative, voit aujourd'hui de plus en plus d'éditeurs de sites Internet refuser qu'elle aspire automatiquement leurs contenus afin d'entraîner son robot conversationnel ChatGPT.

D'après une étude menée par la société Originality.ai sur les 1000 sites Internet les plus visités au monde, le crawler d'OpenAI était bloqué par environ 12% de ces domaines, le 29 août. Une proportion en croissance, puisqu'elle était de 9,1% une semaine plus tôt. Cités par le média américain Axios, les résultats de cette analyse montrent qu'Amazon, Quora et Indeed font partie des sites les plus importants à avoir pris une telle mesure.

La presse se hâte

Face à la fronde de plusieurs entreprises, OpenAI avait été contraint, le 7 août dernier, d'indiquer sur sa plateforme la marche à suivre pour bloquer son principal crawler GPTBot. "Permettre à GPTBot d'accéder à votre site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité", écrivait alors la société de Sam Altman dans l'espoir de ne pas trop inciter les détenteurs de sites à modifier leurs codes source. En plus de grands noms du web comme WikiHow, Shutterstock, Tumblr, de nombreux organismes de presse ont sauté sur l'occasion.

Alors que certains d'entre eux pestaient contre la facilité avec laquelle les fers de lance de l'intelligence artificielle pouvaient entraîner grâce à leurs contenus des technologies qui s'avèrent être parfois des concurrents directs à leurs modèles d'affaires, ils les ont donc bannis. Le premier à le faire a été l'agence de presse britannique Reuters, le lendemain de l'annonce d'OpenAI. Lui ont par la suite emboîté le pas le New York Times, CNN, le Washington Post et bien d'autres encore. En France, les sites du groupe Radio France, de MyTF1 et TF1Info, de France Médias Monde ainsi que le portail Actu.fr ont également procédé au blocage de GPTBot.

Originality.ai précise que les 1000 sites les plus populaires n'empêchent pas les autres sociétés d'intelligence artificielle d'envoyer des robots de collecte pour aspirer leurs contenus. Les auteurs de l'étude relèvent notamment qu'aucun des domaines analysés ne refoule le crawler d'Anthropic. Un détail qui illustre bien la position de leader de la start-up OpenAI, laquelle concentre bon gré mal gré une majeure partie de l'attention accordée à l'IA générative.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

ARTICLES LES PLUS LUS