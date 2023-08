Et si la montée en puissance du grand modèle de langage (LLM) d'OpenAI tenait au nombre de pages web que ses robots de collecte (crawlers en anglais) peuvent scanner ? La société américaine, qui a en quelque sorte initié un mouvement d'euphorie générale autour de l'intelligence artificielle générative, voit aujourd'hui de plus en plus d'éditeurs de sites Internet refuser qu'elle aspire automatiquement leurs contenus afin d'entraîner son robot conversationnel ChatGPT.



D'après une étude menée par la société Originality.ai sur les 1000 sites Internet les plus visités au monde, le crawler d'OpenAI était bloqué par environ 12% de ces domaines, le 29 août. Une proportion en croissance, puisqu'elle était de 9,1% une semaine plus tôt. Cités par le média américain Axios, les résultats de cette analyse montrent qu'Amazon, Quora et Indeed font partie des sites les plus importants à avoir pris une telle mesure.

La presse se hâte

Face à la fronde de plusieurs entreprises, OpenAI avait été contraint, le 7 août dernier, d'indiquer sur sa plateforme la marche à suivre pour bloquer son principal crawler GPTBot. "Permettre à GPTBot d'accéder à votre site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité", écrivait alors la société de Sam Altman dans l'espoir de ne pas trop inciter les détenteurs de sites à modifier leurs codes source. En plus de grands noms du web comme WikiHow, Shutterstock, Tumblr, de nombreux organismes de presse ont sauté sur l'occasion.



Alors que certains d'entre eux pestaient contre la facilité avec laquelle les fers de lance de l'intelligence artificielle pouvaient entraîner grâce à leurs contenus des technologies qui s'avèrent être parfois des concurrents directs à leurs modèles d'affaires, ils les ont donc bannis. Le premier à le faire a été l'agence de presse britannique Reuters, le lendemain de l'annonce d'OpenAI. Lui ont par la suite emboîté le pas le New York Times, CNN, le Washington Post et bien d'autres encore. En France, les sites du groupe Radio France, de MyTF1 et TF1Info, de France Médias Monde ainsi que le portail Actu.fr ont également procédé au blocage de GPTBot.



Originality.ai précise que les 1000 sites les plus populaires n'empêchent pas les autres sociétés d'intelligence artificielle d'envoyer des robots de collecte pour aspirer leurs contenus. Les auteurs de l'étude relèvent notamment qu'aucun des domaines analysés ne refoule le crawler d'Anthropic. Un détail qui illustre bien la position de leader de la start-up OpenAI, laquelle concentre bon gré mal gré une majeure partie de l'attention accordée à l'IA générative.