Chatbot Arena : Les pratiques de test profitent à Amazon, Google et Meta

La politique tacite de LMArena - connu pour ses évaluations de modèles d'IA - en matière de tests et de rétractation fait tiquer plus d'un. Conscients de certains problèmes systémiques, des chercheurs de Cohere Labs ont travaillé avec plusieurs universités pour mettre en lumière ces biais et proposer certaines recommandations. Objectif : rendre à la plateforme sa neutralité, donner plus de poids aux modèles open source et casser le système d'oligopole qui profite aux géants de la tech.

Partager
Chatbot Arena : Les pratiques de test profitent à Amazon, Google et Meta
Le benchmark d'évaluation de modèles d'IA Chatbot Arena.

"LMArena est devenue la norme de facto pour évaluer les modèles d'IA générative, mais mesure-t-elle les véritables progrès ?". C'est le constat fait par Shivalika Singh, ingénieure de recherche en sciences ouvertes au sein de Cohere Labs, organisation à but non-lucratif américaine. Cette dernière a travaillé de concert avec d'autres membres de Cohere Labs, mais aussi avec des chercheurs de l'université de Princeton, de l'université de Stanford, de l'université de Waterloo, du MIT, de l'Allen Institute for Artificial Intelligence et de l'université de Washington. Conscients de problèmes systémiques qui compromettent la fiabilité du fameux classement LMArena, ces derniers ont donc publié une étude exhaustive à ce sujet et proposent des recommandations pour améliorer sa rigueur.

Jusqu'à 27 tests privés effectués sur Llama 4

Dans leur étude, les chercheurs pointent ainsi du doigt les problèmes de transparence et d'équité dans le classement des modèles d'IA sur Chatbot Arena. La première pratique relevée concerne les tests privés et de divulgation sélective des résultats. Ces pratiques de test permettent à certains fournisseurs de tester plusieurs variantes avant la publication : Meta a par exemple testé jusqu'à 27 variantes privées avant le lancement de Llama-4.

En outre, les scores peuvent être rétractés, ce qui fausse les classements. Les modèles propriétaires sont par ailleurs favorisés : ils reçoivent plus de données et de tests que les modèles open source. In fine, ces dynamiques biaisent les scores et favorisent certains fournisseurs au détriment d'autres.

Une asymétrie d'accès aux données

Autre problème soulevé par les chercheurs : l'accès inégal aux données sur Chatbot Arena. Cela crée des disparités significatives entre les fournisseurs de modèles et entraîne des avantages considérables, encore une fois, pour les modèles propriétaires. Par exemple, Google et OpenAI ont reçu respectivement 19,2% et 20,4% de toutes les données de test tandis que 41 modèles open source combinés n'ont reçu que 8,8% des données totales.

Cet accès aux données de Chatbot Arena a un impact direct sur les performances des modèles, favorisant avant tout ceux qui ont un accès privilégié. De fait, l'augmentation de l'accès aux données peut améliorer les taux de victoire jusqu'à 112%. Les chercheurs affirment que les modèles ayant accès à 70% des données d'Arena ont vu leur taux de victoire passer de 23,5% à 49,9%.

Une dépréciation des modèles open source

"Déprécier silencieusement sans avertir les fournisseurs est une pratique courante sur l'Arena. Globalement, les modèles open weight et open source sont dépréciés plus souvent que les modèles propriétaires", accuse Shivalika Singh, ajoutant que "malgré les meilleures intentions, nous montrons que les politiques des arènes finissent par favoriser une poignée de grands fournisseurs et faussent systématiquement les classements !".

Ainsi, cette politique de dépréciation des modèles sur Chatbot Arena aurait touché 205 modèles "en secret", contre seulement 47 officiellement. Chiffre clé : 66% des modèles dépréciés sont open weight ou open source, ce qui participe de fait à créer des inégalités.

LMArena peut (et doit) vite procéder à des changements

Les chercheurs se veulent toutefois optimistes et estiment que ces problèmes peuvent être résolus en suivant leurs recommandations. Cela inclut de divulguer l'ensemble des résultats des tests privés, de limiter les variantes de modèles pour les tests, d'appliquer les dépréciations de manière égale, d'être transparent sur celles-ci ou encore de mettre en œuvre un échantillonnage équitable.

Il est évident qu'une politique de test non divulguée permet aux fournisseurs privilégiés de biaiser les résultats. Les données montrent qu'Amazon, Google et Meta ont bénéficié de cette politique. Par ailleurs, les simulations ont montré qu'un test de seulement 10 variantes peut augmenter le score maximum d'environ 100 points, participant à biaiser l'échantillonnage.

Et ils ne sont pas les seuls à avoir profité de ce système : les start-up OpenAI et Anthropic, aux côtés des entreprises Google et Meta, représentent à elles quatre 62,8% des données du Chatbot Arena. Rappelons, à toute fin utile, que l'incorporation de données du Chatbot Arena peut améliorer les performances de 112% sur des tâches spécifiques.

Une image ternie alors que la plateforme tente de se réinventer

L'étude a été réalisée sur une période allant de janvier 2024 à avril 2025 et publiée ce 29 avril. Hasard du calendrier ou non, LMArena avait fait part récemment de son intention de changer quelque peu les choses avec l'ambition de devenir une entreprise indépendante. Cette transition, annoncée par ses fondateurs, doit apporter davantage de ressources afin d'améliorer la plateforme et de maintenir une certaine objectivité quant aux évaluations.

Des fonctionnalités basées sur les retours de la communauté, telles que des connexions utilisateur, un historique des conversations et des classements personnalisés sont notamment au programme. Une version bêta de sa plateforme - mise au goût du jour - est d'ores et déjà disponible.

En procédant à un tel changement stratégique, la plateforme espère devenir plus neutre et s'éloigner de toute influence d'entreprises technologiques. Avec plus d'un million de visiteurs mensuels, elle offre en effet des classements basés sur les préférences des utilisateurs, et participe clairement à l'influence des perceptions de la qualité des modèles dans l'industrie de l'IA.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

CHERCHE TALENTS NUMERIQUE

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS