Développement

Innovation

Recherche

LMArena en mal d'honnêteté quant à ses méthodes d'évaluation de modèles d'IA

Alors que la plateforme d'évaluation de modèles d'IA a décidé de devenir une entreprise indépendante nommée LMArena, opérant sous la raison sociale Arena Intelligence, une étude parue il y a peu vient noircir le tableau et ses projets. L'étude "Leaderboard Illusion" signée par des chercheurs de Cohere Labs déplaît fortement aux dirigeants de la plateforme qui ont décidé de revenir sur ce qu'ils considèrent comme des "affirmations erronées". Explications.

Célia Séramour

12 mai 2025 \ 15h00

4 min. de lecture

Réagir

Mon actualité personnalisable

Profitez à tout moment des informations clés selon vos intérêts.

Sélectionnez les thèmes qui vous intéressent :

Gérer mes thèmes favoris

4 min. de lecture

Réagir

Célia Séramour

12 mai 2025 \ 15h00

LMArena en mal d'honnêteté quant à ses méthodes d'évaluation de modèles d'IA

Rebondissement dans l'affaire de la politique tacite de LMArena - connu pour ses évaluations de modèles d'IA - en matière de tests et de rétractation. Conscients de certains problèmes systémiques, des chercheurs de Cohere Labs ont travaillé avec plusieurs universités pour mettre en lumière certains biais systémiques et proposer des recommandations.

Objectif : rendre à la plateforme sa neutralité, donner plus de poids aux modèles open source et casser le système d'oligopole en place. Seulement voilà, cette étude "Leaderboard Illusion" ne semble pas avoir plu aux responsables de LMArena, loin de là.

Echange de tirs entre LMArena et les chercheurs de Cohere

Ces derniers ont échangé avec les auteurs de l'étude à plusieurs reprises, affirment avoir pris en compte ces travaux et "prévoient d'améliorer Chatbot Arena" en se basant dessus. Toutefois, les responsables derrière LMArena semble vouloir avoir le dernier mot et réfutent certaines allégations, infondées selon eux. "Bien que nous acceptions volontiers vos commentaires et une discussion ouverte, cet article contient également plusieurs affirmations erronées".

De son côté, Sara Hooker, responsable de la recherche chez Cohere, atteste de la mauvaise foi de ces derniers : "La semaine dernière, les organisateurs s'interrogeaient sur la fiabilité de nos travaux sur le classement des chatbots". Et d'ajouter : "Les organisateurs ont depuis rédigé leurs préoccupations et les ont partagées dans un blog sans inclure nos réponses. C'est un peu bizarre, étant donné que nous avons passé beaucoup de temps à les impliquer et que nombre de leurs préoccupations étaient très faciles à résoudre."

Quid de la méthodologie sur le recensement de modèles ouverts et sur l'échantillonnage ?

L'équipe de LMArena prend pour premier exemple la méthodologie appliquée pour recenser le nombre de modèles dits ouverts. Si les chercheurs à l'origine de l'article de recherche font la différence entre les modèles à code source ouvert (8%) et les modèles à poids ouvert (29,7%), LMArena ne le fait pas et indique le chiffre de 40%, une façon de maquiller les représentations réelles des différents types de modèles évalués et de minimiser les différences existantes entre eux.

Autre point de blocage : les biais existants dans l'échantillonnage. Selon les chercheurs, les simulations ont montré qu'un test de seulement 10 variantes peut augmenter le score maximum d'environ 100 points, participant à biaiser l'échantillonnage. LMArena estime pour sa part que les bénéfices des tests privés sont proches de zéro, se basant sur le fait que les fournisseurs lancent plusieurs fois (jusqu'à 27 pour certains) le même point de contrôle.

Les tests demandant du temps et des ressources, cela n'aurait aucun sens. Sara Hooker rappelle sur ce point que de nombreuses expériences en conditions réelles ont été effectuées sur LMArena - incluses dans le document -, montrant "toutes que les tests de variantes privées, même limitées, apportent des gains considérables."

Un traitement préférentiel pour les grands laboratoires ?

Parmi les autres allégations réfutées par LMArena, relevons celle qui concerne le favoritisme dont bénéficient les acteurs clés du secteur. La plateforme nie tout traitement préférentiel, avançant que "les modèles sont traités équitablement conformément à notre politique de tests : chaque fournisseur de modèles peut soumettre autant de variantes publiques et privées qu'il le souhaite, dans la mesure de nos capacités".

Toutefois, aux yeux des chercheurs de Cohere - et surtout face aux résultats des tests effectués - il existe bel et bien un biais. "Nous notons qu'avant de travailler sur ce document, Cohere n'avait pas lancé de tests privés multiples et nous ne savions même pas qu'il était possible de demander plusieurs tests en parallèle. Lorsque nous l'avons découvert par hasard, nous avons immédiatement soulevé la question de savoir si cela pouvait conduire à une gamification". C'est à ce moment que les chercheurs ont lancé des variantes privées précisément pour déterminer les avantages des tests privés dans le cadre de ce document de recherche.

LMArena, une plateforme en mal d'honnêteté ?

D'autres points sont remis en question par les deux bords, incluant la politique relative aux tests privés, le flou persistant autour de la possibilité de lancer plusieurs tests en parallèle. In fine, les chercheurs ayant planché sur les problèmes systémiques de la plateforme d'évaluation de modèles d'IA se sont vus remerciés froidement, tandis que les responsables de LMArena ont souhaité se donner une bonne image en présentant leur point de vue et en annonçant certains changements que l'on peut qualifier de mineurs.

Premier point : "Nous allons clarifier la manière dont les modèles sont retirés du mode "battle" et marquer explicitement quels modèles sont retirés". Second point : "Auparavant, nous annoncions l'ajout au classement des modèles testés en pré-lancement après 2 000 votes accumulés depuis le début des tests. [...] Nous marquerons les scores des modèles comme « provisoires » jusqu'à ce que 2 000 votes supplémentaires aient été recueillis après leur publication, si plus de 10 modèles ont été testés en pré-lancement en parallèle.

Enfin, LMArena rappelle que depuis mars 2024, sa politique établit des règles pour les tests préalables à la publication. "Dans une prochaine version de notre politique, nous préciserons explicitement que les fournisseurs de modèles sont tous autorisés à tester plusieurs variantes de leurs modèles avant leur publication, sous réserve des contraintes de notre système".

Sélectionné pour vous