Réglementation

Open Source

Big Tech

L'université de Stanford établit un index de la transparence des modèles de fondation

Les fers de lance de l'intelligence artificielle OpenAI, Meta et Google devront faire mieux en matière de transparence de leurs modèles. C'est le constat établi par des chercheurs américains qui viennent de publier un classement à ce sujet.

Aurélien Defer

19 octobre 2023 \ 12h08

3 min. de lecture

Réagir

Mon actualité personnalisable

Profitez à tout moment des informations clés selon vos intérêts.

Sélectionnez les thèmes qui vous intéressent :

Gérer mes thèmes favoris

3 min. de lecture

Réagir

Aurélien Defer

19 octobre 2023 \ 12h08

L'université de Stanford établit un index de la transparence des modèles de fondation

Où est passé le "open" de la start-up d'intelligence artificielle OpenAI ? L'entreprise à l'origine de la révolution conversationnelle ChatGPT a-t-elle perdu, depuis sa création en 2015, son ADN ouvert et ses envies de transparence ? C'est ce qu'ont souhaité déterminé des chercheurs de l'université américaine de Stanford, lesquels ont publié mercredi 18 octobre un index de la transparence des modèles de fondation.

Ce terme, popularisé par le Center for Resarch on Foundation Models (CRFM) du Stanford Institute for Human-Centered AI (HAI), comprend des grands modèles de langage (LLM) tels que Llama 2, Claude 2, GPT-4 et PaLM 2. Face au constat inévitable d'une montée en puissance de ces innovations couplée à une baisse de la transparence des entreprises qui les développent, le CRFM, avec des chercheurs du MIT et de Princeton, s'est donc donné pour mission de classer dix d'entre eux.

Meta en tête du classement

Pour ce faire, le chercheur du CRFM Rishi Bommasani qui est à l'origine du projet a imaginé un total de 100 indicateurs de transparence. Un tiers a trait à la façon dont ces modèles de fondation sont construits (données d'entraînement, main-d'œuvre, ressources impliquées). Un autre concerne les modèles en eux-mêmes (leurs capacités, leur fiabilité, leurs risques et l'atténuation de ces risques qu'ils permettent). Le dernier tiers concerne quant à lui la façon dont les modèles sont utilisés (protection des données des utilisateurs, comportements des modèles, savoir si les entreprises offrent ou non des retours d'information ou des options de réparation à leurs utilisateurs).

Une fois ce score sur 100 appliqué, le classement de l'index est le suivant. Sur le podium, on retrouve le LLM open source de Meta Llama 2 (54%), suivi de près par BLOOMZ issu du projet français BigScience avec notamment HuggingFace (53%) et le dernier modèle d'OpenAI GPT-4 (48%). Viennent ensuite Stable Diffusion 2 (47%), PaLM 2 (40%), Claude 2 (36%), Command (34%), Jurassic-2 (25%), Inflection-1 (21%), Titan Text (12%). Bien que l'écart soit considérable entre Llama 2 et le Titan Text d'Amazon, "nous ne devrions pas considérer Meta comme le poteau d'arrivée […], juge Rishi Bommasani. Nous devrions plutôt faire en sorte que tout le monde essaie d'atteindre 80, 90, voire 100."

Aider les régulateurs du monde

L'université de Stanford souhaite à l'avenir mettre à jour ce classement au fil des développements de ce secteur en rapide évolution. On espère l'intégration de modèles non-occidentaux, comme ceux de Baidu et d'Alibaba pour ne citer que le secteur chinois. La transparence est davantage pensée comme un devoir que comme une contrainte pour les entreprises. Grâce à ce partage d'informations, journalistes et chercheurs pourraient mieux comprendre et expliquer le fonctionnement de ces innovations qui s'apprêtent à révolutionner à grande échelle de nombreux secteurs d'activité économique et au-delà.

Rishi Bommasani voit aussi dans la publication de cet index l'occasion pour les régulateurs du monde entier de mieux s'emparer des innombrables interrogations que soulèvent la montée en puissance des modèles de fondation. "En l'absence de transparence, les régulateurs ne peuvent même pas poser les bonnes questions et encore moins prendre des mesures dans ces domaines." Au-delà du classement des entreprises impliquées, la méthode de notation peut d'ores et déjà, estime-t-il, aider les régulateurs européens avant l'entrée en vigueur du AI Act, lequel n'exige pas à ce stade la divulgation de tous les indicateurs sélectionnés par le CRFM.

Une concurrence préservée

Les chercheurs anticipent les réactions d'OpenAI, Meta, Anthropic et consorts et insistent sur le fait que miser sur la transparence ne signifie pas renoncer à tout espoir de concurrence. "La divulgation [de ces informations] ne doit pas non plus risquer de faciliter l'utilisation abusive par d'autres acteurs de l'écosystème, explique Rishi Bommasani. En fait, pour certains indicateurs, un point est attribué si l'entreprise ne divulgue pas les informations demandées mais justifie pourquoi celles-ci ne sont pas divulguées."

L'un des points de crispation les plus importants reste la nature des données d'entraînement. "La plupart des entreprises ne divulguent pas non plus dans quelle mesure le matériel protégé par le copyright est utilisé comme données de formation", relève l'index. Et cela risque de continuer à faire débat, notamment à mesure que des législateurs, notamment français, s'empareront de ce sujet et à mesure que des plaintes pour violation du droit d'auteur viseront OpenAI et d'autres acteurs.

Sélectionné pour vous