GenAI : Quel équilibre entre rémunération des ayants droit et accès des données par les développeurs ?
Dans le cadre de son avis sur l'intelligence artificielle générative, l'Autorité de la concurrence recommande aux autorités publiques à inciter les ayants droit à tenir compte de la valeur économique des données ainsi qu'à proposer des offres groupées réduisant les coûts de transaction. L'objectif est de garantir les capacités d'innovation des développeurs de modèles afin de favoriser la dynamique concurrentielle du secteur.
A l'issue d'une autosaisine et d'une consultation publique, l'Autorité de la concurrence vient de rendre ce 28 juin son avis sur l'intelligence artificielle générative. Notion qui désigne "des modèles d'IA capables de créer des nouveaux contenus qui peuvent par exemple être du texte, des images, du son ou des vidéos".
Proposer des offres groupées d'accès aux données
Afin de "favoriser la dynamique concurrentielle du secteur", l'autorité administration indépendante formule une série de recommandations dont l'une porte sur l'accès aux données par les développeurs de modèles afin de "garantir leur capacité d'innovation". Elle préconise ainsi aux pouvoirs publics, et plus particulièrement au ministère de la Culture, d'inciter les ayants droit tels que les éditeurs de contenus à tenir compte de la valeur économique des données selon les cas d'usage (en introduisant par exemple des prix différenciés) et à proposer "des offres groupées" réduisant les coûts de transaction.
Egalement, l'Autorité recommande de faciliter la mise à disposition des données de la sphère publique et privée pour "l'entraînement ou le réglage fin de modèles d'IA générative" ainsi que d'encourager les initiatives visant à diffuser "les données francophones, qu'il s'agisse de textes, d'images ou de vidéos".
Les données, un "intrant fondamental"
Le problématique est la suivante : dans le secteur de l'IA générative, comme la majorité des secteurs technologiques, les données sont "un intrant fondamental" auquel les grandes entreprises technologies – comprendre Microsoft, Google, Meta... – ont un accès privilégié. "Cette situation favorise leur accès à des données indirectes auxquelles des acteurs de taille plus modeste ne peuvent avoir accès", écrit l'Autorité. Aussi, ces entreprises peuvent utiliser leur puissance financière pour conclure des accords avec des propriétaires de données tierces, comme le montre l'accord conclu en février dernier par Google pour 60 millions de dollars par an pour accéder aux données de Reddit.
Par ailleurs, l'Autorité note qu'aujourd'hui la majorité des données utilisées pour entraîner les modèles sont issues de sources publiquement accessibles. Or, suffiront-elles à l'avenir ? Se demandent les acteurs qui ont répondu à la consultation publique. Ils se sont également montré inquiets à propos "des incertitudes juridiques" liées aux actions en justice intentées par plusieurs ayants droit, telle que la plainte déposée par le New York Times contre OpenAI et Microsoft en décembre 2023. Le grand quotidien américain accuse la start-up d’avoir utilisé, sans aucune autorisation ni rémunération, des millions d’articles pour entraîner ses grands modèles de langage GPT. Il lui réclame des “milliards de dollars dommages” à OpenAI ainsi que la mise hors ligne des modèles alimentés par ses contenus.
On peut également citer la récente décision de l'Autorité de la concurrence dans l’affaire des "droits voisins" qui a établi que Google avait utilisé aux fins d’entraînement de son modèle de fondation Gemini des contenus des éditeurs et agences de presse, "sans les avertir et sans leur permettre d’exercer de manière effective leur droit de retrait".
Trouver un équilibre pour répondre à chaque prétention
D'où la nécessité de trouver un équilibre entre les prétentions de rémunération des ayants droit et celles des développeurs qui souhaitent pouvoir eux aussi accéder à une quantité de données suffisante pour élaborer des modèles performants. L'assurance de "la soutenabilité d'un modèle fondé" est en jeu, déclaré l'autorité. Elle ajoute que cet aspect doit être étudié en fonction des cas d'usage : "les accords entre ayants droit et développeurs devraient refléter l'importance relative de ces données pour les développeurs suivant les cas d’usage, et préciser le cadre dans lequel ces données peuvent être utilisées".
L'avis prend l'exemple des données des éditeurs de presse. Elles sont essentiellement utilisées par les acteurs qui mettent place "des agents conversationnels à destination des utilisateurs avec du 'grounding' [ancrage du modèle, ndlr]". Ce qui leur procure une "forte valeur économique". En revanche, pour l'entraînement des modèles, "leur importante marginale est relative dans le volume considérable des données nécessaires".
Les coûts d'acquisition peuvent être prohibitifs
L'Autorité considère par ailleurs que "les coûts de transaction" doivent être un point d'attention. En effet, si la plupart du temps, les coûts de transaction sont négligeables par rapport aux prix d’acquisition, "ils pourraient s’avérer prohibitifs dans le cas des données d’entraînement si un développeur de modèle devait contracter individuellement avec chaque acteur dont il veut utiliser les données". Ce qui explique l'avènement de licences collectives ou l'octroi d'une "sphère de sécurité" (safe harbor) qui "protègeraient certains fournisseurs de modèles de toute responsabilité juridique, à condition qu'ils respectent certaines normes de transparence et d'éthique".
L'open data doit également être un point de vigilance, estime l'Autorité. Elle participe ainsi "efficacement" en abaissant "les barrières à l'entrée" et réduit "l'incertitude vis-à-vis de l'accès aux données". Par exemple, l'Institut national de l'audiovisuel (INA) et la Bibliothèque nationale de France (BNF) possèdent des ensembles de données massifs qui pourraient "être mis à disposition de développeurs de modèles, dans des conditions à définir". Ces initiatives participent aussi à "assurer une meilleure représentation de la langue et de la culture française (et européenne) parmi les modèles d’IA générative, où l’anglais prédomine actuellement".
Une modernisation du mandat de la Cnil
La Commission de l'intelligence artificielle, installée par le gouvernement en septembre 2023, avait également soumis une série de recommandations pour "Faire de la France un pays à la pointe de l'IA". La facilitation de l'accès aux données était citée à travers une simplification des procédures pour accéder à certaines catégories de données, comme les données de santé, ainsi qu'une "modernisation" du mandat de la Commission nationale de l'informatique et des libertés (Cnil).
SUR LE MÊME SUJET
GenAI : Quel équilibre entre rémunération des ayants droit et accès des données par les développeurs ?
Tous les champs sont obligatoires
0Commentaire
Réagir