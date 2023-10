Depuis l'émergence de l'intelligence artificielle générative notamment, la Commission nationale de l'informatique et des libertés (Cnil) indique avoir échangé avec de nombreux acteurs inquiets de ne pas pouvoir développer des algorithmes respectueux des prescriptions du Règlement général sur la protection des données (RGPD).



Pour les accompagner dans leur démarche de mise en conformité, elle vient de publier 9 fiches pratiques ayant pour objectif d'apporter des réponses concrètes. Une consultation publique est ouverte jusqu'au 16 novembre 2023 pour que les acteurs concernés puissent donner leur avis.



Ces premières lignes directrices ne portent que sur la phase de développement de l'IA. Avant la fin de l'année, la Cnil prévoit de publier de nouvelles fiches sur la phase de déploiement.

Respecter certaines conditions

Le principe est le suivant : les recherches et développements en IA sont compatibles avec le RGPD à condition "de ne pas franchir certaines lignes rouges" et "de respecter certaines conditions". Les interrogations des acteurs du secteur portaient notamment sur le respect du principe de minimisation, de finalité et la durée de conservation des données personnelles.



Le premier principe impose que les données personnelles doivent être adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées. De prime abord, on pourrait imaginer que cette obligation ne peut pas être respectée dans le cadre du développement d'un modèle d'IA générative qui nécessite de très grands ensembles de données. L'autorité juge que pour respecter ce principe, les données doivent avoir été sélectionnées pour optimiser l'entraînement de l'algorithme "tout en évitant l'utilisation de données personnelles inutiles".



Pour identifier les données personnelles nécessaires, "quatre dimensions" doivent être prises en compte : le volume de données, les catégories (âge, sexe, image du visage, activité sur un réseau social…), la typologie (données réelles, de synthèse, issues de simulation…) et les sources (source ouverte, données collectées via un fournisseur…).

Fixer le type de système et les principales fonctionnalités

De son côté, le principe de finalité prescrit que le responsable d'un fichier ne peut enregistrer et utiliser les informations sur des personnes physiques que dans "un but bien précis, légal et légitime". Aussi, les données précédemment collectées ne doivent pas être traitées ultérieurement de façon incompatible avec l'objectif initial. A cet égard, la Commission reconnaît qu'il n'est toujours possible de connaître avec exactitude l'ensemble des applications futures lors du développement d'un algorithme. Cette situation n'est pas contraire au RGPD à condition que le type de système et les principales fonctionnalités envisageables aient été bien définis.



La Cnil rappelle également que les données personnelles ne peuvent pas être conservées indéfiniment. Dans certains cas, la durée de conservation est fixée par la réglementation mais dans la majorité des cas elle doit être déterminée par le responsable du traitement en fonction de l'objectif ayant conduit à la collecte des données. Dans le cadre de certains projets, ceux qui requièrent notamment "un investissement scientifique et financier important", l'autorité française reconnaît qu'il peut être nécessaire de fixer une durée de conservation longue.

Il est possible de réutiliser des données librement accessibles

Dans ses fiches, la Commission aborde également la problématique liée à la réutilisation de données disponibles sur Internet pour entraîner les modèles. Elle valide ce procédé à condition que les données utilisées n'aient pas été collectées de manière "manifestement illicites" et que la finalité de réutilisation est compatible avec la collecte initiale.



Ces lignes directrices s'inscrivent dans un effort plus général de la Cnil d'accompagner les acteurs du secteur. Elle a ainsi créé un service dédié à l'IA en janvier 2023 et a lancé deux programmes pour accompagner des acteurs français (un bac à sable pour trois projets utilisant l'IA au bénéfice des services publics et un dispositif d’accompagnement renforcé pour trois entreprises innovantes de taille intermédiaire).