Recevez chaque jour toute l'actualité du numérique

x

Les bonnes pratiques d'anonymisation des données personnelles selon la CNIL

Tribune La question de l’anonymisation des données personnelles a des conséquences importantes sur la gouvernance des données ainsi que sur la licéité de nombreux traitements en relation avec les analyses tirées du big data ou avec les Data Management Plateform (DMP). Cette tribune de Me Isabelle Cantero et Me Eric A. Caprioli a pour objet de présenter la mise au point de la Cnil sur la question de l’anonymisation des données.
Twitter Facebook Linkedin Flipboard Email
×

Les bonnes pratiques d'anonymisation des données personnelles selon la CNIL
Les bonnes pratiques d'anonymisation des données personnelles selon la CNIL © Cnil

Qu’entend-on par anonymisation ? Selon la CNIL (CNIL, 19 mai 2020 ) : "L’anonymisation est un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible."

Bien que l’objectif soit également de respecter la vie privée des personnes, l’anonymisation doit être distinguée de la pseudonymisation telle que définie par l’article 4-5) du RGPD. Selon la CNIL, la pseudonymisation "est un traitement de données personnelles réalisé de manière à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire".

Concrètement, ce traitement repose sur le remplacement des données directement identifiantes d’un jeu de données (telles que les noms, prénoms) par des données indirectement identifiantes (pseudo, alias, numéro, etc.). Contrairement à l’anonymisation, l’opération est réversible et via les tables de conversion il est toujours possible de retrouver l’identité des personnes concernées. Pour autant, visée par l’article 32 du RPGD sur la sécurité, la pseudonymisation fait partie des mesures techniques et organisationnelles recommandées pour garantir un niveau de sécurité adapté au risque présenté par le traitement.

Délibérations de la CNIL et décisions du conseil d’Etat
A titre d’exemple, l’anonymisation des données a été une des conditions permettant de mettre en œuvre des traitements de données dans le domaine de la santé. A ce titre, en 2011, la CNIL a autorisé la mise en œuvre par la société CELTIPharm d’un traitement de données à caractère personnel ayant pour finalité la réalisation d’études épidémiologiques à partir de données issues des feuilles de soins électroniques anonymisées à bref délai (Délibération n° 2011 -246 du 8 septembre 2011), le Conseil d’État ayant validé l’autorisation de la CNIL relative au traitement statistique de données de santé anonymisées au profit d’une entreprise privée (Conseil d'Etat, Section S, 26 Mai 2014 - n° 354903).

En 2016, la CNIL autorisait le laboratoire Roche à mettre en œuvre un traitement automatisé de données à caractère personnel ayant pour finalité l’anonymisation d’un jeu de données issues de recherches dans le domaine de la santé dans le cadre d’un partenariat avec l’association La Paillasse (Délibération n° 2016-047 du 25 février 2016).

Récemment, l’Ordonnance de référé du Conseil d’Etat du 19 juin 2020 sur la "Plateforme Health Data Hub" illustre l’arbitrage entre l’anonymisation et la pseudonymisation. Le Conseil d'État s’est prononcé sur l’Arrêté du 21 avril 2020 complétant l'Arrêté du 23 mars 2020 prescrivant les mesures d'organisation et de fonctionnement du système de santé nécessaires pour faire face à l'épidémie de covid-19 dans le cadre de l'état d'urgence sanitaire, ces deux textes confiant la la collecte et le traitement de données de santé à la plateforme "Health Data Hub".

Selon le Conseil d’Etat : "le droit au respect de la vie privée n'implique pas que des données, même aussi sensibles que les données de santé, fassent dans tous les cas l'objet d'une anonymisation avant d'être traitées à des fins d'évaluation ou de recherche mais seulement » ainsi que le prévoit le RGPD « que des garanties appropriées soient prévues, qui peuvent comprendre la pseudonymisation, lorsque l'anonymisation ne permettrait pas de poursuivre les travaux de recherche nécessaires."

Modalités de l’anonymisation
L’idée de base est d’interdire la re-identification des personnes tout en permettant l’exploitation des données. Pour ce faire, d’après la CNIL, la construction d’un processus d’anonymisation pertinent repose sur les points suivants qui devront être pris en compte dès le lancement du projet (privacy by design) :

  • identifier les informations à conserver selon leur pertinence.
  • supprimer les éléments d’identification directe ainsi que les valeurs rares qui pourraient permettre un ré-identification aisée des personnes (par exemple, la présence de l’âge des individus peut permettre de ré-identifier très facilement les personnes centenaires) ;
  • distinguer les informations importantes des informations secondaires ou inutiles (c’est-à-dire supprimables) ;
  • définir la finesse idéale et acceptable pour chaque information conservée.

Les techniques d’anonymisation ont fait l’objet d’une analyse de la part du G29 (WP216- Avis 05/2014 du 10 avril 2014 sur les techniques d’anonymisation). Elles peuvent être regroupées en deux familles : la randomisation (pour protéger le jeu de données contre le risque d’inférence) et la généralisation (pour éviter l’individualisation d’un jeu de données et limiter les possibles corrélations du jeu de données avec d’autres).

Comment garantir l’anonymisation ?
Il est essentiel que les jeux de données soient véritablement anonymes. Pour ce faire, il ne doit pas être possible: i) d’isoler un individu dans un jeu de données (l’individualisation) ; ii) de relier entre eux des ensembles de données distincts concernant un même individu  (la corrélation) ; iii)  de déduire, de façon quasi certaine, de nouvelles informations sur un individu (l’inférence).

Les principes de protection des données et l’anonymisation
L’anonymisation des données pourra être utile en cas de publication de données ou dans le cadre de sondages ou de questionnaires, de statistiques ou pour le big data (le profilage par exemple). Les possibilités restent larges étant entendu que l’identification des personnes concernées doit être impossible.

A titre d’exemple, si les données font l’objet d’une publication notamment en ligne, comme le prescrit l’article L.312-1-2 al.2 du Code des relations entre le public et l'administration (pour le secteur public), sauf dispositions législatives contraires ou si les personnes intéressées ont donné leur accord, les documents et les données comportant des données à caractère personnel ne peuvent être rendus publics qu'après avoir fait l'objet d'un traitement permettant de rendre impossible l'identification de ces personnes.

La publication de données qui ne seraient pas correctement anonymisées expose le responsable du traitement à un manquement à son obligation de confidentialité des données et, le cas échéant, à une violation des données (divulgation ou accès non autorisés aux données) devant être notifiée à la CNIL (en cas de risque pour les droits et libertés des personnes) et aux personnes concernées (en cas de risques élevés). Si les principes de protection issus du RGPD ne s’appliquent pas aux données anonymisées dont l’exploitation est donc libre, une grande vigilance est requise quant aux techniques utilisées…

Eric A. Caprioli et Isabelle Cantero
Avocats associés, Caprioli & Associés, société membre du réseau Jurisdéfi



Les avis d'experts sont publiés sous l'entière responsabilité de leurs auteurs et n'engagent en rien la rédaction de L'Usine Digitale.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

 
media