Grâce à l'IA, l'Institut Curie veut prédire l'efficacité des traitements contre le cancer du sein
Faire progresser les recherches médicales tout en protégeant la confidentialité des données de santé. Voici l'objectif du projet HealthChain qui regroupe 9 partenaires, parmi lesquels les start-up Owkin et Apricity ainsi que des instituts médicaux. Dans le cadre de ce programme, l'Institut Curie et le Centre Léon Bérard ont développé un modèle d'apprentissage fédéré permettant de classifier les types de tumeurs du cancer du sein "triple négatif". Les participants sont revenus pour L'Usine Digitale sur cet ambitieux projet qui ouvre de nombreuses perspectives pour les personnes malades.
L'Institut Curie et le Centre Léon Bérard – tous deux spécialisés dans les traitements contre les cancers – ont développé un modèle prédictif applicable au cancer du sein dit "triple négatif". Il s'agit d'un groupe de tumeurs caractérisées par l'absence de récepteurs hormonaux (progestérone et œstrogènes) et de la protéine HER2 à la surface de leurs cellules.
Soutenu par Bpifrance
Les deux structures viennent de présenter ce mardi 30 novembre 2021 les résultats de ce projet à l'histoire assez particulière. Dans les détails, ce projet s'inscrit dans l'initiative "HealthChain" (anciennement baptisée Substra) qui a bénéficié d'un financement de 10 millions d'euros de la part de Bpifrance dans le cadre des Grands Défis du Numérique du Programme d’Investissement d’Avenir (PAI).
Le projet "HealthChain" a été officiellement lancé en juin 2018. Il rassemble 9 partenaires : les start-up Owkin et Apricity, l'Institut Curie, le Centre Léon Bérard, le CHU de Nantes, l'université Paris Descartes, l'Assistance Publique – Hôpitaux de Paris avec l'hôpital Saint-Louis, l'Ecole Polytechnique et l'association Labelia Labs (ex Substra Foundation).
Entraîner les données en local
L'objectif de ce projet, dont le financement de Bpifrance vient de se terminer, était de "développer une technologie d'apprentissage fédéré" appliquée à des cas d'usage dans la santé, détaille Anne-Laure Moisson, chef de produit au sein d'Owkin et coordinatrice du projet, sollicitée par L'Usine Digitale. En pratique, "cette technologie permet d'entraîner des modèles de machine learning sur des données sans les regrouper, ajoute-t-elle. Autrement dit, les modèles sont entraînés localement".
Cette pratique est particulièrement adaptée à la manipulation des données de santé. En effet, les hôpitaux ou instituts peuvent être réfractaires à l’idée de partager leurs données avec des tiers. Ici, les modèles voyagent d'un centre à l'autre mais les données restent stockées sur des serveurs en local. Ainsi, au travers d’un système sécurisé, HealthChain fédère les fournisseurs de données comme les hôpitaux pour valoriser leurs informations et les utiliser à des fins de recherches médicales dans un cadre protecteur de la confidentialité des données.
Pour réussir ce pari ambitieux, les partenaires ont endossé chacun un rôle bien précis. Owkin et Labelia Labs ont été chargés de développer la plateforme open source de traitement sécurisé des données médicales. La jeune pousse, accompagnée par Apricity, a aussi travaillé sur le développement de systèmes d'apprentissage prédictifs à partir des données mises à disposition par les centres médicaux. En pratique, pour chaque partenaire, Owkin a installé des serveurs pour développer les algorithmes de deep learning sans que les données ne soient regroupées au sein d'une base unique.
Trois cas d'usage : fertilité, mélanome et cancer du sein
Pour développer des modèles reposant sur l'apprentissage fédéré, trois cas d'usages ont été sélectionnés par les partenaires. Le CHU de Nantes et l'AP-HP ont travaillé sur le mélanome (cancer de la peau). L'hôpital nantais a également collaboré avec l'entreprise Apricity sur le sujet de la fertilité. Le premier projet porte sur la prédiction du nombre d'ovocytes recueillis dans le cadre d'une stimulation hormonale. Le second vise à identifier les embryons viables.
Le projet le plus avancé, dont les travaux ont été soumis à une revue à comité de lecture pour publication, reste celui mené par l'Institut Curie et le Centre Léon Bérard situé à Lyon. Ils se sont intéressés au cancer du sein "triple négatif" car "ce sont des tumeurs de mauvais pronostic et de pronostics très différents", détaille Alain Livartowski, oncologue et chargé des programmes d'e-santé à la direction des données de l'Institut Curie, à L'Usine Digitale.
Les équipes des centres médicaux cherchent à comprendre pourquoi "dans certains cas, des patients vont guérir rapidement et d'autres vont récidiver", ajoute le médecin. Qu'est-ce qui différencie ces patientes, se demandent-elles. Pour essayer de trouver une réponse à cette question qui pourrait considérablement améliorer le traitement de ces personnes, une cohorte de "500 à 600" patientes a été sélectionnée.
Classer les types de tumeurs pour mieux traiter
Plus précisément, le modèle a été développé et entraîné à partir des données issues des lames histologiques des tumeurs (coupe d'un tissu biologique observé au microscope). "Dans de nombreux cas, il a été démontré que le phénotype [ensemble des caractères observables chez un individu, résultant de l'interaction entre son génotype et les effets de son environnement, ndlr] des lames histologiques pourrait donner des informations très importantes pour mieux classifier les cancers et prédire l'efficacité des traitements", explique Alain Livartowski.
Le modèle en cours de développement "permettra de différencier le phénotype des lames histologiques", note le médecin. Le but : "créer des clusters de patientes" ayant des caractéristiques communes et leur proposer le traitement le plus adapté. A titre d'exemple, il explique que lorsqu'est mis en évidence "des récepteurs aux œstrogènes" dans le cas d'un cancer du sein, des thérapies ciblées existent permettant d'agir efficacement contre la cellule cancéreuse.
Le défi des données en vie réelle
Le défi est de taille car ce sont des données dites de "vie réelle", c'est-à-dire des données qui ont été générées à l'occasion de soins réalisés en routine, par opposition aux données "cliniques" plus simples à exploiter. "Dans la vie réelle, contrairement à des recherches menées en laboratoire, personne n'a les mêmes techniques ni les mêmes outils pour numériser les lames, dépeint l'oncologue. Les données ne sont pas non plus structurées de la même façon et les médecins n'utilisent pas les mêmes traitements."
Xosé M Fernandez, directeur des données de l'Institut Curie, raconte à L'Usine Digitale qu'il y a par exemple eu "des petites coquilles" (désormais résolues) car "les façons de marquer les lames étaient différentes en fonction des hôpitaux". "Mais cela nous a permis de développer un 'meilleur' algorithme", estime-t-il.
"Je pense que c'est plutôt un projet réussi", se réjouit Alain Livartowski. Mais le chemin est encore long, ce que les partenaires ne cachent absolument pas. Le recours à l'intelligence artificielle dans les soins courants est loin d'être aussi simple que dans des études cliniques. Une réalité parfois masquée par les apports idéalisés de cette technologique. "Aujourd'hui, l'IA est encore peu utilisée pour la décision médicale mais elle ouvre d'énormes perspectives dans la recherche, note Alain Livartowski. Elle permet surtout de poser de nouvelles questions."
Ces travaux ont été soumis à une revue à comité de lecture qui s'est dite intéressée à condition que le modèle soit "validé sur une troisième cohorte", confie Anne-Laure Moisson. L'objectif est de vérifier qu'il soit "généralisable sur des données qu'il n'a jamais vues". Une publication permettrait à la communauté scientifique de s'inspirer de ce modèle pour de nouveaux cas d'usage.
Une architecture adaptée au projet de partage de données
Plus généralement, le projet HealthChain – qui a vocation à continuer – pourrait inspirer le futur "Espace européen de données de santé" (European Health Data Space). "Il n'est pas envisageable d'avoir un hub européen comme nous avons un hub français", comme le Health Data Hub, réagit Xosé M Fernandez.
En effet, rassembler l'ensemble des données de santé des citoyens européens au sein d'une seule base crée d'importants risques en matière de cybersécurité. "Un entrepôt unique devient une cible d'attaque", explique le directeur des données de Curie. Une architecture décentralisée constituée de plusieurs hubs semble être beaucoup plus adaptée à ce type de projet.
SUR LE MÊME SUJET
Grâce à l'IA, l'Institut Curie veut prédire l'efficacité des traitements contre le cancer du sein
Tous les champs sont obligatoires
0Commentaire
Réagir