Des chercheurs développent un modèle de langage ouvert dédié au domaine biomédical français
Des chercheurs, accompagnés par le CHU de Nantes et l'entreprise Zenidoc, ont développé un modèle ouvert de traitement automatique des langues dédié aux domaines biomédical et clinique français. Baptisé DrBERT, il a par exemple pour vocation à servir à la structuration automatique et à la traduction des documents médicaux. Pour réaliser la phase d'apprentissage, les scientifiques ont bénéficié de la puissance de calcul du supercalculateur Jean Zay.
Disponible en open source, DrBERT est un modèle de langage ouvert pour le domaine biomédical et clinique français. Son objectif est de simplifier les tâches des professionnels de santé, comme l'extraction d'informations dans les dossiers médicaux.
DrBERT est le fruit d'une collaboration entre le laboratoire informatique d'Avignon (LIA), le laboratoire des sciences du numérique de Nantes (LS2N), du Centre hospitalier universitaire (CHU) de Nantes et de l'entreprise Zenidoc qui édite des logiciels de reconnaissance vocale et de gestion d'informations à destination des établissements de santé.
Recours au supercalculateur Jean Zay
Le modèle a été entraîné grâce au supercalculateur Jean Zay et sur "le plus grand corpus de données médicales sous licence libre", notent les auteurs. Il s'agit de l'open crawled french health care corpus – un ensemble de données médicales françaises ouvertes contenant plus d'un milliard de mots tirés de 24 sites web francophones – et un corpus privé. Ce dernier provient de l'entrepôt de données du CHU de Nantes. Pour ce travail, un échantillon de 1,7 million de comptes-rendus de séjours hospitaliers a été sélectionné au hasard.
Pour attester de l'efficacité de DrBERT, ils ont évalué les différentes stratégies de pré-entraînement de modèle de langue pour le domaine médical en comparant leur modèle avec un modèle pré-entraîné sur des données cliniques privées.
Il s'agissait par exemple du tri de spécialités médicales (tâche de classification qui consiste à attribuer la spécialité d'un rapport médical sur la base de sa transcription) ou de la classification de l'insuffisance cardiaque aigue (classement des comptes-rendus de séjour en fonction de la présence ou de l'absence de diagnostic). Le résultat : le modèle a "établi des performances à l’état de l’art dans la quasi-totalité des tâches biomédicales (...)"
Un modèle reproductible mais limité
La publication en open source du modèle et des données vise à "faciliter l’adoption de ce type d’outils par les professionnels de santé et la reproduction de nos recherches par la communauté", a indiqué Richard Dufour, professeur en informatique à Nantes Université, membre du LS2N, au Centre national de la recherche scientifique (CNRS).
Il reconnaît également la limite de DrBERT : il n'est pas performant sur toutes les applications. "C’est pourquoi, nous sommes en train de développer un jeu de données de référence pour une vingtaine de tâches qui permettront de mieux évaluer les capacités des modèles produits par la recherche et ainsi de comparer de façon plus large leurs performances", a ajouté le chercheur.
SUR LE MÊME SUJET
Des chercheurs développent un modèle de langage ouvert dédié au domaine biomédical français
Tous les champs sont obligatoires
0Commentaire
Réagir