Des chercheurs développent un modèle de langage ouvert dédié au domaine biomédical français

Des chercheurs, accompagnés par le CHU de Nantes et l'entreprise Zenidoc, ont développé un modèle ouvert de traitement automatique des langues dédié aux domaines biomédical et clinique français. Baptisé DrBERT, il a par exemple pour vocation à servir à la structuration automatique et à la traduction des documents médicaux. Pour réaliser la phase d'apprentissage, les scientifiques ont bénéficié de la puissance de calcul du supercalculateur Jean Zay. 

Partager
Des chercheurs développent un modèle de langage ouvert dédié au domaine biomédical français

Disponible en open source, DrBERT est un modèle de langage ouvert pour le domaine biomédical et clinique français. Son objectif est de simplifier les tâches des professionnels de santé, comme l'extraction d'informations dans les dossiers médicaux.

DrBERT est le fruit d'une collaboration entre le laboratoire informatique d'Avignon (LIA), le laboratoire des sciences du numérique de Nantes (LS2N), du Centre hospitalier universitaire (CHU) de Nantes et de l'entreprise Zenidoc qui édite des logiciels de reconnaissance vocale et de gestion d'informations à destination des établissements de santé.

Recours au supercalculateur Jean Zay

Le modèle a été entraîné grâce au supercalculateur Jean Zay et sur "le plus grand corpus de données médicales sous licence libre", notent les auteurs. Il s'agit de l'open crawled french health care corpus – un ensemble de données médicales françaises ouvertes contenant plus d'un milliard de mots tirés de 24 sites web francophones – et un corpus privé. Ce dernier provient de l'entrepôt de données du CHU de Nantes. Pour ce travail, un échantillon de 1,7 million de comptes-rendus de séjours hospitaliers a été sélectionné au hasard.

Pour attester de l'efficacité de DrBERT, ils ont évalué les différentes stratégies de pré-entraînement de modèle de langue pour le domaine médical en comparant leur modèle avec un modèle pré-entraîné sur des données cliniques privées.

Il s'agissait par exemple du tri de spécialités médicales (tâche de classification qui consiste à attribuer la spécialité d'un rapport médical sur la base de sa transcription) ou de la classification de l'insuffisance cardiaque aigue (classement des comptes-rendus de séjour en fonction de la présence ou de l'absence de diagnostic). Le résultat : le modèle a "établi des performances à l’état de l’art dans la quasi-totalité des tâches biomédicales (...)"

Un modèle reproductible mais limité

La publication en open source du modèle et des données vise à "faciliter l’adoption de ce type d’outils par les professionnels de santé et la reproduction de nos recherches par la communauté", a indiqué Richard Dufour, professeur en informatique à Nantes Université, membre du LS2N, au Centre national de la recherche scientifique (CNRS).

Il reconnaît également la limite de DrBERT : il n'est pas performant sur toutes les applications. "C’est pourquoi, nous sommes en train de développer un jeu de données de référence pour une vingtaine de tâches qui permettront de mieux évaluer les capacités des modèles produits par la recherche et ainsi de comparer de façon plus large leurs performances", a ajouté le chercheur.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

LES ÉVÉNEMENTS USINE DIGITALE

Tous les événements

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS