Exploitation de compte-rendus médicaux grâce aux word embeddings

Mikaël Dusenne

2020-06-29

Introduction

80% des données cliniques pertinentes sont non structurées

Comment représenter efficacement les données textuelles pour l'apprentissage automatique?

Apprentissage automatique et langage naturel

Approches classiques : un mot / n-gram = une variable

Problèmes :

  • Pas de notion de distance sémantique
  • Très grand nombre de variables
  • Données éparses
mot hospitalisé asthme occlusion ... colique intestinale aigüe
0 asthme 0 1 0 ... 0 0 0
1 colique 0 0 0 ... 1 0 0
2 intestinale 0 0 0 ... 0 1 0

Word Embeddings

  • Représentation dense des mots
  • Vecteurs de nombres réels
  • Dimension indépendante de la taille du vocabulaire
  • Proximité dans l'espace vectoriel corrélée à la similarité sémantique
mots 0 1
0 asthme 0.888 0.014
1 colique 0.017 1.500
2 intestinale -0.420 1.880

Word Embeddings

Les Embeddings permettent d'utiliser le calcul vectoriel pour effectuer des transformations sémantiques

King + (Woman - Man) = Queen

Embeddings et TAL : implémentations

  • 2013 : Word2Vec 20131 :
    • réseau de neurones pour créer les embeddings
  • 2014 : GloVe 2
    • "global vectors", matrice de co-occurence utilisant le corpus entier
  • 2014 : Doc2Vec 3
    • Vecteurs de Documents
  • 2016 : FastText 4
    • Décomposition des mots en n-grams de caractères
  • 2018 : ELMo 5
    • utilise l'ordre des mots (LSTM bi-directionnel)
  • 2018 : BERT 6
    • utilise des "attention network" (Transformer)
    • gestion des homonymes
  • 2018 : Flair 7
    • Zalando Research
    • Étiquetage morpho-syntaxique
  • 2019 : ALBERT 8
    • Améliore BERT : moins de paramètres, entraînement plus rapide
  • 2019 : BioBERT 9
    • pré-entraîné sur pubmed et PMC (en anglais)
  • 2019 : camemBERT 10
    • pré-entraîné sur un corpus français (non médical)

Application des embeddings aux compte-rendus médicaux

  • Word Embeddings (non supervisé) :

Enrichissement de l'annotation sémantique

  • Document Embeddings (supervisé) :

Prédiction du type de document

  • "Séjour Embeddings" (supervisé) :

Aide au codage de l'activité hospitalière

  • "Patient Embedding" (non supervisé) :

Création de cohortes pour la recherche, aide au diagnostic

Méthode

  • Documents médicaux au CHU de Rouen :
    • "Big Data" : ≈ 15,6 millions de documents

Problématique 1 :

Types de documents :

  • Compte rendu de séjour / d'acte / opératoire, ordonnance, consultation, …
  • Métadonnée existante dans le système d'information hospitalier
  • Incomplète : ≈ 4,6 millions (29%) non typés

Classification des documents médicaux

Représentation 3D des embeddings ( T-SNE )

Classification: Réseau de neurones

Impact du niveau de confiance sur les performances prédictives

Évaluation manuelle du type de document

  • 247 documents typés en aveugle par des médecins, sélectionnés de façon aléatoire.

  • Kappa de Cohen : 0,59

  • Taux d'agrément : 0,69

  • erreurs systématiques : sur 61 documents évalués comme des compte rendus de consultation, un seul l'était réellement dans la base de données

  • difficile de distinguer les erreurs réelles des erreurs systématiques

Conclusion

  • Exploration de l'exploitation des documents médicaux par les techniques d'embeddings
  • Premiers résultats satisfaisants pour la classification des documents
    • bonnes performances
    • temps de calcul de doc2Vec très important ( 6 jours avec 194 coeurs )
    • exploitation limitée ici par la qualité des données
  • Perspectives :
    • exploration d'autres algorithmes d'embeddings
    • mise en oeuvre des autres applications des Embeddings

Merci


  1. Mikolov, Tomas; et al. (2013). Efficient Estimation of Word Representations in Vector Space↩︎

  2. Pennington, Jeffrey, et al. “Glove: Global Vectors for Word Representation.”↩︎

  3. Le, Q. V. & Mikolov, T. "Distributed Representations of Sentences and Documents"↩︎

  4. Bojanowski, Piotr, et al. "Enriching Word Vectors with Subword Information."↩︎

  5. Peters, Matthew E., et al. "Deep Contextualized Word Representations."↩︎

  6. Devlin, Jacob, et al. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.”↩︎

  7. Akbik, A.; Blythe, D. & Vollgraf, R. Contextual string embeddings for sequence labeling↩︎

  8. Lan, Zhenzhong, et al. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.”↩︎

  9. Biobert : pre-trained biomedical language representation model for biomedical text mining↩︎

  10. Camembert : a tasty french language model↩︎