Mikaël Dusenne
2020-06-29
80% des données cliniques pertinentes sont non structurées
Comment représenter efficacement les données textuelles pour l'apprentissage automatique?
Approches classiques : un mot / n-gram = une variable
Problèmes :
mot | hospitalisé | asthme | occlusion | ... | colique | intestinale | aigüe | |
---|---|---|---|---|---|---|---|---|
0 | asthme | 0 | 1 | 0 | ... | 0 | 0 | 0 |
1 | colique | 0 | 0 | 0 | ... | 1 | 0 | 0 |
2 | intestinale | 0 | 0 | 0 | ... | 0 | 1 | 0 |
mots | 0 | 1 | |
---|---|---|---|
0 | asthme | 0.888 | 0.014 |
1 | colique | 0.017 | 1.500 |
2 | intestinale | -0.420 | 1.880 |
Les Embeddings permettent d'utiliser le calcul vectoriel pour effectuer des transformations sémantiques
King + (Woman - Man) = Queen
Enrichissement de l'annotation sémantique
Prédiction du type de document
Aide au codage de l'activité hospitalière
Création de cohortes pour la recherche, aide au diagnostic
Problématique 1 :
Types de documents :
247 documents typés en aveugle par des médecins, sélectionnés de façon aléatoire.
Kappa de Cohen : 0,59
Taux d'agrément : 0,69
erreurs systématiques : sur 61 documents évalués comme des compte rendus de consultation, un seul l'était réellement dans la base de données
difficile de distinguer les erreurs réelles des erreurs systématiques
mikaeldusenne@gmail.com
Mikolov, Tomas; et al. (2013). Efficient Estimation of Word Representations in Vector Space↩︎
Pennington, Jeffrey, et al. “Glove: Global Vectors for Word Representation.”↩︎
Le, Q. V. & Mikolov, T. "Distributed Representations of Sentences and Documents"↩︎
Bojanowski, Piotr, et al. "Enriching Word Vectors with Subword Information."↩︎
Peters, Matthew E., et al. "Deep Contextualized Word Representations."↩︎
Devlin, Jacob, et al. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.”↩︎
Akbik, A.; Blythe, D. & Vollgraf, R. Contextual string embeddings for sequence labeling↩︎
Lan, Zhenzhong, et al. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.”↩︎
Biobert : pre-trained biomedical language representation model for biomedical text mining↩︎
Camembert : a tasty french language model↩︎