De Word2vec à BERT, un espoir nouveau pour le TAL
Mikaël Dusenne
2021-11-23
80% des données cliniques pertinentes sont non structurées
Comment représenter efficacement les données textuelles pour l'apprentissage automatique?
Approches classiques : un mot / n-gram = une variable
Problèmes :
mot | hospitalisé | asthme | occlusion | ... | colique | intestinale | aigüe | |
---|---|---|---|---|---|---|---|---|
0 | asthme | 0 | 1 | 0 | ... | 0 | 0 | 0 |
1 | colique | 0 | 0 | 0 | ... | 1 | 0 | 0 |
2 | intestinale | 0 | 0 | 0 | ... | 0 | 1 | 0 |
mots | 0 | 1 | |
---|---|---|---|
0 | asthme | 0.888 | 0.014 |
1 | colique | 0.017 | 1.500 |
2 | intestinale | -0.420 | 1.880 |
Les Embeddings permettent d'utiliser le calcul vectoriel pour effectuer des transformations sémantiques
King + (Woman - Man) = Queen
Inconvénients:
Besoin d'une solution pour prendre en compte l'ordre des mots
Le LSTM est un type de réseau neuronal récurrent qui introduit des boucles permettant à une information apparue précédemment d'être "mémorisée".
-> Respect de l'ordre d'apparition des mots dans une phrase. Semi-supervised Sequence Learning (Andrew M. Dai, Quoc V. Le)
Le modèle est uni-directionnel (le texte n'est lu que de gauche à droite)
Dynomant E, Lelong R, Dahamna B, Massonnaud C, Kerdelhué G, Grosjean J, Canu S, Darmoni SJ. Word Embedding for the French Natural Language in Health Care: Comparative Study. JMIR Med Inform. 2019 Jul 29;7(3):e12310.
QUERY : "facebook"
Espace vectoriel disponible pour la communauté scientifique
Emeric Dynomant et coll.
Doc2Vec on the PubMed corpus: study of a new approach to generate related articles,
HAL
Mikolov, Tomas; et al. (2013). Efficient Estimation of Word Representations in Vector Space↩︎
Pennington, Jeffrey, et al. “Glove: Global Vectors for Word Representation.”↩︎
Le, Q. V. & Mikolov, T. "Distributed Representations of Sentences and Documents"↩︎
Bojanowski, Piotr, et al. "Enriching Word Vectors with Subword Information."↩︎
Peters, Matthew E., et al. "Deep Contextualized Word Representations."↩︎
Devlin, Jacob, et al. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.”↩︎
Akbik, A.; Blythe, D. & Vollgraf, R. Contextual string embeddings for sequence labeling↩︎
Lan, Zhenzhong, et al. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.”↩︎
Biobert : pre-trained biomedical language representation model for biomedical text mining↩︎
Camembert : a tasty french language model↩︎
Camembert : a tasty french language model↩︎