Traitement Automatique de la Langue: Plongeon au cœur des Word Embeddings

De Word2vec à BERT, un espoir nouveau pour le TAL

Mikaël Dusenne

2021-11-23

Introduction

80% des données cliniques pertinentes sont non structurées

Comment représenter efficacement les données textuelles pour l'apprentissage automatique?

Apprentissage automatique et langage naturel

Approches classiques : un mot / n-gram = une variable

Problèmes :

  • Pas de notion de distance sémantique
  • Très grand nombre de variables
  • Données éparses
mot hospitalisé asthme occlusion ... colique intestinale aigüe
0 asthme 0 1 0 ... 0 0 0
1 colique 0 0 0 ... 1 0 0
2 intestinale 0 0 0 ... 0 1 0

Word Embeddings

  • Représentation dense des mots
  • Vecteurs de nombres réels
  • Dimension indépendante de la taille du vocabulaire
  • Proximité dans l'espace vectoriel corrélée à la similarité sémantique
mots 0 1
0 asthme 0.888 0.014
1 colique 0.017 1.500
2 intestinale -0.420 1.880

Word Embeddings

Les Embeddings permettent d'utiliser le calcul vectoriel pour effectuer des transformations sémantiques

King + (Woman - Man) = Queen

Embeddings et TAL : implémentations

  • 2013 : Word2Vec 20131 :
    • réseau de neurones pour créer les embeddings
  • 2014 : GloVe 2
    • "global vectors", matrice de co-occurence utilisant le corpus entier
  • 2014 : Doc2Vec 3
    • Vecteurs de Documents
  • 2016 : FastText 4
    • Décomposition des mots en n-grams de caractères
  • 2018 : ELMo 5
    • utilise l'ordre des mots (LSTM bi-directionnel)
  • 2018 : BERT 6
    • utilise des "attention network" (Transformer)
    • gestion des homonymes
  • 2018 : Flair 7
    • Zalando Research
    • Étiquetage morpho-syntaxique
  • 2019 : ALBERT 8
    • Améliore BERT : moins de paramètres, entraînement plus rapide
  • 2019 : BioBERT 9
    • pré-entraîné sur pubmed et PMC (en anglais)
  • 2019 : camemBERT 10
    • pré-entraîné sur un corpus français ( OSCAR corpus, non médical)
  • 2019 : FlauBERT 11
    • pré-entraîné sur un corpus français (non médical)

2013 - word2vec

  • Première adaptation réellement fonctionnelle des techniques d'embedding au TAL
  • réseau de neurones simple
  • apprentissage "semi-supervisé"
The quick brownfoxjumps over the lazy dog ...

Inconvénients:

  • Ne prend pas en compte l'ordre des mots dans le contexte
  • un mot a toujours la même représentation -> problème pour la polysémie

2015 - Représentations contextuelles

Besoin d'une solution pour prendre en compte l'ordre des mots

Le LSTM est un type de réseau neuronal récurrent qui introduit des boucles permettant à une information apparue précédemment d'être "mémorisée".

-> Respect de l'ordre d'apparition des mots dans une phrase. Semi-supervised Sequence Learning (Andrew M. Dai, Quoc V. Le)

2017 - ELMo

Embeddings for Language Models (ELMo)

Combine un LSTM "en avant" et un LSTM "en arrière"

2018 - Generative Pre-trained Transformer

  • GPT1 créé par OpenAI
  • Utilise pour la première fois les mécanismes d'Attention apportés par les transformers pour accorder une importance plus grande à certains mots
  • Publication: Attention Is All You Need (Ashish Vaswani et al.)

Réseaux neuronaux et Mécanisme d'Attention

Transformers

  • Les transformers permettent d'utiliser les mécanismes d'attention afin de se référer aux mots précédents d'une phrase, sans avoir recours aux réseaux récurrents (LSTM).
  • utilisent le matériel récent (GPU, TPU) de façon beaucoup plus efficace (parallélisation plus simple)

Inconvénients de GPT

Le modèle est uni-directionnel (le texte n'est lu que de gauche à droite)

2018 - Bidirectional Encoder Representations from Transformers (BERT)

  • Réellement bidirectionnel
  • Utilise les transformers
  • entraînement en [MASK]ant 15% des mots de chaque phrase

Performances

BERT-like

  • (2019) BioBERT : a pre-trained biomedical language representation model for biomedical text mining
    • BERT entraîné sur des documents biomédicaux en anglais
    • amélioration significative des performances sur des tâches biomédicales
    • démontre la possibilité de créer des modèles spécialisés dans certains domaines
  • (2019) RoBERTa : A Robustly Optimized BERT Pretraining Approach
    • Réévalue et améliore l'entraînement de BERT
  • (2019) ALBERT : A Lite BERT for Self-supervised Learning of Language Representations
    • optimisation de BERT: réduction drastique du # de paramètres ( 12M, -89% )
  • (2019) StructBERT : Incorporating Language Structures into Pre-training for Deep Language Understanding
    • focus sur la structure du langage, ajout d'une tâche de reconstruction de l'ordre des mots / phrases pendant l'entraînement
  • (2019) TinyBERT : Distilling BERT for Natural Language Understanding
    • 7.5x smaller, 9.4x faster, 96.8% of BERT performances on GLUE
  • (2019) FlauBERT : Unsupervised Language Model Pre-training for French
    • entraîné sur l'ordinateur Jean Zey au CNRS ( 28 PétaFlops )
    • sur un corpus français généraliste
    • FLUE
  • (2020) DeBERTa : Decoding-enhanced BERT with Disentangled Attention
    • amélioration de la gestion de la position des mots
  • (2021) BERTAC : Enhancing Transformer-based Language Models with Adversarially Pretrained Convolutional Neural Networks
    • CNN utilisant un apprentissage de type GAN sur le texte de wikipedia, puis combiné à ALBERT
  • (2020) CamemBERT : a Tasty French Language Model
    • Basé sur RoBERTa
    • entrainé sur le corpus multilingue OSCAR

Travaux au D2IM

Travaux au D2IM

Travaux Emeric Dynomant

  • Sujet : Bioinformatics articles structuring with an end-to-end processing pipeline
  • Machine Learning for NLP; word & document embeddings for text
  • Word embeddings
    • Comparaison de cinq algorithmes sur 11,8 M de documents de santé d’un EDS
  • Document embeddings
    • Doc2Vec2PubMed vs. algorithme actuel Related Articles

Dynomant E, Lelong R, Dahamna B, Massonnaud C, Kerdelhué G, Grosjean J, Canu S, Darmoni SJ. Word Embedding for the French Natural Language in Health Care: Comparative Study. JMIR Med Inform. 2019 Jul 29;7(3):e12310.

Word embeddings dans deux contextes différents

QUERY : "facebook"

Espace vectoriel disponible pour la communauté scientifique

Annotateur Sémantique

Intégration de BERT* pour améliorer l'annotateur sémantique de l'EDSaN ?

Merci

Doc2VecPubMed

Emeric Dynomant et coll.

Doc2Vec on the PubMed corpus: study of a new approach to generate related articles,

HAL

https://arxiv.org/abs/1911.11698


  1. Mikolov, Tomas; et al. (2013). Efficient Estimation of Word Representations in Vector Space↩︎

  2. Pennington, Jeffrey, et al. “Glove: Global Vectors for Word Representation.”↩︎

  3. Le, Q. V. & Mikolov, T. "Distributed Representations of Sentences and Documents"↩︎

  4. Bojanowski, Piotr, et al. "Enriching Word Vectors with Subword Information."↩︎

  5. Peters, Matthew E., et al. "Deep Contextualized Word Representations."↩︎

  6. Devlin, Jacob, et al. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.”↩︎

  7. Akbik, A.; Blythe, D. & Vollgraf, R. Contextual string embeddings for sequence labeling↩︎

  8. Lan, Zhenzhong, et al. “ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations.”↩︎

  9. Biobert : pre-trained biomedical language representation model for biomedical text mining↩︎

  10. Camembert : a tasty french language model↩︎

  11. Camembert : a tasty french language model↩︎