Documentation Gensim

Sur cette page tu trouveras comment installer et manipuler la bibliothèque Gensim

Installation de Gensim

Installation et import

Gensim est une bibliothèque Python utilisée pour la modélisation de sujet, l’indexation de texte et la similarité de document.

Étape 1 : Installation de la bibliothèque
! pip install gensim
Étape 2 : Import de KeyedVectors

On va importer KeyedVectors qui permet d’accéder avec une structure efficace aux vecteurs de mots et opérations de similarité entre les mots.

from gensim.models import KeyedVectors

Les méthodes de base

load_word2vec_format()

On peut charger notre modèle de mots pré-entraînés grâce à la fonction load_word2vec_format().
Elle prend en charge 3 arguments :
  • le chemin vers le fichier
  • binary=True pour indiquer que le fichier est au format binaire
  • unicode_errors= »ignore » pour ignorer les erreurs de décodage Unicode
model = KeyedVectors.load_word2vec_format("/content/frWac_non_lem_no_postag_no_phrase_200_cbow_cut100.bin", binary=True, unicode_errors="ignore")

 

most_similar()

Avec most_similar(), on va aller chercher dans notre modele, les mots similaires à celui que l’on va lui donner.
Dans cet exemple :
  • collège est le mot pour lequel on recherche des mots similaires
  • topn=20 spécifie que l’on veut récupérer 20 mots similaires
 
model.most_similar("collège",topn=20)

 

most_similar_cosmul()

most_similar_cosmul() va permettre de faire des calculs pour trouver les mots les plus similaires

En donnant dans une variable « positifs » les mots « chat » et « chiot » et dans la variable « negatifs » le mot « chien », le code fera ce calcul :

  • chat + chiot – chien = ?

Le résultat : 

  • On obtient une liste de tuples, avec un mot et sa température de similarité. Pour rappel la température est basée entre 0 et 1, 1 étant le plus chaud.
positifs = ["chat","chiot"]
negatifs=["chien"]
model.most_similar_cosmul(positive = positifs, negative = negatifs)

similarity()

Avec similarity() je peux voir la température entre 2 mots
 
model.similarity("chat","chien")
 
Retour en haut