Documentation Gensim

Sur cette page tu trouveras comment installer et manipuler la bibliothĆØque Gensim

Installation de Gensim

Installation et import

Gensim est une bibliothĆØque Python utilisĆ©e pour la modĆ©lisation de sujet, l’indexation de texte et la similaritĆ© de document.

Ɖtape 1 : Installation de la bibliothĆØque
! pip install gensim
Ɖtape 2 : Import de KeyedVectors

On va importer KeyedVectors qui permet d’accĆ©der avec une structure efficace aux vecteurs de mots et opĆ©rations de similaritĆ© entre les mots.

from gensim.models import KeyedVectors

Les mƩthodes de base

load_word2vec_format()

On peut charger notre modèle de mots pré-entraînés grâce à la fonction load_word2vec_format().
Elle prend en charge 3 arguments :
  • le chemin vers le fichier
  • binary=True pour indiquer que le fichier est au format binaire
  • unicode_errors=Ā Ā»ignoreĀ Ā» pour ignorer les erreurs de dĆ©codage Unicode
model = KeyedVectors.load_word2vec_format("/content/frWac_non_lem_no_postag_no_phrase_200_cbow_cut100.bin", binary=True, unicode_errors="ignore")

Ā 

most_similar()

Avec most_similar(), on va aller chercher dans notre modele, les mots similaires Ć  celui que l’on va lui donner.
Dans cet exemple :
  • collĆØge est le mot pour lequel on recherche des mots similaires
  • topn=20 spĆ©cifie que l’on veut rĆ©cupĆ©rer 20 mots similaires
Ā 
model.most_similar("collĆØge",topn=20)

Ā 

most_similar_cosmul()

most_similar_cosmul() va permettre de faire des calculs pour trouver les mots les plus similaires

En donnant dans une variable « positifs » les mots « chat » et « chiot » et dans la variable « negatifs » le mot « chien », le code fera ce calcul :

  • chat + chiot – chien = ?

Le résultat : 

  • On obtient une liste de tuples, avec un mot et sa tempĆ©rature de similaritĆ©. Pour rappel la tempĆ©rature est basĆ©e entre 0 et 1, 1 Ć©tant le plus chaud.
positifs = ["chat","chiot"]
negatifs=["chien"]
model.most_similar_cosmul(positive = positifs, negative = negatifs)

similarity()

Avec similarity() je peux voir la tempƩrature entre 2 mots
Ā 
model.similarity("chat","chien")
Ā 
Retour en haut