Documentation Gensim
Sur cette page tu trouveras comment installer et manipuler la bibliothĆØque Gensim
Installation de Gensim
Installation et import
Gensim est une bibliothĆØque Python utilisĆ©e pour la modĆ©lisation de sujet, l’indexation de texte et la similaritĆ© de document.
Ćtape 1 : Installation de la bibliothĆØque
! pip install gensim
Ćtape 2 : Import de KeyedVectors
On va importer KeyedVectors qui permet d’accĆ©der avec une structure efficace aux vecteurs de mots et opĆ©rations de similaritĆ© entre les mots.
from gensim.models import KeyedVectors
Les mƩthodes de base
load_word2vec_format()
On peut charger notre modèle de mots pré-entraînés grâce à la fonction load_word2vec_format().
Elle prend en charge 3 arguments :
Elle prend en charge 3 arguments :
- le chemin vers le fichier
- binary=True pour indiquer que le fichier est au format binaire
- unicode_errors= »ignore » pour ignorer les erreurs de décodage Unicode
model = KeyedVectors.load_word2vec_format("/content/frWac_non_lem_no_postag_no_phrase_200_cbow_cut100.bin", binary=True, unicode_errors="ignore")Ā
most_similar()
Avec most_similar(), on va aller chercher dans notre modele, les mots similaires Ć celui que l’on va lui donner.
Dans cet exemple :
- collĆØge est le mot pour lequel on recherche des mots similaires
- topn=20 spĆ©cifie que l’on veut rĆ©cupĆ©rer 20 mots similaires
Ā
model.most_similar("collĆØge",topn=20)Ā
most_similar_cosmul()
most_similar_cosmul() va permettre de faire des calculs pour trouver les mots les plus similaires
En donnant dans une variable « positifs » les mots « chat » et « chiot » et dans la variable « negatifs » le mot « chien », le code fera ce calcul :
- chat + chiot – chien = ?
Le rĆ©sultat :Ā
- On obtient une liste de tuples, avec un mot et sa tempƩrature de similaritƩ. Pour rappel la tempƩrature est basƩe entre 0 et 1, 1 Ʃtant le plus chaud.
positifs = ["chat","chiot"]
negatifs=["chien"]
model.most_similar_cosmul(positive = positifs, negative = negatifs)
similarity()
Avec similarity() je peux voir la tempƩrature entre 2 mots
Ā
model.similarity("chat","chien")Ā
