Gensim est une librairie permettant de découvrir les thèmes d’un document, de les indexer et de repérer des similarités dans un grand volume de documents. Gensim fonctionne de façon non supervisée : l’utilisateur ne doit pas fournir de données annotées.
C’est un procédé utilisé dans le traitement du langage (NLP) mais aussi par Cisco pour la détection de fraudes à grande échelle, Amazon pour la découverte de documents similaires, la recherche de candidats dans le recrutement,…
Les algorithmes utilisés ne dépendent pas de la mémoire : un volume supérieur à la la RAM allouée est utilisable. Les APIs utilisées sont simples, et les algorithmes ont des implémentations multi-processeurs et distribuées.
Des détails supplémentaires et des exemples dans des notebooks Jupyter sont disponibles dans la documentation.