Gensim

Gensim est une librairie permettant de découvrir les thèmes d’un document, de les indexer et de repérer des similarités dans un grand volume de documents. Gensim fonctionne de façon non supervisée : l’utilisateur ne doit pas fournir de données …

plus ...

Natural Language Toolkit (NLTK)

Natural Language Toolkit (NLTK) est un ensemble de modules Python, de données et de tutoriels dans le domaine du traîtement des langues.

NLTK propose des algorithmes pour les tâches courantes du domaines, à savoir :

  • L’analyse de texte
  • La décomposition …
plus ...

Pattern

Pattern est un module de de data mining sur le web. Il comporte des outils pour Google, Twitter, l’API Wikipedia, le web et l’HTML. Il y a également des outils pour le traitement de la langue, pour l …

plus ...

Polyglot

Polyglot est une librairie de compréhension du texte, supportant de très nombreuses langues.

En particulier, Polyglot offre les fonctions suivantes, toujours accessibles avec des appels de très haut niveau (typiquement en une commande) :

  • Tokenisation (165 langues)
  • Reconnaissance de la langue …
plus ...

spaCy

spaCy est une librairie du traitement du langage (NLP), fonctionnant en Python et Cython. L’intention est de, sur base de l’état actuel de la recherche, proposer un outil de NLP permettant de créer des produits d’une qualité …

plus ...

TextBlob

TextBlob est une librairie proposant une API simple permettant d’accéder à des fonctions d’analyse liées au traitement du langage (NLP).

TextBlob repose par-dessus NTLK et pattern, deux librairies communes de NLP, et permet de jongler avec celles-ci dans …

plus ...