Polyglot est une librairie de compréhension du texte, supportant de très nombreuses langues.

En particulier, Polyglot offre les fonctions suivantes, toujours accessibles avec des appels de très haut niveau (typiquement en une commande) :

  • Tokenisation (165 langues)
  • Reconnaissance de la langue (196 langues)
  • Reconnaissance d’entités nommées (lieux, personnes, …) (40 langues)
  • Étiquettage de la parole (reconnaissance des fonctions grammaticales) (16 langues)
  • Analyse de sentiments (connotation positive ou négative) (136 langues)
  • Proposition de mots semblables (synonymes) (137 langues)
  • Analyse morphologique (décomposition en morphèmes)(135 langues)
  • Traduction (69 langues)

L’utilisation se fait à très haut niveau, comme mis en avant dans cet exemple tiré de la documentation :

text = Text(u"In Großbritannien war Gandhi mit dem westlichen Lebensstil vertraut geworden")
print(text.entities)
[I-LOC([u'Gro\xdfbritannien']), I-PER([u'Gandhi'])]