Natural Language Toolkit (NLTK) est un ensemble de modules Python, de données et de tutoriels dans le domaine du traîtement des langues.

NLTK propose des algorithmes pour les tâches courantes du domaines, à savoir :

  • L’analyse de texte
  • La décomposition en symbole
  • L’étiquetage de mots
  • La visualisation de l’arbre syntaxique
  • L’analyse de fréquence
  • La reconnaissance de racines étymologiques
  • L’analyse de sentiment (négatif/positif). Cette approche est proposée soit en se basant sur la valeur intrinsèque des mots, soit par la création d’un modèle de classification (par exemple, TF-IDF)
  • Détecter les phases d’un dialogue
  • L’utilisation du contexte

Des métriques appropriées sont proposées avec chaque outil pour en juger et comparer l’efficacité avec d’autres méthodes.

NLTK est utilisé comme support de cours (le plus souvent liés à la linguistiques) dans de nombreuses universités telles que l’université de Toronto, d’Anvers ou de Paris 7.