Gensim

Gensim est une librairie permettant de découvrir les thèmes d’un document, de les indexer et de repérer des similarités dans un grand volume de documents. Gensim fonctionne de façon non supervisée : l’utilisateur ne doit pas fournir de données …

plus ...

Orange

Orange est un système de datamining composé de différents sous-modules. Sont inclus :

  • la visualisation de données
  • l’exploration
  • le pré-traitement
  • des techniques de génération de modèle
  • Une interface graphique et une API intuitives

Le module Python est disponible séparément de …

plus ...

Scrapy

Scrapy est un robot d’indexation et de récupération de données structurées.

Scrapy peut être utilisé de la sorte pour du data mining, de la surveillance de site ou pour des tests automatisés.

Pour lancer une activité, il faut créer …

plus ...

Spark

Spark est un système de calcul distribué efficace et généraliste, visant le domaine du Big Data. Le cœur de Spark contient des routines de calcul optimisées pour l’analyse de données, avec des API, ici en Python.

Le principal apport …

plus ...