Beautiful Soup

Beautiful Soup est une librairie proposant une façon aisée de récupérer du contenu depuis des pages web. Reposant sur un parser XML ou HTML (lxml et html5lib), cette librairie décompose le code source en un arbre syntaxique, rendant l’itération …

plus ...

Dataset

Dataset rend une base de données la solution la plus facile pour sauvegarder des données structurées, devant le format CSV.

La base de données relationnelle a besoin d’un schéma. Celui-ci est créé automatiquement. Aussi, les données sont créées ou …

plus ...

Pattern

Pattern est un module de de data mining sur le web. Il comporte des outils pour Google, Twitter, l’API Wikipedia, le web et l’HTML. Il y a également des outils pour le traitement de la langue, pour l …

plus ...

pyspider

pyspider est une librairie proposant un robot d’indexation paramétrable en Python. Une fois le script rédigé, une interface web permet d’explorer les résultats et processus en cours. L’architecture de pyspider permet une utilisation distribuée.

Alt Text

Les différentes informations …

plus ...

Requests

Requests permet d’envoyer des requêtes HTTP/1.1 extrêment facilement. La librairie permet de ne pas avoir à ajouter des commandes de requêtes aux urls ou d’encoder les données d’un POST. Le maintient de la connexion et …

plus ...

Scrapy

Scrapy est un robot d’indexation et de récupération de données structurées.

Scrapy peut être utilisé de la sorte pour du data mining, de la surveillance de site ou pour des tests automatisés.

Pour lancer une activité, il faut créer …

plus ...

Spark

Spark est un système de calcul distribué efficace et généraliste, visant le domaine du Big Data. Le cœur de Spark contient des routines de calcul optimisées pour l’analyse de données, avec des API, ici en Python.

Le principal apport …

plus ...