Apache Superset

Apache Superset est une application web de Business Intelligence (BI) actuellement en incubation au sein de l’Apache Software Foundation (ASF).

L’outil propose principalement de nombreux outils permettant de représenter et visualiser les données, une interface permettant d’explorer …

plus ...

Arrow

Arrow offre une solution unifiée pour la création, la manipulation, la conversion et la présentation de dates et autres données temporelles. L’intérêt mis en avant est de minimiser le nombre d’imports et le code necéssaire pour couvrir les …

plus ...

AutoKeras

AutoKeras est une librairie de machine learning automatisé (AutoML). L’AutoML a pour but de rendre les outils de deep learning accessibles à des experts dans diverses disciplines ayant une compétence en machine learning limitée. AutoKeras propose des fonctions cherchant …

plus ...

Beautiful Soup

Beautiful Soup est une librairie proposant une façon aisée de récupérer du contenu depuis des pages web. Reposant sur un parser XML ou HTML (lxml et html5lib), cette librairie décompose le code source en un arbre syntaxique, rendant l’itération …

plus ...

Bokeh

Bokeh est une librairie open-source Python interactive se concentrant sur la visualisation de données en créant des présentations web dynamiques (utilisant JavaScript). Les présentations peuvent être des applications, dashboard, une exploration via les notebooks Jupyter, une visualisation de flux de …

plus ...

Cerberus

Cerberus est une librairie extensible et légère de validation de données.

L’exemple ci-dessous, tiré de la documentation, met en avant l’utilisation simple.

>>> v = Validator({'name': {'type': 'string'}})
>>> v.validate({'name': 'john doe'})
True

Cerberus permet de valider le …

plus ...

Chainer

Chainer est une librarie Python de deep learning se présentant comme puissante, souple et intuitive. Elle propose des APIs de différentiation automatique ainsi que des APIs haut-niveau en orienté objet pour pouvoir construire et entrainer des réseaux de neurones. Chainer …

plus ...

CuPy

Une implémentation de tableaux multi-dimensionnels compatibles avec ceux de NumPy, fonctionnant avec puces CUDA. Cela permet de transférer les calculs du CPU au GPU pour un gain de performance d’un facteur allant jusqu’à 10.000% lors de la …

plus ...

Dask

Dask est une librairie pour la parallélisation. En s’appuyant sur des librairies communes, NumPy et Pandas, et en proposant une interface semblable, Dask se veut facile d’utilisation. Les collections ainsi crées (Array, DataFrame, Bag, Delayed, Future) peuvent ainsi …

plus ...

Dataset

Dataset rend une base de données la solution la plus facile pour sauvegarder des données structurées, devant le format CSV.

La base de données relationnelle a besoin d’un schéma. Celui-ci est créé automatiquement. Aussi, les données sont créées ou …

plus ...

Datasette

Datasette est un outil visant l’exploration et la publication de données. Le but est de pouvoir prendre n’importe quelles données et en faire un site web interactif, explorable, avec une API.

Le but est de permettre à des …

plus ...

dtale

D-Tale est la combinaison d’un backend Flask et d’un frontend React pour apporter un moyen facile de visualiser et d’analyser les structures de données de Pandas. Il s’intègre parfaitement aux notebooks ipython/jupyter.

Actuellement, cet outil …

plus ...

Faker

Faker est un module qui génère des données fictives. Ces données peuvent servir à peupler une base de données ou générer des documents XML corrects. Faker permet aussi de faire un test de passage à l’échelle de la persistance …

plus ...

Folium

Folium permet de visualiser des données en Python dans des cartes leaflet.js interactives et stylisées.

De cette façon, il est aisé de manipuler les données en python avant de les représenter sous divers types de cartes. Il est aussi …

plus ...

Gensim

Gensim est une librairie permettant de découvrir les thèmes d’un document, de les indexer et de repérer des similarités dans un grand volume de documents. Gensim fonctionne de façon non supervisée : l’utilisateur ne doit pas fournir de données …

plus ...

graph-tool

graph-tool est un module permettant la manipulation et l’analyse statistique de graphes. Pour ce faire, de nombreuses opérations sont proposées, mais aussi des générateurs, …

Malgré son apparence de module Python, les opérations critiques sont écrites en C++ et utilisant …

plus ...

HoloViews

HoloViews est une librairie travaillant sur la visualisation et l’analyse de données. Les représentations sont dérivées d’annotations qu’il faut ajouter aux données.

HoloViews peut utiliser Bokeh, Matplotlib ou Plotly pour la représentation, ce qui permet une grande …

plus ...

HyperTools

HyperTools est une librairie se concentrant sur la visualisation et la manipulation de données ayant de nombreuses variables. Le rendu est fait avec matplotlib et seaborn. La manipulation des données est faite via scikit-learn. Des exemples sont disponibles dans un …

plus ...

Joblib

Joblib est un ensemble d’outils légers pour le pipelining en Python. En particulier, Joblib offre un service de mise en cache de fonctions, de mémoization, et du parralélisme simple.

De cette façon, Joblib promet d’éviter de calculer la …

plus ...

JupyterLab

JupyterLab est un environnement modulable proposant une interface web pour le projet Jupyter. On y trouve un éditeur de code proposant des résultats interactifs et reproductibles. Cette modularité et les modules (terminal, console, navigateur de fichiers, …) en font une solution …

plus ...

Keras

Keras est une librairie permettant la création de réseaux de neurones à haut-niveau. Keras utilise Tensorflow, CNTK ou Theano en interne. Le but est de permettre un prototypage rapide. Keras supporte les réseaux convolutifs, récursifs et tourne aussi bien sur …

plus ...

Lifelines

Lifelines est une implémentation d’analyse de survie : quelle est la probabilité qu’un évènement mettant fin aux interactions (“mort”) se produise, en fonction du temps ? Et quelle sera notre population après un temps donné ?

Ses spécificités sont :

  • De s …
plus ...

Lifetimes

Lifetimes est une librairie permettant d’évaluer et de prédire la valeur totale d’un client, jusqu’à sa dernière interaction.

Cela se fait sous deux hypothèses :

  • Un utilisateur qui interagi est “vivant”
  • Un utilisateur peut “périr” après un certain …
plus ...

Luigi

Luigi est une librairie aidant à la création de pipelines complexes. Elle prend en charge la résolution des dépendances, la gestion du workflow, la visualisation, la gestion des erreurs, l’intégration au terminal et d’autres tâches associées.

Le serveur …

plus ...

Matplotlib

Matplotlib est une librairie de rendu de graphique. Elle peut être utilisée dans des scripts Python, dans le terminal ou dans des notebooks Jupyter.

Alt Text

Matplotlib propose :

  • De nombreux types de graphiques (2D et 3D)
  • Ligne (tracé de fonction, courbe)
  • Image …
plus ...

Mimesis

Mimesis est un module rapide et facile d’utilisation qui aide à générer de grands volumes de données fictives dans de nombreuses langues.

Ces données fictives peuvent être très utiles lors du développement et pour des tests. Par exemple, elle …

plus ...

MLflow

MLflow est un ensemble de librairies visant à intégrer les différents aspects du machine learning ensemble. Les APIs ainsi proposées sont compatibles entre elles et avec diverses librairies de machine learning existantes.

Les trois modules actuels sont : * MLflow Tracking : Une …

plus ...

NetworkX

NetworkX est un module ciblant la création, la manipulation et l’étude des structures, dynamiques et fonctions de graphes complexes. Le public visé est composé de mathématiciens, physiciens, biologistes, informaticiens ou sociologues.

En particulier, NetworkX propose :

  • Des structures de données …
plus ...

Natural Language Toolkit (NLTK)

Natural Language Toolkit (NLTK) est un ensemble de modules Python, de données et de tutoriels dans le domaine du traîtement des langues.

NLTK propose des algorithmes pour les tâches courantes du domaines, à savoir :

  • L’analyse de texte
  • La décomposition …
plus ...

NumExpr

NumExpr est un évaluateur à haute performance pour les expressions numériques. De cette façon, l’expression 3*a+4*b est accélérée et utilise moins de mémoire lors de l’utilisation de tableau. De plus, le multithread (paramétrable via des …

plus ...

NumPy

NumPy est la librairie fondamentale de calculs scientifiques. Elle est utilisée par de nombreuses autres librairies et projets pour la gestion de calculs. En particulier, elle offre :

  • Des tableaux multidimensionnels et l’accès aux fonctions mathématiques courantes, aux comparaisons, à …
plus ...

Orange

Orange est un système de datamining composé de différents sous-modules. Sont inclus :

  • la visualisation de données
  • l’exploration
  • le pré-traitement
  • des techniques de génération de modèle
  • Une interface graphique et une API intuitives

Le module Python est disponible séparément de …

plus ...

Pandas Profiling

Pandas profiling permet de produire un rapport HTML interactif à partir d’un DataFrame produit par pandas. Pandas propose df.describe(); cette librairie ajoute df.profile_report() pour une analyse rapide. Des exemples sont proposé dans la documentation, tel que https …

plus ...

pandas

pandas est une librairie proposant des structures de données souples et performantes. Les deux structures principales de pandas sont les Series (1D) et les DatafFrames, semblables aux objets data.frame disponibles avec le langage R. Les données considérées peuvent être …

plus ...

Patsy

Patsy est une librairie permettant la description de modèles statistiques (comportant un facteur linéaire) et permettant de construire des matrices de design. Celles-ci peuvent définir une régression ou une appartenance à des groupes.

La syntaxe utilisée est inspirée et compatible …

plus ...

Pattern

Pattern est un module de de data mining sur le web. Il comporte des outils pour Google, Twitter, l’API Wikipedia, le web et l’HTML. Il y a également des outils pour le traitement de la langue, pour l …

plus ...

Peewee

Peewee est un petit ORM (s’occupant du mapping objet-modèle relationnel), facile d’utilisation. La syntaxe se rapproche de celle de Django et Peewee supporte des connexions vers sqlite, mysql, postgresql et cockroachdb.

Peewee propose tous les services d’un …

plus ...

Pendulum

Pendulum est une solution de représentation du temps plus complète que le paquet datetime par défaut. Pour une meilleure intégration avec les projets existant, la classe pendulum est une sous-classe de datetime. Cela permet de remplacer naïvement toutes les instances …

plus ...

plotly.py

plotly.py est une librairie proposant des graphes interactifs sur des pages web. plotly.py est construit sur base de plotly.js qui propose une quarantaine de graphes différents. Ces représentations sont disponibles dans des notebooks jupyter.

Parmi les représentations …

plus ...

Plotnine

Plotnine est une librairie permettant de construire des graphiques selon la même grammaire que ggplot2, en R. Le fait d’avoir la même syntaxe de création aide au port ou à la transition de R à Python. De plus, cette …

plus ...

Polyglot

Polyglot est une librairie de compréhension du texte, supportant de très nombreuses langues.

En particulier, Polyglot offre les fonctions suivantes, toujours accessibles avec des appels de très haut niveau (typiquement en une commande) :

  • Tokenisation (165 langues)
  • Reconnaissance de la langue …
plus ...

Prophet

Prophet est une librairie ciblant les marchés financiers. Son objectif est de proposer une interface simple mais flexible pour permettre au développeur de se concentrer sur la modélisation de stratégies financières, de gestion de portfolio, ou des test rétro-actif.

Pour …

plus ...

pyspider

pyspider est une librairie proposant un robot d’indexation paramétrable en Python. Une fois le script rédigé, une interface web permet d’explorer les résultats et processus en cours. L’architecture de pyspider permet une utilisation distribuée.

Alt Text

Les différentes informations …

plus ...

igraph

igraph est une librairie efficace pour la recherche et l’analyse de réseaux. Le paquet logiciel python-igraph propose une interface pour accéder à ses différentes fonctionnalités.

La librairie de base, en C, est à installer et compiler indépendemment du module …

plus ...

PyTorch

PyTorch est une librairie proposant des tenseurs et des réseaux de neurones dynamiques rapides grâce à l’accélération graphique (GPU).

La librairie est principalement utilisée pour soit:

  • Remplacer NumPy et profiter de la dite accélération graphique
  • Faire de la recherche …
plus ...

Requests

Requests permet d’envoyer des requêtes HTTP/1.1 extrêment facilement. La librairie permet de ne pas avoir à ajouter des commandes de requêtes aux urls ou d’encoder les données d’un POST. Le maintient de la connexion et …

plus ...

Schema

Schema est une librairie de data validation. Elle permet de valider des structures provenant de fichiers de configuration, formulaires, services en lignes, commandes dans le terminal, JSON/YAML, le tout sous forme de types Python.

Schema valide :

  • Le type
  • Les …
plus ...

Schematics

Schematics propose des solutions pour décrire des données grâce à l’utilisation d’un modèle. Ce modèle permet de définir les types et certains paramètres de validation (longueur, valeur, …).

Une fois le modèle créé et les données rentrées (dynamiquement ou …

plus ...

scikit-learn

scikit-learn est un module Python de machine learning reposant sur SciPy, NumPy et matplotlib (pour le rendu).

scikit-learn propose des outils puissant pour l’analyse et la prédiction de données.

Parmi les outils proposés :

  • Des méthodes de classification
  • Des outils …
plus ...

Scipy

SciPy, la librairie, est un ensemble de modules mathématiques et scientifiques. En particulier, il y a des modules ayant pour sujet :

  • Les statistiques
  • L’optimisation
  • L’intégration
  • L’algèbre linéaire
  • Les transformées de Fourier
  • Le traitement du signal
  • La résolution …
plus ...

Scrapy

Scrapy est un robot d’indexation et de récupération de données structurées.

Scrapy peut être utilisé de la sorte pour du data mining, de la surveillance de site ou pour des tests automatisés.

Pour lancer une activité, il faut créer …

plus ...

seaborn

Seaborn est un outil de visualisation statistique, construit par-dessus matplotlib et pensé pour l’utilisation avec pandas.

Alt Text

Seaborn propose principalement des représentations relationnelles, par catégorie, des distributions, régressions, et représentations multiples (sur des sous-ensembles des données). Le tout propose des …

plus ...

spaCy

spaCy est une librairie du traitement du langage (NLP), fonctionnant en Python et Cython. L’intention est de, sur base de l’état actuel de la recherche, proposer un outil de NLP permettant de créer des produits d’une qualité …

plus ...

Spark

Spark est un système de calcul distribué efficace et généraliste, visant le domaine du Big Data. Le cœur de Spark contient des routines de calcul optimisées pour l’analyse de données, avec des API, ici en Python.

Le principal apport …

plus ...

Spyder

Spyder est un environnement scientifique pour Python, en Python, pensé par des scientifiques. On y trouve les outils de traitement de texte avancés, mais aussi d’analyse, de débuggage, de profilage, et des outils de représentation, d’exploration et d …

plus ...

statsmodels

statsmodels est un module Python visant à complèter SciPy, en terme de statistique descriptive, d’économétrie, d’estimation ou d’inférence (se basant à chaque fois sur un modèle pertinent).

import numpy as np
import statsmodels.api as sm

# Génération …
plus ...

Sympy

Sympy est une librairie pour les mathématiques, utilisant des symboles. Son but est d’être un système algébrique (computer algebra system, CAS en anglais) complet, tout en gardant le code le plus simple possible. Sympy se base sur mpmath. D …

plus ...

TensorFlow

TensorFlow est un ensemble d’outils et de librairies visant à supporter la recherche en machine learning et facilitant le développement d’applications concrètes.

TensorFlow était un projet de l’équipe Google Brain. Les APIs sont en Python et C …

plus ...

TextBlob

TextBlob est une librairie proposant une API simple permettant d’accéder à des fonctions d’analyse liées au traitement du langage (NLP).

TextBlob repose par-dessus NTLK et pattern, deux librairies communes de NLP, et permet de jongler avec celles-ci dans …

plus ...

toolz

toolz est une ensemble de fonctions d’utilité générale pour les itérateurs, les fonctions et les dictionnaires.

Toutes ces nouvelles fonctions sont :

  • Composables (sont interopérables)
  • Sans effet de bord
  • Efficientes : ne calculent que le necéssaire
  • Low Tech : Pas d’artifice …
plus ...

Voluptuous

Voluptuous est un module de validation de données visant principalement les formats JSON et YAML. Ses trois buts sont :

  • La simplicité
  • Le support de structures complexes
  • La génération de messages d’erreur utiles

Voici deux exemples venant du dépôt de …

plus ...