pandas est une librairie proposant des structures de données souples et performantes. Les deux structures principales de pandas sont les Series (1D) et les DatafFrames, semblables aux objets data.frame disponibles avec le langage R. Les données considérées peuvent être structurées, avoir une dépendance temporelle ou être relationnelles (définies par leur relations). pandas est construit par-dessus numpy et s’intègre avec de nombreuses autres librairies.
pandas répond à la plupart des problèmes rencontrés lors de l’analyse de données en proposant :
- La gestion des données manquantes (représentées par NaN)
- Les modifications de dimensions (ajout et suppression de lignes/colonnes)
- L’alignement de données automatique ou explicite
- Des outils de subdivision ou d’aggrégation de données selon des filtres
- La possibilité de convertir des données venant de tableaux Python ou NumPy vers un DataFrame
- Des outils de sélection par tranche, d’indexation et de requête de sous-ensemble pour de grands volumes de données
- Une façon intuitive de fusionner et joindre des ensembles de données
- Diverses transformations sur les données (rotations)
- Une hiérarchisation des axes
- Des outils solides et efficaces pour le chargement de fichier textes (CSV), Excel, des bases de données et du format HDF5
- Des fonctionnalités liées au séries temporelles
pandas est soutenu par NumFOCUS.