Pandas profiling permet de produire un rapport HTML interactif à partir d’un DataFrame produit par pandas. Pandas propose df.describe(); cette librairie ajoute df.profile_report() pour une analyse rapide. Des exemples sont proposé dans la documentation, tel que https://pandas-profiling.github.io/pandas-profiling/examples/russian_vocabulary/russian_vocabulary.html .

Voici ce qui peut être trouvé dans ce rapport :

  • Les essentiels : type, valeurs uniques, valeurs manquantes
  • Les quartiles (min, Q1, médiane, Q3, max, écart interquartile)
  • Des statistiques descriptives (moyenne, valeur dominante, déviation, somme, médiane, déviation absolue, coefficient de variation, coefficient d’acuité, asymétrie)
  • Les valeurs les plus courantes
  • Des histogrammes
  • Une mise en évidence de variables corrélées, des matrices de Spearman, Pearson et Kendall
  • Des valeurs manquantes (matrices, comptage, heatmap, dendogramme)

Ce projet est indépendant de Pandas.