Vérificateur de la loi de Benford

Importez un fichier CSV, choisissez vos colonnes et comparez les fréquences du premier chiffre aux attentes de Benford.

1) Données

Local uniquement 🔒
Exemples locaux :
Sélectionnez une ou plusieurs colonnes. Les nombres sont normalisés (monnaies, espaces, virgule décimale) et les zéros/vides ignorés.

2) Résumé

Méthodes : χ² & MAD 📐
n = 0
χ² = —
Seuils 10% / 5% / 1%
MAD = —

Seuils χ² (df = 8) : 13,36 (10%), 15,51 (5%), 20,09 (1%). Barème MAD (Nigrini) : <0,006 proche, 0,006–0,012 acceptable, 0,012–0,015 marginal, >0,015 non conforme.

3) Vue d'ensemble

Observé Benford

4) Détail par chiffre

Chiffre Observé (n) Observé (%) Théorique (%) Écart (points) Contribution χ²

5) Colonnes non conformes (parmi la sélection)

Colonne n MAD Verdict χ²

Sélectionnez des colonnes et lancez l'analyse.

À propos de la loi de Benford

Référence rapide ℹ️

Définition. Pour de nombreuses données quantitatives du monde réel, la distribution du premier chiffre significatif suit : P(d) = log10(1 + 1/d) pour d ∈ {1,…,9}. Ainsi, ~30,1% des nombres commencent par 1, ~17,6% par 2, …, ~4,6% par 9.

Quand ça s'applique le mieux ? Lorsque les données :

  • s'étendent sur plusieurs ordres de grandeur (échelles variées) ;
  • ne sont pas tronquées artificiellement (plafonds/planchers stricts) ;
  • ne sont pas générées par attribution (numéros de facture séquentiels, codes postaux, n° client, etc.).

Exemples qui marchent souvent : montants comptables agrégés, soldes, surfaces, longueurs de segments, populations, constantes physiques, mesures scientifiques positives.

Exemples qui marchent mal : prix TTC au psychologique (9,99 €), valeurs plafonnées (tickets-resto), numéros d'identifiant, données avec trop de zéros ou valeurs négatives massives.

Tests ici. L'outil calcule :

  • χ² (df = 8) vs Benford, avec seuils indicatifs 10% / 5% / 1% ;
  • MAD (Mean Absolute Deviation) avec barème de Nigrini pour qualifier l'écart.

Ces tests sont des indicateurs : un écart n'implique pas nécessairement fraude, mais invite à explorer les causes (qualité des données, segmentation, processus).

Taille d'échantillon. Recommandé : ≥ 500 observations pour des conclusions stables. En-dessous, privilégier le MAD et l'analyse qualitative.

Préparation des données. Sélectionnez une ou plusieurs colonnes numériques : l'outil agrège toutes les valeurs valides en un seul échantillon et ignore les zéros, cellules vides et non numériques. Les montants négatifs sont pris en valeur absolue pour le premier chiffre. Les symboles monétaires et séparateurs FR/US sont gérés.

Limites : l'application actuelle vérifie les premiers chiffres uniquement. Dites-moi si vous souhaitez ajouter le deuxième chiffre, les paires (1er-2e), ou un calcul de p-value exact.