Importez un fichier CSV, choisissez vos colonnes et comparez les fréquences du premier chiffre aux attentes de Benford.
Seuils χ² (df = 8) : 13,36 (10%), 15,51 (5%), 20,09 (1%). Barème MAD (Nigrini) : <0,006 proche, 0,006–0,012 acceptable, 0,012–0,015 marginal, >0,015 non conforme.
| Chiffre | Observé (n) | Observé (%) | Théorique (%) | Écart (points) | Contribution χ² |
|---|
| Colonne | n | MAD | Verdict | χ² |
|---|
Sélectionnez des colonnes et lancez l'analyse.
Définition. Pour de nombreuses données quantitatives du monde réel, la distribution du premier chiffre significatif suit : P(d) = log10(1 + 1/d) pour d ∈ {1,…,9}. Ainsi, ~30,1% des nombres commencent par 1, ~17,6% par 2, …, ~4,6% par 9.
Quand ça s'applique le mieux ? Lorsque les données :
Exemples qui marchent souvent : montants comptables agrégés, soldes, surfaces, longueurs de segments, populations, constantes physiques, mesures scientifiques positives.
Exemples qui marchent mal : prix TTC au psychologique (9,99 €), valeurs plafonnées (tickets-resto), numéros d'identifiant, données avec trop de zéros ou valeurs négatives massives.
Tests ici. L'outil calcule :
Ces tests sont des indicateurs : un écart n'implique pas nécessairement fraude, mais invite à explorer les causes (qualité des données, segmentation, processus).
Taille d'échantillon. Recommandé : ≥ 500 observations pour des conclusions stables. En-dessous, privilégier le MAD et l'analyse qualitative.
Préparation des données. Sélectionnez une ou plusieurs colonnes numériques : l'outil agrège toutes les valeurs valides en un seul échantillon et ignore les zéros, cellules vides et non numériques. Les montants négatifs sont pris en valeur absolue pour le premier chiffre. Les symboles monétaires et séparateurs FR/US sont gérés.
Limites : l'application actuelle vérifie les premiers chiffres uniquement. Dites-moi si vous souhaitez ajouter le deuxième chiffre, les paires (1er-2e), ou un calcul de p-value exact.