Закон Бенфорда


Зако́н Бе́нфорда, или закон первой цифры — закон, описывающий вероятность появления определённой первой значащей цифры в распределениях величин, взятых из реальной жизни.

Закон верен для многих таких распределений, но не для всех. Также делает ряд предсказаний частоты встречаемости второй и третьей цифры.

Закон, обнаруженный Фрэнком Бенфордом, выглядит так: если у нас основание системы счисления b (b > 2), то для цифры d (d ∈ {1, …, b − 1}) вероятность быть первой значащей цифрой составляет

Для равномерного распределения, если вы имеете цифры 1, 2, 3, 4 ,5 ,6 ,7, 8, 9, 0 (=10), то у вас есть 10 отрезков (от 0 до 1,…, от 8 до 9, от 9 до 10). Обратите внимание, все отрезки лежат в диапазоне [0, 10]. Для отрезка [d, d+1] равномерное распределение должно быть пропорционально его длине, то есть длине отрезка [d, d+1], то есть (d+1)-d, поделённое на длину отрезка [0, 10], которая равна 10.

Если логарифмы непрерывно распределены, вы должны взять логарифм числа перед тем, как рассмотреть отрезки. Для логарифмов рассматриваем отрезки от 1 до 10 (так как log100 не имеет смысла). В этом случае вы будете иметь интервалы от log101 до log102,…, от log108 до log109, от log109 до log1010. Все отрезки лежат в интервале [log101, log1010]=[0, 1]. Длина последнего равна 1. Итак, рассматриваем отрезок [d, d+1] на обычной шкале, в логарифмической шкале равномерное распределение будет пропорционально его длине, то есть:

В таблице ниже представлены найденные Бенфордом значения вероятностей первой цифры для десятичной системы счисления.


Распределение Бенфорда. По горизонтали — первые значащие цифры, по вертикали — вероятность их появления
Сопоставление распределения Бенфорда (красный цвет) и распределения первых букв в словах русского языка (синий цвет). По горизонтали — первые значащие буквы, по вертикали — вероятность их появления.
Распределение первых цифр населения 237 стран мира. Чёрные точки — распределение Бенфорда.