Закон Бенфорда , также называемый законом Ньюк-Benford , то закон аномальных чисел , или первый-значный закона , является наблюдением о распределении частот от ведущих цифр во многих реальных наборах числовых данных . Закон гласит, что во многих встречающихся в природе наборах чисел первая цифра, скорее всего, будет маленькой. [1] В наборах, которые подчиняются закону, цифра 1 появляется как первая значащая цифра примерно в 30% случаев, а 9 появляется как первая значащая цифра менее чем в 5% случаев. Если бы цифры были распределены равномерно, каждая из них встречалась бы примерно в 11,1% случаев. [2] Закон Бенфорда также делает предсказания о распределении вторых цифр, третьих цифр, комбинаций цифр и так далее.
График справа показывает закон Бенфорда для основания 10 , один из бесконечно многих случаев обобщенного закона относительно чисел, выраженных в произвольных (целочисленных) основаниях, который исключает возможность того, что явление могло быть артефактом системы счисления с основанием 10. Дальнейшие обобщения были опубликованы в 1995 году [3], включая аналогичные утверждения как для n-й ведущей цифры, так и для совместного распределения ведущих n цифр, последнее из которых приводит к следствию, в котором значимые цифры показаны как статистически зависимая величина. .
Было показано, что этот результат применим к широкому спектру наборов данных, включая счета за электричество, адреса улиц, цены на акции, цены на дома, численность населения, уровень смертности, протяженность рек, а также физические и математические константы . [4] Как и другие общие принципы, касающиеся естественных данных - например, тот факт, что многие наборы данных хорошо аппроксимируются нормальным распределением - существуют иллюстративные примеры и объяснения, которые охватывают многие из случаев, когда применяется закон Бенфорда, хотя есть и много других случаев. где применяется закон Бенфорда, которые не поддаются простому объяснению. [5] Как правило, наиболее точным является, когда значения распределяются по нескольким порядкам величины , особенно если процесс, генерирующий числа, описывается степенным законом (который является обычным по своей природе).
Закон назван в честь физика Фрэнка Бенфорда , который сформулировал его в 1938 году в статье под названием «Закон аномальных чисел» [6], хотя ранее он был заявлен Саймоном Ньюкомбом в 1881 году. [7] [8]
Закон аналогичен по концепции, хотя и не идентичен по распределению, с законом Ципфа .
Определение
Говорят, что набор чисел удовлетворяет закону Бенфорда, если первая цифра d ( d ∈ {1, ..., 9} ) встречается с вероятностью
Таким образом, первые цифры в таком наборе имеют следующее распределение:
d | Относительный размер | |
---|---|---|
1 | 30,1% | |
2 | 17,6% | |
3 | 12,5% | |
4 | 9,7% | |
5 | 7,9% | |
6 | 6,7% | |
7 | 5,8% | |
8 | 5,1% | |
9 | 4,6% |
Количество пропорциональна пространству между d и d + 1 в логарифмическом масштабе . Следовательно, это распределение ожидается, если логарифмы чисел (но не сами числа) распределены равномерно и случайным образом .
Например, число x , ограниченное диапазоном от 1 до 10, начинается с цифры 1, если 1 ≤ x <2 , и начинается с цифры 9, если 9 ≤ x <10 . Следовательно, x начинается с цифры 1, если log 1 ≤ log x
Закон Бенфорда иногда формулируется в более строгой форме, утверждая, что дробная часть логарифма данных обычно близка к равномерному распределению между 0 и 1; из этого можно вывести основное утверждение о распределении первых цифр.
В других базах
Расширение закона Бенфорда предсказывает распределение первых цифр в других основаниях, кроме десятичного ; на самом деле любая база b ≥ 2 . Общая форма:
Для b = 2,1 ( двоичная и унарная ) системы счисления закон Бенфорда верен, но тривиален: все двоичные и унарные числа (кроме 0 или пустого набора) начинаются с цифры 1. (С другой стороны, обобщение закона Бенфорда до вторых и последующих цифр нетривиально даже для двоичных чисел. [12] )
Пример
Изучение списка высот 58 самых высоких сооружений в мире по категориям показывает, что 1, безусловно, является наиболее распространенной ведущей цифрой, независимо от единицы измерения (см. «Масштабную инвариантность» ниже):
Ведущая цифра | м | футов | В законе Бенфорда | ||
---|---|---|---|---|---|
Считать | % | Считать | % | ||
1 | 24 | 41,4% | 16 | 27,6% | 30,1% |
2 | 9 | 15,5% | 8 | 13,8% | 17,6% |
3 | 7 | 12,1% | 5 | 8,6% | 12,5% |
4 | 6 | 10,3% | 7 | 12,1% | 9,7% |
5 | 1 | 1,7% | 10 | 17,2% | 7,9% |
6 | 5 | 8,6% | 4 | 6,9% | 6,7% |
7 | 1 | 1,7% | 2 | 3,4% | 5,8% |
8 | 4 | 6,9% | 5 | 8,6% | 5,1% |
9 | 1 | 1,7% | 1 | 1,7% | 4,6% |
Другой пример - первая цифра 2 n :
История
Открытие закона Бенфорда восходит к 1881 году, когда канадско-американский астроном Саймон Ньюкомб заметил, что в таблицах логарифмов более ранние страницы (которые начинались с 1) были намного более изношенными, чем другие страницы. [7] Опубликованный результат Ньюкомба является первым известным примером этого наблюдения и также включает распределение по второй цифре. Ньюкомб предложил закон, согласно которому вероятность того, что одно число N будет первой цифрой числа, равна log ( N + 1) - log ( N ).
Явление было снова отмечено в 1938 году физик Франк Benford , [6] , которые испытали его на данных из 20 различных областей и приписали за него. Его набор данных включал площадь поверхности 335 рек, размеры 3259 жителей США, 104 физических константы , 1800 молекулярных масс , 5000 записей из математического справочника, 308 чисел, содержащихся в выпуске Reader's Digest , адреса первых 342 человек. человек внесен в список « Американских ученых мужей» и 418 человек смертности. Общее количество наблюдений, использованных в статье, составило 20 229. Позднее это открытие было названо в честь Бенфорда (что делает его примером закона Стиглера ).
В 1995 году Тед Хилл доказал результат о смешанных распределениях, упомянутых ниже . [13] [14]
Пояснения
Обзор
Закон Бенфорда имеет тенденцию наиболее точно применяться к данным, охватывающим несколько порядков величины. Как показывает практика, чем больше порядков величины равномерно покрывают данные, тем точнее применяется закон Бенфорда. Например, можно ожидать, что закон Бенфорда будет применяться к списку чисел, представляющих население британских поселений. Но если «поселение» определяется как деревня с населением от 300 до 999 человек, то закон Бенфорда не применяется. [15] [16]
Рассмотрим представленные ниже распределения вероятностей в логарифмической шкале . В каждом случае общая площадь, выделенная красным, представляет собой относительную вероятность того, что первая цифра равна 1, а общая площадь, указанная синим цветом, - это относительная вероятность того, что первая цифра равна 8. Для первого распределения размер областей красного и синие примерно пропорциональны ширине каждой красной и синей полос. Следовательно, числа, взятые из этого распределения, будут приблизительно соответствовать закону Бенфорда. С другой стороны, для второго распределения соотношение областей красного и синего сильно отличается от отношения ширины каждой красной и синей полос. Скорее, относительные области красного и синего больше определяются высотой полос, чем шириной. Соответственно, первые цифры в этом распределении вообще не удовлетворяют закону Бенфорда. [16]
Таким образом, распределения в реальном мире, которые охватывают несколько порядков величины довольно равномерно ( например , население деревень / поселков / городов, рыночные цены), скорее всего, будут удовлетворять закону Бенфорда с очень высокой точностью. С другой стороны, распределение, которое в основном или полностью находится в пределах одного порядка величины ( например , рост взрослого человека или показатели IQ), вряд ли очень точно или вообще удовлетворяет закону Бенфорда. [15] [16] Однако разница между применимыми и неприменимыми схемами не является резким пределом: по мере сужения распределения отклонения от закона Бенфорда постепенно увеличиваются.
(Это обсуждение не является полным объяснением закона Бенфорда, потому что оно не объясняет, почему наборы данных встречаются так часто, что при построении графика в виде распределения вероятностей логарифма переменной они относительно однородны на несколько порядков величины [17]. ] )
Объяснение энтропии Кригера – Кафри
В 1970 году Вольфганг Кригер доказал то, что сейчас называется теоремой о генераторе Кригера. [18] [19] Теорема Кригера о генераторе может рассматриваться как оправдание предположения в шаровой модели Кафри, что в данной базес фиксированным количеством цифр 0, 1, ... n , ...,, цифра n эквивалентна ящику Кафри, содержащему n невзаимодействующих шаров. Ряд других ученых и статистиков предложили объяснения закона Бенфорда, связанные с энтропией. [20] [21] [9] [22]
Мультипликативные колебания
Многие реальные примеры закона Бенфорда возникают из-за мультипликативных флуктуаций. [23] Например, если цена акции начинается с 100 долларов, а затем каждый день она умножается на случайно выбранный коэффициент от 0,99 до 1,01, то в течение длительного периода распределение вероятностей ее цены удовлетворяет закону Бенфорда с все большей и большей точностью. .
Причина в том, что логарифм цены акции совершает случайное блуждание , поэтому со временем его распределение вероятностей будет становиться все более широким и плавным (см. Выше ). [23] (Технически центральная предельная теорема гласит, что умножение все большего и большего числа случайных величин создаст логнормальное распределение с все большей и большей дисперсией, так что в конечном итоге оно покрывает многие порядки величины почти равномерно.) Чтобы быть уверенным в приблизительном согласовании. согласно закону Бенфорда, распределение должно быть приблизительно инвариантным при увеличении любого коэффициента до 10; набор логнормально распределенных данных с широким разбросом будет обладать этим приблизительным свойством.
В отличие от мультипликативных флуктуаций, аддитивные флуктуации не приводят к закону Бенфорда: вместо этого они приводят к нормальным распределениям вероятностей (опять же по центральной предельной теореме ), которые не удовлетворяют закону Бенфорда. Например, «количество ударов сердца, которое я испытываю в данный день» может быть записано как сумма многих случайных величин (например, сумма ударов сердца в минуту за все минуты дня), так что это количество вряд ли будет следовать Закон Бенфорда. Напротив, эта гипотетическая цена акции, описанная выше, может быть записана как произведение многих случайных величин (т. Е. Фактора изменения цены за каждый день), поэтому, вероятно, будет достаточно хорошо следовать закону Бенфорда.
Множественные распределения вероятностей
Антон Форманн предоставил альтернативное объяснение, обратив внимание на взаимосвязь между распределением значимых цифр и распределением наблюдаемой переменной . В ходе моделирования он показал, что длинные правосторонние распределения случайной величины совместимы с законом Ньюкома-Бенфорда и что для распределений отношения двух случайных величин соответствие обычно улучшается. [24] Для чисел, взятых из определенных распределений (баллы IQ, рост человека), закон Бенфорда не выполняется, потому что эти переменные подчиняются нормальному распределению, которое, как известно, не удовлетворяет закону Бенфорда, [8] поскольку нормальные распределения не могут охватывать несколько порядков. величины и мантиссы их логарифмов не будут (даже приблизительно) равномерно распределены. Однако, если «смешать» числа из этих распределений, например, взяв числа из газетных статей, закон Бенфорда появится снова. Это также можно доказать математически: если кто-то несколько раз «случайным образом» выбирает распределение вероятностей (из некоррелированного набора), а затем случайным образом выбирает число в соответствии с этим распределением, полученный список чисел будет подчиняться закону Бенфорда. [13] [25] Подобное вероятностное объяснение появления закона Бенфорда в числах повседневной жизни было выдвинуто, показывая, что он возникает естественным образом, когда кто-то рассматривает смеси однородных распределений. [26]
Инвариантность
Если есть список длин, то распределение первых цифр чисел в списке может быть в целом одинаковым, независимо от того, выражены ли все длины в метрах, ярдах, футах или дюймах и т. Д. То же самое относится к денежным единицам. .
Это не всегда так. Например, рост взрослых людей почти всегда начинается с 1 или 2 при измерении в метрах и почти всегда начинается с 4, 5, 6 или 7 при измерении в футах.
Но рассмотрите список длин, который равномерно распределен на многие порядки. Например, список из 1000 длин, упомянутых в научных статьях, будет включать измерения молекул, бактерий, растений и галактик. Если записать все эти длины в метрах или все в футах, разумно ожидать, что распределение первых цифр должно быть одинаковым в двух списках.
В этих ситуациях, когда распределение первых цифр набора данных не зависит от масштаба (или не зависит от единиц, в которых выражены данные), распределение первых цифр всегда задается законом Бенфорда. [27] [28]
Например, первая (отличная от нуля) цифра в этом списке длин должна иметь одинаковое распределение независимо от того, используются ли единицы измерения футы или ярды. Но в ярде три фута, поэтому вероятность того, что первая цифра длины в ярдах равна 1, должна быть такой же, как вероятность того, что первая цифра длины в футах равна 3, 4 или 5; аналогично вероятность того, что первая цифра длины в ярдах равна 2, должна быть такой же, как вероятность того, что первая цифра длины в футах равна 6, 7 или 8. Применение этого ко всем возможным шкалам измерений дает логарифмическое распределение Закон Бенфорда.
Закон Бенфорда для первых цифр является базовым инвариантом для систем счисления. Имеются условия и доказательства сумм-инвариантности, обратной инвариантности, сложения и вычитания. [29] [30]
Приложения
Обнаружение мошенничества в бухгалтерском учете
В 1972 году Хэл Вариан предположил, что закон может быть использован для выявления возможного мошенничества в списках социально-экономических данных, представляемых в поддержку решений государственного планирования. Основываясь на правдоподобном предположении, что люди, выдумывающие цифры, обычно распределяют свои цифры довольно равномерно, простое сравнение частотного распределения первых цифр из данных с ожидаемым распределением в соответствии с законом Бенфорда должно выявить любые аномальные результаты. [31]
Правовой статус
В Соединенных Штатах доказательства, основанные на законе Бенфорда, были допущены к рассмотрению уголовных дел на федеральном, государственном и местном уровнях. [32]
Данные о выборах
Уолтер Мебейн , политолог и статистик из Мичиганского университета, был первым, кто применил в судебной экспертизе избирательную экспертизу двузначный критерий Бенфорда (2BL-тест) . [33] Такой анализ считается простым, хотя и небезопасным методом выявления нарушений в результатах выборов и помощи в выявлении фальсификаций на выборах . [34] В исследовании 2011 года, проведенном политологами Джозефом Декертом, Михаилом Мягковым и Питером Ордешуком, утверждалось, что закон Бенфорда является проблематичным и вводящим в заблуждение статистическим показателем фальсификации выборов. [35] Их метод был подвергнут критике со стороны Мебэйна в ответ, хотя он согласился с тем, что существует много предостережений в отношении применения закона Бенфорда к данным о выборах. [36]
Закон Бенфорда был использован в качестве доказательства фальсификации на иранских выборах 2009 года . [37] Анализ, проведенный Мебане, показал, что вторые цифры при подсчете голосов за президента Махмуда Ахмадинежада , победившего на выборах, имели тенденцию значительно отличаться от ожиданий закона Бенфорда, и что урны с очень небольшим количеством недействительных бюллетеней имели больше повлиять на результаты, предполагая повсеместное вброс бюллетеней . [38] В другом исследовании использовалось моделирование начальной загрузки, чтобы обнаружить, что кандидат Мехди Карруби получил почти вдвое больше голосов, начиная с цифры 7, чем можно было бы ожидать в соответствии с законом Бенфорда, [39] в то время как анализ Колумбийского университета пришел к выводу, что вероятность того, что честные выборы привели бы к слишком малому количеству несмежных цифр и подозрительным отклонениям в частотах последних цифр, обнаруженным на президентских выборах 2009 года в Иране, менее 0,5%. [40] Закон Бенфорда также применялся для судебно-медицинской экспертизы и выявления фальсификаций с данными губернаторских выборов в Калифорнии в 2003 году [41], президентских выборов в США в 2000 и 2004 годах [42] и федеральных выборов в Германии в 2009 году ; [43] Было обнаружено, что тест закона Бенфорда «заслуживает серьезного отношения как статистический тест на мошенничество», хотя «он не чувствителен к искажениям, которые, как мы знаем, существенно повлияли на многие голоса». [42] [ требуется дальнейшее объяснение ]
Закон Бенфорда также был неправильно применен, чтобы заявить о фальсификации выборов. При применении закона к результатам выборов Джо Байдена в Чикаго , Милуоки и других населенных пунктах на президентских выборах в США 2020 года распределение первой цифры не соответствовало закону Бенфорда. Неправильное применение было результатом просмотра данных, которые были строго ограничены по диапазону, что нарушает допущение, заложенное в законе Бенфорда, о том, что диапазон данных должен быть большим. По словам Мебане, «широко известно, что первые цифры подсчета голосов на участках бесполезны для диагностики фальсификаций на выборах». [44] [45]
Макроэкономические данные
Точно так же макроэкономические данные, которые правительство Греции представило Европейскому союзу перед вступлением в еврозону, оказались, вероятно, мошенническими с использованием закона Бенфорда, хотя и спустя годы после присоединения страны. [46] [47]
Анализ цифр цены
Закон Бенфорда как эталон для исследования цифр цен был успешно введен в контекст исследования ценообразования. Важность этого эталона для выявления нарушений в ценах была впервые продемонстрирована в общеевропейском исследовании [48], в котором изучались цифры потребительских цен до и после введения евро для корректировки цен. Введение евро в 2002 году с его различными обменными курсами исказило существующие модели номинальных цен, в то же время сохранив реальные цены. В то время как первые цифры номинальных цен распределялись в соответствии с законом Бенфорда, исследование показало явное отклонение от этого эталона для второй и третьей цифр номинальных рыночных цен с четкой тенденцией к психологическому ценообразованию после номинального шока введения евро.
Данные генома
Количество открытых рамок считывания и их отношение к размеру генома различается у эукариот и прокариот, причем первые демонстрируют лог-линейную зависимость, а вторые - линейную. Для проверки этого наблюдения был использован закон Бенфорда, который отлично согласуется с данными в обоих случаях. [49]
Обнаружение научного мошенничества
Проверка коэффициентов регрессии в опубликованных статьях показала согласие с законом Бенфорда. [50] В качестве группы сравнения испытуемых попросили сфабриковать статистические оценки. Фальсифицированные результаты соответствовали закону Бенфорда о первых цифрах, но не соответствовали закону Бенфорда о вторых цифрах.
Статистические тесты
Хотя критерий хи-квадрат использовался для проверки соответствия закону Бенфорда, он имеет низкую статистическую мощность при использовании с небольшими выборками.
Тест Колмогорова-Смирнова и тест Койпера является более мощными , когда размер выборки мал, особенно когда используются поправочный коэффициент Стивенса в. [51] Эти тесты могут быть чрезмерно консервативными при применении к дискретным распределениям. Значения для теста Бенфорда были получены Морроу. [52] Критические значения тестовой статистики показаны ниже:
α Контрольная работа | 0,10 | 0,05 | 0,01 |
---|---|---|---|
Койпер | 1,191 | 1,321 | 1,579 |
Колмогоров – Смирнов | 1.012 | 1,148 | 1,420 |
Эти критические значения обеспечивают минимальные значения тестовой статистики, необходимые для отклонения гипотезы о соответствии закону Бенфорда на заданных уровнях значимости .
Были опубликованы два альтернативных теста, специфичных для этого закона: во-первых, статистика max ( m ) [53] дается выражением
и, во-вторых, статистика расстояния ( d ) [54] определяется выражением
где FSD - первая значащая цифра, а N - размер выборки. Морроу определил критические значения для обеих этих статистических данных, которые показаны ниже: [52]
⍺ Статистика | 0,10 | 0,05 | 0,01 |
---|---|---|---|
Лемис м | 0,851 | 0,967 | 1,212 |
D Чо – Гейнса | 1,212 | 1,330 | 1,569 |
Морроу также показал, что для любой случайной величины X (с непрерывным pdf), деленной на ее стандартное отклонение ( σ ), может быть найдено значение A такое, что вероятность распределения первой значащей цифры случайной величины (Икс/σ) A будет отличаться от закона Бенфорда менее чем на ε > 0. [52] Значение A зависит от значения ε и распределения случайной величины.
Предложен метод учета обнаружения мошенничества, основанный на загрузке и регрессии. [55]
Если цель состоит в том, чтобы заключить соглашение с законом Бенфорда , а не разногласием, то испытания благости-о-приступа упоминались выше , являются неуместными. В этом случае должны применяться специальные тесты на эквивалентность . Эмпирическое распределение называется эквивалентным закону Бенфорда, если расстояние (например, расстояние полной вариации или обычное евклидово расстояние) между функциями вероятности и массы достаточно мало. Этот метод тестирования с применением закона Бенфорда описан в Ostrovski (2017). [56]
Диапазон применимости
Известно, что распределения подчиняются закону Бенфорда
Некоторые хорошо известные бесконечные целочисленные последовательности доказуемо точно удовлетворяют закону Бенфорда (в асимптотическом пределе, когда включается все больше и больше членов последовательности). Среди них есть числа Фибоначчей , [57] [58] в факториалах , [59] Полномочие 2, [60] [61] и полномочие почти любое другого числа. [60]
Точно так же некоторые непрерывные процессы точно удовлетворяют закону Бенфорда (в асимптотическом пределе, когда процесс продолжается во времени). Один из них - процесс экспоненциального роста или убывания : если величина экспоненциально увеличивается или уменьшается во времени, то процент времени, в течение которого она имеет каждую первую цифру, асимптотически удовлетворяет закону Бенфорда (т. Е. Увеличивается точность по мере того, как процесс продолжается во времени).
Распределения, не подчиняющиеся закону Бенфорда
В квадратные корни и обратными последовательных натуральных чисел не подчиняются этому закону. [62] Списки местных телефонных номеров в Северной Америке (длина из 7 цифр) нарушают закон Бенфорда, потому что они не могут начинаться с префикса междугородной связи цифры 1. [63] Закон Бенфорда нарушается населением всех места с населением не менее 2500 человек из пяти штатов США по данным переписей 1960 и 1970 годов, где только 19% начинались с цифры 1, но 20% начинались с цифры 2, потому что усечение до 2500 вносит статистическую погрешность. [62] Конечные цифры в отчетах о патологии нарушают закон Бенфорда из-за округления. [64]
Распределения, не охватывающие несколько порядков величины, не подчиняются закону Бенфорда. Примеры включают рост, вес и показатели IQ. [8] [65]
Критерии ожидаемого и не ожидаемого распределения подчиняются закону Бенфорда
Ряд критериев, особенно применимых к бухгалтерским данным, был предложен там, где можно ожидать применения закона Бенфорда. [66]
- Распределения, которые, как можно ожидать, подчиняются закону Бенфорда
- Когда среднее значение больше медианы, а перекос положительный
- Числа, полученные в результате математической комбинации чисел: например, количество × цена.
- Данные уровня транзакции: например, выплаты, продажи.
- Распределения, которые не должны подчиняться закону Бенфорда
- Где номера присваиваются последовательно: например, номера чеков, номера счетов-фактур.
- Где на числа влияет человеческая мысль: например, цены устанавливаются психологическими порогами (1,99 доллара США).
- Учетные записи с большим количеством номеров конкретных компаний: например, учетные записи, настроенные для регистрации возврата 100 долларов США.
- Аккаунты со встроенным минимумом или максимумом
- Распределения, которые не охватывают порядковый номер.
Теорема соответствия закону Бенфорда
Математически закон Бенфорда применяется, если тестируемое распределение соответствует «теореме соответствия закону Бенфорда». [15] Вывод говорит, что закон Бенфорда соблюдается, если преобразование Фурье логарифма функции плотности вероятности равно нулю для всех целых значений. В частности, это выполняется, если преобразование Фурье равно нулю (или пренебрежимо мало) для n≥1. Это выполняется, если распределение является широким (поскольку широкое распределение подразумевает малое преобразование Фурье). Смит резюмирует это (стр. 716):
«Закон Бенфорда сопровождается распределениями, которые шире по сравнению с единичным расстоянием по логарифмической шкале. Точно так же закон не подчиняется распределениям, которые являются узкими по сравнению с единичным расстоянием…. «Если распределение является широким по сравнению с единичным расстоянием на оси журнала, это означает, что разброс в исследуемом наборе чисел намного больше десяти».
Короче говоря, закон Бенфорда требует, чтобы числа в измеряемом распределении имели разброс по крайней мере на порядок.
Тесты с распространенными дистрибутивами
Закон Бенфорда был эмпирически проверен на числах (до 10-го разряда), генерируемых рядом важных распределений, включая равномерное распределение , экспоненциальное распределение , нормальное распределение и другие. [8]
Равномерное распределение, как и следовало ожидать, не подчиняется закону Бенфорда. Напротив, соотношение двух равномерных распределений хорошо описывается законом Бенфорда.
Ни нормальное распределение, ни распределение отношений двух нормальных распределений ( распределение Коши ) не подчиняются закону Бенфорда. Хотя полунормальное распределение не подчиняется закону Бенфорда, соотношение двух полунормальных распределений подчиняется. Ни усеченное вправо нормальное распределение, ни распределение отношения двух усеченных вправо нормальных распределений хорошо не описываются законом Бенфорда. Это неудивительно, поскольку это распределение ориентировано на большее число.
Закон Бенфорда также хорошо описывает экспоненциальное распределение и соотношение двух экспоненциальных распределений. Подгонка распределения хи-квадрат зависит от степеней свободы (df) с хорошим согласием с df = 1 и уменьшением согласия с увеличением df. F -распределение оснащено хорошо для низких степеней свободы. С увеличением dfs соответствие уменьшается, но намного медленнее, чем распределение хи-квадрат. Подгонка логнормального распределения зависит от среднего и дисперсии распределения. Дисперсия оказывает гораздо большее влияние на соответствие, чем среднее значение. Чем больше значения обоих параметров, тем лучше согласуется с законом. Отношение двух логнормальных распределений является логнормальным, поэтому это распределение не исследовалось.
Другие дистрибутивы , которые были рассмотрены , включают распределение Мут , распределение Гомпертца , распределение Вейбулла , гамма - распределения , лог-логистическое распределение и экспоненциальное распределение мощности , все из которых показывают разумное согласие с законом. [53] [67] Распределение Гамбеля - плотность увеличивается с увеличением значения случайной величины - не соответствует этому закону. [67]
Обобщение до цифр после первой
Можно расширить закон до цифр, превышающих первую. [68] В частности, для любого заданного количества цифр вероятность встретить число, начинающееся со строки цифр n такой длины (без начальных нулей), определяется как:
Например, вероятность того, что число начинается с цифр 3, 1, 4, равна log 10 (1 + 1/314) ≈ 0,00138 , как на рисунке справа. К числам, удовлетворяющим этому требованию, относятся 3,14159 ..., 314285,7 ... и 0,00314465 ....
Этот результат можно использовать для определения вероятности того, что конкретная цифра встречается в заданной позиции в числе. Например, вероятность того, что вторая цифра будет встречена как «2», равна [68]
И вероятность того, что d ( d = 0, 1, ..., 9) встретится как n -я ( n > 1) цифра, равна
Распределение n-й цифры при увеличении n быстро приближается к равномерному распределению с 10% для каждой из десяти цифр, как показано ниже. [68] Четырех цифр часто бывает достаточно, чтобы принять равномерное распределение 10%, поскольку «0» появляется в 10,0176% случаев в четвертой цифре, а «9» появляется в 9,9824% случаев.
Цифра | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
---|---|---|---|---|---|---|---|---|---|---|
1-й | N / A | 30,1% | 17,6% | 12,5% | 9,7% | 7,9% | 6,7% | 5,8% | 5,1% | 4,6% |
2-й | 12,0% | 11,4% | 10,9% | 10,4% | 10,0% | 9,7% | 9,3% | 9,0% | 8,8% | 8,5% |
3-й | 10,2% | 10,1% | 10,1% | 10,1% | 10,0% | 10,0% | 9,9% | 9,9% | 9,9% | 9,8% |
Моменты
Были вычислены среднее значение и моменты случайных величин для цифр от 1 до 9 в соответствии с этим законом: [69]
- среднее 3,440
- отклонение 6.057
- асимметрия 0,796
- эксцесс −0,548
Для двузначного распределения по закону Бенфорда также известны эти значения: [70]
- среднее 38,590
- дисперсия 621,832
- асимметрия 0,772
- эксцесс −0,547
Доступна таблица точных вероятностей совместного появления первых двух цифр в соответствии с законом Бенфорда [70], а также корреляция совокупности между первой и второй цифрами: [70] ρ = 0,0561 .
В популярной культуре
В последние годы концепция закона Бенфорда стала достаточно известной, чтобы использовать ее в качестве сюжета в некоторых популярных развлечениях, в том числе:
- Закон Бенфорда был использован для раскрытия серии крупных краж со взломом в эпизоде «Бегущий человек» (2006) телевизионной криминальной драмы NUMB3RS . [71]
- Закон Бенфорда используется для разоблачения кражи средств робототехнической компании в фильме 2016 года «Бухгалтер» .
- Закон Бенфорда используется для анализа финансовой отчетности члена картеля и обнаружения его мошенничества в сериале Netflix « Озарк» .
- Закон Бенфорда используется для проверки того, находятся ли персонажи в симуляции или в реальности в романе Джереми Робинсона « Бесконечное 2» .
Смотрите также
- Обнаружение мошенничества в прогнозной аналитике
- Закон Ципфа
Рекомендации
- ^ Арно Бергер и Теодор П Хилл, Закон Бенфорда наносит ответный удар: нет простого объяснения для математической жемчужины, 2011
- ^ Weisstein, Эрик В. "Закон Бенфорда" . MathWorld, веб-ресурс Wolfram . Дата обращения 7 июня 2015 .
- ^ Хилл, Теодор. «Статистический вывод закона значащих цифр» . Проект Евклид .
- ^ Пол Х. Квам, Брани Видакович, Непараметрическая статистика с приложениями к науке и технике , с. 158
- ^ Бергер, Арно; Хилл, Теодор П. (30 июня 2020 г.). «Математика закона Бенфорда: букварь» . Стат. Методы Прил . arXiv : 1909.07527 . DOI : 10.1007 / s10260-020-00532-8 . S2CID 202583554 .
- ^ а б Фрэнк Бенфорд (март 1938 г.). «Закон аномальных чисел» . Proc. Являюсь. Филос. Soc. 78 (4): 551–572. JSTOR 984802 . (требуется подписка)
- ^ а б Саймон Ньюкомб (1881). «Обратите внимание на частоту использования разных цифр в натуральных числах». Американский журнал математики . 4 (1/4): 39–40. Bibcode : 1881AmJM .... 4 ... 39N . DOI : 10.2307 / 2369148 . JSTOR 2369148 . S2CID 124556624 . (требуется подписка)
- ^ а б в г Форманн, АК (2010). Моррис, Ричард Джеймс (ред.). «Закон Ньюкома-Бенфорда в его отношении к некоторым общим распределениям» . PLOS ONE . 5 (5): e10541. Bibcode : 2010PLoSO ... 510541F . DOI : 10.1371 / journal.pone.0010541 . PMC 2866333 . PMID 20479878 .
- ^ а б Миллер, Стивен Дж. , Изд. (9 июня 2015 г.). Закон Бенфорда: теория и приложения . Издательство Принстонского университета. п. 309. ISBN. 978-1-4008-6659-5.
- ^ Они должны быть строго полосами, но для ясности показаны линиями.
- ^ Пимбли, Дж. М. (2014). «Закон Бенфорда как логарифмическое преобразование» (PDF) . Максвелл Консалтинг, ООО . Дата обращения 15 ноября 2020 .
- ^ ХОСРАВАНИ, А (2012). Трансформационная инвариантность переменных Бенфорда и их численное моделирование . Последние исследования в области автоматического управления и электроники. С. 57–61. ISBN 978-1-61804-080-0.
- ^ а б Теодор П. Хилл (1995). «Статистический вывод закона значащих цифр» . Статистическая наука . 10 (4): 354–363. DOI : 10,1214 / сс / 1177009869 . Руководство по ремонту 1421567 .
- ^ Хилл, Теодор П. (1995). «Базовая инвариантность следует из закона Бенфорда» . Труды Американского математического общества . 123 (3): 887–895. DOI : 10.1090 / S0002-9939-1995-1233974-8 . ISSN 0002-9939 .
- ^ а б в Стивен В. Смит. «Руководство для ученых и инженеров по цифровой обработке сигналов, глава 34, Объяснение закона Бенфорда» . Проверено 15 декабря 2012 года .(особенно раздел 10 ).
- ^ а б в Фьюстер, RM (2009). «Простое объяснение закона Бенфорда» (PDF) . Американский статистик . 63 (1): 26–32. CiteSeerX 10.1.1.572.6719 . DOI : 10.1198 / tast.2009.0005 . S2CID 39595550 .
- ^ Арно Бергер и Теодор П. Хилл, Закон Бенфорда наносит ответный удар: нет простого объяснения для математической жемчужины, 2011 . Авторы описывают этот аргумент, но говорят, что он «по-прежнему оставляет открытым вопрос, почему разумно предположить, что логарифм разброса, в отличие от самого разброса - или, скажем, логарифм разброса - должен быть большим» и что «предположение о большом разбросе в логарифмической шкале эквивалентно предположению о приблизительном соответствии [закону Бенфорда]» (курсив добавлен), что, по их словам, не имеет «простого объяснения».
- ^ Кригер, Вольфганг (1970). «Об энтропии и генераторах преобразований, сохраняющих меру» . Труды Американского математического общества . 149 (2): 453. DOI : 10.1090 / S0002-9947-1970-0259068-3 . ISSN 0002-9947 .
- ^ Даунарович, Томаш (12 мая 2011 г.). Энтропия в динамических системах . Издательство Кембриджского университета. п. 106. ISBN 978-1-139-50087-6.
- ^ Смородинский, Меир (1971). «Глава IX. Энтропия и генераторы. Теорема Кригера». Эргодическая теория, энтропия . Конспект лекций по математике. 214 . Берлин, Гейдельберг: Springer. DOI : 10.1007 / BFb0066096 .
- ^ Джолион, Жан-Мишель (2001). «Образы и закон Бенфорда». Журнал математической визуализации и зрения . 14 (1): 73–81. DOI : 10,1023 / A: 1008363415314 . ISSN 0924-9907 . S2CID 34151059 .
- ^ Лимоны, Дон С. (2019). «Термодинамика закона первой цифры Бенфорда». Американский журнал физики . 87 (10): 787–790. arXiv : 1604.05715 . Bibcode : 2019AmJPh..87..787L . DOI : 10.1119 / 1.5116005 . ISSN 0002-9505 . S2CID 119207367 .
- ^ а б Л. Пьетронеро; Э. Тосатти; В. Тосатти; А. Веспиньяни (2001). «Объяснение неравномерного распределения чисел в природе: законы Бенфорда и Ципфа». Physica . 293 (1-2): 297-304. arXiv : cond-mat / 9808305 . Bibcode : 2001PhyA..293..297P . DOI : 10.1016 / S0378-4371 (00) 00633-6 .
- ^ Форманн, АК (2010). «Закон Ньюкома-Бенфорда в его отношении к некоторым общим распределениям» . PLOS ONE . 5 (5): e10541. Bibcode : 2010PLoSO ... 510541F . DOI : 10.1371 / journal.pone.0010541 . PMC 2866333 . PMID 20479878 .
- ^ Теодор П. Хилл (июль – август 1998 г.). «Феномен первой цифры» (PDF) . Американский ученый . 86 (4): 358. Bibcode : 1998AmSci..86..358H . DOI : 10.1511 / 1998.4.358 .
- ^ Жанвресс, Элиза; Тьерри (2004). «От равномерного распределения к закону Бенфорда» (PDF) . Журнал прикладной теории вероятностей . 41 (4): 1203–1210. DOI : 10.1239 / JAP / 1101840566 . Руководство по ремонту 2122815 . Архивировано из оригинального (PDF) 4 марта 2016 года . Проверено 13 августа 2015 года .
- ^ Пинкхэм, Роджер С. (1961). «О распределении первых значащих цифр» . Аня. Математика. Статист . 32 (4): 1223–1230. DOI : 10.1214 / АОМ / 1177704862 .
- ^ MathWorld - Закон Бенфорда
- ^ Джамайн, Адриан (сентябрь 2001 г.). «Закон Бенфорда» (PDF) . Имперский колледж Лондона . Дата обращения 15 ноября 2020 .
- ^ Бергер, Арно (июнь 2011 г.). «Основная теория закона Бенфорда» . Обзоры вероятностей . 8 (2011) 1–126: 126.
- ^ Вариан, Хэл (1972). «Закон Бенфорда (Письма в редакцию)». Американский статистик . 26 (3): 65. DOI : 10,1080 / 00031305.1972.10478934 .
- ^ «От Бенфорда до Эрдеша» . Радиолаборатория . Эпизод 2009-10-09. 30 сентября 2009 г.
- ↑ Уолтер Р. Мебейн-младший, « Избирательная экспертиза: подсчет голосов и закон Бенфорда » (18 июля 2006 г.).
- ↑ « Криминалистика выборов », The Economist (22 февраля 2007 г.).
- ^ Декерт, Джозеф; Мягков Михаил; Ордешук, Питер С. (2011). «Закон Бенфорда и выявление фальсификаций на выборах» . Политический анализ . 19 (3): 245–268. DOI : 10,1093 / панорамирование / mpr014 . ISSN 1047-1987 .
- ^ Мебане, Уолтер Р. (2011). «Комментарий к« Закону Бенфорда и выявлению фальсификаций на выборах » » . Политический анализ . 19 (3): 269–272. DOI : 10,1093 / панорамирование / mpr024 .
- ↑ Стивен Баттерсби Статистика намекает на фальсификацию выборов в Иране New Scientist 24 июня 2009 г.
- ↑ Уолтер Р. Мебейн-младший, « Заметка о президентских выборах в Иране, июнь 2009 г. » (Мичиганский университет, 29 июня 2009 г.), стр. 22–23.
- ^ Roukema, Boudewijn F. (2014). «Аномалия первой цифры на президентских выборах 2009 года в Иране». Журнал прикладной статистики . 41 : 164–199. arXiv : 0906.2789 . Bibcode : 2014JApS ... 41..164R . DOI : 10.1080 / 02664763.2013.838664 . S2CID 88519550 .
- ↑ Бернд Бебер и Александра Скакко, « Дьявол в цифрах: доказательства фальсификации выборов в Иране », The Washington Post (20 июня 2009 г.).
- ^ Марк Дж. Нигрини, Закон Бенфорда: приложения для судебно-медицинской экспертизы, аудита и обнаружения мошенничества (Хобокен, Нью-Джерси: Wiley, 2012), стр. 132–35.
- ^ a b Уолтер Р. Мебэйн-младший, «Криминалистика выборов: второй знак закона Бенфорда и недавние президентские выборы в США» в книге «Фальсификация выборов: обнаружение и сдерживание манипуляций на выборах» под редакцией Р. Майкла Альвареса и др. (Вашингтон, округ Колумбия: издательство Brookings Institution Press, 2008 г.), стр. 162–81. PDF
- ^ Сикано, Сусуму; Мак, Верена (2011). «Когда второй знак Бенфорда свидетельствует о мошенничестве на выборах? Факты или вводящие в заблуждение результаты теста». Jahrbücher für Nationalökonomie und Statistik . 231 (5–6): 719–732. DOI : 10,1515 / jbnst-2011-5-610 . S2CID 153896048 .
- ^ «Проверка фактов: отклонение от закона Бенфорда не доказывает фальсификации выборов» . Рейтер . 10 ноября 2020.
- ^ Дейси, Джеймс (19 ноября 2020 г.). «Закон Бенфорда и президентские выборы в США 2020 года: ничего необычного» . Мир физики .
- ^ Уильям Гудман, Обещания и подводные камни закона Бенфорда , Значение , Королевское статистическое общество (июнь 2016 г.), стр. 38.
- ^ Голдакр, Бен (16 сентября 2011 г.). «Особый трюк, помогающий определить сомнительную статистику» . Хранитель . Дата обращения 1 февраля 2019 .
- ^ Сехиты, Тарек эль; Хельцль, Эрик; Кирхлер, Эрих (1 декабря 2005 г.). «Динамика цен после номинального шока: закон Бенфорда и психологическое ценообразование после введения евро». Международный журнал исследований в области маркетинга . 22 (4): 471–480. DOI : 10.1016 / j.ijresmar.2005.09.002 .
- ^ Friar, JL; Гольдман, Т; Перес-Меркадер, J (2012). «Размеры генома и распределение Бенфорда» . PLOS ONE . 7 (5): e36624. arXiv : 1205,6512 . Bibcode : 2012PLoSO ... 736624F . DOI : 10.1371 / journal.pone.0036624 . PMC 3356352 . PMID 22629319 .
- ^ Дикманн, А (2007). «Не первая цифра! Использование закона Бенфорда для обнаружения мошеннических научных данных». J Appl Stat . 34 (3): 321–329. DOI : 10.1080 / 02664760601004940 . ЛВП : 20.500.11850 / 310246 . S2CID 117402608 .
- ^ Стивенс, Массачусетс (1970). «Использование статистики Колмогорова – Смирнова, Крамера – фон Мизеса и связанных с ними статистических данных без обширных таблиц». Журнал Королевского статистического общества, Series B . 32 (1): 115–122.
- ^ a b c Морроу, Дж. (2010) "Закон Бенфорда, семейства распределений и тестовая база" , UW-Madison
- ^ а б Leemis, LM; Schmeiser, BW; Эванс, Д.Л. (2000). «Распределения выживания, удовлетворяющие закону Бенфорда». Американский статистик . 54 (4): 236–241. DOI : 10.1080 / 00031305.2000.10474554 . S2CID 122607770 .
- ^ Чо, WKT; Гейнс, Б.Дж. (2007). «Нарушение закона (Бенфорда): обнаружение статистического мошенничества при финансировании избирательных кампаний». Американский статистик . 61 (3): 218–223. DOI : 10.1198 / 000313007X223496 . S2CID 7938920 .
- ^ Suh, IS; Хедрик, ТС; Минабуро, С. (2011). «Эффективный и действенный аналитический метод: процедура начальной регрессии и закон Бенфорда». J Судебно-медицинский и следственный учет . 3 (3).
- ^ Островский, Владимир (май 2017). «Проверка эквивалентности полиномиальных распределений» . Статистика и вероятностные письма . 124 : 77–82. DOI : 10.1016 / j.spl.2017.01.004 . S2CID 126293429 .
- ^ Вашингтон, LC (1981). «Закон Бенфорда для чисел Фибоначчи и Люка». Ежеквартальный отчет Фибоначчи . 19 (2): 175–177.
- ^ Дункан, Р.Л. (1967). «Применение равномерного распределения к числам Фибоначчи». Ежеквартальный отчет Фибоначчи . 5 : 137–140.
- ^ Саркар, ПБ (1973). «Наблюдение за значащими цифрами биномиальных коэффициентов и факториалов». Санкхья Б . 35 : 363–364.
- ^ a b В общем случае последовательность k 1 , k 2 , k 3 и т. д. точно удовлетворяет закону Бенфорда при условии, что log 10 k является иррациональным числом . Это прямое следствие теоремы о равнораспределении .
- ^ То, что первые 100 степеней двойки приблизительно удовлетворяют закону Бенфорда, упоминается Ральфом Рэйми. Рэйми, Ральф А. (1976). «Проблема первой цифры». Американский математический ежемесячник . 83 (7): 521–538. DOI : 10.2307 / 2319349 . JSTOR 2319349 .
- ^ а б Рэйми, Ральф А. (август – сентябрь 1976 г.). «Проблема с первой цифрой». Американский математический ежемесячник . 83 (7): 521–538. DOI : 10.2307 / 2319349 . JSTOR 2319349 .
- ^ Североамериканский план нумерации использует 1 как код выходамеждугородние, и большая часть остальной части мировых запасов это начать специальные 3-значные номеракак 112 (аварийный номер телефона) .
- ^ Пиво, Тревор В. (2009). «Предпочтение конечной цифры: остерегайтесь закона Бенфорда». J. Clin. Патол. 62 (2): 192. DOI : 10.1136 / jcp.2008.061721 . PMID 19181640 . S2CID 206987736 .
- ↑ Синглтон, Томми В. (1 мая 2011 г.). « Понимание и применение закона Бенфорда », журнал ISACA , Ассоциация аудита и контроля информационных систем . Проверено 9 ноября, 2020.
- ^ Дурчи, К; Хиллисон, Вт; Пачини, С. (2004). «Эффективное использование закона Бенфорда для помощи в обнаружении мошенничества с данными бухгалтерского учета». J Судебно-бухгалтерский учет . 5 : 17–34.
- ^ а б Dümbgen, L; Леуэнбергер, С. (2008). «Явные оценки ошибки приближения в законе Бенфорда». Электронные коммуникации в вероятности . 13 : 99–112. arXiv : 0705.4488 . DOI : 10,1214 / ECP.v13-1358 . S2CID 2596996 .
- ^ а б в Хилл, Теодор П. (1995). «Феномен значащих цифр» . Американский математический ежемесячник . 102 (4): 322–327. DOI : 10.1080 / 00029890.1995.11990578 . JSTOR 2974952 .
- ^ Скотт, PD; Фасли, М. (2001) «Закон Бенфорда: эмпирическое исследование и новое объяснение». Архивировано 13 декабря 2014 года в Wayback Machine . CSM Технический отчет 349, Департамент компьютерных наук, Univ. Эссекс
- ^ а б в Suh, IS; Хедрик, TC (2010). «Сравнительный анализ бутстрапа и традиционных статистических процедур, применяемых к цифровому анализу на основе закона Бенфорда» (PDF) . Журнал судебно-медицинской экспертизы . 2 (2): 144–175.
- ^ mathworld.wolfram: "Закон Бенфорда"
дальнейшее чтение
- Рауль Изеа (2020). «Насколько достоверны сообщения о случаях заражения людей Covid-19 в мире? (Пример закона Бенфорда)» . Международный журнал коронавируса . 1 (2): 53. DOI : 10,14302 / issn.2692-1537.ijcv-20-3376 .
- Арно Бергер; Теодор П. Хилл (2017). "Что такое ... закон Бенфорда?" (PDF) . Уведомления AMS . 64 (2): 132–134. DOI : 10,1090 / noti1477 .
- Арно Бергер и Теодор П. Хилл (2015). Введение в закон Бенфорда . Издательство Принстонского университета. ISBN 978-0-691-16306-2.
- Алексей Эли Косовский. Закон Бенфорда: теория, общий закон относительных величин и приложения для судебного обнаружения мошенничества , 2014, World Scientific Publishing. ISBN 978-981-4583-68-8 .
- «Закон Бенфорда - Wolfram MathWorld» . Mathworld.wolfram.com. 14 июня 2012 . Проверено 26 июня 2012 года .
- Алессандро Гамбини; и другие. (2012). «Вероятность цифр при делении случайных чисел: приближение функций ψ и ζ» (PDF) . Expositiones Mathematicae . 30 (4): 223–238. DOI : 10.1016 / j.exmath.2012.03.001 .
- Sehity; Хельцль, Эрик; Кирхлер, Эрих (2005). «Ценовые изменения после номинального шока: закон Бенфорда и психологическое ценообразование после введения евро». Международный журнал исследований в области маркетинга . 22 (4): 471–480. DOI : 10.1016 / j.ijresmar.2005.09.002 .
- Николас Говрит ; Жан-Поль Делахай (2011). Разброс и регулярность подразумевают закон Бенфорда ... и многое другое . Зенил: Случайность посредством вычислений: некоторые ответы, еще вопросы . С. 58–69. arXiv : 0910.1359 . Bibcode : 2009arXiv0910.1359G . DOI : 10.1142 / 9789814327756_0004 . ISBN 978-9814327756. S2CID 88518074 .
- Бернхард Раух; Макс Гёттше; Гернот Брэлер; Стефан Энгель (август 2011 г.). «Факты и вымыслы в экономических данных правительства ЕС». Немецкое экономическое обозрение . 12 (3): 243–255. DOI : 10.1111 / j.1468-0475.2011.00542.x . S2CID 155072460 .
- Венди Чо и Брайан Гейнс (август 2007 г.). «Нарушение закона (Бенфорда): статистическое обнаружение мошенничества при финансировании избирательных кампаний». Американский статистик . 61 (3): 218–223. DOI : 10.1198 / 000313007X223496 . S2CID 7938920 .
- Гейрингер, Хильда ; Фурлан, Л. В. (1948). «Закон гармонии в статистике: исследование метрической взаимозависимости социальных явлений. Л.В. Фурлан». Журнал Американской статистической ассоциации . 43 (242): 325–328. DOI : 10.2307 / 2280379 . JSTOR 2280379 .
Внешние ссылки
- Benford Online Bibliography , онлайновая библиографическая база данных по закону Бенфорда.
- Проверка закона Бенфорда. Проект с открытым исходным кодом, демонстрирующий действие закона Бенфорда против общедоступных наборов данных.