Физик Ф. Бенфорд так же, как и Ньюкомб, открыл это явление, только уже в 1938 году. Обнаружив ту же закономерность, он решил изучить её ещё глубже. Бенфорд проанализировал справочные данные о площадях поверхности 335 рек, химических параметрах тысяч химических соединений, номерах домов из адресного справочника, результатах бейсбольных матчей. В итоге ученый обнаружил, что везде соблюдается одна и та же закономерность: чисел, начинающихся с единицы, гораздо больше, чем начинающихся с любой другой цифры. Он собрал большую статистику и вывел формулу для распределения вероятности первой цифры разных измерений и вычислений [2].
Закон Бенфорда или закон первой цифры гласит, что в таблицах чисел, основанных на данных источников из реальной жизни цифра 1 на первом месте, встречается гораздо чаще, чем все остальные (приблизительно в 30% случаях). Более того, чем больше цифра, тем меньше вероятности, что она будет стоять на первом месте в числе. Этот закон применяетсяк цифрам из обычного мира и социальной сферы, как: показания электрического счётчика, цифры из газетной статьи, уличные адреса, цены акций, количество населения, уровень смертности, длина рек, физические и математические константы, и процессы, описываемые эмпирическими законами (которые весьма распространены в природе).
Простым языком Закон Бенфорда можно описать так: маленьких вещей в мире всегда больше, чем больших. Маленьких озер всегда больше, чем больших, маленьких камней – больше,маленьких книг – больше, фотографий, на которых изображен один человек, – больше, чем групповых, низких домов – больше, чем многоэтажных, незначительных аварий на дорогах – больше, чем серьезных. В бухгалтерии – проводок на маленькие суммы – больше, чем на большие.
Долгое время этот закон не находил никакого практического применения. Однако, американский математик Марк Нигрини сообразил, что Закону Бенфорда должны подчиняться не только площади рек, но и числа в налоговых декларациях и данные бухгалтерского учета. И в 1997 году Нигрини и Миттермайер разработали шесть математических тестов, основанных на Законе Бенфорда. Эти тесты первыми были введены в практику международной аудиторской компанией «Эрнст и Янг» для анализа и выявления нерегулярностей в данных клиентов при аудите [2].
Первый вопрос, на который должен ответить аудитор при проведении теста – является ли набор неких данных Бенфорд-последовательностью или нет. То есть соответствует ли он распределению Бенфорда. Самый простой способ – представить, откуда эти данные берутся. Если они получаются в результате естественного течения событий или присутствуют в природе «сами по себе» - скорее всего они будут соответствовать Закону Бенфорда. Вот некоторые примеры данных, соответствующих Закону Бенфорда:
номера платежных поручений от различных покупателей (вся совокупность);
суммы платежей от покупателей;
суммы в авансовых отчетах;
остатки товаров на складах;
номера домов в адресах клиентов.
Не соответствуют Закону Бенфорда:
почтовые индексы;
номера телефонов (первые цифры – номер АТС);
выигрышные номера в лото и рулетку (здесь цифры – лишь символы, их легко можно заменить, например, на буквы);
любые объемы данных, размер которых не достаточен для применения статистических методов;
суммы платежей от покупателей и объемы заказов, если продается несколько позиций одной номенклатуры.
Допустим, реализуется авторучки ценой 99 долларов за каждую. Чаще всего покупают всего одну ручку. Поэтому в большинстве случаев первой цифрой в сумме платежа будет девятка. На втором месте – единица (оплата за две ручки – 198 долларов). На третьем месте – двойка (оплата за три ручки – 297 долларов) и т. д.
ЗаконБенфорда, или закон первой цифры, описывает вероятность появления определённой первой значащей цифры в распределениях величин, взятых из реальной жизни.
Закон, обнаруженный Бенфордом, выглядит так: если у нас основание системы счисления b (b > 2), то для цифры d (d ∈ {1, …, b − 1}) вероятность быть первой значащей цифрой составляет:
Это в точности расстояние между d и d+1 на логарифмической шкале.
Для равномерного распределения, если вы имеете цифры 1, 2, 3, 4 ,5 ,6 ,7, 8, 9, 0 (=10), то у вас есть 10 отрезков (от 0 до 1,…, от 8 до 9, от 9 до 10). Обратите внимание, все отрезки лежат в отрезке [0, 10]. Для отрезка [d, d+1] равномерное распределение должно быть пропорционально его длине, то есть длине отрезка [d, d+1], то есть (d+1)-d, поделённое на длину отрезка [0, 10], которая равна 10.
Если логарифмы непрерывно распределены, вы должны взять логарифм числа перед тем, как рассмотреть отрезки. Для логарифмов рассматриваем отрезки от 1 до 10 (так как log100 не имеет смысла). В этом случае вы будете иметь интервалы от log101 до log102,…, от log108 до log109, от log109 до log1010. Все отрезки лежат в интервале [log101, log1010]=[0, 1]. Длина последнего равна 1. Итак, рассматриваем отрезок [d, d+1] на обычной шкале, в логарифмической шкале равномерное распределение будет пропорционально его длине, то есть:
При этом распределение зависит только от системы счисления, но не от единицы измерения. Другими словами, если тонны перевести в фунты, а квадратные километры — в акры, распределение не изменится [1].
Список использованных источников
1. Закон Бенфорда или закон первой цифры [Электронный ресурс]- Режим доступа: http://baguzin.ru/wp/zakon-benforda-ili-zakon-pervoj-tsifry/
2. Закон Бенфорда [Электронный ресурс] - Режим доступа: https://ru.wikipedia.org/wiki/