Использование изменения системы отсчета для улучшения результатов анализа с помощью закона Бенфорда

Автор: Доманов А.К.

Журнал: Форум молодых ученых @forum-nauka

Статья в выпуске: 4 (104), 2025 года.

Бесплатный доступ

В данной статье предложен метод повышения эффективности анализа данных с помощью закона Бенфорда за счет предварительного перевода чисел в систему счисления с большим основанием. В работе представлено теоретическое обоснование метода и результаты экспериментальной проверки. Показано, что такой подход увеличивает чувствительность анализа и улучшает выявление аномалий по сравнению со стандартным применением закона Бенфорда.

Закон бенфорда, анализ данных, системы счисления, статистика, закономерности

Короткий адрес: https://sciup.org/140311859

IDR: 140311859

Текст научной статьи Использование изменения системы отсчета для улучшения результатов анализа с помощью закона Бенфорда

Закон Бенфорда, также известный как закон первой цифры, представляет собой удивительное явление, наблюдаемое в различных наборах данных, где первая цифра чисел не распределена равномерно. Согласно этому закону, в естественных наборах чисел цифра 1 появляется значительно чаще, чем цифры 2, 3 и так далее, вплоть до 9.

Саймон Ньюкомб первым заметил, что «то, что десять цифр не встречаются с одинаковой частотой, должно быть очевидно любому, кто много пользуется логарифмическими таблицами и замечает, насколько быстрее изнашиваются первые страницы, чем последние».

После него уже Фрэнк Бенфорд обратил внимание на то, что «частота первых цифр близко следует логарифмическому соотношению F =log ( a + 1 ), где F - частота цифры a на первом месте используемых чисел».

Он повсеместно используется для обнаружения мошеннических схем в финансовой сфере, проверке выборов на фальсификацию и во многих других областях, где необходимо обнаруживать аномалии в больших объемах данных. Ведь различные манипуляции с данными меняют распределение первых цифр так, что они перестают подходить под закон Бенфорда.

В этой статье рассматривается возможность перевода значений в статистике в другую систему счисления для улучшения результатов анализа.

Распределение по закону Бенфорда в современном виде выглядит так:

1 P ( n ) =log b (1 + - ^)^

Где: n – первая цифра какого-либо значения в распределении; b -система счисления, в которой представлено распределение; P(n) – вероятность цифры n быть первой значащей.

То есть распределение меняется при переходе из одной системы счисления в другую, что и используется в этом методе.

Для исследования как набор анализируемых данных была выбрана площадь водосборного бассейна рек мира. Всего было использовано 171 значение. Анализ проводился в системах счисления: троичной, восьмеричной, десятичной, семнадцатеричной, шестидесятеричной и от тридцатидвоичной до тридцатидевятеричной.

На графике 2 обозначены:

  •    Черным – троичная система счисления.

  •    Красным – семеричная система счисления.

  •    Синим – десятеричная система счисления.

  •    Оранжевым – семнадцатеричная система счисления.

  •    Зеленым – тридцатишестеричная система счисления.

  •    Фиолетовым – шестидесятеричная система счисления.

Пунктиром обозначена функция закона Бенфорда, какой она должна быть в идеале, а сплошной линией – функция, получившаяся в результате анализа.

График 2. Результат вычислений.

При изучении получившейся функции можно понять, что качество анализа возрастает при увеличении системы счисления вплоть до тридцатишестеричной.

На наиболее маленьких системах счисления качество минимально, и аномалии в такой системе будут практически незаметны

Это объясняется тем, что увеличение системы счисления увеличивает количество возможных первых цифр, «размазывая» распределение, тем самым делая аномалии более заметными

Измерение

Закон Бенфорда

Цифра

Таблица 1. Семнадцатеричная система счисления

Проблемы начинаются при значительном увеличении системы счисления, к примеру до шестидесятеричной (в тридцатишестиричной тоже иногда проглядывают искажения). При слишком большом увеличении функции становятся менее точными. Это можно объяснить тем, что основание системы счисления слишком приближается к количеству данных, хотя аномалии в такой системе все еще будут более заметными. Когда основание системы приближается к количеству анализируемых данных, количество анализируемых цифр увеличивается, и распределяемых на них значений не хватает, что делает такой анализ ненадежным. Вдобавок если приблизится к самим значениям, нарушится условие работы закона Бенфорда об охватывании нескольких порядков величин, и он может просто перестать работать.

Шестидесятеричная система счисления

Измерения

Закон

Бенфорда

Таблица 2. Шестидесятеричная система счисления

В шестидесятеричной системе счисления точность становится очень маленькой (таблица 2), но зато аномалии появляются очень явно. Даже если взять большое количество данных, любое появление больших чисел означает аномалию, ведь шанс появления к примеру цифры 59 невероятно мал: 0,046%. И тем не менее точность анализа слишком низка

То есть для того, чтобы эффективно анализировать данные, основание системы счисления b в среднем должно быть минимум в 5 раз меньше количества анализируемых данных N

b

N

Также можно уменьшить систему счисления, если в десятеричной системе нарушается условие охватывания нескольких порядков величин или имеется слишком мало данных.

Вывод: у этого способа присутствуют как и плюсы, так и минусы. При использовании этого метода необходимо подобрать оптимальную систему счисления, что может занять много времени, но тем не менее он значительно увеличивает обнаружимость аномалий.

Плюсы:

  •    Аномалии при увеличении системы счисления становятся гораздо заметнее, так как данные размазываются и шансы встречи больших первых цифр значительно уменьшается, что также помогает при анализе.

  •    При подборе подходящей системы счисления точность анализа может возрасти в отличие от десятеричной системы.

  •    Если факт присутствия аномалии был специально скрыт в десятеричной системе, аномалия может быть обнаружена в других системах счисления.

Минусы:

  •    Такой анализ может быть не всегда удобным, так как происходит не в привычной для нас десятичной системе счисления Может занять слишком много времени.

  •    Точность понижается при приближении к количеству данных или минимальным значениям анализируемой статистики, при слишком большом увеличении закон может вообще перестать работать.

Этот метод можно использовать либо в статистике с небольшим количеством данных для того, чтобы аномалии становились более заметными, либо в статистике с большим количеством данных для того, чтобы сделать анализ более точным. Точность анализа повышается не всегда, в некоторых случаях может уменьшаться. Тем не менее, основное преимущество этого метода заключается в том, что все аномалии в данных будут намного более заметными в больших системах счисления.

Желательно применять закон Бенфорда при анализе, совмещая разные методы. Например можно совместить метод увеличения системы отсчета вместе с методом анализа второй цифры, то есть анализировать и первую и вторую цифру в разных системах отсчета.

Статья научная