15 дек. 2011 г.

Статистика и выборы - 45 (Закон Бенфорда )


Закон Бенфорда определяет возможную фальсификацию на выборах

Единица, перевешивающая двойку, тройку, пятерку и другие цифры

Числа, числа, числа... Их полно во всякого рода статистических отчетах, налоговых декларациях, спортивных таблицах, адресах, счетах, биржевых колонках... Удивительно, но большинство из них начинаются с единицы, а меньше всего тех, что начинаются с девятки.
В 1881 г. американский астроном Саймон Ньюком, работая в библиотеке с логарифмическими таблицами, обнаружил, что страницы в начале книги замусолены сильнее, чем остальные. Просмотрев еще несколько книг и убедившись, что все они имеют такую же особенность, ученый сделал очевидный вывод: студенты чаще смотрели значение логарифма числа, начинающегося с единицы, затем с двойки и так далее. Логарифмы чисел, начинающихся с девятки, интересовали студентов менее всего.
Это открытие вдохновило Ньюкома на дальнейшие изыскания. Проанализировав результаты астрономических вычислений, он обнаружил, что размеры орбит планет также чаще начинаются с единицы. Это настолько поразило астронома, что он вывел формулу, указывающую, с какой вероятностью число начинается с определенной цифры.
Он писал, что если выбрать любое число из таблицы, содержащей физические значения или статистические данные, вероятность того, что оно будет начинаться с единицы, приблизительно равна 0,301. А если бы все начальные цифры чисел встречались с одинаковой вероятностью, то она должна была бы равняться 0,1.
Ньюком опубликовал статью в American Journal of Mathematics, но научное сообщество сочло его формулу причудливой и недостойной серьезного рассмотрения.
Прошло более 50 лет, и точно такое же наблюдение по поводу логарифмических таблиц сделал Фрэнк Бенфорд, физик и изобретатель лазерного сверления, работавший в компании General Electric.
Бенфорд проанализировал огромный цифровой материал — свыше 20 тыс. наборов данных: статистики американской бейсбольной лиги, цифр из газет, счетов за электроэнергию, физические и химические константы. И почти везде получалась та же картина — чаще всего числа начинались с единицы.
Фрэнк Бенфорд опубликовал свое открытие в 1938 г. Закон, который он вывел, гласит, что в любой последовательности чисел, описывающей динамику какого-либо процесса или множество каких-либо объектов, числа, начинающиеся в записи с единицы, встречаются много чаще всех других.
Приблизительно каждое третье число в массиве, по утверждению Бенфорда, начинается с единицы, но при этом чем больше числа, тем меньше среди них начинаются на 1.
Бенфорд не только сформулировал закон о преобладании единицы, но и вывел формулы, которые позволяют рассчитать частоту появления каждой цифры в начале числа в числовом массиве. На первом месте единица с вероятностью 30%, на втором — двойка (вероятность 18%), реже других в начале числа стоит девятка (вероятность 4,6%).
Закон Бенфорда до сих пор привлекает исследователей чисел. Недавно физики Кордобского университета (Испания) обнаружили новые его доказательства, о чем поведали в European Journal of Physics.
«Он завораживал меня многие годы, — говорит один из авторов, Йезус Торрес. — Кто не верит на слово, может проверить его сам. Возьмите, например, газету, которую вы сейчас читаете. Около трети всех чисел в ней начинаются с 1, около 1/5 — с 2, 1/8 — с 3 и только 1/20 — с 9».
Самым же большим скептикам г-н Торрес порекомендовал обратиться к поисковой системе Google: задать поисковым словом пятизначное число, начинающееся с единицы, а затем с любой другой цифры, и машина выдаст несравнимо больше попаданий, начинающихся с 1, чем с 5, не говоря уже о 9.
Мы проверили, и действительно: задав поиск по числу 12345, получили 13 400 000 ссылок, по 54321 — лишь 864 000 ссылок. На число 900 Google предлагает 350 млн. страниц, на 500 — 1 млрд. 290 млн., на 100 — 3 млрд. 70 млн.
Справедливость формулы подтверждали результаты многих исследований, но практического применения закон Бенфорда так и не получил, оставаясь в разряде математических курьезов.
Конечно, он касается не всех наборов данных: исключение составляют, например, летние температуры, чаще всего начинающиеся с цифр 2 или 3, лотерейные числа и некоторые другие. Зато ему вполне отвечают физические константы, номера домов, курсы акций, площадь рек...
В 1986 г. физик Дон Лемонс первым обратил внимание на простое обстоятельство: луж больше, чем прудов, а прудов больше, чем океанов. Из этого следует, что водоемов площадью от 10 до 20 аров (гектаров, квадратных километров и проч.) больше, чем от 20 до 30 аров. А площадью от 100 до 200 аров больше, чем от 200 до 300 аров, и так далее.
Простым языком закон Бенфорда можно описать так: маленьких вещей в мире всегда больше, чем больших. Маленьких озер всегда больше, чем больших, книжечек — больше, чем фолиантов, одноэтажных домов больше, чем высоток, незначительные аварии на дорогах случаются чаще, чем серьезные. В бухгалтерии проводок на мелкие суммы больше, чем на крупные.
К сожалению, общепринятого критерия, позволяющего предсказывать, будет ли определенный набор данных подчиняться закону Бенфорда, нет. Единственная возможность узнать это — анализ чисел. Но имеет ли закон практическую пользу?
Американский математик Марк Нигрини проанализировал на компьютере более 200 тыс. налоговых деклараций и увидел, что в отчетах и в самом деле почти каждое третье число начинается с единицы. Затем он разработал программу для проверки числовых массивов на соответствие закону Бенфорда, которая была испытана в 1995 г. Нью-йоркской налоговой полиции это испытание помогло разоблачить нескольких налогоплательщиков, скрывающих доходы.
Ведущие мировые производители программных комплексов, разработанных для аудита или выявления случаев мошенничества, давно встроили в свои программы тесты на основе закона Бенфорда. С их помощью аудитор или ревизор за несколько секунд может обработать огромный массив исходной информации, выявить аномальные результаты и отобрать самые подозрительные транзакции для более тщательной проверки.
Анализ данных с применением закона аномальных чисел позволяет раскрыть такие негативные явления, как мошенничество, часто встречающиеся неумышленные ошибки и операционную неэффективность (например, слишком большое количество операций с малыми суммами). Испанские ученые предлагают использовать закон Бенфорда при определении возможной фальсификации на выборах. Они утверждают, что закону не соответствовали результаты президентских выборов 2004 г. в Венесуэле и 2006 г. в Мексике, равно как и 2000 г. во Флориде, после которых Джордж Буш был повторно избран президентом США.
Уникальные
просмотры
580
Иван ТАРАН

Линк на оригинал - http://2000.net.ua/2000/svoboda-slova/42009

Комментариев нет:

Отправить комментарий