8 дек. 2011 г.

Статистика и российские выборы - 6



Пользуясь случаем, выражаю своё "фи" разработчикам ГАС "Выборы" за отсутствие нормального machine-readable экспорта, кроме XLS'а. Хочу поблагодарить авторов библиотеки Jsoup, без которой я бы не отпарсил всю эту хрень: всем рекомендую, это как SAX+DOM+XPath но только для HTML'я (в т.ч. невалидного).

Корявая программа, написанная левой пяткой правой ноги, почёсывающей в среднем ухе, лежит здесь, гарантий на её качество и правильность нет, полезных ископаемых нет, воды нет, населена роботами. Для её сборки потребуется Maven и Java 7, сгенерятся два джарника target/elections-download.jar и target/elections-parse.jar. Первый пробегается по сайту ЦИКа и скачивает данные ТИКов в output/, второй берёт output/ и генерит CSV. Очевидных багов там вроде нет, но могут быть неочевидные, которые покорёжат данные, поэтому пользуйтесь с оглядкой. К сожалению, сводные данные ЦИКа получены ЦИКом заранее, до внесения протоколов УИКов, поэтому проверить валидность, даже банально сравнив с суммами на главной странице, не представляется возможным.

Данные по ТИКам на полночь 6 декабря лежат здесь (6600 Кб), заботливо скачанные с http://www.cikrf.ru/. А вот здесь лежит CSV'шка (2200 Кб)  с отпаршенными данными. Если вы верите моему роботу также, как я (то есть с лёгким скепсисом с точностью до багов), просто тащите CSV'ху.

Если вы не понимаете этот комикс, дальше вам читать противопоказано.
Если вы понимаете этот комикс, или даже истерично ржёте, то лучше возьмите сырые данные и сами их обработайте.


UPD: Для особенно одарённых переведу: этой статистикой НЕЛЬЗЯ доказать фальсификации, вбросы и т.п. Ей так же нельзя доказать то, что выборы прошли без нарушений. Это вообще не "математическое доказательство" в любом из смыслов. Приведёнными ниже данными можно усилить или ослабить некоторые статистические гипотезы относительно произошедшего на выборах, которые в свою очередь могут указать на места, которые нужно с пристрастием проверить. Многие эффекты не так очевидны, когда смотришь на данные в первый раз, поэтому с выводами не спешите.

Начнём с простого: избирательные участки. Мне интересно, какие распределения по количеству избирателей у нас имеют участки.


По закону УИК не может иметь больше 3.000 человек, ну мы это и видим. Забавно, что распределение не нормальное, но это скорее следствие того, что размеры УИКов -- всё же связанные СВ, ибо они разбивают одно и то же пространство на кластеры. Дома и по открепительным проголосовало не очень много народу (на самом деле, надо смотреть на площадь под кривой, описывающей гистограмму), хотя на отдельных участках до половины всех голосов взяты обходом по домам. Открепительных в среднем было 5% на участок.

Теперь про явку. Как значение синуса в военное время может достигать четырёх, так и центральная предельная теорема во время выборов не работает.


Левая часть -- ну чистая гауссиана. Можете в уме вычесть правую часть и прикинуть "лишнюю" площадь. Почему у неё получился хвост справа (т.е. почему это не гауссиана, хотя вроде должна быть) -- вопрос открытый. Чуров (тот самый) предлагал версию, что замешаны УИКи из разных профилей (город, село, т.п.), поэтому явка есть сумма нескольких СВ с разными распределениями, и поэтому ЦПТ не применима, и поэтому гауссианы ждать не стоит). Так же непонятно, почему данные "Эсквайра" про явку в других странах всё-таки распределены нормально. UPD: Есть гипотеза, что явка должна описываться логнормальным распределением, ну да, похоже.

Вот, кстати, как мило выглядят распределения голосов. Обратите внимание, что почти все распределения похожи на нормальные, за исключением...

  

...ЕдРо, на которую ЦПТ опять похоже не подействовала. Что интересно, у ЕдРа минимальное количество участков меньше чем с 20% голосов. Тут аргумент с достройкой гауссианы не прокатывает, ибо по построению площади всех гистограмм равны (ибо количество участков одно и то же). В версии справа шкала X немножко увеличена, чтобы поближе посмотреть на распределения "аутсайдеров". Объясните мне, почему гауссианы "аутсайдеров" обрезаны слева? И почему у них пики в нуле по 10.000 УИКов?

Теперь самое кайфовое, ради чего я это затеял: проверить на вшивость данные товарища [info]podmoskovnik. Такая вот у меня профессиональная деформация: не верить чужеродным графикам. Я намеренно их не усредняю, чтобы попытаться в этих "облаках" что-нибудь новое увидеть.


Сухой остаток: да, данные подтверждаются. У ЕдРа положительная корелляция благодушия избирателей и явки. Почему так произошло, пусть рассуждают читатели. Вот ещё в нескольких вариантах этот график: 3000х3000 (720 Кб) и 5000х5000 (1700 Кб). Мне особенно нравится кучность в районе 90% и 95% голосов (люди любят круглые числа?)(два дня спустя мне пришло в голову, что это могут быть ошибки квантования: ну сложно на участке с 20 избирателями сделать голоса не кратными 5%)

Линк на оригинал - http://shipilev.livejournal.com/95401.html

Комментариев нет:

Отправить комментарий