13 дек. 2011 г.

Статистика и российские выборы - 40 ( доказательства нелогичности пиков )

Во-первых нормального распределения (распределения Гаусса) в случае когда случайная величина (в данном случае — явка) по определению принимает значения только в определенном диапазоне быть не может + нормальное распределение, вообще говоря, симметрично, тут надо говорить о чем-то вроде бета-распределения или логит-нормального распределения (не знаю как по-людски называется) (это все не очень важно, просто для справки любителям помянуть «гауссиану» к месту и не к месту). Во-вторых, причудливая форма распределения может объясняться неоднородностью электората. Для примера, вот распределение для выборов в бундестаг 2002 (данные отсюда http://www.bundeswahlleiter.de/en/bundestagswahlen/fruehere_bundestagswahlen/btw2002.html , только по избирательным округам).

плотность вероятности от явки (если шкалу заменить на количество округов, то вместо 20 будет где-то 60)

Небольшой пик слева (в районе 75), насколько можно судить, соответствует меньшей явке в Восточной Германии. Распределение, следовательно, не обязано подчиняться каким-то определенным простым законом (и по определению не может быть «нормальным»)

UPD: тут люди говорят, что распределение нормальное, просто кривенькое, по причине малого количества точек.
нормальность распределения, вообще, проверяется не на глаз, а при помощи специальных критериев.
парочка вот (нулевая гипотеза — расределение под вопросом является нормальным).

Shapiro-Wilk normality test
W = 0.909, p-value = 7.397e-13

Lilliefors (Kolmogorov-Smirnov) normality test
D = 0.1667, p-value < 2.2e-16

около трехсот значений (звиняйте, данных по отдельным участкам найти не удалось) как правило уже вполне достаточно, чтобы результат не вызывал сомнений, а при таких значениях p и говорить не о чем.
Кстати, услышите что распределение где-то «нормальное» или «ненормальное», сразу требуйте результат проверки на нормальность.
UPD: распределение по регионам

распределения явки по отдельным землям. зеленым — те что прошли проверку на нормальность, красным — та что не прошла (а именно Северный Рейн-Вестфалия, совсем не граница фрг и гдр, к слову). особого смысла тут искать не стоит, впрочем (с одной стороны выборки маленькие и тест на нормальность может показать все что угодно, с другой — на таких данных тест на нормальность вообще может показать все что угодно)
Зависимость голосов за какую-либо партию от явки
Ровно таким же образом голоса за какую-либо партию могут зависеть от явки избирателей. Те же выборы в бундестаг, зависимость от явки голосов за ХДС+ХСС (синим) и ПДС+СвДП+ЗЕЛЕНЫЕ+СДПГ (зеленым) (доля от общего числа избирателей в округе)

(количество голосов за партии/общее число избирателей в округе) от явки
Estimate Std. Error t value Pr(>|t|)
1.4333 0.1438 9.966 < 2e-16 ***
-1.3380 0.1460 -9.165 <2e-16 ***


(количество голосов за партии/количество проголосовавших) от явки

UPD: корреляция между явкой и голосами по землям

Слева — ХДС+ХСС, справа — СДПГКрасным отмечены те линии, которые отражают значимую (p<0.05) линейную зависимость. Опять же, для определенного ответа выборки слишком маленькие.

Пики на «красивых» числах
Это на вид очень хороший аргумент, который и правда сложно связать с какими-то «естественными» процессами. Поэтому резонно проинспектировать и другие партии на предмет таких аномалий. Выборы в думу 2011 (сырые данные отсюда http://hist-kai.livejournal.com/243639.html, шаг в 0.1%, каждый процент помечен бледненькой такой линеечкой)



Количество участков от доли голосов за партию. Эти пики на дробях похожи на какую-то херню, может где-то что-то налажал опять.

UPD: про дроби
вот распределение для СР в окрестностях 1/7. шаг = 0.005% в середине 1/7

количество участков от процента СР


явка на тех участках, где голоса за СР в окрестности 1/7


голоса за ЕР участках, где голоса за СР в окрестности 1/7

Не вижу для тех участков, где странная доля голосов за СР никаких безумных аномалий для явки и голосов за ЕР. Что это может значить — понятия не имею, но интересно. Число проголосовавших на всех этих участках нацело делится на 7 (7–1799), так что, видимо, пики на таких значениях — просто артефакт. другие пики, включая пик на 50 за ЕР очень похожи в этом отношении.

UPD: Откуда могут браться пики на «круглых» цифрах
Пока не придумал как это доходчиво объяснить, поэтому просто приведу картинки (если коротко, то это вроде как связано с делимостью на простые числа и тем, что их соотношения дают пики на целых долях всего диапазона, как флажолеты на струне, к примеру).  
+UPD: Можно объяснить так: из набора случайных целых чисел, принимающих значение от нуля до n, случайно сочетаемых в обыкновенной дроби, больше способов получить, скажем, ровно 1/7, 1/2 или 3/4, чем, например, 11/70, 201/400 или 61/80 
  

это распределение для отношения двух равномерно распределенных целых случайных величин x и y.
x — от одного до 800 (чуть больше среднего участка), y — произвольная доля от x (округленное до целого).

> sample(800, 1000000, replace = TRUE) -> x$x
> sample(10000, 100000, replace = TRUE)/10000 -> x$y
> x$y <- round(x$x*x$y)
> hist(x$y/x$x, breaks = 200)
если убрать «участки» с x<100 пики уменьшаются, но не пропадают.

если ограничить значения y (в данном случае y < 1/2x, что ближе к реальности), пики становятся сильно более выраженными (шкала внизу до 0,5, обращаю внимание)

так-то

UPD: та же модель, только для распределения, похожего на настоящее
итак, вот распределение сгенерированных случайных чисел, имитирующих распределение количества явившихся на участки людей:

вот распределение, имитирующее распределение голосов за ер (сглаженное, без пиков, здесь и далее шаг в 0,2%):

далее я помножил «явившихся» из распределения сверху на «голоса» из распределения снизу, округлил до целых чисел и снова поделил на «явившихся» (можно было просто сымитировать распределение голосов за ер, но я что-то не подумал об этом). вот что из этого получилось:

убираем «участки» где «явилось» менее 400:

по-мойму так красота.

UPD: проверка на настоящих данных
Для проверки я добавил случайный шум с амплитудой в 1 голос к числу проголосовавших и к голосам за ер.
до:

после:

более или менее очевидную фигню мне видно только на 75 и 85.

UPD: 
следующие две картинки можно получить двумя способами: построить заново или зеркально отразить две верхние.
голоса за всех остальных без шума:

и с шумом


Пики не пропадают, если отбросить маленькие участки (кое-кто считает это аргументом против чисто стохастических объяснений), потому, что имеет значение не только размер участка, но и количество участков относительно их размера.

UPD: тем, кого это не убедило
и правильно что не убедило, поэтому призываю проверить все самостоятельно. если нигде тут нет лажи (а на этот предмет было бы здорово, если бы кто-нибудь проверил это дело независимо), то пики на дробях с небольшим знаменателем возникают неизбежно при таких данных (почему, интересно, в настоящих данных они такие маленькие? аномалия?) и чтобы найти настоящие аномалии, нужно их устранить (например, добавив шум). таким образом, думаю, что тем, кто действительно ищет фальсификации (и сам почему-то до такого объяснения не дошел), я, наверное, помог, а тем кто уже напечатал плакатов с, вероятно, артефактами — увы. и что за фигня творится на 75% и 85% и, возможно, в районе 90–100%% по прежнему не ясно

Обращаю еще раз внимание, что так объясняются только «узкие» пики с одинаковыми значениями (=1/2; = 1/3; =1/7 и т. п.), которые видны только при достаточно маленьком шаге. если пик широкий, это объяснение не подходит.


UPD: Спасибо Dmitry Kobak, он провел проверку этих результатов 
выходит, что что-то исчезает, а что-то остается (начиная от 65), а у того что осталось вроде можно найти прописку. Словом, рекомендую http://kobak.livejournal.com/102646.html#cutid1

UPD: примерно те же доводы
http://eruditor.ru/k/?15 — то же самое, но там «правые» гнобят «левых» не в бундестаге, а в британском парламенте (сам не проверял). про пики, повторюсь, читать kobak-а

тут была неинтересная фигня

Может у кого есть для «хороших людей» годное объяснение?

КОИБы
Этот аргумент кажется еще лучше предыдущего и по нему мне пока конкретного написать нечего. Однако, явным недостатком того, что мне попадалось является отсутствие привязки КОИБов к местности и вообще описания принципа, по которому ими оборудуются участки. Такие муторные и скучные вещи, конечно, не хочется делать, когда «все и так ясно», но жирный минус к научной добросовестности исследователей и значимости исследований добавляет. Если, вдруг, кто видел лишенные подобных недостатков работы, киньте, пожалуйста, ссылочку.


Линк на оригинал - http://jemmybutton.livejournal.com/1359.html

Комментариев нет:

Отправить комментарий