Во-первых нормального распределения (распределения Гаусса) в случае когда случайная величина (в данном случае — явка) по определению принимает значения только в определенном диапазоне быть не может + нормальное распределение, вообще говоря, симметрично, тут надо говорить о чем-то вроде бета-распределения или логит-нормального распределения (не знаю как по-людски называется) (это все не очень важно, просто для справки любителям помянуть «гауссиану» к месту и не к месту). Во-вторых, причудливая форма распределения может объясняться неоднородностью электората. Для примера, вот распределение для выборов в бундестаг 2002 (данные отсюда http://www.bundeswahlleiter.de/en/bundes tagswahlen/fruehere_bundestagswahlen/btw 2002.html , только по избирательным округам).
плотность вероятности от явки (если шкалу заменить на количество округов, то вместо 20 будет где-то 60)
Небольшой пик слева (в районе 75), насколько можно судить, соответствует меньшей явке в Восточной Германии. Распределение, следовательно, не обязано подчиняться каким-то определенным простым законом (и по определению не может быть «нормальным»)
UPD: тут люди говорят, что распределение нормальное, просто кривенькое, по причине малого количества точек.
нормальность распределения, вообще, проверяется не на глаз, а при помощи специальных критериев.
Ровно таким же образом голоса за какую-либо партию могут зависеть от явки избирателей. Те же выборы в бундестаг, зависимость от явки голосов за ХДС+ХСС (синим) и ПДС+СвДП+ЗЕЛЕНЫЕ+СДПГ (зеленым) (доля от общего числа избирателей в округе)
(количество голосов за партии/общее число избирателей в округе) от явки
Estimate Std. Error t value Pr(>|t|)
1.4333 0.1438 9.966 < 2e-16 ***
-1.3380 0.1460 -9.165 <2e-16 ***
(количество голосов за партии/количество проголосовавших) от явки
UPD: корреляция между явкой и голосами по землям
Слева — ХДС+ХСС, справа — СДПГ. Красным отмечены те линии, которые отражают значимую (p<0.05) линейную зависимость. Опять же, для определенного ответа выборки слишком маленькие.
Пики на «красивых» числах
Это на вид очень хороший аргумент, который и правда сложно связать с какими-то «естественными» процессами. Поэтому резонно проинспектировать и другие партии на предмет таких аномалий. Выборы в думу 2011 (сырые данные отсюда http://hist-kai.livejournal.com/2 43639.html, шаг в 0.1%, каждый процент помечен бледненькой такой линеечкой)
Количество участков от доли голосов за партию. Эти пики на дробях похожи на какую-то херню, может где-то что-то налажал опять.
UPD: про дроби
вот распределение для СР в окрестностях 1/7. шаг = 0.005% в середине 1/7
количество участков от процента СР
явка на тех участках, где голоса за СР в окрестности 1/7
голоса за ЕР участках, где голоса за СР в окрестности 1/7
Не вижу для тех участков, где странная доля голосов за СР никаких безумных аномалий для явки и голосов за ЕР. Что это может значить — понятия не имею, но интересно. Число проголосовавших на всех этих участках нацело делится на 7 (7–1799), так что, видимо, пики на таких значениях — просто артефакт. другие пики, включая пик на 50 за ЕР очень похожи в этом отношении.
UPD: Откуда могут браться пики на «круглых» цифрах
Пока не придумал как это доходчиво объяснить, поэтому просто приведу картинки (если коротко, то это вроде как связано с делимостью на простые числа и тем, что их соотношения дают пики на целых долях всего диапазона, как флажолеты на струне, к примеру).
+UPD: Можно объяснить так: из набора случайных целых чисел, принимающих значение от нуля до n, случайно сочетаемых в обыкновенной дроби, больше способов получить, скажем, ровно 1/7, 1/2 или 3/4, чем, например, 11/70, 201/400 или 61/80
это распределение для отношения двух равномерно распределенных целых случайных величин x и y.
x — от одного до 800 (чуть больше среднего участка), y — произвольная доля от x (округленное до целого).
> sample(800, 1000000, replace = TRUE) -> x$x
если ограничить значения y (в данном случае y < 1/2x, что ближе к реальности), пики становятся сильно более выраженными (шкала внизу до 0,5, обращаю внимание)
так-то
UPD: та же модель, только для распределения, похожего на настоящее
итак, вот распределение сгенерированных случайных чисел, имитирующих распределение количества явившихся на участки людей:
вот распределение, имитирующее распределение голосов за ер (сглаженное, без пиков, здесь и далее шаг в 0,2%):
далее я помножил «явившихся» из распределения сверху на «голоса» из распределения снизу, округлил до целых чисел и снова поделил на «явившихся» (можно было просто сымитировать распределение голосов за ер, но я что-то не подумал об этом). вот что из этого получилось:
убираем «участки» где «явилось» менее 400:
по-мойму так красота.
UPD: проверка на настоящих данных
Для проверки я добавил случайный шум с амплитудой в 1 голос к числу проголосовавших и к голосам за ер.
до:
после:
более или менее очевидную фигню мне видно только на 75 и 85.
UPD:
следующие две картинки можно получить двумя способами: построить заново или зеркально отразить две верхние.
голоса за всех остальных без шума:
и с шумом
Пики не пропадают, если отбросить маленькие участки (кое-кто считает это аргументом против чисто стохастических объяснений), потому, что имеет значение не только размер участка, но и количество участков относительно их размера.
UPD: тем, кого это не убедило
и правильно что не убедило, поэтому призываю проверить все самостоятельно. если нигде тут нет лажи (а на этот предмет было бы здорово, если бы кто-нибудь проверил это дело независимо), то пики на дробях с небольшим знаменателем возникают неизбежно при таких данных (почему, интересно, в настоящих данных они такие маленькие? аномалия?) и чтобы найти настоящие аномалии, нужно их устранить (например, добавив шум). таким образом, думаю, что тем, кто действительно ищет фальсификации (и сам почему-то до такого объяснения не дошел), я, наверное, помог, а тем кто уже напечатал плакатов с, вероятно, артефактами — увы. и что за фигня творится на 75% и 85% и, возможно, в районе 90–100%% по прежнему не ясно
Обращаю еще раз внимание, что так объясняются только «узкие» пики с одинаковыми значениями (=1/2; = 1/3; =1/7 и т. п.), которые видны только при достаточно маленьком шаге. если пик широкий, это объяснение не подходит.
UPD: Спасибо Dmitry Kobak, он провел проверку этих результатов
выходит, что что-то исчезает, а что-то остается (начиная от 65), а у того что осталось вроде можно найти прописку. Словом, рекомендую http://kobak.livejournal.com/102646.html#c utid1
UPD: примерно те же доводы
http://eruditor.ru/k/?15 — то же самое, но там «правые» гнобят «левых» не в бундестаге, а в британском парламенте (сам не проверял). про пики, повторюсь, читать kobak-а
тут была неинтересная фигня
Может у кого есть для «хороших людей» годное объяснение?
КОИБы
Этот аргумент кажется еще лучше предыдущего и по нему мне пока конкретного написать нечего. Однако, явным недостатком того, что мне попадалось является отсутствие привязки КОИБов к местности и вообще описания принципа, по которому ими оборудуются участки. Такие муторные и скучные вещи, конечно, не хочется делать, когда «все и так ясно», но жирный минус к научной добросовестности исследователей и значимости исследований добавляет. Если, вдруг, кто видел лишенные подобных недостатков работы, киньте, пожалуйста, ссылочку.
Линк на оригинал - http://jemmybutton.livejournal.com/1359.html
плотность вероятности от явки (если шкалу заменить на количество округов, то вместо 20 будет где-то 60)
Небольшой пик слева (в районе 75), насколько можно судить, соответствует меньшей явке в Восточной Германии. Распределение, следовательно, не обязано подчиняться каким-то определенным простым законом (и по определению не может быть «нормальным»)
UPD: тут люди говорят, что распределение нормальное, просто кривенькое, по причине малого количества точек.
нормальность распределения, вообще, проверяется не на глаз, а при помощи специальных критериев.
парочка вот (нулевая гипотеза — расределение под вопросом является нормальным).
Shapiro-Wilk normality test
Shapiro-Wilk normality test
W = 0.909, p-value = 7.397e-13
Lilliefors (Kolmogorov-Smirnov) normality test
Зависимость голосов за какую-либо партию от явкиLilliefors (Kolmogorov-Smirnov) normality test
D = 0.1667, p-value < 2.2e-16
около трехсот значений (звиняйте, данных по отдельным участкам найти не удалось) как правило уже вполне достаточно, чтобы результат не вызывал сомнений, а при таких значениях p и говорить не о чем.
Кстати, услышите что распределение где-то «нормальное» или «ненормальное», сразу требуйте результат проверки на нормальность.
UPD: распределение по регионам
распределения явки по отдельным землям. зеленым — те что прошли проверку на нормальность, красным — та что не прошла (а именно Северный Рейн-Вестфалия, совсем не граница фрг и гдр, к слову). особого смысла тут искать не стоит, впрочем (с одной стороны выборки маленькие и тест на нормальность может показать все что угодно, с другой — на таких данных тест на нормальность вообще может показать все что угодно)
около трехсот значений (звиняйте, данных по отдельным участкам найти не удалось) как правило уже вполне достаточно, чтобы результат не вызывал сомнений, а при таких значениях p и говорить не о чем.
Кстати, услышите что распределение где-то «нормальное» или «ненормальное», сразу требуйте результат проверки на нормальность.
UPD: распределение по регионам
распределения явки по отдельным землям. зеленым — те что прошли проверку на нормальность, красным — та что не прошла (а именно Северный Рейн-Вестфалия, совсем не граница фрг и гдр, к слову). особого смысла тут искать не стоит, впрочем (с одной стороны выборки маленькие и тест на нормальность может показать все что угодно, с другой — на таких данных тест на нормальность вообще может показать все что угодно)
Ровно таким же образом голоса за какую-либо партию могут зависеть от явки избирателей. Те же выборы в бундестаг, зависимость от явки голосов за ХДС+ХСС (синим) и ПДС+СвДП+ЗЕЛЕНЫЕ+СДПГ (зеленым) (доля от общего числа избирателей в округе)
(количество голосов за партии/общее число избирателей в округе) от явки
Estimate Std. Error t value Pr(>|t|)
1.4333 0.1438 9.966 < 2e-16 ***
-1.3380 0.1460 -9.165 <2e-16 ***
(количество голосов за партии/количество проголосовавших) от явки
UPD: корреляция между явкой и голосами по землям
Слева — ХДС+ХСС, справа — СДПГ. Красным отмечены те линии, которые отражают значимую (p<0.05) линейную зависимость. Опять же, для определенного ответа выборки слишком маленькие.
Пики на «красивых» числах
Это на вид очень хороший аргумент, который и правда сложно связать с какими-то «естественными» процессами. Поэтому резонно проинспектировать и другие партии на предмет таких аномалий. Выборы в думу 2011 (сырые данные отсюда http://hist-kai.livejournal.com/2
Количество участков от доли голосов за партию. Эти пики на дробях похожи на какую-то херню, может где-то что-то налажал опять.
UPD: про дроби
вот распределение для СР в окрестностях 1/7. шаг = 0.005% в середине 1/7
количество участков от процента СР
явка на тех участках, где голоса за СР в окрестности 1/7
голоса за ЕР участках, где голоса за СР в окрестности 1/7
Не вижу для тех участков, где странная доля голосов за СР никаких безумных аномалий для явки и голосов за ЕР. Что это может значить — понятия не имею, но интересно. Число проголосовавших на всех этих участках нацело делится на 7 (7–1799), так что, видимо, пики на таких значениях — просто артефакт. другие пики, включая пик на 50 за ЕР очень похожи в этом отношении.
UPD: Откуда могут браться пики на «круглых» цифрах
Пока не придумал как это доходчиво объяснить, поэтому просто приведу картинки (если коротко, то это вроде как связано с делимостью на простые числа и тем, что их соотношения дают пики на целых долях всего диапазона, как флажолеты на струне, к примеру).
+UPD: Можно объяснить так: из набора случайных целых чисел, принимающих значение от нуля до n, случайно сочетаемых в обыкновенной дроби, больше способов получить, скажем, ровно 1/7, 1/2 или 3/4, чем, например, 11/70, 201/400 или 61/80
это распределение для отношения двух равномерно распределенных целых случайных величин x и y.
x — от одного до 800 (чуть больше среднего участка), y — произвольная доля от x (округленное до целого).
> sample(800, 1000000, replace = TRUE) -> x$x
> sample(10000, 100000, replace = TRUE)/10000 -> x$y
> x$y <- round(x$x*x$y)
> hist(x$y/x$x, breaks = 200)
если убрать «участки» с x<100 пики уменьшаются, но не пропадают.если ограничить значения y (в данном случае y < 1/2x, что ближе к реальности), пики становятся сильно более выраженными (шкала внизу до 0,5, обращаю внимание)
так-то
UPD: та же модель, только для распределения, похожего на настоящее
итак, вот распределение сгенерированных случайных чисел, имитирующих распределение количества явившихся на участки людей:
вот распределение, имитирующее распределение голосов за ер (сглаженное, без пиков, здесь и далее шаг в 0,2%):
далее я помножил «явившихся» из распределения сверху на «голоса» из распределения снизу, округлил до целых чисел и снова поделил на «явившихся» (можно было просто сымитировать распределение голосов за ер, но я что-то не подумал об этом). вот что из этого получилось:
убираем «участки» где «явилось» менее 400:
по-мойму так красота.
UPD: проверка на настоящих данных
Для проверки я добавил случайный шум с амплитудой в 1 голос к числу проголосовавших и к голосам за ер.
до:
после:
более или менее очевидную фигню мне видно только на 75 и 85.
UPD:
следующие две картинки можно получить двумя способами: построить заново или зеркально отразить две верхние.
голоса за всех остальных без шума:
и с шумом
Пики не пропадают, если отбросить маленькие участки (кое-кто считает это аргументом против чисто стохастических объяснений), потому, что имеет значение не только размер участка, но и количество участков относительно их размера.
UPD: тем, кого это не убедило
и правильно что не убедило, поэтому призываю проверить все самостоятельно. если нигде тут нет лажи (а на этот предмет было бы здорово, если бы кто-нибудь проверил это дело независимо), то пики на дробях с небольшим знаменателем возникают неизбежно при таких данных (почему, интересно, в настоящих данных они такие маленькие? аномалия?) и чтобы найти настоящие аномалии, нужно их устранить (например, добавив шум). таким образом, думаю, что тем, кто действительно ищет фальсификации (и сам почему-то до такого объяснения не дошел), я, наверное, помог, а тем кто уже напечатал плакатов с, вероятно, артефактами — увы. и что за фигня творится на 75% и 85% и, возможно, в районе 90–100%% по прежнему не ясно
Обращаю еще раз внимание, что так объясняются только «узкие» пики с одинаковыми значениями (=1/2; = 1/3; =1/7 и т. п.), которые видны только при достаточно маленьком шаге. если пик широкий, это объяснение не подходит.
UPD: Спасибо Dmitry Kobak, он провел проверку этих результатов
выходит, что что-то исчезает, а что-то остается (начиная от 65), а у того что осталось вроде можно найти прописку. Словом, рекомендую http://kobak.livejournal.com/102646.html#c
UPD: примерно те же доводы
http://eruditor.ru/k/?15 — то же самое, но там «правые» гнобят «левых» не в бундестаге, а в британском парламенте (сам не проверял). про пики, повторюсь, читать kobak-а
тут была неинтересная фигня
КОИБы
Этот аргумент кажется еще лучше предыдущего и по нему мне пока конкретного написать нечего. Однако, явным недостатком того, что мне попадалось является отсутствие привязки КОИБов к местности и вообще описания принципа, по которому ими оборудуются участки. Такие муторные и скучные вещи, конечно, не хочется делать, когда «все и так ясно», но жирный минус к научной добросовестности исследователей и значимости исследований добавляет. Если, вдруг, кто видел лишенные подобных недостатков работы, киньте, пожалуйста, ссылочку.
Линк на оригинал - http://jemmybutton.livejournal.com/1359.html
Комментариев нет:
Отправить комментарий