15 дек. 2011 г.

Статистика и российские выборы - 42


Предыдущая запись  Добавить в избранное  Поделиться  Отслеживать  Пометить как материал для взрослых  Следующая запись
ПЖиВ и десять сигм
Как вы все уже знаете, сегодня в ЦЕРНе объявили, что они вроде как начинают видеть бозон Хиггса (см. у [info]ktoms, значимость 2.3 и 1.9 сигм (у двух коллабораций)). Это очень здорово. Ну а я, как поручик Ржевский, подумал: а какая значимость у пиков на числах кратных 5% на гистограмме по голосам за ЕР? Посчитал. У пяти пиков от 65% до 85% значимости 10, 5, 7, 5 и 8 сигм. А знаете ли вы, друзья, что такое десять сигм? Это p-value где-то порядка обратного числа Авогадро, 10^-23. Если бы в ЦЕРНе такое получили, я боюсь предположить, что бы там сейчас творилось.


Подробности. Я взял последний график из последней записи, гистограмма количества бюллетеней за ЕР в зависимости от результата в процентах, с бином 0.25%. Убрал пики на числах кратных 5%, начиная с 65% (вырезал интервал +-1% и заменил средним двух значений на концах интервала), high-pass-нул, чтобы остался только шум, а медленная модуляция исчезла, взял кусок от 30% до 90% (где кривая плавно убывает) и посчитал среднеквадратичное отклонение значений на этом куске. Это одна сигма. А потом высоту каждого пика (по сравнению со сглаженным сигналом) разделил на сигму. Получилось то, что получилось. Это не очень аккуратное вычисление, хотя бы потому что сигнал явно автокоррелированный, но детальнее считать лень (плюс я считаю все уик независимыми). Все пять пиков вместе — это где-то 17 сигм, порядка 10^-65 (прикинул на глаз, матлаб выдает просто ноль). По-моему, очень весело.



Update
[info]gegmopo4 сделал похожий расчет, но совсем другими методами (бутстрапом): http://gegmopo4.livejournal.com/72915.html. Результаты похожие.

Линк на оригинал - http://kobak.livejournal.com/102825.html

Комментариев нет:

Отправить комментарий