24 дек. 2011 г.

Статистика и российские выборы - 53 (Илларионов)


В связи с регулярно обсуждаемой темой фальсификации результатов президентских выборов 1996 г., в том числе возникшей вновь в дискуссии в предыдущем посте, полагаю возможным еще раз обратить внимание на динамику Индекса фальсификации выборов в России (ИФ). См. также здесь.
 
В качестве значения Индекса для каждого случая президентских и парламентских выборов и референдумов использованы значения коэффициента детерминации линии тренда регрессии желательного результата выборов для действующей власти (голосование за желательного кандидата на выборах, за желательный ответ на референдуме) от величины явки избирателей по регионам России. 

Значение индекса, равное 0, говорит о том, что искажение результатов выборов (референдума) из-за (возможного) вмешательства действующей власти равно нулю. Значение индекса, равное 1, говорит о том, что результаты выборов (референдума) полностью фальсифицированы.

Судя по значению ИФ для первого тура президентских выборов 1996 г. он проходил практически без какого-либо вмешательства со стороны исполнительной власти. Однако во втором туре президентских выборов 1996 г. власти вмешались, и результаты голосования оказались искаженными. Тем не менее масштаб этих искажений был еще относительно скромным, опережение Б.Ельциным Г.Зюганова во втором туре выборов даже без этих искажений было значительным, их масштаб не мог повлиять на подведение окончательных результатов голосования. 

Однако наибольший ущерб эти искажения нанесли не столько результатам выборов непосредственно в 1996 г, сколько складывавшейся и тогда пока еще не устоявшейся практике объективного подведения итогов голосования - институту честного подсчета голосов. Начав с весьма скромных искажений во втором туре 1996 г., власти с каждым новым голосованием увеличивали масштабы фальсификаций, доведя их в 2007-2008 гг. до границы теоретически и практически возможного.

Тем не менее даже для второго тура президентских выборов 1996 г. ИФ оказался существенно ниже, чем его значение для президентских выборов в России в июне 1991 г. (когда союзная власть пыталась фальсифицировать результаты голосования в пользу своего кандидата Н.И.Рыжкова). 

И, конечно же, масштабы искажений и во время президентских выборов 1996 г. (обоих туров - и первого и второго), и во время президентских выборов 1991 г. – какими бы они ни были – не имеют ничего общего с вакханалией тотальных фальсификаций, характерных для референдума о сохранении СССР 17 марта 1991 г. и для парламентских и президентских выборов 1999-2008 гг.

Динамика индекса фальсификации в 1991-2008 гг. дает представление об эволюции уровня электоральной демократии в России за указанные годы и достаточно красноречиво демонстрирует, чем в политическом отношении отличаются друг от друга три основных периода новейшей российской истории, ассоциирующиеся, как правило с именами М.Горбачева, Б.Ельцина и В.Путина – Д.Медведева. При этом следует только помнить, что масштабная фальсификация парламентских выборов 1999 г. произошла тогда, когда президентом страны был еще Борис Ельцин.

Значение индексов фальсификации для выборов в 2007-2008 г. также однозначно свидетельствуют об отсутствии какого-либо легитимного мандата у всей ныне действующей российского власти - как у парламентской, так и у президентской; как у тех, кто был таким образом "избран", так и у тех, кто такими "избранными" лицами затем был на какой-либо пост назначен.

П.С.
[info]di09en обратил внимание на неясность подписи к графику:
http://aillarionov.livejournal.com/281406.html?thread=15513662#t15513662.
Следует читать: расчет ИЭА по данным ЦИКа.




Об индексе см.здесь:
http://aillarionov.livejournal.com/281406.html



Читать далее

Статистика и российские выборы - 53 (линки)

Update 13 (17.12)
Нашлись вполне приличные страны, где тоже есть корреляция между явкой и результатом партий (и явка распределена сильно негауссово). При этом в Германии (первая ссылка), если разложить страну на отдельные регионы, то корреляция практически пропадает и явка в каждой земле становится гауссовой. Но в Израиле (вторая ссылка) и Британии (третья ссылка) не так. Имейте в виду, что в Израиле при этом очень сложное и перемешанное общество, а в Британии мажоритарные выборы; но тем не менее.
http://jemmybutton.livejournal.com/1359.html
http://levrrr.livejournal.com/31427.html
http://users.livejournal.com/_ab_/139002.html

Update 14 (17.12)
Обработаны участки с КОИБами! Все подробности здесь: http://kobak.livejournal.com/103331.html. Ситуация только дополнительно запуталась. В среднем участки с коибами по каждому региону дают результат за ЕР ниже, чем участки без коибов. Но ниже всего на 6-7%. При этом есть регионы, где сильная корреляция явка-результат видна и на участках с коибами. Выводы можно делать разные, подробности по ссылке. [info]oude_rus ввел термин «коибатость»: разница между результатов ЕР на участках с коибами и на участках без коибов. В рейтинге городской локальной коибатости (см. подробности по ссылке) лидируют Астрахань, Магнитогорск и Сыктывкар. На четвертом месте находится Москва.

Update 15 (19.12)
Здесь я буду собирать ссылки на разные наблюдения о региональной специфике.
http://aillarionov.livejournal.com/368898.html?thread=19285250#t19285250 -- Тольятти и Самара (несколько кластеров в Самаре, и все честно в Тольятти).
http://oude-rus.livejournal.com/545739.html -- Сыктывкар и КОИБы.
http://abuzin.livejournal.com/87116.html -- Магнитогорск.
http://kireev.livejournal.com/708953.html -- еще раз Магнитогорск.
http://kireev.livejournal.com/709382.html -- странности с результатами Яблока по Москве.
http://kireev.livejournal.com/701704.html -- про экзит-полл ФОМа.
http://rksmb.org/get.php?5011 -- здесь все московские УИК расположили в трехмерном пространстве (явка, результат ЕР, результат Яблока) и разложили EM-алгоритмом на два кластера. А [info]kireev нарисовал карту районов Москвы, раскрашенных в соответствии с долей участков каждого кластера: http://kireev.livejournal.com/715493.html. Очень полезная и очень убедительная работа.

Update 15 (20.12)
А здесь будут ссылки на полезные сайты:
http://russian-election.appspot.com/
http://www.kartaitogov.ru/
https://ruelect.com/

Update 16 (23.12)
Небезынтересно посмотреть на то, как выглядела корреляция между явкой и результатом правящей партии на предыдущих выборах. Андрей Илларионов повесил у себя хороший график: коэффициенты корреляции и регрессии на выборах с 1991 года. Там, кажется, сосчитано на уровне регионов, что не очень-то хорошо (надо по участкам считать), но динамика всё равно видна хорошо, рекомендую: http://aillarionov.livejournal.com/372563.html (эта запись почему-то исчезла, так что см. http://aillarionov.livejournal.com/371465.html).

Читать далее

Статистика и российские выборы - 52 (моделирование)




Моделирование честных выборов

(Начало)
    В полном соответствии с заголовком этого раздела будем предполагать, что все рассматриваемые в нем протоколы избирательных комиссий составлены максимально честно и полностью отражают поведение электората в процессе выборов.
    Вопросам нечестности, фальсификациям, подтасовкам и прочим нехорошим вещам будут посвящены следующие разделы.    При составлении протоколов честных выборов, предположим для определенности, что списочный состав на всех избирательных участках одинаков.
    Это допущение непринципиально, но позволяет легко и просто проверять протоколы участковых избирательных комиссий, которые мы будем моделировать.
    Для начала рассмотрим идеальный случай устоявшегося и, я бы сказал, уставшего гражданского общества, живущего в условиях зрелой и традиционной демократии.
    Его характеризует спокойная ответственность за поступки и неторопливая основательность при принятии решений.
    На языке математической статистики это означает, что гистограмма распределения явки - равномерна, политические пристрастия стабильны и голосования за свои партии происходят в точности по прогнозам социологических опросов: за первую партию (назовем ее партией власти) - 50 % от пришедших голосовать, за вторую партию (партию системной оппозиции) - 40 % и за третью (партию несистемной оппозиции) - 10 %.
    Протоколы для такого невероятного случая представлены в таблице 1, а соответствующие графики на рисунках 1, 2 и 3.


Модель идеальных выборов  Модель идеальных выборов
  Гистограмма распределения явки
    Это по настоящему идеальный случай.
    Примечание.
    В таблице 1 (и во всех остальных таблицах) исходными являются:
1. Число избирателей по списку (первая графа).
2. Данные проголосовавших за каждую партию ("За 1 партию" и т.п.).
3. Данные в графе "Явка" являются суммой чисел из граф "За n-ую партию".
4. Процент явки вычисляется как отношение числа в графе "Явка" к числу в графе "Список" и умноженное на сто.
5. Процент проголосовавших в зависимости от явки (от списка) вычисляется как отношение числа в графе "За n-ную партию" к числу в графе "Явка" ("Список") и умноженное на сто.
    Далее начинаются нюансы.
    Здоровый и зрелый электорат в день выборов подвержен разным случайностям: болезням, свадьбам, отпускам, депрессиям, путешествиям и командировкам.
    Поэтому равномерного распределения явки ждать не приходится, но случайные процессы, как правило (не всегда, но как правило!) подчиняются закону нормального распределения.    Поэтому создадим новый протокол избирательной комиссии, когда все голосуют так же, как и в первом случае, но гистограмма распределения явки напоминает собой нормальное распределение.


Гистограмма распределения явки
    Протокол представлен в таблице 2, а соответствующие графики - на рисунках 4, 5 и 6.


Модель идеальных выборов  Модель идеальных выборов
    Как мы видим случайности и катаклизмы в здоровом демократическом обществе вносят некоторую нелинейность в зависимость процентов голосов от явки избирателей, но на монотонноть графиков они не влияют.
    Перейдем теперь от практически идеального гражданского общества к неидеальному.
    Неидеальность его будет заключаться в том, что общие политические пристрастия (50, 40 и 10 процентов) сохраняются только для списочного состава избирателейв целом, а решение о том, приходить ли голосовать, принимается каждым избирателем несколько по другим принципам.

линк на оригинал - http://letopis.kulichki.com/2011/10-2011/nom2043.htm


    Рассмотрение неидеальной электоральной ситуации целесообразно начать с третьей партии.
    Итак, мы считаем, что третью партию (партию несистемной оппозиции) по-прежнему поддерживает 10% избирателей, то есть по 300 человек на каждом избирательном участке. Но из них десятая часть (то есть процент от всей электоральной группы этой партии - 30 человек) - это совершенно особые избиратели - они максимально активны.
    Они ВСЕГДА приходят на выборы в полном составе, всегда приходят раньше всех и всегда голосуют все как один!
    КПСС позавидовала бы такой партийной дисциплине...
    Остальные девять десятых (назовем их для краткости "политическим обывателями") ведут себя также как и в самом первом случае, то есть их явка на избирательные участки есть величина переменная.
    Электоральная группа второй партии (партии системной оппозиции; например, в качестве аналога можно взять Партию Пенсионеров) действует точно также: отличия только в цифрах.
    Десятая часть активистов (то есть четыре процента от всей электоральной группы этой партии) приходят голосовать на всех участках дисциплинированно и полностью.
    А оставшиеся голосующие приходят голосовать так же, как и в первом случае, то есть за партию отдается 30% голосов от явившихся на избирательные участки.
    В сумме это будет составлять заданные изначально 40%.
    Для первой же партии будем считать, что активистов она не имеет или имеет столь мало, что ими можно пренебречь, но что голосовать за нее будет ровно то же число избирателей, что и в первом случае.
    Естественно, что при таком раскладе цифры в графе общей явки в протоколе будут выглядеть несколько по-другому, чем в первом случае, хотя для каждого участка число явившихся будет по-прежнему равно сумме отданных голосов.
    Для наглядности введем в протокол дополнительные подграфы для второй и третьей партий: "за-активисты" и "за-обыватели"; общее число "за" для этих партий будет равно сумме двух подграф.
    Протокол избирательной комиссии для такого случая представлен в таблице 3, а на рис. 7 показано, как выглядит распределение процентов голосов от списочного состава избирателей. 
Модель честных выборов
    Линии 2 и 3 партий приподняты над осью абсцисс ровно на величину постоянной составляющей (числа активистов для каждой партии), но больше никаких неожиданностей мы не видим.
    Неожиданности начинаются дальше: график на рис. 8 моментально и навсегда опровергаеттак называемый "метод Собянина-Суходольского", который, как известно, гласит:
"если при увеличении явки число голосов растет в пользу только одного кандидата или партии, это является следствием фальсификаций." 
Зависимость числа голосов от числа явки

    Пресловутый (и никем не доказанный!) "метод Собянина-Суходольского" явно и безоговорочно неверен, потому что на данном этапе мы моделируем принципиально честные выборы, а изменили, да и то незначительно, только модель поведения электората.
    Притом в пользу второй и третьей партий.
    На самом деле появившаяся "неожиданность" никакая не неожиданность: равномерная активность голосующих активистов очень заметна при низких общих явках и практически незаметна (имеет малую долю) при высоких.
    Поэтому в правой части диаграммы кривые почти горизонтальны и почти ничем не отличаются от графика на рис. 1.
    Резкий же рост кривой сторонников первой партии объясняется тем, что при низкой явке голосов за нее значительно меньше, чем за оппозицию, а с ростом явки это соотношение выравнивается.
    А теперь сравните полученный нами искусственный график с графиком, полученным при обработке реальных выборов в Мосгордуму в 2009 году, по поводу которого было столько истерических и спекулятивных обвинений в адрес избирательных комиссий. 
Модель честных выборов
    Сильно они отличаются? 
    Там, где есть достаточная статистика для достоверного вычисления математического ожидания (текущего среднего), они не отличаются вовсе!
    (И это, повторяю, при том, что никакого жульничества при составлении протоколов в модель пока не заложено.)
    Там, где статистики не хватает (до 18% явки и более 65%), там - да, отличается, но в этих местах о закономерностях и сказать ничего нельзя: чистый хаос.
    Что же касается определенной несхожести графиков на рис. 8 с реальными результатами (модельные кривые пересекаются друг с другом, а реальные - нет), то это объясняется несоответствием предполагаемого числа "активистов" и их реального числа.
    Это расхождение несложно уменьшить простым подбором исходных условий.
    Вот, например, что получится вот для такого протокола голосования (таблица 4)
Модель честных выборов

    Тем не менее, надо заметить, что схожесть графиков на рис. 9 и 10 не может служить доказательством отсутствия фальсификаций при голосовании 2009 года, хотя приписываемая им масштабность ("чудовищные подтасовки", "не менее, чем на трети избирательных участков") становится более, чем сомнительной.
    Исходя из таблицы 2 и графиков 3-5 можно предположить, что при переходе к нормальному распределению явки полученные кривые принципиально не изменятся.
    Поэтому рассмотрение графиков для нормального распределения явки рассматривать не будем.
    Значительно интереснее, попробовать с помощью каких-либо крупных фальсификаций попробовать получить из идеального графика (рис. 1) реальный (рис. 9).
    Или хотя бы приближенный к реальному, как на рис. 8.


 Итак, с помощью каких-либо крупных фальсификаций попробуем получить из идеального графика (рис. 1) реальный (рис. 9).
    Или хотя бы приближенный к реальному, как на рис. 8.    При этом будем считать, что фальсификации проводятся только в пользу первой партии вне зависимости от места, которое она займет при честных выборах.
    Поводов для масштабной фальсификации мне удалось придумать только два:
  1. Прямое приказание "сверху";
  2. Инициатива снизу ("чтобы наши показатели были не хуже других").
    Начнем с первого: прямое приказание начальства.
    Типа, "всем избирательным комиссиям произвести вброс бюллетеней за партию 1 в размере не менее десяти процентов от списочного состава избирателей".
    Все берут под козырек и выполняют. Ровно по 10%.
    Для этого возьмем таблицу 1 и добавим в графу "За 1 партию" по триста голосов к уже имеющимся (таблица 5).
    Процент голосовавших за первую партию (рис. 11) сразу поднимается на невообразимую величину!
Моделирование  фальсификации
    Знатоки арифметики начинают подозревать, каким в результате этой фальсификации получится следующий график, для остальных - его вид будет довольно неожиданным.
    Потому что зависимость поданных голосов от явки приобретает такой вид (рис. 12):
Моделирование  фальсификации
    Согласно пресловутому "методу Собянина-Суходольского" произошла явная и недвусмысленная фальсификация в интересах второй и третьей партий, но никак не первой!
    (Впрочем, если вчитаться в формулировку "метода Собянина-Суходольского":
"если при увеличении явки число голосов растет в пользу только одного кандидата или партии, это является следствием фальсификаций",
то можно понять, что рост голосов в пользу двух и более кандидатов или партий фальсификацией не является.
    Блестящий и "непротиворечиво" сформулированный, "метод", оправдывающий явную фальсификацию в интересах лидирующей партии!
    Но это - в скобках.)
    Однако подозревать ЦИК, строго подконтрольный (по общему мнению) партии власти, в саботаже и тайном пристрастии к оппозиции просто глупо.    Да и что значит "подозревать"?
    В данном случае мы сами себе ЦИК, сами составили идеальный протокол и сами его сфальсифицировали.
    Кто хочет, может проделать все эти действия самостоятельно и посмотреть на результат.
    Дело ведь в простой арифметике, а не в указаниях "сверху".
    Те, кто разобрался, как влияет на поведение графиков наличие дисциплинированных партийных активистов, этот результат удивлять не должен.
    Для остальных поясню еще раз: "вброс" бюллетеней за первую партию ничем не отличаетсяот посещения избирательных участков активистами этой партии, если бы они у нее были.
    А "вброшенные" голоса больше влияют на участки с меньшей реальной явкой, поскольку их доля в общем числе бюллетеней на этих участках больше.
    Итак, строго выполненные начальственные указания о фальсификациях в интересах наиболее популярной партии ни к чему хорошему не приводят и искажают графики прямо противоположным образом, чем в реальном варианте (рис. 9).
    Попробуем второй алгоритм, который называется "рвение низовых организаций".
    Он заключается в том, что избирательные комиссии с низкой явкой искусственно подтягивают оную до приличных величин.
    Притом (опять же по общему мнению) беспардонно подыгрывая "партии власти", каковой мы условились считать первую партию.
    Для определенности будем считать, что в тех комиссиях, где общая явка составляет менее четверти от списочного состава, вбрасывают такое количество бюллетеней (с проставленными галочками за первую партию), чтобы явка стала, по крайней мере, не менее 25%.
    Берем опять протокол номер 1 и фальсифицируем его соответствующим образом (таблица 6).
Моделирование  фальсификации  Моделирование  фальсификации
    Результат практически тот же самый, то есть полученные результаты на реальный график(рис. 9) не похожи.
    И не просто не похожи, а не похожи весьма кардинально...

линк на оригинал - 
http://letopis.kulichki.com/2011/10-2011/nom2045.htm

 Однако, может быть, удастся с помощью масштабных фальсификаций в интересах первой партии усугубить "отвратительное" поведение модели выборов с участием партийных активистов (рис. 8)?    Возьмем тогда данные таблицы 3 (а это, как мы помним, результаты голосования с привлечением "активистов" второй и третьей партий) и фальсифицируем ее двумя вышеописанными способами (таблицы 7 и 8).
Моделирование  фальсификации  Моделирование  фальсификации
    Кстати, забавно, что масштабный "вброс" голосов за первую партию приближает график на рис. 16 к идеальному виду (рис. 1), что еще раз подтверждает, что неправомерно судить о наличии или отсутствии фальсификаций по графикам такого типа.

Моделирование  фальсификации  Моделирование  фальсификации
    Между прочим, на рис. 18 видно, что как только заканчивается фальсификация, кривые принимают исходный вид, то есть фальсификация такого типа приводит к нарушению монотонности кривых.    Таким образом, поведение графиков идеальных голосований с учетом партийных активистов(рис. 8) в результате явных фальсификаций (фальсификация "сверху" и фальсификация "снизу") меняется практически на противоположное.
    И это не фокусы, это всего лишь арифметика.
    Для тех же, кто не в ладах с арифметикой с самого первого класса поясняю в третий раз.
    Нет никакой принципиальной разницы между "вбросами" бюллетеней и наличием избирательной гвардии ("активистов"), создающих ту же самую постоянную составляющую голосов, что и "вбросы".
    Эта постоянная составляющая даже небольшого числа голосов более заметна при низкой общей явке, поскольку тогда ее относительная доля в числе голосов БОЛЬШЕ, и почти не влияет на голосование при достаточно большой общей явке.
    Я полагаю, что теперь уже всем понятно, что поскольку фальсификации в интересах первой партии (волютнаристически назначенной нами "партией власти") приводят к противоположному ожидаемым изменениям графиков, то нет никаких оснований предполагать, что что-то изменится с изменением популярности первой партии, вплоть до ее превращения в аутсайдеры.
    Однако для чистоты эксперимента стоит такие протоколы создать и соответствующие графики построить.
    Кроме того, нужно отметить, что фальсифицировать результаты выборов в пользу партии, которая имеет большинство голосов при самых наичестнейших выборах, довольно глупо.
    Наличие такого рода фальсификаций при проведении реальных выборов нельзя полностью исключить, но их смысл весьма сомнителен.
    (Правда, до самого подсчета результатов голосования никто не может быть уверен в их исходе, ибо прогнозы прогнозами, а реальность реальностью, которая может требовать "подстаховки".)
    Значительно "полезнее" было бы организовать фальсификации в интересах партии, которая несколько не дотягивает до большинства, которого в свою очередь ей хочется еще больше.    Рассмотрим такой вариант для обоих методов фальсификации...

линк на оригинал - http://letopis.kulichki.com/2011/10-2011/nom2046.htm

Рассмотрим влияние на графики фальсификации в пользу НЕ лидера честных выборов (для обоих методов фальсификации).
    Чтобы не пересчитывать все данные заново (а вам - не проверять их заново), все принятые голосования за вторую и третью партию оставим неизменными, а будем снижать популярность первой партии.
    Для начала (пункт "А") снова возьмем данные таблицы 3 и снизим принятые 50% за первую партию до уровня второй партии, но без наличия активистов (графа "За-обыв-2").
    Таким образом мы переведем ее их лидеров выборной гонки на второе место, поскольку вторая партия, имея те же самые 30% голосов политических обывателей, имеет еще и голоса от "активистов" (таблица 9 и рис. 19 и 20). 
Моделирование  фальсификации  Моделирование  фальсификации
    Сравните графики на рис. 20 и на рис. 8: характер кривых не изменился, но первая партия лидером теперь не становится, - все честно.
    А теперь фальсифицируем этот протокол по указаниям "сверху", чтобы первая партия по общему числу голосов выборы бы выиграла.
    И для гарантии вбросим за нее не по 300, а 500 бюллетеней, заполненных нужным образом (таблица 10 и рис. 21 и 22). 
Моделирование  фальсификации  Моделирование  фальсификации
    "Никак нет! - бодро рапортуют Собянин и Суходольский, - Рост поданных голосов в зависимости от явки наблюдается в пользу двух партий, поэтому никаких фальсификаций нет!"
    А на нет, как говорится, и суда нет, и видя график противоположный реальному (рис. 9)"исследователи" от оппозиции должны быть полностью удовлетворены.
    Займемся теперь фальсификацией второго типа.
    В результате этой фальсификации в таблице 9 изменится не вся графа "За 1 партию", а только ее верхняя часть (таблица 11 и рис. 23 и 24). 
Моделирование  фальсификации  Моделирование  фальсификации
    Как и следовало ожидать, никаких принципиальных изменений в графиках не произошло, за исключение того, что кривые, характеризующие первую партию, стали пересекать соответствующие кривые для второй партии.
    И для порядка, исключительно из принципа доводить все до конца, проведем соответствующие вычисления и построения для аутсайдера честных выборов, начиная с пункта"А" (таблицы 12, 13 и 14 и рисунки 25-30). 
Моделирование  фальсификации  Моделирование  фальсификации
  Моделирование  фальсификации
  Моделирование  фальсификации
  Моделирование  фальсификации
  Моделирование  фальсификации
    Теперь возникает вопрос: а возможна ли такая фальсификация результатов работы избирательных комиссий, которая не вызвала бы никаких претензий у последующих изучателей их работы путем исследования графиков?
    Ответ...


линк на оригинал - http://letopis.kulichki.com/2011/10-2011/nom2047.htm

Ответ: возможна, и очень простая.
    Для этого избирательным комиссиям должно быть строго-настрого приказано "вбросить" заранее нужным образом отмаркированных бюллетеней в числе, равном половине общей явки на данном участке.
    И, разумеется, это указание должно быть идеально выполнено.
    В результате из Идеального протокола (таблица 1) мы получим сфальсифицированный протокол (таблица 15), в котором у двадцати процентов участков общая явка превышает сто процентов!
    А ее графики (рис. 31 и 32) продолжают оставаться идеальными!
    (Сбой в начале второго графика объясняется тем, что нельзя вбросить два с половиной бюллетеня.) 
Моделирование идеальной фальсификации  Моделирование идеальной фальсификации
    Предположим теперь, что начальники избирательных участков - люди не только дисциплинированные, но и грамотные.
    Они понимают, что за стодвадцатипроцентную явку по головке не погладят, и поэтому вносят в начальственные указания свой творческий вклад (таблица 16).
    Увы!
    Реализм не бывает идеальным и наоборот: графики сразу перестают быть идеальными и отражают реальную картину (рис. 33 и 34). 
Моделирование идеальной фальсификации  Моделирование идеальной фальсификации
    И все-таки общая тенденция сохраняется: там, где происходит фальсификация за первую партию, график голосов за нее в зависимости от явки падает, а не растет, как на рис. 9.
    Потому что арифметику не обманешь.


  В этом месте мои возможные оппоненты обязательно начнут говорить о физической невозможности строгого выполнения указаний о "вбросах".
    И я с ними совершенно согласен: на избирательных участках вечно толкутся какие-то люди, - избиратели, представители, наблюдатели, - которые мешают членам избирательных комиссий работать и организовать Идеально сфальсифицированные выборы.
    Кроме того, наверняка имеются элементы разгильдяйства среди самих работников избирательных комиссий, да и просто арифметические ошибки при подсчете бюллетеней.
    Все это правильно.
    Но модель - это всегда упрощение и идеализация.
    Задача моделирования: показать закономерности чего-либо при различных условиях протекания этого самого "чего-либо".
    Если кому-то кажется, что все изложенное несправедливо, неверно и неполно, то каждый может повторить указаный путь самостоятельно.
    То есть написать свой Идеальный протокол и получить соответствующие графики.
    А также вносить в него любые изменения (честные и жульнические) и смотреть, к чему они приводят.
    Но прошу помнить, что главно задачей каждого фальсификатора является не только фальсифицировать исходные данные, но и не попасться при этом.
    Поэтому условия составления протоколов должны соответствовать небольшому количеству несложных правил (примечание).
    В противном случае протоколы легко опротестовываются в суде, и результаты выборов объявляются недействительными.
    Что же касается возможной неполноты исследований, то вам, уважаемые оппоненты, и карты в руки.
    Дополняйте, уточняйте и опровергайте.
    Только цифрами и арифметикой, а не мантрами и заклинаниями.
    Потому что задача стоит совершенно простая: взять протокол Идеальных выборов и путемлюбых фальсификаций в пользу первой партии постараться добиться графика, похожего на реальный (рис. 9).
    Притом вовсе не обязательно использовать только рассмотренные типы фальсификаций, можно и нужно придумывать свои, но крайне желательно, чтобы они были технически выполнимы в реальных условиях.
    Успехов!
Моделирование выводов

    1. Предложена простая и логичная гипотеза поведения электората в условиях политически неоднородного общества, которая приводит к графикам, в среднем похожим на реальные результаты и не требует применения гипотезы о фальсификациях.
    2. Показано, что любые "вбросы" бюллетеней в пользу любой партии приводит, разумеется, к увеличению процента голосов за данную партию в целом, но искажает график распределения поданных голосов в зависимости от процента явки, уменьшая их значение с ростом процента явки.
    3. На моделях опровергнут пресловутый (и ранее не доказанный) "метод Собянина-Суходольского".

PS
   
 Стоило бы также поговорить о "нормальных" и "ненормальных" распределениях явки сознательных и несознательных избирателей.
    Если у меня будет время, я постараюсь заняться и этим вопросом.
    А что из этого получится, заранее трудно сказать...






Читать далее

Закон Ципфа и фрактальная природа социальных и экономических явлений


Закон Ципфа и фрактальная природа социальных и экономических явлений

Первый раз с описанием законом Ципфа я встретился, читая «Оптимизацию и продвижение сайтов в поисковых системах». Суть закона: если слова любого текста ранжировать по частоте использования, то произведение ранга на частоту есть величина постоянная:
F*R =C, где:
F – частота появления слова в тексте;
R – ранг слова (наиболее часто употребляемое слово получает ранг 1, следующее – 2 и т.д.);
С – константа.
Для тех, кто еще хоть немного помнит алгебру :) , в приведенной выше формуле легко узнает уравнение гиперболы. Ципф экспериментально определил, что С ≈ 0,1. Так, что графическое изображение закона Ципфа приблизительно следующее:
Рис. 1. Гипербола закона Ципфа.
У гипербол есть замечательно свойство. Если для обеих осей взять логарифмический масштаб, то гипербола будет иметь вид прямой:
Рис. 2. Та же гипербола, но на графике с логарифмическими шкалами
Может возникнуть вопрос: при чем здесь поисковая оптимизация? Так вот, оказывается, что специально сгенерированные тексты, содержащие повышенное число ключевых слов, не вписываются в закон. Поисковые машины (Google, Yandex) проверяют тексты на «естественность», то есть соблюдение закона Ципфа и, либо понижают рейтинг сайтов с «подозрительными» текстами, либо вообще банят такие сайты.
Второй раз я встретился с законом Ципфа у Бенуа Мандельброта в его книге«(Не)послушные рынки: фрактальная революция в финансах». И этот небольшой раздел мне так понравился, что позвольте привести его полностью.
Неожиданный степенной закон
В 1950 году я был молодым студентом-математиком Парижского университета, подыскивавшим тему для своей диссертации. Мои дядя Золем являл собою местный хрестоматийный образец профессора математики: глубокий теоретик, очень консервативный и, несмотря на то, что родится в Польше, столп французского научного сообщества. Уже в 31-летнем возрасте его избрали профессором на полной ставке престижного Французского колледжа.
То быта эра Николя Бурбаки; за этим собирательным псевдонимом скрывался математический «клуб», который, подобно Дада в искусстве или экзистенциализму в литературе, распространился из Франции и стал на некоторое время чрезвычайно влиятельным на мировой сцене. Абстракция и чистая математика, математика ради математики, были возведены в ранг культа; члены «клуба» презирали прагматизм, прикладную математику и даже математику как инструмент науки. Такой подход был для французских математиков догмой, а для меня, пожалуй, причиной уехать из Франции и поступить на работу в IBM. Я был, к ужасу моего дяди, молодым бунтарем. Работая над своей докторской диссертацией, я часто в конце дня заходил к нему в кабинет поболтать, и нередко эти разговоры перерастали в дискуссию. Однажды, пытаясь как-то скрасить предстоящую долгую и скучную поездку на метро домой, я попросил у него в дорогу что-нибудь почитать. Он сунул руку в мусорную корзину и извлек оттуда несколько скомканных листков бумаги.
– Вот, возьми, – буркнул дядя. – Глупейшая статья, из тех, какие ты любишь.
То был обзор книги социолога Джорджа Кингсли Ципфа. Ципф, достаточно богатый человек, чтобы не думать о куске хлеба насущного, читал в Гарвардском университете лекции по им же придуманной дисциплине, которую он назвал статистической человеческой экологией. В его книге Human Behavior and the Principle of Least Effort (Поведение человека и принцип наименьших усилий) степенные законы рассматривались как вездесущие структуры общественных наук. В фишке степенные законы вполне обычны и выступают формой того, что я ныне называю фрактальным самоповторением в масштабе. У сейсмологов есть математическая формула степенной зависимости количества землетрясений от их силы по знаменитой шкале Рихтера. Или, другими словами: слабые землетрясения обычны, тогда как сильные редки, а частота и сила землетрясений связаны точной формулой. В то время было немногих таких примеров, да и известны они были всего нескольким людям. Ципф, энциклопедист, был одержим навязчивой идеей, будто степенные законы действуют не только в физических науках; им подчиняются все проявления поведения, организации и анатомии человека – даже размеры половых органов.
К счастью, обзор книги, который мне дал дядя, ограничивался только одним необычно изящным примером: частотой слов. В тексте или речи некоторые слова, такие как английские the (определенный артикль) или this («это»), встречаются часто; другие, milreis или momus, появляются редко или вообще никогда (для самых любознательных: первое означает древнюю португальскую монету, второе – синоним слова «критик»). Ципф предложил следующее упражнение: взять любой текст и посчитать, сколько раз в нем появляется каждое слово. Затем присвоить каждому слову ранг: 1 — для самых часто употребляемых слов, 2 — для занимающих второе место по частоте появления и т.д. Наконец, построить график, на котором для каждого ранга указать количество появлении этого слова. Мы получим удивительный рисунок. Кривая не убывает равномерно от самого обычного слова в данном тексте к самому редкому. Сначала она обрушивается с головокружительной быстротой, после чего начинает убывать медленнее, повторяя траекторию лыжника, прыгнувшего с трамплина, а затем приземлившегося и спускающегося по относительно пологому склону заснеженной горы. Образец классической неравномерной шкалы. Ципф, подогнав под свои диаграммы кривую, придумал для нее формулу.
Я был ошеломлен. К концу моей долгой поездки на метро я уже имел тему для половины моей докторской диссертации. Я точно знал, как объяснить математические основания частотного распределения слов, чего Ципф, не будучи математиком, сделать не смог бы. В последующие месяцы меня ждали удивительные открытия. Используя упомянутое уравнение, можно создать мощный инструмент социальных исследований. Улучшенный вариант формулы Ципфа позволял количественно оценить и ранжировать богатство словарного запаса любого человека: высокое значение – богатый лексикон; низкое значение – бедный. Имея такую шкалу, можно измерять различия по словарному запасу между текстами или говорящими. Появляется возможность количественно оценить эрудицию. Правда, мои друзья и консультанты были в ужасе от моей решимости заняться этой странной темой. Ципф, говорили они мне, человек с причудами. Мне показали его книгу, и я согласился, что она отвратительна. Подсчет слов – это не настоящая математика, убеждали меня. Занявшись этой темой, я никогда не найду хорошую работу; и профессором стать мне тоже будет нелегко.
Но я оставался глух к мудрым советам. Мало того, я написал диссертацию вообще без консультантов и даже уговорит одного из университетских бюрократов заверить ее печатью. Я был исполнен решимости пройти избранный путь до конца и применить идеи Ципфа в экономике, ведь не только речь можно свести к степенному закону. Богаты мы или бедны, процветаем или голодаем — все это тоже казалось мне объектом степенного закона.
Мандельброт немного модифицировал формулу Ципфа:
F = C * R -1/a, где
a – коэффициент, характеризующий богатство словарного запаса; чем больше значение a, тем богаче словарный запас текста, поскольку кривая зависимости частоты появления каждого слова от его ранга убывает медленнее, и, например, редкие слова появляются чаще, чем при меньших значениях a. Именно это свойство Мандельброт предполагал использовать для оценки эрудиции [1].
С законом Ципфа не всё так гладко, и в конкретных применениях опираться на экспериментально определенный коэффициент a не всегда получается. В то же время закон Ципфа является ни чем иным, как законом Парето «наоборот», поскольку и тот и другой – частные случаи степенных рядов, или… проявление фрактальной природы экономических и социальных систем [2].
Для себя суть фрактальной природы экономических систем я сформулировал следующим образом. С одной стороны, есть игровая случайность: рулетка, бросание костей. С другой, технологическая/физическая случайность: разброс диаметра вала, изготавливаемого на токарном станке, разброс роста взрослого человека. Все перечисленные явления описываются кривой Гаусса. Так вот, есть целый ряд явлений не подчиняющихся этому распределению: богатство стран и отдельных людей, колебания цен на акции, курсы валют, частота использования слов, сила землетрясений… Для таких явлений характерным является то, что среднее значение очень сильно зависит от выборки. Например, если взять сто случайных людей разного роста, то добавление к ним самого высокого человека на Земле не сильно изменит средний рост этой группы. Если же посчитать средний доход ста случайных людей, то добавление самого богатого человека планеты – Карлоса Слим Элу (а не Билла Гейтса, как многие могли бы подумать :) ) значительно увеличит среднее богатство каждого, примерно, до 500 млн. долларов!
Другим проявлением фрактальности является значительное расслоение выборки. Рассмотрим, например, распределение стран мира по объему ВВП (см. лист «ВВП» Excel-файла). В 2009-м году общемировой ВВП составил 57,7 [3]трлн. долл. И почти половина его (48%) пришлась на четыре богатейшие страны мира (рис. 3). При том, что всего в списке было 192 страны.
Рис 3. Богатейшие страны мира
Если ранжировать все страны в списке по объему ВВП, то получится график аналогичный виденному выше:
Рис. 4. ВВП стран мира
Согласитесь, представленная закономерность как две капли воды похожа на кривую Ципфа!
Одно из свойств фрактальности, это самоповторение. Так вот, из 192-х стран мира, перечисленных в списке, 80% мирового богатства сосредоточена всего в 18 странах – 9,4% (18/192). Если же теперь рассмотреть только эти 18 стран, то их суммарное богатство –  46 трлн. долл. – распределено столь же неравномерно. 80% от этих 46 трлн. Сосредоточено в менее чем половине стран, и т.д.
Вы можете спросить: какой практический вывод из всего сказанного? Я бы сказал так:
1.                Социальные и экономические системы не описываются гауссианой. Эти закономерности подчиняются степенным рядам [синоним – фрактальная природа].
2.                Выбросы от среднего существенно более вероятны, чем в соответствии с предсказаниями колоколообразной кривой Гаусса. Более того, выбросы внутренне присущи системы; они не случайны, а закономерны.
3.                Оценки рисков нельзя строить на основе нормального распределения вероятностей редких нежелательных событий.
4.                … не буду лукавить, пока больше ничего придумать не могу… но это не значит, что практических выводов больше нет… просто мои знания этим ограничиваются…
… но согласитесь, ведь красивые закономерности!
[1] Мне не удалось найти в Интернете ссылки на такое использование закона Ципфа.
[2] О фрактальности см. Бенуа Мандельброт «(Не)послушные рынки: фрактальная революция в финансах».
[3] Надо отметить, что данные из разных источников сильно разнятся, но это не имеет отношения к рассматриваемой здесь теме.



Читать далее