Исследование честности голосований от Сергея Шпилькина

mihaild · 06.07.2020, 14:27

Мне кажется, пора переходить от моделей "на глазок" к каким-то численным оценкам качества (ну или закругляться, если непонятно, как это сделать; мне непонятно). Ну или как минимум как-то более систематизированно рассматривать модели.

Вообще, у нас каждый участок описывается тремя явными параметрами:

r

- число зарегистрированных,

v

- число проголосовавших (для простоты считаем, что число выданных бюллетеней = число "да" + число "нет"; разница небольшая),

y

- число голосов "за"; можно вместо

v

брать параметр

n = v - y

. Плюс участок может характеризоваться каким-то числом скрытых параметров. Плюс мы можем дополнительно ввести еще какие-то независимые новые параметры (регион, например) - но это не очень понятно, как делать.
Если скрытых параметров

0

, то

y

и

n

должны быть функциями от

r

, что даже "на глаз" не очень похоже на правду.
Если скрытых параметров

2

или больше, то можно сразу всё объяснить ими (просто объявляем

y = x

,

n = y

), и предсказательная сила такой модели нулевая.
Интересно, когда скрытый параметр один (еще могут быть гиперпараметры модели, одинаковые для всех участков, но пока их мало, мы на них не переобучимся).
Модель Шпилькина: параметры модели

c_1

- истинная явка за,

c_2

- истинная явка против; скрытый параметр - число добавленных бюллетеней "за"

k

, предсказание

y = c_1 \cdot r + k

,

n =c_2 \cdot r

.
Модель EUgeneUS: параметры модели

c_1

- явка среди тех кто за,

c_2

- явка среди тех кто против; скрытый параметр -

\alpha

- доля тех, кто "за" на участке; предсказание:

y = c_1 \cdot \alpha \cdot r

,

n = c_2 \cdot (1 - \alpha) \cdot r

.

Обе модели можно усложнить, сказав, что

c_1

и

c_2

как-то зависят от

r

и/или от региона. Как именно предлагается это сделать - я пока не понял.

EUgeneUS в сообщении #1472611 писал(а):

И получил в чистом виде особенности около 0.5, 1.

Вот эти "особенности" точно надо оценивать количественно. Кроме того, пики же у нас на целых процентах

\frac{y}{v}

а не

\frac{y}{r}

. И размеры участков лучше брать реальные, а не случайные.
Собственно изначально были пики на графике "явка - число бюллетеней на участках с данной явкой". Количественно - 22.24% бюллетеней на участках с явкой, кратной 5%. Беря реальное число зарегистрированных и случайную явку мне не удалось получить долю бюллетеней на участках с круглой явкой выше 20.2%.

12d3 · 06.07.2020, 14:27

wrest в сообщении #1472620 писал(а):

Хорошо было бы посмотреть на выборы в других странах.

Нашел вот для нескольких стран у Шпилькина: https://trv-science.ru/2018/04/24/vybory-2018-faktor-x-i-pila-churova/

mihaild · 06.07.2020, 14:34

Реальный график явка - число бюллетееней, еще раз

(Оффтоп)

Тот же график с реальным числом избирателей, на каждом участке явка распределена равномерно на

[0.4, 1]

(Оффтоп)

Ну и для красоты - на каждом участке число пришедших распределено как смесь двух биномиальных, с параметрами

0.65

и

0.9

, веса по

0.5

(Оффтоп)

Тут, естественно, всё сосредоточено в районе мод, и т.к. участки довольно большие, мы сравнительно редко оказываемся дальше чем на процент от ожидания.

Вообще я себе плохо представляю механизм, генерирующий равномерное распределение явки на участке, равномерное распределение же неделимо...

wrest · 06.07.2020, 14:43

(12d3, Чехия не годится)

12d3 в сообщении #1472624 писал(а):

Нашел вот для нескольких стран у Шпилькина:

Там только картинки, и надо Шпилькину верить. А нужны ссылки на сайты избиркомов с официальными данными... Лучше если на американские, т.к. америка -- большая и неоднородная страна, тоже с федеративным устройством, и при том довольно сильно разделённая (и социально и политически и т.п.), т.е. как я себе представляю -- с большим набором и разнообразных (разномастных) участков и электората (сельские vs городские, богатые vs бедные, южане vs северяне, белые vs латиносы, демократы vs республиканцы и т.д.).

EUgeneUS · 06.07.2020, 14:49

12d3 в сообщении #1472622 писал(а):

Как это ни интерпретируй, а пики для верхних четырех гистограмм живут совершенно по другим законам, чем пики на нижних четырех.

А будет ли это проявляться если исключить мелкие участки? Скажем, те, которые меньше

500

?

-- 06.07.2020, 14:59 --

mihaild в сообщении #1472623 писал(а):

Вот эти "особенности" точно надо оценивать количественно. Кроме того, пики же у нас на целых процентах

\frac{y}{v}

а не

\frac{y}{r}

. И размеры участков лучше брать реальные, а не случайные.

Надо понять, какие есть теоретические особенности, и сравнить с фактом.

mihaild в сообщении #1472623 писал(а):

Собственно изначально были пики на графике "явка - число бюллетеней на участках с данной явкой".

На гистограмме.
Я построил облако (UPD: из 10000 точек) в этих координатах для случайных данных на малых участках (от 100 до 500 избирателей). Там все те же самые особенности в районе 0.5 и 1, настолько выраженные, что охватывают весь промежуток от 0.5 до 1. Как это отразится на гистограмме - не знаю. Как-то должно отразиться.

-- 06.07.2020, 15:00 --

mihaild в сообщении #1472623 писал(а):

Количественно - 22.24% бюллетеней на участках с явкой, кратной 5%. Беря реальное число зарегистрированных и случайную явку мне не удалось получить долю бюллетеней на участках с круглой явкой выше 20.2%.

Но это же уже весьма близкие числа. Нет?

12d3 · 06.07.2020, 15:06

EUgeneUS в сообщении #1472630 писал(а):

А будет ли это проявляться если исключить мелкие участки? Скажем, те, которые меньше

500

?

Все 8 я поленился перестраивать, вот 4 гистограммы:
Явка ЗА:

Просто явка:

mihaild · 06.07.2020, 15:11

Сообразил, как можно легко рассуждать про округления.
Математически наше основание системы -

2 \cdot 5

- ничем не выделено, и если пики объясняются округлением (из-за того, что небольшие знаменатели могут дать только круглое значение), то тот же самый эффект (и даже больший) мы должны были бы наблюдать, если бы мы использовали 6-ричную СИ. В этом случае надо округлять не до сотых долей, а до тридцатьшестых, и круглыми считать не числа вида

\frac{k}{20}

, а

\frac{k}{12}

. Давайте посмотрим:

Пики хорошо видно на 23, 29 и 31. Доля "круглых" значений -

0.325

.

EUgeneUS · 06.07.2020, 15:20

12d3
Спасибо!

-- 06.07.2020, 15:20 --

mihaild в сообщении #1472635 писал(а):

Пики хорошо видно на 23, 29 и 31. Доля "круглых" значений -

0.325

.

То есть доля круглых значений при смене СИ даже выросла?

mihaild · 06.07.2020, 15:24

EUgeneUS в сообщении #1472637 писал(а):

То есть доля круглых значений при смене СИ даже выросла?

Она и должна вырости, у нас же "процентов" мало. Десятичных круглых процентов всего

0.2

, а шестиричных -

0.(3)

EUgeneUS · 06.07.2020, 15:43

mihaild в сообщении #1472640 писал(а):

Она и должна вырости, у нас же "процентов" мало. Десятичных круглых процентов всего

0.2

, а шестиричных -

0.(3)

Тогда не очень понятно как трактовать результаты. В пользу "вбросов до круглых цифр", или наоборот против них.

mihaild · 06.07.2020, 15:54

Скорее в пользу - для шестиричной системы отклонение от ожидаемого значения сильно меньше -

0.008

против

0.022

. Правда и значения не независимые - и основания не взаимно просты, и явка сосредоточена в небольшой окрестности, где "круглость" опять же не независима.
Вот для системы основания по основанию

21

(самое маленькое, являющееся произведением двух простых, взаимно простых с

10

):

EUgeneUS · 06.07.2020, 16:13

mihaild в сообщении #1472644 писал(а):

отклонение от ожидаемого значения сильно меньше -

0.008

против

0.022

.

А как Вы считаете ожидаемое значение?

mihaild · 06.07.2020, 16:14

EUgeneUS в сообщении #1472648 писал(а):

А как Вы считаете ожидаемое значение?

Единица, деленная на шаг "круглости" (бОльший из простых сомножителей основания).

EUgeneUS · 06.07.2020, 16:48

mihaild
Понятно.

Меня вот еще что смущает.
Возьмем, например, Астраханскую область.

На правой панели вроде как видим классическую "пилу Чурова" с большим размахом.
Но на левой панели никаких особых "сгущений" облака вокруг круглых чисел на оси

x

вроде как (визуально) нет.
Вот какую инструкцию (которая должна быть простой) должны получить исполнители гипотетических вбросов, чтобы получились такие картинки?

mihaild · 06.07.2020, 17:06

EUgeneUS, во-первых, я плохо умею анализировать графики в уме (и мало кто умеет, кто думает, что умеет - может поиграть в Guess the Correlation и скорее всего убедится, что не умеет).
Во-вторых, слева по оси ординат бюллетени, а справа процент, т.е. слева участки с большим числом голосов дают больший вклад, а справа все одинаковый.
Если перестроить левую гистограмму по числу участков вместо бюллетеней, то получится так:

В участках эти пики имеют высоту в 5-7 участков. Так что например инструкция "докинуть "да" до круглой явки" в небольшом количестве больших участков такой эффект объясняет.

Ну и "визуально две диаграммы дают кажущиеся несогласующимися результаты" могут быть аргументом только в пользу "не надо анализировать диаграммы на глаз", а про реально происходящее они не говорят ничего:)

Научный форум dxdy

Исследование честности голосований от Сергея Шпилькина