2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1 ... 7, 8, 9, 10, 11, 12, 13, 14  След.
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:27 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
Мне кажется, пора переходить от моделей "на глазок" к каким-то численным оценкам качества (ну или закругляться, если непонятно, как это сделать; мне непонятно). Ну или как минимум как-то более систематизированно рассматривать модели.

Вообще, у нас каждый участок описывается тремя явными параметрами: $r$ - число зарегистрированных, $v$ - число проголосовавших (для простоты считаем, что число выданных бюллетеней = число "да" + число "нет"; разница небольшая), $y$ - число голосов "за"; можно вместо $v$ брать параметр $n = v - y$. Плюс участок может характеризоваться каким-то числом скрытых параметров. Плюс мы можем дополнительно ввести еще какие-то независимые новые параметры (регион, например) - но это не очень понятно, как делать.
Если скрытых параметров $0$, то $y$ и $n$ должны быть функциями от $r$, что даже "на глаз" не очень похоже на правду.
Если скрытых параметров $2$ или больше, то можно сразу всё объяснить ими (просто объявляем $y = x$, $n = y$), и предсказательная сила такой модели нулевая.
Интересно, когда скрытый параметр один (еще могут быть гиперпараметры модели, одинаковые для всех участков, но пока их мало, мы на них не переобучимся).
Модель Шпилькина: параметры модели $c_1$ - истинная явка за, $c_2$ - истинная явка против; скрытый параметр - число добавленных бюллетеней "за" $k$, предсказание $y = c_1 \cdot r + k$, $n =c_2 \cdot r$.
Модель EUgeneUS: параметры модели $c_1$ - явка среди тех кто за, $c_2$ - явка среди тех кто против; скрытый параметр - $\alpha$ - доля тех, кто "за" на участке; предсказание: $y = c_1 \cdot \alpha \cdot r$, $n = c_2 \cdot (1 - \alpha) \cdot r$.

Обе модели можно усложнить, сказав, что $c_1$ и $c_2$ как-то зависят от $r$ и/или от региона. Как именно предлагается это сделать - я пока не понял.

EUgeneUS в сообщении #1472611 писал(а):
И получил в чистом виде особенности около 0.5, 1.
Вот эти "особенности" точно надо оценивать количественно. Кроме того, пики же у нас на целых процентах $\frac{y}{v}$ а не $\frac{y}{r}$. И размеры участков лучше брать реальные, а не случайные.
Собственно изначально были пики на графике "явка - число бюллетеней на участках с данной явкой". Количественно - 22.24% бюллетеней на участках с явкой, кратной 5%. Беря реальное число зарегистрированных и случайную явку мне не удалось получить долю бюллетеней на участках с круглой явкой выше 20.2%.

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:27 
Заслуженный участник


04/03/09
910
wrest в сообщении #1472620 писал(а):
Хорошо было бы посмотреть на выборы в других странах.

Нашел вот для нескольких стран у Шпилькина: https://trv-science.ru/2018/04/24/vybory-2018-faktor-x-i-pila-churova/

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:34 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
Реальный график явка - число бюллетееней, еще раз

(Оффтоп)

Изображение

Тот же график с реальным числом избирателей, на каждом участке явка распределена равномерно на $[0.4, 1]$

(Оффтоп)

Изображение

Ну и для красоты - на каждом участке число пришедших распределено как смесь двух биномиальных, с параметрами $0.65$ и $0.9$, веса по $0.5$

(Оффтоп)

Изображение
Тут, естественно, всё сосредоточено в районе мод, и т.к. участки довольно большие, мы сравнительно редко оказываемся дальше чем на процент от ожидания.

Вообще я себе плохо представляю механизм, генерирующий равномерное распределение явки на участке, равномерное распределение же неделимо...

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:43 


05/09/16
12061

(12d3, Чехия не годится)

12d3 в сообщении #1472624 писал(а):
Нашел вот для нескольких стран у Шпилькина:

Там только картинки, и надо Шпилькину верить. А нужны ссылки на сайты избиркомов с официальными данными... Лучше если на американские, т.к. америка -- большая и неоднородная страна, тоже с федеративным устройством, и при том довольно сильно разделённая (и социально и политически и т.п.), т.е. как я себе представляю -- с большим набором и разнообразных (разномастных) участков и электората (сельские vs городские, богатые vs бедные, южане vs северяне, белые vs латиносы, демократы vs республиканцы и т.д.).

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:49 
Аватара пользователя


11/12/16
13850
уездный город Н
12d3 в сообщении #1472622 писал(а):
Как это ни интерпретируй, а пики для верхних четырех гистограмм живут совершенно по другим законам, чем пики на нижних четырех.

А будет ли это проявляться если исключить мелкие участки? Скажем, те, которые меньше $500$?

-- 06.07.2020, 14:59 --

mihaild в сообщении #1472623 писал(а):
Вот эти "особенности" точно надо оценивать количественно. Кроме того, пики же у нас на целых процентах $\frac{y}{v}$ а не $\frac{y}{r}$. И размеры участков лучше брать реальные, а не случайные.

Надо понять, какие есть теоретические особенности, и сравнить с фактом.

mihaild в сообщении #1472623 писал(а):
Собственно изначально были пики на графике "явка - число бюллетеней на участках с данной явкой".

На гистограмме.
Я построил облако (UPD: из 10000 точек) в этих координатах для случайных данных на малых участках (от 100 до 500 избирателей). Там все те же самые особенности в районе 0.5 и 1, настолько выраженные, что охватывают весь промежуток от 0.5 до 1. Как это отразится на гистограмме - не знаю. Как-то должно отразиться.

-- 06.07.2020, 15:00 --

mihaild в сообщении #1472623 писал(а):
Количественно - 22.24% бюллетеней на участках с явкой, кратной 5%. Беря реальное число зарегистрированных и случайную явку мне не удалось получить долю бюллетеней на участках с круглой явкой выше 20.2%.

Но это же уже весьма близкие числа. Нет?

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:06 
Заслуженный участник


04/03/09
910
EUgeneUS в сообщении #1472630 писал(а):
А будет ли это проявляться если исключить мелкие участки? Скажем, те, которые меньше $500$?

Все 8 я поленился перестраивать, вот 4 гистограммы:
Явка ЗА:
Изображение Изображение

Просто явка:
Изображение Изображение

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:11 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
Сообразил, как можно легко рассуждать про округления.
Математически наше основание системы - $2 \cdot 5$ - ничем не выделено, и если пики объясняются округлением (из-за того, что небольшие знаменатели могут дать только круглое значение), то тот же самый эффект (и даже больший) мы должны были бы наблюдать, если бы мы использовали 6-ричную СИ. В этом случае надо округлять не до сотых долей, а до тридцатьшестых, и круглыми считать не числа вида $\frac{k}{20}$, а $\frac{k}{12}$. Давайте посмотрим:
Изображение
Пики хорошо видно на 23, 29 и 31. Доля "круглых" значений - $0.325$.

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:20 
Аватара пользователя


11/12/16
13850
уездный город Н
12d3
Спасибо!

-- 06.07.2020, 15:20 --

mihaild в сообщении #1472635 писал(а):
Пики хорошо видно на 23, 29 и 31. Доля "круглых" значений - $0.325$.

То есть доля круглых значений при смене СИ даже выросла?

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:24 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
EUgeneUS в сообщении #1472637 писал(а):
То есть доля круглых значений при смене СИ даже выросла?
Она и должна вырости, у нас же "процентов" мало. Десятичных круглых процентов всего $0.2$, а шестиричных - $0.(3)$

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:43 
Аватара пользователя


11/12/16
13850
уездный город Н
mihaild в сообщении #1472640 писал(а):
Она и должна вырости, у нас же "процентов" мало. Десятичных круглых процентов всего $0.2$, а шестиричных - $0.(3)$

Тогда не очень понятно как трактовать результаты. В пользу "вбросов до круглых цифр", или наоборот против них.

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:54 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
Скорее в пользу - для шестиричной системы отклонение от ожидаемого значения сильно меньше - $0.008$ против $0.022$. Правда и значения не независимые - и основания не взаимно просты, и явка сосредоточена в небольшой окрестности, где "круглость" опять же не независима.
Вот для системы основания по основанию $21$ (самое маленькое, являющееся произведением двух простых, взаимно простых с $10$):
Изображение

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 16:13 
Аватара пользователя


11/12/16
13850
уездный город Н
mihaild в сообщении #1472644 писал(а):
отклонение от ожидаемого значения сильно меньше - $0.008$ против $0.022$.

А как Вы считаете ожидаемое значение?

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 16:14 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
EUgeneUS в сообщении #1472648 писал(а):
А как Вы считаете ожидаемое значение?
Единица, деленная на шаг "круглости" (бОльший из простых сомножителей основания).

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 16:48 
Аватара пользователя


11/12/16
13850
уездный город Н
mihaild
Понятно.

Меня вот еще что смущает.
Возьмем, например, Астраханскую область.

На правой панели вроде как видим классическую "пилу Чурова" с большим размахом.
Но на левой панели никаких особых "сгущений" облака вокруг круглых чисел на оси $x$ вроде как (визуально) нет.
Вот какую инструкцию (которая должна быть простой) должны получить исполнители гипотетических вбросов, чтобы получились такие картинки?

 Профиль  
                  
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 17:06 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
EUgeneUS, во-первых, я плохо умею анализировать графики в уме (и мало кто умеет, кто думает, что умеет - может поиграть в Guess the Correlation и скорее всего убедится, что не умеет).
Во-вторых, слева по оси ординат бюллетени, а справа процент, т.е. слева участки с большим числом голосов дают больший вклад, а справа все одинаковый.
Если перестроить левую гистограмму по числу участков вместо бюллетеней, то получится так:
Изображение
В участках эти пики имеют высоту в 5-7 участков. Так что например инструкция "докинуть "да" до круглой явки" в небольшом количестве больших участков такой эффект объясняет.

Ну и "визуально две диаграммы дают кажущиеся несогласующимися результаты" могут быть аргументом только в пользу "не надо анализировать диаграммы на глаз", а про реально происходящее они не говорят ничего:)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 196 ]  На страницу Пред.  1 ... 7, 8, 9, 10, 11, 12, 13, 14  След.

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group