2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1 ... 7, 8, 9, 10, 11, 12, 13, 14  След.
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:27 
Аватара пользователя
Мне кажется, пора переходить от моделей "на глазок" к каким-то численным оценкам качества (ну или закругляться, если непонятно, как это сделать; мне непонятно). Ну или как минимум как-то более систематизированно рассматривать модели.

Вообще, у нас каждый участок описывается тремя явными параметрами: $r$ - число зарегистрированных, $v$ - число проголосовавших (для простоты считаем, что число выданных бюллетеней = число "да" + число "нет"; разница небольшая), $y$ - число голосов "за"; можно вместо $v$ брать параметр $n = v - y$. Плюс участок может характеризоваться каким-то числом скрытых параметров. Плюс мы можем дополнительно ввести еще какие-то независимые новые параметры (регион, например) - но это не очень понятно, как делать.
Если скрытых параметров $0$, то $y$ и $n$ должны быть функциями от $r$, что даже "на глаз" не очень похоже на правду.
Если скрытых параметров $2$ или больше, то можно сразу всё объяснить ими (просто объявляем $y = x$, $n = y$), и предсказательная сила такой модели нулевая.
Интересно, когда скрытый параметр один (еще могут быть гиперпараметры модели, одинаковые для всех участков, но пока их мало, мы на них не переобучимся).
Модель Шпилькина: параметры модели $c_1$ - истинная явка за, $c_2$ - истинная явка против; скрытый параметр - число добавленных бюллетеней "за" $k$, предсказание $y = c_1 \cdot r + k$, $n =c_2 \cdot r$.
Модель EUgeneUS: параметры модели $c_1$ - явка среди тех кто за, $c_2$ - явка среди тех кто против; скрытый параметр - $\alpha$ - доля тех, кто "за" на участке; предсказание: $y = c_1 \cdot \alpha \cdot r$, $n = c_2 \cdot (1 - \alpha) \cdot r$.

Обе модели можно усложнить, сказав, что $c_1$ и $c_2$ как-то зависят от $r$ и/или от региона. Как именно предлагается это сделать - я пока не понял.

EUgeneUS в сообщении #1472611 писал(а):
И получил в чистом виде особенности около 0.5, 1.
Вот эти "особенности" точно надо оценивать количественно. Кроме того, пики же у нас на целых процентах $\frac{y}{v}$ а не $\frac{y}{r}$. И размеры участков лучше брать реальные, а не случайные.
Собственно изначально были пики на графике "явка - число бюллетеней на участках с данной явкой". Количественно - 22.24% бюллетеней на участках с явкой, кратной 5%. Беря реальное число зарегистрированных и случайную явку мне не удалось получить долю бюллетеней на участках с круглой явкой выше 20.2%.

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:27 
wrest в сообщении #1472620 писал(а):
Хорошо было бы посмотреть на выборы в других странах.

Нашел вот для нескольких стран у Шпилькина: https://trv-science.ru/2018/04/24/vybory-2018-faktor-x-i-pila-churova/

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:34 
Аватара пользователя
Реальный график явка - число бюллетееней, еще раз

(Оффтоп)

Изображение

Тот же график с реальным числом избирателей, на каждом участке явка распределена равномерно на $[0.4, 1]$

(Оффтоп)

Изображение

Ну и для красоты - на каждом участке число пришедших распределено как смесь двух биномиальных, с параметрами $0.65$ и $0.9$, веса по $0.5$

(Оффтоп)

Изображение
Тут, естественно, всё сосредоточено в районе мод, и т.к. участки довольно большие, мы сравнительно редко оказываемся дальше чем на процент от ожидания.

Вообще я себе плохо представляю механизм, генерирующий равномерное распределение явки на участке, равномерное распределение же неделимо...

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:43 

(12d3, Чехия не годится)

12d3 в сообщении #1472624 писал(а):
Нашел вот для нескольких стран у Шпилькина:

Там только картинки, и надо Шпилькину верить. А нужны ссылки на сайты избиркомов с официальными данными... Лучше если на американские, т.к. америка -- большая и неоднородная страна, тоже с федеративным устройством, и при том довольно сильно разделённая (и социально и политически и т.п.), т.е. как я себе представляю -- с большим набором и разнообразных (разномастных) участков и электората (сельские vs городские, богатые vs бедные, южане vs северяне, белые vs латиносы, демократы vs республиканцы и т.д.).

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 14:49 
Аватара пользователя
12d3 в сообщении #1472622 писал(а):
Как это ни интерпретируй, а пики для верхних четырех гистограмм живут совершенно по другим законам, чем пики на нижних четырех.

А будет ли это проявляться если исключить мелкие участки? Скажем, те, которые меньше $500$?

-- 06.07.2020, 14:59 --

mihaild в сообщении #1472623 писал(а):
Вот эти "особенности" точно надо оценивать количественно. Кроме того, пики же у нас на целых процентах $\frac{y}{v}$ а не $\frac{y}{r}$. И размеры участков лучше брать реальные, а не случайные.

Надо понять, какие есть теоретические особенности, и сравнить с фактом.

mihaild в сообщении #1472623 писал(а):
Собственно изначально были пики на графике "явка - число бюллетеней на участках с данной явкой".

На гистограмме.
Я построил облако (UPD: из 10000 точек) в этих координатах для случайных данных на малых участках (от 100 до 500 избирателей). Там все те же самые особенности в районе 0.5 и 1, настолько выраженные, что охватывают весь промежуток от 0.5 до 1. Как это отразится на гистограмме - не знаю. Как-то должно отразиться.

-- 06.07.2020, 15:00 --

mihaild в сообщении #1472623 писал(а):
Количественно - 22.24% бюллетеней на участках с явкой, кратной 5%. Беря реальное число зарегистрированных и случайную явку мне не удалось получить долю бюллетеней на участках с круглой явкой выше 20.2%.

Но это же уже весьма близкие числа. Нет?

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:06 
EUgeneUS в сообщении #1472630 писал(а):
А будет ли это проявляться если исключить мелкие участки? Скажем, те, которые меньше $500$?

Все 8 я поленился перестраивать, вот 4 гистограммы:
Явка ЗА:
Изображение Изображение

Просто явка:
Изображение Изображение

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:11 
Аватара пользователя
Сообразил, как можно легко рассуждать про округления.
Математически наше основание системы - $2 \cdot 5$ - ничем не выделено, и если пики объясняются округлением (из-за того, что небольшие знаменатели могут дать только круглое значение), то тот же самый эффект (и даже больший) мы должны были бы наблюдать, если бы мы использовали 6-ричную СИ. В этом случае надо округлять не до сотых долей, а до тридцатьшестых, и круглыми считать не числа вида $\frac{k}{20}$, а $\frac{k}{12}$. Давайте посмотрим:
Изображение
Пики хорошо видно на 23, 29 и 31. Доля "круглых" значений - $0.325$.

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:20 
Аватара пользователя
12d3
Спасибо!

-- 06.07.2020, 15:20 --

mihaild в сообщении #1472635 писал(а):
Пики хорошо видно на 23, 29 и 31. Доля "круглых" значений - $0.325$.

То есть доля круглых значений при смене СИ даже выросла?

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:24 
Аватара пользователя
EUgeneUS в сообщении #1472637 писал(а):
То есть доля круглых значений при смене СИ даже выросла?
Она и должна вырости, у нас же "процентов" мало. Десятичных круглых процентов всего $0.2$, а шестиричных - $0.(3)$

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:43 
Аватара пользователя
mihaild в сообщении #1472640 писал(а):
Она и должна вырости, у нас же "процентов" мало. Десятичных круглых процентов всего $0.2$, а шестиричных - $0.(3)$

Тогда не очень понятно как трактовать результаты. В пользу "вбросов до круглых цифр", или наоборот против них.

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 15:54 
Аватара пользователя
Скорее в пользу - для шестиричной системы отклонение от ожидаемого значения сильно меньше - $0.008$ против $0.022$. Правда и значения не независимые - и основания не взаимно просты, и явка сосредоточена в небольшой окрестности, где "круглость" опять же не независима.
Вот для системы основания по основанию $21$ (самое маленькое, являющееся произведением двух простых, взаимно простых с $10$):
Изображение

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 16:13 
Аватара пользователя
mihaild в сообщении #1472644 писал(а):
отклонение от ожидаемого значения сильно меньше - $0.008$ против $0.022$.

А как Вы считаете ожидаемое значение?

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 16:14 
Аватара пользователя
EUgeneUS в сообщении #1472648 писал(а):
А как Вы считаете ожидаемое значение?
Единица, деленная на шаг "круглости" (бОльший из простых сомножителей основания).

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 16:48 
Аватара пользователя
mihaild
Понятно.

Меня вот еще что смущает.
Возьмем, например, Астраханскую область.

На правой панели вроде как видим классическую "пилу Чурова" с большим размахом.
Но на левой панели никаких особых "сгущений" облака вокруг круглых чисел на оси $x$ вроде как (визуально) нет.
Вот какую инструкцию (которая должна быть простой) должны получить исполнители гипотетических вбросов, чтобы получились такие картинки?

 
 
 
 Re: Исследование честности голосований от Сергея Шпилькина
Сообщение06.07.2020, 17:06 
Аватара пользователя
EUgeneUS, во-первых, я плохо умею анализировать графики в уме (и мало кто умеет, кто думает, что умеет - может поиграть в Guess the Correlation и скорее всего убедится, что не умеет).
Во-вторых, слева по оси ординат бюллетени, а справа процент, т.е. слева участки с большим числом голосов дают больший вклад, а справа все одинаковый.
Если перестроить левую гистограмму по числу участков вместо бюллетеней, то получится так:
Изображение
В участках эти пики имеют высоту в 5-7 участков. Так что например инструкция "докинуть "да" до круглой явки" в небольшом количестве больших участков такой эффект объясняет.

Ну и "визуально две диаграммы дают кажущиеся несогласующимися результаты" могут быть аргументом только в пользу "не надо анализировать диаграммы на глаз", а про реально происходящее они не говорят ничего:)

 
 
 [ Сообщений: 196 ]  На страницу Пред.  1 ... 7, 8, 9, 10, 11, 12, 13, 14  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group