Исследование честности голосований от Сергея Шпилькина

mihaild · 05.07.2020, 16:03

EUgeneUS в сообщении #1472390 писал(а):

А разве в этом случае точки не должны ложиться на линию $y+x=1$ , плюс-минус испорченные бюллетени?

Нет. Есть же еще "неявка".

Вообще вот у меня получается вот такой график по модели Шпилькина: голоса за = число участников, умноженное на $0.43 \cdot 0.65$ + число бюллетеней - число участников, умноженное на $0.43$

(Оффтоп)

(если модель идеальная, то на графике должна быть прямая $x = y$ )

-- 05.07.2020, 16:10 --

Хотя туплю, модель "есть честная явка $0.43$ , честное число голосов ДА $0.65$ , сверх этого добрасывают ДА" предсказывает очень мало участков с долей ДА выше $1 - 0.43 \cdot (1 - 0.65) = 0.853$ , а таких довольно много...

12d3 · 05.07.2020, 16:16

EUgeneUS в сообщении #1472390 писал(а):

Поясните, пожалуйста, в каких координатах строите этот график.

Допустим на участке зарегистрировано 2000 избирателей, из них проголосовало 800 человек: 600 за и 200 против. Под явкой "За" я имею в виду $600/2000 = 0.3$ - это абсцисса точки, а явка "против" $200/2000=0.1$ - это ордината точки.

EUgeneUS · 05.07.2020, 16:26

12d3
Да, теперь понял. Спасибо.

Вообще говоря, даже в координатах "доля за" - "явка", левый кластер не совсем точно ложится на гиперболическую зависимость. Он несколько выше, чем должен быть по модели.
В ваших построениях более наглядно это видно.
Если данные противоречат модели, то неверны допущения модели.
А в моей модели есть только одно допущение: $F_e$ и $T_e$ не зависят от $\alpha$ . А значит в рамках страны таки зависят.
Было бы интересно,
1. как меняется отношение $\frac{T_e}{F_e}$ между этими двумя кластерами.
2. Как географически сформирован левый кластер (он вроде по-меньше, чем правый).

mihaild · 05.07.2020, 16:29

EUgeneUS в сообщении #1472388 писал(а):

Разница, как минимум в некоторых случаях, как раз географией и объясняется

У Шеня про предыдущие выборы (смотри раздел 10.5 "Выборы и статистика") - он говорит, что в каждой отдельной группе эффект сохраняется.

Dmitriy40 · 05.07.2020, 16:31

mihaild в сообщении #1472360 писал(а):

Dmitriy40 в сообщении #1472356 писал(а):

Использование же этого наблюдения как аргумента в пользу манипуляций

А такое использование есть?

Есть:

Сергей Шпилькин писал(а):

Первое, что видно, — общий результат находится буквально среди ничего.
Реальных участков, которые бы выдали результат и явку, близкие к официальному, мало.
С явкой и результатом «да» больше — много. Меньше — тоже много. А вокруг официальных значений — провал.

Медуза писал(а):

Согласно теории Шпилькина, есть несколько «тестов», позволяющих выявить возможные фальсификации:
Распределение избирательных участков по голосам и явке таким образом, что видны два «кластера» — с относительно низкой явкой и относительно низкой долей голосов за лидера и очень высокой явкой и высоким результатом лидера. В этом случае средний результат по региону и всей стране может лежать в «разреженной» середине между этими кластерами. Это может указывать на то, что результаты на участках из кластера с высокой явкой вручную подбирались так, чтобы повысить среднее значение по региону и стране.

12d3 · 05.07.2020, 16:57

EUgeneUS в сообщении #1472396 писал(а):

2. Как географически сформирован левый кластер (он вроде по-меньше, чем правый).

Здесь можно посмотреть разбивку по регионам. Кроме того, есть интересная особенность: если строить график только тем УИКам, на которых зарегистрировано менее 1000 избирателей, то левый кластер пропадает совсем.

EUgeneUS в сообщении #1472396 писал(а):

1. как меняется отношение $\frac{T_e}{F_e}$ между этими двумя кластерами.

Честно говоря, не представляю, как можно это соотношение вычислить. Левый кластер такой кругленький и компактненький, в нем если и есть какая-то корреляция между параметрами, то очень слабая, а без корреляций можно только сказать, что для УИКов из этого кластера в среднем явка около 45%, и в среднем процент голосов "За" около 65%, в общем, это вся доступная информация.

StaticZero · 05.07.2020, 17:04

mihaild в сообщении #1472377 писал(а):

Вы не можете варьировать $p$ , не меняя $\alpha$ (ну либо нужно сказать, что мы параметризуем модель явкой и $\alpha$ , а $\lambda$ уже выражаем через них).

Так, ещё раз. У нас есть пять букв $p, \alpha, T_E, F_E, \tau$ (пишу как было изначально заявлено в модели) и два уравнения:
$\begin{cases} p = \alpha T_E + (1 - \alpha) F_E, \\ \tau = \alpha T_E/p. \end{cases}$
Нужно три свободных параметра. Изначально взята тройка $\alpha, T_E, F_E$ и решаем относительно неизвестных $\tau$ и $p$ . Поменяем тройку параметров на $F_E, T_E, p$ . Тогда надо получить $\alpha(F_E, T_E, p)$ и $\tau(F_E, T_E, p)$ .

В этих параметрах, соответственно,
$\alpha = \frac{p - F_E}{T_E - F_E} = \frac{\frac{p}{T_E} - \lambda}{1 - \lambda}, \qquad \tau = \frac{\alpha T_E}{p} = \frac{1 - F_E/p}{1 - \lambda}, \qquad \partial_\lambda \tau = \frac{F_E}{p^2 (1 - \lambda)}.$
EUgeneUS, вы в рамках своей модели правы насчёт знаков, а я дурак: $\operatorname{sign} \partial_\tau \lambda = \operatorname{sign} (1 - \lambda)$ . Хотя отмечу, что

EUgeneUS в сообщении #1472396 писал(а):

А в моей модели есть только одно допущение: $F_e$ и $T_e$ не зависят от $\alpha$ .

при взятии тройки свободных параметров $p, F_E, T_E$ уже не верно.

-- 05.07.2020 в 17:17 --

Хотя у этой зависимости $\tau(p)$ ветвь выпукла вверх, а на шпилькинской диаграмме, кажется, наоборот, там облако точек выпукло вниз.

vpb · 05.07.2020, 21:01

miflin в сообщении #1472375 писал(а):

Тогда это просто-напросто оффтоп, ибо "честность" - ключевое слово темы.

Так-то оно так, но там есть и любопытные математические вопросы.

alesha_popovich · 05.07.2020, 21:12

EUgeneUS в сообщении #1472345 писал(а):

Именно это и имело место в голосовании по Конституции.

Т.е. в нашем случае, исходя из картинок, $T_E$ была равна 1 или очень близка к ней, и на участках со 100% ЗА (существование которых само по себе вызывает вопросы, особенно если там больше десятка голосующих) пришли вообще все. Мягко говоря, звучит малоправдоподобно.

miflin · 05.07.2020, 21:27

vpb в сообщении #1472468 писал(а):

Так-то оно так, но там есть и любопытные математические вопросы.

"любопытные математические вопросы" вполне можно было бы выделить в отдельную тему,
и всем желающим обсуждать их - флаг в руки. Но найдутся ли желающие "взять флаг",
если в заголовке новой темы будет отсутствовать слово "честность"?
Именно это слово и вдохновляет, имхо... Поймать за хвост неуловимую синюю птицу...
С моей маргинальной точки зрения - эта тема является эталоном бессмысленности.

mihaild · 05.07.2020, 21:29

Давайте считать в абсолютах (Шпилькин делит число голосов "за" на число бюллетеней в урне, в результате у него появляются подозрения на фальсификации и в числителе, и в знаменателе).
Обозначения (всё для фиксированного участка): $r$ - число зарегистрированных, $v$ - число голосов в урне, $y$ - число голосов "за" в урне (для простоты игнорируем унесенные и испорченные бюллетени, их меньше процента).
На участке $\alpha r$ человек "за" и $(1 - \alpha) r$ человек "против" (у вас $\alpha$ зависит от участка, у Шпилькина нет). Человек "за" приходит с вероятностью $T$ , человек "против" приходит с вероятностью $F$ .
Тогда у вас в урне мы видим $T \alpha r + F (1 - \alpha) r$ голосов, $T \alpha r$ голосов "за". Из этого получается $v = y\cdot \left(1 - \frac{F}{T}\right) + r \cdot F$
У Шпилькина в урну кладут еще $k$ бюллетеней "за". В урне мы видим $T \alpha r + F (1 - \alpha) r + k$ бюллетеней, $T \alpha r + k$ бюллетеней "за" и $F (1 - \alpha r)$ голосов "против". Итого модель Шпилькина дает предаскзание: $v = y + r \cdot F(1 - \alpha)$ .
Итого обе модели предсказывают, что число голосов в урне линейно по числу голосов "да" и числу зарегистрированных, но модель Шпилькина предсказывает коэффициент $1$ при числе голосов "за".

Если обучить линейную регрессию (по МНК, который, вообще говоря, требует нормального распределения, чего здесь и близко нет), то получается $v \approx 0.878 y + 0.212 r$ . Правда тут что-то хитрое из задачи оптимизации вылезает, потому что если на тех же данных обучить модель предсказывать число голосов "за", то получается $y \approx 1.038 v - 0.174 r$ .

EUgeneUS · 05.07.2020, 21:30

12d3 в сообщении #1472400 писал(а):

Здесь
можно посмотреть разбивку по регионам.

Подобную подборку видел. Собственно, неё и началось обсуждение.

12d3 в сообщении #1472400 писал(а):

Кроме того, есть интересная особенность: если строить график только тем УИКам, на которых зарегистрировано менее 1000 избирателей, то левый кластер пропадает совсем.

А вот это интересно. Я предполагал, что левый кластер это города миллионники. Московский кластер, например, точно туда попадает.

Участки с менее 1000 избирателей - это должны быть какие-то специальные участки. Или исключительно малонаселенные районы, или суда, заставы, военные базы в Арктике. Что-то такое.

alesha_popovich в сообщении #1472473 писал(а):

Т.е. в нашем случае, исходя из картинок, $T_E$ была равна 1 или очень близка к ней,

Явка определившихся "за" была велика, да.

alesha_popovich в сообщении #1472473 писал(а):

на участках со 100% ЗА (существование которых само по себе вызывает вопросы, особенно если там больше десятка голосующих) пришли вообще все.

Таких исключительно мало.
Есть заметное количество участков, со 100% явкой. Они в модель не укладываются, но это должны быть участки со специальным контингентом: воинские части, суда, что-то подобное.

vpb · 05.07.2020, 21:39

miflin в сообщении #1472476 писал(а):

Именно это слово и вдохновляет, имхо...

Если Вы считаете, что оно меня не вдохновляет, то Вы ошибаетесь.

EUgeneUS · 05.07.2020, 21:40

mihaild в сообщении #1472477 писал(а):

Итого модель Шпилькина дает предаскзание: $v = y + r \cdot F(1 - \alpha)$ .

Я бы не называл это "моделью Шпилькина", ибо Шпилькин ничего подобного не делает.
Насколько понял для него если кластер растянулся вдоль какой-то линии, то ужо уже признак манипуляций. А уж если порвался на два, то вообще "всё подделали".

mihaild · 05.07.2020, 21:52

EUgeneUS в сообщении #1472483 писал(а):

Я бы не называл это "моделью Шпилькина"

Ладно, модель Шпилькина в пересказе Шеня в понимании mihaild :)

Шень писал(а):

оценка банальная - считаем, что если бы ничего не добрасывали, то большинство участков попали бы в это ядро

Научный форум dxdy

Исследование честности голосований от Сергея Шпилькина