Мне кажется, пора переходить от моделей "на глазок" к каким-то численным оценкам качества (ну или закругляться, если непонятно, как это сделать; мне непонятно). Ну или как минимум как-то более систематизированно рассматривать модели.
Вообще, у нас каждый участок описывается тремя явными параметрами:
![$r$ $r$](https://dxdy-01.korotkov.co.uk/f/8/9/f/89f2e0d2d24bcf44db73aab8fc03252c82.png)
- число зарегистрированных,
![$v$ $v$](https://dxdy-03.korotkov.co.uk/f/6/c/4/6c4adbc36120d62b98deef2a20d5d30382.png)
- число проголосовавших (для простоты считаем, что число выданных бюллетеней = число "да" + число "нет"; разница небольшая),
![$y$ $y$](https://dxdy-02.korotkov.co.uk/f/d/e/c/deceeaf6940a8c7a5a02373728002b0f82.png)
- число голосов "за"; можно вместо
![$v$ $v$](https://dxdy-03.korotkov.co.uk/f/6/c/4/6c4adbc36120d62b98deef2a20d5d30382.png)
брать параметр
![$n = v - y$ $n = v - y$](https://dxdy-03.korotkov.co.uk/f/a/e/b/aeba7b2a174c715f92cfdc81ca033fc582.png)
. Плюс участок может характеризоваться каким-то числом скрытых параметров. Плюс мы можем дополнительно ввести еще какие-то независимые новые параметры (регион, например) - но это не очень понятно, как делать.
Если скрытых параметров
![$0$ $0$](https://dxdy-03.korotkov.co.uk/f/2/9/6/29632a9bf827ce0200454dd32fc3be8282.png)
, то
![$y$ $y$](https://dxdy-02.korotkov.co.uk/f/d/e/c/deceeaf6940a8c7a5a02373728002b0f82.png)
и
![$n$ $n$](https://dxdy-02.korotkov.co.uk/f/5/5/a/55a049b8f161ae7cfeb0197d75aff96782.png)
должны быть функциями от
![$r$ $r$](https://dxdy-01.korotkov.co.uk/f/8/9/f/89f2e0d2d24bcf44db73aab8fc03252c82.png)
, что даже "на глаз" не очень похоже на правду.
Если скрытых параметров
![$2$ $2$](https://dxdy-04.korotkov.co.uk/f/7/6/c/76c5792347bb90ef71cfbace628572cf82.png)
или больше, то можно сразу всё объяснить ими (просто объявляем
![$y = x$ $y = x$](https://dxdy-03.korotkov.co.uk/f/e/3/2/e327bfc45a92092709be6675f7818b3582.png)
,
![$n = y$ $n = y$](https://dxdy-03.korotkov.co.uk/f/6/f/8/6f88f63002fc4cc0b01fe102d8774e7682.png)
), и предсказательная сила такой модели нулевая.
Интересно, когда скрытый параметр один (еще могут быть гиперпараметры модели, одинаковые для всех участков, но пока их мало, мы на них не переобучимся).
Модель Шпилькина: параметры модели
![$c_1$ $c_1$](https://dxdy-02.korotkov.co.uk/f/9/8/8/988584bba6844388f07ea45b7132f61c82.png)
- истинная явка за,
![$c_2$ $c_2$](https://dxdy-03.korotkov.co.uk/f/e/3/5/e355414b8774603011922d600510b1df82.png)
- истинная явка против; скрытый параметр - число добавленных бюллетеней "за"
![$k$ $k$](https://dxdy-03.korotkov.co.uk/f/6/3/b/63bb9849783d01d91403bc9a5fea12a282.png)
, предсказание
![$y = c_1 \cdot r + k$ $y = c_1 \cdot r + k$](https://dxdy-02.korotkov.co.uk/f/d/c/d/dcd3dce008582f01fdfce72f6bd20c1182.png)
,
![$n =c_2 \cdot r$ $n =c_2 \cdot r$](https://dxdy-03.korotkov.co.uk/f/e/b/d/ebddd63a8dbe2aa0a5a7698582cdd04c82.png)
.
Модель
EUgeneUS: параметры модели
![$c_1$ $c_1$](https://dxdy-02.korotkov.co.uk/f/9/8/8/988584bba6844388f07ea45b7132f61c82.png)
- явка среди тех кто за,
![$c_2$ $c_2$](https://dxdy-03.korotkov.co.uk/f/e/3/5/e355414b8774603011922d600510b1df82.png)
- явка среди тех кто против; скрытый параметр -
![$\alpha$ $\alpha$](https://dxdy-01.korotkov.co.uk/f/c/7/4/c745b9b57c145ec5577b82542b2df54682.png)
- доля тех, кто "за" на участке; предсказание:
![$y = c_1 \cdot \alpha \cdot r$ $y = c_1 \cdot \alpha \cdot r$](https://dxdy-02.korotkov.co.uk/f/d/b/8/db8a5521c79c064d06d1e8acf29527ab82.png)
,
![$n = c_2 \cdot (1 - \alpha) \cdot r$ $n = c_2 \cdot (1 - \alpha) \cdot r$](https://dxdy-04.korotkov.co.uk/f/7/8/7/7875d29334a6df2cc3ca058d99c176f782.png)
.
Обе модели можно усложнить, сказав, что
![$c_1$ $c_1$](https://dxdy-02.korotkov.co.uk/f/9/8/8/988584bba6844388f07ea45b7132f61c82.png)
и
![$c_2$ $c_2$](https://dxdy-03.korotkov.co.uk/f/e/3/5/e355414b8774603011922d600510b1df82.png)
как-то зависят от
![$r$ $r$](https://dxdy-01.korotkov.co.uk/f/8/9/f/89f2e0d2d24bcf44db73aab8fc03252c82.png)
и/или от региона. Как именно предлагается это сделать - я пока не понял.
И получил в чистом виде особенности около 0.5, 1.
Вот эти "особенности" точно надо оценивать количественно. Кроме того, пики же у нас на целых процентах
![$\frac{y}{v}$ $\frac{y}{v}$](https://dxdy-02.korotkov.co.uk/f/1/a/d/1ad973ed9b297202566bb99c75cd618f82.png)
а не
![$\frac{y}{r}$ $\frac{y}{r}$](https://dxdy-02.korotkov.co.uk/f/d/8/e/d8ecd92cb7e2eab5887f9312a620348382.png)
. И размеры участков лучше брать реальные, а не случайные.
Собственно изначально были пики на графике "явка - число бюллетеней на участках с данной явкой". Количественно - 22.24% бюллетеней на участках с явкой, кратной 5%. Беря реальное число зарегистрированных и случайную явку мне не удалось получить долю бюллетеней на участках с круглой явкой выше 20.2%.