Мне кажется, пора переходить от моделей "на глазок" к каким-то численным оценкам качества (ну или закругляться, если непонятно, как это сделать; мне непонятно). Ну или как минимум как-то более систематизированно рассматривать модели.
Вообще, у нас каждый участок описывается тремя явными параметрами:
- число зарегистрированных,
- число проголосовавших (для простоты считаем, что число выданных бюллетеней = число "да" + число "нет"; разница небольшая),
- число голосов "за"; можно вместо
брать параметр
. Плюс участок может характеризоваться каким-то числом скрытых параметров. Плюс мы можем дополнительно ввести еще какие-то независимые новые параметры (регион, например) - но это не очень понятно, как делать.
Если скрытых параметров
, то
и
должны быть функциями от
, что даже "на глаз" не очень похоже на правду.
Если скрытых параметров
или больше, то можно сразу всё объяснить ими (просто объявляем
,
), и предсказательная сила такой модели нулевая.
Интересно, когда скрытый параметр один (еще могут быть гиперпараметры модели, одинаковые для всех участков, но пока их мало, мы на них не переобучимся).
Модель Шпилькина: параметры модели
- истинная явка за,
- истинная явка против; скрытый параметр - число добавленных бюллетеней "за"
, предсказание
,
.
Модель
EUgeneUS: параметры модели
- явка среди тех кто за,
- явка среди тех кто против; скрытый параметр -
- доля тех, кто "за" на участке; предсказание:
,
.
Обе модели можно усложнить, сказав, что
и
как-то зависят от
и/или от региона. Как именно предлагается это сделать - я пока не понял.
И получил в чистом виде особенности около 0.5, 1.
Вот эти "особенности" точно надо оценивать количественно. Кроме того, пики же у нас на целых процентах
а не
. И размеры участков лучше брать реальные, а не случайные.
Собственно изначально были пики на графике "явка - число бюллетеней на участках с данной явкой". Количественно - 22.24% бюллетеней на участках с явкой, кратной 5%. Беря реальное число зарегистрированных и случайную явку мне не удалось получить долю бюллетеней на участках с круглой явкой выше 20.2%.