Давайте считать в абсолютах (Шпилькин делит число голосов "за" на число бюллетеней в урне, в результате у него появляются подозрения на фальсификации и в числителе, и в знаменателе).
Обозначения (всё для фиксированного участка):
- число зарегистрированных,
- число голосов в урне,
- число голосов "за" в урне (для простоты игнорируем унесенные и испорченные бюллетени, их меньше процента).
На участке
человек "за" и
человек "против" (у вас
зависит от участка, у Шпилькина нет). Человек "за" приходит с вероятностью
, человек "против" приходит с вероятностью
.
Тогда у вас в урне мы видим
голосов,
голосов "за". Из этого получается
У Шпилькина в урну кладут еще
бюллетеней "за". В урне мы видим
бюллетеней,
бюллетеней "за" и
голосов "против". Итого модель Шпилькина дает предаскзание:
.
Итого обе модели предсказывают, что число голосов в урне линейно по числу голосов "да" и числу зарегистрированных, но модель Шпилькина предсказывает коэффициент
при числе голосов "за".
Если обучить линейную регрессию (по МНК, который, вообще говоря, требует нормального распределения, чего здесь и близко нет), то получается
. Правда тут что-то хитрое из задачи оптимизации вылезает, потому что если на тех же данных обучить модель предсказывать число голосов "за", то получается
.