Давайте считать в абсолютах (Шпилькин делит число голосов "за" на число бюллетеней в урне, в результате у него появляются подозрения на фальсификации и в числителе, и в знаменателе).
Обозначения (всё для фиксированного участка):

- число зарегистрированных,

- число голосов в урне,

- число голосов "за" в урне (для простоты игнорируем унесенные и испорченные бюллетени, их меньше процента).
На участке

человек "за" и

человек "против" (у вас

зависит от участка, у Шпилькина нет). Человек "за" приходит с вероятностью

, человек "против" приходит с вероятностью

.
Тогда у вас в урне мы видим

голосов,

голосов "за". Из этого получается

У Шпилькина в урну кладут еще

бюллетеней "за". В урне мы видим

бюллетеней,

бюллетеней "за" и

голосов "против". Итого модель Шпилькина дает предаскзание:

.
Итого обе модели предсказывают, что число голосов в урне линейно по числу голосов "да" и числу зарегистрированных, но модель Шпилькина предсказывает коэффициент

при числе голосов "за".
Если обучить линейную регрессию (по МНК, который, вообще говоря, требует нормального распределения, чего здесь и близко нет), то получается

. Правда тут что-то хитрое из задачи оптимизации вылезает, потому что если на тех же данных обучить модель предсказывать число голосов "за", то получается

.