Кендалл М., Стюарт Дж. "Статистические выводы и связи". М., "Наука", 1973.
Параграф 17.30 (стр. 39-40) и задача 17.16 (стр. 55).Средний квадрат ошибки оценки является суммой квадрата смещения и дисперсии оценки. Собственно, приоритет в большинстве случаев именно средний квадрат (хотя если мы имеем дело с серией оценок, которые потом усредняем, несмещённость становится существенно более важна, чем в случае единичной оценки).
Однако методы, позволяющие найти оценку с минимумом среднего квадрата ошибки, более сложны, и в большинстве случаев такой оценки не найдено, оценка дисперсии - исключение, там довольно просто выводится. Поэтому вместо оптимизации суммы этих двух ошибок (можно, слегка вульгаризуя, говорить о систематической и случайной ошибке) делают "по разделениям" - сперва ограничиваются подклассом оценок с нулевым смещением, а уж потом находят в нём минимальную дисперсию. Это существенно упрощает построение оценок, хотя и не позволяет достичь минимума ошибки.
Предположим, что у нас есть несмещённая оценка b,

с дисперсией

Домножим её на величину a<1. Новая величина,

, будет иметь смещение

и дисперсию

. То есть смещение стало ненулевым, а дисперсия уменьшилась.
Легко показать, что минимум суммы квадрата смещения и дисперсии достигается при

. При

a<1. То есть наилучшая оценка смещённая. Увы, для её получения мы использовали значение

, но если нам оно доступно - к чему далее строить оценки? Лишь изредка, как в случае с дисперсией, можно получить оценку без априорного знания оцениваемой величины.
Практическая надобность в таких оценках возникает, например, в регрессионном анализе. Если корреляционная матрица плохо обусловлена, то дисперсии коэффициентов стремятся к бесконечности по мере приближения к нулю её определителя (специальный термин из регрессионного анализа -мультиколлинеарность). И тогда оказывается целесообразным, например, прибавить к диагонали матрицы прежде ея обращения положительные константы (обычно, если работают с корреляционной матрицей - то одну и ту же), что известно, как "ридж-регрессия". Оценка получается смещённой, но дисперсия коэффициентов падает столь резко, что они оказываются разумными и полезными (кстати, другой способ борьбы с мультиколлинеарностью - селекция регрессоров отбрасыванием части их, мало влияющих на регрессанд, но сильно скоррелированных с другими, хотя формально использует несмещённые оценки обычного МНК, в действительности тоже даёт смещения, заменяя ненулевые коэффициенты при отброшенных регрессорах на ноль).