Будут. Как вариант - при расчёте дисперсий делить не на (n-1), а на (n-p-1), где p - число пропущенных значений (ну и ковариации аналогично). Однако если для разных пар p различно, то матрица может получиться, скажем, не неотрицательно определённой. Статистически безупречный путь - рассматривать пропущенные значения как новые параметры модели и оценивать, например, МП - может привести к тому, что параметров будет больше, чем наблюдений, и принципиально неоцениваемо (ну, вернее, можно какую-нибудь регуляризацию использовать, но это, пожалуй, хуже будет, чем занижение дисперсий). Более продвинутый путь, чем средние - регрессия данного параметра на остальные, и замена пропуска оценкой по регрессии (собственно, замена средним это то же самое, если регрессия на параметр, с которым данный нескореллирован; так что то же "занижение дисперсии" может иметь место)
|