выборочная дисперсия

dolphin · 11.03.2012, 21:01

Помогите, пожалуйста, разобраться, возможна ли в принципе ситуация когда использование выборочной дисперсии для оценки генеральной дисперсии более обосновано, чем использование исправленной (несмещённой) выборочной дисперсии ?
Спасибо.

ewert · 11.03.2012, 21:46

А на каком основании оно будет более обоснованно-то? Где критерии?...

Для замены просто выборочной на исправленную такие общего характера критерии есть (и Вы их указали -- несмещённость). А дальше можно до посинения перебирать разные экзотические ситуации и критерии, но сильно сомнительно, что этот процесс окажется хоть сколько-то плодотворным.

Евгений Машеров · 11.03.2012, 22:01

Более того, есть основания для использования оценки
$\sigma^2=\frac 1 {n+1} \Sigma (x_i-\bar {x})^2$
Она смещённая, но имеет наименьший средний квадрат ошибки.
А вот эта
$\sigma^2=\frac 1 n \Sigma (x_i-\bar {x})^2$
максимально правдоподобная.

dolphin · 11.03.2012, 22:42

Всем спасибо за ответы!

Евгений Машеров в сообщении #547528 писал(а):

Более того, есть основания для использования оценки
$\sigma^2=\frac 1 {n+1} \Sigma (x_i-\bar {x})^2$
Она смещённая, но имеет наименьший средний квадрат ошибки.

Наименьший средний квадрат ошибки определения дисперсии ? А как такое возможно, если данная оценка является смещённой ?

ewert · 11.03.2012, 22:51

dolphin в сообщении #547536 писал(а):

Наименьший средний квадрат ошибки определения дисперсии ? А как такое возможно, если данная оценка является смещённой ?

Одно от другого формально не зависит. Но несмещённость -- это, конечно, приоритет.

Евгений Машеров · 12.03.2012, 09:03

Кендалл М., Стюарт Дж. "Статистические выводы и связи". М., "Наука", 1973.
Параграф 17.30 (стр. 39-40) и задача 17.16 (стр. 55).
Средний квадрат ошибки оценки является суммой квадрата смещения и дисперсии оценки. Собственно, приоритет в большинстве случаев именно средний квадрат (хотя если мы имеем дело с серией оценок, которые потом усредняем, несмещённость становится существенно более важна, чем в случае единичной оценки).
Однако методы, позволяющие найти оценку с минимумом среднего квадрата ошибки, более сложны, и в большинстве случаев такой оценки не найдено, оценка дисперсии - исключение, там довольно просто выводится. Поэтому вместо оптимизации суммы этих двух ошибок (можно, слегка вульгаризуя, говорить о систематической и случайной ошибке) делают "по разделениям" - сперва ограничиваются подклассом оценок с нулевым смещением, а уж потом находят в нём минимальную дисперсию. Это существенно упрощает построение оценок, хотя и не позволяет достичь минимума ошибки.
Предположим, что у нас есть несмещённая оценка b, $E(b)=\mu$ с дисперсией $\sigma^2$
Домножим её на величину a<1. Новая величина, $\tilde {b}=ab$ , будет иметь смещение $(1-a)\mu$ и дисперсию $a^2 \sigma^2$ . То есть смещение стало ненулевым, а дисперсия уменьшилась.
Легко показать, что минимум суммы квадрата смещения и дисперсии достигается при $a= \frac {\mu^2} {\mu^2+\sigma^2}$ . При $\mu \neq 0$ a<1. То есть наилучшая оценка смещённая. Увы, для её получения мы использовали значение $\mu$ , но если нам оно доступно - к чему далее строить оценки? Лишь изредка, как в случае с дисперсией, можно получить оценку без априорного знания оцениваемой величины.
Практическая надобность в таких оценках возникает, например, в регрессионном анализе. Если корреляционная матрица плохо обусловлена, то дисперсии коэффициентов стремятся к бесконечности по мере приближения к нулю её определителя (специальный термин из регрессионного анализа -мультиколлинеарность). И тогда оказывается целесообразным, например, прибавить к диагонали матрицы прежде ея обращения положительные константы (обычно, если работают с корреляционной матрицей - то одну и ту же), что известно, как "ридж-регрессия". Оценка получается смещённой, но дисперсия коэффициентов падает столь резко, что они оказываются разумными и полезными (кстати, другой способ борьбы с мультиколлинеарностью - селекция регрессоров отбрасыванием части их, мало влияющих на регрессанд, но сильно скоррелированных с другими, хотя формально использует несмещённые оценки обычного МНК, в действительности тоже даёт смещения, заменяя ненулевые коэффициенты при отброшенных регрессорах на ноль).

dolphin · 12.03.2012, 17:37

Спасибо за подробное объяснение!

Евгений Машеров в сообщении #547594 писал(а):

Средний квадрат ошибки оценки является суммой квадрата смещения и дисперсии оценки. Собственно, приоритет в большинстве случаев именно средний квадрат (хотя если мы имеем дело с серией оценок, которые потом усредняем, несмещённость становится существенно более важна, чем в случае единичной оценки).

Из этого следует, что если я, например, сделал измерения при одних условиях, а потом столько же измерений при других условиях и хочу сравнить дисперсию в первом и втором случае, мне лучше использовать формулу $\sigma^2=\frac 1 {n+1} \Sigma (x_i-\bar {x})^2$ , а не $\sigma^2=\frac 1 {n-1} \Sigma (x_i-\bar {x})^2$ (и не $\sigma^2=\frac 1 n \Sigma (x_i-\bar {x})^2$ ). Я правильно понял ?

Евгений Машеров · 12.03.2012, 21:03

Вообще-то все известные критерии для сравнения дисперсий предполагают использование несмещённых оценок.

dolphin · 12.03.2012, 22:21

Согласен. Просто держу в голове конкретную задачу :-)

, в которой не нужно (а точнее, нет возможности) использования статистических критериев для сравнения дисперсий (а точнее коэффициентов вариации) . Сама задача следующая (все, что не связано со статистикой - излагаю упрощённо): На визуально однородных по цвету (а, значит по содержанию органического вещества (ОВ)) участках поля (деградированный торфяник) были взяты пробы почвы, в каждой пробе было определено содержание ОВ. Для каждого участка рассчитывается коэффициент вариации, который показывает пространственную микровариацию содержания ОВ в визуально однородных торфяных и деградированных торфяных почвах. Вот и вопрос: по какой формуле рассчитывать дисперсию ? А использование статистических критериев тут не получится, потому что на каждом участке бралось всего 14 проб, при этом функция распределения содержания ОВ для сельскохозяйственных полей, содержащих участки торфяной и деградированной торфяной почвы, сильно отличается от гауссовской.

Евгений Машеров · 13.03.2012, 13:31

Вообще, я бы придерживался принципа "Хоть и безобразно, но однообразно", выдвинутого некогда товарищем майором, а в данном случае означающем, что лучше придерживаться общепринятой методики, чем можно избавить себя от полемики по второстепенному вопросу и сохранить совместимость с чужими данными. А общепринята здесь несмещённая оценка.

dolphin · 13.03.2012, 22:34

Совет, конечно, разумный, не спорю. Но все таки мне интересно, как статистически правильно обработать данные в данном случае, не оглядываясь на других. Кстати насчет "полемики по второстепенному вопросу и сохранить совместимость с чужими данными" - по данному конкретному вопросу (пространственная микровариация содержания ОВ в визуально однородных деградированных торфяных почвах) вообще нет публикаций, по крайней мере для моей климатической зоны.

dolphin · 21.03.2012, 17:28

Похоже, что зря я отказался от гауссовского распределения

dolphin в сообщении #547832 писал(а):

А использование статистических критериев тут не получится, потому что на каждом участке бралось всего 14 проб, при этом функция распределения содержания ОВ для сельскохозяйственных полей, содержащих участки торфяной и деградированной торфяной почвы, сильно отличается от гауссовской.

Получается, что для всего поля, содержащего участки торфяной и деградированной торфяной почвы, она будет сильно отличаться от гауссовской, а вот для визуально однородных участков - наоборот должна быть гауссовской. Опытного подтверждения у меня нет, но я исхожу из того, что, грубо говоря, математическое ожидание соответствует визуально определяемому содержанию ОВ, а локальные отклонения от него —это флуктуации под действие случайных причин. Кто как считает, насколько это предположение будет обоснованным ?
Еще вопрос: можно ли в данном случае как-нибудь рассчитать доверительные границы для коэффициента вариации, ведь использование асимптотических формул тут не получится из-за малых объёмов выборки ?

sharikov1812 · 30.03.2012, 22:08

Популярно о выборочной дисперсии написано здесь http://statanaliz.info/teoriya-i-praktika/10-variatsiya/21-vyborochnaya-dispersiya.html.

Научный форум dxdy

выборочная дисперсия