2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 выборочная дисперсия
Сообщение11.03.2012, 21:01 
Помогите, пожалуйста, разобраться, возможна ли в принципе ситуация когда использование выборочной дисперсии для оценки генеральной дисперсии более обосновано, чем использование исправленной (несмещённой) выборочной дисперсии ?
Спасибо.

 
 
 
 Re: выборочная дисперсия
Сообщение11.03.2012, 21:46 
А на каком основании оно будет более обоснованно-то? Где критерии?...

Для замены просто выборочной на исправленную такие общего характера критерии есть (и Вы их указали -- несмещённость). А дальше можно до посинения перебирать разные экзотические ситуации и критерии, но сильно сомнительно, что этот процесс окажется хоть сколько-то плодотворным.

 
 
 
 Re: выборочная дисперсия
Сообщение11.03.2012, 22:01 
Аватара пользователя
Более того, есть основания для использования оценки
$\sigma^2=\frac 1 {n+1} \Sigma (x_i-\bar {x})^2$
Она смещённая, но имеет наименьший средний квадрат ошибки.
А вот эта
$\sigma^2=\frac 1 n \Sigma (x_i-\bar {x})^2$
максимально правдоподобная.

 
 
 
 Re: выборочная дисперсия
Сообщение11.03.2012, 22:42 
Всем спасибо за ответы!
Евгений Машеров в сообщении #547528 писал(а):
Более того, есть основания для использования оценки
$\sigma^2=\frac 1 {n+1} \Sigma (x_i-\bar {x})^2$
Она смещённая, но имеет наименьший средний квадрат ошибки.

Наименьший средний квадрат ошибки определения дисперсии ? А как такое возможно, если данная оценка является смещённой ?

 
 
 
 Re: выборочная дисперсия
Сообщение11.03.2012, 22:51 
dolphin в сообщении #547536 писал(а):
Наименьший средний квадрат ошибки определения дисперсии ? А как такое возможно, если данная оценка является смещённой ?

Одно от другого формально не зависит. Но несмещённость -- это, конечно, приоритет.

 
 
 
 Re: выборочная дисперсия
Сообщение12.03.2012, 09:03 
Аватара пользователя
Кендалл М., Стюарт Дж. "Статистические выводы и связи". М., "Наука", 1973.
Параграф 17.30 (стр. 39-40) и задача 17.16 (стр. 55).

Средний квадрат ошибки оценки является суммой квадрата смещения и дисперсии оценки. Собственно, приоритет в большинстве случаев именно средний квадрат (хотя если мы имеем дело с серией оценок, которые потом усредняем, несмещённость становится существенно более важна, чем в случае единичной оценки).
Однако методы, позволяющие найти оценку с минимумом среднего квадрата ошибки, более сложны, и в большинстве случаев такой оценки не найдено, оценка дисперсии - исключение, там довольно просто выводится. Поэтому вместо оптимизации суммы этих двух ошибок (можно, слегка вульгаризуя, говорить о систематической и случайной ошибке) делают "по разделениям" - сперва ограничиваются подклассом оценок с нулевым смещением, а уж потом находят в нём минимальную дисперсию. Это существенно упрощает построение оценок, хотя и не позволяет достичь минимума ошибки.
Предположим, что у нас есть несмещённая оценка b, $E(b)=\mu$ с дисперсией $\sigma^2$
Домножим её на величину a<1. Новая величина, $\tilde {b}=ab$, будет иметь смещение $(1-a)\mu$ и дисперсию $a^2 \sigma^2$. То есть смещение стало ненулевым, а дисперсия уменьшилась.
Легко показать, что минимум суммы квадрата смещения и дисперсии достигается при $a= \frac {\mu^2} {\mu^2+\sigma^2}$. При $\mu \neq 0$ a<1. То есть наилучшая оценка смещённая. Увы, для её получения мы использовали значение $\mu$, но если нам оно доступно - к чему далее строить оценки? Лишь изредка, как в случае с дисперсией, можно получить оценку без априорного знания оцениваемой величины.
Практическая надобность в таких оценках возникает, например, в регрессионном анализе. Если корреляционная матрица плохо обусловлена, то дисперсии коэффициентов стремятся к бесконечности по мере приближения к нулю её определителя (специальный термин из регрессионного анализа -мультиколлинеарность). И тогда оказывается целесообразным, например, прибавить к диагонали матрицы прежде ея обращения положительные константы (обычно, если работают с корреляционной матрицей - то одну и ту же), что известно, как "ридж-регрессия". Оценка получается смещённой, но дисперсия коэффициентов падает столь резко, что они оказываются разумными и полезными (кстати, другой способ борьбы с мультиколлинеарностью - селекция регрессоров отбрасыванием части их, мало влияющих на регрессанд, но сильно скоррелированных с другими, хотя формально использует несмещённые оценки обычного МНК, в действительности тоже даёт смещения, заменяя ненулевые коэффициенты при отброшенных регрессорах на ноль).

 
 
 
 Re: выборочная дисперсия
Сообщение12.03.2012, 17:37 
Спасибо за подробное объяснение!
Евгений Машеров в сообщении #547594 писал(а):
Средний квадрат ошибки оценки является суммой квадрата смещения и дисперсии оценки. Собственно, приоритет в большинстве случаев именно средний квадрат (хотя если мы имеем дело с серией оценок, которые потом усредняем, несмещённость становится существенно более важна, чем в случае единичной оценки).

Из этого следует, что если я, например, сделал измерения при одних условиях, а потом столько же измерений при других условиях и хочу сравнить дисперсию в первом и втором случае, мне лучше использовать формулу $\sigma^2=\frac 1 {n+1} \Sigma (x_i-\bar {x})^2$, а не $\sigma^2=\frac 1 {n-1} \Sigma (x_i-\bar {x})^2$ (и не $\sigma^2=\frac 1 n \Sigma (x_i-\bar {x})^2$). Я правильно понял ?

 
 
 
 Re: выборочная дисперсия
Сообщение12.03.2012, 21:03 
Аватара пользователя
Вообще-то все известные критерии для сравнения дисперсий предполагают использование несмещённых оценок.

 
 
 
 Re: выборочная дисперсия
Сообщение12.03.2012, 22:21 
Согласен. Просто держу в голове конкретную задачу :-), в которой не нужно (а точнее, нет возможности) использования статистических критериев для сравнения дисперсий (а точнее коэффициентов вариации) . Сама задача следующая (все, что не связано со статистикой - излагаю упрощённо): На визуально однородных по цвету (а, значит по содержанию органического вещества (ОВ)) участках поля (деградированный торфяник) были взяты пробы почвы, в каждой пробе было определено содержание ОВ. Для каждого участка рассчитывается коэффициент вариации, который показывает пространственную микровариацию содержания ОВ в визуально однородных торфяных и деградированных торфяных почвах. Вот и вопрос: по какой формуле рассчитывать дисперсию ? А использование статистических критериев тут не получится, потому что на каждом участке бралось всего 14 проб, при этом функция распределения содержания ОВ для сельскохозяйственных полей, содержащих участки торфяной и деградированной торфяной почвы, сильно отличается от гауссовской.

 
 
 
 Re: выборочная дисперсия
Сообщение13.03.2012, 13:31 
Аватара пользователя
Вообще, я бы придерживался принципа "Хоть и безобразно, но однообразно", выдвинутого некогда товарищем майором, а в данном случае означающем, что лучше придерживаться общепринятой методики, чем можно избавить себя от полемики по второстепенному вопросу и сохранить совместимость с чужими данными. А общепринята здесь несмещённая оценка.

 
 
 
 Re: выборочная дисперсия
Сообщение13.03.2012, 22:34 
Совет, конечно, разумный, не спорю. Но все таки мне интересно, как статистически правильно обработать данные в данном случае, не оглядываясь на других. Кстати насчет "полемики по второстепенному вопросу и сохранить совместимость с чужими данными" - по данному конкретному вопросу (пространственная микровариация содержания ОВ в визуально однородных деградированных торфяных почвах) вообще нет публикаций, по крайней мере для моей климатической зоны.

 
 
 
 Re: выборочная дисперсия
Сообщение21.03.2012, 17:28 
Похоже, что зря я отказался от гауссовского распределения
dolphin в сообщении #547832 писал(а):
А использование статистических критериев тут не получится, потому что на каждом участке бралось всего 14 проб, при этом функция распределения содержания ОВ для сельскохозяйственных полей, содержащих участки торфяной и деградированной торфяной почвы, сильно отличается от гауссовской.

Получается, что для всего поля, содержащего участки торфяной и деградированной торфяной почвы, она будет сильно отличаться от гауссовской, а вот для визуально однородных участков - наоборот должна быть гауссовской. Опытного подтверждения у меня нет, но я исхожу из того, что, грубо говоря, математическое ожидание соответствует визуально определяемому содержанию ОВ, а локальные отклонения от него —это флуктуации под действие случайных причин. Кто как считает, насколько это предположение будет обоснованным ?
Еще вопрос: можно ли в данном случае как-нибудь рассчитать доверительные границы для коэффициента вариации, ведь использование асимптотических формул тут не получится из-за малых объёмов выборки ?

 
 
 
 Re: выборочная дисперсия
Сообщение30.03.2012, 22:08 
Популярно о выборочной дисперсии написано здесь http://statanaliz.info/teoriya-i-praktika/10-variatsiya/21-vyborochnaya-dispersiya.html.

 
 
 [ Сообщений: 13 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group