2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Интервальная оценка дисперсии
Сообщение20.08.2010, 18:53 


27/10/09
602
Не могу понять, куда из распределения Пирсона девается одна степень свободы.

Понятно, что если несколько случайных величин $x_i$ подчиняются нормальному распределению с центрами $a_i$ и дисперсиями $\sigma _i^2$, то случайная величина $\chi ^2=\sum _{i=1}^n \frac{(x_i-a_i)^2}{\sigma _i^2}$ подчиняется распределению Пирсона с $n$ степенями свободы.
Тогда для выборки из генеральной совокупности с центром $a$ и дисперсией $\sigma ^2$ имеем $ \chi _n^2=\frac{\sum _{i=1}^n (x(i)-a)^2}{\sigma ^2}=\frac{n s^2}{\sigma ^2}, s^2=\sum _{i=1}^n \frac{(x(i)-a)^2}{n}$ также подчиняется распределению Пирсона с $n$ степенями свободы, откуда и находим интервальную оценку $\sigma ^2$.
Понятно, что несмещенная точечная оценка дисперсии при неизвестном центре $s^2=\sum _{i=1}^n \frac{\left(x(i)-\bar{x}\right)^2}{n-1}$, поскольку именно к этой величине стремиться матожидание оценки при бесконечном увеличении количества выборок одинакового объема из одной и той же генеральной совокупности.
При неизвестном центре расчет статистики остается тот же \chi ^2=\frac{\sum _{i=1}^n (x(i)-\bar{x})^2}{\sigma ^2}$, а степеней свободы почему-то на единицу меньше. Почему? Ведь от того, что мы перепишем ее как $ \chi ^2=\frac{(n-1) s^2}{\sigma ^2}$ при $s^2=\sum _{i=1}^n \frac{\left(x(i)-\bar{x}\right)^2}{n-1}$, ее значение не изменится.

Куда же делась степень одна свободы? Вроде понятно, что при неизвестном центре доверительный интервал должен быть пошире, но как это показать в формулах?

 Профиль  
                  
 
 Re: Интервальная оценка дисперсии
Сообщение20.08.2010, 19:25 
Заслуженный участник


08/09/07
841
Может не совсем то, что Вы спрашиваете, но по теме. Одна степень свободы теряется тогда, когда используется оценка центра (центр неизвестен) по выборочным данным. Грубо говоря, если Вы мне скажете отклонения $n-1$ выборочных данных от центра, то $n$-ое наблюдение можно будет вычислить, так как сумма всех отклонений от центра равна нулю. Количество степеней свободы равно $n$, если используется независимая оценка центра, то есть например, центр оценивается по другой независимой выборке.

 Профиль  
                  
 
 Re: Интервальная оценка дисперсии
Сообщение20.08.2010, 19:40 


27/10/09
602
На пальцах все понятно, а вот как это выглядит в формулах. При доказательстве того, что несмещенная оценка дисперсии при неизвестном центре есть $s^2=\sum _{i=1}^n \frac{\left(x(i)-\bar{x}\right)^2}{n-1}$, насколько я помню, никаких рассуждений о расчете последнего элемента выборки не используется, используется чистая алгебра. Для известного центра все легко, тоже только алгебра, а вот с неизвестным проблема - алгебра та же, а степени свободы иные.

 Профиль  
                  
 
 Re: Интервальная оценка дисперсии
Сообщение20.08.2010, 21:42 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Я в свое время пришел для себя к выводу о том, что этому феномену нет никакого простого и естественного объяснения "на пальцах". Я нигде такого не видел и сам не придумал. Так что в данном случае можно, по-видимому, просто сказать, что природа так устроена.

Пусть у нас есть набор независимых стандартных нормальных случайных величин $X_1,\ldots,X_n$. Тогда величина $S_n=X_1^2+\ldots+X_n^2$ имеет распределение, которое назвали хи-квадрат с $n$ степенями свободы. Замечу, что не нужно тут придавать термину "степени свободы" какого-либо глубокого "физического" смысла. Можно было бы назвать и просто "хи-квадрат с параметром $n$".

Теперь рассмотрим смещение этой выборки на фиксированную величину $a$ и посмотрим на сумму
$$
S_n(a)=\sum_{i=1}^n(X_i-a)^2.
$$
Для отличных от нуля значений $a$ эта величина имеет какое-то свое распределение, вообще говоря никак не связанное со стандартным хи-квадрат. Для него используют термин "нецентральное хи-квадрат".
Если мы теперь при фиксированных значениях $X_i$ минимизируем величину $S_n(a)$ по $a$, то легко показать, что минимум достигается в среднем арифметическом (оно же - центр масс выборки) $\overline{X}=(X_1+\cdots+X_n)/n$. В частности, $S_n(\overline{X})\le S_n(0)=S_n$.
Так вот: насколько я понимаю, заранее ниоткуда не следует, что распределение этого самого минимального по всем смещениям значения должно быть "чем-то хорошим". Могло бы быть какое-то особенное хитрое распределение. Но посчитали и оказалось, что это то же семейство хи-квадрат, но с параметром $n-1$. Просто природа так устроена. Красивого объяснения, почему это так, я не знаю. Повторюсь, что думаю, что такого объяснения просто не существует.

 Профиль  
                  
 
 Re: Интервальная оценка дисперсии
Сообщение20.08.2010, 23:29 


27/10/09
602
PAV писал(а):
Так вот: насколько я понимаю, заранее ниоткуда не следует, что распределение этого самого минимального по всем смещениям значения должно быть "чем-то хорошим". Могло бы быть какое-то особенное хитрое распределение. Но посчитали и оказалось, что это то же семейство хи-квадрат, но с параметром $n-1$. Просто природа так устроена. Красивого объяснения, почему это так, я не знаю. Повторюсь, что думаю, что такого объяснения просто не существует.

Почему-то не могу с Вами согласиться. Что значит посчитали-оказалось? Пирсон выводил распределение хи-квадрат исключительно аналитически, и ничего не считал. ЭВМ-ов тогда не было. Это сейчас, если надо узнать распределение какой нибудь хитрой статистики, все просто - кинули случайным числом тысяч эдак десять выборок, посчитали статистику для каждой выборки - построили эмпирическое распределение. Провели пару сотен численных экспериментов, показали, что распределение устойчиво, и даже описывать в формулах не надо: кусочно-линейная интерполяция - на много не ошибемся. Пирсон, кстати, судя по Википедии, критиковал такой подход, но в XIX веке вычислительные возможности были не те. Тут все должно быть строго, без расчетов, только вот как?

А по поводу физического смысла степеней свободы мне тоже без разницы - ну нет смысла, и ради бога, пусть будет просто параметр с красивым названием. Но почему этот параметр уменьшается, и уменьшается именно на единицу - вот чего не понятно.

 Профиль  
                  
 
 Re: Интервальная оценка дисперсии
Сообщение21.08.2010, 10:16 
Заслуженный участник


12/07/07
4522
AndreyL в сообщении #345768 писал(а):
Куда же делась степень одна свободы? Вроде понятно, что при неизвестном центре доверительный интервал должен быть пошире, но как это показать в формулах?
При нахождении распределения $$(n-1)s^2\equiv \sum\limits_{i=1}^n (x_i- \bar x)^2 \equiv \sum\limits_{i=1}^n x_i^2 - n\bar x ^2$$ выполняют ортогональное преобразование $$y_i = \sum\limits_{i=1}^n c_{ij}x_j,$$ где одна из величин $y_i$, например $y_n$, равна $\sqrt n \bar x$, и получают $$(n-1)s^2=\sum\limits_{i=1}^{n-1}y_i^2.$$Детали можно найти в разделе лемма Фишера (теорема Фишера) учебников по математической статистике, например:
Крамер Г. Математические методы статистики. — М.: Мир, 1975 (djvu); гл. 29 Точные выборочные распределения.
Ивченко Г. И., Медведев Ю. И. Математическая статистика. — М.: Высш. шк., 1984 (djvu); §1.5 Распределение некоторых функций от нормальных случайных величин.

 Профиль  
                  
 
 Re: Интервальная оценка дисперсии
Сообщение21.08.2010, 12:48 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
AndreyL в сообщении #345849 писал(а):
Что значит посчитали-оказалось? Пирсон выводил распределение хи-квадрат исключительно аналитически, и ничего не считал. ЭВМ-ов тогда не было.

Разумеется, под словом "посчитали" я имел в виду не численные вычисления, а строгое доказательство. Это просто такой жаргон, достаточно употребительный.

То, что
AndreyL в сообщении #345849 писал(а):
Но почему этот параметр уменьшается, ... - вот чего не понятно.

Почему именно уменьшается - у меня вроде объяснено: потому что $S_n(\overline{X})$ является минимальным значением среди всех $S_n(a)$, в том числе и для $a$ равного теоретическому среднему.

Наиболее интересный вопрос действительно в том, почему при этом получается именно то же семейство хи-квадрат, а не какое-нибудь другое распределение. Если Вас интересует формальное доказательство этого факта, то посмотрите в книге Ивченко и Медведева, которую Вам уже порекомендовал GAA. По сути ситуация следующая. Мы имеем некоторую квадратичную форму от вектора $(X_1,\ldots,X_n)$. Квадратичную форму можно линейным преобразованием привести к главным осям, тогда она будет представлена в виде линейной комбинации квадратов некоторых новых переменных, полученных линейными преобразованиями старых. Ясно, что эти новые переменные будут тоже нормально распределены и иметь нулевые средние. Однако, вообще говоря, они могут иметь различные дисперсии, а также не быть независимыми. Кроме того, некоторые квадраты могут входить в финальное выражение с отрицательными знаками, и тогда распределение будет получаться каким-то другим, не хи-квадрат. Ясно, что для некоторых специальных видов форм будет оказываться, что новые переменные некоррелированы (следовательно, независимы, так как речь идет о гауссовской системе), иметь единичные дисперсии, а также все квадраты будут входить с коэффициентами 1, т.е. в результате получим хи-квадрат с числом степеней свободы, равным числу этих квадратов. В книге приведено одно достаточное условие, когда это происходит - когда матрица квадративной формы симметрична и идемпотентна (т.е. $A^2=A$). Тогда число степеней свободы полученного хи-квадрат равно рангу этой матрицы. В случае данной квадратичной формы именно это и происходит.

Другое дело, что я не припоминаю каких-либо простых объяснений того, почему так должно происходить. Например, если взять утверждение о том, что сумма независимых нормальных распределений дает также нормальное распределение, либо то же самое для распределения Пуассона, то из содержательного смысла этих распределений легко заранее, ничего особо не доказывая, понять, почему именно так и должно обязательно быть. Конечно же, это не отменяет доказательства. А в данном случае мне такие объяснения неизвестны. То есть я бы сказал, что вполне могло бы оказаться, что данное выражение имеет какое-либо другое распределение, не хи-квадрат. Однако оказалось, что все "красиво" и получилось хи-квадрат.

 Профиль  
                  
 
 Re: Интервальная оценка дисперсии
Сообщение21.08.2010, 19:56 


27/10/09
602
Все, понятно!!! Всем огромное спасибо за участие. Отдельное спасибо GAA за книжки и объяснение.
2 PAV - а мне у Крамера объяснение больше понравилось - люблю я старые учебники, в них всегда все понятно. Для людей писано, не для галочки.
2 Alexey1 - Вы все правильно сначала сказали, просто я тогда ничего не знал про лемму Фишера.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 8 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group