2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Анализ однородности дисперсии ошибок
Сообщение15.02.2017, 14:42 


07/10/15

2400
Для проверки гипотезы гомоскедастичности остатков регрессионной модели предложено множество разных способов,
все формальные процедуры так или иначе основаны на выявлении корреляций квадратов остатков модели с независимыми переменными, но каждая из них специфична, так как постулирует определённую модель гетероскедастичности, и только её она способно надёжно выявить. Среди прочих, наиболее привлекательным и универсальных мне представляется тест Спирмена, так как в нём предполагается лишь монотонный характер произвольной нелинейной зависимости.

Вроде бы всё понятно, но после практического применения метода я пришел в некоторое замешательство. Уж слишком много было значимых корреляций. Чтобы проверить свои результаты я сгенерировал случайный гаусовый процесс и посчитал корреляции для него. Оказалось, что количество значимых корреляций то же достаточно велико.

Привожу гистограмму распределения полученных z-уровней корреляций
Изображение

есть подозрение, что здесь имеет место проблема множественных сравнений, т.к. число факторов велико (N=200).
Вместо того чтобы вводить соответствующие поправки, я сравнивал доверительные интервалы:
для P=76%, z=1.32 и в этот интервал попадает 4 столбика гистограммы, в которых 76% всех наблюдений. На этом основании я делаю вывод, что гипотеза гомоскедастичности остатков может быть принята с вероятностью 76%.
для P=86,5%, z=1.15 и в этот интервал уже не попадает 5 столбиков, в которых содержится 86,5% всех наблюдений. На этом основании я делаю вывод, что гипотеза гомоскедастичности остатков на уровне 86,5% должна быть отвергнута.

Для моих остатков получаются следующие результаты:
Изображение
т.е. они мало чем отличаются от предыдущих, хотя сами остатки по виду неоднородные
Изображение

можно ли в данном случае принять гипотезу гомоскедастичности остатков, или я просто неверно интерпретирую результаты теста Спирмена? или же данный тест в моём случае не подходит?
Самое непонятное для меня - почему такие результаты получаются для случайного гауссова шума?

 Профиль  
                  
 
 Re: Анализ однородности дисперсии ошибок
Сообщение15.02.2017, 19:57 
Заслуженный участник
Аватара пользователя


11/03/08
10040
Москва
А с чем остатки коррелировали?

 Профиль  
                  
 
 Re: Анализ однородности дисперсии ошибок
Сообщение15.02.2017, 23:07 


07/10/15

2400
Корреляции как остатков модели, так и случайного тестового процесса, вычислялись, разумеется, с факторами той же модели.

-- 16.02.2017, 00:27 --

Вообще в литературе нашел такое изречение: если же факторов несколько, то тестирование проводится для каждого из них в отдельности. Собственно так я и делал, но результаты получаются неадекватные.
Для проверки посчитал корреляции Пирсона - получается примерно то же самое (имеется ввиду распределение их z - уровней).
Видимо если факторов очень много, как у меня, стандартный подход не работает.

У остаётся только одна идея - тестировать распределение корреляций квадратов остатков с факторами на соответствие нормальному закону с нулевым средним и дисперсией $\sigma^2=\frac{1}{N-2}$, например, с помощью одновыборочного теста Колмогорова-Смирнова, и принимать или отклонять гипотезу гомоскедастичности по результатам этого теста, независимо от z-уровней отдельных корреляций.

 Профиль  
                  
 
 Re: Анализ однородности дисперсии ошибок
Сообщение16.02.2017, 08:33 
Заслуженный участник
Аватара пользователя


11/03/08
10040
Москва
По-моему, проблема множественных сравнений в полный рост. 200 сравнений - можно ожидать 2 значимых на 1% уровне и 10 на 5%. Бонферрони или что поновее, но поправки нужны.
Что до "сравнений по каждому фактору" - то это скорее "информация к размышлению", нежели "...к действию". Получили значимую корреляцию абсолютной величины (или квадрата) остатков с фактором, посмотрели на график, помедитировали, и догадались, что есть механизм, порождающий гетероскедастичность и что с ним можно бороться.

 Профиль  
                  
 
 Re: Анализ однородности дисперсии ошибок
Сообщение16.02.2017, 12:39 


07/10/15

2400
Я всё же сделал как планировал, думаю это лучше чем вводить поправку, т. к. известно, что
$\\t_{N-2}  $\leftrightarrow$  R \sqrt{\frac{1-R^2}{N-2}}$ и это можно использовать.

Посчитал корреляции Спирмена факторов с квадратами случайных остатков, вычислил эмпирические значения t - статистики и сравнил их с теоретическими значениями распределения Стьюдента по критерию Колмогорова с поправкой Большова.

Получилось K=0.796 (по таблицам это соответствует $\alpha=0,561$
При сравнении с теоретическими значениями стандартного нормального распределения получается K=0.93 (по таблицам $\alpha=0,42$, т.е. видимо лучше использовать распределение Стьюдента, т.к. по нему вероятность того что дисперсия однородна 56%.

Для моих же остатков, которые я приводил ранее на рисунке, K=2.985 ($\alpha=0$ - в таблице таких больших значений даже не приведено)
Отбросил из данных первые 700 наблюдений, чтобы убрать самые большие выбросы и пересчитал регрессионное уравнение.
После этого получилось K=1,1 (по таблице $\alpha=0.2$).

Получается значительно лучше чем было раньше, теперь случайный тестовый процесс существенно отличается от регрессионных остатков, удаление выбросов существенно влияет на значение статистики.

Но остаётся большой вопрос с выбором порога принятия решения. Если брать $\alpha=0,5$, то только дисперсию тестового случайного процесса можно считать однородной. Если же взять $\alpha=0,05$ то остатки после удаления выбросов тоже можно будет считать однородными. Но тут наоборот, чем меньше $\alpha$ тем сложнее принять гипотезу об однородности. Как правильно выбрать это значение - мне пока не понятно.
Мне ведь нужна вероятность того, что корреляции гарантированно не значимы, а не наоборот.

 Профиль  
                  
 
 Re: Анализ однородности дисперсии ошибок
Сообщение16.02.2017, 15:37 
Заслуженный участник
Аватара пользователя


11/03/08
10040
Москва
Известно-то известно, только это асимптотика. Впрочем, дело не в этом, а попросту в жёваной-пережёваной теме множественных сравнений.
Ну, пусть не Бонферрони. Пусть Бенджамини-Хохберг.

 Профиль  
                  
 
 Re: Анализ однородности дисперсии ошибок
Сообщение17.02.2017, 04:21 


07/10/15

2400
Здесь пишут, что поправка Бон-Ферони целесообразна при количестве гипотез не более 7, у меня же их 200, т.е. мне не подходит. Другие варианты (метод Холма и т.п.) по сути позволяют всего лишь дифференцировать процесс принятия разных гипотез, за счёт этого и повышается их мощность. В моём случае если хоть одно H0 о случайной корреляции будет отвергнута - гипотеза гетероскедастичности остатков принимается. Другими словами в моём случае не важно сколько H0 будет отвергнуто: только одна или все сразу и, следовательно, все эти поправки приведут к одному и тому же результату.

 Профиль  
                  
 
 Re: Анализ однородности дисперсии ошибок
Сообщение17.02.2017, 08:45 
Заслуженный участник
Аватара пользователя


11/03/08
10040
Москва
Тут вопрос - а для чего проверяете? Потому как мне с практической точки зрения видится, что если выявлена связь между дисперсией остатков и каким-либо из факторов, то это основание проверить спецификацию модели, а не просто отбрасывать задачу.

 Профиль  
                  
 
 Re: Анализ однородности дисперсии ошибок
Сообщение18.02.2017, 01:34 


07/10/15

2400
Ну оснований отбрасывать задачу я точно не вижу, а основания оптимизировать модель есть всегда, чем я собственно и занимаюсь.
Дело в том, что модель по факту моя работает, причём даже очень неплохо, это проверено по большим контрольным выборкам и неоднократно. Вот я её и исследую.
В данный момент пытаюсь установить значимость неоднородности остатков и на данный момент у меня нет уверенности в том выявлена она или нет. Корреляции вроде бы по отдельности значимые. С поправкой Бон-Ферони они всё равно остаются значимыми: получается гетероскедастичность с вероятностью 82%, а после отбрасывания самой неоднородной части выборки 79%.
Вроде бы всё понятно.
Но вот корреляции факторов со случайном тестовом процессом тоже получаются значимые, а по идее их быть не должно, это меня сейчас и смущает. Ведь если я генерирую процесс случайным образом, независимо от модели, и получается, что он коррелирует с факторами модели, то эти корреляции случайны. А они получаются примерно такими же, как и корреляции остатков (вернее их квадратов) с факторами. Т. е. остатки и случайный тестовый процесс ведут себя примерно одинаково, а последний по определению независим от факторов. Из этого следует вывод, что и квадраты остатков в действительности не зависят от факторов, а вычисленные мной корреляции случайные, и даже с поправкой Бон-Ферони.

В чём тут может быть дело?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Geen, sergey zhukov


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group