Анализ однородности дисперсии ошибок

Andrey_Kireew · 07/10/15 ∞ 2400

Для проверки гипотезы гомоскедастичности остатков регрессионной модели предложено множество разных способов,
все формальные процедуры так или иначе основаны на выявлении корреляций квадратов остатков модели с независимыми переменными, но каждая из них специфична, так как постулирует определённую модель гетероскедастичности, и только её она способно надёжно выявить. Среди прочих, наиболее привлекательным и универсальных мне представляется тест Спирмена, так как в нём предполагается лишь монотонный характер произвольной нелинейной зависимости.

Вроде бы всё понятно, но после практического применения метода я пришел в некоторое замешательство. Уж слишком много было значимых корреляций. Чтобы проверить свои результаты я сгенерировал случайный гаусовый процесс и посчитал корреляции для него. Оказалось, что количество значимых корреляций то же достаточно велико.

Привожу гистограмму распределения полученных z-уровней корреляций

есть подозрение, что здесь имеет место проблема множественных сравнений, т.к. число факторов велико (N=200).
Вместо того чтобы вводить соответствующие поправки, я сравнивал доверительные интервалы:
для P=76%, z=1.32 и в этот интервал попадает 4 столбика гистограммы, в которых 76% всех наблюдений. На этом основании я делаю вывод, что гипотеза гомоскедастичности остатков может быть принята с вероятностью 76%.
для P=86,5%, z=1.15 и в этот интервал уже не попадает 5 столбиков, в которых содержится 86,5% всех наблюдений. На этом основании я делаю вывод, что гипотеза гомоскедастичности остатков на уровне 86,5% должна быть отвергнута.

Для моих остатков получаются следующие результаты:

т.е. они мало чем отличаются от предыдущих, хотя сами остатки по виду неоднородные

можно ли в данном случае принять гипотезу гомоскедастичности остатков, или я просто неверно интерпретирую результаты теста Спирмена? или же данный тест в моём случае не подходит?
Самое непонятное для меня - почему такие результаты получаются для случайного гауссова шума?

Евгений Машеров · 11/03/08 10231 Москва

А с чем остатки коррелировали?

Andrey_Kireew · 07/10/15 ∞ 2400

Корреляции как остатков модели, так и случайного тестового процесса, вычислялись, разумеется, с факторами той же модели.

-- 16.02.2017, 00:27 --

Вообще в литературе нашел такое изречение: если же факторов несколько, то тестирование проводится для каждого из них в отдельности. Собственно так я и делал, но результаты получаются неадекватные.
Для проверки посчитал корреляции Пирсона - получается примерно то же самое (имеется ввиду распределение их z - уровней).
Видимо если факторов очень много, как у меня, стандартный подход не работает.

У остаётся только одна идея - тестировать распределение корреляций квадратов остатков с факторами на соответствие нормальному закону с нулевым средним и дисперсией $\sigma^2=\frac{1}{N-2}$ , например, с помощью одновыборочного теста Колмогорова-Смирнова, и принимать или отклонять гипотезу гомоскедастичности по результатам этого теста, независимо от z-уровней отдельных корреляций.

Евгений Машеров · 11/03/08 10231 Москва

По-моему, проблема множественных сравнений в полный рост. 200 сравнений - можно ожидать 2 значимых на 1% уровне и 10 на 5%. Бонферрони или что поновее, но поправки нужны.
Что до "сравнений по каждому фактору" - то это скорее "информация к размышлению", нежели "...к действию". Получили значимую корреляцию абсолютной величины (или квадрата) остатков с фактором, посмотрели на график, помедитировали, и догадались, что есть механизм, порождающий гетероскедастичность и что с ним можно бороться.

Andrey_Kireew · 07/10/15 ∞ 2400

Я всё же сделал как планировал, думаю это лучше чем вводить поправку, т. к. известно, что
$\\t_{N-2} $\leftrightarrow$ R \sqrt{\frac{1-R^2}{N-2}}$ и это можно использовать.

Посчитал корреляции Спирмена факторов с квадратами случайных остатков, вычислил эмпирические значения t - статистики и сравнил их с теоретическими значениями распределения Стьюдента по критерию Колмогорова с поправкой Большова.

Получилось K=0.796 (по таблицам это соответствует $\alpha=0,561$
При сравнении с теоретическими значениями стандартного нормального распределения получается K=0.93 (по таблицам $\alpha=0,42$ , т.е. видимо лучше использовать распределение Стьюдента, т.к. по нему вероятность того что дисперсия однородна 56%.

Для моих же остатков, которые я приводил ранее на рисунке, K=2.985 ( $\alpha=0$ - в таблице таких больших значений даже не приведено)
Отбросил из данных первые 700 наблюдений, чтобы убрать самые большие выбросы и пересчитал регрессионное уравнение.
После этого получилось K=1,1 (по таблице $\alpha=0.2$ ).

Получается значительно лучше чем было раньше, теперь случайный тестовый процесс существенно отличается от регрессионных остатков, удаление выбросов существенно влияет на значение статистики.

Но остаётся большой вопрос с выбором порога принятия решения. Если брать $\alpha=0,5$ , то только дисперсию тестового случайного процесса можно считать однородной. Если же взять $\alpha=0,05$ то остатки после удаления выбросов тоже можно будет считать однородными. Но тут наоборот, чем меньше $\alpha$ тем сложнее принять гипотезу об однородности. Как правильно выбрать это значение - мне пока не понятно.
Мне ведь нужна вероятность того, что корреляции гарантированно не значимы, а не наоборот.

Евгений Машеров · 11/03/08 10231 Москва

Известно-то известно, только это асимптотика. Впрочем, дело не в этом, а попросту в жёваной-пережёваной теме множественных сравнений.
Ну, пусть не Бонферрони. Пусть Бенджамини-Хохберг.

Andrey_Kireew · 07/10/15 ∞ 2400

Здесь пишут, что поправка Бон-Ферони целесообразна при количестве гипотез не более 7, у меня же их 200, т.е. мне не подходит. Другие варианты (метод Холма и т.п.) по сути позволяют всего лишь дифференцировать процесс принятия разных гипотез, за счёт этого и повышается их мощность. В моём случае если хоть одно H0 о случайной корреляции будет отвергнута - гипотеза гетероскедастичности остатков принимается. Другими словами в моём случае не важно сколько H0 будет отвергнуто: только одна или все сразу и, следовательно, все эти поправки приведут к одному и тому же результату.

Евгений Машеров · 11/03/08 10231 Москва

Тут вопрос - а для чего проверяете? Потому как мне с практической точки зрения видится, что если выявлена связь между дисперсией остатков и каким-либо из факторов, то это основание проверить спецификацию модели, а не просто отбрасывать задачу.

Andrey_Kireew · 07/10/15 ∞ 2400

Ну оснований отбрасывать задачу я точно не вижу, а основания оптимизировать модель есть всегда, чем я собственно и занимаюсь.
Дело в том, что модель по факту моя работает, причём даже очень неплохо, это проверено по большим контрольным выборкам и неоднократно. Вот я её и исследую.
В данный момент пытаюсь установить значимость неоднородности остатков и на данный момент у меня нет уверенности в том выявлена она или нет. Корреляции вроде бы по отдельности значимые. С поправкой Бон-Ферони они всё равно остаются значимыми: получается гетероскедастичность с вероятностью 82%, а после отбрасывания самой неоднородной части выборки 79%.
Вроде бы всё понятно.
Но вот корреляции факторов со случайном тестовом процессом тоже получаются значимые, а по идее их быть не должно, это меня сейчас и смущает. Ведь если я генерирую процесс случайным образом, независимо от модели, и получается, что он коррелирует с факторами модели, то эти корреляции случайны. А они получаются примерно такими же, как и корреляции остатков (вернее их квадратов) с факторами. Т. е. остатки и случайный тестовый процесс ведут себя примерно одинаково, а последний по определению независим от факторов. Из этого следует вывод, что и квадраты остатков в действительности не зависят от факторов, а вычисленные мной корреляции случайные, и даже с поправкой Бон-Ферони.

В чём тут может быть дело?

Научный форум dxdy

Правила форума

Анализ однородности дисперсии ошибок

Кто сейчас на конференции