критерий единичности корреляционной матрицы

AndreyL · 27/10/09 606

Дамы и Господа!

Возникла необходимость проверки гипотезы о взаимной независимости нескольких переменных. В приближении нормальности распределения это сводится к проверки гипотезы о том, что корреляционная матрица единична. Существуют ли какие-то критерии для проверки такой гипотезы?

(Оффтоп)

Посмотрел в сети - в подавляющем большинстве случаев этот вопрос рассматривается в теме факторного анализа, утверждается, что используется критерий сферичности Бартлетта, но я не нашел ни формулы для расчета статистики, ни обоснования закона распределения этой статистики

Markiyan Hirnyk · 11/07/16 828

Зачем так сложно? Почему не применить критерий хи-квадрат ( англоязычная версия содержит пример) для проверки гипотезы независимости случайных величин?

AndreyL · 27/10/09 606

Markiyan Hirnyk в сообщении #1412419 писал(а):

Зачем так сложно? Почему не применить критерий хи-квадрат ( англоязычная версия содержит пример) для проверки гипотезы независимости случайных величин?

Этот критерий, если я правильно понимаю, требует группировки данных и, как и критерий согласия Пирсона, больших объемом выборок, чего, к сожалению, нет.

-- Ср авг 28, 2019 7:52 am --

И еще. Если я правильно понимаю, то критерий Пирсона исследует зависимость между двумя переменными (работа идет с таблицей сопряженности), что и показано в примере на указанном Вами сайте: исследуется взаимосвязь района проживания и "цвета воротничка".

Евгений Машеров · 11/03/08 10253 Москва

У Андерсона во "Введении в многомерный статистический анализ", гл. 9 приводится критерий, основанный на отношении правдоподобия. Он требует вычисления определителя корреляционной матрицы (кажется, это один из немногих случаев, когда нужно вычислять определитель). Точное распределение его приводится для частных случаев, а в общем предлагается использовать аппроксимацию распределением $\chi^2$ (п. 9.5, пример в п. 9.6).
У Лоули и Максвелла, "Факторный анализ, как статистический метод" приведен со ссылкой на Бартлетта такой критерий (для несколько более частного, но, кажется, Вашего случая)
Он требует (для корреляционной матрицы, для ковариационной появляется член, включающий след матрицы) вычисления
$V=-(n-\frac{2p+5}6)\ln|R|$ , и эта величина асимптотически распределена $\chi^2$ с $\frac{p(p-1)}2$ степенями свободы.

AndreyL · 27/10/09 606

Евгений Машеров в сообщении #1412428 писал(а):

У Андерсона во "Введении в многомерный статистический анализ", гл. 9 приводится критерий, основанный на отношении правдоподобия. Он требует вычисления определителя корреляционной матрицы (кажется, это один из немногих случаев, когда нужно вычислять определитель). Точное распределение его приводится для частных случаев, а в общем предлагается использовать аппроксимацию распределением $\chi^2$ (п. 9.5, пример в п. 9.6).

СПАСИБО! Только вот немного запутался. Получается, что моя задача - это частный случай 2 из параграфа 9.4.2 Андерсона, т.е. когда количество разбиений $q$ равно размеру случайного вектора $p$ . Тогда, если я не ошибся, $V=1-\lvert R \rvert$ подчиняется такому же распределению, как $Y=\prod\limits_{i=1}^{p-1}X_i$ , где $X_i$ независимы и подчиняются бета-распределению с $\frac{n-i}{2}$ и $\frac{i}{2}$ степенями свободы. Тогда можно просто насчитать $Y$ и аппроксимировать распределение, например, скользящим окном. Но почему-то при моделировании Монте-Карло распределения не сходятся.

Евгений Машеров · 11/03/08 10253 Москва

Мне кажется, тут $q=1$

AndreyL · 27/10/09 606

Не совсем понял. Вначале главы 9 указывается, что $p$ -мерный вектор разбивается на $q$ подвекторов, и нулевая гипотеза в том, что подвекторы взаимно независимы. Случай 2, когда $q=p$ , как раз соответствует случаю, когда каждый подвектор одномерный. А при $q=1$ задача, по-моему, теряет смысл. Или я ошибаюсь?

-- Ср авг 28, 2019 1:56 pm --

Нашел ошибку - $V=\lvert R \rvert$ , только при малых объемах выборок все равно распределения не совпадают, похоже, этот критерий тоже не точный.

Евгений Машеров · 11/03/08 10253 Москва

А логарифм куда делся?

AndreyL · 27/10/09 606

А у Андерсона не было логарифма, это же бета-распределение, а определитель корреляционной матрицы как раз изменяется в пределах (0,1).

-- Чт авг 29, 2019 3:15 am --

Возможно, там должна быть степень, зависящая от объема выборки и стремящаяся к 1 при увеличении объема выборки.

Евгений Машеров · 11/03/08 10253 Москва

У Андерсона логарифм. Параграф 9.5, формула (6). А в параграфе 9.6 развёрнутый пример. Хи-квадрат для $-m\ln|R|$ , где $m=N-\frac {2p+11} 6$

AndreyL · 27/10/09 606

Евгений Машеров в сообщении #1412678 писал(а):

У Андерсона логарифм. Параграф 9.5, формула (6). А в параграфе 9.6 развёрнутый пример. Хи-квадрат для $-m\ln|R|$ , где $m=N-\frac {2p+11} 6$

Это уже приближение.
В п.9.4.2 рассматривается случай 2, когда $q=p$ . Утверждается, что в этом случае величина $V=\lvert R \rvert$ имеет такое же распределение, как $Y=\prod\limits_{i=1}^{p-1}X_i$ , где $X_i$ независимы и подчиняются бета-распределению с $\frac{n-i}{2}$ и $\frac{i}{2}$ степенями свободы. И, если я не ошибаюсь, это должно быть точное распределение, а не приближение. Но моделирование Монте-Карло показывает, что при малых объемах выборок распределение $V=\lvert R \rvert$ не соответствует распределению $Y$ . Где-то чего-то не правильно, пока не могу понять, где и чего.

Евгений Машеров · 11/03/08 10253 Москва

(Оффтоп)

А из зала все кричат - давай подробности!

В смысле какой объём выборки, сколько переменных, как данные генерировались, скольно реализаций Монте-Карло, как распределение сравнивались...
Ну и касательно хи-квадрат - представляется, что это должно быть достаточно точное, пусть и простое приближение. Во всяком случае, оно естественно всплывает, если подумать, что мы оцениваем. У некоррелированной совокупности корреляционная матрица единична, и все её собственные значения единицы. А если появляются коррелированности - они от единиц отклоняются. Определитель это произведение собственных значений, логарифмируем, будет сумма, затем логарифмы разлагаем в ряд по степеням $1-\lambda$ и замечаем, что сумма собственных значений равна следу матрицы, и для корреляционной - просто размерности, так что остаются квадраты отклонений от единицы и более высокие степени. Пренебрегая последними - получается, что логарифм определителя примерно равен сумме квадратов отклонений собственных значений от единицы. А сумма квадратов стандартных нормальных величин распределена хи-квадрат.

AndreyL · 27/10/09 606

Да, действительно, формула (6) с параметрами (7) параграфа 9.5 Андерсона (без учета $O \left(m^{-3} \right)$ ) на малых выборках работает лучше, чем критерий Бартлетта. Но, для полноты картины, хотелось бы точное распределение.
Моделирование проводится так: генерирую $L$ выборок (например $L=10000$ ) объема $n$ (например $n=10$ ) из $p$ -мерного (например $p=4$ ) нормального распределения с нулевым центром и единичной ковариационной матрицей. Считаю по каждой выборке определитель корреляционной матрицы - получаю выборку $X$ объема $L$ реализаций одномерной случайной величины. Для случая параграфа 9.4.2 сл. 2 генерирую выборку объема 200 000 величины $Y=\prod\limits_{i=1}^{p-1}X_i$ , где $X_i$ независимы и подчиняются бета-распределению с $\frac{n-i}{2}$ и $\frac{i}{2}$ степенями свободы, и аппроксимирую ее распределение Парзеноским окном. С этим распределением и сравниваю распределение выборки $X$ . Распределения сравниваются графически, а также методами Андерсона-Далинга, Крамера-Мизеса, Колмогорова-Смирнова, Куипера, Ватсона и, классика, хи-квадрат Пирсона.

Евгений Машеров · 11/03/08 10253 Москва

А тут не $n=N-1$ , как оговорено в 7.2? В смысле вводится поправка на несмещённость. На малых N разница может быть существенна.
И, в порядке общего интереса, а как Вы генерируете беты? (И вообще, какой ГСЧ)

AndreyL · 27/10/09 606

Евгений Машеров в сообщении #1412845 писал(а):

А тут не $n=N-1$ , как оговорено в 7.2? В смысле вводится поправка на несмещённость. На малых N разница может быть существенна.

ОГРОМНОЕ СПАСИБО!!! Действительно, величина должна быть $Y=\prod\limits_{i=1}^{p-1}X_i$ , где $X_i$ независимы и подчиняются бета-распределению с $\frac{n-i-1}{2}$ и $\frac{i}{2}$ степенями свободы.

Евгений Машеров в сообщении #1412845 писал(а):

И, в порядке общего интереса, а как Вы генерируете беты? (И вообще, какой ГСЧ)

Я работаю в Вольфрамовской Математике, там это стандартная функция.

Научный форум dxdy

Правила форума

критерий единичности корреляционной матрицы

Кто сейчас на конференции