Условия достоверности корреляции Пирсона

Евгений Машеров · 11.09.2017, 17:56

Небольшой вычислительный эксперимент. Сгенерировано 1000 пар чисел по описанному методу. Корреляция 0,0029016286. Выбрано 100 непересекающихся подвыборок по 10 наблюдений. Из них корреляция, равная в точности -1, в 24 из 100, затем -0.6, максимальная положительная равна 0.82, между этими значениями распределены примерно равномерно. Очевидно, это совершенно не похоже на теорию для независимых значений.
(Мне указали, что сформулировано несколько невнятно. На всякий случай уточню:
"Описанный метод" это
$x\sim N(0,1)$ и
$y=\begin{cases} x,&\text{если |x|>t}\\ -x,&\text{если |x| <= t} \end{cases}$
Нормальные иксы генерируются стандартным методом, t=1.5, точное значение, гарантирующее нулевую теоретическую корреляцию, несколько отлично, но выборочные колебания больше отличия от нуля корреляции из-за неточности t)

Andrey_Kireew · 30.09.2017, 13:16

Спасибо Евгений Машеров , примерно так у меня и происходит на реальных данных. Значит причина - это наличие сложной нелинейной взаимосвязи переменных. Почему ранговые корреляции не решают проблемы - мне стало понятно: они способны выявить только монотонные зависимости, а если зависимость более сложная - то могут её и не обнаружить.
В Вашем примере наверное так и будет.

По этому поводу у меня возникла идея: делим выборку на 2 равные части, наблюдения распределяем таким образом, чтобы в первой подвыборке корреляция переменных была минимальной, а во второй, соответственно - максимальной. Это будут границы доверительного интервала для доверительной вероятности $p\approx 1-\frac{((N/2)!)^2}{N!}$ (это исходя из максимального числа возможных неодинаковых подвыборок). Затем вычисляем доверительный интервал для $R$ вычисленного по общей выборке для такой же доверительной вероятности $p$ . И смотрим, насколько сильно вылетают полученные на подвыборках значения $R$ за его пределы. Если они существенно выходят за границы, то очевидно, что выборка неоднородна. В частности, в случае корреляции Пирсона - совместное распределение не является нормальным. В общем похоже на ресамплинг, но в вычислительном отношении эта процедура намного проще.

Что Вы думаете по этому поводу?

Научный форум dxdy

Условия достоверности корреляции Пирсона