2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2
 
 Re: Условия достоверности корреляции Пирсона
Сообщение11.09.2017, 17:56 
Аватара пользователя
Небольшой вычислительный эксперимент. Сгенерировано 1000 пар чисел по описанному методу. Корреляция 0,0029016286. Выбрано 100 непересекающихся подвыборок по 10 наблюдений. Из них корреляция, равная в точности -1, в 24 из 100, затем -0.6, максимальная положительная равна 0.82, между этими значениями распределены примерно равномерно. Очевидно, это совершенно не похоже на теорию для независимых значений.
(Мне указали, что сформулировано несколько невнятно. На всякий случай уточню:
"Описанный метод" это
$x\sim N(0,1)$ и
$y=\begin{cases}
x,&\text{если |x|>t}\\
-x,&\text{если |x| <= t}
\end{cases}$
Нормальные иксы генерируются стандартным методом, t=1.5, точное значение, гарантирующее нулевую теоретическую корреляцию, несколько отлично, но выборочные колебания больше отличия от нуля корреляции из-за неточности t)

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение30.09.2017, 13:16 
Спасибо Евгений Машеров , примерно так у меня и происходит на реальных данных. Значит причина - это наличие сложной нелинейной взаимосвязи переменных. Почему ранговые корреляции не решают проблемы - мне стало понятно: они способны выявить только монотонные зависимости, а если зависимость более сложная - то могут её и не обнаружить.
В Вашем примере наверное так и будет.

По этому поводу у меня возникла идея: делим выборку на 2 равные части, наблюдения распределяем таким образом, чтобы в первой подвыборке корреляция переменных была минимальной, а во второй, соответственно - максимальной. Это будут границы доверительного интервала для доверительной вероятности $p\approx 1-\frac{((N/2)!)^2}{N!}$ (это исходя из максимального числа возможных неодинаковых подвыборок). Затем вычисляем доверительный интервал для $R$ вычисленного по общей выборке для такой же доверительной вероятности $p$. И смотрим, насколько сильно вылетают полученные на подвыборках значения $R$ за его пределы. Если они существенно выходят за границы, то очевидно, что выборка неоднородна. В частности, в случае корреляции Пирсона - совместное распределение не является нормальным. В общем похоже на ресамплинг, но в вычислительном отношении эта процедура намного проще.

Что Вы думаете по этому поводу?

 
 
 [ Сообщений: 17 ]  На страницу Пред.  1, 2


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group