достоверность корреляций между долями от общего целого

mitra · 24.05.2015, 10:09

Существуют ли способы оценки достоверности корреляций, получаемых при сопоставлении долей от общего целого?
Почему-то ничего по данной проблеме не смог найти в сети, кроме такого уклончивого ее описания: «При переходе к относительным величинам абсолютные различия, существующие между исходными данными, претерпевают изменения. Поэтому между относительными величинами возникают совсем иные соотношения… Проблемы, возникающие при изучении корреляции и регрессии относительных величин, еще мало изучены» (Э. Фёрстер, Б. Рёнц «Методы корреляционного и регрессионного анализа»; http://edu.alnam.ru/book_mkor.php?id=47).
Но этот источник явно далек от того, чтобы называться свежим. Может быть, все-таки к сегодняшнему дню малоизученность проблемы разрешилась в какой-нибудь конкретный метод?

Евгений Машеров · 25.05.2015, 11:29

ИМХО, это проблема не математического, а содержательного уровня. Если у нас есть механизм, в силу которого при прочих равных X и Y пропорциональны Z, то имеет смысл переходит к

X/Z

и

Y/Z

, в том числе для поиска корреляций при исключении влияния Z (скажем, изучается по выборке стран влияние потребления рыбы на долгожительство, X - число долгожителей в стране, Y - общее потребление рыбы, Z- население), то не поделив на Z, получим исключительно сильную связь просто потому, что в более крупных странах больше и долгожителей, и потребление рыбы, а деление даст величины, очищенные от не имеющего отношения к интересующему вопросу фактора. Однако если этот фактор не имеет прямого пропорционального воздействия, то такое деление может, напротив, создавать ложную корреляцию. Решается этот вопрос не формальным, а содержательным анализом, и общих рекомендаций тут, боюсь, и не может быть. В разных предметных областях по-разному.

mitra · 25.05.2015, 16:08

Большое спасибо, Евгений! Сначала я тоже думал примерно также. Но поскольку в моем исследовании корреляции по относительным частотам выглядят наиболее выигрышными, мне никак не хотелось мириться с тем, что они ложные, и я начал тогда проводить испытания на стохастических моделях. Через некоторое время неожиданно удалось найти способ достаточно точного определения величины сдвига центра варьирования:

µ=r_{deg}\sqrt{1-\frac{1-r_{deg}^2}{n-1}}

Здесь

n

– количество измерений, а

r_{deg}

– коэффициент вырожденной (degenerate) корреляции, получаемый из максимально возможного числа измерений, равного общему числу задействованных в опыте единиц. То, каким образом данная формула выводит на смещенный центр варьирования, можно попытаться объяснить, опираясь на другой тип корреляционного вырождения. Это такая корреляция по относительным частотам, когда величину, от которой определяется доля, создают только две переменные. Здесь при любых трансформациях этих переменных коэффициент корреляции будет неизменно равен

-1

. При трансформации предельно возможной длины все пары значений будут иметь вид

1-0

и

0-1

. Далее, если начать создавать из этих рядов третью переменную (сохраняя, естественно, суммарное количество участников опыта), при изъятии части единиц появится третий вид пары:

0-0

. От количества таких нулевых пар, вносящих в ковариацию уменьшающий общее отрицательное значение положительный вклад, и будут, как мне кажется, зависеть комбинаторные возможности в нормальных условиях.
Очевидно, что устранения величины сдвига недостаточно для правильной оценки показателя по стандартной шкале Стьюдента. В принципе, простая формула

\frac{r-µ}{1-rµ}

, где

r

– коэффициент корреляции по относительным частотам (а также коэффициент частной корреляции, устраняющий влияние переменной «количество населения»), и

µ

– величина сдвига, нормально вписывает любые значения в нужный диапазон от

+1

до

-1

, но при этом располагает показатели по не совсем верной траектории. Для приведения этой траектории в норму у меня явно не хватает либо математических познаний, либо аналитических способностей, но, скорее всего, – и того, и другого.
Впрочем, отклонения не очень высоки. По моим наблюдениям, которых, разумеется, пока недостаточно, они при не очень сильных сдвигах (примерно до

0,35

) не превышают

0,02

, сходя на нет при приближении к значениям

0

и

\pm1

. При больших сдвигах они, вроде бы, немного возрастают, при малых слегка падают. Есть, кажется, и какая-то зависимость от степеней свободы.
Я, к сожалению, не математик, и, возможно, глубоко заблуждаюсь, но не могу избавиться от убеждения, что специалист все это без особого труда доведет до надлежащей точности.

Deggial · 25.05.2015, 18:13

i

Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Карантин»
Причина переноса: формулы не оформлены

\TeX

ом

mitra
Наберите все формулы и термы

\TeX

ом.
Инструкции по оформлению формул здесь или здесь (или в этом видеоролике).
См. также тему Что такое карантин, и что нужно делать, чтобы там оказаться.
После исправлений сообщите в теме Сообщение в карантине исправлено, и тогда тема будет возвращена.

i	Тема перемещена из форума «Карантин» в форум «Помогите решить / разобраться (М)» Возвращено

mitra · 28.05.2015, 05:25

И все-таки, несмотря на красноречивое молчание, я не оставляю надежды, что кто-нибудь либо развеет мои сомнения относительно корректности представленного выше способа оценки, либо, наоборот, покажет мне, что я ступил на неверный путь.
Попробую несколько конкретизировать процедуры, при осмыслении которых я пришел к мнению, что корреляции между связанными долями могут быть интерпретируемы стандартными способами.
В основе всего, конечно же, лежит стохастическая модель. Она мне кажется правильной. Но мало ли что может казаться самоуверенному дилетанту?!
В общих чертах моделируемую ситуацию можно представить следующим образом. Есть пространство, размеры которого определяются через количество населяющих его особей. Пространство неоднородно, и по этой причине членится на участки разной размерности, различающиеся по качественным признакам. Население также выглядит неоднородным, но различия заметны только на перцептивном уровне, - скажем, наблюдается разная раскраска особей. Согласно нулевой гипотезе, все наблюдаемые соотношения между типами раскрасок на качественно разных участках пространства должны возникать случайным образом.
Пусть мы насчитали 10000 особей. Из них 2000 носят красные штаны, а 1000 – желтые. Остальные 7000 пусть здесь будут недифференцированы. Основа модели тогда будет иметь следующий вид (каждая цифра здесь заменяет соответственно тысячу единиц и тысячу нулей).
1 0 0
1 0 0
0 1 0
0 0 1
0 0 1
0 0 1
0 0 1
0 0 1
0 0 1
0 0 1
Сумма в каждой строке всегда равна единице, а длина каждого столбца равна сумме наблюдаемых в эксперименте особей, т.е. 10000. Каждую строку привязываем к случайному числу. Теперь ранжирование по столбцу случайных чисел будет обеспечивать беспорядочное перетасовывание строк. Как видно, в такой модели все исходные параметры остаются постоянными, меняются только соотношения между категориями особей внутри выделенных участков общего пространства.
Величину сдвига центра варьирования можно считать прямо по этим столбцам. Пусть они расчленены на 25 участков. Тогда по столбцам вычисляем обычную линейную корреляцию и корректируем ее для

n=25

. Получаем

µ=-0,1667\sqrt{1-\frac{1-0,1667^2}{24}}=-0,1633

. Теперь проводим испытания и проверяем, насколько эта величина соответствует эмпирической средней.
Естественно, в данной модели абсолютные частоты каждого участка пространства автоматически переводятся в относительные, а также автоматически производится вычисление частных корреляций, устраняющих влияние размера участка. Сдвиг в обоих случаях одинаков (вернее, имеет ничтожно малые отличия), а разница в общем распределении результатов примерна такая, какой она и должна быть при отличии на одну степень свободы.
Уверенность в том, что расчет таким способом достаточно точен, у меня базируется на 54 распределениях, имеющих разные исходные параметры и включающих в себя от 20000 до 75000 результатов. Только в 3 случаях вычисленное данным способом значение при сравнении с эмпирическим средним не попадает в доверительный интервал 95%. Небольшое превышение одной двадцатой для 54 случаев явно несущественно.
Неточную работу формулы

\frac{r-µ}{1-rµ}

хорошо видно при сравнении преобразованного по ней эмпирического ряда с теоретически ожидаемыми значениями. Так, например, в своем реальном опыте я имею значение -0,689. Преобразование по данной формуле дает -0,571. Однако в полученном при моделировании распределении 30000 результатов значение -0,689 заняло 68 место, а для данной позиции по распределению Стьюдента соответствует величина -0,548 (

\frac{68}{15000}=0,00453

; 23 степени свободы). Примерно с такими же отклонениями идет распределение и в хвосте положительных значений. И это наблюдается во всех рассмотренных случаях.
Если в охарактеризованные процедуры не закралась какая-нибудь принципиальная ошибка, то, как мне кажется, при явно заметном превышении порога значимости можно не прибегать к стохастическим испытаниям, а пользоваться для грубой оценки конструкцией

\frac{r-µ}{1-rµ}

, пока для уверенности понижая ее результат на 0,03 и с нетерпением ожидая, когда кто-нибудь создаст правильную формулу.

Научный форум dxdy

достоверность корреляций между долями от общего целого