2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 групповая корреляция
Сообщение23.04.2019, 16:35 


27/10/09
602
Дамы и Господа!

Такой вопрос: как сделать корреляционный анализ, если данные сгруппированы?
Простой пример. Есть 10 полян, на полянах растут, кроме всего прочего, одуванчики и ромашки. Нас интересует взаимосвязь длинны стебля одуванчиков и ромашек. На каждой поляне мы измеряем несколько одуванчиков, и несколько ромашек, их количество каждый раз разное (например, на первой поляне поляне 7 ромашек и 5 одуванчиков, на второй поляне 3 ромашки и 4 одуванчика). Дисперсионным анализом показали, что длинна стеблей и ромашек и одуванчиков на разных полянах разная. Вопрос - они синхронно изменяются, или каждый живет своей жизнью?

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение24.04.2019, 08:46 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
Возможно, хватило бы простейшей модели - посчитать средние по полянам, а потом корреляцию между ними. Во всяком случае, это просто и можно с этого начать. Проблема в том, что при усреднении по неравному числу наблюдений дисперсия среднего тоже неравная.

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение24.04.2019, 09:00 


27/10/09
602
Евгений Машеров в сообщении #1389111 писал(а):
Проблема в том, что при усреднении по неравному числу наблюдений дисперсия среднего тоже неравная.
А если попробовать взвешенные? Только не очень понятно, как назначить вес и каков будет закон распределения такого коэффициента корреляции.
И еще - в таком варианте получается без дисперсионного анализа не обойтись, сам коэффициент корреляции еще ни о чем не свидетельствует.

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение24.04.2019, 10:02 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
Значимость для коэффициента корреляции вполне определяется.
В общем, я бы начал с бесхитростной корреляции средних длин, а если бы что-то увидел, начал бы строить модель на содержательной основе.

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение24.04.2019, 10:46 


27/10/09
602
Содержательная интерпретация, конечно, будет, но хотелось бы еще иметь формальную характеристику, построенную корректно с точки зрения математической статистики. Как показывает опыт (и теория), корреляция по средним (по сгруппированным данным) резко завышает коэффициент корреляции по сравнению с коэффициентом корреляции без группировки.

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение24.04.2019, 11:41 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
Ну, тогда смотреть в сторону MANOVA
http://online.sfsu.edu/efc/classes/biol ... newest.htm

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение25.04.2019, 11:04 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
И, насколько я понимаю, главная трудность тут в неравенстве наблюдений по площадкам -
AndreyL в сообщении #1389025 писал(а):
на первой поляне поляне 7 ромашек и 5 одуванчиков, на второй поляне 3 ромашки и 4 одуванчика

это может и применение MANOVA затруднить.
Усреднение (и коррелирование средних) вопрос снимает, но корреляции будут завышены, получение для каждой площадки всех возможных пар и рассмотрение каждой их них, как независимого наблюдения, тоже, скорее всего, завысит. Если по одной из переменных наблюдений много, можно усреднить (полагая, что для большого числа дисперсия среднего низкая и принимая среднее, как точное значение) и рассматривать регрессию наблюдений по второй переменной на средние значения первой по данной площадке.
Знание физической модели, объясняющей зависимость, может способствовать выбору хорошего метода. Без этого сложно, только "общие советы".

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение25.04.2019, 14:54 


27/10/09
602
С многофакторным дисперсионным анализом, как раз, без проблем - алгоритм при неравных объемах выборок не такой сложный, тем более реализован в разных матпакетах, например, а Матлабе.
Теперь вопрос по интерпретации (к сожалению, никогда не работал с многофакторным ДА). Я получил значимые главные эффекты, и незначимый эффект взаимодействия. Как это проинтерпретировать и можно ли отсюда вытащить коэффициент корреляции? Есть ли синхронность в изменении длины стебля, или нет?

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение25.04.2019, 16:43 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
А можно "грязные подробности"? Какие были факторы?

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение25.04.2019, 18:00 


27/10/09
602
Например вот так, корреляция должна быть положительной$$ \begin{bmatrix}   Source&Sum Sq.& d.f.&Mean Sq. & F &Prob>F\\
  X1&528.604& 9&58.7337& 8684.52&0  \\   
  X2&10.602&1&10.6019&1567.63& 0   \\  
  X1* X2 & 0.074 &9& 0.0082&1.21& 0.3166\\
  Error&0.257& 38 &0.0068& &   \\                 
  Total  &  574.462  &  57  & &  \end{bmatrix}$$​Странно, интерпретатор отказался таблицу рисовать, пришлось матрицей

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение25.04.2019, 18:23 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
Факторы-то что? Содержательно? Может, на матрицу данных взглянуть?

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение25.04.2019, 18:39 


27/10/09
602
$X1$ - разные поляны, кол-во степеней свободы 10-1=9, $X2$ - ромашка-одуванчик, кол-во степеней свободы 2-1=1
здесь матрица такая (тестовая)$$ \begin{bmatrix}
sample & X1 & X2 & V\\
1 & 1 & 1 & 1.952877358562184 \\
2 & 1 & 1 & 2.0066408503576474 \\
3 & 1 & 1 & 2.0412822922231095\\
4 & 1 & 1 & 1.7903755558671175\\
5 & 1 & 1 & 2.0373820970939693\\
6 & 1 & 2 & 2.993214420146185\\
7 & 1 & 2 & 3.0973138357425176\\
8 & 1 & 2 & 3.1748078209536494\\
9 & 1 & 2 & 2.8661849275553983\\
10 & 2 & 1 & 2.9422538193177203\\
11 & 2 & 1 & 2.9188570203912985\\
12 & 2 & 1 & 2.9122137710380875\\
13 & 2 & 1 & 3.071791600444823\\
14 & 2 & 1 & 3.092115317535767\\
15 & 2 & 2 & 4.0747190780377665\\
16 & 2 & 2 & 4.163608366879006\\
17 & 3 & 1 & 3.9879344688717375\\
18 & 3 & 2 & 5.122490722548813\\
19 & 3 & 2 & 5.053144433652872\\
20 & 4 & 1 & 5.125859652979152\\
21 & 4 & 1 & 4.989026186243811\\
22 & 4 & 2 & 5.959070274047661\\
23 & 4 & 2 & 6.083026686125874\\
24 & 5 & 1 & 5.874373904763359\\
25 & 5 & 2 & 6.920208954714829\\
26 & 5 & 2 & 7.04422502676155\\
27 & 5 & 2 & 7.061710063294385\\
28 & 5 & 2 & 7.164727681925111\\
29 & 5 & 2 & 7.01713032565468
\end{bmatrix}$$
отказывается большие матрицы рисовать, это продолжение
$$ \begin{bmatrix}
30 & 6 & 1 & 7.174281927214023\\
31 & 6 & 2 & 8.01665542112232\\
32 & 7 & 1 & 8.049745830613539\\
33 & 7 & 1 & 8.025828654060403\\
34 & 7 & 1 & 8.033819654248735\\
35 & 7 & 1 & 7.932166855129636\\
36 & 7 & 1 & 8.153744865470797\\
37 & 7 & 2 & 9.014118206893745\\
38 & 7 & 2 & 9.126073921567825\\
39 & 7 & 2 & 9.091842527250428\\
40 & 7 & 2 & 9.027363637609817\\
41 & 8 & 1 & 8.947249182679716\\
42 & 8 & 1 & 9.012630530936573\\
43 & 8 & 1 & 8.802664394285951\\
44 & 8 & 1 & 8.914203961966349\\
45 & 8 & 2 & 9.945618735020426\\
46 & 8 & 2 & 9.95052119704169\\
47 & 8 & 2 & 9.891641141083838\\
48 & 9 & 1 & 10.070415109598526\\
49 & 9 & 1 & 10.0944102779556\\
50 & 9 & 2 & 10.96377090344739\\
51 & 10 & 1 & 11.026456522189903\\
52 & 10 & 1 & 10.903113218709718\\
53 & 10 & 1 & 10.924822016793142\\
54 & 10 & 1 & 10.91847975999505\\
55 & 10 & 2 & 11.954008546502498\\
56 & 10 & 2 & 11.952924285925453\\
57 & 10 & 2 & 12.052745365274031\\
58 & 10 & 2 & 12.001728319291392
\end{bmatrix}$$

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение25.04.2019, 20:34 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
Так. Это не MANOVA, это ANOVA при двух факторах.
Первый "эффект полянки", второй "эффект вида растения". Но дело в том, что влияние полянки на длину стебля, одинаковое для всех видов, уже заложено в модель, постулировано.
$Y_{i,j}=P(x^1_i)+Q(x^2_j)+\varepsilon_{i,j}$
где P - эффект полянки, зависящий от первого фактора, Q - эффект вида, зависящий от второго.
Значимости факторов означают: первого, что на разных полянках длины разные, второго, что у разных видов разные тоже. То, что нет значимого взаимодействия факторов - межвидовые различия длины не отличаются значимо на полянках. В смысле разность длин одинакова.
Мне кажется, Вас что-то иное интересовало.

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение26.04.2019, 03:57 


27/10/09
602
Евгений Машеров в сообщении #1389405 писал(а):
Так. Это не MANOVA, это ANOVA при двух факторах.
Совершенно верно, поскольку у меня два фактора (полянка и цветочек) и одна измеряемая характеристика - длина стебля. Я не смог придумать, как это задачу свести к многомерному дисперсионному анализу, там, если я не ошибся, требуется несколько зависимых переменных, т.е. задача - сравнение векторов средних, и зависимая переменная должна быть вектором. Или я все-таки ошибся?

 Профиль  
                  
 
 Re: групповая корреляция
Сообщение26.04.2019, 10:01 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
Ну вот если бы у Вас были бы наблюдения, в каждом из которых мерялись бы два и более параметров, то была бы задача для MANOVA.
Тут один параметр. И правильно ли Вы исследуете - я сказать не могу, поскольку правильность аппарата определяется его пригодностью для поставленной задачи, а я её ещё не уяснил.
То, что Вы получили - доказательство того, что длины на разных полянках различны, и что у разных растений тоже различны. И что можно с достаточной точностью оценить линейной моделью с двумя входами - вид растения и номер полянки. Если это то, что Вас интересовало, то всё в порядке, работа закончена.
Но если Вас интересовало, скажем, не просто вопрос, разная ли длина по полянкам и/или можно ли, зная полянку, прогнозировать длину, то надо, ИМХО, нечто другое.
Скажем, если Вас озаботило не просто различие длин на полянках, а объясняется ли оно единым фактором, или же факторы разные, значения которых меняются по полянкам независимо, то может иметь смысл сравнить две модели. Одна рассмотренная, в которой "полянка" это общий для двух видов растений фактор, и для неё найти сумму квадратов и для неё число степеней свободы. А вторая - в которой рассматриваются отдельно растения одного вида и влияние на них фактора "полянка", и аналогично другого (технически это может быть две оценки для одного или другого вида, или расчёт выполнен в одной модели, введя два набора "полянок, для одного или второго вида), затем считается сумма квадратов и число степеней свободы, находится F-отношение и проверяется значимость гипотезы, что если рассматривать эффекты "полянок" отдельно для каждого вида, это даёт более точные оценки, чем расчёт общий для всех видов.
Ну, или такая постановка. "На полянках растут лекарственные растения (редкие) и сорняки (распространённые). Можно ли оценить пригодность полянки для разбиения плантации лекарственных растений по выборке измерений сорняков?". В ней, скорее всего, пришлось бы строить линейную регрессию немногочисленных найденных на данной полянке лекарственных на среднюю длину сорняков, причём благодаря большому объёму выборки сорняков дисперсия среднего мала, и средняя по полянке длина трактуется, как постоянная.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 18 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Евгений Машеров


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group