2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 неустойчивые корреляции
Сообщение16.05.2016, 05:10 


07/10/15

2400
Уважаемые участники форума, помогите пожалуйста разобраться,
столкнулся со следующей проблемой - возникла необходимость построения эмпирической модели по экспериментальным данным,
предварительный анализ показал наличие значимых корреляций между факторными и результативной переменной, была построена линейная модель, показавшая корреляцию фактических значений и прогноза 0.4, затем - нейросеть, показавшая R=0.7
но после поступления новых данных оказалось, что модель на них совершенно не работает.

Для выяснения причин этого выборка была разделена на несколько частей, оказалось что каждой из подвыборок соответствует своя модель, и корреляции факторных и результативных переменных различаются очень сильно, будто бы они взяты из разных генеральных совокупностей.
Вычислял ранговые корреляции и строил квантильную регрессию - результат тот же самый, корреляции есть, и они значимые, но всё время разные.

Собственно вопрос в следующем - есть ли действительно в данных корреляция или нет? Почему не работают статистические критерии? Что можно с этим сделать и как можно всё это обосновать?

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение16.05.2016, 07:32 
Аватара пользователя


21/08/12

37
Статистические модели не работают когда моделируемый объект сам не занимается статистикой, у него другая модель.
Например котировки на больших интервалах. Или последовательность слов в тексте. Конечно посчитать статистику никто не запрещает, но автор текста наверняка расставлял слова не по нормальному распределению и даже не по марковской модели.
Либо он таки занимается статистикой, но делает это раньше Вас. Сам снимает сливки, а в ваших данных только оставшийся иррациональный мусор.
Или просто объект гораздо сложнее и выборка не представительна.

Информацию нужно выбирать по весу. Если информация нужна для управления чем-то со сложностью 1 бит, например выключателем , то и данные нужно брать такие, где можно рассмотреть два кластера.
Сами данные должны быть адекватны. Если взять только младшие биты значений, там просто не будет соответствующей задаче информации. Там конечно может быть нужное в виде закономерности цифр в числе, но обычно это не анализируют, смотрят на число как на величину.
Если в данных нет полезной информации то статистика их туда не "всчитает".

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение16.05.2016, 07:58 


07/10/15

2400
На всякий случай поясню, что я анализирую естественный физический объект с естественными физическими параметрами, выборка достаточно большая - более 1000 наблюдений, но вот отдельные её части уж больно непохожи друг на друга.

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение17.05.2016, 09:25 
Аватара пользователя


21/08/12

37
График покажите. С 1000ю наблюдений можно и без математики справиться, простым карандашиком.

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение17.05.2016, 18:31 


07/10/15

2400
Вот на всякий случай как распределяются корреляции на разных подвыборках (по 200 набл. каждая)
Изображение
все параметры проходят двухвыборочный тест Колмогорова-Смирнова

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение17.05.2016, 21:59 
Аватара пользователя


21/08/12

37
Корелляции 0,1 вообще-то довольно маленькие, чтобы тут говорить о корреляции. То есть в 9 случаях из 10 есть корелляция с другим объектом, а не с тем, с которым ищется корелляция.
Обычно так выглядит производная чего-то колеблющегося, то есть не сам физический объект, а некое управляющее воздействие.

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение18.05.2016, 02:36 


07/10/15

2400
По оси абсцисс идёт номер параметра, поэтому дифференцировать там даже при желании не по чему, все параметры врямяинвариантные.

У меня же вопрос в том - почему корреляции так сильно меняются от выборки к выборке. Уровень значимости корреляций там примерно 0.15. Получается что в одной подвыборке они значимые, а в другой уже и нет.
Какой толк в их величине если они такие непостоянные?

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение18.05.2016, 11:45 
Аватара пользователя


21/08/12

37
В данном случае никакого. А бывает высокая корреляция. Бывает даже не корреляция, а логическая зависимость. Тут же зависимости нет. Можно ещё по дисперсии посмотреть, если она одинаковая, то есть некая зависимость по объему энергии, а не по информации. То есть если один объект утихомирить, другой возможно тоже успокоится.

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение18.05.2016, 21:04 
Заслуженный участник


05/08/14
1564
Andrey_Kireew в сообщении #1124161 писал(а):
Вот на всякий случай как распределяются корреляции на разных подвыборках

Очевидна автокорреляция в корреляциях, т.е. если корреляция положительна (отрицательно), то и "соседи" скорее будут положительны (отрицательны). Проблема скорее всего в данных.

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение20.05.2016, 04:19 


07/10/15

2400
Взаимная корреляция признаков действительно имеет место, разумеется такая же неустойчивая как и корреляция с целевым показателем, только я не совсем понимаю как это связано с моим вопросом?

вообще я надеялся получить хоть какой то аргументированный ответ ...

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение20.05.2016, 09:29 
Аватара пользователя


21/08/12

37
Трудно бороться с неверными предположениями. Можете попробовать поближе рассмотреть выражение "неустойчивые корреляции". Да просто хотя бы "корреляции" в множественном числе. Это уже абсурд.

 Профиль  
                  
 
 Re: неустойчивые корреляции
Сообщение21.05.2016, 06:35 


07/10/15

2400
Извиняюсь, я просто по ошибке написал сообщение не в тот раздел форума,
ответ на него требует глубоких знаний в области математики и статистики, которые в данном разделе являются явно не первостепенными, хотя и, безусловно, не маловажными.

Впрочем ответ на свой вопрос я уже нашел самостоятельно, так что перенаправлять его не буду.
До сих пор не перестаю удивляться до чего всё же сложна эта наука, и сколько в ней "подводных" камней,
видимо в корректности статистических выводов до конца быть уверенным нельзя никогда,
а ошибки вскрываются уже слишком поздно, для того, чтобы было можно бы что то исправить ...

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 12 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group