2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 неустойчивые корреляции
Сообщение16.05.2016, 05:10 
Уважаемые участники форума, помогите пожалуйста разобраться,
столкнулся со следующей проблемой - возникла необходимость построения эмпирической модели по экспериментальным данным,
предварительный анализ показал наличие значимых корреляций между факторными и результативной переменной, была построена линейная модель, показавшая корреляцию фактических значений и прогноза 0.4, затем - нейросеть, показавшая R=0.7
но после поступления новых данных оказалось, что модель на них совершенно не работает.

Для выяснения причин этого выборка была разделена на несколько частей, оказалось что каждой из подвыборок соответствует своя модель, и корреляции факторных и результативных переменных различаются очень сильно, будто бы они взяты из разных генеральных совокупностей.
Вычислял ранговые корреляции и строил квантильную регрессию - результат тот же самый, корреляции есть, и они значимые, но всё время разные.

Собственно вопрос в следующем - есть ли действительно в данных корреляция или нет? Почему не работают статистические критерии? Что можно с этим сделать и как можно всё это обосновать?

 
 
 
 Re: неустойчивые корреляции
Сообщение16.05.2016, 07:32 
Аватара пользователя
Статистические модели не работают когда моделируемый объект сам не занимается статистикой, у него другая модель.
Например котировки на больших интервалах. Или последовательность слов в тексте. Конечно посчитать статистику никто не запрещает, но автор текста наверняка расставлял слова не по нормальному распределению и даже не по марковской модели.
Либо он таки занимается статистикой, но делает это раньше Вас. Сам снимает сливки, а в ваших данных только оставшийся иррациональный мусор.
Или просто объект гораздо сложнее и выборка не представительна.

Информацию нужно выбирать по весу. Если информация нужна для управления чем-то со сложностью 1 бит, например выключателем , то и данные нужно брать такие, где можно рассмотреть два кластера.
Сами данные должны быть адекватны. Если взять только младшие биты значений, там просто не будет соответствующей задаче информации. Там конечно может быть нужное в виде закономерности цифр в числе, но обычно это не анализируют, смотрят на число как на величину.
Если в данных нет полезной информации то статистика их туда не "всчитает".

 
 
 
 Re: неустойчивые корреляции
Сообщение16.05.2016, 07:58 
На всякий случай поясню, что я анализирую естественный физический объект с естественными физическими параметрами, выборка достаточно большая - более 1000 наблюдений, но вот отдельные её части уж больно непохожи друг на друга.

 
 
 
 Re: неустойчивые корреляции
Сообщение17.05.2016, 09:25 
Аватара пользователя
График покажите. С 1000ю наблюдений можно и без математики справиться, простым карандашиком.

 
 
 
 Re: неустойчивые корреляции
Сообщение17.05.2016, 18:31 
Вот на всякий случай как распределяются корреляции на разных подвыборках (по 200 набл. каждая)
Изображение
все параметры проходят двухвыборочный тест Колмогорова-Смирнова

 
 
 
 Re: неустойчивые корреляции
Сообщение17.05.2016, 21:59 
Аватара пользователя
Корелляции 0,1 вообще-то довольно маленькие, чтобы тут говорить о корреляции. То есть в 9 случаях из 10 есть корелляция с другим объектом, а не с тем, с которым ищется корелляция.
Обычно так выглядит производная чего-то колеблющегося, то есть не сам физический объект, а некое управляющее воздействие.

 
 
 
 Re: неустойчивые корреляции
Сообщение18.05.2016, 02:36 
По оси абсцисс идёт номер параметра, поэтому дифференцировать там даже при желании не по чему, все параметры врямяинвариантные.

У меня же вопрос в том - почему корреляции так сильно меняются от выборки к выборке. Уровень значимости корреляций там примерно 0.15. Получается что в одной подвыборке они значимые, а в другой уже и нет.
Какой толк в их величине если они такие непостоянные?

 
 
 
 Re: неустойчивые корреляции
Сообщение18.05.2016, 11:45 
Аватара пользователя
В данном случае никакого. А бывает высокая корреляция. Бывает даже не корреляция, а логическая зависимость. Тут же зависимости нет. Можно ещё по дисперсии посмотреть, если она одинаковая, то есть некая зависимость по объему энергии, а не по информации. То есть если один объект утихомирить, другой возможно тоже успокоится.

 
 
 
 Re: неустойчивые корреляции
Сообщение18.05.2016, 21:04 
Andrey_Kireew в сообщении #1124161 писал(а):
Вот на всякий случай как распределяются корреляции на разных подвыборках

Очевидна автокорреляция в корреляциях, т.е. если корреляция положительна (отрицательно), то и "соседи" скорее будут положительны (отрицательны). Проблема скорее всего в данных.

 
 
 
 Re: неустойчивые корреляции
Сообщение20.05.2016, 04:19 
Взаимная корреляция признаков действительно имеет место, разумеется такая же неустойчивая как и корреляция с целевым показателем, только я не совсем понимаю как это связано с моим вопросом?

вообще я надеялся получить хоть какой то аргументированный ответ ...

 
 
 
 Re: неустойчивые корреляции
Сообщение20.05.2016, 09:29 
Аватара пользователя
Трудно бороться с неверными предположениями. Можете попробовать поближе рассмотреть выражение "неустойчивые корреляции". Да просто хотя бы "корреляции" в множественном числе. Это уже абсурд.

 
 
 
 Re: неустойчивые корреляции
Сообщение21.05.2016, 06:35 
Извиняюсь, я просто по ошибке написал сообщение не в тот раздел форума,
ответ на него требует глубоких знаний в области математики и статистики, которые в данном разделе являются явно не первостепенными, хотя и, безусловно, не маловажными.

Впрочем ответ на свой вопрос я уже нашел самостоятельно, так что перенаправлять его не буду.
До сих пор не перестаю удивляться до чего всё же сложна эта наука, и сколько в ней "подводных" камней,
видимо в корректности статистических выводов до конца быть уверенным нельзя никогда,
а ошибки вскрываются уже слишком поздно, для того, чтобы было можно бы что то исправить ...

 
 
 [ Сообщений: 12 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group