Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия, Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки
Уважаемые участники форума, помогите пожалуйста разобраться, столкнулся со следующей проблемой - возникла необходимость построения эмпирической модели по экспериментальным данным, предварительный анализ показал наличие значимых корреляций между факторными и результативной переменной, была построена линейная модель, показавшая корреляцию фактических значений и прогноза 0.4, затем - нейросеть, показавшая R=0.7 но после поступления новых данных оказалось, что модель на них совершенно не работает.
Для выяснения причин этого выборка была разделена на несколько частей, оказалось что каждой из подвыборок соответствует своя модель, и корреляции факторных и результативных переменных различаются очень сильно, будто бы они взяты из разных генеральных совокупностей. Вычислял ранговые корреляции и строил квантильную регрессию - результат тот же самый, корреляции есть, и они значимые, но всё время разные.
Собственно вопрос в следующем - есть ли действительно в данных корреляция или нет? Почему не работают статистические критерии? Что можно с этим сделать и как можно всё это обосновать?
NO.
Re: неустойчивые корреляции
16.05.2016, 07:32
Статистические модели не работают когда моделируемый объект сам не занимается статистикой, у него другая модель. Например котировки на больших интервалах. Или последовательность слов в тексте. Конечно посчитать статистику никто не запрещает, но автор текста наверняка расставлял слова не по нормальному распределению и даже не по марковской модели. Либо он таки занимается статистикой, но делает это раньше Вас. Сам снимает сливки, а в ваших данных только оставшийся иррациональный мусор. Или просто объект гораздо сложнее и выборка не представительна.
Информацию нужно выбирать по весу. Если информация нужна для управления чем-то со сложностью 1 бит, например выключателем , то и данные нужно брать такие, где можно рассмотреть два кластера. Сами данные должны быть адекватны. Если взять только младшие биты значений, там просто не будет соответствующей задаче информации. Там конечно может быть нужное в виде закономерности цифр в числе, но обычно это не анализируют, смотрят на число как на величину. Если в данных нет полезной информации то статистика их туда не "всчитает".
Andrey_Kireew
Re: неустойчивые корреляции
16.05.2016, 07:58
На всякий случай поясню, что я анализирую естественный физический объект с естественными физическими параметрами, выборка достаточно большая - более 1000 наблюдений, но вот отдельные её части уж больно непохожи друг на друга.
NO.
Re: неустойчивые корреляции
17.05.2016, 09:25
График покажите. С 1000ю наблюдений можно и без математики справиться, простым карандашиком.
Andrey_Kireew
Re: неустойчивые корреляции
17.05.2016, 18:31
Вот на всякий случай как распределяются корреляции на разных подвыборках (по 200 набл. каждая) все параметры проходят двухвыборочный тест Колмогорова-Смирнова
NO.
Re: неустойчивые корреляции
17.05.2016, 21:59
Корелляции 0,1 вообще-то довольно маленькие, чтобы тут говорить о корреляции. То есть в 9 случаях из 10 есть корелляция с другим объектом, а не с тем, с которым ищется корелляция. Обычно так выглядит производная чего-то колеблющегося, то есть не сам физический объект, а некое управляющее воздействие.
Andrey_Kireew
Re: неустойчивые корреляции
18.05.2016, 02:36
По оси абсцисс идёт номер параметра, поэтому дифференцировать там даже при желании не по чему, все параметры врямяинвариантные.
У меня же вопрос в том - почему корреляции так сильно меняются от выборки к выборке. Уровень значимости корреляций там примерно 0.15. Получается что в одной подвыборке они значимые, а в другой уже и нет. Какой толк в их величине если они такие непостоянные?
NO.
Re: неустойчивые корреляции
18.05.2016, 11:45
В данном случае никакого. А бывает высокая корреляция. Бывает даже не корреляция, а логическая зависимость. Тут же зависимости нет. Можно ещё по дисперсии посмотреть, если она одинаковая, то есть некая зависимость по объему энергии, а не по информации. То есть если один объект утихомирить, другой возможно тоже успокоится.
Вот на всякий случай как распределяются корреляции на разных подвыборках
Очевидна автокорреляция в корреляциях, т.е. если корреляция положительна (отрицательно), то и "соседи" скорее будут положительны (отрицательны). Проблема скорее всего в данных.
Andrey_Kireew
Re: неустойчивые корреляции
20.05.2016, 04:19
Взаимная корреляция признаков действительно имеет место, разумеется такая же неустойчивая как и корреляция с целевым показателем, только я не совсем понимаю как это связано с моим вопросом?
вообще я надеялся получить хоть какой то аргументированный ответ ...
NO.
Re: неустойчивые корреляции
20.05.2016, 09:29
Трудно бороться с неверными предположениями. Можете попробовать поближе рассмотреть выражение "неустойчивые корреляции". Да просто хотя бы "корреляции" в множественном числе. Это уже абсурд.
Andrey_Kireew
Re: неустойчивые корреляции
21.05.2016, 06:35
Извиняюсь, я просто по ошибке написал сообщение не в тот раздел форума, ответ на него требует глубоких знаний в области математики и статистики, которые в данном разделе являются явно не первостепенными, хотя и, безусловно, не маловажными.
Впрочем ответ на свой вопрос я уже нашел самостоятельно, так что перенаправлять его не буду. До сих пор не перестаю удивляться до чего всё же сложна эта наука, и сколько в ней "подводных" камней, видимо в корректности статистических выводов до конца быть уверенным нельзя никогда, а ошибки вскрываются уже слишком поздно, для того, чтобы было можно бы что то исправить ...