Проверка адекватности регрессионной модели

prof.uskov · 12.10.2016, 20:25

По рекомендации GAA еще одна тема про регрессионные модели.
Интересует вопрос проверки адекватности.
Предположим выполняются все предпосылки регрессионного анализа, кроме одной - соответствия модели с точностью до параметров истинной зависимости, данная предпосылка подлежит проверке.
Распределение аддитивной помехи для начала возьмем нормальное.

Классикой при нормальном распределении является метод сравнение двух дисперсий с помощью критерия Фишера: остаточной дисперсии и дисперсии воспроизводимости, полученной на основе параллельных опытов.
Дальше во многих руководствах пишут, что есть и другие методы....

В частности, на ум приходит разделение выборки на обучающую и тестирующую, с последующими различными манипуляция с этими выборками, вычислением различных дисперсий и ошибок.
Но как статистически проверить гипотезу адекватности?

Может кто-нибудь четко перечислить известные методы поверки гипотезы об адекватности регрессионных моделей?

GAA · 12.10.2016, 20:39

1. Я не встречал в литературе «гипотезы адекватности». Сформулируйте модель и «гипотезу адекватности», пожалуйста. («С формулами».)
2. И понятие «параллельные опыты», тоже бы сформулировать.
3. Насколько мне известно, есть несколько критериев, в которых используется распределение Фишера. Пожалуйста, сформулируйте критерий, о котором Вы пишете.

prof.uskov · 12.10.2016, 20:59

GAA в сообщении #1159289 писал(а):

1. Я не встречал в литературе «гипотезы адекватности». Сформулируйте модель и «гипотезу адекватности», пожалуйста. («С формулами».)
2. И понятие «параллельные опыты», тоже бы сформулировать.
3. Насколько мне известно, есть несколько критериев, в которых используется распределение Фишера. Пожалуйста, сформулируйте критерий, о котором Вы пишете.

Для линейной регрессии проверка адекватности - это проверка линейности.
Общеизвестный критерий - это сравниваются между собой две оценки дисперсии аддитивной помехи: остаточная дисперсия и дисперсия воспроизводимости, полученная на основе параллельных опытов.
Это все как бы из литературы, смысл повторяться?

-- 12.10.2016, 22:04 --

Термин "проверка адекватности", по всей видимости, больше из теории планирования эксперимента.
Например:
Планирование эксперимента в исследование технологических процессов / Под. ред. Лецкого, 1977.
Статистические методы в инженерных исследованиях / Под. ред. Круга, 1983.
Все это классика.

GAA · 12.10.2016, 21:33

У нас с Вами очень разные представления о классических учебниках математической статистики. И так мы будем бесконечно разговаривать, пока один из модераторов не применит какие-либо санкции (это все-таки учебный раздел, а не болталка). Я подожду четкой формулировки задачи. Тогда может ссылками и помогу.

prof.uskov · 12.10.2016, 22:05

GAA в сообщении #1159304 писал(а):

У нас с Вами очень разные представления о классических учебниках математической статистики. И так мы будем бесконечно разговаривать, пока один из модераторов не применит какие-либо санкции (это все-таки учебный раздел, а не болталка). Я подожду четкой формулировки задачи. Тогда может ссылками и помогу.

Может быть я открыл тему не в том разделе...
Но подумайте, как Вы мне можете подсказать методы проверки адекватности регрессионной модели (проверка линейности регрессии - для линейной модели), если Вам даже сам термин неизвестен, а также неизвестен единственный описанный в массовой литературе на русском языке критерий?
См., например, Ферстер, Ренц "Методы корреляционного и регрессионного анализа", стр. 212-213.

Евгений Машеров · 12.10.2016, 22:15

Скользящий экзамен, например. Смотря какого рода несоответствия ожидаем.

prof.uskov · 12.10.2016, 22:33

Евгений Машеров в сообщении #1159312 писал(а):

Скользящий экзамен, например. Смотря какого рода несоответствия ожидаем.

Да, знаю. Вот получили мы эти точки, посчитали на них дисперсию - по-сути среднеквадратичную ошибку модели, а дальше, что с ней делать? Как проверить адекватна ли наша модель?

Евгений Машеров · 13.10.2016, 10:01

Ну, для каждой точки "скользящего экзамена" (аналогично можно и для бутстрэпа, или для простого разбиения на обучающую и экзаменационную подвыборки) можно рассчитать теоретическую дисперсию, исходя из модели. И поделить фактическое отклонение на предсказанное стандартное отклонение. Получим, если всё верно, выборку нормально распределённых величин с нулевым матожиданием и единичной дисперсией. И проверим, так ли это. Матожидание, скорее всего, будет нулевым, а вот дисперсия может и отличаться. Если значимо выше - что-то с моделью не так (и если матожидание ненулевое - тоже что-то не так). Затем надо смотреть по точкам - нет ли выбросов. Их интепретация в рамках только статистики невозможна, статистика лишь донос доносит на злодея, а нам надо рассудить исходя из дополнительных данных. Поскольку это может быть собственно "грубая ошибка", и надо исправлять наблюдение, ошибка формирования выборки, из-за чего попало наблюдение от другой модели (некогда в одном экономическом исследовании получили, что рост фондовооружённости, то есть стоимости оборудования на одного рабочего, приводит к снижению производительности труда, измеряемой продукцией на одного рабочего - в выборку приборостроительных заводов попал ювелирный, формально подчинённый Минприбору, а там оборудование молоточек да напильник, а стоимость продукции определяется ценой золота и камней), границы применимости модели или полная неверность модели в целом.
Если "выбросов" нет - можно построить график отклонений от отдельных переменных, стремясь увидеть там зависимость. И если она есть - в модели зависимость от данной переменной специфицирована неверно. Если просто большая дисперсия - возможна "переподгонка", включили избыточно много объясняющих переменных. Если дисперсия переменных меняется с ростом y (тут полезен график квадратов "нормированных отклонений" от зависимой переменной), то надо обдумать спецификацию ошибки, возможно, у неё не то распределение (или мы его изуродовали лихим применением нелинейного преобразования) или различна в разных наблюдениях дисперсия.

prof.uskov · 13.10.2016, 10:14

Евгений Машеров в сообщении #1159372 писал(а):

Ну, для каждой точки "скользящего экзамена" (аналогично можно и для бутстрэпа, или для простого разбиения на обучающую и экзаменационную подвыборки) можно рассчитать теоретическую дисперсию, исходя из модели. И поделить фактическое отклонение на предсказанное стандартное отклонение. Получим, если всё верно, выборку нормально распределённых величин с нулевым матожиданием и единичной дисперсией. И проверим, так ли это. Матожидание, скорее всего, будет нулевым, а вот дисперсия может и отличаться. Если значимо выше - что-то с моделью не так (и если матожидание ненулевое - тоже что-то не так). Затем надо смотреть по точкам - нет ли выбросов. Их интепретация в рамках только статистики невозможна, статистика лишь донос доносит на злодея, а нам надо рассудить исходя из дополнительных данных. Поскольку это может быть собственно "грубая ошибка", и надо исправлять наблюдение, ошибка формирования выборки, из-за чего попало наблюдение от другой модели (некогда в одном экономическом исследовании получили, что рост фондовооружённости, то есть стоимости оборудования на одного рабочего, приводит к снижению производительности труда, измеряемой продукцией на одного рабочего - в выборку приборостроительных заводов попал ювелирный, формально подчинённый Минприбору, а там оборудование молоточек да напильник, а стоимость продукции определяется ценой золота и камней), границы применимости модели или полная неверность модели в целом.
Если "выбросов" нет - можно построить график отклонений от отдельных переменных, стремясь увидеть там зависимость. И если она есть - в модели зависимость от данной переменной специфицирована неверно. Если просто большая дисперсия - возможна "переподгонка", включили избыточно много объясняющих переменных. Если дисперсия переменных меняется с ростом y (тут полезен график квадратов "нормированных отклонений" от зависимой переменной), то надо обдумать спецификацию ошибки, возможно, у неё не то распределение (или мы его изуродовали лихим применением нелинейного преобразования) или различна в разных наблюдениях дисперсия.

Предположим, все предпосылки регрессионного анализа выполняются, распределение аддитивной помехи - нормальное. Получены точки методом скользящего экзамена. Какое распределение имеют отклонения в этих точках , нормальное? Рассчитали дисперсию отклонений (остатков) на тестирующей выборке (например, скользящий экзамен), еще одну дисперсию отклонений на обучающих точках - остаточною дисперсию на тестирующей выборке. Что можно сказать об соотношении этих дисперсиях? Матожидание остаточной дисперсии на тестирующей выборке - это дисперсия воспроизводимости - как доказывается в теории. А остаточная дисперсия на тестирующих точках? Можно ли сравнить две эти дисперсии? Если равны, то модель адекватна? Применять критерий Фишера?

-- 13.10.2016, 11:15 --

Поясните, пожалуйста, что такое "бутстрэп"?

Евгений Машеров · 13.10.2016, 10:27

Ну, вот про бутстрэп http://www.twirpx.com/file/116434/
Есть и ещё публикации, но эта на русском.

prof.uskov · 13.10.2016, 10:37

Евгений Машеров в сообщении #1159377 писал(а):

Ну, вот про бутстрэп http://www.twirpx.com/file/116434/
Есть и ещё публикации, но эта на русском.

Спасибо, посмотрю

Евгений Машеров · 13.10.2016, 11:17

Ну, вот у нас есть оценка ошибки прогноза в точке x $\sigma^2(\varepsilon)=\sigma^2(1+x(X^TX)^{-1}x^T)$
В технике скользящего экзамена, рассматривая экзаменационную точку, как такую, для которой получен прогноз, и можно найти фактическую ошибку прогноза и сравнить с оценкой дисперсии прогноза, скажем, поделив на ожидаемое СКО прогноза. А затем смотреть на полученные величины.

prof.uskov · 13.10.2016, 11:31

Евгений Машеров в сообщении #1159384 писал(а):

Ну, вот у нас есть оценка ошибки прогноза в точке x $\sigma^2(\varepsilon)=\sigma^2(1+x(X^TX)^{-1}x^T)$
В технике скользящего экзамена, рассматривая экзаменационную точку, как такую, для которой получен прогноз, и можно найти фактическую ошибку прогноза и сравнить с оценкой дисперсии прогноза, скажем, поделив на ожидаемое СКО прогноза. А затем смотреть на полученные величины.

Посмотреть это хорошо. И еще проверить статистическую гипотезу. :)

Научный форум dxdy

Проверка адекватности регрессионной модели