2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Проверка адекватности регрессионной модели
Сообщение12.10.2016, 20:25 
Аватара пользователя


12/01/14
1127
По рекомендации GAA еще одна тема про регрессионные модели.
Интересует вопрос проверки адекватности.
Предположим выполняются все предпосылки регрессионного анализа, кроме одной - соответствия модели с точностью до параметров истинной зависимости, данная предпосылка подлежит проверке.
Распределение аддитивной помехи для начала возьмем нормальное.

Классикой при нормальном распределении является метод сравнение двух дисперсий с помощью критерия Фишера: остаточной дисперсии и дисперсии воспроизводимости, полученной на основе параллельных опытов.
Дальше во многих руководствах пишут, что есть и другие методы....

В частности, на ум приходит разделение выборки на обучающую и тестирующую, с последующими различными манипуляция с этими выборками, вычислением различных дисперсий и ошибок.
Но как статистически проверить гипотезу адекватности?

Может кто-нибудь четко перечислить известные методы поверки гипотезы об адекватности регрессионных моделей?

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение12.10.2016, 20:39 
Заслуженный участник


12/07/07
4530
1. Я не встречал в литературе «гипотезы адекватности». Сформулируйте модель и «гипотезу адекватности», пожалуйста. («С формулами».)
2. И понятие «параллельные опыты», тоже бы сформулировать.
3. Насколько мне известно, есть несколько критериев, в которых используется распределение Фишера. Пожалуйста, сформулируйте критерий, о котором Вы пишете.

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение12.10.2016, 20:59 
Аватара пользователя


12/01/14
1127
GAA в сообщении #1159289 писал(а):
1. Я не встречал в литературе «гипотезы адекватности». Сформулируйте модель и «гипотезу адекватности», пожалуйста. («С формулами».)
2. И понятие «параллельные опыты», тоже бы сформулировать.
3. Насколько мне известно, есть несколько критериев, в которых используется распределение Фишера. Пожалуйста, сформулируйте критерий, о котором Вы пишете.

Для линейной регрессии проверка адекватности - это проверка линейности.
Общеизвестный критерий - это сравниваются между собой две оценки дисперсии аддитивной помехи: остаточная дисперсия и дисперсия воспроизводимости, полученная на основе параллельных опытов.
Это все как бы из литературы, смысл повторяться?

-- 12.10.2016, 22:04 --

Термин "проверка адекватности", по всей видимости, больше из теории планирования эксперимента.
Например:
Планирование эксперимента в исследование технологических процессов / Под. ред. Лецкого, 1977.
Статистические методы в инженерных исследованиях / Под. ред. Круга, 1983.
Все это классика.

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение12.10.2016, 21:33 
Заслуженный участник


12/07/07
4530
У нас с Вами очень разные представления о классических учебниках математической статистики. И так мы будем бесконечно разговаривать, пока один из модераторов не применит какие-либо санкции (это все-таки учебный раздел, а не болталка). Я подожду четкой формулировки задачи. Тогда может ссылками и помогу.

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение12.10.2016, 22:05 
Аватара пользователя


12/01/14
1127
GAA в сообщении #1159304 писал(а):
У нас с Вами очень разные представления о классических учебниках математической статистики. И так мы будем бесконечно разговаривать, пока один из модераторов не применит какие-либо санкции (это все-таки учебный раздел, а не болталка). Я подожду четкой формулировки задачи. Тогда может ссылками и помогу.

Может быть я открыл тему не в том разделе...
Но подумайте, как Вы мне можете подсказать методы проверки адекватности регрессионной модели (проверка линейности регрессии - для линейной модели), если Вам даже сам термин неизвестен, а также неизвестен единственный описанный в массовой литературе на русском языке критерий?
См., например, Ферстер, Ренц "Методы корреляционного и регрессионного анализа", стр. 212-213.

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение12.10.2016, 22:15 
Заслуженный участник
Аватара пользователя


11/03/08
9983
Москва
Скользящий экзамен, например. Смотря какого рода несоответствия ожидаем.

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение12.10.2016, 22:33 
Аватара пользователя


12/01/14
1127
Евгений Машеров в сообщении #1159312 писал(а):
Скользящий экзамен, например. Смотря какого рода несоответствия ожидаем.

Да, знаю. Вот получили мы эти точки, посчитали на них дисперсию - по-сути среднеквадратичную ошибку модели, а дальше, что с ней делать? Как проверить адекватна ли наша модель?

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение13.10.2016, 10:01 
Заслуженный участник
Аватара пользователя


11/03/08
9983
Москва
Ну, для каждой точки "скользящего экзамена" (аналогично можно и для бутстрэпа, или для простого разбиения на обучающую и экзаменационную подвыборки) можно рассчитать теоретическую дисперсию, исходя из модели. И поделить фактическое отклонение на предсказанное стандартное отклонение. Получим, если всё верно, выборку нормально распределённых величин с нулевым матожиданием и единичной дисперсией. И проверим, так ли это. Матожидание, скорее всего, будет нулевым, а вот дисперсия может и отличаться. Если значимо выше - что-то с моделью не так (и если матожидание ненулевое - тоже что-то не так). Затем надо смотреть по точкам - нет ли выбросов. Их интепретация в рамках только статистики невозможна, статистика лишь донос доносит на злодея, а нам надо рассудить исходя из дополнительных данных. Поскольку это может быть собственно "грубая ошибка", и надо исправлять наблюдение, ошибка формирования выборки, из-за чего попало наблюдение от другой модели (некогда в одном экономическом исследовании получили, что рост фондовооружённости, то есть стоимости оборудования на одного рабочего, приводит к снижению производительности труда, измеряемой продукцией на одного рабочего - в выборку приборостроительных заводов попал ювелирный, формально подчинённый Минприбору, а там оборудование молоточек да напильник, а стоимость продукции определяется ценой золота и камней), границы применимости модели или полная неверность модели в целом.
Если "выбросов" нет - можно построить график отклонений от отдельных переменных, стремясь увидеть там зависимость. И если она есть - в модели зависимость от данной переменной специфицирована неверно. Если просто большая дисперсия - возможна "переподгонка", включили избыточно много объясняющих переменных. Если дисперсия переменных меняется с ростом y (тут полезен график квадратов "нормированных отклонений" от зависимой переменной), то надо обдумать спецификацию ошибки, возможно, у неё не то распределение (или мы его изуродовали лихим применением нелинейного преобразования) или различна в разных наблюдениях дисперсия.

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение13.10.2016, 10:14 
Аватара пользователя


12/01/14
1127
Евгений Машеров в сообщении #1159372 писал(а):
Ну, для каждой точки "скользящего экзамена" (аналогично можно и для бутстрэпа, или для простого разбиения на обучающую и экзаменационную подвыборки) можно рассчитать теоретическую дисперсию, исходя из модели. И поделить фактическое отклонение на предсказанное стандартное отклонение. Получим, если всё верно, выборку нормально распределённых величин с нулевым матожиданием и единичной дисперсией. И проверим, так ли это. Матожидание, скорее всего, будет нулевым, а вот дисперсия может и отличаться. Если значимо выше - что-то с моделью не так (и если матожидание ненулевое - тоже что-то не так). Затем надо смотреть по точкам - нет ли выбросов. Их интепретация в рамках только статистики невозможна, статистика лишь донос доносит на злодея, а нам надо рассудить исходя из дополнительных данных. Поскольку это может быть собственно "грубая ошибка", и надо исправлять наблюдение, ошибка формирования выборки, из-за чего попало наблюдение от другой модели (некогда в одном экономическом исследовании получили, что рост фондовооружённости, то есть стоимости оборудования на одного рабочего, приводит к снижению производительности труда, измеряемой продукцией на одного рабочего - в выборку приборостроительных заводов попал ювелирный, формально подчинённый Минприбору, а там оборудование молоточек да напильник, а стоимость продукции определяется ценой золота и камней), границы применимости модели или полная неверность модели в целом.
Если "выбросов" нет - можно построить график отклонений от отдельных переменных, стремясь увидеть там зависимость. И если она есть - в модели зависимость от данной переменной специфицирована неверно. Если просто большая дисперсия - возможна "переподгонка", включили избыточно много объясняющих переменных. Если дисперсия переменных меняется с ростом y (тут полезен график квадратов "нормированных отклонений" от зависимой переменной), то надо обдумать спецификацию ошибки, возможно, у неё не то распределение (или мы его изуродовали лихим применением нелинейного преобразования) или различна в разных наблюдениях дисперсия.

Предположим, все предпосылки регрессионного анализа выполняются, распределение аддитивной помехи - нормальное. Получены точки методом скользящего экзамена. Какое распределение имеют отклонения в этих точках , нормальное? Рассчитали дисперсию отклонений (остатков) на тестирующей выборке (например, скользящий экзамен), еще одну дисперсию отклонений на обучающих точках - остаточною дисперсию на тестирующей выборке. Что можно сказать об соотношении этих дисперсиях? Матожидание остаточной дисперсии на тестирующей выборке - это дисперсия воспроизводимости - как доказывается в теории. А остаточная дисперсия на тестирующих точках? Можно ли сравнить две эти дисперсии? Если равны, то модель адекватна? Применять критерий Фишера?

-- 13.10.2016, 11:15 --

Поясните, пожалуйста, что такое "бутстрэп"?

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение13.10.2016, 10:27 
Заслуженный участник
Аватара пользователя


11/03/08
9983
Москва
Ну, вот про бутстрэп http://www.twirpx.com/file/116434/
Есть и ещё публикации, но эта на русском.

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение13.10.2016, 10:37 
Аватара пользователя


12/01/14
1127
Евгений Машеров в сообщении #1159377 писал(а):
Ну, вот про бутстрэп http://www.twirpx.com/file/116434/
Есть и ещё публикации, но эта на русском.

Спасибо, посмотрю

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение13.10.2016, 11:17 
Заслуженный участник
Аватара пользователя


11/03/08
9983
Москва
Ну, вот у нас есть оценка ошибки прогноза в точке x $\sigma^2(\varepsilon)=\sigma^2(1+x(X^TX)^{-1}x^T)$
В технике скользящего экзамена, рассматривая экзаменационную точку, как такую, для которой получен прогноз, и можно найти фактическую ошибку прогноза и сравнить с оценкой дисперсии прогноза, скажем, поделив на ожидаемое СКО прогноза. А затем смотреть на полученные величины.

 Профиль  
                  
 
 Re: Проверка адекватности регрессионной модели
Сообщение13.10.2016, 11:31 
Аватара пользователя


12/01/14
1127
Евгений Машеров в сообщении #1159384 писал(а):
Ну, вот у нас есть оценка ошибки прогноза в точке x $\sigma^2(\varepsilon)=\sigma^2(1+x(X^TX)^{-1}x^T)$
В технике скользящего экзамена, рассматривая экзаменационную точку, как такую, для которой получен прогноз, и можно найти фактическую ошибку прогноза и сравнить с оценкой дисперсии прогноза, скажем, поделив на ожидаемое СКО прогноза. А затем смотреть на полученные величины.

Посмотреть это хорошо. И еще проверить статистическую гипотезу. :)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 13 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group