2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Доверительные интервалы для параметров линейной регрессии
Сообщение20.12.2007, 13:50 
Здравствуйте

Я перерыл очень много литературы, но не могу понять сам смысл доверительного интервала для параметра линейной регрессии.

Пусть есть набор иксов (N штук), и игреки вычисляются по следующему правилу:
y=a0+a1x1+a2x2+ошибка
прчем ошибка имеет нормальное распределение с нулевым мат ожиданием

Что, например, означает фраза "Построен 95-% доверит интервал для параметра а1"
В частности посчитать такой доверительный интервал можно в Matlab функцией confint

Считается он там через распределдение Стьюдента. То есть результат еще зависит и от числа испытаний.

Мне не понятен сам смысл того что же это такое?
Я понимаю, что такое доверительный интервал для среднего выборочного произвольной нормально-распределнной выборки, но для параметра регрессии не понимаю...(((

Подскажите пожалуйста

Заранее спасибо!!!

 
 
 
 
Сообщение20.12.2007, 14:05 
решается в Excel при встроеной функции из Add-Ins
Data analisys и там Regression или в СПСС
95% доверительный интервал означает что с вероятностью 0,95 настоящий (истинный) параметр будет находится в этом интервале интервал стороиться: оценка параметра + - стандартное отклонение на епсилон
литература: Магнус Введение в эконометрику

 
 
 
 
Сообщение20.12.2007, 14:10 
решать мне ничего не нужно.

мне вот непонятно, что означает эта фраза.
Вот нашли мы параметры регрессии по МНК, и интервал нашли. Но что значят эти 95 процентов именно для параметра линейной регрессии? что будет, если мы выйдем за пределы интервала?

 
 
 
 
Сообщение20.12.2007, 14:20 
допустим проверяя гипотезу, что параметр а1 равняется нулю при уровне значимости (альфа 0,05) мы смотрим на 95% интервал и если ноль входит в этот интервал (например интервалы [-0,001;10] или [-2;6,5]) то гипотезу Н0 что а1=0 не отклоняем
а при уровне значимости (альфа 0,01) мы смотрим на 99% доверительный интервал и получим с теме же даными [0,001;8] и [-0,1;5] соответственно тогдда Н0 уже в случае с первым интервалом будет оклонена.

суть линейной регресии такова что есть данные регресора х и результатов у и мы их хотим связать линейно, по-настоящему процесс может описываться более сложной ситуацией, то мы находим более легкий способ интерпритации, какой из регресоров важнее (несет более сильную нагрузку)

интерпретировать в контексте задания лучше будет понятен

 
 
 
 
Сообщение20.12.2007, 14:21 
delui2007
Вам же все написали.
С помощью МНК вы нашли лишь оценку $\hat a_1$ для истинного значения параметра $a_1$, которая не обязана совпадать с $a_1$. А построенный доверительный интервал с вероятностью 95% содержит число $a_1$.

 
 
 
 
Сообщение20.12.2007, 14:23 
Аватара пользователя
Наглядно можно себе представить так: если 100 человек получат независимые выборки и построят 95%-ные интервалы, то в среднем у 95 из них эти интервалы накроют истинное значение параметра, а у 5 - не накроют.

Нужно помнить, что значение параметра не является случайной величиной. Это фиксированная, хотя и неизвестная наблюдателю величина. Случаен сам интервал, это функция от выборки.

 
 
 
 
Сообщение20.12.2007, 15:00 
Mikhail Sokolov
по мнк мы нашли оценку, и она не совпадает с точным значением - это понятно.
но ведь для заданного набора иксов и игреков мы получим всего один 95% доверительный интервал. ведь так?

а то что говорит PAV я понимаю....я тока понять не могу как это присобачить к линейной регрессии((

P.S я понимаю, что туплю)но помогите пожалуйста

 
 
 
 
Сообщение20.12.2007, 15:24 
Аватара пользователя
Доверительный интервал помогает понять, насколько сильно может отклоняться полученная точечная оценка от истинного значения параметра. Допустим, оценка получилась $\widehat a_1=0.1$. Если при этом радиус доверительного интервала равен 0.05 - это одно. А если он равен 0.5 - это другое. В частности, в первом случае мы относительно надежно можем утверждать, что коэффициент $a_1$ больше нуля. Во втором случае мы этого надежно утверждать не можем.

 
 
 
 
Сообщение20.12.2007, 16:23 
PAV
а как теперь сюда прикрутить проценты?
[/math][/list][/list][/code]

Добавлено спустя 52 минуты 53 секунды:

Ну вот что здесь можно взять 100 раз, что в 95 случаях реальное значение будет в интервале??

Ведь для одного набора иксов и игреков мы получаем всего одну мнк-оценку каждого неизвестного параметра. На основе этой оценки строим доверительный интервал. То есть этот интервал для каждого параметра тоже один. Тогда откуда берутся эти проценты??

 
 
 
 
Сообщение20.12.2007, 16:29 
Аватара пользователя
Никак не прикрутить. Испытание действительно проводится один раз всего, это правда. Вопрос о том, какой уровень при этом взять (95%, 99%, 99.9%) - это субъективный вопрос, зависящий от цены ошибки. Точного ответа на него нет. Это исследователь выбирает самостоятельно и произвольно. "Считается", что для не сильно критичных к ошибке задач 95% - это "нормально".

 
 
 
 
Сообщение20.12.2007, 16:46 
PAV
а в чем же тогда смысл фразы "скольки-то там процентный доверительный интервал?" :)
в зависимости от количества процентов я получу разные по ширине интервалы, причем чем меньше процентов, тем более узкий будет интервал. Ведь так?

Я все равно понять не могу зачем нужны интервалы.

Даже если рассуждать:
рассматриваем случай у=аx+b
1) есть набор Х и У (с ошибками), пусть в X и Y по N=100 значений
2) строим облако точек
3) через это облако можно провести бесконечно много прямых, но наиболее оптимальную дает МНК (однако это не реальная прямая)
4) построили интервалы для параметров a и b
5) известно, что реальное значение этих параметров с какой-то там вероятностью лежит в этих интервалах
6) и что с этим делать?

7) и ведь чем больше N тем уже интервал?

 
 
 
 
Сообщение20.12.2007, 17:18 
Аватара пользователя
Я же уже приводил пример, зачем нужны интервалы. Допустим, Вы решаете задачу о наличии между иксами и игреками положительной корреляции. Точечная оценка коэффициента линейной регрессии оказалась равной $0.1$
Можете Вы по этому числу сказать - есть ли корреляция или нет? Без доверительного интервала это невозможно сделать.

Добавлено спустя 2 минуты 22 секунды:

Есть разные задачи. В некоторых требуется получить число (точечную оценку). В этом случае величина доверительного интервала помогает понять, насколько она точна. В других задачах может требоваться получить именно достаточно надежный доверительный интервал.

 
 
 
 
Сообщение20.12.2007, 18:24 
понятно... но а о чем мне говорит цифра 95% именно в случае линейной регрессии?

 
 
 
 
Сообщение20.12.2007, 18:41 
delui2007 писал(а):
5) известно, что реальное значение этих параметров с какой-то там вероятностью лежит в этих интервалах
6) и что с этим делать?
Представьте, что Вы - Георг Ом и открываете закон имени себя. Для того, чтобы найти значение сопротивления, Вам достаточно знать параметр регрессии R в законе $U = R I$. Но ведь сначала Вы должны проверить правильность самого закона. А для этого Вам нужно вычислить доверительный интервал и убедиться, что он достаточно мал по сравнению с сопротивлением.

delui2007 писал(а):
7) и ведь чем больше N тем уже интервал?
Это верно при оценке мат.ожидания некоторой с.в. А при оценке параметров линейной регрессии интервал тем уже, чем больше Ваше облако похоже на прямую.

delui2007 писал(а):
...а о чем мне говорит цифра 95% именно в случае линейной регрессии?
Параметры регрессии - это нормально .распредеделенные случайные величины, характеризуемые мат.ожиданием и дисперсией. Мат.ожидание - это вычисленное значение. Доверительный интервал на заданном уровне доверия (здесь 95%) - это просто более наглядная форма задания дисперсии. Для н.р.с.в. по любым 2 из 3 значений (дисперсия, ур.доверия, дов.интервал) однозначно вычисляется 3-е.
Т.е. сама по себе - ни о чем. А вместе с дов.интервалом - о дисперсии. ЕМНИС, полуширина дов.интервала на уровне 0.95 примерно равна $2 \sigma$ .

 
 
 
 
Сообщение20.12.2007, 20:04 
Yuri Gendelman
я не могу понять почему параметры регрессии - это случайные величины? Это ведь просто константы.. Тем более не понимаю почему они нормально распределены

 
 
 [ Сообщений: 23 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group