Доверительные интервалы для параметров линейной регрессии

delui2007 · 20.12.2007, 13:50

Здравствуйте

Я перерыл очень много литературы, но не могу понять сам смысл доверительного интервала для параметра линейной регрессии.

Пусть есть набор иксов (N штук), и игреки вычисляются по следующему правилу:
y=a0+a1x1+a2x2+ошибка
прчем ошибка имеет нормальное распределение с нулевым мат ожиданием

Что, например, означает фраза "Построен 95-% доверит интервал для параметра а1"
В частности посчитать такой доверительный интервал можно в Matlab функцией confint

Считается он там через распределдение Стьюдента. То есть результат еще зависит и от числа испытаний.

Мне не понятен сам смысл того что же это такое?
Я понимаю, что такое доверительный интервал для среднего выборочного произвольной нормально-распределнной выборки, но для параметра регрессии не понимаю...(((

Подскажите пожалуйста

Заранее спасибо!!!

Михаиль · 20.12.2007, 14:05

решается в Excel при встроеной функции из Add-Ins
Data analisys и там Regression или в СПСС
95% доверительный интервал означает что с вероятностью 0,95 настоящий (истинный) параметр будет находится в этом интервале интервал стороиться: оценка параметра + - стандартное отклонение на епсилон
литература: Магнус Введение в эконометрику

delui2007 · 20.12.2007, 14:10

решать мне ничего не нужно.

мне вот непонятно, что означает эта фраза.
Вот нашли мы параметры регрессии по МНК, и интервал нашли. Но что значят эти 95 процентов именно для параметра линейной регрессии? что будет, если мы выйдем за пределы интервала?

Михаиль · 20.12.2007, 14:20

допустим проверяя гипотезу, что параметр а1 равняется нулю при уровне значимости (альфа 0,05) мы смотрим на 95% интервал и если ноль входит в этот интервал (например интервалы [-0,001;10] или [-2;6,5]) то гипотезу Н0 что а1=0 не отклоняем
а при уровне значимости (альфа 0,01) мы смотрим на 99% доверительный интервал и получим с теме же даными [0,001;8] и [-0,1;5] соответственно тогдда Н0 уже в случае с первым интервалом будет оклонена.

суть линейной регресии такова что есть данные регресора х и результатов у и мы их хотим связать линейно, по-настоящему процесс может описываться более сложной ситуацией, то мы находим более легкий способ интерпритации, какой из регресоров важнее (несет более сильную нагрузку)

интерпретировать в контексте задания лучше будет понятен

Mikhail Sokolov · 20.12.2007, 14:21

delui2007
Вам же все написали.
С помощью МНК вы нашли лишь оценку $\hat a_1$ для истинного значения параметра $a_1$ , которая не обязана совпадать с $a_1$ . А построенный доверительный интервал с вероятностью 95% содержит число $a_1$ .

PAV · 20.12.2007, 14:23

Наглядно можно себе представить так: если 100 человек получат независимые выборки и построят 95%-ные интервалы, то в среднем у 95 из них эти интервалы накроют истинное значение параметра, а у 5 - не накроют.

Нужно помнить, что значение параметра не является случайной величиной. Это фиксированная, хотя и неизвестная наблюдателю величина. Случаен сам интервал, это функция от выборки.

delui2007 · 20.12.2007, 15:00

Mikhail Sokolov
по мнк мы нашли оценку, и она не совпадает с точным значением - это понятно.
но ведь для заданного набора иксов и игреков мы получим всего один 95% доверительный интервал. ведь так?

а то что говорит PAV я понимаю....я тока понять не могу как это присобачить к линейной регрессии((

P.S я понимаю, что туплю)но помогите пожалуйста

PAV · 20.12.2007, 15:24

Доверительный интервал помогает понять, насколько сильно может отклоняться полученная точечная оценка от истинного значения параметра. Допустим, оценка получилась $\widehat a_1=0.1$ . Если при этом радиус доверительного интервала равен 0.05 - это одно. А если он равен 0.5 - это другое. В частности, в первом случае мы относительно надежно можем утверждать, что коэффициент $a_1$ больше нуля. Во втором случае мы этого надежно утверждать не можем.

delui2007 · 20.12.2007, 16:23

PAV
а как теперь сюда прикрутить проценты?
[/math][/list][/list][/code]

Добавлено спустя 52 минуты 53 секунды:

Ну вот что здесь можно взять 100 раз, что в 95 случаях реальное значение будет в интервале??

Ведь для одного набора иксов и игреков мы получаем всего одну мнк-оценку каждого неизвестного параметра. На основе этой оценки строим доверительный интервал. То есть этот интервал для каждого параметра тоже один. Тогда откуда берутся эти проценты??

PAV · 20.12.2007, 16:29

Никак не прикрутить. Испытание действительно проводится один раз всего, это правда. Вопрос о том, какой уровень при этом взять (95%, 99%, 99.9%) - это субъективный вопрос, зависящий от цены ошибки. Точного ответа на него нет. Это исследователь выбирает самостоятельно и произвольно. "Считается", что для не сильно критичных к ошибке задач 95% - это "нормально".

delui2007 · 20.12.2007, 16:46

PAV
а в чем же тогда смысл фразы "скольки-то там процентный доверительный интервал?"

в зависимости от количества процентов я получу разные по ширине интервалы, причем чем меньше процентов, тем более узкий будет интервал. Ведь так?

Я все равно понять не могу зачем нужны интервалы.

Даже если рассуждать:
рассматриваем случай у=аx+b
1) есть набор Х и У (с ошибками), пусть в X и Y по N=100 значений
2) строим облако точек
3) через это облако можно провести бесконечно много прямых, но наиболее оптимальную дает МНК (однако это не реальная прямая)
4) построили интервалы для параметров a и b
5) известно, что реальное значение этих параметров с какой-то там вероятностью лежит в этих интервалах
6) и что с этим делать?

7) и ведь чем больше N тем уже интервал?

PAV · 20.12.2007, 17:18

Я же уже приводил пример, зачем нужны интервалы. Допустим, Вы решаете задачу о наличии между иксами и игреками положительной корреляции. Точечная оценка коэффициента линейной регрессии оказалась равной $0.1$
Можете Вы по этому числу сказать - есть ли корреляция или нет? Без доверительного интервала это невозможно сделать.

Добавлено спустя 2 минуты 22 секунды:

Есть разные задачи. В некоторых требуется получить число (точечную оценку). В этом случае величина доверительного интервала помогает понять, насколько она точна. В других задачах может требоваться получить именно достаточно надежный доверительный интервал.

delui2007 · 20.12.2007, 18:24

понятно... но а о чем мне говорит цифра 95% именно в случае линейной регрессии?

Yuri Gendelman · 20.12.2007, 18:41

delui2007 писал(а):

5) известно, что реальное значение этих параметров с какой-то там вероятностью лежит в этих интервалах
6) и что с этим делать?

Представьте, что Вы - Георг Ом и открываете закон имени себя. Для того, чтобы найти значение сопротивления, Вам достаточно знать параметр регрессии R в законе $U = R I$ . Но ведь сначала Вы должны проверить правильность самого закона. А для этого Вам нужно вычислить доверительный интервал и убедиться, что он достаточно мал по сравнению с сопротивлением.

delui2007 писал(а):

7) и ведь чем больше N тем уже интервал?

Это верно при оценке мат.ожидания некоторой с.в. А при оценке параметров линейной регрессии интервал тем уже, чем больше Ваше облако похоже на прямую.

delui2007 писал(а):

...а о чем мне говорит цифра 95% именно в случае линейной регрессии?

Параметры регрессии - это нормально .распредеделенные случайные величины, характеризуемые мат.ожиданием и дисперсией. Мат.ожидание - это вычисленное значение. Доверительный интервал на заданном уровне доверия (здесь 95%) - это просто более наглядная форма задания дисперсии. Для н.р.с.в. по любым 2 из 3 значений (дисперсия, ур.доверия, дов.интервал) однозначно вычисляется 3-е.
Т.е. сама по себе - ни о чем. А вместе с дов.интервалом - о дисперсии. ЕМНИС, полуширина дов.интервала на уровне 0.95 примерно равна $2 \sigma$ .

delui2007 · 20.12.2007, 20:04

Yuri Gendelman
я не могу понять почему параметры регрессии - это случайные величины? Это ведь просто константы.. Тем более не понимаю почему они нормально распределены

Научный форум dxdy

Доверительные интервалы для параметров линейной регрессии