Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 Доверительные интервалы для параметров линейной регрессии
Здравствуйте

Я перерыл очень много литературы, но не могу понять сам смысл доверительного интервала для параметра линейной регрессии.

Пусть есть набор иксов (N штук), и игреки вычисляются по следующему правилу:
y=a0+a1x1+a2x2+ошибка
прчем ошибка имеет нормальное распределение с нулевым мат ожиданием

Что, например, означает фраза "Построен 95-% доверит интервал для параметра а1"
В частности посчитать такой доверительный интервал можно в Matlab функцией confint

Считается он там через распределдение Стьюдента. То есть результат еще зависит и от числа испытаний.

Мне не понятен сам смысл того что же это такое?
Я понимаю, что такое доверительный интервал для среднего выборочного произвольной нормально-распределнной выборки, но для параметра регрессии не понимаю...(((

Подскажите пожалуйста

Заранее спасибо!!!

 
решается в Excel при встроеной функции из Add-Ins
Data analisys и там Regression или в СПСС
95% доверительный интервал означает что с вероятностью 0,95 настоящий (истинный) параметр будет находится в этом интервале интервал стороиться: оценка параметра + - стандартное отклонение на епсилон
литература: Магнус Введение в эконометрику

 
решать мне ничего не нужно.

мне вот непонятно, что означает эта фраза.
Вот нашли мы параметры регрессии по МНК, и интервал нашли. Но что значят эти 95 процентов именно для параметра линейной регрессии? что будет, если мы выйдем за пределы интервала?

 
допустим проверяя гипотезу, что параметр а1 равняется нулю при уровне значимости (альфа 0,05) мы смотрим на 95% интервал и если ноль входит в этот интервал (например интервалы [-0,001;10] или [-2;6,5]) то гипотезу Н0 что а1=0 не отклоняем
а при уровне значимости (альфа 0,01) мы смотрим на 99% доверительный интервал и получим с теме же даными [0,001;8] и [-0,1;5] соответственно тогдда Н0 уже в случае с первым интервалом будет оклонена.

суть линейной регресии такова что есть данные регресора х и результатов у и мы их хотим связать линейно, по-настоящему процесс может описываться более сложной ситуацией, то мы находим более легкий способ интерпритации, какой из регресоров важнее (несет более сильную нагрузку)

интерпретировать в контексте задания лучше будет понятен

 
delui2007
Вам же все написали.
С помощью МНК вы нашли лишь оценку $\hat a_1$ для истинного значения параметра $a_1$, которая не обязана совпадать с $a_1$. А построенный доверительный интервал с вероятностью 95% содержит число $a_1$.

 
Аватара пользователя
Наглядно можно себе представить так: если 100 человек получат независимые выборки и построят 95%-ные интервалы, то в среднем у 95 из них эти интервалы накроют истинное значение параметра, а у 5 - не накроют.

Нужно помнить, что значение параметра не является случайной величиной. Это фиксированная, хотя и неизвестная наблюдателю величина. Случаен сам интервал, это функция от выборки.

 
Mikhail Sokolov
по мнк мы нашли оценку, и она не совпадает с точным значением - это понятно.
но ведь для заданного набора иксов и игреков мы получим всего один 95% доверительный интервал. ведь так?

а то что говорит PAV я понимаю....я тока понять не могу как это присобачить к линейной регрессии((

P.S я понимаю, что туплю)но помогите пожалуйста

 
Аватара пользователя
Доверительный интервал помогает понять, насколько сильно может отклоняться полученная точечная оценка от истинного значения параметра. Допустим, оценка получилась $\widehat a_1=0.1$. Если при этом радиус доверительного интервала равен 0.05 - это одно. А если он равен 0.5 - это другое. В частности, в первом случае мы относительно надежно можем утверждать, что коэффициент $a_1$ больше нуля. Во втором случае мы этого надежно утверждать не можем.

 
PAV
а как теперь сюда прикрутить проценты?
[/math][/list][/list][/code]

Добавлено спустя 52 минуты 53 секунды:

Ну вот что здесь можно взять 100 раз, что в 95 случаях реальное значение будет в интервале??

Ведь для одного набора иксов и игреков мы получаем всего одну мнк-оценку каждого неизвестного параметра. На основе этой оценки строим доверительный интервал. То есть этот интервал для каждого параметра тоже один. Тогда откуда берутся эти проценты??

 
Аватара пользователя
Никак не прикрутить. Испытание действительно проводится один раз всего, это правда. Вопрос о том, какой уровень при этом взять (95%, 99%, 99.9%) - это субъективный вопрос, зависящий от цены ошибки. Точного ответа на него нет. Это исследователь выбирает самостоятельно и произвольно. "Считается", что для не сильно критичных к ошибке задач 95% - это "нормально".

 
PAV
а в чем же тогда смысл фразы "скольки-то там процентный доверительный интервал?" :)
в зависимости от количества процентов я получу разные по ширине интервалы, причем чем меньше процентов, тем более узкий будет интервал. Ведь так?

Я все равно понять не могу зачем нужны интервалы.

Даже если рассуждать:
рассматриваем случай у=аx+b
1) есть набор Х и У (с ошибками), пусть в X и Y по N=100 значений
2) строим облако точек
3) через это облако можно провести бесконечно много прямых, но наиболее оптимальную дает МНК (однако это не реальная прямая)
4) построили интервалы для параметров a и b
5) известно, что реальное значение этих параметров с какой-то там вероятностью лежит в этих интервалах
6) и что с этим делать?

7) и ведь чем больше N тем уже интервал?

 
Аватара пользователя
Я же уже приводил пример, зачем нужны интервалы. Допустим, Вы решаете задачу о наличии между иксами и игреками положительной корреляции. Точечная оценка коэффициента линейной регрессии оказалась равной $0.1$
Можете Вы по этому числу сказать - есть ли корреляция или нет? Без доверительного интервала это невозможно сделать.

Добавлено спустя 2 минуты 22 секунды:

Есть разные задачи. В некоторых требуется получить число (точечную оценку). В этом случае величина доверительного интервала помогает понять, насколько она точна. В других задачах может требоваться получить именно достаточно надежный доверительный интервал.

 
понятно... но а о чем мне говорит цифра 95% именно в случае линейной регрессии?

 
delui2007 писал(а):
5) известно, что реальное значение этих параметров с какой-то там вероятностью лежит в этих интервалах
6) и что с этим делать?
Представьте, что Вы - Георг Ом и открываете закон имени себя. Для того, чтобы найти значение сопротивления, Вам достаточно знать параметр регрессии R в законе $U = R I$. Но ведь сначала Вы должны проверить правильность самого закона. А для этого Вам нужно вычислить доверительный интервал и убедиться, что он достаточно мал по сравнению с сопротивлением.

delui2007 писал(а):
7) и ведь чем больше N тем уже интервал?
Это верно при оценке мат.ожидания некоторой с.в. А при оценке параметров линейной регрессии интервал тем уже, чем больше Ваше облако похоже на прямую.

delui2007 писал(а):
...а о чем мне говорит цифра 95% именно в случае линейной регрессии?
Параметры регрессии - это нормально .распредеделенные случайные величины, характеризуемые мат.ожиданием и дисперсией. Мат.ожидание - это вычисленное значение. Доверительный интервал на заданном уровне доверия (здесь 95%) - это просто более наглядная форма задания дисперсии. Для н.р.с.в. по любым 2 из 3 значений (дисперсия, ур.доверия, дов.интервал) однозначно вычисляется 3-е.
Т.е. сама по себе - ни о чем. А вместе с дов.интервалом - о дисперсии. ЕМНИС, полуширина дов.интервала на уровне 0.95 примерно равна $2 \sigma$ .

 
Yuri Gendelman
я не могу понять почему параметры регрессии - это случайные величины? Это ведь просто константы.. Тем более не понимаю почему они нормально распределены

 [ Сообщений: 23 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group