2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Оценка погрешности коэффициентов параболической регрессии
Сообщение15.03.2022, 23:28 


24/07/21
75
Москва
Есть набор экспериментальных точек. По МНК находятся коэффициенты параболы $y=ax^2+bx+c$, описывающей данную зависимость.
Во-первых, как будет точнее назвать то уравнение, которое мы нашли - регрессия или аппроксимация?
Во-вторых как оценить погрешность коэффициентов $a,b,c$?
Если для линейной зависимости эти формулы есть много где
$$S_y^2=\frac{\sum_{i=1}^n (y_i-ax_i-b)^2}{n-m-1}$$
$$S_a^2=S_y^2\frac{\sum_{i=1}^n x^2}{n^2 \sigma_x^2}$$
$$S_b^2=S_y^2\frac{1}{n\sigma_x^2}$$
То для параболы нигде не могу найти
Куда копать?

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение16.03.2022, 08:37 
Заслуженный участник
Аватара пользователя


11/03/08
10033
Москва
Я бы воспользовался общим выражением для регрессии $y=Xa+\varepsilon$
$\sigma^2(a)=\sigma^2(X^TX)^{-1}$
Где $\sigma^2(a)$ -дисперсия оценок коэффициентов (вернее, дисперсия по диагонали матрицы, а внедиагональные - ковариации оценок), а $\sigma^2$ это оценка дисперсии возмущающего фактора.

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение16.03.2022, 15:42 


24/07/21
75
Москва
Евгений Машеров в сообщении #1550538 писал(а):
Я бы воспользовался общим выражением для регрессии $y=Xa+\varepsilon$

Я так понимаю, X - матрица базисных функций, a - вектор коэффициентов, y - вектор значений, а $\varepsilon$ - вектор остатков?

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение16.03.2022, 17:46 
Заслуженный участник
Аватара пользователя


11/03/08
10033
Москва
Да. Поискал что-то из старых учебников, когда особо выделять полиномиальную регрессию имело смысл - но у них фокус на расчётах, причём вручную, а не на оценке погрешностей коэффициентов.

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение16.03.2022, 18:00 
Заслуженный участник


18/09/21
1766
apt в сообщении #1550525 писал(а):
Во-вторых как оценить погрешность коэффициентов $a,b,c$?
Сделайте самостоятельно.
Оценка коэффициента - это случайная величина. Посчитайте (или приближенно оцените) дисперсию этой случайной величины.
Ещё не мешало бы на матожидание посмотреть. В пределе большой выборки оно должно сходится к точному значению. Но для конечной выборки вполне может оказатся сдвинутым (что тоже даёт вклад в погрешность).

(В учебнике должен быть вывод погрешности для линейной регрессии. Попробуте его адаптировать для квадратичной.)

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение16.03.2022, 18:08 


24/07/21
75
Москва
Евгений Машеров в сообщении #1550538 писал(а):
$\sigma^2$ это оценка дисперсии возмущающего фактора.

А у нас не получается так, что дисперии оценок коэффициентов зависят только от x?
Если, опять же, я правильно понял, что
$$\sigma^2=\frac{\sum_i^N (x-\bar{x})^2}{N}$$
Как-то это странно

zykov в сообщении #1550576 писал(а):
Оценка коэффициента - это случайная величина. Посчитайте (или приближенно оцените) дисперсию этой случайной величины.

У меня на выходе после МНК - одно значение для каждого коэффициента. Как?
zykov в сообщении #1550576 писал(а):
(В учебнике должен быть вывод погрешности для линейной регрессии. Попробуте его адаптировать для квадратичной.)


О каком учебнике речь?

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение16.03.2022, 21:06 
Заслуженный участник
Аватара пользователя


11/03/08
10033
Москва
apt в сообщении #1550578 писал(а):
Если, опять же, я правильно понял, что


Неправильно. Это оценка дисперсии эпсилона.

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение16.03.2022, 21:36 


24/07/21
75
Москва
Евгений Машеров в сообщении #1550592 писал(а):
Неправильно. Это оценка дисперсии эпсилона.

Т.е.
$$\varepsilon_i=y_i-f(x_i)$$
$$\bar{\varepsilon}=\frac{1}{n-1}\sum_{i=1}^{n-1} \varepsilon_i$$
$$\sigma^2=\frac{1}{n-1}\sum_{i=1}^{n-1}(\bar{\varepsilon}-\varepsilon_i)^2$$
n - число узлов (экспериментальных точек)

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение16.03.2022, 22:45 


26/02/22

84
Евгений Машеров в сообщении #1550538 писал(а):
а $\sigma^2$ это оценка дисперсии возмущающего фактора.

Которую надо задать отдельно :-) Т.е. формулы выше бессмысленны?

-- 16.03.2022, 22:51 --

apt
Давайте-ка рассмотрим простую модель. Пусть у нас есть априорное равновероятностное распределение координаты одной точки А на прямой, мы проводим измерение это координаты прибором, который к истинному значению координаты прибавляет нормальную погрешность с дисперсией $\sigma^2$. Сделали два измерения, получили показания $x_1$ и $x_2$. Теперь очевидно, что применяя ММП, какова будет наиболее вероятная оценка для истинной координаты (совпадающая с МНК), но вот ее дисперсия зависит от неизвестного $\sigma^2$, а эту сигму взять неоткуда :x

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение17.03.2022, 06:38 
Заслуженный участник
Аватара пользователя


11/03/08
10033
Москва
Arks в сообщении #1550601 писал(а):
Которую надо задать отдельно :-) Т.е. формулы выше бессмысленны?


Которую оценивают по данным, используя остаток от регрессии.

-- 17 мар 2022, 06:39 --

Arks в сообщении #1550601 писал(а):
Давайте-ка рассмотрим простую модель. Пусть у нас есть априорное равновероятностное распределение координаты одной точки А на прямой, мы проводим измерение это координаты прибором, который к истинному значению координаты прибавляет нормальную погрешность с дисперсией $\sigma^2$. Сделали два измерения, получили показания $x_1$ и $x_2$. Теперь очевидно, что применяя ММП, какова будет наиболее вероятная оценка для истинной координаты (совпадающая с МНК), но вот ее дисперсия зависит от неизвестного $\sigma^2$, а эту сигму взять неоткуда :x


А какое отношение данная модель имеет к обсуждаемой задаче?

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение17.03.2022, 06:54 
Аватара пользователя


21/01/09
3929
Дивногорск
apt в сообщении #1550525 писал(а):
Во-первых, как будет точнее назвать то уравнение, которое мы нашли - регрессия или аппроксимация?

Аппроксимация это приближение исходных значений к аппроксимирующей функции регрессии.

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение17.03.2022, 08:16 
Заслуженный участник
Аватара пользователя


11/03/08
10033
Москва
apt в сообщении #1550595 писал(а):
Евгений Машеров в сообщении #1550592 писал(а):
Неправильно. Это оценка дисперсии эпсилона.

Т.е.
$$\varepsilon_i=y_i-f(x_i)$$
$$\bar{\varepsilon}=\frac{1}{n-1}\sum_{i=1}^{n-1} \varepsilon_i$$
$$\sigma^2=\frac{1}{n-1}\sum_{i=1}^{n-1}(\bar{\varepsilon}-\varepsilon_i)^2$$
n - число узлов (экспериментальных точек)


"Тепло"!
Только делить при расчёте сигмы надо не на $n-1$, а на $n-m$, где m - число параметров (проще всего это объяснить геометрически, случайность оценок данной модели проистекает из случайности эпсилонов, n штук $\varepsilon_i$ задают точку в n-мерном пространстве, а m параметров плоскость размерностью m, именно плоскость, несмотря на квадратичный и вообще любые нелинейные члены - поскольку модель линейна по коэффициентам, то есть отклонения от модели, невязки $e_i=y_i-\Sigma_j a_j x_{i,j}$ лежат в $n-m$-мерном пространстве, и если матожидание квадрата каждого равно $\sigma^2$, то для их, квадратов, суммы - $(n-m)\sigma^2$; соответственно, разделив сумму квадратов невязок на $n-m$, получим несмещённую оценку дисперсии).
Аналогично объясняется и вычитание единицы при расчёте дисперсии среднего, это учитывает, что по выборке из n элементов мы уже рассчитали один параметр - среднее.
А вот при расчёте среднего вычитать единицу не надо, надо делить на число наблюдений n.
Однако в данном случае это ни на что не влияет, поскольку рассматривается модель со свободным членом. Невязки соответствуют тому, что мы не смогли объяснить через регрессоры, и в силу использования МНК вектор невязок будет ортогонален всем векторам, образованным регрессорами. А так как свободный член - регрессор (даже если в вычислительной схеме обрабатывается особо), то вектор невязок ортогонален ему, так что сумма невязок заведомо равна нулю.

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение17.03.2022, 10:49 
Заслуженный участник
Аватара пользователя


11/03/08
10033
Москва
Да, и ещё два замечания - в сообщении коллеги apt суммирование производится до $n-1$. Это неверно, там n величин. Может, конечно, он на C программирует, и цикл как раз до $n-1$, но тогда начинается с нуля.
И касательно формул для простой линейной модели - в первом сообщении в знаменателе $n-m-1$, я привожу формулу с $n-m$. Это не противоречие, просто часто для упрощения свободный член обрабатывают особо, вычитая средние из регрессоров и регрессанда, и обращая матрицу, построенную на центрированных регрессорах. Которых m, и один параметр - среднее (или, иначе говоря, материал для расчёта свободного члена, одного параметра). То есть в приведенной мной и коллегой формулах m отличается на единицу. Но, кстати, для простой линейной одномерной регрессии можно использовать m, но оно равно единице.

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение17.03.2022, 16:58 


24/07/21
75
Москва
Спасибо, помогло

 Профиль  
                  
 
 Re: Оценка погрешности коэффициентов параболической регрессии
Сообщение18.03.2022, 08:17 
Заслуженный участник
Аватара пользователя


11/03/08
10033
Москва
apt в сообщении #1550578 писал(а):
У меня на выходе после МНК - одно значение для каждого коэффициента. Как?


Случайность тут появляется постольку, поскольку в модели $y=Xa+\varepsilon$ случайными полагаются эпсилоны. То есть если мы многократно проводили бы измерения игреков при постоянной матрице иксов, каждый раз строя оценку, то наши оценки $\hat{a}$ были бы различными случайными величинами, характеризующимися матожиданиями и дисперсиями (дополнительное предположение, что распределение эпсилонов нормальное, делает нормальным и распределение оценок, как линейных функций от нормально распределённых величин, а это значит, что матожидание и дисперсия полностью их описывают). В действительности у нас единственное исследование, в котором мы можем оценить дисперсию эпсилонов (в предположении их нулевого матожидания и постоянства дисперсии; первое предположение "выбирается" свободным членом модели и существенно лишь для моделей без свободного члена, второе может на практике нарушаться и требовать использования взвешенного МНК). Но, зная оценку дисперсии, можем перейти к дисперсиям и ковариациям оценок, формула выше.

-- 18 мар 2022, 08:18 --

zykov в сообщении #1550576 писал(а):
Ещё не мешало бы на матожидание посмотреть. В пределе большой выборки оно должно сходится к точному значению. Но для конечной выборки вполне может оказатся сдвинутым (что тоже даёт вклад в погрешность).


Оценки МНК - несмещённые, матожидание равно истинному, независимо от размера выборки. Есть методы оценивания, отказывающиеся от требования несмещённости (например, ридж-регрессия - там смещённые оценки с меньшей дисперсией).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 15 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: mihaild


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group