2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Регрессия без "зашумления"
Сообщение11.11.2017, 00:27 


23/12/07
1763
Почему-то в большинстве источников, с которыми сталкивался, под задачей построения регрессии понимается либо задача построения оценок функциональной связи между двумя (или несколькими) случайными величинами, либо задача построения оценок "зашумленной" функциональной зависимости между неслучайными факторами и случайной величиной.
А вот то, что мне нужно, нигде не нахожу. А нужно вот что: оценить функциональную связь между математическим ожиданием наблюдаемой случайной величины и неслучайным фактором, от которой эта случайная величина зависит.
Может, подскажете, по каким ключевым словам копать эту проблему?
Спасибо.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение11.11.2017, 08:16 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
По слову "регрессия" ;)
Это в точности постановка задачи регрессии. Функциональная зависимость между регрессорами и матожиданием регрессанда. Просто в реальных задачах нас готовым матожиданием не угощают, а предлагают наблюдения из выборки.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение11.11.2017, 13:33 


23/12/07
1763
Евгений Машеров
Может, вы не совсем меня поняли. Mоя задача: есть с.в. $Y$ и неслучайный параметр $p$. И есть набор измерений значений с.в. при определенных значениях параметра, то есть, набор $ (p_i, y_i), i=1,\dots, N$. Есть гипотеза, что $\mathbf{E}Y = a_0 + a_1 p$. Вопрос, как оценить $a_0, a_1$, плюс, проверить адекватность гипотезы по имеющейся выборке.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение11.11.2017, 17:49 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Ну? Вы описали постановку задачи регрессионного анализа. Абсолютно точно.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение11.11.2017, 18:53 


23/12/07
1763
Евгений Машеров
А можете дать ссылку на литературу, где именно такая постановка задачи? Потому что в тех, которые я вижу, всюду постановка наподобие:
есть параметрическая модель связи $Y = f(a, X)$ случайных величин $X,Y$ и выборка наблюдений $(x_i, y_i), i= 1, \dots, N$. Требуется найти оценку параметра $a$ модели.
(см., например, wiki/Regression_models)

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение11.11.2017, 22:22 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Ну, в общем-то, в любом пособии по регрессионному анализу стандартная схема - регрессоры неслучайные величины, только регрессанд случайная величина. Вариант со случайными регрессорами это уже усложнённый вариант.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение11.11.2017, 22:42 
Заслуженный участник


05/08/14
1564
Если пойдете в Вики по ссылке
https://en.wikipedia.org/wiki/Linear_regression,
то найдете такую спецификацию
$Y = a_0 + a_1 p+\varepsilon$.
Возьмете справа и слева мат ожидание получите в точности
_hum_ в сообщении #1264287 писал(а):
$\mathbf{E}Y = a_0 + a_1 p$.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение12.11.2017, 02:06 


23/12/07
1763
dsge в сообщении #1264502 писал(а):
Если пойдете в Вики по ссылке
https://en.wikipedia.org/wiki/Linear_regression,
то найдете такую спецификацию
$Y = a_0 + a_1 p+\varepsilon$.
Возьмете справа и слева мат ожидание получите в точности
_hum_ в сообщении #1264287 писал(а):
$\mathbf{E}Y = a_0 + a_1 p$.

а можно пояснить, почему отсюда должно следовать, что хорошие оценки параметров модели $Y = a_0 + a_1 p+\varepsilon$ будут хорошими оценками параметров для моей задачи $\mathbf{E}Y = a_0 + a_1 p$?

-- Вс ноя 12, 2017 03:15:38 --

Евгений Машеров в сообщении #1264492 писал(а):
Ну, в общем-то, в любом пособии по регрессионному анализу стандартная схема - регрессоры неслучайные величины, только регрессанд случайная величина. Вариант со случайными регрессорами это уже усложнённый вариант.

так все-таки можно мне указать учебник, где рассматривается моя задача в точности(чтоб безо всяких моделей связи случайных величин - только модель связи математического ожидания)?

-- Вс ноя 12, 2017 03:58:32 --

Я поясню: в моем представлении, когда работают по схеме, отталкивающейся от модели связи с.в. типа $Y = f(a, x, \varepsilon)$, оценку параметра $a$ строят, исходя из соображений, чтоб "в среднем" была малая ошибка предсказания реализаций $y$ по факторам $x$. В моем же случае нужно немного другое - построить оценку параметра $a$ в модели $\mathbf{E}Y = f(a,x)$ так, чтоб иметь возможность по фактору $x$ "в среднем" довольно точно определять $\mathbf{E}Y$.
Не знаю, может, с вашей точки зрения, это одно и то же, но мне это как-то совсем не очевидно.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение12.11.2017, 10:17 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Если задана случайная величина Y с известным (возможно, разным для разных наблюдений) математическим ожиданием M, то её можно представить, как $Y=M+\varepsilon$, где эпсилон есть случайная величина с нулевым матожиданием.
То есть построенное уравнение регрессии, ввиду обычных предположений о возмущении (случайное, с нулевым матожиданием, одинаково распределённые) нам даёт именно оценку матожидания.
Хотя исторически шли от повышения точности приближения (или, что то же самое, сокращения невязок), и лишь потом пришли к доказательству того, что МНК-оценка даёт несмещённые оценки для Y, ничего не мешает начать с требования несмещённости и получить тот же МНК. То есть Вы домогаетесь того, что уже даёт самая обыкновенная, не сказать - тривиальная, регрессия.
Тут, разумеется, может быть иная постановка - у Вас есть абсолютно точные значения матожиданий, и Вы хотите найти точную же функциональную зависимость. Но это уже не статистическая постановка, а вычислительная математика, то ли интерполяция, то ли просто угадывание зависимости. При этом, если значения мы принимаем точными, вероятностно-статистические соображения не нужны, только вычислительные. А если представленные значения матожиданий с ошибкой, и в полученном выражении может иметь место невязка, которую стоит минимизировать, то, значит, регрессия. И, скорее всего, МНК (возможно, взвешенный, если оценки МО неравноточные, например, если оценивались по разнообъёмным подвыборкам).
Можно ещё вспомнить полузабытую, но легко находимую, ну хоть у Гмурмана, эмпирическую регрессию, когда для отдельных значений регрессора (дискретного или дискретизованного разбиением области определения на интервалы) находили средние значения регрессанда, и вместо аналитического выражения давали таблицу наподобие: "Для внесения удобрений от 100 до 200 кг на га средний урожай 10 центнеров, от 200 до 300 13 центнеров, от 300 до 400 15 центнеров..."

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение12.11.2017, 15:04 


23/12/07
1763
Евгений Машеров в сообщении #1264601 писал(а):
Если задана случайная величина Y с известным (возможно, разным для разных наблюдений) математическим ожиданием M, то её можно представить, как $Y=M+\varepsilon$, где эпсилон есть случайная величина с нулевым матожиданием.

да.
Евгений Машеров в сообщении #1264601 писал(а):
То есть построенное уравнение регрессии, ввиду обычных предположений о возмущении (случайное, с нулевым матожиданием, одинаково распределённые) нам даёт именно оценку матожидания.

а вот тут вопрос, дает ли она то, что нужно. Во-первых, в случае исследования зависимости от фактора $x$ нужно тогда записывать $Y = M(x)+\varepsilon(x)$, а значит, чтоб использовать стандартный регрессионный анализ, нужно уже делать предположения о том, что от фактора зависит только матожидание распределения с.в. Y (что, кажется, довольно сильным предположением). Но даже если так, все равно не совсем понятно, почему найденная оценка для параметрической модели будет хорошей оценкой для оценки зависимости матожидания от фактора. Поясню свои сомнения. Пусть для простоты мы рассматриваем случай $Y = a x + \varepsilon$. Пусть $\Pi_N = \big\{(x_i, Y_{|x_i}) \big\}_{ i =1}^N$ - выборка, состоящая из значений $x_i$ фактора и независимых с.в. $Y_{|x_i}$, имеющих то же распределение, что и с.в. $Y$ при соответствующем факторе. Тогда, насколько я понимаю, задача регрессии - построить стат. оценку $\Hat{a} :(\mathbb{R}\times\mathbb{R})^{N} \rightarrow \mathbb{R}$ (функцию на реализациях выборки) такую, что
для всякого $x$ было $\mathbf{E}\big(Y_{|x} - \Hat{a}(\Pi_N)x\big - \varepsilon)^2 \rightarrow \min$,
тогда как в моем случае нужно построить оценку, чтобы
для всякого $x$ было $\mathbf{E}\big(\mathbf{E}Y_{|x} - \Hat{a}(\Pi_N)x\big)^2 \rightarrow \min$.

p.s. Кстати, а как в регрессионном анализе понимается состоятельность оценки? Ведь тут же может быть три варианта стремления выборки к бесконечности - по количеству точек значений фактора, по количеству измерений при заданном значении фактора и по им обоим сразу...

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение12.11.2017, 17:04 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Раскрываем квадраты и получаем одно и то же.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение12.11.2017, 18:04 


23/12/07
1763
Евгений Машеров в сообщении #1264753 писал(а):
Раскрываем квадраты и получаем одно и то же.

Вы наверное имели в виду - одну и ту же оптимальную оценку, потому как при раскрытии все-таки получаются разные выражения - в первом случае матожидание квадрата $Y$, а во втором - квадрат матожидания.
Ну так вроде да, похоже на правду. Только хочется все-таки увидеть подобное изложение где-нибудь в книге по регрессионному анализу, чтоб уже окончательно убедиться, что нигде не допущена ошибка в рассуждениях.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение13.11.2017, 11:13 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Начал искать "авторитетный источник", и вдруг заглядываю в Википедию и...
Цитата:
Строго регрессионную зависимость можно определить следующим образом. Пусть ${\displaystyle Y,X_{1},X_{2},\ldots ,X_{p}} $ — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений ${\displaystyle X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}} $ определено условное математическое ожидание
$
{\displaystyle y(x_{1},x_{2},\ldots ,x_{p})=\mathbb {E} (Y\mid X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p})} y(x_{1},x_{2},\ldots ,x_{p})={\mathbb  {E}}(Y\mid X_{1}=x_{1},X_{2}=x_{2},\ldots ,X_{p}=x_{p}) $(уравнение регрессии в общем виде),
то функция ${\displaystyle y(x_{1},x_{2},\ldots ,x_{p})} $ называется регрессией величины ${\displaystyle Y} $ по величинам ${\displaystyle X_{1},X_{2},\ldots ,X_{p}} $, а её график — линией регрессии ${\displaystyle Y} Y $по ${\displaystyle X_{1},X_{2},\ldots ,X_{p}} $, или уравнением регрессии.

Зависимость ${\displaystyle Y} $ от ${\displaystyle X_{1},X_{2},\ldots ,X_{p}} $ проявляется в изменении средних значений ${\displaystyle Y} $ при изменении ${\displaystyle X_{1},X_{2},\ldots ,X_{p}} $

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение13.11.2017, 22:00 


23/12/07
1763
Евгений Машеров
ну это же не то - в приведенном фрагменте рассказывается про задачу поиска функциональной связи между случайными величинами $X$ и $Y$, которая бы давала минимум среднеквадратичной ошибки предсказания значений $y$ по значениям $x$ (как известно из тервера, такой функцией будет функция $h(x) = \mathbf{E}(Y|X = x))$. В моем же случае есть только одна случайная величина - $Y$, и она зависит от неслучайной величины.

 Профиль  
                  
 
 Re: Регрессия без "зашумления"
Сообщение14.11.2017, 09:05 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Значения X в стандартной постановке задачи регрессии принимаются фиксированными. То есть заявления о "случайности Х", даже если и делаются, относятся к тому, что находится вне модели, к механизму их генерации. Однако часто никакой случайности нет, регрессия на время или всякого рода планы эксперимента и многое другое - это величины детерминированные (определение, впрочем, спасти можно, заявив, что это "вырожденный случай случайности", но это уже казуистика).
Регрессия в обычной постановке это именно установление связи матожидания Y со значениями X-ов. Ошибка, невязка, помеха и т.п. появляется в явном виде потому, что нам даются не готовые матожидания, а выборка, по которым мы их оцениваем.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 17 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group