Линейная регрессия

tatkuz1990 · 13.02.2014, 20:32

ИСН
Речь идет о гладкой функции. Я недаром оценку сделал 50 - она реальна с точки зрения интуиции (построил в крупном масштабе точки и провел оптимальную, эстетически приятную кривую). В подобных упражнениях редко ошибаюсь, так как опыт-с.

tatkuz1990 · 13.02.2014, 21:44

Я решу успешно задачу, если удастся найти простую формулу для такого:

Александрович · 14.02.2014, 01:25

tatkuz1990 в сообщении #825954 писал(а):

Просто требуется искать, искать и искать оптимальную структуру аппроксимирующего выражения.

Ну пусть даже найдёте. Это будет функцией распределения конкретной выборки. А она нам не интересна, мы её уже получили и очень точно в табличном виде. Возьмёте другую выборку у вас всё поменяется и параметры и вид функции. А какое распределение у генеральной совокупности вы так и не сможете сказать. А ведь выборочное исследование в этом и заключается.

tatkuz1990 · 14.02.2014, 01:42

Александрович, Вы говорите о глобальной задаче статистических исследований. Я же решаю локальную задачу: допустим, нам позарез нужно найти в явном виде функцию плотности вероятности.

Александрович · 14.02.2014, 02:06

Она логнормальная. Найти функцию значить определить ее параметры.

ИСН · 14.02.2014, 09:03

Так и у меня речь идёт о гладкой функции. Можно взять столько же параметров, сколько точек, и получить гладкую функцию с отклонением 0.000.

Александрович · 14.02.2014, 09:15

Поэтому стремятся не к минимуму суммы отклонений, а к минимуму остаточной дисперсии.

vlad_light · 14.02.2014, 13:57

(Оффтоп)

Можно глупый вопрос к знатокам?
Пусть у нас есть выборка $X=(X_1, X_2, \ldots ,X_n)$ . Мы разбиваем её на $m$ подвыборок (например, на две: четные и нечетные номера) и оцениваем параметры каждой отдельно. В зависимости от корреляции параметров с параметрами из других групп, присваиваем каждой группе вес. В качестве истинного значения параметров выбираем среднее взвешенное.
Такой подход имеет смысл или оценки получатся плохими?

Александрович · 14.02.2014, 14:09

vlad_light в сообщении #826304 писал(а):

Пусть у нас есть выборка $X=(X_1, X_2, \ldots ,X_n)$ . Мы разбиваем её на $m$ подвыборок (например, на две: четные и нечетные номера) и оцениваем параметры каждой отдельно. В зависимости от корреляции параметров с параметрами из других групп, присваиваем каждой группе вес.

О какой корреляции вы говорите?

vlad_light · 14.02.2014, 15:24

Пусть мы разбили выборку на $m$ подвыборок: $X=\bigsqcup _i X^{(i)}$ . Предполагаем, что выборка подчиняется закону $f_\theta (i)\approx X_i$ , где $\theta$ -- параметры функции $f$ , которые мы хотим оценить. Пусть также мы выбрали способ оценивания: $\hat \theta =g(X)$ . Построим оценку по каждой подвыборке: $\hat \theta ^{(i)}=g(X^{(i)})$ и получим вектор $(\hat \theta ^{(1)}, \hat \theta ^{(2)}, \ldots ,\hat \theta ^{(m)})$ .

(Оффтоп)

Под корреляцией я подразумевал: $\hat \theta ^{cor}=(\sum _{j \neq 1}|cov(\hat \theta ^{(1)}, \hat \theta ^{(j)})|, \sum _{j\neq 2}|cov(\hat \theta ^{(2)}, \hat \theta ^{(j)})|, \ldots ,\sum _{j\neq m} |cov(\hat \theta ^{(m)}, \hat \theta ^{(j)})|)$ но сейчас подумал, что это неправильно.

Считаем отклонения: $\hat \theta ^{dist}=(\sum _{j\neq 1}\|\hat \theta ^{(1)} - \hat \theta ^{(j)}\|, \sum _{j\neq 2}\|\hat \theta ^{(2)} - \hat \theta ^{(j)}\|, \ldots ,\sum _{j\neq m}\|\hat \theta ^{(m)} - \hat \theta ^{(j)}\|)$ Далее получаем веса из $w=\frac {inv(\hat \theta ^{dist})}{\|\hat \theta ^{dist}\|}$ и считаем $\hat \theta =\sum _i\hat\theta ^{(i)}w_i$ .

(Оффтоп)

Писал на интуитивном уровне, сильно не бейте :oops:

Ход мыслей был таким: если выборка подчиняется какому-то закону, то и каждая её подвыборка должна подчиняться ему же. Дробим выборку на маленькие кусочки и приоритет в общей оценке отдаем тем параметрам, которые мало отличаются от аналогичных в других подвыборках.

Александрович · 14.02.2014, 15:42

Если выборку разделили на две, что с чем коррелирует?

vlad_light · 14.02.2014, 15:45

(Оффтоп)

Александрович в сообщении #826349 писал(а):

Если выборку разделили на две, что с чем коррелирует?

$\hat \theta ^{cor } = (|cov(\hat \theta ^{(1)}, \hat \theta ^{(2)})|, |cov(\hat \theta ^{(2)}, \hat \theta ^{(1)})|)$ . Но я уже не уверен в "разумности" корреляции.

Что по оценке с нормой скажите?

Евгений Машеров · 15.02.2014, 14:52

Для оценки параметров нормального распределения заведомо хуже, полагаю, для любых однородных выборок это будет так же. Однако некий смысл есть, если существуют подозрения на неоднородность. Разумеется, на подвыборки делить надо не механически и не случайно, а сообразно их происхождению. Скажем, объединяются данные из разных лабораторий, и подвыборка определяется тем, из какой лаборатории.

Научный форум dxdy

Линейная регрессия