2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 03:49 
Аватара пользователя


21/01/09
3925
Дивногорск
Известна формула для нахождения коэффициента детерминации:

$R^2=1-\frac{\sum_{i=1}^{n}(y_i-\tilde{y_i})^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}$

$n$ - число точек наблюдения,

$\bar{y}$ - среднее значение наблюдаемой величины,

$y_i-\tilde{y_i}$ - отклонение наблюдаемой величины от линии регрессии.

Уравнение регрессии может быть найдено с использованием 1, 2, 3 и т.д. коэффициентов. Тогда выходит что с увеличением числа коэффициентов увеличивается коэффициент детерминации вплоть до 1, что противоречит здравому смыслу. Почему в формуле не учитывается количество коэффициентов регрессии $k$? По-моему должно быть так:

$R^2=1-\frac{(n-1)\sum_{i=1}^{n}(y_i-\tilde{y_i})^2}{(n-k)\sum_{i=1}^{n}(y_i-\bar{y})^2}$

Тогда мы сможем определить оптимальное значение $k$ при котором $R^2$ максимален.

Про это где-то написано или это моя догадка?

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 07:31 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Александрович в сообщении #870118 писал(а):
Про это где-то написано или это моя догадка?

В википедии, например.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 08:09 
Аватара пользователя


21/01/09
3925
Дивногорск
--mS-- в сообщении #870128 писал(а):
Цитата:
Про это где-то написано или это моя догадка?

В википедии, например.

Я доверяю Вам, Вы доверяете Википедии. Я Википедии не доверяю, поэтому логика ломается. А можно ссылку? Может быть оттуда можно будет вырулить на нормальную ссылку.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 08:48 
Заслуженный участник
Аватара пользователя


23/11/06
4171
При чём тут доверие или недоверие? Вы спрашивали, где написано - отвечаю: в википедии. Откройте статью "коэффициент детерминации" (неожиданно, правда?).

(Оффтоп)

Пожалуйста, не заставляйте меня в очередной раз пожалеть, что я Вам ответила.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 09:12 
Аватара пользователя


21/01/09
3925
Дивногорск
--mS-- в сообщении #870145 писал(а):
Откройте статью "коэффициент детерминации" (неожиданно, правда?).

Открыл, там вот что:
Цитата:
Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику $R^2$ обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий.

Надо же! Не один я такой умный! Но хотелось бы ссылку на ссылку, на которую можно было бы сослаться.

(Оффтоп)

Цитата:
Пожалуйста, не заставляйте меня в очередной раз пожалеть, что я Вам ответила.

Вы не мне ответили, Вы
Цитата:
в очередной раз
всем ответили.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 08:54 
Заслуженный участник
Аватара пользователя


11/03/08
9906
Москва
Здравому смыслу противоречит не рост КД при включении дополнительных регрессоров, а применение КД для выбора оптимального числа регрессоров. Дело в том, что он равен доле дисперсии вектора y, "объясняемой регрессорами", по отношению ко всей его дисперсии. Вектор y может быть представлен в виде суммы двух векторов, один из которых лежит в плоскости, натянутой на совокупность регрессоров, второй ортогонален к ней. Добавляя регрессор, мы увеличиваем размерность этой плоскости, и, вообще говоря, длину вектора, который ей принадлежит.
Если в модели $y=Xa+\varepsilon$ добавить новый, реально ничего не объясняющий регрессор z, то часть вектора ошибки $\varepsilon$. до этого ортогональная всем X, но совпадающая по направлению с z, вместо того, чтобы честно определиться, как "видимая невязка модели", воспримется, как "объясняемая моделью", и $R^2$ вырастет (и, что особо неприятно, у нас появится не только ложный коэффициент при z, но и искажения значений при прочих коэффициентах). Эффект этот не будет иметь места в двух случаях - когда z заведомо ортогонален $\varepsilon$ (что может быть только искусственно подобрано, вероятность того, что случайная величина будет в точности ортогональна заданной нулевая) и когда z лежит в плоскости, натянутой на X (тогда $R^2$ не изменится, зато появится мультиколлинеарность, и значения коэффициентов будут теоретически бесконечными, а практически велики и определяться игрой ошибок округления).
Для определения оптимального числа регрессоров предложено несколько подходов. Наряду со скорректированным коэффициентом детерминации (adjusted $R^2$, входящим в стандартный набор результатов регрессионных пакетов) и F-отношением (лично мне для решения этой задачи более всего нравится оно, но это "вкусовщина"), имеются также $C_p$, информационный критерий Акайке и другие (можно посмотреть у Себера и пр.). Все они основаны на том, что вводится некий "гандикап", компенсирующий фальшивое улучшение при включении ненужных регрессоров, зависящий от их числа. Другой принцип выбора основывается на том, что после построения модели на части данных она проверяется на другой части ("обучающая" и "экзаменационная" выборки), имитируя "проверку теории жизнью". Вариант такой техники - "скользящий экзамен", когда строится модель по всем наблюдениям, кроме одного, по которому и проверяется (здесь возможна вычислительно экономная техника, когда матрица обращается единожды, а для моделей с отбрасыванием одного наблюдения только пересчитывается процедурой, требующей относительно мало операций), причём такая проверка проводится для каждого наблюдения в выборке.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 09:58 
Аватара пользователя


21/01/09
3925
Дивногорск
Евгений Машеров
, спасибо за ответ, но вопрос был в другом. Регрессор всего один, а математическая модель (линия регрессии) строится с разным количеством коэффициентов регрессии.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:15 
Заслуженный участник
Аватара пользователя


11/03/08
9906
Москва
Коэффициенты - по одному на регрессор (и ещё один на свободный член)
Регрессоры это "независимые переменные". Зависимая переменная - регрессанд.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:17 
Аватара пользователя


02/01/14
292
Александрович в сообщении #870901 писал(а):
Регрессор всего один, а математическая модель (линия регрессии) строится с разным количеством коэффициентов регрессии.
А что вы называете регрессором? По-моему, для линейной регрессии регрессоров ровно столько, сколько коэффициентов регрессии.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:34 
Аватара пользователя


21/01/09
3925
Дивногорск
zvm в сообщении #870910 писал(а):
А что вы называете регрессором? По-моему, для линейной регрессии регрессоров ровно столько, сколько коэффициентов регрессии.

В уравнении регрессии $y(x)=ax+b$ один регрессор $x$ и два коэффициента регрессии $a$ и $b$. В уравнении $y(x)=ax^2+bx+c$ один регрессор и три коэффициента регрессии.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:44 
Заслуженный участник
Аватара пользователя


11/03/08
9906
Москва
Два регрессора. Поскольку x и $x^2$ это разные регрессоры (собственно, поэтому у меня "независимые переменные" в кавычках, они вправе быть и статистически, и функционально зависимыми).

-- 02 июн 2014, 10:46 --

Да, и коэффициент при свободном члене дополнителен только потому, что вместо введения ещё одного регрессора, тождественно равного единице, используют приём вычитания среднего. Но это только вопрос удобства вычислений, константный регрессор тоже регрессор.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:53 
Аватара пользователя


02/01/14
292
Евгений Машеров в сообщении #870918 писал(а):
Но это только вопрос удобства вычислений, константный регрессор тоже регрессор.
Да, я привык именно так. Формулы получаются симметричнее.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 11:05 
Аватара пользователя


21/01/09
3925
Дивногорск
А здесь чего сколько?
$y(x)=(b+ax^c+dx^f) \exp(gx)$.

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 11:37 
Аватара пользователя


02/01/14
292
Александрович в сообщении #870925 писал(а):
А здесь чего сколько?
$y(x)=(b+ax^c+dx^f) \exp(gx)$.
А это уже нелинейная регрессия. Коэффициентов регрессии здесь шесть, а понятие регрессора не определено (мне так кажется, по крайней мере - не встречал).

 Профиль  
                  
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 11:45 
Аватара пользователя


21/01/09
3925
Дивногорск
Ну и что? Параболическая регрессия тоже нелинейная.
Скорректированный коэффициент детерминации я правильно нахожу?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 21 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group