2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 03:49 
Аватара пользователя
Известна формула для нахождения коэффициента детерминации:

$R^2=1-\frac{\sum_{i=1}^{n}(y_i-\tilde{y_i})^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}$

$n$ - число точек наблюдения,

$\bar{y}$ - среднее значение наблюдаемой величины,

$y_i-\tilde{y_i}$ - отклонение наблюдаемой величины от линии регрессии.

Уравнение регрессии может быть найдено с использованием 1, 2, 3 и т.д. коэффициентов. Тогда выходит что с увеличением числа коэффициентов увеличивается коэффициент детерминации вплоть до 1, что противоречит здравому смыслу. Почему в формуле не учитывается количество коэффициентов регрессии $k$? По-моему должно быть так:

$R^2=1-\frac{(n-1)\sum_{i=1}^{n}(y_i-\tilde{y_i})^2}{(n-k)\sum_{i=1}^{n}(y_i-\bar{y})^2}$

Тогда мы сможем определить оптимальное значение $k$ при котором $R^2$ максимален.

Про это где-то написано или это моя догадка?

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 07:31 
Аватара пользователя
Александрович в сообщении #870118 писал(а):
Про это где-то написано или это моя догадка?

В википедии, например.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 08:09 
Аватара пользователя
--mS-- в сообщении #870128 писал(а):
Цитата:
Про это где-то написано или это моя догадка?

В википедии, например.

Я доверяю Вам, Вы доверяете Википедии. Я Википедии не доверяю, поэтому логика ломается. А можно ссылку? Может быть оттуда можно будет вырулить на нормальную ссылку.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 08:48 
Аватара пользователя
При чём тут доверие или недоверие? Вы спрашивали, где написано - отвечаю: в википедии. Откройте статью "коэффициент детерминации" (неожиданно, правда?).

(Оффтоп)

Пожалуйста, не заставляйте меня в очередной раз пожалеть, что я Вам ответила.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение01.06.2014, 09:12 
Аватара пользователя
--mS-- в сообщении #870145 писал(а):
Откройте статью "коэффициент детерминации" (неожиданно, правда?).

Открыл, там вот что:
Цитата:
Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику $R^2$ обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий.

Надо же! Не один я такой умный! Но хотелось бы ссылку на ссылку, на которую можно было бы сослаться.

(Оффтоп)

Цитата:
Пожалуйста, не заставляйте меня в очередной раз пожалеть, что я Вам ответила.

Вы не мне ответили, Вы
Цитата:
в очередной раз
всем ответили.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 08:54 
Аватара пользователя
Здравому смыслу противоречит не рост КД при включении дополнительных регрессоров, а применение КД для выбора оптимального числа регрессоров. Дело в том, что он равен доле дисперсии вектора y, "объясняемой регрессорами", по отношению ко всей его дисперсии. Вектор y может быть представлен в виде суммы двух векторов, один из которых лежит в плоскости, натянутой на совокупность регрессоров, второй ортогонален к ней. Добавляя регрессор, мы увеличиваем размерность этой плоскости, и, вообще говоря, длину вектора, который ей принадлежит.
Если в модели $y=Xa+\varepsilon$ добавить новый, реально ничего не объясняющий регрессор z, то часть вектора ошибки $\varepsilon$. до этого ортогональная всем X, но совпадающая по направлению с z, вместо того, чтобы честно определиться, как "видимая невязка модели", воспримется, как "объясняемая моделью", и $R^2$ вырастет (и, что особо неприятно, у нас появится не только ложный коэффициент при z, но и искажения значений при прочих коэффициентах). Эффект этот не будет иметь места в двух случаях - когда z заведомо ортогонален $\varepsilon$ (что может быть только искусственно подобрано, вероятность того, что случайная величина будет в точности ортогональна заданной нулевая) и когда z лежит в плоскости, натянутой на X (тогда $R^2$ не изменится, зато появится мультиколлинеарность, и значения коэффициентов будут теоретически бесконечными, а практически велики и определяться игрой ошибок округления).
Для определения оптимального числа регрессоров предложено несколько подходов. Наряду со скорректированным коэффициентом детерминации (adjusted $R^2$, входящим в стандартный набор результатов регрессионных пакетов) и F-отношением (лично мне для решения этой задачи более всего нравится оно, но это "вкусовщина"), имеются также $C_p$, информационный критерий Акайке и другие (можно посмотреть у Себера и пр.). Все они основаны на том, что вводится некий "гандикап", компенсирующий фальшивое улучшение при включении ненужных регрессоров, зависящий от их числа. Другой принцип выбора основывается на том, что после построения модели на части данных она проверяется на другой части ("обучающая" и "экзаменационная" выборки), имитируя "проверку теории жизнью". Вариант такой техники - "скользящий экзамен", когда строится модель по всем наблюдениям, кроме одного, по которому и проверяется (здесь возможна вычислительно экономная техника, когда матрица обращается единожды, а для моделей с отбрасыванием одного наблюдения только пересчитывается процедурой, требующей относительно мало операций), причём такая проверка проводится для каждого наблюдения в выборке.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 09:58 
Аватара пользователя
Евгений Машеров
, спасибо за ответ, но вопрос был в другом. Регрессор всего один, а математическая модель (линия регрессии) строится с разным количеством коэффициентов регрессии.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:15 
Аватара пользователя
Коэффициенты - по одному на регрессор (и ещё один на свободный член)
Регрессоры это "независимые переменные". Зависимая переменная - регрессанд.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:17 
Аватара пользователя
Александрович в сообщении #870901 писал(а):
Регрессор всего один, а математическая модель (линия регрессии) строится с разным количеством коэффициентов регрессии.
А что вы называете регрессором? По-моему, для линейной регрессии регрессоров ровно столько, сколько коэффициентов регрессии.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:34 
Аватара пользователя
zvm в сообщении #870910 писал(а):
А что вы называете регрессором? По-моему, для линейной регрессии регрессоров ровно столько, сколько коэффициентов регрессии.

В уравнении регрессии $y(x)=ax+b$ один регрессор $x$ и два коэффициента регрессии $a$ и $b$. В уравнении $y(x)=ax^2+bx+c$ один регрессор и три коэффициента регрессии.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:44 
Аватара пользователя
Два регрессора. Поскольку x и $x^2$ это разные регрессоры (собственно, поэтому у меня "независимые переменные" в кавычках, они вправе быть и статистически, и функционально зависимыми).

-- 02 июн 2014, 10:46 --

Да, и коэффициент при свободном члене дополнителен только потому, что вместо введения ещё одного регрессора, тождественно равного единице, используют приём вычитания среднего. Но это только вопрос удобства вычислений, константный регрессор тоже регрессор.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 10:53 
Аватара пользователя
Евгений Машеров в сообщении #870918 писал(а):
Но это только вопрос удобства вычислений, константный регрессор тоже регрессор.
Да, я привык именно так. Формулы получаются симметричнее.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 11:05 
Аватара пользователя
А здесь чего сколько?
$y(x)=(b+ax^c+dx^f) \exp(gx)$.

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 11:37 
Аватара пользователя
Александрович в сообщении #870925 писал(а):
А здесь чего сколько?
$y(x)=(b+ax^c+dx^f) \exp(gx)$.
А это уже нелинейная регрессия. Коэффициентов регрессии здесь шесть, а понятие регрессора не определено (мне так кажется, по крайней мере - не встречал).

 
 
 
 Re: Коэффициент детерминации и коэффициенты регрессии
Сообщение02.06.2014, 11:45 
Аватара пользователя
Ну и что? Параболическая регрессия тоже нелинейная.
Скорректированный коэффициент детерминации я правильно нахожу?

 
 
 [ Сообщений: 21 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group