Мультиколлинеарность в модели Кобба-Дугласа / расчет VIF

Grin_75 · 25.09.2016, 19:08

Если вкратце: есть формула q = A + α*l + β*k
А (константа), α и β - неизвестные, определяемые с по методу наименьших квадратов.
Есть подозрение на мультиколлинераность между А и суммой α и β.
Хочу построить VIF для А. Но вопрос в том, как это сделать, если это константа?

Или чем еще измерить мультиколлинераность втаком случае?

Предистория такая:

Провожу исследование на тему производственных функций.
При теоретических копаниях в модели Кобба-Дугласа возник интересный момент: есть три неизвестные – константа А и степени α и β. Задачей параметра А является представлять собой «уровень технологии» и аккумулировать все внешние по отношению к модели влияния на индекс производства продукции. Задачей степеней α и β явлется измерение вклада каждого из факторов производства. В той версии модели Кобба-Дугласа, где сумма α и β не обязательно равна 1, степени α и β также начинают отражать «уровень технологии» (например, α + β > 1 - значит технология характеризется положительным эффектом масштаба).

Получается и константа А и степени α и β одновременно включают в себя «уровень технологии». Поскольку и то и то является объясняющими переменными в уравнении регрессии, налицо мультиколлинеарность.
Собственно вот. Теперь хочу измерить масштабы этой мультиколлинеарности рассчитав VIF(variance inflation factor). Но встала техническая проблема: как рассчитать VIF для константы. Есть практические предложения, коллеги?

dsge · 25.09.2016, 19:42

Grin_75 в сообщении #1154561 писал(а):

Есть подозрение на мультиколлинераность между А и суммой α и β.

Мультиколлинераность возможна между переменными, но никак между параметрами.

Grin_75 · 27.09.2016, 16:03

Да, согласен, неправильно сформулировал.
Мультиколлинеарность между переменными l и k и константой.
Но в результате А, α и β получаются смещенные.
Так вот меня конкретно интересует, как можно измерить степень этой мултиколлинеарности. Не только между l и k, а вместе с константой.

Евгений Машеров · 27.09.2016, 19:13

"Мультиколлинеарность между переменной и константой" устраняется после вычитания из значения переменной её среднего. Что, собственно, рутинная вычислительная процедура.

dsge · 27.09.2016, 21:53

Grin_75 в сообщении #1155167 писал(а):

Мультиколлинеарность между переменными l и k и константой.
Но в результате А, α и β получаются смещенные.

Мультиколлинеарность не может быть причиной смещения оценок, её результатом является большие ошибки оценок коэффициентов.

Grin_75 · 28.09.2016, 22:03

dsge в сообщении #1155254 писал(а):

Grin_75 в сообщении #1155167 писал(а):

Мультиколлинеарность между переменными l и k и константой.
Но в результате А, α и β получаются смещенные.

Мультиколлинеарность не может быть причиной смещения оценок, её результатом является большие ошибки оценок коэффициентов.

Вы правы. Не совсем правильно сформулировал. Но смысл в том, что оценки коэффициентов неточные, могут даже иметь другой знак.

-- 28.09.2016, 23:21 --

Евгений Машеров в сообщении #1155216 писал(а):

"Мультиколлинеарность между переменной и константой" устраняется после вычитания из значения переменной её среднего. Что, собственно, рутинная вычислительная процедура.

Евгений Машеров, спасибо за совет! Конкретно в этом случае это сделать проблематично, потому что я использую ф-цию Кобба-Дугласа, которая имеет конкретную форму. Получается, что видоизменять ее я могу очень ограничено, иначе это уже будет просто произвольное уравнение, а не функция Кобба-Дугласа.
Еще сложность в том, что мультиколлинеарность не между константой и переменными l и k по отдельности, а между константой и комбинацией переменных l и k. Как я писал, получается что и константа А, и сумма коэффициентов α + β одновременно представляют "уровень технологии" в уравнении. Коэффициенты α и β, взятые по отдельности, имеют другой смысл, а вот именно их сумма так сказать дублирует роль константы.

Я хотел вообще попробовать исключить константу из уравнения. Но чтобы это обосновать мне как раз и нужно как-то измерить степень мультиколлинеарности между константой и комбинацией переменных l и k.

dsge · 29.09.2016, 03:35

Grin_75 в сообщении #1155542 писал(а):

Но смысл в том, что оценки коэффициентов неточные, могут даже иметь другой знак.

У констант (intercept) часто оценки неточные.
Если вы покажете картинки ваших данных, то будет легче представить как такое может быть.

Евгений Машеров · 29.09.2016, 10:23

Давайте определимся. Строгая мультиколлинеарность - это когда один из регрессоров принадлежит подпространству, натянутому на прочие (или, иначе, является линейной комбинацией прочих регрессоров). Тогда обращаем матрицу неполного ранга, и вычислительная катастрофа. Лечится удалением ненужных (представимых через другие) регрессоров. Куда более частая проблема - неполная мультиколлинеарность, когда ранг полный, точно ни один из регрессоров через прочие не выражается, но вот приближённо... Это приводит к тому, что ранг матрицы $X^TX$ хоть и полный, но некоторые её собственные значения малы, обратные к ним, соответственно, велики, и коэффициенты становятся огромными (при этом для обычных формул регрессионного анализа оценки несмещённые, и "огромность" за счёт роста дисперсии; часто уход от истинного значения одного коэффициента возмещается уходом другого в противоположную - несколько условный пример, модель зависимости доходов домохозяйства от числа жён и мужей в нём, в норме должно быть зарплата мужа на число мужей в совместно проживающих семьях+зарплата жены на число жён, но поскольку почти во всей выборке число жён и мужей совпадает, вместо 10000М+8000Ж получаем 1010000М-992000Ж)
Мерой мультиколлинеарности для данной переменной может быть угол между данной переменной и пространством, натянутым на прочие регрессоры (это простая мера, но не всегда самая полезная, названный VIF иная мера, ориентированная на ответ на вопрос о том, насколько выросла дисперсия оценки из-за мультиколлинеарности). То есть константа может породить мультиколлинеарность, если явно, в виде столбца единиц, включена в набор регрессоров. Однако это теоретически возможно, но на практике просто вычитают средние из регрессоров и регрессанда (зависимой переменной), потом считая свободный член отдельно, избавляясь так от подобного источника мультиколлинеарности.
Я осмелюсь предположить, что Ваша проблема отнюдь не в мультиколлинеарности. Ею Вы, подозреваю, хотите объяснить содержательно бессмысленное значение свободного члена. Но это скорее свидетельствует о неточной спецификации модели, чем о мультиколлинеарности.
Зависимость в реальности нелинейна (и даже конкретный вид нелинейности неизвестен). Линейное приближение основано на том, что зависимость принимается достаточно гладкой, так что можно разложить в ряд Тейлора и взять первый, линейный член
$f(x) \approx f(x_0)+f'(x)(x-x_0)=(f(x_0)-f'(x)(x-x_0))+f'(x)x=a+bx$
Понятно, что это работает вблизи точки $x_0$ , и по мере отдаления приближение хуже.
Если зависимость нелинейна, и точка $x=0$ достаточно далека от области интереса, в которой лежат наблюдения, то и значение производной в этой точке совершенно иное, первое слагаемое, свободный член, физического смысла не имеет, а только "уравнивание". И интерпретировать его значения бессмысленно. Он чисто подгоночная величина.
Модель производственной функции, очевидно, нелинейна. Причём, даже если Вы работаете с Коббом-Дугласом, где есть нелинейности вида $P=AK^\alpha L^\beta$ , приводимые к линейному виду логарифмированием, ясно, что это лишь приближение к действительной, в точности нам неизвестной зависимости.

Grin_75 · 30.09.2016, 01:27

dsge,
Вот мои исходные данные:

Вот какие получаются коэффициенты регрессии, R квадрат, Т- и F-статистика:

Изначально ф-ция Кобба-Дугласа имеет форму $q = A \cdot l^a \cdot k^\beta$
Для оценки по МНК я ее логарифмирую, она становится q' = A + α*l' + β*k'. Значения q', l' и k' это натуральные логарифмы q, l и k соответственно, которые в свою очередь являются темпами роста ВВП, количества занятых и капитала по отношению к базисному году. Поэтому чтобы получить константу для первого уравнения ( $q = A \cdot l^a \cdot k^\beta$ ), я возвожу е, основание натурального логарифма, в степень равную значению константы по результатам получения МНК (a0' в моих обозначениях на картинках)

Видно, что R квадрат большой, F-статистика тоже, но при этом Т-статистика коэффициента ß говорит о его стат. незначимости.
Если смотреть на коэффициенты с точки зрения теории, то тоже есть проблемы, т.к. они не должны быть слишком близки к 0 (как ß и А)

Евгений Машеров,

Евгений Машеров в сообщении #1155635 писал(а):

Это приводит к тому, что ранг матрицы $X^TX$ хоть и полный, но некоторые её собственные значения малы, обратные к ним, соответственно, велики, и коэффициенты становятся огромными (при этом для обычных формул регрессионного анализа оценки несмещённые, и "огромность" за счёт роста дисперсии; часто уход от истинного значения одного коэффициента возмещается уходом другого в противоположную - несколько условный пример, модель зависимости доходов домохозяйства от числа жён и мужей в нём, в норме должно быть зарплата мужа на число мужей в совместно проживающих семьях+зарплата жены на число жён, но поскольку почти во всей выборке число жён и мужей совпадает, вместо 10000М+8000Ж получаем 1010000М-992000Ж)

Именно это я имел в виду. Если смотреть на мои результаты с точки зрения теории, то видно, что именно такая картина и получается.

Евгений Машеров в сообщении #1155635 писал(а):

Я осмелюсь предположить, что Ваша проблема отнюдь не в мультиколлинеарности. Ею Вы, подозреваю, хотите объяснить содержательно бессмысленное значение свободного члена.

Не совсем. Константа А, и сумма коэффициентов a и ß одновременно представляют "уровень технологии" в уравнении. Но у константы также есть другое смысловое содержание - она представляет все другие влияющие факторы, не включенные в модель явно. Вопрос в том, больше вреда (за счет создания мултиколлинеарности) или пользы (за счет представления других факторов) она приносит. Поэтому собственно стоит задача именно измерения степени мультиколлинеарности в первую очередь.

Евгений Машеров · 30.09.2016, 12:42

Проблема тут из-за того, что данные у Вас - временные ряды, и оба ряда, для Капитала и Труда, сильно корелированы.

Grin_75 · 30.09.2016, 14:32

Евгений Машеров в сообщении #1155967 писал(а):

Проблема тут из-за того, что данные у Вас - временные ряды, и оба ряда, для Капитала и Труда, сильно корелированы.

Этого не отнять, оба показателя реагируют в одинаковом направлении на на спады и подъемы в экономике.

Я также рассчитывал коэффициенты по формуле без константы (q' = α*l' + β*k') и с точки зрения эконом.теории коэффициенты выглядели намного лучше. R квадрат также большой, но зато нету статистически незначимых коэффициентов.
Причем аналогичные расчеты я делал для 10 стран. При использовании формулы с константой статистическая незначимость коэффициентов встречается часто. При использовании формулы без константы - ни разу. Раз l' и k' и там , и там одинаковые, значит дело все таки в больше в константе, чем в корреляции между l' и k'.

Евгений Машеров · 30.09.2016, 14:42

Да, и ещё вопрос. В чём измеряем? И если L можно мерять в числе занятых, или в отработанном времени, это небольшая поправка на среднюю длину рабочего дня и среднее число рабочих дней в году, то K может быть book value или capitalization value (бухгалтерская стоимость активов и суммарная стоимость акций, соответственно), и разница может быть в разы. Впрочем, и для продукции надо точно определить, чем меряем.

dsge · 30.09.2016, 17:13

Данные, очевидно нестационарные. Технологический прогресс в моделях обычно учитывается как $Ae^{b\cdot t}$ , после логарифмирования получится линейный тренд. Добавьте его в регрессию.

Евгений Машеров · 30.09.2016, 18:33

Не думаю, что это улучшит ситуацию. Добавление ещё одной переменной, сильно коррелированной с имеющимися, ещё более усилит мультиколлинеарность.

Grin_75 · 30.09.2016, 22:08

Евгений Машеров в сообщении #1156009 писал(а):

Да, и ещё вопрос. В чём измеряем?

Все три переменные представлены как базисные индексы, т.е. темп роста соответствующего показателя к базисному году. Теоретически можно измерять и в абсолютных значениях, но тогда коэффициенты будут иметь совсем другие величины. Тогда не будет сопоставимости с другими исследованиями, а это в моем случае необходимо.

dsge в сообщении #1156069 писал(а):

Данные, очевидно нестационарные. Технологический прогресс в моделях обычно учитывается как $Ae^{b\cdot t}$ , после логарифмирования получится линейный тренд. Добавьте его в регрессию.

Да, там присутствует тренд. Просто устранить тренд, скажем взятием первых разностей, нельзя, потому что во-первых получится произвольная регрессия, а не ф-ция Кобба-Дугласа, а во-вторых будет проблема с содержательной интерпретацией коэффициентов. В том виде формулы, как сейчас, их можно интерпретировать, как вклад роста соотв. производственного фактора в рост производимой продукции.

Технологический прогресс я собирался добавлять в модель, но на следующем этапе исследования (опять же, т.к. нужно вначале получить результаты, сопоставимые с другими исследованиями). А сейчас нужно именно установить степень мултиколлинеарности.

Научный форум dxdy

Мультиколлинеарность в модели Кобба-Дугласа / расчет VIF