Метод наименьших квадратов и вокруг него

eugrita · 21.05.2013, 08:56

Попробуем понять, почему среди разных критериев отклонений данных от линейной зависимости, общеее распостранение получил критерий мин суммы квадратов отклонений. И есть ли ему альтернативы.
Конечно аргумент в пользу критерия мин суммы квадратов откл - он является оценкой мах правдоподобия
Но тем не менее исследователь может рассматривать несколько моделей - (для однофакторной зависимости) :регрессия y по x, регрессия x по y и главный компонент -линейная зависимость объясняющая наибольшее кол-во дисперсии.
Для полноты картины можно привести еще пару:
мин мах отклонения $\min \max |ax_i+b-y_i|$
и критерию мин суммы модулей отклонений $\min \sum{|ax_i+b-y_i|}$
Вот что приводит В.Ф. Демьянов в своей статье:http://www.pereplet.ru/obrazovanie/stsoros/390.html

А вот что получается у меня при сравнении 3 видов линейной регрессии
$y(x)=ax+b$ , $x=\frac{1}{a_1}y+b_1$
и прямой главных компонент (сумма отклонений квадратов расстояний от экспериментальных точек до оси мах дисперсии=min)

При сильных и средних отклонениях от линейности как и показал Демьянов может получиться полный абсурд и совершенно разные тенденции
При регрессии y по x отклонения считаются по вертикали, при регрессии x по y отклонения считаются по горизонтали, и,наконец, в методе главных компонент отклонения считаются в направлении нормалей к прямой гл.компонент
С МНК также вроде связан регуляризованный метод наим. квадратов, РМНК разработанный Тихоновым. Но хотелось бы чтобы кто-то пояснил его суть

Евгений Машеров · 21.05.2013, 10:47

Популярность метода наименьших квадратов связана с двумя его преимуществами, и оба они не являются абсолютными.
Квадратичная целевая функция - это линейные производные от неё, так что нахождение экстремума сводится к решению линейных уравнений. Что просто, быстро, но главное - однозначно (ну, есть ещё мультиколлинеарность, но это настолько мелкая проблема сравнительно с наличием множества локальных оптимумов в задаче оптимизации общего вида...)
Другое преимущество состоит в том, что для нормально распределённой ошибки МНК оптимален во многих смыслах (максимально правдоподобный, эффективно несмещённый и ещё в нескольких). Вопрос о том, насколько нормально пользоваться лишь нормальными моделями - лежит вне математики, и должен решаться исключительно на основе знаний о содержательной постановке. Скажем, если у нас есть основания ожидать двустороннего распределения Лапласа
$f(x)=\frac \alpha 2 e^{-\alpha|x-\beta|}$
то оптимальность убегает к методу наименьших модулей.
Реальное распределение будет, надо ожидать, отлично от любого аналитически выразимого, и вопрос о том, довериться ли ЦПТ и постулировать нормальный закон или заложиться на "тяжёлые хвосты", остаётся на совести исследователя. Зачастую это выбор между тем, чтобы в предположении нормальности получить быстрый, однозначный и почти всегда наиболее точный ответ, но с некоторой малой вероятностью нарваться на большой выброс, получив бред, или же, отказавшись от гипотезы нормальности, получить ответ менее точный, но устойчивый к выбросам.
Часто предпочитают по-прежнему использовать МНК, однако в обязательном порядке исследуя регрессионные остатки для выявления возможных выбросов, содержательного их анализа и принятия на основе такого анализа решения либо об отбрасывании этих наблюдений, как грубых ошибок (измерения ли, или включения данных наблюдений в выборку), либо об отказе от МНК в пользу МНМ или иного метода, либо о признании выборки и результатов расчёта вполне валидными.
Выбор между обычной постановкой регрессионной модели $y=Xa+\varepsilon$ и моделью с ошибками в обеих переменных также должен делаться не на основании общематематических соображений, а исключительно содержательных. Возможно, тут потребуется и более сложный подход, скажем, популярные в эконометрике структурные уравнения или относительно недавний метод частных наименьших квадратов
http://www.twirpx.com/file/1097635/
Что до регуляризации, то этот подход более общий, применяется не только в МНК, он может быть приложен и к МНМ, и к другим методам оценивания моделей, и к задачам другого рода.

eugrita · 22.05.2013, 07:35

1)К сожалению так получилось, что некоторое обсуждение этой темы началось фактически в теме с не имеющем отношение к этому названием
http://dxdy.ru/post726728.html?hilit=#p726728
Там ewert утверждает что для критерия $\min \max |ax_i+b-y_i|$
оптимальную прямую построить легко - это средняя линия одного из треугольников. Однако я считаю что этот критерий слабо подходит на роль статистического из-за сильной чувствительности к одной немного выскакивающей точке.
2)МНМ (метод наименьших модулей) обеспечивает максимум функции правдоподобия, если ошибки измерений подчиняются закону Лапласа. (как и пояснил Машеров)
3)метод МНК -частный случай оценок параметров нелинейной модели. Здесь тоже возможны разные подходы, в т.ч. как мерять расстояние (на примере 1 фактора) - по вертикали, по горизонтали или еще как. Правда о нелинейном аналоге метода главных компонент я не слышал.
Все вариации на тему - как мерять расстояние между 2 множествами

Евгений Машеров · 22.05.2013, 09:57

Нелинейного аналога метода главных компонент для оценки регрессии нет потому, что метод главных компонент подходит для оценки модели с ошибками во всех переменных только в линейном случае, в нелинейном нужно решать задачу оптимизации общего вида, минимизируя (возможно, взвешенную) сумму квадратов (или иную функцию потерь) поправок к значениям игреков и иксов, которые обеспечивают равенства $\tilde{y}=f(\tilde{x_1}\cdots \tilde{x_n})$ для всех наблюдений.
$\tilde{y}=y+\varepsilon$ и аналогично для иксов, минимизация как по параметрам модели, так и по поправкам $\varepsilon$

Научный форум dxdy

Метод наименьших квадратов и вокруг него