2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Расстояние Махаланобиса - линейная алгебра
Сообщение08.10.2012, 16:53 
Добрый день!

Я хотел бы понят что конкретно измеряет расстояние Махаланобиса. Вот определение.

Коротко: имеется вектор средних значений $\mu$ и ковариационная матрица $S$, тогда расстояния Махаланобиса для вектора $x$ есть $\sqrt{(x-\mu)S^{-1}(x-\mu)}$

Наверное это больше вопрос по линейной алгебре: Если имеется положительно определенная матрица, каков смысл (геометрическая интерпретация) задаваемого ей расстояния? Как это представить с помощью эллипса соответствующего этой матрице? Почему берётся обратная матрица?

Кстати, оси эллипса это ведь и есть собственные вектора матрицы?

Спасибо

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение08.10.2012, 20:18 
Аватара пользователя
Смысл введения этого расстояния - метрика, не зависящая от того, что вектора могут быть подвергнуты линейному преобразованию.
Скажем, в прикладной задаче можно охарактеризовать предприятие величинами доходов и расходов, а можно оборотом (Д+Р) и прибылью (Д-Р), размеры человека ростом и длиной ног, а можно ростом и длиной туловища. Эти линейные преобразования ничего не меняют в характеристиках объектов, но если вводить расстояние более привычным способом, расстояния будут зависеть от этого преобразования. Если характеристики объекта это величины разной физической размерности - появляется зависимость от того, температура по Цельсию или Фаренгейту, расстояния в метрах или футах, световых годах или парсеках, но даже если размерность одинакова - размах разных величин разный, скажем, в задаче сравнения характеристик здоровья человека компонентами вектора могут быть путь, проходимый им за час в метрах, и давление крови в мм. (ртутного столба).
Геометрически это можно представить, как переход в новую систему координат, ортогональную и в которой дисперсии всех компонент преобразованного вектора равны единице.

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение09.10.2012, 16:46 
Огромное спасибо!

Я никак не могу увидеть матрицу замены координат. Ковариационную матрицу можно записать в виде $S=S^{1/2}S^{1/2}$ или же через иразложение Холе́цкого $S=LL^T$, тогда расстояние Махаланобиса можно записать $\sqrt{(x-\mu)^TS^{-1}(x-\mu)}=\sqrt{S^{-1/2}(x-\mu)S^{-1/2}(x-\mu)}$, аналогично для Холе́цкого. Как эту замену координат можно представить на эллипсе задаваемом матрицей ковариации?

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение09.10.2012, 19:36 
Аватара пользователя
А Вы эту матрицу разложите не по Холецкому, а по собственным векторам и значениям.
$S=C^T \Lambda C$
Соответственно
$S^{-1}=C^T \Lambda^{-1} C$
И тогда получается довольно ясно, если вспомнить, что лямбды - квадраты длин осей эллипсоида. То есть С у нас поворачивает координатные оси, чтобы она совпадали с осями эллипсоида, а $\Lambda^{-1}$ приводит отклонения по этим осям к стандартной величине.
Ну, или не совсем строго можно сказать, что мы так деформировали пространство, что эллипсоид у нас стал шаром, и уже в этом деформированном пользуемся обычной квадратичной метрикой.
До Махаланобиса был предложен более простой показатель (одной британской антропологиней, то ли археологиней, она древнеегипетские черепа меряла, сравнивая по династиям), в котором отклонения делились на стандартные отклонения соответствующих параметров. Очевидно, это совпадает с расстоянием Махаланобиса, если S диагональна. Но не учитывается корреляция между параметрами. А Махаланобис её учитывает (и не получится, введя вместо одного параметра N его повторных измерений, увеличить его вклад в N раз; они совпадают с точностью до ошибок измерения, корреляция стремится к единице, и вес у них получается меньше).

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение11.10.2012, 18:38 
Ещё раз огромное спасибо, теперь все встало на свои места!

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение12.10.2012, 19:43 
Кстати, сразу возникает вопрос. Подход используемый в метрике Махаланобиса, можно применить для нормализации векторов. т.е. \tilda{x}=$\sqrt{\Lambda^{-1}}C(x-\mu)$, где $\tilda{x}$ нормализованный вектор.

Интересно, есть ли какие-нибудь печатные материалы по нормализации векторов для регрессии? В частности, какие преимущества вышеприведенной нормализации перед простой нормализацией $\frac{x-\mu}{\sigma}$ (здесь имеется ввиду покомпонентная нормализация) для случая линейной регрессии?

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение12.10.2012, 20:26 
Аватара пользователя
В смысле независимых переменных? А никакой (ну, кроме ортогональности и выигрыша в точности вычислений, но в этом случае лучше прямо сингулярное разложение использовать).

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение13.10.2012, 00:43 
А что $\sqrt{\lambda^{-1}}C$ даст нам на выходе ортогональные вектора? Какую ортогональность вы имели ввиду?

А нормализовывать я собирался как зависимую переменную, так и независимые.

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение13.10.2012, 11:12 
Аватара пользователя
Ну, давайте представим число его сингулярным разложением:
$X=S \Lambda C$
Тогда $R=X^TX=C^T\Lambda^2C$ и $S=X C^T \Lambda^{=1}$ ортонормированы.

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение13.10.2012, 14:36 
Аватара пользователя
(На всякий случай - тут не в одинаковом смысле употреблена лямбда)

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение15.10.2012, 05:08 
Понимаю, вы говорите об ортогональности матриц.

Я все таки хотел бы уточнить свой вопрос и уточнить ваш ответ.

Пусть у меня имеются 3 вектора $X_1, X_2$ независимые перепеменные и $Y$ зависимая переменная. Перед линейной регрессией, я их нормирую: $\tilde{X_1}=\frac{X_1-\bar{X_1}}{\sigma_{X_1}}$; $\tilde{X_2}=\frac{X_2-\bar{X_2}}{\sigma_{X_2}}$; $\tilde{Y}=\frac{Y-\bar{Y}}{\sigma_{Y}}$ Плюс данного подхода я вижу в том, что коеффициенты регрессии $ \beta_{X_1},\beta_{X_2} $ легче сравнивать и они отражают вероятность принятия определенного значения переменной.

Недостаток, я вижу в том, что я прост делю на дисперсию и не учитываю ковариацию. Если же пронормировать через $\sqrt{\Lambda ^{-1}}C$ (где $\Lambda$ есть матрица ковариации), то будет учтена ковариация.

Неужели эти два подхода не имеют никаких преимуществ по сравнению друг с другом? Мне кажется нормирование $\sqrt{\Lambda ^{-1}}C$ более предпочтительным.

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение15.10.2012, 08:04 
Аватара пользователя
Этот подход известен, например, как "регрессия на главные компоненты" (поскольку независимые переменные при такой нормировке совпадают с главными компонентами в смысле факторного анализа). Однако главные компоненты могут быть трудно интерпретируемы. Если же после получения регрессии на ГК вернуться к исходным переменным, то этот недостаток исчезнет, как и главное преимущество - оценки коэффициентов, для ортогональных регрессоров независимые, станут вновь коррелированными (второе преимущество, меньшая вычислительная ошибка, останется). Некий обзор по теме можно найти, например, у Демиденко Е.З., "Линейная и нелинейная регрессии".
Ну и, может, чем и пригодится моя диссертация (достаточно давняя)
http://narod.ru/disk/41796699001.615bfe ... 2.pdf.html
http://narod.ru/disk/41796744001.2b15b7 ... F.pdf.html

 
 
 
 Re: Расстояние Махаланобиса - линейная алгебра
Сообщение15.10.2012, 20:03 
Спасибо! Это мне теперь надолго читать!

 
 
 [ Сообщений: 13 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group