люди добрые, помогите понять что такое базис

Kras · 04.06.2015, 23:45

(Оффтоп)

mihailm в сообщении #1023480 писал(а):

Одни ЗУ, можно и в пургатории обсуждать

Если тему поместят в Пургаторий, то вы, mihailm, туда не доберётесь. Это, конечно, плюс. Минус, что туда не доберётся ТС.

Munin · 04.06.2015, 23:47

bigarcus в сообщении #1023491 писал(а):

ewert, чтобы применить PCA линал вообще знать не нужно

Но вы всё-таки почитайте. Потому что действительно, знать его надо.

bigarcus · 05.06.2015, 00:04

я хочу разобраться, но учебник-видео-лекции меня пугают (там 29 лекций из MIT часовых нужно просмотреть, чтобы досмотреть до темы разложения матриц, а в учебнике страниц не много но без примеров и прорешки кучи задач двигаться сложно)

надеюсь, у меня не так много вопросов по большому счету осталось

вот основные:
1) Я прочитал, что смысл главных векторов матрицы - это такие направления, которые при действии этой матрицы на что-нибудь другое (вектор или матрицу другую) сохраняются, то есть не поворачиваются, а лишь растягивается или сжимается, при этом коэффициент сжатия/растяжения это соответствующее собственное значение.
Далее, я прочитал, что смысл PCA - это найти такую новую систему координат, в которой исходные данные выглядят более привлекательно. привлекательность должна быть такая, что типа осей в новой системе координат столько же по числу, сколько и в старой было, но они "упорядочены" в порядке убывания "объяснения" разброса (за показатель дисперсии вроде берется) данных.
то есть первая ось после PCA проводится так, чтобы если взять только её, то на неё приходилась бы максимальная дисперсия.
Вопрос: как связаны собственные вектора с дисперсией? Почему максимальная дисперсия приходится на ось, проведенную в направлении собственного вектора исходной (пусть корреляционной) матрицы, соответствующему максимальному собственному значению этой корреляционной матрицы? Где тут связь, непонятно.

2) Я прочитал, что с технической точки зрения PCA - в том, что матрица в центре выражения $Q\Lambda Q^T$ является диагональной. Второе, я прочитал, крутость диагональности матрицы в независимости векторов, из которых она состоит (то есть, они делаются независимыми).
Вопрос: что это за вектора такие (в геометрическом или статистическом смысле), которые мы хотим сделать независимыми?

-- Пт июн 05, 2015 00:06:37 --

Munin, это не значит, что я линал в руки не возьму, но может пролить для меня свет и вдруг даже смотивировать еще досканальнее понять
над вашим тем и arseniiv сообщениями я тоже ещё буду медитировать

Munin · 05.06.2015, 00:50

Я думаю, что вам надо:
1. Прочитать учебник по линалу безусловно.
2. Только после этого задавать вопросы про PCA, причём в отдельной теме, совершенно другим людям.

Те люди, которые разбираются в PCA - они разговаривают на языке линала в совершенстве, и объяснять его вам не намерены.
Те люди, которые готовы объяснять вам линал - не знают PCA, и им наплевать на PCA.

И об этом вам уже было сказано, кажется, год назад.

bigarcus · 05.06.2015, 01:33

я забросил тогда, а сейчас вернулся к той теме

-- Пт июн 05, 2015 01:44:49 --

а как мне задать вопрос в другой теме другим людям?

Xaositect · 05.06.2015, 10:06

bigarcus в сообщении #1023503 писал(а):

Вопрос: как связаны собственные вектора с дисперсией? Почему максимальная дисперсия приходится на ось, проведенную в направлении собственного вектора исходной (пусть корреляционной) матрицы, соответствующему максимальному собственному значению этой корреляционной матрицы? Где тут связь, непонятно.

Не корреляционной, а ковариационной матрицы. Это существенно. А для того, чтобы это понять, нужно а) уметь вычислить дисперсию "вдоль оси", то есть проекции случайного вектора на какое-то направление, то есть скалярного произведения случайного вектора на орт этого направления; и б) знать экстремальные свойства собственных или сингулярных значений: для самосопряженного оператора $A$ максимальное с.з. будет $\lambda_{\max} = \max\limits_{||x|| = 1} (Ax, x)$ .

bigarcus в сообщении #1023503 писал(а):

2) Я прочитал, что с технической точки зрения PCA - в том, что матрица в центре выражения $Q\Lambda Q^T$ является диагональной. Второе, я прочитал, крутость диагональности матрицы в независимости векторов, из которых она состоит (то есть, они делаются независимыми).
Вопрос: что это за вектора такие (в геометрическом или статистическом смысле), которые мы хотим сделать независимыми?

Это что-то странное. Независимость тут вроде бы ни при чем, ни линейная, ни статистическая.

Geen · 05.06.2015, 10:58

bigarcus в сообщении #1023503 писал(а):

Вопрос: что это за вектора такие

Если не путаю, это главные оси эллипсоида инерции....

ewert · 05.06.2015, 11:15

Xaositect в сообщении #1023561 писал(а):

Это что-то странное. Независимость тут вроде бы ни при чем, ни линейная, ни статистическая.

Это просто путаница в терминологии. Независимость здесь действительно очень при чём; только независимы не векторы, разумеется, а координаты относительно базиса из этих векторов (собственных векторов ковариационной матрицы).

bigarcus · 05.06.2015, 11:22

1) про корреляционная vs ковариационная матрицы
я видел в программах и читал о PCA, что можно начинать PCA c любой из этих матриц
при этом ковариационная предпочтительна когда переменные измерены по одной шкале
а корреляционная предпочтительнее, когда единицы измерения отличны, в ней стандартизируются переменные

2) про важность диагонализации
я это читал в куче мест, например

http://math.stackexchange.com/a/23615

Цитата:

But it's interesting to ask, is it possible to diagonalize the covariance matrix by changing basis of the vector?. In this case there will be no (i.e. zero) correlations between different variables of the vector.

http://people.maths.ox.ac.uk/richardsonm/SignalProcPCA.pdf

Цитата:

Covariance can be considered to be a measure of how well correlated two variables are. The PCA method makes the fundamental assumption that the variables in the transformed matrix should be as uncorrelated as possible. This is equivalent to saying that the covariances of different variables in the matrix $C_Y$ , should be as close to zero as possible (covariance matrices are always positive definite or positive semi-definite). Conversely, large variance values interest us, since they correspond to interesting dynamics in the system (small variances may well be noise). We therefore have the following requirements for constructing the covariance matrix, $C_Y$ :
1. Maximise the signal, measured by variance (maximise the diagonal entries)
2. Minimise the covariance between variables (minimise the off-diagonal entries)
We thus come to the conclusion that since the minimum possible covariance is zero, we are seeking a diagonal matrix, $C_Y$ . If we can choose the transformation matrix, $P$ in such a way that $C_Y$ is diagonal, then we will have achieved our objective.

-- Пт июн 05, 2015 11:26:16 --

про экстремальные свойства собственных значений матрицы слышу первый раз, покопаю

Xaositect · 05.06.2015, 11:29

А. Да, связь с зависимостью случайных величин все-таки есть. Если матрица недиагональная - то переменные точно зависимы, если же нет - то они некоррелированны (что не то же самое, что независимы).

ewert · 05.06.2015, 11:33

Xaositect в сообщении #1023591 писал(а):

(что не то же самое, что независимы).

То же самое, т.к. схема подразумевает нормальность распределения.

bigarcus · 05.06.2015, 13:38

Xaositect
а чего там было по первому пункту, что существенного для PCA именно в ковариационной матрице?

Xaositect · 05.06.2015, 13:48

Ковариация билинейна, так что если мы действительно хотим найти направление, вдоль которого разброс наибольший, надо считать ковариацию.

Munin · 05.06.2015, 14:36

bigarcus в сообщении #1023527 писал(а):

а как мне задать вопрос в другой теме другим людям?

Создаёте новую тему и задаёте вопрос. А дальше ждёте, что к вам придут специалисты по PCA. Для пущего привлечения, можно упомянуть эту аббревиатуру в названии темы.

bigarcus · 05.06.2015, 15:39

Xaositect в сообщении #1023629 писал(а):

Ковариация билинейна

вот я постарался разобраться, почитал википедию

для генеральной совокупности
формула ковариации $Cov(X,Y)=\frac{1}{n}\sum (x_i-\bar{X})(y_i-\bar{Y})$
формула корреляции $Corr(X,Y)=\frac{(x_i-\bar{X})(y_i-\bar{Y})}{\sqrt{(x_i-\bar{X})^2(y_i-\bar{Y})^2}}$

обе они - это функции двух переменных: $X$ и $Y$
билинейность функции $f(X,Y)$ двух переменных - это линейность по обеим аргументам, т.е. и по $X$ , и по $Y$
поскольку и $Cov(X,Y)$ и $Corr(X,Y)$ - функции симметричные, то можно показать линейность только по например $X$

сама линейность $f$ в случае одного аргумента - это одновременное выполнение
$f(c\cdot x)=c\cdot f(x)$
и $f(x+y)=f(x)+f(y)$

тогда для билинейности ковариации нужно
$Cov(c\cdot X,Y)=c\cdot Cov(X,Y)$
$Cov(X+Z,Y)=Cov(X,Y)+Cov(Z,Y)$
и я проверил эти условия численно в экселе, тут все ОК

а для билинейности корреляции нужно
$Corr(c\cdot X,Y)=c\cdot Corr(X,Y)$
$Corr(X+Z,Y)=Corr(X,Y)+Corr(Z,Y)$
а тут и первое и второе условия проваливаются!

еще я прочитал:
что корреляция безразмерная, в отличие от ковариации
что ковариация зависит от масштаба (и при смене масштаба она меняется тоже)

-- Пт июн 05, 2015 15:42:07 --

итак, ясно что ковариация билинейна в отличие от корреляции
но как это связано с

Xaositect в сообщении #1023629 писал(а):

так что если мы действительно хотим найти направление, вдоль которого разброс наибольший, надо считать ковариацию.

?

-- Пт июн 05, 2015 16:04:19 --

и если это так, то почему в куче разборов PCA что я прочитал не делалось предпочтения $Cov$ матрице перед $Corr$ ?
да и на форумах на прямые вопросы про $Cov$ vs $Corr$ не пишут
http://stats.stackexchange.com/questions/53/pca-on-correlation-or-covariance

Научный форум dxdy

люди добрые, помогите понять что такое базис