Согласно Википедии, метод главных компонент находит

-мерное линейное многообразие

-мерного пространства, для которого сумма квадратов расстояний от данных точек

до

минимальна:

. Далее говорится, что

и описывается процедура последовательного построения

, добавляя по одному вектору в базис: в качестве

берём среднее арифметическое

, отнимаем его от всех

, выбираем единичный вектор

, который минимизирует

, отнимаем от всех

проекции на

, выбираем единичный

который минимизирует

, и т.д.. Векторы

образуют базис

(соответствующего подпространства).
Фактически в описанном алгоритме

строятся "жадно", выбирая на каждом шаге вектор

, фиксируя остальные. Почему полученные многообразия оптимальны в смысле минимизации

? Если доказать, что оптимальные

вложены, то вроде понятно. Может это доказано в какой-то статье или книге?