sendspam писал(а):
Что означает - система использует только комбинации признаков? Это как можно организовать?
В статистике для этого используется метод главных компонент (principal components).
Как это делается при распознавании образов описано в книгах:
1. Фукунага К., Введение в статистическую теорию распознования образов. Наука. 1979. (Главы 8-10).
2. Шайеб А. Линейные метрические алгоритмы распознавания образов. МГУ. 2005. (Параграф 2.2)
Все эти приемы основаны на линейных операциях и не гарантируют снижение размерности.
Об учете нелинейных зависимостей см. у Фукунаги, гл.10.
На пространстве 2000 признаков, при 100 объектах, линейные методы найдут не более 100 комбинированных признаков. Но это связанно не с существом задачи, а с ограниченностью числа объектов, о чем и говорит
PAV. Расчитывать на достоверные результаты статистических методов можно только если число объектов значительно больше числа признаков.
Аналогия: линейная регрессия на плоскости.
- Если есть 1 точка, то задача бессмысленна.
- Если есть 2 точки, то прямая только одна, но ее точность зависит от точности координат точек и не может быть определена непосредственно из данных..
- А вот если даны 30 точек, то можно построить регрессионную прямую и оценить ее точность.