Kак найти оптимальное значение ранга матрицы, к которой надо редуцировать исходную матрицу при сингулярном разложении?
У меня есть матрица: в строках у нее слова, в столбцах — документы, элементами матрицы представляют собой частоту появления слова в документе(матрица термы на документы term-document matrix ) Мне нужно выявить латентныe зависимости внутри множества документов. Для этого обычно к исходной матрице применяют метод сингулярного разложения. Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы использовалась матрица термы-на-документы, то матрица, содержащая только первых линейно независимых k компонент , отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Если выбранное значение k слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами. Как выбирают это k? я нашла статью
http://dl.acm.org/citation.cfm?id=1277893, где для поиска оптимального k применяется Akaike criterion Они предполагают, что документы имеют нормальное распределение, выпивают функцию правдоподобия, которая представляет собой многомерный интеграл и входит в критерий Aкаике.. затем вычисляют критерий для каждого k, а k, на котором он минимален, принимают за оптимальное