Здравствуйте!
Такая задача: сравнить два текста на предмет однородности, используя критерий Смирнова. Объем текстов задан и равен
Я решал так: Ищем
, где
и
- относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле
. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.
Вопрос в следующем: в теории
, где
- эмпирические функции распределения для выборок. Как вообще выглядит функция распределения для текста или может надо рассматривать каждую букву отдельно? Как мне свести это выражение к разнице относительных частот?