Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 Критерий Смирнова
Здравствуйте!
Такая задача: сравнить два текста на предмет однородности, используя критерий Смирнова. Объем текстов задан и равен $N$
Я решал так: Ищем $d_{\max}=\max\{|n_1-n_2|\}$, где $n_1$ и $n_2$ - относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле $\lambda_{e}=\sqrt{\frac{N\cdot N}{N+N}}d_{\max}=\sqrt{\frac{N}{2}}d_{\max}$. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.

Вопрос в следующем: в теории $d_{\max}=\max{|F_1(x)-F_2(x)|}$, где $F_1, F_2$ - эмпирические функции распределения для выборок. Как вообще выглядит функция распределения для текста или может надо рассматривать каждую букву отдельно? Как мне свести это выражение к разнице относительных частот?

 Re: Критерий Смирнова
Аватара пользователя
tazdraperm в сообщении #1023100 писал(а):
Я решал так: Ищем $d_{\max}=\max\{|n_1-n_2|\}$, где $n_1$ и $n_2$ - относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле $\lambda_{e}=\sqrt{\frac{N\cdot N}{N+N}}d_{\max}=\sqrt{\frac{N}{2}}d_{\max}$. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.

А как вы поняли, что нужно решать именно так? И что называется "однородностью текстов"?

 Re: Критерий Смирнова
Brukvalub в сообщении #1023106 писал(а):
tazdraperm в сообщении #1023100 писал(а):
Я решал так: Ищем $d_{\max}=\max\{|n_1-n_2|\}$, где $n_1$ и $n_2$ - относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле $\lambda_{e}=\sqrt{\frac{N\cdot N}{N+N}}d_{\max}=\sqrt{\frac{N}{2}}d_{\max}$. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.

А как вы поняли, что нужно решать именно так? И что называется "однородностью текстов"?


Честно говоря, я нашел пример применения критерия, там использовались разности для относительных частот. Преподаватель сказал, что так можно, но нужно обосновать, почему.
Под однородностью тут понимается верность гипотезы о равенстве эмпирических функций распределения, видимо.

 Re: Критерий Смирнова
Аватара пользователя
tazdraperm в сообщении #1023167 писал(а):
Под однородностью тут понимается верность гипотезы о равенстве эмпирических функций распределения, видимо.
Распределения какой случайной величины?

 Re: Критерий Смирнова
Аватара пользователя
Какую бы величину тут ни придумать, она в любом случае будет иметь дискретное распределение. Что крайне печально для критерия Смирнова.

 [ Сообщений: 5 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group