2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Критерий Смирнова
Сообщение03.06.2015, 16:08 
Здравствуйте!
Такая задача: сравнить два текста на предмет однородности, используя критерий Смирнова. Объем текстов задан и равен $N$
Я решал так: Ищем $d_{\max}=\max\{|n_1-n_2|\}$, где $n_1$ и $n_2$ - относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле $\lambda_{e}=\sqrt{\frac{N\cdot N}{N+N}}d_{\max}=\sqrt{\frac{N}{2}}d_{\max}$. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.

Вопрос в следующем: в теории $d_{\max}=\max{|F_1(x)-F_2(x)|}$, где $F_1, F_2$ - эмпирические функции распределения для выборок. Как вообще выглядит функция распределения для текста или может надо рассматривать каждую букву отдельно? Как мне свести это выражение к разнице относительных частот?

 
 
 
 Re: Критерий Смирнова
Сообщение03.06.2015, 16:37 
Аватара пользователя
tazdraperm в сообщении #1023100 писал(а):
Я решал так: Ищем $d_{\max}=\max\{|n_1-n_2|\}$, где $n_1$ и $n_2$ - относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле $\lambda_{e}=\sqrt{\frac{N\cdot N}{N+N}}d_{\max}=\sqrt{\frac{N}{2}}d_{\max}$. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.

А как вы поняли, что нужно решать именно так? И что называется "однородностью текстов"?

 
 
 
 Re: Критерий Смирнова
Сообщение03.06.2015, 22:16 
Brukvalub в сообщении #1023106 писал(а):
tazdraperm в сообщении #1023100 писал(а):
Я решал так: Ищем $d_{\max}=\max\{|n_1-n_2|\}$, где $n_1$ и $n_2$ - относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле $\lambda_{e}=\sqrt{\frac{N\cdot N}{N+N}}d_{\max}=\sqrt{\frac{N}{2}}d_{\max}$. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.

А как вы поняли, что нужно решать именно так? И что называется "однородностью текстов"?


Честно говоря, я нашел пример применения критерия, там использовались разности для относительных частот. Преподаватель сказал, что так можно, но нужно обосновать, почему.
Под однородностью тут понимается верность гипотезы о равенстве эмпирических функций распределения, видимо.

 
 
 
 Re: Критерий Смирнова
Сообщение03.06.2015, 22:24 
Аватара пользователя
tazdraperm в сообщении #1023167 писал(а):
Под однородностью тут понимается верность гипотезы о равенстве эмпирических функций распределения, видимо.
Распределения какой случайной величины?

 
 
 
 Re: Критерий Смирнова
Сообщение04.06.2015, 05:41 
Аватара пользователя
Какую бы величину тут ни придумать, она в любом случае будет иметь дискретное распределение. Что крайне печально для критерия Смирнова.

 
 
 [ Сообщений: 5 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group