2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему
 
 Критерий Смирнова
Сообщение03.06.2015, 16:08 


16/11/14
47
Здравствуйте!
Такая задача: сравнить два текста на предмет однородности, используя критерий Смирнова. Объем текстов задан и равен $N$
Я решал так: Ищем $d_{\max}=\max\{|n_1-n_2|\}$, где $n_1$ и $n_2$ - относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле $\lambda_{e}=\sqrt{\frac{N\cdot N}{N+N}}d_{\max}=\sqrt{\frac{N}{2}}d_{\max}$. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.

Вопрос в следующем: в теории $d_{\max}=\max{|F_1(x)-F_2(x)|}$, где $F_1, F_2$ - эмпирические функции распределения для выборок. Как вообще выглядит функция распределения для текста или может надо рассматривать каждую букву отдельно? Как мне свести это выражение к разнице относительных частот?

 Профиль  
                  
 
 Re: Критерий Смирнова
Сообщение03.06.2015, 16:37 
Заслуженный участник
Аватара пользователя


01/03/06
13626
Москва
tazdraperm в сообщении #1023100 писал(а):
Я решал так: Ищем $d_{\max}=\max\{|n_1-n_2|\}$, где $n_1$ и $n_2$ - относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле $\lambda_{e}=\sqrt{\frac{N\cdot N}{N+N}}d_{\max}=\sqrt{\frac{N}{2}}d_{\max}$. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.

А как вы поняли, что нужно решать именно так? И что называется "однородностью текстов"?

 Профиль  
                  
 
 Re: Критерий Смирнова
Сообщение03.06.2015, 22:16 


16/11/14
47
Brukvalub в сообщении #1023106 писал(а):
tazdraperm в сообщении #1023100 писал(а):
Я решал так: Ищем $d_{\max}=\max\{|n_1-n_2|\}$, где $n_1$ и $n_2$ - относительная частота появление буквы в соответствующей выборке. Смотрим все буквы, находим максимальную разность. Далее находим эмпирическое значение по формуле $\lambda_{e}=\sqrt{\frac{N\cdot N}{N+N}}d_{\max}=\sqrt{\frac{N}{2}}d_{\max}$. И далее сравниваем его с критическим значением, которое можно найти по таблице. Если полученное значение меньше критического, то считаем тексты однородными.

А как вы поняли, что нужно решать именно так? И что называется "однородностью текстов"?


Честно говоря, я нашел пример применения критерия, там использовались разности для относительных частот. Преподаватель сказал, что так можно, но нужно обосновать, почему.
Под однородностью тут понимается верность гипотезы о равенстве эмпирических функций распределения, видимо.

 Профиль  
                  
 
 Re: Критерий Смирнова
Сообщение03.06.2015, 22:24 
Заслуженный участник
Аватара пользователя


01/03/06
13626
Москва
tazdraperm в сообщении #1023167 писал(а):
Под однородностью тут понимается верность гипотезы о равенстве эмпирических функций распределения, видимо.
Распределения какой случайной величины?

 Профиль  
                  
 
 Re: Критерий Смирнова
Сообщение04.06.2015, 05:41 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Какую бы величину тут ни придумать, она в любом случае будет иметь дискретное распределение. Что крайне печально для критерия Смирнова.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group