2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Оценка вариации текстового множества.
Сообщение22.07.2016, 08:16 


07/03/15
27
Добрый день!
Мне необходимо использовать какую-то меру множеств с текстовыми предложениями что бы оценивать его разброс, хаотичность.

Например разброс
{{а, роза, упала}, {роза, на, упала}, {упала, роза, роза}} близок к нулю, потому что все элементы близки друг другу.

В тоже время разброс
{{а, роза, упала}, {сунул, грека}, {без, труда, не}} высок.

В данный момент я использую отношение симметрической разности подможнеств к количесту слов, но не уверен что это лучшее решение.

 Профиль  
                  
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 09:10 


19/03/16

114
Мы не знаем, что вам надо, у вас формулировки слишком расплывчатые.
При таких обстоятельствах у вас есть несколько путей.
Сформулируйте вашу прикладную задачу и возможно получите подсказку, идею.
Формулируйте ситуации на примерах, далее упорядочивайте их интуитивно, после этого формализуйте введенные упорядочивания.
Формулируйте на словах свойства, которыми бы вы желали, чтобы обладали метрики, после этого будет несложно сконстрировать метрику.
Просто гуглите примеры метрик, расстояний.

-- 22.07.2016, 10:27 --

Как вариант, поскольку вы работаете с текстом.
это минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую.

 Профиль  
                  
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 10:17 


07/03/15
27
Например, я хочу утверждать о том, что множество
Цитата:
{НЕГЛИНГЕ Подсвечник д свечи/греющ свечи, ПОДСВЕЧНИК ИКЕА НЕГЛИНЕ Д/ФОРМ.СВЕЧИ 21СМ}
характеризует один товар, но
Цитата:
{Вода БОРЖОМИ 1л негаз, 'кружка нерж 1шт'}
- это шум.

Сейчас я использую пересечения и разности подмножеств и, как вы верно подметили, расстояние Левенштейна. Но хотелось бы услышать другие мысли, особенно касающиеся случайных величин.

 Профиль  
                  
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 10:25 
Заслуженный участник


10/01/16
2315
dxd
Таки Вы хотите оценить близость текстов не по формальным характеристикам, а по
dxd в сообщении #1139441 писал(а):
характеризует один товар, но

"содержательным". Эта задача исследовалась Фоменко, применительно к историческим текстам, в книге, которая называлась - что-то вроде "Статистический анализ нарративных текстов"

-- 22.07.2016, 11:32 --

А, Гугль грит "Методы стат-го анализа исторических текстов". (Но у меня где-то была - именно про нарративные...) . И это - не псевдонаука, а добротная математика. Это уж потом последователи и противники АТ сделали из его работ несъедобное вино с гретом....

 Профиль  
                  
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 11:00 


19/03/16

114
dxd Мне нечего добавить к предыдущему, поскольку
buddy в сообщении #1139437 писал(а):
Мы не знаем, что вам надо, у вас формулировки слишком расплывчатые.
При таких обстоятельствах у вас есть несколько путей....
и далее по тексту ;)
Возьму на себя смелость утверждать, что и другим тоже будет нечего добавить, я заметил, что тут мало телепатов )

 Профиль  
                  
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 12:08 
Заслуженный участник


22/11/10
1183
Есть такое преобразование Барроуза-Уиллера (BWT = Burrows-Wheller transform). Нынче его применяют для эффективного сжатия текстов. Однако Уиллер придумал его (вроде бы) как раз для анализа избыточности текста. Может стоит с ним поэкспериментировать?
Это преобразование само по себе весьма любопытное. У него есть такое "хорошее" свойство. Если в тексте слова поменять местами и "незначительно" исказить, то результат получается довольно похожим на "оригинальный". Вот уж после этого можно применять какие-то расстояния Левенштейна итп.

 Профиль  
                  
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 18:57 
Заслуженный участник


27/04/09
28128
dxd в сообщении #1139433 писал(а):
множеств
dxd в сообщении #1139433 писал(а):
{упала, роза, роза}
Это уже мультимножества (если это не то же самое, что $\{\textit{упала},\textit{роза}\}$). :-) Потом, в тексте вообще часто важен порядок слов, так что даже и не мультимножества. Просто конечные последовательности.

 Профиль  
                  
 
 Re: Оценка вариации текстового множества.
Сообщение23.07.2016, 15:17 


07/03/15
27
Цитата:
если это не то же самое,

Это то же самое).
И на порядок можно закрыть глаза.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 8 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group