2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Оценка вариации текстового множества.
Сообщение22.07.2016, 08:16 
Добрый день!
Мне необходимо использовать какую-то меру множеств с текстовыми предложениями что бы оценивать его разброс, хаотичность.

Например разброс
{{а, роза, упала}, {роза, на, упала}, {упала, роза, роза}} близок к нулю, потому что все элементы близки друг другу.

В тоже время разброс
{{а, роза, упала}, {сунул, грека}, {без, труда, не}} высок.

В данный момент я использую отношение симметрической разности подможнеств к количесту слов, но не уверен что это лучшее решение.

 
 
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 09:10 
Мы не знаем, что вам надо, у вас формулировки слишком расплывчатые.
При таких обстоятельствах у вас есть несколько путей.
Сформулируйте вашу прикладную задачу и возможно получите подсказку, идею.
Формулируйте ситуации на примерах, далее упорядочивайте их интуитивно, после этого формализуйте введенные упорядочивания.
Формулируйте на словах свойства, которыми бы вы желали, чтобы обладали метрики, после этого будет несложно сконстрировать метрику.
Просто гуглите примеры метрик, расстояний.

-- 22.07.2016, 10:27 --

Как вариант, поскольку вы работаете с текстом.
это минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую.

 
 
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 10:17 
Например, я хочу утверждать о том, что множество
Цитата:
{НЕГЛИНГЕ Подсвечник д свечи/греющ свечи, ПОДСВЕЧНИК ИКЕА НЕГЛИНЕ Д/ФОРМ.СВЕЧИ 21СМ}
характеризует один товар, но
Цитата:
{Вода БОРЖОМИ 1л негаз, 'кружка нерж 1шт'}
- это шум.

Сейчас я использую пересечения и разности подмножеств и, как вы верно подметили, расстояние Левенштейна. Но хотелось бы услышать другие мысли, особенно касающиеся случайных величин.

 
 
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 10:25 
dxd
Таки Вы хотите оценить близость текстов не по формальным характеристикам, а по
dxd в сообщении #1139441 писал(а):
характеризует один товар, но

"содержательным". Эта задача исследовалась Фоменко, применительно к историческим текстам, в книге, которая называлась - что-то вроде "Статистический анализ нарративных текстов"

-- 22.07.2016, 11:32 --

А, Гугль грит "Методы стат-го анализа исторических текстов". (Но у меня где-то была - именно про нарративные...) . И это - не псевдонаука, а добротная математика. Это уж потом последователи и противники АТ сделали из его работ несъедобное вино с гретом....

 
 
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 11:00 
dxd Мне нечего добавить к предыдущему, поскольку
buddy в сообщении #1139437 писал(а):
Мы не знаем, что вам надо, у вас формулировки слишком расплывчатые.
При таких обстоятельствах у вас есть несколько путей....
и далее по тексту ;)
Возьму на себя смелость утверждать, что и другим тоже будет нечего добавить, я заметил, что тут мало телепатов )

 
 
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 12:08 
Есть такое преобразование Барроуза-Уиллера (BWT = Burrows-Wheller transform). Нынче его применяют для эффективного сжатия текстов. Однако Уиллер придумал его (вроде бы) как раз для анализа избыточности текста. Может стоит с ним поэкспериментировать?
Это преобразование само по себе весьма любопытное. У него есть такое "хорошее" свойство. Если в тексте слова поменять местами и "незначительно" исказить, то результат получается довольно похожим на "оригинальный". Вот уж после этого можно применять какие-то расстояния Левенштейна итп.

 
 
 
 Re: Оценка вариации текстового множества.
Сообщение22.07.2016, 18:57 
dxd в сообщении #1139433 писал(а):
множеств
dxd в сообщении #1139433 писал(а):
{упала, роза, роза}
Это уже мультимножества (если это не то же самое, что $\{\textit{упала},\textit{роза}\}$). :-) Потом, в тексте вообще часто важен порядок слов, так что даже и не мультимножества. Просто конечные последовательности.

 
 
 
 Re: Оценка вариации текстового множества.
Сообщение23.07.2016, 15:17 
Цитата:
если это не то же самое,

Это то же самое).
И на порядок можно закрыть глаза.

 
 
 [ Сообщений: 8 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group