2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Марковские цепи
Сообщение05.03.2007, 14:51 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Все вчерашнее воскресенье я потратил на то, чтобы приложить идею марковской цепи к текстовому анализу. Ничего путного у меня не вышло. Единственный неожиданный для меня факт, хотя и, наверное, математически тривиальный, который я установил экспериментально, - такой.

Рассмотрим произвольный текст, состоящий из гласных и согласных букв, все равно каких; будем считать, что самая последняя его буква предшествует самой первой его букве. Пусть

Рг - доля гласных среди букв,
Рс - доля согласных среди букв,
Ргг - доля предшествующих гласным среди гласных
(вероятность гласной следовать за гласной),
Ргс - доля предшествующих согласным среди гласных
(вероятность согласной следовать за гласной),
Рсг - доля предшествующих гласным среди согласных
(вероятность гласной следовать за согласной),
Рсс - доля предшествующих согласным среди согласных
(вероятность согласной следовать за согласной).

Тогда, оказывается, Р. = Р.*Р.. (другими словами, Р. есть собственная вектор-строка матрицы Р..), откуда

Рг/Рс = (1 - Рсс)/(1 - Ргг) = Рсг/Ргс.

Такой вот результат получился.

Например, для текста всего из одного слова "Пушкин" имеем Рг = 1/3, Рс = 2/3, Ргг = 0, Ргс = 1, Рсг = 1/2 и Рсс = 1/2. Сам Марков, если верить Успенскому, взял первые 20 000 букв (1-ю главу и 16 строф 2-й) романа Евгений Онегин и подсчитал, что Рг = 0.432, Рс = 0.568, Ргс = 0.872 и Рсг = 0.663, поэтому, как и должно быть,

0.432/0.568 = 0.663/0.872 = 0.76.

Что Марков делал с этим, я не знаю. Что дальше?

 Профиль  
                  
 
 
Сообщение05.03.2007, 15:08 
Заблокирован
Аватара пользователя


21/04/06

4930
А для других текстов как? Затем, для других языков как? Если есть какая то закономерность , можно приступать к дешифровке древних рукописей. Кстати, думаю, что по аналогии с некоторыми другими вычислениями, число близкое к 0.7 есть закон...

Шимпанзе

 Профиль  
                  
 
 
Сообщение05.03.2007, 17:21 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Шимпанзе писал(а):
А для других текстов как? Затем, для других языков как? Если есть какая то закономерность , можно приступать к дешифровке древних рукописей. Кстати, думаю, что по аналогии с некоторыми другими вычислениями, число близкое к 0.7 есть закон... Шимпанзе

Для английского текста Рг/Рс составляет примерно 2/3, если гласные и согласные понимать как обычно. Проблема, однако, не в этом, а в том, как работает идея марковской цепи в языкознании? Что она позволяет сказать содержательного о текстах того же Пушкина?

 Профиль  
                  
 
 
Сообщение05.03.2007, 18:01 
Экс-модератор


12/06/05
1595
MSU
Насколько я понимаю, о текстах Пушкина ничего не позволяет сказать. Но если имеется некий текст неизвестного автора, предположительно Пушкина или Гоголя, и частоты букв и двубуквенных сочетаний в этом тексте совпадают с соответствующими частотами в текстах Пушкина, то можно с большой долей уверенности говорить, что текст написан именно Пушкиным, а не Гоголем.

Правда, я в статье Успенского не нашел двух вещей:
1) про то, что вероятности букв и диграм обладают статистической устойчивостью, если смотреть различные тексты одного и того же автора
2) про то, что текст образует марковскую цепь второго порядка. То есть, нас интересуют только диграммы, а триграммы уже не важны.

 Профиль  
                  
 
 
Сообщение05.03.2007, 19:11 
Аватара пользователя


15/11/06
2689
Москва Первомайская
Там сказано также, что Марков взял еще 100 000 букв из Аксакова (Детские годы Багрова-внука). Получилось, что

Рг = 0.449, Ргг = 0.147, Рсг = 0.695.

Тогда как у Пушкина (Е.О.)

Рг = 0.432, Ргг = 0.128, Рсг = 0.663.

Разброс во втором знаке вряд ли статистически значим. Я вот сейчас быстренько подсчитал Рг с помощью cepesh-калькулятора для тех же 20 000 (20 437, точнее) букв из Евгения Онегина и для 4775 букв пушкинской Сказки о рыбаке и рыбке. Получилось, что

Рг = 0.403, Рг/Рс = 0.67 (Е.О.),
Рг = 0.422, Рг/Рс = 0.73 (Сказка).

 Профиль  
                  
 
 
Сообщение05.03.2007, 20:39 
Заблокирован
Аватара пользователя


21/04/06

4930
Об этом я и писал 0.7, а если ещё точнее 0.66 - мифическое число. Когда - то мне приходилось имитационные модели создавать по методу Монте-Карло - те же марковские процессы - и там статистика четко выдавала 0.64 - 0.7.

Шимпанзе

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group