Марковские цепи

geomath · 05.03.2007, 14:51

Все вчерашнее воскресенье я потратил на то, чтобы приложить идею марковской цепи к текстовому анализу. Ничего путного у меня не вышло. Единственный неожиданный для меня факт, хотя и, наверное, математически тривиальный, который я установил экспериментально, - такой.

Рассмотрим произвольный текст, состоящий из гласных и согласных букв, все равно каких; будем считать, что самая последняя его буква предшествует самой первой его букве. Пусть

Рг - доля гласных среди букв,
Рс - доля согласных среди букв,
Ргг - доля предшествующих гласным среди гласных
(вероятность гласной следовать за гласной),
Ргс - доля предшествующих согласным среди гласных
(вероятность согласной следовать за гласной),
Рсг - доля предшествующих гласным среди согласных
(вероятность гласной следовать за согласной),
Рсс - доля предшествующих согласным среди согласных
(вероятность согласной следовать за согласной).

Тогда, оказывается, Р. = Р.*Р.. (другими словами, Р. есть собственная вектор-строка матрицы Р..), откуда

Рг/Рс = (1 - Рсс)/(1 - Ргг) = Рсг/Ргс.

Такой вот результат получился.

Например, для текста всего из одного слова "Пушкин" имеем Рг = 1/3, Рс = 2/3, Ргг = 0, Ргс = 1, Рсг = 1/2 и Рсс = 1/2. Сам Марков, если верить Успенскому, взял первые 20 000 букв (1-ю главу и 16 строф 2-й) романа Евгений Онегин и подсчитал, что Рг = 0.432, Рс = 0.568, Ргс = 0.872 и Рсг = 0.663, поэтому, как и должно быть,

0.432/0.568 = 0.663/0.872 = 0.76.

Что Марков делал с этим, я не знаю. Что дальше?

Шимпанзе · 05.03.2007, 15:08

А для других текстов как? Затем, для других языков как? Если есть какая то закономерность , можно приступать к дешифровке древних рукописей. Кстати, думаю, что по аналогии с некоторыми другими вычислениями, число близкое к 0.7 есть закон...

Шимпанзе

geomath · 05.03.2007, 17:21

Шимпанзе писал(а):

А для других текстов как? Затем, для других языков как? Если есть какая то закономерность , можно приступать к дешифровке древних рукописей. Кстати, думаю, что по аналогии с некоторыми другими вычислениями, число близкое к 0.7 есть закон... Шимпанзе

Для английского текста Рг/Рс составляет примерно 2/3, если гласные и согласные понимать как обычно. Проблема, однако, не в этом, а в том, как работает идея марковской цепи в языкознании? Что она позволяет сказать содержательного о текстах того же Пушкина?

Dan_Te · 05.03.2007, 18:01

Насколько я понимаю, о текстах Пушкина ничего не позволяет сказать. Но если имеется некий текст неизвестного автора, предположительно Пушкина или Гоголя, и частоты букв и двубуквенных сочетаний в этом тексте совпадают с соответствующими частотами в текстах Пушкина, то можно с большой долей уверенности говорить, что текст написан именно Пушкиным, а не Гоголем.

Правда, я в статье Успенского не нашел двух вещей:
1) про то, что вероятности букв и диграм обладают статистической устойчивостью, если смотреть различные тексты одного и того же автора
2) про то, что текст образует марковскую цепь второго порядка. То есть, нас интересуют только диграммы, а триграммы уже не важны.

geomath · 05.03.2007, 19:11

Там сказано также, что Марков взял еще 100 000 букв из Аксакова (Детские годы Багрова-внука). Получилось, что

Рг = 0.449, Ргг = 0.147, Рсг = 0.695.

Тогда как у Пушкина (Е.О.)

Рг = 0.432, Ргг = 0.128, Рсг = 0.663.

Разброс во втором знаке вряд ли статистически значим. Я вот сейчас быстренько подсчитал Рг с помощью cepesh-калькулятора для тех же 20 000 (20 437, точнее) букв из Евгения Онегина и для 4775 букв пушкинской Сказки о рыбаке и рыбке. Получилось, что

Рг = 0.403, Рг/Рс = 0.67 (Е.О.),
Рг = 0.422, Рг/Рс = 0.73 (Сказка).

Шимпанзе · 05.03.2007, 20:39

Об этом я и писал 0.7, а если ещё точнее 0.66 - мифическое число. Когда - то мне приходилось имитационные модели создавать по методу Монте-Карло - те же марковские процессы - и там статистика четко выдавала 0.64 - 0.7.

Шимпанзе

Научный форум dxdy

Марковские цепи