Все вчерашнее воскресенье я потратил на то, чтобы приложить идею марковской цепи к текстовому анализу. Ничего путного у меня не вышло. Единственный неожиданный для меня факт, хотя и, наверное, математически тривиальный, который я установил экспериментально, - такой.
Рассмотрим произвольный текст, состоящий из гласных и согласных букв, все равно каких; будем считать, что самая последняя его буква предшествует самой первой его букве. Пусть
Рг - доля гласных среди букв,
Рс - доля согласных среди букв,
Ргг - доля предшествующих гласным среди гласных
(вероятность гласной следовать за гласной),
Ргс - доля предшествующих согласным среди гласных
(вероятность согласной следовать за гласной),
Рсг - доля предшествующих гласным среди согласных
(вероятность гласной следовать за согласной),
Рсс - доля предшествующих согласным среди согласных
(вероятность согласной следовать за согласной).
Тогда, оказывается, Р. = Р.*Р.. (другими словами, Р. есть собственная вектор-строка матрицы Р..), откуда
Рг/Рс = (1 - Рсс)/(1 - Ргг) = Рсг/Ргс.
Такой вот результат получился.
Например, для текста всего из одного слова "Пушкин" имеем Рг = 1/3, Рс = 2/3, Ргг = 0, Ргс = 1, Рсг = 1/2 и Рсс = 1/2. Сам Марков,
если верить Успенскому, взял первые 20 000 букв (1-ю главу и 16 строф 2-й) романа Евгений Онегин и подсчитал, что Рг = 0.432, Рс = 0.568, Ргс = 0.872 и Рсг = 0.663, поэтому, как и должно быть,
0.432/0.568 = 0.663/0.872 = 0.76.
Что Марков делал с этим, я не знаю. Что дальше?