Боюсь, что вероятность найти заданную последовательность
на отрезке
зависит не только от
и
, но и от самих значений
.
Рассмотрим упрощённый пример. Пусть алфавит состоит из символов
и
, и Вы изучаете первые четыре символа потока. Всего они могут принимать
разных комбинаций значений. Считаем, что все комбинации равновероятны.
Если послание от братьев по разуму выглядит как
, Вы найдёте такое в восьми комбинациях из
:
Но последовательность
Вы встретите уже в одиннадцати комбинациях:
Честно говоря, пока совершенно не понимаю, почему так получается, то есть каков механизм того, что одни последовательности более вероятны, чем другие той же длины. (Ну, и какие именно более вероятны, а какие -- менее).
Ну, это как бы известный факт - более часто встречаются последовательности, которые попадают в "типичные события" - события, имеющие вероятность, приближающуюся к единице. В вашем случае это события
"
". А в общем случае имеется теорема, которая дает оценку вероятности
, где
- энтропия частотного распределения
относительно исходного распределения
. Откуда с учетом того, что
, вытекает, что наибольшая вероятность у последовательностей, у которых частота встречаемости символа близка к его вероятности. У остальных экспоненциально убывающая вероятность.