Боюсь, что вероятность найти заданную последовательность

на отрезке
![$[1, m]$ $[1, m]$](https://dxdy-01.korotkov.co.uk/f/0/2/5/025c2020e7b8b6936254cbdea0309f8582.png)
зависит не только от

и

, но и от самих значений

.
Рассмотрим упрощённый пример. Пусть алфавит состоит из символов

и

, и Вы изучаете первые четыре символа потока. Всего они могут принимать

разных комбинаций значений. Считаем, что все комбинации равновероятны.
Если послание от братьев по разуму выглядит как

, Вы найдёте такое в восьми комбинациях из

:

Но последовательность

Вы встретите уже в одиннадцати комбинациях:

Честно говоря, пока совершенно не понимаю, почему так получается, то есть каков механизм того, что одни последовательности более вероятны, чем другие той же длины. (Ну, и какие именно более вероятны, а какие -- менее).
Ну, это как бы известный факт - более часто встречаются последовательности, которые попадают в "типичные события" - события, имеющие вероятность, приближающуюся к единице. В вашем случае это события

"

". А в общем случае имеется теорема, которая дает оценку вероятности

, где

- энтропия частотного распределения

относительно исходного распределения

. Откуда с учетом того, что

, вытекает, что наибольшая вероятность у последовательностей, у которых частота встречаемости символа близка к его вероятности. У остальных экспоненциально убывающая вероятность.