Боюсь, что вероятность найти заданную последовательность
на отрезке
зависит не только от
и
, но и от самих значений
.
Рассмотрим упрощённый пример. Пусть алфавит состоит из символов
и
, и Вы изучаете первые четыре символа потока. Всего они могут принимать
разных комбинаций значений. Считаем, что все комбинации равновероятны.
Если послание от братьев по разуму выглядит как
, Вы найдёте такое в восьми комбинациях из
:
Но последовательность
Вы встретите уже в одиннадцати комбинациях:
Честно говоря, пока совершенно не понимаю, почему так получается, то есть каков механизм того, что одни последовательности более вероятны, чем другие той же длины. (Ну, и какие именно более вероятны, а какие -- менее).