Частотная таблица для букв английского языка есть, помнится, у Яглома и Яглома, таблицы для биграмм есть в Сети. При этом есть резон учитывать позицию буквы в слове, там распределение разное. Без учёта биграмм, только по вероятностям букв, одинаково правдоподобны с FEAR будут FREA, FARE, AFRE, AREF и вообще все 24 перестановки, а более всего словом будет казаться ЕЕЕЕ.
Выглядеть алгоритм может примерно так:
(слова выделены, например, пробелами)
Для каждой буквы считается условная вероятность. Для первой это вероятность данной буквы быть первой в слове. Для i-той вероятность при условии, что прежде были найденные уже буквы. То есть нужна таблица распределения первой буквы и для каждого номера условные вероятности букв при знании предыдущей (-щих если триграммы и более), при этом "конец-слова" считается ещё одной буквой. Для каждой буквы L вычисляется
и суммируется. Сумма сравнивается с энтропией при случайном наборе букв.