Здравствуйте уважаемые форумчане!
Столкнулся со следующей задачей, которая по всей видимости является типовой, но поскольку я не дока в теории вероятности, то прошу консультации.
Итак, имеем два источника последовательности символов

и

из некоторого конечного алфавита

. Символы, получаемые из каждого источника, являются независимыми.
Положим, что есть обучающие выборки символов длиной

из источника

и длиной

из источника

. Задача состоит в том, что при наличии тестовой выборки символов

определить из какого источника она была получена.
Вариант решения.
Используя формулу Байеса и формулу произведения вероятностей независимых случайных величин, несложно получить следующие выражения:


Теперь осталось только оценить вероятности, входящие в данную формулу, на основе обучающих выборок.
Во-первых,

,

.
Во-вторых, если обозначить через

- количество символов

в обучающей выборке из источника

, то

,

.
Вопрос в том, насколько корректно такое построение и какие тут могут быть подводные камни. Например, не совсем очевидно что делать, если какой либо-символ алфавита отсутствует в обучающей выборке из одного или обоих источников, но зато есть в тестовой выборке. Возможно стоит ввести метрику близости символов алфавита (расстояние Хемминга, например) и опираться на неё каким-то образом. Или же исключить нулевую вероятность наблюдения символа, применив следующие оценки

,

.