Здравствуйте уважаемые форумчане!
Столкнулся со следующей задачей, которая по всей видимости является типовой, но поскольку я не дока в теории вероятности, то прошу консультации.
Итак, имеем два источника последовательности символов
и
из некоторого конечного алфавита
. Символы, получаемые из каждого источника, являются независимыми.
Положим, что есть обучающие выборки символов длиной
из источника
и длиной
из источника
. Задача состоит в том, что при наличии тестовой выборки символов
определить из какого источника она была получена.
Вариант решения.
Используя формулу Байеса и формулу произведения вероятностей независимых случайных величин, несложно получить следующие выражения:
Теперь осталось только оценить вероятности, входящие в данную формулу, на основе обучающих выборок.
Во-первых,
,
.
Во-вторых, если обозначить через
- количество символов
в обучающей выборке из источника
, то
,
.
Вопрос в том, насколько корректно такое построение и какие тут могут быть подводные камни. Например, не совсем очевидно что делать, если какой либо-символ алфавита отсутствует в обучающей выборке из одного или обоих источников, но зато есть в тестовой выборке. Возможно стоит ввести метрику близости символов алфавита (расстояние Хемминга, например) и опираться на неё каким-то образом. Или же исключить нулевую вероятность наблюдения символа, применив следующие оценки
,
.