Итак, сначала про вероятностную модель рассматриваемого явления. Нужно предполагать, что наблюдаемый объект
генерируется следующим случайным образом. Сначала с некоторым распределением вероятностей выбирается, к какому классу он будет принадлежать. Обозначим истинный номер класса через
и, соответственно,
.
После того, как класс выбран, случайным образом порождаются наблюдаемые признаки объекта. Будем обозначать
-й признак через
и для простоты будем считать признаки дискретными. Тогда необходимо, вообще говоря, определить совместное распределение признаков для каждого класса, т.е. условные вероятности
для всех возможных наборов значений признаков
.
Если принять предположение, что признаки независимы, то это совместное распределение раскладывается в произведение маргинальных вероятностей вида
. Замечу еще, что независимость - более сильное свойство, нежели некоррелированность. Из некоррелированности независимость не следует, вообще говоря.
Теперь разберемся, как правильно относить объект к классу по наблюдению только одного признака. Это формула Байеса:
Знаменатель на самом деле считать не нужно, так как он не зависит от
и представляет собой просто нормировочную константу. Поэтому можно записать так:
Эти произведения нужно найти, после чего положить
равной их сумме, чтобы в сумме вероятности давали 1.
Если предполагается, что все классы априори равновероятны, то величины
все равны и также входят в нормировочную константу. Поэтому нужно взять только условные вероятности
и разделить их на сумму.
Допустим, что Вы эти вероятности сумели правильно найти. Тогда применим ту же технику, чтобы найти решение по всем классам. Я для простоты буду опускать нормировочные константы, не зависящение от номера класса, а вместо равенства писать знак
. Итак, предполагая независимость признаков, получаем
Если классы априори равновероятны, то вероятности
все равны, загоняются в нормировочную константу и мы получаем то, что было написано ранее - что вероятность принадлежности к классу пропорциональна произведению вероятностей принадлежности по всем признакам.
Но еще раз отмечу, что гипотеза о независимости признаков - очень сильная и обычно на практике не выполняется. Учет возможных зависимостей обычно позволяет получить более точные оценки вероятности принадлежности.