Здравствуйте!
Мне необходимо разработать алгоритм оценивания правдоподобности ("хорошести") некоторого объекта по его известным свойствам и правдоподобности сочетаний свойств.
Постановка задачи следующая:
- Рассматриваются объекты со свойствами из множеств
; т.е. любой объект задаётся пятёркой значений
; некоторые свойства у объектов неопределены (тогда объект можно закодировать, например, так:
, если не определено свойство
). - На основе обучающей выборки известна "хорошесть" отдельных свойств и их сочетаний. "Хорошесть" -- это просто число от 0 до 1, определяющее отношение количества "хороших" объектов с этим свойством (или сочетанием свойств) к количеству всех объектов с этим свойством или сочетанием. Будем обозначать его как
- для одного свойства
,
- для двух свойств
,
- для трёх свойств. Большее количество свойств просто не помещается в БД (и, забегая вперёд, наверное, не сильно улучшит оценку). - Известно так же отношение
-- частота "хороших" объектов. По обучающей выборке (см. ниже) можно снять ещё кучу других параметров, я просто не знаю, что ещё надо. - Вопрос: поступил объект со значениями
(частично отсутствующими), как оценить его "хорошесть"? В идеале можно было бы найти нужное сочетание
в БД, но его может просто не быть в обучающей выборке, да и хранение всех N-ок сильно "разбабахает" базу и вряд ли улучшит оценку
Вот мои рассуждения.
- Простейший случай, когда в БД нет никаких сочетаний
. Можно сделать вывод, что параметры независимы, тогда оценка объекта будет 
- Аналогично, если в БД есть только оценки группы непересекающихся параметров, например,
, опять оценка объекта есть
.
А вот когда объект полностью "покрывается" оценками, непонятно, как их скомбинировать.
Например, известны отдельные оценки:

, оценки двоек:

и троек

.
Ясно тогда, что параметры

являются зависимыми, для них простое умножение не подойдёт. Из формулы

непонятно, как вычислить эти

и

...
Подскажите, как вывести правильную формулу для таких зависимых параметров?
P.S. Про обучающую выборку, она такая:
Есть набор объектов, называемых
"исходными",

штук. Каждому исходному объекту

сопоставлен "правильный" объект

, в котором

и

,

и

, ...,

и

могут попарно совпадать или отличаться. Пусть некоторое свойство

встретилось

в исходных объектах, затем объекты были отредактированы, и это свойство осталось только в

объектов. Тогда оценка "хорошести" свойства есть

.
----------
(не знаю, в какой раздел форума написать, оставлю здесь)