Здравствуйте!
Мне необходимо разработать алгоритм оценивания правдоподобности ("хорошести") некоторого объекта по его известным свойствам и правдоподобности сочетаний свойств.
Постановка задачи следующая:
- Рассматриваются объекты со свойствами из множеств ; т.е. любой объект задаётся пятёркой значений ; некоторые свойства у объектов неопределены (тогда объект можно закодировать, например, так: , если не определено свойство ).
- На основе обучающей выборки известна "хорошесть" отдельных свойств и их сочетаний. "Хорошесть" -- это просто число от 0 до 1, определяющее отношение количества "хороших" объектов с этим свойством (или сочетанием свойств) к количеству всех объектов с этим свойством или сочетанием. Будем обозначать его как - для одного свойства , - для двух свойств , - для трёх свойств. Большее количество свойств просто не помещается в БД (и, забегая вперёд, наверное, не сильно улучшит оценку).
- Известно так же отношение -- частота "хороших" объектов. По обучающей выборке (см. ниже) можно снять ещё кучу других параметров, я просто не знаю, что ещё надо.
- Вопрос: поступил объект со значениями (частично отсутствующими), как оценить его "хорошесть"? В идеале можно было бы найти нужное сочетание в БД, но его может просто не быть в обучающей выборке, да и хранение всех N-ок сильно "разбабахает" базу и вряд ли улучшит оценку
Вот мои рассуждения.
- Простейший случай, когда в БД нет никаких сочетаний . Можно сделать вывод, что параметры независимы, тогда оценка объекта будет
- Аналогично, если в БД есть только оценки группы непересекающихся параметров, например, , опять оценка объекта есть .
А вот когда объект полностью "покрывается" оценками, непонятно, как их скомбинировать.
Например, известны отдельные оценки:
, оценки двоек:
и троек
.
Ясно тогда, что параметры
являются зависимыми, для них простое умножение не подойдёт. Из формулы
непонятно, как вычислить эти
и
...
Подскажите, как вывести правильную формулу для таких зависимых параметров?
P.S. Про обучающую выборку, она такая:
Есть набор объектов, называемых
"исходными",
штук. Каждому исходному объекту
сопоставлен "правильный" объект
, в котором
и
,
и
, ...,
и
могут попарно совпадать или отличаться. Пусть некоторое свойство
встретилось
в исходных объектах, затем объекты были отредактированы, и это свойство осталось только в
объектов. Тогда оценка "хорошести" свойства есть
.
----------
(не знаю, в какой раздел форума написать, оставлю здесь)