Комбинирование статистических оценок в одну

malphunction · 04.07.2015, 08:13

Здравствуйте!

Мне необходимо разработать алгоритм оценивания правдоподобности ("хорошести") некоторого объекта по его известным свойствам и правдоподобности сочетаний свойств.

Постановка задачи следующая:

Рассматриваются объекты со свойствами из множеств $A, B, C, D, E$ ; т.е. любой объект задаётся пятёркой значений $(a, b, c, d, e)$ ; некоторые свойства у объектов неопределены (тогда объект можно закодировать, например, так: $(a, b, \varnothing, d, e)$ , если не определено свойство $c$ ).
На основе обучающей выборки известна "хорошесть" отдельных свойств и их сочетаний. "Хорошесть" -- это просто число от 0 до 1, определяющее отношение количества "хороших" объектов с этим свойством (или сочетанием свойств) к количеству всех объектов с этим свойством или сочетанием. Будем обозначать его как $p(k_1)$ - для одного свойства $k_1$ , $p(k_1,k_2)$ - для двух свойств $k_1, k_2$ , $p(k_1,k_2,k_3)$ - для трёх свойств. Большее количество свойств просто не помещается в БД (и, забегая вперёд, наверное, не сильно улучшит оценку).
Известно так же отношение $P = G / T$ -- частота "хороших" объектов. По обучающей выборке (см. ниже) можно снять ещё кучу других параметров, я просто не знаю, что ещё надо.
Вопрос: поступил объект со значениями $(a, b, c, d, e)$ (частично отсутствующими), как оценить его "хорошесть"? В идеале можно было бы найти нужное сочетание $(a,b,c,d,e)$ в БД, но его может просто не быть в обучающей выборке, да и хранение всех N-ок сильно "разбабахает" базу и вряд ли улучшит оценку

Вот мои рассуждения.

Простейший случай, когда в БД нет никаких сочетаний $(a, b), (a, c), ..., (b, c), ... (d,e)$ . Можно сделать вывод, что параметры независимы, тогда оценка объекта будет $p(a) \cdot p(b) \cdot p(c) \cdot p(d) \cdot p(e)$
Аналогично, если в БД есть только оценки группы непересекающихся параметров, например, $p(a,b), p(c,d), p(e)$ , опять оценка объекта есть $p(a,b) \cdot p(c,d) \cdot p(e)$ .

А вот когда объект полностью "покрывается" оценками, непонятно, как их скомбинировать.
Например, известны отдельные оценки: $p(a), p(b), p(c), p(d), p(e)$ , оценки двоек: $p(a,b), p(a,c),..., p(d, e)$ и троек $p(a,b,c), p(a,b,d),..., p(c, d, e)$ .
Ясно тогда, что параметры $a,b,c,d,e$ являются зависимыми, для них простое умножение не подойдёт. Из формулы $p(a,b,c,d,e) = p(a) p(b|a) p(c|a,b) p(d|a,b,c) p(e|a,b,c,d)$ непонятно, как вычислить эти $p(d|a,b,c)$ и $p(e|a,b,c,d)$ ...

Подскажите, как вывести правильную формулу для таких зависимых параметров?

P.S. Про обучающую выборку, она такая:
Есть набор объектов, называемых "исходными", $T$ штук. Каждому исходному объекту $(a,b,c,d,e)$ сопоставлен "правильный" объект $(a',b',c',d',e')$ , в котором $a$ и $a'$ , $b$ и $b'$ , ..., $e$ и $e'$ могут попарно совпадать или отличаться. Пусть некоторое свойство $x$ встретилось $N(x)$ в исходных объектах, затем объекты были отредактированы, и это свойство осталось только в $N'(x)$ объектов. Тогда оценка "хорошести" свойства есть $p(x) = N'(x) / N(x)$ .

----------
(не знаю, в какой раздел форума написать, оставлю здесь)

Научный форум dxdy

Комбинирование статистических оценок в одну