2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Комбинирование статистических оценок в одну
Сообщение04.07.2015, 08:13 
Здравствуйте!

Мне необходимо разработать алгоритм оценивания правдоподобности ("хорошести") некоторого объекта по его известным свойствам и правдоподобности сочетаний свойств.

Постановка задачи следующая:
  1. Рассматриваются объекты со свойствами из множеств $A, B, C, D, E$; т.е. любой объект задаётся пятёркой значений $(a, b, c, d, e)$; некоторые свойства у объектов неопределены (тогда объект можно закодировать, например, так: $(a, b, \varnothing, d, e)$, если не определено свойство $c$).
  2. На основе обучающей выборки известна "хорошесть" отдельных свойств и их сочетаний. "Хорошесть" -- это просто число от 0 до 1, определяющее отношение количества "хороших" объектов с этим свойством (или сочетанием свойств) к количеству всех объектов с этим свойством или сочетанием. Будем обозначать его как $p(k_1)$ - для одного свойства $k_1$, $p(k_1,k_2)$ - для двух свойств $k_1, k_2$, $p(k_1,k_2,k_3)$ - для трёх свойств. Большее количество свойств просто не помещается в БД (и, забегая вперёд, наверное, не сильно улучшит оценку).
  3. Известно так же отношение $P = G / T$ -- частота "хороших" объектов. По обучающей выборке (см. ниже) можно снять ещё кучу других параметров, я просто не знаю, что ещё надо.
  4. Вопрос: поступил объект со значениями $(a, b, c, d, e)$ (частично отсутствующими), как оценить его "хорошесть"? В идеале можно было бы найти нужное сочетание $(a,b,c,d,e)$ в БД, но его может просто не быть в обучающей выборке, да и хранение всех N-ок сильно "разбабахает" базу и вряд ли улучшит оценку

Вот мои рассуждения.

  1. Простейший случай, когда в БД нет никаких сочетаний $(a, b), (a, c), ..., (b, c), ... (d,e)$. Можно сделать вывод, что параметры независимы, тогда оценка объекта будет $p(a) \cdot p(b)  \cdot p(c) \cdot p(d) \cdot p(e) $
  2. Аналогично, если в БД есть только оценки группы непересекающихся параметров, например, $p(a,b), p(c,d), p(e)$, опять оценка объекта есть $p(a,b) \cdot p(c,d) \cdot p(e)$.

А вот когда объект полностью "покрывается" оценками, непонятно, как их скомбинировать.
Например, известны отдельные оценки: $p(a), p(b), p(c), p(d), p(e)$, оценки двоек: $p(a,b), p(a,c),..., p(d, e)$ и троек $p(a,b,c), p(a,b,d),..., p(c, d, e)$.
Ясно тогда, что параметры $a,b,c,d,e$ являются зависимыми, для них простое умножение не подойдёт. Из формулы $p(a,b,c,d,e) = p(a) p(b|a) p(c|a,b) p(d|a,b,c) p(e|a,b,c,d)$ непонятно, как вычислить эти $p(d|a,b,c)$ и $p(e|a,b,c,d)$...

Подскажите, как вывести правильную формулу для таких зависимых параметров?


P.S. Про обучающую выборку, она такая:
Есть набор объектов, называемых "исходными", $T$ штук. Каждому исходному объекту $(a,b,c,d,e)$ сопоставлен "правильный" объект $(a',b',c',d',e')$, в котором $a$ и $a'$, $b$ и $b'$, ..., $e$ и $e'$ могут попарно совпадать или отличаться. Пусть некоторое свойство $x$ встретилось $N(x)$ в исходных объектах, затем объекты были отредактированы, и это свойство осталось только в $N'(x)$ объектов. Тогда оценка "хорошести" свойства есть $p(x) = N'(x) / N(x)$.

----------
(не знаю, в какой раздел форума написать, оставлю здесь)

 
 
 [ 1 сообщение ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group