2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Комбинирование статистических оценок в одну
Сообщение04.07.2015, 08:13 


16/03/11
31
Здравствуйте!

Мне необходимо разработать алгоритм оценивания правдоподобности ("хорошести") некоторого объекта по его известным свойствам и правдоподобности сочетаний свойств.

Постановка задачи следующая:
  1. Рассматриваются объекты со свойствами из множеств $A, B, C, D, E$; т.е. любой объект задаётся пятёркой значений $(a, b, c, d, e)$; некоторые свойства у объектов неопределены (тогда объект можно закодировать, например, так: $(a, b, \varnothing, d, e)$, если не определено свойство $c$).
  2. На основе обучающей выборки известна "хорошесть" отдельных свойств и их сочетаний. "Хорошесть" -- это просто число от 0 до 1, определяющее отношение количества "хороших" объектов с этим свойством (или сочетанием свойств) к количеству всех объектов с этим свойством или сочетанием. Будем обозначать его как $p(k_1)$ - для одного свойства $k_1$, $p(k_1,k_2)$ - для двух свойств $k_1, k_2$, $p(k_1,k_2,k_3)$ - для трёх свойств. Большее количество свойств просто не помещается в БД (и, забегая вперёд, наверное, не сильно улучшит оценку).
  3. Известно так же отношение $P = G / T$ -- частота "хороших" объектов. По обучающей выборке (см. ниже) можно снять ещё кучу других параметров, я просто не знаю, что ещё надо.
  4. Вопрос: поступил объект со значениями $(a, b, c, d, e)$ (частично отсутствующими), как оценить его "хорошесть"? В идеале можно было бы найти нужное сочетание $(a,b,c,d,e)$ в БД, но его может просто не быть в обучающей выборке, да и хранение всех N-ок сильно "разбабахает" базу и вряд ли улучшит оценку

Вот мои рассуждения.

  1. Простейший случай, когда в БД нет никаких сочетаний $(a, b), (a, c), ..., (b, c), ... (d,e)$. Можно сделать вывод, что параметры независимы, тогда оценка объекта будет $p(a) \cdot p(b)  \cdot p(c) \cdot p(d) \cdot p(e) $
  2. Аналогично, если в БД есть только оценки группы непересекающихся параметров, например, $p(a,b), p(c,d), p(e)$, опять оценка объекта есть $p(a,b) \cdot p(c,d) \cdot p(e)$.

А вот когда объект полностью "покрывается" оценками, непонятно, как их скомбинировать.
Например, известны отдельные оценки: $p(a), p(b), p(c), p(d), p(e)$, оценки двоек: $p(a,b), p(a,c),..., p(d, e)$ и троек $p(a,b,c), p(a,b,d),..., p(c, d, e)$.
Ясно тогда, что параметры $a,b,c,d,e$ являются зависимыми, для них простое умножение не подойдёт. Из формулы $p(a,b,c,d,e) = p(a) p(b|a) p(c|a,b) p(d|a,b,c) p(e|a,b,c,d)$ непонятно, как вычислить эти $p(d|a,b,c)$ и $p(e|a,b,c,d)$...

Подскажите, как вывести правильную формулу для таких зависимых параметров?


P.S. Про обучающую выборку, она такая:
Есть набор объектов, называемых "исходными", $T$ штук. Каждому исходному объекту $(a,b,c,d,e)$ сопоставлен "правильный" объект $(a',b',c',d',e')$, в котором $a$ и $a'$, $b$ и $b'$, ..., $e$ и $e'$ могут попарно совпадать или отличаться. Пусть некоторое свойство $x$ встретилось $N(x)$ в исходных объектах, затем объекты были отредактированы, и это свойство осталось только в $N'(x)$ объектов. Тогда оценка "хорошести" свойства есть $p(x) = N'(x) / N(x)$.

----------
(не знаю, в какой раздел форума написать, оставлю здесь)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group