2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Задача идентификации источника данных
Сообщение28.01.2019, 18:21 


25/02/10
33
Здравствуйте уважаемые форумчане!
Столкнулся со следующей задачей, которая по всей видимости является типовой, но поскольку я не дока в теории вероятности, то прошу консультации.

Итак, имеем два источника последовательности символов $H_1$ и $H_2$ из некоторого конечного алфавита $A_1,A_2,\cdots,A_N$. Символы, получаемые из каждого источника, являются независимыми.
Положим, что есть обучающие выборки символов длиной $M_1$ из источника $H_1$ и длиной $M_2$ из источника $H_2$. Задача состоит в том, что при наличии тестовой выборки символов $X_1,X_2,\cdots,X_R$ определить из какого источника она была получена.

Вариант решения.
Используя формулу Байеса и формулу произведения вероятностей независимых случайных величин, несложно получить следующие выражения:
$$P(H_1|X_1,X_2,\cdots,X_R) = \frac{P(H_1)\prod_{r=1}^{R}{P(X_r|H_1)}}{P(H_1)\prod_{r=1}^{R}{P(X_r|H_1)} + P(H_2)\prod_{r=1}^{R}{P(X_r|H_2)}}$$
$$P(H_2|X_1,X_2,\cdots,X_R) = \frac{P(H_2)\prod_{r=1}^{R}{P(X_r|H_2)}}{P(H_1)\prod_{r=1}^{R}{P(X_r|H_1)} + P(H_2)\prod_{r=1}^{R}{P(X_r|H_2)}}$$

Теперь осталось только оценить вероятности, входящие в данную формулу, на основе обучающих выборок.
Во-первых,
$$P(H_1) = \frac{M_1}{M_1+M_2}$$, $$P(H_2) = \frac{M_2}{M_1+M_2}$$.
Во-вторых, если обозначить через $M_{1,2}^{(k)}$ - количество символов $A_k$ в обучающей выборке из источника $H_{1,2}$, то
$$P(A_k|H_1)=\frac{M_1^{(k)}}{M_1}$$, $$P(A_k|H_2)=\frac{M_2^{(k)}}{M_2}$$.

Вопрос в том, насколько корректно такое построение и какие тут могут быть подводные камни. Например, не совсем очевидно что делать, если какой либо-символ алфавита отсутствует в обучающей выборке из одного или обоих источников, но зато есть в тестовой выборке. Возможно стоит ввести метрику близости символов алфавита (расстояние Хемминга, например) и опираться на неё каким-то образом. Или же исключить нулевую вероятность наблюдения символа, применив следующие оценки
$$P(A_k|H_1)=\frac{M_1^{(k)}+1}{M_1+1}$$, $$P(A_k|H_2)=\frac{M_2^{(k)}+1}{M_2+1}$$.

 Профиль  
                  
 
 Re: Задача идентификации источника данных
Сообщение28.01.2019, 21:42 


10/03/16
4444
Aeroport
Anatoly в сообщении #1372461 писал(а):
Во-первых,
$$P(H_1) = \frac{M_1}{M_1+M_2}$$, $$P(H_2) = \frac{M_2}{M_1+M_2}$$


Это оч круто, похоже на ответ девушки на вопрос о вероятности встретить динозавра. ИМХО Байес здесь неприменим именно из-за неизвестных априорных вероятностей, которые от так точно не оценить

-- 28.01.2019, 21:43 --

Anatoly в сообщении #1372461 писал(а):
Например, не совсем очевидно что делать, если какой либо-символ алфавита отсутствует в обучающей выборке из одного или обоих источников, но зато есть в тестовой выборке.


Перечеркнуть обучающую выборку

-- 28.01.2019, 21:46 --

Anatoly в сообщении #1372461 писал(а):
Возможно стоит ввести метрику близости символов алфавита (расстояние Хемминга, например)


Тогда вы уничтожите модель независимых событий, это раз. Вам придётся вводить функцию, связывающую вероятность совместного появления последовательных символов и расстояние Хэмминга между ними

 Профиль  
                  
 
 Re: Задача идентификации источника данных
Сообщение28.01.2019, 23:03 


25/02/10
33
Если Байес не подходит, то какой тогда вариант?

-- Пн янв 28, 2019 23:11:33 --

Задачу на прикладной лад можно, наверно, переформулировать следующим образом. Положим, что ваша супруга каждый день ходит в один или другой магазин за покупками. Вы понятия не имеете какие у неё предпочтения и что и почему она покупает, но знаете результат - перечень покупок и из какого он магазина. Имея статистику её походов, нужно в определенный момент времени по перечню покупок определить в какой магазин она ходила на этот раз. И если вдруг она в этот самый раз принесет какой-нибудь экзотический фрукт, которого не было в предыдущих выборках, то, по здравому смыслу, это не должно помешать решить задачу, опираясь на остальное содержимое.

 Профиль  
                  
 
 Re: Задача идентификации источника данных
Сообщение30.01.2019, 10:48 


10/03/16
4444
Aeroport
Anatoly в сообщении #1372509 писал(а):
Положим, что ваша супруга каждый день ходит в один или другой магазин за покупками. Вы понятия не имеете какие у неё предпочтения и что и почему она покупает, но знаете результат - перечень покупок и из какого он магазина. Имея статистику её походов, нужно в определенный момент времени по перечню покупок определить в какой магазин она ходила на этот раз. И если вдруг она в этот самый раз принесет какой-нибудь экзотический фрукт, которого не было в предыдущих выборках, то


Это задача кластеризации транзакций. Загуглите алгоритм CLOPE

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 4 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group