2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 17:22 
Здравствуйте!, помогите пожалуйста разобраться с задачей, очень длинное и непонятное условие, непонятно, что в задаче дано, и вообще есть подозрение, что ответ нельзя однозначно дать (всмысле числовое значение)

Сама задача:

Репутационный метод выявления спама основан на признаках:
X1 Репутация адреса IP
X2 Репутация отправителя
X3 Репутация содержимого письма
Будем считать перечисленные признаки двоичными (0-плохая репутация; 1 – хорошая репутация) и обозначим через P(S | X 1, X 2, X 3) вероятность того, что сообщение с заданным набором признаков является спамом. Записать выражение для вероятности того, что пришедшее письмо является спамом, если в сети равновероятно присутствуют адреса IP с плохой и с хорошей репутацией. Все отправители с плохой репутацией принадлежат только адресам IP с плохой репутацией, но среди отправителей, принадлежащих адресам IP с плохой репутацией, равновероятно присутствуют и отправители с хорошей репутацией. Все письма с плохой репутацией отправляются только отправителями с плохой репутацией, но содержания писем, полученных от отправителя с плохой репутацией, равновероятно могут иметь как плохую, так и хорошую репутацию.

 
 
 
 Re: Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 17:27 
Аватара пользователя
Вам надо начать с того, что ввести обозначения для различных событий, и записать все условия задачи в виде формул. Для начала сделайте это хотя бы для одного какого-то условия, тогда будет уже что обсуждать, уточнять и двигаться дальше.

-- Сб мар 24, 2012 18:42:08 --

Могу подсказать общий ход решения. Вероятность того, что письмо является спамом, записывается по формуле полной вероятности:
$$
P(S)=\sum_{(x_1,x_2,x_3)}P(x_1,x_2,x_3)P(S|x_1,x_2,x_3)
$$
сумма ведется по всем восьми двоичным наборам признаков.
Условные вероятности $P(S|x_1,x_2,x_3)$ считаются данными. Фактически в задаче нужно найти все вероятности $P(x_1,x_2,x_3)$ того, что пришедшее письмо обладает теми или иными признаками. Вот эти вероятности и нужно извлечь из условий задачи.

Например, первое условие про равновероятность хороших и плохих IP адресов, судя по всему, означает что
$$
P(x_1=0)=P(x_1=1)=0.5
$$
Ну и далее в том же роде.

 
 
 
 Re: Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 21:43 
огромное спасибо, вот только мне непонятно, вы написали:

Цитата:
условные вероятности $P(S| x_1,x_2,x_3)$ считаются данными.


а как их найти?

 
 
 
 Re: Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 21:46 
Аватара пользователя
Никак. В Вашей задаче ведь вопрос звучит как:
asdfasfdasdfasf в сообщении #551722 писал(а):
Записать выражение для вероятности того


Не найти вероятность, а записать для нее выражение. В это выражение данные величины будут входить в качестве параметров. Если их задать каким-либо образом - тогда можно будет найти число.

 
 
 
 Re: Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 22:26 
ааа, точно, огромное спасибо!

 
 
 [ Сообщений: 5 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group