2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему
 
 Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 17:22 


18/03/12
8
Здравствуйте!, помогите пожалуйста разобраться с задачей, очень длинное и непонятное условие, непонятно, что в задаче дано, и вообще есть подозрение, что ответ нельзя однозначно дать (всмысле числовое значение)

Сама задача:

Репутационный метод выявления спама основан на признаках:
X1 Репутация адреса IP
X2 Репутация отправителя
X3 Репутация содержимого письма
Будем считать перечисленные признаки двоичными (0-плохая репутация; 1 – хорошая репутация) и обозначим через P(S | X 1, X 2, X 3) вероятность того, что сообщение с заданным набором признаков является спамом. Записать выражение для вероятности того, что пришедшее письмо является спамом, если в сети равновероятно присутствуют адреса IP с плохой и с хорошей репутацией. Все отправители с плохой репутацией принадлежат только адресам IP с плохой репутацией, но среди отправителей, принадлежащих адресам IP с плохой репутацией, равновероятно присутствуют и отправители с хорошей репутацией. Все письма с плохой репутацией отправляются только отправителями с плохой репутацией, но содержания писем, полученных от отправителя с плохой репутацией, равновероятно могут иметь как плохую, так и хорошую репутацию.

 Профиль  
                  
 
 Re: Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 17:27 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Вам надо начать с того, что ввести обозначения для различных событий, и записать все условия задачи в виде формул. Для начала сделайте это хотя бы для одного какого-то условия, тогда будет уже что обсуждать, уточнять и двигаться дальше.

-- Сб мар 24, 2012 18:42:08 --

Могу подсказать общий ход решения. Вероятность того, что письмо является спамом, записывается по формуле полной вероятности:
$$
P(S)=\sum_{(x_1,x_2,x_3)}P(x_1,x_2,x_3)P(S|x_1,x_2,x_3)
$$
сумма ведется по всем восьми двоичным наборам признаков.
Условные вероятности $P(S|x_1,x_2,x_3)$ считаются данными. Фактически в задаче нужно найти все вероятности $P(x_1,x_2,x_3)$ того, что пришедшее письмо обладает теми или иными признаками. Вот эти вероятности и нужно извлечь из условий задачи.

Например, первое условие про равновероятность хороших и плохих IP адресов, судя по всему, означает что
$$
P(x_1=0)=P(x_1=1)=0.5
$$
Ну и далее в том же роде.

 Профиль  
                  
 
 Re: Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 21:43 


18/03/12
8
огромное спасибо, вот только мне непонятно, вы написали:

Цитата:
условные вероятности $P(S| x_1,x_2,x_3)$ считаются данными.


а как их найти?

 Профиль  
                  
 
 Re: Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 21:46 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Никак. В Вашей задаче ведь вопрос звучит как:
asdfasfdasdfasf в сообщении #551722 писал(а):
Записать выражение для вероятности того


Не найти вероятность, а записать для нее выражение. В это выражение данные величины будут входить в качестве параметров. Если их задать каким-либо образом - тогда можно будет найти число.

 Профиль  
                  
 
 Re: Обнаружение спама (задача по теории вероятностей)
Сообщение24.03.2012, 22:26 


18/03/12
8
ааа, точно, огромное спасибо!

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group