Как определяют спам по формуле Байеса?

Dims · 17.11.2008, 22:47

xaxa3217 писал(а):

2Dims нам задавали подобную задачу (конкретно байесовский классификатор текстовых документов), и я столкнулся с проблемой аналогичной вашей.

Мой классификатор работает. Просто я не могу до конца понять сути происходящего. Насколько мне кажется, данных для вычисления вероятностей P(B|A) объективно недостаточно и, судя по книжкам, существует целый класс различных эвристических методов её аппроксимации, из которых я просто выбрал один из.

Цитата:

то на самом деле в таблице окажется большое количество нулей, и прямое произведение вероятностей обнулит результат.

Да, у меня так и было, пока статистика была маленькой. А потом стали выдаваться результаты.

Цитата:

единственным выход - это нормировка всех вероятностей (по каждой категории) делением на общую сумму, чтобы сумма несовместимых событий была равна единице.

И это было, только мне показалось, что без нормировки работает лучше.

xaxa3217 · 18.11.2008, 11:01

Цитата:

Мой классификатор работает. Просто я не могу до конца понять сути происходящего. Насколько мне кажется, данных для вычисления вероятностей P(B|A) объективно недостаточно и, судя по книжкам, существует целый класс различных эвристических методов её аппроксимации, из которых я просто выбрал один из.

не понимаете почему в общем-то правильно классифицирует такая, по сути простая, модель?

если говорить конкретно про спам, то объясняется все вроде бы просто: в действительности спам страницы изобилуют "спамерскими словечками", если посмотреть свой же почтовый ящик, или посмотреть те же самые черные seo страницы, то становится очевидно то, что идейно спамерские технологии (как впрочем и антиспамерские) далеко не продвинулись, если бы не такое кол-во слов типа "купи-продай-надувная кукла", то это был бы наверное даже и не спам вовсе

до меня, к примеру, текстовый спам доходит только в виде "письма от подруги жаждущей встречи и прохода по ссылке", но подобные письма вроде бы формально приписать к спаму не удается, если же слишком критично подходить к оценке текста, будет большое количество ложных срабатываний..
для классификатора в общем случае все выглядит посложнее, тем не менее основной вклад в вероятность принадлежности к нужной категории вкладывают как раз уникальные слова, несмотря на то, что хорошо обученной системе даже не нужно проводить лингвистический анализ (глаголы в разных временах, склонения различные и тд).

Цитата:

И это было, только мне показалось, что без нормировки работает лучше.

не понимаю. в конечном счете ведь идет прямое сравнение вероятностей как чисел, поэтому нормировка "улучшить" результат не может, смысл лишь в том, чтобы не выходить за пределы единицы.

2PAV тут математическая модель ломается потому, что она подразумевает наличие вероятности принадлежности к категории для каждого слова в исследуемом тексте, в то время как сколько классификатор не обучай (имеется ввиду составление таблицы) найдется текст с "плохим" словом. только в случае, если бы таблица составлялась по множеству всех возможных текстов, мы имели бы идеальный (с точки зрения мат. модели по байесу) классификатор. соответственно никаких эвристических или, как в моем случае, нормировочных подходов применять не пришлось бы.

Научный форум dxdy

Как определяют спам по формуле Байеса?