2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 
Сообщение17.11.2008, 22:47 
Заслуженный участник
Аватара пользователя


16/03/06
406
Moscow
xaxa3217 писал(а):
2Dims нам задавали подобную задачу (конкретно байесовский классификатор текстовых документов), и я столкнулся с проблемой аналогичной вашей.

Мой классификатор работает. Просто я не могу до конца понять сути происходящего. Насколько мне кажется, данных для вычисления вероятностей P(B|A) объективно недостаточно и, судя по книжкам, существует целый класс различных эвристических методов её аппроксимации, из которых я просто выбрал один из.

Цитата:
то на самом деле в таблице окажется большое количество нулей, и прямое произведение вероятностей обнулит результат.

Да, у меня так и было, пока статистика была маленькой. А потом стали выдаваться результаты.

Цитата:
единственным выход - это нормировка всех вероятностей (по каждой категории) делением на общую сумму, чтобы сумма несовместимых событий была равна единице.

И это было, только мне показалось, что без нормировки работает лучше.

 Профиль  
                  
 
 
Сообщение18.11.2008, 11:01 
Аватара пользователя


30/09/08
99
москва
Цитата:
Мой классификатор работает. Просто я не могу до конца понять сути происходящего. Насколько мне кажется, данных для вычисления вероятностей P(B|A) объективно недостаточно и, судя по книжкам, существует целый класс различных эвристических методов её аппроксимации, из которых я просто выбрал один из.


не понимаете почему в общем-то правильно классифицирует такая, по сути простая, модель? :)
если говорить конкретно про спам, то объясняется все вроде бы просто: в действительности спам страницы изобилуют "спамерскими словечками", если посмотреть свой же почтовый ящик, или посмотреть те же самые черные seo страницы, то становится очевидно то, что идейно спамерские технологии (как впрочем и антиспамерские) далеко не продвинулись, если бы не такое кол-во слов типа "купи-продай-надувная кукла", то это был бы наверное даже и не спам вовсе :) до меня, к примеру, текстовый спам доходит только в виде "письма от подруги жаждущей встречи и прохода по ссылке", но подобные письма вроде бы формально приписать к спаму не удается, если же слишком критично подходить к оценке текста, будет большое количество ложных срабатываний..
для классификатора в общем случае все выглядит посложнее, тем не менее основной вклад в вероятность принадлежности к нужной категории вкладывают как раз уникальные слова, несмотря на то, что хорошо обученной системе даже не нужно проводить лингвистический анализ (глаголы в разных временах, склонения различные и тд).

Цитата:
И это было, только мне показалось, что без нормировки работает лучше.


не понимаю. в конечном счете ведь идет прямое сравнение вероятностей как чисел, поэтому нормировка "улучшить" результат не может, смысл лишь в том, чтобы не выходить за пределы единицы.

2PAV тут математическая модель ломается потому, что она подразумевает наличие вероятности принадлежности к категории для каждого слова в исследуемом тексте, в то время как сколько классификатор не обучай (имеется ввиду составление таблицы) найдется текст с "плохим" словом. только в случае, если бы таблица составлялась по множеству всех возможных текстов, мы имели бы идеальный (с точки зрения мат. модели по байесу) классификатор. соответственно никаких эвристических или, как в моем случае, нормировочных подходов применять не пришлось бы.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 17 ]  На страницу Пред.  1, 2

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group