2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2
 
 
Сообщение17.11.2008, 22:47 
Аватара пользователя
xaxa3217 писал(а):
2Dims нам задавали подобную задачу (конкретно байесовский классификатор текстовых документов), и я столкнулся с проблемой аналогичной вашей.

Мой классификатор работает. Просто я не могу до конца понять сути происходящего. Насколько мне кажется, данных для вычисления вероятностей P(B|A) объективно недостаточно и, судя по книжкам, существует целый класс различных эвристических методов её аппроксимации, из которых я просто выбрал один из.

Цитата:
то на самом деле в таблице окажется большое количество нулей, и прямое произведение вероятностей обнулит результат.

Да, у меня так и было, пока статистика была маленькой. А потом стали выдаваться результаты.

Цитата:
единственным выход - это нормировка всех вероятностей (по каждой категории) делением на общую сумму, чтобы сумма несовместимых событий была равна единице.

И это было, только мне показалось, что без нормировки работает лучше.

 
 
 
 
Сообщение18.11.2008, 11:01 
Аватара пользователя
Цитата:
Мой классификатор работает. Просто я не могу до конца понять сути происходящего. Насколько мне кажется, данных для вычисления вероятностей P(B|A) объективно недостаточно и, судя по книжкам, существует целый класс различных эвристических методов её аппроксимации, из которых я просто выбрал один из.


не понимаете почему в общем-то правильно классифицирует такая, по сути простая, модель? :)
если говорить конкретно про спам, то объясняется все вроде бы просто: в действительности спам страницы изобилуют "спамерскими словечками", если посмотреть свой же почтовый ящик, или посмотреть те же самые черные seo страницы, то становится очевидно то, что идейно спамерские технологии (как впрочем и антиспамерские) далеко не продвинулись, если бы не такое кол-во слов типа "купи-продай-надувная кукла", то это был бы наверное даже и не спам вовсе :) до меня, к примеру, текстовый спам доходит только в виде "письма от подруги жаждущей встречи и прохода по ссылке", но подобные письма вроде бы формально приписать к спаму не удается, если же слишком критично подходить к оценке текста, будет большое количество ложных срабатываний..
для классификатора в общем случае все выглядит посложнее, тем не менее основной вклад в вероятность принадлежности к нужной категории вкладывают как раз уникальные слова, несмотря на то, что хорошо обученной системе даже не нужно проводить лингвистический анализ (глаголы в разных временах, склонения различные и тд).

Цитата:
И это было, только мне показалось, что без нормировки работает лучше.


не понимаю. в конечном счете ведь идет прямое сравнение вероятностей как чисел, поэтому нормировка "улучшить" результат не может, смысл лишь в том, чтобы не выходить за пределы единицы.

2PAV тут математическая модель ломается потому, что она подразумевает наличие вероятности принадлежности к категории для каждого слова в исследуемом тексте, в то время как сколько классификатор не обучай (имеется ввиду составление таблицы) найдется текст с "плохим" словом. только в случае, если бы таблица составлялась по множеству всех возможных текстов, мы имели бы идеальный (с точки зрения мат. модели по байесу) классификатор. соответственно никаких эвристических или, как в моем случае, нормировочных подходов применять не пришлось бы.

 
 
 [ Сообщений: 17 ]  На страницу Пред.  1, 2


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group