Цитата:
Мой классификатор работает. Просто я не могу до конца понять сути происходящего. Насколько мне кажется, данных для вычисления вероятностей P(B|A) объективно недостаточно и, судя по книжкам, существует целый класс различных эвристических методов её аппроксимации, из которых я просто выбрал один из.
не понимаете почему в общем-то правильно классифицирует такая, по сути простая, модель?
если говорить конкретно про спам, то объясняется все вроде бы просто: в действительности спам страницы изобилуют "спамерскими словечками", если посмотреть свой же почтовый ящик, или посмотреть те же самые черные seo страницы, то становится очевидно то, что идейно спамерские технологии (как впрочем и антиспамерские) далеко не продвинулись, если бы не такое кол-во слов типа "купи-продай-надувная кукла", то это был бы наверное даже и не спам вовсе
до меня, к примеру, текстовый спам доходит только в виде "письма от подруги жаждущей встречи и прохода по ссылке", но подобные письма вроде бы формально приписать к спаму не удается, если же слишком критично подходить к оценке текста, будет большое количество ложных срабатываний..
для классификатора в общем случае все выглядит посложнее, тем не менее основной вклад в вероятность принадлежности к нужной категории вкладывают как раз уникальные слова, несмотря на то, что хорошо обученной системе даже не нужно проводить лингвистический анализ (глаголы в разных временах, склонения различные и тд).
Цитата:
И это было, только мне показалось, что без нормировки работает лучше.
не понимаю. в конечном счете ведь идет прямое сравнение вероятностей как чисел, поэтому нормировка "улучшить" результат не может, смысл лишь в том, чтобы не выходить за пределы единицы.
2PAV тут математическая модель ломается потому, что она подразумевает наличие вероятности принадлежности к категории для каждого слова в исследуемом тексте, в то время как сколько классификатор не обучай (имеется ввиду составление таблицы) найдется текст с "плохим" словом. только в случае, если бы таблица составлялась по множеству всех возможных текстов, мы имели бы идеальный (с точки зрения мат. модели по байесу) классификатор. соответственно никаких эвристических или, как в моем случае, нормировочных подходов применять не пришлось бы.