Последний раз редактировалось Foxer 29.06.2014, 11:08, всего редактировалось 1 раз.
Обычно это называют машинным обучением. Погуглите. Если хотите что-то писать, то используйте iPython Notebook, ну и скачайте библиотечку scikit-learn (там реализовано много методов машинного обучения, причем нормально реализовано, то есть это будет работать раз в 20 быстрее, чем если Вы сами напишите).
То что вы сказали про метрику - самый топорный и очевидный метод в машинном обучении - KNN (k-Nearest-Neighbour) - k ближайших соседей (хотя иногда он действует неплохо, если уметь настраивать метрику). В реальности, как Вы правильно подметили, Вам нужна обучающая выборка (то есть тексты сообщений, про которые известно, что есть спам, а что нет) - откуда ее достать, наверное все же вопрос не для dxdy.ru , можете погуглить, наверняка что-то такое есть.
|