2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 корреляционный анализ событий
Сообщение29.06.2014, 06:07 


29/06/14
2
Здравствуйте!
Задам два связных вопроса

1. Есть поток сообщений, который трудно описать числами, функциями. Вульгарный пример
Допустим мы наблюдаем за островами на которых живут разные туземцы
Мы можем наблюдать события. На одном острове зажгли факел, с другого на третий отправились туземцы
Туземцы тоже различаются на группы
есть еще какие-то события
Нужно сделать вывод, построить гипотезы - эти острова разделяют три государства, два в состоянии войны, третье тоже что-то там...
На это способен человек, такое предлагают в виде тестов

Но если событий тысячи, они принадлежат разным процессам
Ну например анализ криминала или маркетинговые исследования
И их трудно формализовать
нужен машинный анализ, чтобы строить гипотезы
Какие есть подходы для таких задач. Может есть готовое ПО

2.
При рассылке спам сообщений на форумы
роботами учитывается контекст в котором применено слово
смысл насколько я понял, что они учитывают вероятность появления связки слов для заданного контекста

Существуют ли готовые базы данных такого рода цепочек пусть для ограниченно набора тем

Просто тогда это способ создать метрику для событий, и тогда их уже можно пытаться математически обсчитать
Спасибо

 Профиль  
                  
 
 Re: корреляционный анализ событий
Сообщение29.06.2014, 11:07 
Аватара пользователя


14/12/13
119
Обычно это называют машинным обучением. Погуглите. Если хотите что-то писать, то используйте iPython Notebook, ну и скачайте библиотечку scikit-learn (там реализовано много методов машинного обучения, причем нормально реализовано, то есть это будет работать раз в 20 быстрее, чем если Вы сами напишите).

То что вы сказали про метрику - самый топорный и очевидный метод в машинном обучении - KNN (k-Nearest-Neighbour) - k ближайших соседей (хотя иногда он действует неплохо, если уметь настраивать метрику). В реальности, как Вы правильно подметили, Вам нужна обучающая выборка (то есть тексты сообщений, про которые известно, что есть спам, а что нет) - откуда ее достать, наверное все же вопрос не для dxdy.ru , можете погуглить, наверняка что-то такое есть.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 2 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group