2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Сети Кохонена. Интепретация карты
Сообщение16.06.2016, 06:02 
Доброго времени суток уважаемые форумчане, прошу помощи с интерпретацией карты Кохонена.

Постановка задачи:
Необходимо разбить тексты (по 100 слов каждый) по трём темам - кулинария/биология/математика.
Каждый текст я описывал вектором признаков (3x1), элементы которого равны количеству слов из текста, попавших в соответствующий словарь. Например, текст по кулинарии в котором 13 слов из словаря по кулинарии, 2 слова из словаря по биологии и ни одного из математики будет описан вектором (13,2,0).

У меня на руках имеется 36 текстов, по 12 на каждую тему. Тексты представлены в пространстве признаков точками следующим образом:
Изображение

Сначала я решил задачу классификации с учителем: разбил тексты на 2 части - 27 для обучения сети (по 9 на тему) и 9 на проверку сети. НС создал при помощи соответствующего графического интерфейса в Matlab, выбрав раздел "классификация". Сеть имеет три выходных нейрона, в зависимости от того, к какой теме относится текст, "загорается" один из них. Сеть работает без ошибок, а главное, результат её работы легко интерпретировать.

Далее встала задача кластеризации данных текстов - их разбиения на множества без выборки, "ответы" для которой известны. Для создания такой сети так же использовал Matlab: в графическом интерфейсе выбрал вкладку "кластеризация", создал сеть и получил результаты - набор карт и графиков.

Возникшие проблемы:
- Разночтения терминов. Решая задачу самоорганизующимся картами исследователь должен заранее задавать число кластеров или нет? Изначально я считал, что нет, да и в матлабе не видел технической возможности сделать это. Но на вики, например, сказано, что должна быть априорная информация о числе кластеров. Как быть?!
- Верно ли я понимаю, что сети такого рода не выдают четкого результата - они лишь предоставляют исследователю возможность самому отнести элемент к одному из выделившихся множеств? То есть их [сетей] задача заключается только в том, чтобы представить многомерные данные в удобном для человека виде. Если это так, то каким образом проводится интерпретация?
- Какого размера карту использовать для моей простой (я бы даже сказал игрушечной) задачи?

 
 
 [ 1 сообщение ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group