Доброго времени суток уважаемые форумчане, прошу помощи с интерпретацией карты Кохонена.
Постановка задачи:
Необходимо разбить тексты (по 100 слов каждый) по трём темам - кулинария/биология/математика.
Каждый текст я описывал вектором признаков (3x1), элементы которого равны количеству слов из текста, попавших в соответствующий словарь. Например, текст по кулинарии в котором 13 слов из словаря по кулинарии, 2 слова из словаря по биологии и ни одного из математики будет описан вектором (13,2,0).
У меня на руках имеется 36 текстов, по 12 на каждую тему. Тексты представлены в пространстве признаков точками следующим образом:
Сначала я решил задачу классификации с учителем: разбил тексты на 2 части - 27 для обучения сети (по 9 на тему) и 9 на проверку сети. НС создал при помощи соответствующего графического интерфейса в
Matlab, выбрав раздел
"классификация". Сеть имеет три выходных нейрона, в зависимости от того, к какой теме относится текст, "загорается" один из них. Сеть работает без ошибок, а главное, результат её работы легко интерпретировать.
Далее встала задача
кластеризации данных текстов - их разбиения на множества без выборки, "ответы" для которой известны. Для создания такой сети так же использовал Matlab: в графическом интерфейсе выбрал вкладку
"кластеризация", создал сеть и получил результаты - набор карт и графиков.
Возникшие проблемы:
- Разночтения терминов. Решая задачу самоорганизующимся картами исследователь должен заранее задавать число кластеров или нет? Изначально я считал, что нет, да и в матлабе не видел технической возможности сделать это. Но на вики, например, сказано, что должна быть априорная информация о числе кластеров. Как быть?!
- Верно ли я понимаю, что сети такого рода не выдают четкого результата - они лишь предоставляют исследователю возможность самому отнести элемент к одному из выделившихся множеств? То есть их [сетей] задача заключается только в том, чтобы представить многомерные данные в удобном для человека виде. Если это так, то каким образом проводится интерпретация?
- Какого размера карту использовать для моей простой (я бы даже сказал игрушечной) задачи?