Машинное обучение: Придумать модель на конкретном датасете

semkagtn · 18.03.2016, 04:06

Всем привет!

В общем, мне скоро защищать диплом. Нужно уметь определять пол и возраст пользователей на основе музыки, которую они слушают. Требуют "научной новизны" (с).

В общем, у меня имеется выборка пользователей (96000+ штук) с сайта Last.fm. У каждого пользователя указан пол и число полных лет. У каждого пользователя имеется топ-50 его самых прослушиваемых исполнителей.

Идея только одна - рассмотреть пользователей как документы, а их исполнителей, как слова в этом документе. Затем описать документы с помощью TF-IDF(https://ru.wikipedia.org/wiki/TF-IDF) модели или же Log-entropy. Получается огромная сильно-разреженная матрица слово-документ. Можно понизить её размерность, используя методы тематического моделирования, например LDA (https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation). В результате получается матрица тема-документ (где число тем мы произвольно выбираем). Здесь хорошо заходит метод под названием LSI (https://en.wikipedia.org/wiki/Latent_semantic_indexing). Затем применяем к получившемуся классификатор или регрессор и меряем точность, например SVM (https://en.wikipedia.org/wiki/Support_vector_machine). Но здесь нету никакой "Научной новизны"

Одна из идей была следующей - построить свою тематическую модель на основе подхода ARTM (http://www.machinelearning.ru/wiki/index.php?title=ARTM). В кратце, это подход к тому как модифицировать метод PLSA (https://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis) для улучшения результатов на конкретной задаче. Но здесь есть проблема, в моём случае сам PLSA даёт очень плохие результаты. Кроме того, так как конечная цель - это не выявление тем, а запуск классификатора на документах, представленных в виде вектора тем, то проверка качества получившейся модели сильно затруднена. В общем, данный вариант отпадает начисто.

Есть идея сделать некоторую модификацию LSI, которая бы улучшала результат по сравнению с обычным методом, но неясно, что улучшать.

Может быть у кого-нибудь есть какие-нибудь идеи, что можно придумать ещё, использую имеющиеся данные?

P.S. Я понимаю, что перебором всего чего только возможно, подкруткой различных параметров алгоритмов я, скорее всего, добьюсь наилучших результатов, чем, если выдумаю что-то новое. Но, к сожалению, требуется именно второе.

Yodine · 18.03.2016, 09:05

Я бы так попробовал.
Предположим, что
1. не знаем никаких методов
2. зависимости есть и четко выражены
Для выполнения п.2 можно сгенерировать выборку.
Задаем себе вопросы
1. Как будет выглядеть такой набор в пространстве признаков?
2. Как идентифицировать и формализовать это?
3. Как можно преобразовать оси признаков, чтобы более четко идентифицировать ситуации?
4. Что вообще можно называть зависимостями и как это отражается в пространстве признаков?

XYZ321 · 11.04.2016, 11:31

Можно попробовать сделать такую штуку:

1) сначала решить задачу в лоб, каким-нибудь известным сочетанием нейросетей. Например, подойти к этой задаче, как к классификатору картинок: сначала несколько слоев свертки (чтоб вытащить характерные фичи из списка исполнителей), а потом полносвязная сеть (чтоб аппроксимировать соотвествие между этими фичами и возрастом/полом). Обучить сетку по всему датасету, и записать на листочек достигнутую точность на тестовой выборке.

2) в качестве улучшения приделать сетке возможность самой выбирать следующий обучающий пример во время обучения - таким образом, чтобы максимизировать скорость обучения. То есть план такой: берем старую сетку, из первого пункта (назовем ее "классификатор"). К ней добавляем сетку которая умеет делать запросы вида : "найти следующую не рассмотренную девушку 24 лет" или "найти следующего не рассмотренного юзера, который слушает tom odell" (назовем эту сеть "менеджер данных"). Задача "классификатора" - собственно, пытаться правильно угадывать возраст и пол по списку исполнителей. А задача манагера - подбирать для классификатора такие данные, чтоб скорость сходимости у классфификатора была максимальной. То есть пусть ошибка менеджера рассчитывается на основе производной от ошибки классификатора. Если на текущих семплах сходимость медленная, то наказываем манагера, а если она ускореятся - то поощряем. Я не хочу сказать, что это улучшение заработает прямо из ящика. Даже хуже - скорей всего, придется изрядно поэкспериментировать с конкретной формой ошибки для "менеджера", что бы он не заставлял "классификатора" переобучаться.

Но если бы такое получилось, то искомая научная новизна - это более быстрая сходимость обучения - то есть, типа, меньше предъявлений обучающих примеров понадобилось, а результат тот же. Не факт, конечно, что это получится - потому что с научными гипотезами все довольно не предсказуемо бывает :) Но вобще сам этот подход, чтоб несколько подсетей брать и кооперировать на достижение общей цели - он встречается:
https://habrahabr.ru/post/275429/
https://habrahabr.ru/post/279071/

bondkim137 · 16.04.2016, 02:28

Можно попробовать значительно понизить размерность на половину порядков, быстро, за

n\cdot$\ln(n)$

(в вашем случае должно неплохо работать), а затем применить мозг и выбрать правильную статистическую модель. В лоб нейросетями я бы эту задачу не стал атаковать.

spyphy · 07.06.2016, 21:32

(Оффтоп)

Типа в 15 лет был металлистом, а в 20 стал готом, в 25 - эмо, в 30 - панком, в 35 - рокером, ...
Интерсно будет узнать результаты аппроксимаций.

Научный форум dxdy

Машинное обучение: Придумать модель на конкретном датасете