Добрый день.
Есть следующая задача: У нас есть город, в котром проживает, например, млн человек. Кроме того, у нас есть несколько характеристик человека, над каждой из которых не определена метрика. Например: "годовой доход человека" - есть характеристика, обладающая метрикой. "любимый музыкальный стиль", "сфера занятости", - есть характеристики, метрикой не обладающие. По каждому человеку нам доступна информация, состаящая только из неметрических характеристик. Например: человек1: Любимый музыкальный стиль - кантри Сфера занятости - сельское хозяйство человек2: Любимый музыкальный стиль - рок Сфера занятости - IT человек3: Любимый музыкальный стиль - шансон Сфера занятости - логистика
Цель - написать генератор, генерирующий типичных для этого города людей в пространстве неметрических характеристик. То есть, генератор в качестве результата должен выдавать следующее: Любимый музыкальный стиль - такой-то Сфера занятости - такая-то И появление данного конкретного набора характеристик должно быть прямо пропорционально появлению такого набора в городской популяции.
Задача была бы не очень сложна, если бы характеристики были метрическими. То есть, если бы были даны такие характеристики как уровень зарплаты, индекс здоровья, индекс образования, возраст, и так далее, то можно было бы разделить группу людей с метрическими характеристиками на смесь гауссиан, вычислить вероятность принадлежности человека к каждой гауссиане, и генерировать следующим образом: 1) выбрать гауссиану, в соответствии с вероятностями гауссиан. 2) сгенерировать значение согласно этой гауссиане.
Очевидно, в данном слуаче этот алгоритм не применим, так как нет метрики.
Задача не выглядит неразрешимой, потому что каждый из нас умеет решать подобную задачу в пределах своего города. Каждый примерно понимает, что омоновец, слушающий инди и дабстеп это нечто необычное, а шофер, слушающий шансон - фактически клише.
Тем не менее, как ее решать - не очень то ясно. Вроде понятно, что можно ввести некую меру "похожести" двух классов, рассчитав, насколько часто совпадают оставшиеся характеристики. Например, мы можем увидеть, что у работников СХ больше совпадений по музыкальным предпочтениям с работниками логистики, чем с программистами. Но как использовать эту информацию - я не знаю. Или же надо вообще копать в другом направлении.
|