| Добрый день.
 Есть следующая задача:
 У нас есть город, в котром проживает, например, млн человек.
 Кроме того, у нас есть несколько характеристик человека, над каждой из которых не определена метрика.
 Например:
 "годовой доход человека" - есть характеристика, обладающая метрикой.
 "любимый музыкальный стиль", "сфера занятости",  - есть характеристики, метрикой не обладающие.
 По каждому человеку нам доступна информация, состаящая только из неметрических характеристик.
 Например:
 человек1:
 Любимый музыкальный стиль - кантри
 Сфера занятости - сельское хозяйство
 человек2:
 Любимый музыкальный стиль - рок
 Сфера занятости - IT
 человек3:
 Любимый музыкальный стиль - шансон
 Сфера занятости - логистика
 
 Цель - написать генератор, генерирующий типичных для этого города людей в пространстве неметрических характеристик.
 То есть, генератор в качестве результата должен выдавать следующее:
 Любимый музыкальный стиль - такой-то
 Сфера занятости - такая-то
 И появление данного конкретного набора характеристик должно быть прямо пропорционально появлению такого набора в городской популяции.
 
 Задача была бы не очень сложна, если бы характеристики были метрическими.
 То есть, если бы были даны такие характеристики как уровень зарплаты, индекс здоровья, индекс образования, возраст, и так далее, то можно было бы разделить группу людей с метрическими характеристиками на смесь гауссиан, вычислить вероятность принадлежности человека к каждой гауссиане, и генерировать следующим образом:
 1) выбрать гауссиану, в соответствии с вероятностями гауссиан.
 2) сгенерировать значение согласно этой гауссиане.
 
 Очевидно, в данном слуаче этот алгоритм не применим, так как нет метрики.
 
 Задача не выглядит неразрешимой, потому что каждый из нас умеет решать подобную задачу в пределах своего города. Каждый примерно понимает, что омоновец, слушающий инди и дабстеп это нечто необычное, а шофер, слушающий шансон - фактически клише.
 
 Тем не менее, как ее решать - не очень то ясно.
 Вроде понятно, что можно ввести некую меру "похожести" двух классов, рассчитав, насколько часто совпадают оставшиеся характеристики.
 Например, мы можем увидеть, что у работников СХ больше совпадений по музыкальным предпочтениям с работниками логистики, чем с программистами. Но как использовать эту информацию - я не знаю. Или же надо вообще копать в другом направлении.
 
 |