Генератор значений из пространства без метрики.

Sinclair · 17.03.2013, 17:46

Добрый день.

Есть следующая задача:
У нас есть город, в котром проживает, например, млн человек.
Кроме того, у нас есть несколько характеристик человека, над каждой из которых не определена метрика.
Например:
"годовой доход человека" - есть характеристика, обладающая метрикой.
"любимый музыкальный стиль", "сфера занятости", - есть характеристики, метрикой не обладающие.
По каждому человеку нам доступна информация, состаящая только из неметрических характеристик.
Например:
человек1:
Любимый музыкальный стиль - кантри
Сфера занятости - сельское хозяйство
человек2:
Любимый музыкальный стиль - рок
Сфера занятости - IT
человек3:
Любимый музыкальный стиль - шансон
Сфера занятости - логистика

Цель - написать генератор, генерирующий типичных для этого города людей в пространстве неметрических характеристик.
То есть, генератор в качестве результата должен выдавать следующее:
Любимый музыкальный стиль - такой-то
Сфера занятости - такая-то
И появление данного конкретного набора характеристик должно быть прямо пропорционально появлению такого набора в городской популяции.

Задача была бы не очень сложна, если бы характеристики были метрическими.
То есть, если бы были даны такие характеристики как уровень зарплаты, индекс здоровья, индекс образования, возраст, и так далее, то можно было бы разделить группу людей с метрическими характеристиками на смесь гауссиан, вычислить вероятность принадлежности человека к каждой гауссиане, и генерировать следующим образом:
1) выбрать гауссиану, в соответствии с вероятностями гауссиан.
2) сгенерировать значение согласно этой гауссиане.

Очевидно, в данном слуаче этот алгоритм не применим, так как нет метрики.

Задача не выглядит неразрешимой, потому что каждый из нас умеет решать подобную задачу в пределах своего города. Каждый примерно понимает, что омоновец, слушающий инди и дабстеп это нечто необычное, а шофер, слушающий шансон - фактически клише.

Тем не менее, как ее решать - не очень то ясно.
Вроде понятно, что можно ввести некую меру "похожести" двух классов, рассчитав, насколько часто совпадают оставшиеся характеристики.
Например, мы можем увидеть, что у работников СХ больше совпадений по музыкальным предпочтениям с работниками логистики, чем с программистами. Но как использовать эту информацию - я не знаю. Или же надо вообще копать в другом направлении.

Научный форум dxdy

Генератор значений из пространства без метрики.