2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему
 
 Генератор значений из пространства без метрики.
Сообщение17.03.2013, 17:46 
Аватара пользователя


09/04/12
72
Добрый день.

Есть следующая задача:
У нас есть город, в котром проживает, например, млн человек.
Кроме того, у нас есть несколько характеристик человека, над каждой из которых не определена метрика.
Например:
"годовой доход человека" - есть характеристика, обладающая метрикой.
"любимый музыкальный стиль", "сфера занятости", - есть характеристики, метрикой не обладающие.

По каждому человеку нам доступна информация, состаящая только из неметрических характеристик.
Например:
человек1:
Любимый музыкальный стиль - кантри
Сфера занятости - сельское хозяйство
человек2:
Любимый музыкальный стиль - рок
Сфера занятости - IT
человек3:
Любимый музыкальный стиль - шансон
Сфера занятости - логистика


Цель - написать генератор, генерирующий типичных для этого города людей в пространстве неметрических характеристик.
То есть, генератор в качестве результата должен выдавать следующее:
Любимый музыкальный стиль - такой-то
Сфера занятости - такая-то

И появление данного конкретного набора характеристик должно быть прямо пропорционально появлению такого набора в городской популяции.

Задача была бы не очень сложна, если бы характеристики были метрическими.
То есть, если бы были даны такие характеристики как уровень зарплаты, индекс здоровья, индекс образования, возраст, и так далее, то можно было бы разделить группу людей с метрическими характеристиками на смесь гауссиан, вычислить вероятность принадлежности человека к каждой гауссиане, и генерировать следующим образом:
1) выбрать гауссиану, в соответствии с вероятностями гауссиан.
2) сгенерировать значение согласно этой гауссиане.

Очевидно, в данном слуаче этот алгоритм не применим, так как нет метрики.

Задача не выглядит неразрешимой, потому что каждый из нас умеет решать подобную задачу в пределах своего города. Каждый примерно понимает, что омоновец, слушающий инди и дабстеп это нечто необычное, а шофер, слушающий шансон - фактически клише.

Тем не менее, как ее решать - не очень то ясно.
Вроде понятно, что можно ввести некую меру "похожести" двух классов, рассчитав, насколько часто совпадают оставшиеся характеристики.
Например, мы можем увидеть, что у работников СХ больше совпадений по музыкальным предпочтениям с работниками логистики, чем с программистами. Но как использовать эту информацию - я не знаю. Или же надо вообще копать в другом направлении.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group