2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Задача по вероятностной статистике.
Сообщение01.01.2013, 21:31 
Аватара пользователя


09/04/12
72
Передо мной стоит следующая задача:

Существует множество стран. Страна1, Страна2, и так далее. У каждой страны есть ряд характеристик, например: плотность населения, территория, индекс развития человеческого потенциала, подушевой ВВП, средняя продолжительность жизни, и так далее. Все характеристики скалярные.

Для простоты предположим, что все страны имеют одинаковое число проживающих в них людей.

Кроме того, у нас имеется база данных по множеству людей из каждой страны данного множества стран. Эта база данных содержит характеристики данного множества людей. То есть, база данных для каждой страны имеет вид таблицы, каждая строка которой представляет из себя набор характеризующих конкретного человека полей - уровень образования, годовой заработок, возраст, и тому подобное. Все эти харакеристики являются скалярными величинами. Т.е. поле, например, "образование" содержит некое число (например, от 1 до 100) определяющее качество образования данного человека, определенное по некоему общему для всех стран критерию.
Задача состоит в том, чтобы используя данную информацию (базу данных стран и базу данных людей), для произвольного человека, заданного своими характеристиками, построить дискретное распределение вероятности его принадлежности к произвольным странам.
Пример:
У нас есть база данных стран и база данных жителей для каждой страны. Это не то, что мы подаем на вход, это то, что мы имеем изначально для построения необходимой нам статистики.
Что мы подаем на вход:
1) Список произвольных стран с их характеристиками. (внимание, не тех стран, по которым мы составляли статистику, а неких новых стран, которые мы должны соотносить с имеющимися в базе, согласно их характеристикам). Например: "Страна1: подушевой ВВП - 7000у.е., ИРЧП - 700, Страна2: подушевой ВВП - 15000у.е., ИРЧП - 800, Страна3: подушевой ВВП - 21000у.е., ИРЧП - 750, ..." Для данных произвольных стран база жителей отсутствует. Набор характеристик для произвольных стран, естественно, тот же, что для имеющихся в базе.
2) Человека с его уникальными характеристиками. "уровень образования - 22.3, доход - 3400у.е./г, возраст 44г, ..."
На выходе нам должен выдаваться ответ вида "Страна1 - вероятность принадлежности - 2.4%, Страна2 - вероятность принадлежности 0.00034%, Страна3 - вероятность принадлежности 7.4%, ...".
Задача была бы легкой, если бы надо было определить вероятности принадлежности человека к уже имеющимся странам, но вот проблема в том, что страны задаются новые, и определять принадлежность надо на основании некоей меры близости произвольных стран к имеющимся в базе в пространстве их характеристик.

Как я пытался решать эту задачу:
Я пытался по имеющимся в базе данным (базе стран и базе людей) построить функцию, которая определяла бы плотность распределения веростности принадлежности человека с конкретными характеристиками к точке в пространстве характеристик стран. Другими словами, на вход функции подавались характеристики человека и характеристики страны, а на выходе функции получалась плотность вероятности принадлежности данного человека к данной точке в пространстве характеристик. Я строил функцию с помощью нейронной сети, хотя, возомжно, есть и более эффективные варианты.
Проблема в том, что я не смог перевести плотность вероятности принадлежности человека к точке пространства характеристик стран в вероятность принадлежности к конкретной стране.
Проблема состоит в том, что страны могут быть неравномерно распределены в пространстве своих характеристик. Например, страны могут сгруппироваться в 2 группы, каждая из которых располагается внутри относительно небольшой области в пространстве характеристик (например, одна группа может состоять, как в нашем мире, из множества стран с большим ВВП, высоким ИРПЧ, большим среднем возрастом человека, и низкими темпами развития, а другая - из стран с низким ВВП, средним ИРПЧ, низким средним возрастом человека и высокими темпами развития).
Предположим, что нам достался человек с такими характеристиками, что вхождение его в любую из имеющихся стран одинакова.
Проблема в том, что если стран второго типа, например, в 10 раз больше, чем стран первого типа, то для этого человека вероятность войти во вторую область пространства характеристик будет в 10 раз больше, чем в мире, где соотношение данных стран было бы 1:1, поскольку большое число стран в пространстве характеристик внутри второй группы увеличивает вероятность попадания человека в данную область пространства характеристик, не увеличивая при этом вероятность попадания в конкретную страну. То есть, в данном приведенном мною случае я не могу взять плотность вероятности попадания в конкретную точку пространства характеристик в качестве вероятности принадлежности человека к стране с данными характеристиками. Пока удовлетворительного решения этой проблемы я не нашел.

Если кто-то знает, как решать подобные задачи - пожалуйста, помогите. Я не большой специалист в статистике и мог пропустить значительно более простые решения. Так что, возможно, ответ состоит не в развитии моего решения, а в каком-то другом.

 Профиль  
                  
 
 Re: Задача по вероятностной статистике.
Сообщение02.01.2013, 08:37 
Заслуженный участник
Аватара пользователя


11/03/08
10039
Москва
Задача отнесения человека к одной из стран списка, руководствуясь его характеристиками, довольно похожа на задачу дискриминантного анализа. Отличие от стандартной постановки - что, помимо списка объектов (людей, соответственно), принадлежащим данным классам, на основании которого строятся средние значения показателей по классам и матрица корреляций показателей, для части классов ("новых стран") заданы лишь средние значения по классам. То есть недостаёт материала для уточнения коррелционной матрицы. Её можно взять равной уже вычисленной по известным странам, или вычислить матрицу межстрановой корреляции по новым странам и комбинировать с вычисленной по известным (в последнем случае возможны трудности как содержательного, так и вычислительного характера). Кроме того, если для известных стран можно принять априорные вероятности принадлежности к классу пропорциональными числу объектов данного класса в обучающей выборке, то здесь такая информация для "новых стран" недоступна. В дискриминантном анализе можно вводить априорные вероятности принадлежности к данному классу, не обязательно пропорциональные представленности соответствующих классов в обучающей выборке. Видимо, этим и следует воспользоваться.

 Профиль  
                  
 
 Re: Задача по вероятностной статистике.
Сообщение02.01.2013, 13:28 
Аватара пользователя


09/04/12
72
Спасибо за ответ.
Евгений Машеров в сообщении #666060 писал(а):
Задача отнесения человека к одной из стран списка, руководствуясь его характеристиками, довольно похожа на задачу дискриминантного анализа. Отличие от стандартной постановки - что, помимо списка объектов (людей, соответственно), принадлежащим данным классам, на основании которого строятся средние значения показателей по классам и матрица корреляций показателей, для части классов ("новых стран") заданы лишь средние значения по классам. То есть недостаёт материала для уточнения коррелционной матрицы.

Задача сложнее, чем вы описали. Во-первых, характеристики стран/классов, в общем случае, не являются усредненными характеристиками их жителей. То есть, нет такого, что каждой характеристике человека соответствует характеристика страны. Это два совершенно разных набора. Какие то характеристики людей могут не иметь соответствующих им характеристик стран, и наоборот. Характеристики стран можно использовать лишь для определения меры близости стран в пространстве характеристик стран. Во-вторых, к сожалению, описание объектов класса в виде матрицы корелляции является недопустимым упрощением задачи. Класс может содержать некоторые компактные в пространстве характеристик объектов группы объектов. Например, в какой то стране могут быть 3 основные группы людей - "реднеки"/"средний класс"/"эммигранты", при этом людей с усредненными характеристиками этих трех классов может быть очень мало. В данном случае больше подходит EM алгоритм для разделения смеси гауссиан. Проблема в том, что я не знаю, как "перевести" одну смесь гауссиан в другую. То есть, вот если есть 2 класса, в одном, например, объекты сгруппированы в 2 гауссианы, с определенными параметрами, в другом в 3, то неясен алгоритм построение промежуточных классов.
Евгений Машеров в сообщении #666060 писал(а):
Кроме того, если для известных стран можно принять априорные вероятности принадлежности к классу пропорциональными числу объектов данного класса в обучающей выборке, то здесь такая информация для "новых стран" недоступна.

Выборку по странам можно считать одинаковой. Вообще можно считать, что во всех странах одинаковое население. То есть, в данном случае никаких дополнительных мер не требуется.

 Профиль  
                  
 
 Re: Задача по вероятностной статистике.
Сообщение02.01.2013, 16:43 
Заслуженный участник
Аватара пользователя


11/03/08
10039
Москва
Тогда добавляется к собственно классификации два дополнительных этапа:
1. Разбивка на "подстраны" (в смысле разбивка совокупности людей, отнесённых к данной стране, на подмножества "гауссовой" формы, в смысле, чтобы эти подмножества можно было с малой потерей охарактеризовать средними и эллипсоидами рассеяния). И классификация вновь поступивших делается по "подстранам" ("США-реднеки", "США-средний класс", "США-университетские", "США-иммигранты")
2. Построение оценки средних по классаи по доступным данным (скажем, регрессия характеристик людей на характеристики стран) и использование этой оценки для новых стран.

 Профиль  
                  
 
 Re: Задача по вероятностной статистике.
Сообщение02.01.2013, 21:06 
Аватара пользователя


09/04/12
72
Я понимаю это. Тут как раз весь вопрос в том, как в случае промежуточной страны изменятся наборы гауссиан двух соседних стран.
Вот если у нас есть две страны, и в каждой по 3 подкласса, то у нас, в общем случае, нет возможности соотнести эти подклассы в обоих странах. То есть, вот есть у нас страна1-подкласс1, страна1-подкласс2, страна1-подкласс3 и страна2-подкласс1, страна2-подкласс2, страна2-подкласс3. Мы не можем в общем случае сказать, что страна1-подкласс3 в ходе перемещения страны в пространстве своих характеристик переходит в страна2-подкласс3. Может он переходит в подкласс2, или подкласс1.
У меня тоже нет никаких решений для данного вопроса, я просто прячу это в нейронную сеть, в надежде, что она сама разберется.

 Профиль  
                  
 
 Re: Задача по вероятностной статистике.
Сообщение02.01.2013, 23:24 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Деление на подклассы для предложенного подхода должно быть "естественным", тогда число этих подклассов в разных странах будет одинаковым, и между ними можно будет естественным образом установить взаимно-однозначное соответствие. В случае таких естественных характеристик, как в Вашей задаче, можно это сделать из априорных соображений, как принято в социологии.

Другой подход может быть таким. Мы учимся определять принадлежность человека к каждой из известных стран. А также выбираем некоторую разумную меру "похожести" стран друг на друга. Для нового человека и новой страны определяем вероятности принадлежности данного человека к каждой из имеющихся стран, а также измеряем похожесть новой страны на все эти имеющиеся страны, и используем эти похожести для взвешивания ответов о принадлежности.

 Профиль  
                  
 
 Re: Задача по вероятностной статистике.
Сообщение03.01.2013, 00:55 
Аватара пользователя


09/04/12
72
PAV в сообщении #666431 писал(а):
Деление на подклассы для предложенного подхода должно быть "естественным"

Прошу прощения, но я не понимаю, что это значит.
PAV в сообщении #666431 писал(а):
В случае таких естественных характеристик, как в Вашей задаче, можно это сделать из априорных соображений, как принято в социологии.

То есть, я должен иметь возможность создать какие то общие для всех стран классы (преуспевающий/среднячок/за бортом), и потом соотносить с ними получающиеся подклассы?
Наверное, это возможно, но мне хотелось бы сделать в общем виде, чтобы система разбиралась сама. Если я начну задавать какие то правила, это вряд ли доведет до добра. Надо будет следить, что не появились какие-то исключения, наложится очередной слой человеческого фактора и возможности ошибки, надо будет смотреть за совместимостью этих условий с изменениями в системе. В общем, я предпочел бы по возможности не рассматривать движение в направлении введения априорных правил. Это вроде как ultima ratio regum.
PAV в сообщении #666431 писал(а):
Другой подход может быть таким. Мы учимся определять принадлежность человека к каждой из известных стран. А также выбираем некоторую разумную меру "похожести" стран друг на друга. Для нового человека и новой страны определяем вероятности принадлежности данного человека к каждой из имеющихся стран, а также измеряем похожесть новой страны на все эти имеющиеся страны, и используем эти похожести для взвешивания ответов о принадлежности.

Это скорее похоже на постановку задачи, чем на решение. То есть, я как раз пытаюсь найти способ сделать вот это все. Мера похожести стран напрашивается сама собой - расстояние в пространстве характеристик. Определить принадлежность человека надо не к имеющимся в базе странам, а к новому множеству стран, представленному только характеристиками стран, но не имеющему базы людей. Если же говорить о механизме уточнения вероятности принадлежности к имеющимся в базе странам для новых стран - то тут как раз вопрос - как это сделать.
Я боюсь, система должна научиться понимать характер изменения классового состава граждан страны в зависимости от ее характеристик. Без этого мне либо придется задать эту зависимость самому, либо необходимая точность не будет достигнута.

 Профиль  
                  
 
 Re: Задача по вероятностной статистике.
Сообщение03.01.2013, 14:09 
Заслуженный участник
Аватара пользователя


11/03/08
10039
Москва
Чисто формально решение здесь, боюсь, невозможно. Имитация решения - возможна. Например, с помощью тех же нейросетей. Но не более, чем имитация.

 Профиль  
                  
 
 Re: Задача по вероятностной статистике.
Сообщение03.01.2013, 14:36 
Аватара пользователя


09/04/12
72
Евгений Машеров в сообщении #666573 писал(а):
Чисто формально решение здесь, боюсь, невозможно. Имитация решения - возможна. Например, с помощью тех же нейросетей. Но не более, чем имитация.

Это плохо, конечно. Но нейронные сети все же лучше, чем априорные правила.

 Профиль  
                  
 
 Re: Задача по вероятностной статистике.
Сообщение08.01.2013, 11:06 
Заслуженный участник
Аватара пользователя


11/03/08
10039
Москва
Априорные правила - это понимание того, что за ними стоит. Нейронные сети гарантируют лишь подгонку.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 10 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group