Передо мной стоит следующая задача:
Существует множество стран. Страна1, Страна2, и так далее. У каждой страны есть ряд характеристик, например: плотность населения, территория, индекс развития человеческого потенциала, подушевой ВВП, средняя продолжительность жизни, и так далее. Все характеристики скалярные.
Для простоты предположим, что все страны имеют одинаковое число проживающих в них людей.
Кроме того, у нас имеется база данных по множеству людей из каждой страны данного множества стран. Эта база данных содержит характеристики данного множества людей. То есть, база данных для каждой страны имеет вид таблицы, каждая строка которой представляет из себя набор характеризующих конкретного человека полей - уровень образования, годовой заработок, возраст, и тому подобное. Все эти харакеристики являются скалярными величинами. Т.е. поле, например, "образование" содержит некое число (например, от 1 до 100) определяющее качество образования данного человека, определенное по некоему общему для всех стран критерию. Задача состоит в том, чтобы используя данную информацию (базу данных стран и базу данных людей), для произвольного человека, заданного своими характеристиками, построить дискретное распределение вероятности его принадлежности к произвольным странам. Пример: У нас есть база данных стран и база данных жителей для каждой страны. Это не то, что мы подаем на вход, это то, что мы имеем изначально для построения необходимой нам статистики. Что мы подаем на вход: 1) Список произвольных стран с их характеристиками. (внимание, не тех стран, по которым мы составляли статистику, а неких новых стран, которые мы должны соотносить с имеющимися в базе, согласно их характеристикам). Например: "Страна1: подушевой ВВП - 7000у.е., ИРЧП - 700, Страна2: подушевой ВВП - 15000у.е., ИРЧП - 800, Страна3: подушевой ВВП - 21000у.е., ИРЧП - 750, ..." Для данных произвольных стран база жителей отсутствует. Набор характеристик для произвольных стран, естественно, тот же, что для имеющихся в базе. 2) Человека с его уникальными характеристиками. "уровень образования - 22.3, доход - 3400у.е./г, возраст 44г, ..." На выходе нам должен выдаваться ответ вида "Страна1 - вероятность принадлежности - 2.4%, Страна2 - вероятность принадлежности 0.00034%, Страна3 - вероятность принадлежности 7.4%, ...". Задача была бы легкой, если бы надо было определить вероятности принадлежности человека к уже имеющимся странам, но вот проблема в том, что страны задаются новые, и определять принадлежность надо на основании некоей меры близости произвольных стран к имеющимся в базе в пространстве их характеристик.
Как я пытался решать эту задачу: Я пытался по имеющимся в базе данным (базе стран и базе людей) построить функцию, которая определяла бы плотность распределения веростности принадлежности человека с конкретными характеристиками к точке в пространстве характеристик стран. Другими словами, на вход функции подавались характеристики человека и характеристики страны, а на выходе функции получалась плотность вероятности принадлежности данного человека к данной точке в пространстве характеристик. Я строил функцию с помощью нейронной сети, хотя, возомжно, есть и более эффективные варианты. Проблема в том, что я не смог перевести плотность вероятности принадлежности человека к точке пространства характеристик стран в вероятность принадлежности к конкретной стране. Проблема состоит в том, что страны могут быть неравномерно распределены в пространстве своих характеристик. Например, страны могут сгруппироваться в 2 группы, каждая из которых располагается внутри относительно небольшой области в пространстве характеристик (например, одна группа может состоять, как в нашем мире, из множества стран с большим ВВП, высоким ИРПЧ, большим среднем возрастом человека, и низкими темпами развития, а другая - из стран с низким ВВП, средним ИРПЧ, низким средним возрастом человека и высокими темпами развития). Предположим, что нам достался человек с такими характеристиками, что вхождение его в любую из имеющихся стран одинакова. Проблема в том, что если стран второго типа, например, в 10 раз больше, чем стран первого типа, то для этого человека вероятность войти во вторую область пространства характеристик будет в 10 раз больше, чем в мире, где соотношение данных стран было бы 1:1, поскольку большое число стран в пространстве характеристик внутри второй группы увеличивает вероятность попадания человека в данную область пространства характеристик, не увеличивая при этом вероятность попадания в конкретную страну. То есть, в данном приведенном мною случае я не могу взять плотность вероятности попадания в конкретную точку пространства характеристик в качестве вероятности принадлежности человека к стране с данными характеристиками. Пока удовлетворительного решения этой проблемы я не нашел.
Если кто-то знает, как решать подобные задачи - пожалуйста, помогите. Я не большой специалист в статистике и мог пропустить значительно более простые решения. Так что, возможно, ответ состоит не в развитии моего решения, а в каком-то другом.
|