2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему
 
 Мат. статистика: Группировка значений факторов при оценке
Сообщение14.02.2014, 17:49 


14/02/14
1
Нужно сделать прогноз, с какой вероятностью конкретный человек доживёт до 80 лет. Изначально, мы предполагаем, что продолжительность жизни зависит от какого-то набора факторов. Возьмём для примера:

Пол
Страна проживания
Зарплата
Рост

Есть набор наблюдений вида:
<Мужской, Россия, 1000$, 178, Не дожил>
<Женский, Германия, 10000$, 165, Дожил>

Количество наблюдений достаточно большое.

Теперь для какого-то конкретного человека (<Мужской, Россия, 1000$, 178 >) нам нужно сделать прогноз, с какой вероятностью он доживёт до 80 лет. Собственно вопрос в том, как это сделать? :) Если я правильно представляю, нужно составить многомерную таблицу, в ячейках которой будут вероятности дожить до 80 лет для людей со значениями факторов для каждой ячейки. Если бы каждый фактор имел конечное число значений, то задача была бы тривиальной. Но что делать с числовыми факторами, например с ростом. Мы же не будем, разбивать рост с шагом в 1 см и заполнять таблицу 160 см, 161 см, 162 см… С зарплатой это точно не сработает :) Если я правильно понимаю, числовые факторы нужно разбивать на интервалы, например: < 160 см, 161-170 см, 170-180 см, … Как правильно сделать такую разбивку, по возможности на меньшее количество интервалов, но учитывая что погрешность в пределах интервала не должна превышать заданную погрешность? Я понимаю, как это сделать, если есть только один числовой фактор. Но что если их несколько? И ещё один вопрос, который тоже тесно связан с разбивкой на интервалы: возможно, другие факторы (например, Страна проживания) будут тоже как-то разбиваться на подмножества значений, в пределах которых результат будет принимать одно и то же значение. Например, при всех прочих равных условиях жители из США, Канады и Европы имеют одинаковую продолжительность жизни. Такую же группировку можно сделать по профессиям и т.д. Как свести набор значений для каждого фактора к конечному числу, по возможности наименьшему?

Заранее спасибо за ответы :)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group