Нужно сделать прогноз, с какой вероятностью конкретный человек доживёт до 80 лет. Изначально, мы предполагаем, что продолжительность жизни зависит от какого-то набора факторов. Возьмём для примера:
Пол Страна проживания Зарплата Рост
Есть набор наблюдений вида: <Мужской, Россия, 1000$, 178, Не дожил> <Женский, Германия, 10000$, 165, Дожил> … Количество наблюдений достаточно большое.
Теперь для какого-то конкретного человека (<Мужской, Россия, 1000$, 178 >) нам нужно сделать прогноз, с какой вероятностью он доживёт до 80 лет. Собственно вопрос в том, как это сделать? :) Если я правильно представляю, нужно составить многомерную таблицу, в ячейках которой будут вероятности дожить до 80 лет для людей со значениями факторов для каждой ячейки. Если бы каждый фактор имел конечное число значений, то задача была бы тривиальной. Но что делать с числовыми факторами, например с ростом. Мы же не будем, разбивать рост с шагом в 1 см и заполнять таблицу 160 см, 161 см, 162 см… С зарплатой это точно не сработает :) Если я правильно понимаю, числовые факторы нужно разбивать на интервалы, например: < 160 см, 161-170 см, 170-180 см, … Как правильно сделать такую разбивку, по возможности на меньшее количество интервалов, но учитывая что погрешность в пределах интервала не должна превышать заданную погрешность? Я понимаю, как это сделать, если есть только один числовой фактор. Но что если их несколько? И ещё один вопрос, который тоже тесно связан с разбивкой на интервалы: возможно, другие факторы (например, Страна проживания) будут тоже как-то разбиваться на подмножества значений, в пределах которых результат будет принимать одно и то же значение. Например, при всех прочих равных условиях жители из США, Канады и Европы имеют одинаковую продолжительность жизни. Такую же группировку можно сделать по профессиям и т.д. Как свести набор значений для каждого фактора к конечному числу, по возможности наименьшему?
Заранее спасибо за ответы :)
|