2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Оценка влияния признаков на результат
Сообщение28.09.2010, 09:15 
Доброго времени суток. Подскажите, пожалуйста, какой метод следует использовать.
Задача следующая. Есть некоторая статистика по клиентам банка, представленная в виде таблицы, содержащей поля: образование, специальность, должность, среднемесячный доход, наличие автомобиля, размер кредита, наличие других кредитов и еще несколько полей. Для каждой записи о клиенте существует признак - должник/не должник. Требуется определить те поля или группу полей, которые в большей степени влияют на признак должник/недолжник. Меня смущает то, что указанные поля не независимы, а коррелируют друг с другом. Например, размер заработной платы и наличие автомобиля. Спасибо.

 
 
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 10:14 
Аватара пользователя
Это очень творческая задача. Потому что "в наибольшей степени" влияют ВСЕ поля. Т.е. наиболее точное решающее правило Вы получите именно тогда, когда учтёте все поля. Но это правило может оказаться неадекватно сложным. Поэтому здесь вопрос компромисса между сложностью и точностью учёта параметров клиента.

 
 
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 11:08 
Правильно ли я понимаю, что в данном случае следует использовать какой-либо из методов непараметрической статистики?

 
 
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 11:25 
Аватара пользователя
Можно и параметрической. :wink: Вопрос только в том, что Вы хотели бы получить на выходе. Вот скажите, например, возможных комбинаций значений параметров у Вас ведь больше, чем количество клиентов в базе? Потому что если их существенно меньше, то самый простой способ - оценивать вероятность того, что клиент станет должником, для каждой возможной комбинации параметров. А вот если их больше, то возникает вопрос: что с чем объединять и до какой степени...

 
 
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 12:53 
Клиентов в базе порядка 10 тысяч, а предикторов - 20. Просмотрев литературу решил остановиться на методе Дискриминантного анализа.

 
 
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 13:34 
Аватара пользователя
_DR_ в сообщении #356928 писал(а):
предикторов - 20
Это Вы о количестве переменных, а я - о количестве возможных комбинаций значений. Если каждая переменная имеет только 2 возможных значения, то количество возможных комбинаций значений уже $2^{20}$, что многократно превосходит мыслимые количества клиентов.

_DR_ в сообщении #356928 писал(а):
Просмотрев литературу решил остановиться на методе Дискриминантного анализа.
Это очень общё... Если же Вы имеете в виду линейный дискриминантный анализ, то он основан на предположении о нормальной распределённости вектора параметров, что в Вашем случае наверняка имеет слабое отношение к реальности. Кстати, пример персептрона продемонстрировал неадекватность линейной классификации для многих задач распознавания: некоторые символы он отказывается распознавать даже при стремящихся в бесконечность объёмах обучающих выборок... В Вашем случае это наверняка будет так же.

 
 
 [ Сообщений: 6 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group