2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему
 
 Оценка влияния признаков на результат
Сообщение28.09.2010, 09:15 


28/09/10
3
Доброго времени суток. Подскажите, пожалуйста, какой метод следует использовать.
Задача следующая. Есть некоторая статистика по клиентам банка, представленная в виде таблицы, содержащей поля: образование, специальность, должность, среднемесячный доход, наличие автомобиля, размер кредита, наличие других кредитов и еще несколько полей. Для каждой записи о клиенте существует признак - должник/не должник. Требуется определить те поля или группу полей, которые в большей степени влияют на признак должник/недолжник. Меня смущает то, что указанные поля не независимы, а коррелируют друг с другом. Например, размер заработной платы и наличие автомобиля. Спасибо.

 Профиль  
                  
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 10:14 
Заслуженный участник
Аватара пользователя


28/09/06
10859
Это очень творческая задача. Потому что "в наибольшей степени" влияют ВСЕ поля. Т.е. наиболее точное решающее правило Вы получите именно тогда, когда учтёте все поля. Но это правило может оказаться неадекватно сложным. Поэтому здесь вопрос компромисса между сложностью и точностью учёта параметров клиента.

 Профиль  
                  
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 11:08 


28/09/10
3
Правильно ли я понимаю, что в данном случае следует использовать какой-либо из методов непараметрической статистики?

 Профиль  
                  
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 11:25 
Заслуженный участник
Аватара пользователя


28/09/06
10859
Можно и параметрической. :wink: Вопрос только в том, что Вы хотели бы получить на выходе. Вот скажите, например, возможных комбинаций значений параметров у Вас ведь больше, чем количество клиентов в базе? Потому что если их существенно меньше, то самый простой способ - оценивать вероятность того, что клиент станет должником, для каждой возможной комбинации параметров. А вот если их больше, то возникает вопрос: что с чем объединять и до какой степени...

 Профиль  
                  
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 12:53 


28/09/10
3
Клиентов в базе порядка 10 тысяч, а предикторов - 20. Просмотрев литературу решил остановиться на методе Дискриминантного анализа.

 Профиль  
                  
 
 Re: Оценка влияния признаков на результат
Сообщение28.09.2010, 13:34 
Заслуженный участник
Аватара пользователя


28/09/06
10859
_DR_ в сообщении #356928 писал(а):
предикторов - 20
Это Вы о количестве переменных, а я - о количестве возможных комбинаций значений. Если каждая переменная имеет только 2 возможных значения, то количество возможных комбинаций значений уже $2^{20}$, что многократно превосходит мыслимые количества клиентов.

_DR_ в сообщении #356928 писал(а):
Просмотрев литературу решил остановиться на методе Дискриминантного анализа.
Это очень общё... Если же Вы имеете в виду линейный дискриминантный анализ, то он основан на предположении о нормальной распределённости вектора параметров, что в Вашем случае наверняка имеет слабое отношение к реальности. Кстати, пример персептрона продемонстрировал неадекватность линейной классификации для многих задач распознавания: некоторые символы он отказывается распознавать даже при стремящихся в бесконечность объёмах обучающих выборок... В Вашем случае это наверняка будет так же.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group