2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки
01/01/18 20:50 UTC: Перешли на HTTPS в тестовом режиме. О проблемах пишите в ЛС cepesh.





Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Как понизить размерность, если точные признаки неизвестны?
Сообщение05.04.2017, 21:22 


15/01/12
167
Воронцова давно читал, сейчас пересмотрю.
Цитата:
(пример стандартного способа для контестов, но не для промышленного использования - обучить несколько разных моделей и взять голосование/среднее/ансамбль)

Часто так делаю. Почему не подходит для промышленного использования? Из-за
Цитата:
Оказалось, что взвешенное голосование не увеличивает эффективную сложность алгоритма, а лишь сглаживает ответы базовых алгоритмов.

 Профиль  
                  
 
 Re: Как понизить размерность, если точные признаки неизвестны?
Сообщение05.04.2017, 21:35 
Заслуженный участник
Аватара пользователя


16/07/14
1589
Москва
Потому что на практике как правило увеличение времени работы в разы не стоит того прироста качества, которое получается.

 Профиль  
                  
 
 Re: Как понизить размерность, если точные признаки неизвестны?
Сообщение02.12.2017, 03:53 
Аватара пользователя


07/10/15
612
Igor_Dmitriev Прежде чем "ломать копья" советую лучше проанализировать исходные признаки. Вы пишите, что они не коррелированы. Уточните, что Вы вкладываете в понятие корреляция и коррелированность. Если Вы вычисляли адекватные для своего случая показатели корреляции, и полученные на выборке значения оказались статистически незначимы, то боюсь ни о каком сокращении размерности речи быть не может. По этим причинам, боюсь от PCA придётся отказаться сразу.
То, что Вы хотели сделать, прогнозируя одни признаки через другие, идея хорошая (похоже на сети предикторов), но там нужно будет предотвратить переобучение, тем более, что у Вас сотни признаков - это не так то просто.

Автоэнкодер, который Вам тут предлагали, штука заманчивая, но только на первый взгляд. Для данных большой размерности получится огромная сеть, требующая десятков, а то и сотен Гб памяти. Другими словами, для этой штуки нужно ещё "железо" подобрать подходящее. Но это не самое худшее. Там большая и нерешенная проблема инициализации сети. Если Вы не найдёте удовлетворительный способ - то ничего хорошего из этой затеи не выйдет.

Повторяюсь, смысл снижения размерности без потерь будет только при наличии корреляции исходных признаков. Для уверенности можно посчитать ранговые корреляции на разных подвыборках. И если все они окажутся незначимы - то придётся использовать их все. Иначе есть риск потерять полезную информацию.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 18 ]  На страницу Пред.  1, 2

Модераторы: maxal, Karan, Toucan, PAV, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group