Добрый день.
Вероятно, я не до конца понимаю, что делает кросс-валидация, поэтому возник следующий вопрос.
Решаю задачу бинарной классификации. Имеется
признаковых описаний объектов (features) и я хочу найти такое подмножество признаковых описаний из
-элементного множества признаковых описаний, которое бы максимизировало мою метрику (roc_auc_score).
Ввиду небольшого количества признаков (15 штук) и знания предметной области, общее количество подмножеств сокращается до порядка
- т.е. полный перебор возможен.
Полным перебром нахожу интересующее подмножество.
Вопрос - зачем тут может понадобится кросс-валидация?
Кросс-валидация не поможет мне отыскать набор признаков, который максимизирует метрику, а лишь позволит посчитать мою метрику на разных разбиениях обучающей выборки, но это бессмысленно, так как оптимум был найден полным перебором, и второго оптимума нет.
В чем я ошибаюсь?
Верен ли тезис, что если задача может быть (на практике) решена полным перебором, кросс-валидация не нужна?
Кросс-валидация позволяет настроить только гиперпараметры "оценщика" (estimator в sklearn) - например, коэффициент регуляризации, вид регуляризации, критерий останова и т.п. ?