Добрый день.
Вероятно, я не до конца понимаю, что делает кросс-валидация, поэтому возник следующий вопрос.
Решаю задачу бинарной классификации. Имеется
![$n$ $n$](https://dxdy-02.korotkov.co.uk/f/5/5/a/55a049b8f161ae7cfeb0197d75aff96782.png)
признаковых описаний объектов (features) и я хочу найти такое подмножество признаковых описаний из
![$n$ $n$](https://dxdy-02.korotkov.co.uk/f/5/5/a/55a049b8f161ae7cfeb0197d75aff96782.png)
-элементного множества признаковых описаний, которое бы максимизировало мою метрику (roc_auc_score).
Ввиду небольшого количества признаков (15 штук) и знания предметной области, общее количество подмножеств сокращается до порядка
![$2^{10}$ $2^{10}$](https://dxdy-02.korotkov.co.uk/f/d/e/c/decfc9bcc0df6177ccbffeab4da5ccff82.png)
- т.е. полный перебор возможен.
Полным перебром нахожу интересующее подмножество.
Вопрос - зачем тут может понадобится кросс-валидация?
Кросс-валидация не поможет мне отыскать набор признаков, который максимизирует метрику, а лишь позволит посчитать мою метрику на разных разбиениях обучающей выборки, но это бессмысленно, так как оптимум был найден полным перебором, и второго оптимума нет.
В чем я ошибаюсь?
Верен ли тезис, что если задача может быть (на практике) решена полным перебором, кросс-валидация не нужна?
Кросс-валидация позволяет настроить только гиперпараметры "оценщика" (estimator в sklearn) - например, коэффициент регуляризации, вид регуляризации, критерий останова и т.п. ?