Цитата:
Первое, что мне приходит в голову это построить confusion matrices для различных классов, выбрать наиболее предпочтительные матрицы и объединить классы им соответсвующие.
Если Вы построите confusion matrices по тестовому множеству
, то оно утратит свойства такового. Чтобы проверить результат - Вам потребуется новое тестовое множество, т.е. придётся уменьшать обучающую выборку, а это заведомо снизит качество классификаторов первого уровня, которые Вы потом будете объединять.
То что Вы хотите сделать уже делает алгоритм Random Forest. Так что с этим алгоритмом Вы точно ничего не выиграете.
Вообще всегда можно найти обучающее подмножество, будучи обученным на котором, классификатор будет лучше, чем обученный на всём множестве. Проблема в том, как найти это множество. Отбрасывая некоторые наблюдения можно существенно повысить качество классификации на обучающей выборке (в алгоритма SVM примерно это и делается), но с уменьшением объёма об. выборки возрастает и выборочная ошибка. Реальное качество классификации на неизвестных данных, при этом, может даже ухудшится.
PS: Проверка по одному тестовому множеству
Цитата:
B
может оказаться ненадежной. Лучше использовать скользящий контроль.