Прогнозирование - точность прогноза против размера мн-ва

Bridgeport · 17/04/06 256

Добрый день!

У меня имеется множество $А$ . Для простоты $А \subset \mathbb{R}^n$ . Мы выбираем подмножество $B \subset A$ . И на основе $B$ мы строим классификатор (Random Forest, SVM или что-то подобное). На $A \setminus B$ мы оценим построенный классификатор. Зачастую построенный классификатор получается очень плохого качества и тогда часто задается вопрос можем ли мы построить классификатор на некотором более узком подмножестве, но с более высоким качеством. Или построить классификатор который предсказывает не все классы, а только качественно определяет один или два класс. Возникает оптимизационная задача. Качество прогнозирования против размера множества и количества классов

Вопросы прогнозирования для меня новы. Я хотел бы узнать правильно название данной оптимизационной задачи, если она вообще существует. И какие есть пути ее решения.

Первое, что мне приходит в голову это построить confusion matrices для различных классов, выбрать наиболее предпочтительные матрицы и объединить классы им соответсвующие.

Andrey_Kireew · 07/10/15 ∞ 2400

Цитата:

Первое, что мне приходит в голову это построить confusion matrices для различных классов, выбрать наиболее предпочтительные матрицы и объединить классы им соответсвующие.

Если Вы построите confusion matrices по тестовому множеству $B$ , то оно утратит свойства такового. Чтобы проверить результат - Вам потребуется новое тестовое множество, т.е. придётся уменьшать обучающую выборку, а это заведомо снизит качество классификаторов первого уровня, которые Вы потом будете объединять.

То что Вы хотите сделать уже делает алгоритм Random Forest. Так что с этим алгоритмом Вы точно ничего не выиграете.

Вообще всегда можно найти обучающее подмножество, будучи обученным на котором, классификатор будет лучше, чем обученный на всём множестве. Проблема в том, как найти это множество. Отбрасывая некоторые наблюдения можно существенно повысить качество классификации на обучающей выборке (в алгоритма SVM примерно это и делается), но с уменьшением объёма об. выборки возрастает и выборочная ошибка. Реальное качество классификации на неизвестных данных, при этом, может даже ухудшится.

PS: Проверка по одному тестовому множеству

Цитата:

B

может оказаться ненадежной. Лучше использовать скользящий контроль.

Научный форум dxdy

Прогнозирование - точность прогноза против размера мн-ва

Кто сейчас на конференции