2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки





Начать новую тему Ответить на тему
 
 Прогнозирование - точность прогноза против размера мн-ва
Сообщение22.03.2017, 04:10 


17/04/06
256
Добрый день!

У меня имеется множество А. Для простоты А \subset \mathbb{R}^n. Мы выбираем подмножество $B \subset A$. И на основе B мы строим классификатор (Random Forest, SVM или что-то подобное). На A \setminus B мы оценим построенный классификатор. Зачастую построенный классификатор получается очень плохого качества и тогда часто задается вопрос можем ли мы построить классификатор на некотором более узком подмножестве, но с более высоким качеством. Или построить классификатор который предсказывает не все классы, а только качественно определяет один или два класс. Возникает оптимизационная задача. Качество прогнозирования против размера множества и количества классов

Вопросы прогнозирования для меня новы. Я хотел бы узнать правильно название данной оптимизационной задачи, если она вообще существует. И какие есть пути ее решения.

Первое, что мне приходит в голову это построить confusion matrices для различных классов, выбрать наиболее предпочтительные матрицы и объединить классы им соответсвующие.

 Профиль  
                  
 
 Re: Прогнозирование - точность прогноза против размера мн-ва
Сообщение22.08.2017, 23:17 
Аватара пользователя


07/10/15
459
Цитата:
Первое, что мне приходит в голову это построить confusion matrices для различных классов, выбрать наиболее предпочтительные матрицы и объединить классы им соответсвующие.


Если Вы построите confusion matrices по тестовому множеству $B$, то оно утратит свойства такового. Чтобы проверить результат - Вам потребуется новое тестовое множество, т.е. придётся уменьшать обучающую выборку, а это заведомо снизит качество классификаторов первого уровня, которые Вы потом будете объединять.

То что Вы хотите сделать уже делает алгоритм Random Forest. Так что с этим алгоритмом Вы точно ничего не выиграете.

Вообще всегда можно найти обучающее подмножество, будучи обученным на котором, классификатор будет лучше, чем обученный на всём множестве. Проблема в том, как найти это множество. Отбрасывая некоторые наблюдения можно существенно повысить качество классификации на обучающей выборке (в алгоритма SVM примерно это и делается), но с уменьшением объёма об. выборки возрастает и выборочная ошибка. Реальное качество классификации на неизвестных данных, при этом, может даже ухудшится.

PS: Проверка по одному тестовому множеству
Цитата:
B
может оказаться ненадежной. Лучше использовать скользящий контроль.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 2 ] 

Модераторы: maxal, Karan, Toucan, PAV, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group