2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Прогнозирование - точность прогноза против размера мн-ва
Сообщение22.03.2017, 04:10 


17/04/06
256
Добрый день!

У меня имеется множество А. Для простоты А \subset \mathbb{R}^n. Мы выбираем подмножество $B \subset A$. И на основе B мы строим классификатор (Random Forest, SVM или что-то подобное). На A \setminus B мы оценим построенный классификатор. Зачастую построенный классификатор получается очень плохого качества и тогда часто задается вопрос можем ли мы построить классификатор на некотором более узком подмножестве, но с более высоким качеством. Или построить классификатор который предсказывает не все классы, а только качественно определяет один или два класс. Возникает оптимизационная задача. Качество прогнозирования против размера множества и количества классов

Вопросы прогнозирования для меня новы. Я хотел бы узнать правильно название данной оптимизационной задачи, если она вообще существует. И какие есть пути ее решения.

Первое, что мне приходит в голову это построить confusion matrices для различных классов, выбрать наиболее предпочтительные матрицы и объединить классы им соответсвующие.

 Профиль  
                  
 
 Re: Прогнозирование - точность прогноза против размера мн-ва
Сообщение22.08.2017, 23:17 


07/10/15

2400
Цитата:
Первое, что мне приходит в голову это построить confusion matrices для различных классов, выбрать наиболее предпочтительные матрицы и объединить классы им соответсвующие.


Если Вы построите confusion matrices по тестовому множеству $B$, то оно утратит свойства такового. Чтобы проверить результат - Вам потребуется новое тестовое множество, т.е. придётся уменьшать обучающую выборку, а это заведомо снизит качество классификаторов первого уровня, которые Вы потом будете объединять.

То что Вы хотите сделать уже делает алгоритм Random Forest. Так что с этим алгоритмом Вы точно ничего не выиграете.

Вообще всегда можно найти обучающее подмножество, будучи обученным на котором, классификатор будет лучше, чем обученный на всём множестве. Проблема в том, как найти это множество. Отбрасывая некоторые наблюдения можно существенно повысить качество классификации на обучающей выборке (в алгоритма SVM примерно это и делается), но с уменьшением объёма об. выборки возрастает и выборочная ошибка. Реальное качество классификации на неизвестных данных, при этом, может даже ухудшится.

PS: Проверка по одному тестовому множеству
Цитата:
B
может оказаться ненадежной. Лучше использовать скользящий контроль.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 2 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: AI enthusiast


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group