2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 Формализация репрезентативности обучающей выборки
Сообщение28.01.2017, 18:09 


23/12/07
1763
Есть ли какие-нибудь подходы к формализации понятия репрезентативности обучающей выборки классификатора? Вроде интуитивно кажется, что такие должны быть, поскольку, например, выборка, состоящая из 100 мужчин в черном и 100 женщин в белом, обладает плохой репрезентативностью (признак цвета одежды напрямую сцеплен с признаком пола).

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение01.02.2017, 22:53 


10/03/16
4444
Aeroport
Тип классификатора? NN, neural network, convolutional neural network?

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение07.02.2017, 16:03 


23/12/07
1763
ozheredov в сообщении #1189159 писал(а):
Тип классификатора? NN, neural network, convolutional neural network?


а что есть разница? ну тогда любой, относительно которого у вас есть ответ на мой вопрос.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение07.02.2017, 22:57 
Заслуженный участник


24/08/12
1116
_hum_ в сообщении #1188034 писал(а):
Есть ли какие-нибудь подходы к формализации понятия репрезентативности обучающей выборки классификатора?
Есть формализованное понятие "репрезентативности выборки относно общей совокупности, для какого-то признака".

Для полностью случайной выборки - есть статформулы для рассчета ее ошибки (ошибка случайной выборки зависит от размера общей совокупности и доли признака в ней, размера выборки, требуемого доверительного интервала и т.д.).
Напр см. http://www.fdfgroup.ru/?id=189

Не совсем понятно причем тут классификатор (и вообще цели для которых используется выборка) - она либо репрезентативна для общей совокупности - либо нет.

-- 08.02.2017, 00:06 --

_hum_ в сообщении #1188034 писал(а):
Вроде интуитивно кажется, что такие должны быть, поскольку, например, выборка, состоящая из 100 мужчин в черном и 100 женщин в белом, обладает плохой репрезентативностью (признак цвета одежды напрямую сцеплен с признаком пола).


Если вас интересует гарантия ошибки относно "неопределенного" числа признаков - формулы для случайной выборки могут вам гарантировать что при размере выборки не меньше Х от общей совокупности Y, все признаки с доли не меньше чем Z будут репрезентативно представлены с доверительностью напр. Q=95% с ошибки не превышающей P - это позволит рассчитать необходимый размер случайной выборки Х, имея Y, Z, Q и P.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 01:16 


23/12/07
1763
manul91, задача такая: есть две выборки из одной и той же общей совокупности. положим, они содержат котиков и собачек. и вы собираетесь по этим выборкам учить вашего ребенка отличать котиков от собачек.
теперь представьте, в одной выборке у вас все собачки черные, а все котики белые. а во второй - с одинаковой частотой встречаются как черные так и белые.
интуитивно понятно, что вторая выборка лучше для обучения, потому что обучаемый не подвергнется соблазну отличать котиков и собачек только по цвету.

вот я и спрашиваю, как формально это описать - что вторая выборка лучше (богаче, "репрезентативнее") для обучения классификации, чем первая.
(считаем, что у вас нет возможности обратиться к генеральной совокупности)

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 14:06 
Заслуженный участник
Аватара пользователя


16/07/14
9234
Цюрих
Без ссылки на общее распределение - никак. Глядя только на белых котиков и черных собачек, вы никак не можете понять, что вон то белое, но с круглыми зрачками и висящими ушами - это собака, а не кошка.

Нет "абсолютной" репрезентативности - только относительно какого-то распределения. И одна и та же выборка может быть репрезентативна относительно одного распределения, и нерепрезентативна относительно другого.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 19:14 


23/12/07
1763
mihaild в сообщении #1190762 писал(а):
ез ссылки на общее распределение - никак. Глядя только на белых котиков и черных собачек, вы никак не можете понять, что вон то белое, но с круглыми зрачками и висящими ушами - это собака, а не кошка.


речь о размеченных выборках - я ребенку показываю картинки из выборки и говорю - это котик, а это собачка. только при обучении по первой выборке из примера он может запомнить, что котик - это там, где белое, а собачка, где черное (потому что цвета напрямую коррелируют с классом), и в дальнейшем ошибаться на реальных случаях, а при обучении на второй вбюорке он этого сделать не сможет, а потому вероятность того, что он правильно обучится различать кошек и собак (выберет и сформирует нужные признаки) - выше.
вот я и пытаюсь найти критерий, по которому можно было бы судить о качестве выборки для обучения такого рода.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 19:35 
Заслуженный участник
Аватара пользователя


16/07/14
9234
Цюрих
Ну вот для определения, что первая выборка плохая, а вторая - хорошая, вы использовали знание о том, что в общем распределении цвет с видом коррелирует гораздо слабее, чем в вашей обучающей. Без использования общего распределения такой вывод получить нельзя.

Если общее распределение есть, то формальное описание: в обучающей выборке корреляция цвета с целевой функцией сильно выше, чем в настоящем распределении.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 20:00 


23/12/07
1763
mihaild в сообщении #1190854 писал(а):
Ну вот для определения, что первая выборка плохая, а вторая - хорошая, вы использовали знание о том, что в общем распределении цвет с видом коррелирует гораздо слабее, чем в вашей обучающей. Без использования общего распределения такой вывод получить нельзя.

я не могу сказать, насколько выборка плоха, не зная исходного распределения, но остается же еще вариант - я могу (без исходного распределения) попытаться сказать, насколько она хороша. интуиция тут такая - если в ее гистограмме по признакам очень много пиков примерно одинакового размера, то это значит, что при обучении ребенок будет ориентироваться сразу на множество признаков, не отдавая предпочтения каким-то выбранным. а это дает более высокую надежность правильного обучения.
например, в указанном примере, у меня бы в гистограмме очень сильный выброс был бы по признаку "цвет", и слабенькие по всем остальным (наподобие "форма глаз", "пропорции носа" и т.п.), а значит, эта выборка ненадежна для обучения (она может быть и репрезентативной, если в мире все, что белое - это коты, а черное - собаки, но мы не можем гарантировать без наличия исходной генеральной совокупности, что это так).

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 21:13 
Аватара пользователя


11/12/16
14106
уездный город Н
_hum_
У Вас есть одна выборка и нужно оценить её "качество", или у Вас есть много выборок и нужно выбрать выборку с лучшим "качеством"?

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 22:07 


23/12/07
1763
EUgeneUS, в общем случае хотелось бы оценивать "надежность" одной выборки, чтобы в случае ее "ненадежности" искать другую.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение09.02.2017, 01:23 
Заслуженный участник
Аватара пользователя


16/07/14
9234
Цюрих
_hum_, а представьте, что у вас общее распределение имеет вид "красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги", и вы учите отличать квадраты от кругов. Тогда выборку из красных больших квадратов + синих маленьких кругов вы примете - хотя она хуже, чем смесь всех четырех типов.
Или еще хуже - у вас очень редко встречаются синие квадраты и красные круги разных размеров, но очень редко. Тогда вы отдадите предпочтение выборке, в которой есть сильная корреляция формы как с размером, так и с цветом выборке, в которой корреляция только с цветом - хотя по второй выборке учиться гораздо лучше.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение09.02.2017, 09:07 


23/12/07
1763
mihaild в сообщении #1190971 писал(а):
_hum_, а представьте, что у вас общее распределение имеет вид "красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги", и вы учите отличать квадраты от кругов. Тогда выборку из красных больших квадратов + синих маленьких кругов вы примете - хотя она хуже, чем смесь всех четырех типов.

mihaild, я не говорил, что достаточно только смотреть на количество мод (если б этого было достаточно, я бы не задавал тут вопроса). я просто привел интуитивные соображения. в вашем примере признаки на гистограмме будут сцепленные - распределение пар ("цвет", "форма") при фиксированной координате "размер" будет линейным , что интуитивно опять позволяет не доверять такой выборке (ведь сцепленность фактически "схлопывает" данные признаки в один).

еще раз интуитивное соображение: надежная выборка - это та, где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?

-- Чт фев 09, 2017 10:16:42 --

mihaild в сообщении #1190971 писал(а):
Или еще хуже - у вас очень редко встречаются синие квадраты и красные круги разных размеров, но очень редко. Тогда вы отдадите предпочтение выборке, в которой есть сильная корреляция формы как с размером, так и с цветом выборке, в которой корреляция только с цветом - хотя по второй выборке учиться гораздо лучше.

этого я не понял.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение09.02.2017, 13:24 
Заслуженный участник
Аватара пользователя


16/07/14
9234
Цюрих
_hum_ в сообщении #1190996 писал(а):
где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?
А этого не понял я, даже интуитивно.
Просто "есть много координат, по которым распределение сильно отличается от точечного, и координаты независимы в совокупности"?

_hum_ в сообщении #1190996 писал(а):
этого я не понял.
Представим себе, что наше подлинное распределение такое: по $24%$ - красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги; по $1%$ - синие большие квадраты, синие маленькие квадраты, красные большие круги, красные маленькие круги.

Тогда по критерию "разнообразия" выборка по $N$ фигур каждого из 8 типов будет лучше, чем по $24N$ каждого из распространенных типов, и по $N$ из нераспространенных.
Но если в выборке фигур каждого типа одинаково - то мы, глядя на нее, не научимся давать предсказания лучше, чем монетка, по второй мы обучимся "красное - это квадрат с вероятностью $96%$, синее - это круг с вероятностью $96$", что является лучшей возможной точностью.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение09.02.2017, 23:08 


23/12/07
1763
mihaild в сообщении #1191078 писал(а):
_hum_ в сообщении #1190996 писал(а):
где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?
А этого не понял я, даже интуитивно.
Просто "есть много координат, по которым распределение сильно отличается от точечного, и координаты независимы в совокупности"?

интуитивно - для признаков, частоты которых в выборке наиболее высокие, должно быть справедливо:
1) таких признаков много;
2) такие признаки частотно независимы друг от друга;
3) частоты их примерно сравнимы.

[пара 1),2) отвечает за "разнообразие выборки", 3) - за "сбалансированность"]

mihaild в сообщении #1191078 писал(а):
Но если в выборке фигур каждого типа одинаково - то мы, глядя на нее, не научимся давать предсказания лучше, чем монетка, по второй мы обучимся "красное - это квадрат с вероятностью $96%$, синее - это круг с вероятностью $96$", что является лучшей возможной точностью.

если речь о классификаторе формы, то чего ж не научимся - научимся. классификатор в итоге станет обращать внимание только на один признак - форму (потому что учет любого другого признака будет увеличивать частоту неправильной классификации при обучении).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 43 ]  На страницу 1, 2, 3  След.

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group