2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 Формализация репрезентативности обучающей выборки
Сообщение28.01.2017, 18:09 


23/12/07
1763
Есть ли какие-нибудь подходы к формализации понятия репрезентативности обучающей выборки классификатора? Вроде интуитивно кажется, что такие должны быть, поскольку, например, выборка, состоящая из 100 мужчин в черном и 100 женщин в белом, обладает плохой репрезентативностью (признак цвета одежды напрямую сцеплен с признаком пола).

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение01.02.2017, 22:53 


10/03/16
4444
Aeroport
Тип классификатора? NN, neural network, convolutional neural network?

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение07.02.2017, 16:03 


23/12/07
1763
ozheredov в сообщении #1189159 писал(а):
Тип классификатора? NN, neural network, convolutional neural network?


а что есть разница? ну тогда любой, относительно которого у вас есть ответ на мой вопрос.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение07.02.2017, 22:57 
Заслуженный участник


24/08/12
1117
_hum_ в сообщении #1188034 писал(а):
Есть ли какие-нибудь подходы к формализации понятия репрезентативности обучающей выборки классификатора?
Есть формализованное понятие "репрезентативности выборки относно общей совокупности, для какого-то признака".

Для полностью случайной выборки - есть статформулы для рассчета ее ошибки (ошибка случайной выборки зависит от размера общей совокупности и доли признака в ней, размера выборки, требуемого доверительного интервала и т.д.).
Напр см. http://www.fdfgroup.ru/?id=189

Не совсем понятно причем тут классификатор (и вообще цели для которых используется выборка) - она либо репрезентативна для общей совокупности - либо нет.

-- 08.02.2017, 00:06 --

_hum_ в сообщении #1188034 писал(а):
Вроде интуитивно кажется, что такие должны быть, поскольку, например, выборка, состоящая из 100 мужчин в черном и 100 женщин в белом, обладает плохой репрезентативностью (признак цвета одежды напрямую сцеплен с признаком пола).


Если вас интересует гарантия ошибки относно "неопределенного" числа признаков - формулы для случайной выборки могут вам гарантировать что при размере выборки не меньше Х от общей совокупности Y, все признаки с доли не меньше чем Z будут репрезентативно представлены с доверительностью напр. Q=95% с ошибки не превышающей P - это позволит рассчитать необходимый размер случайной выборки Х, имея Y, Z, Q и P.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 01:16 


23/12/07
1763
manul91, задача такая: есть две выборки из одной и той же общей совокупности. положим, они содержат котиков и собачек. и вы собираетесь по этим выборкам учить вашего ребенка отличать котиков от собачек.
теперь представьте, в одной выборке у вас все собачки черные, а все котики белые. а во второй - с одинаковой частотой встречаются как черные так и белые.
интуитивно понятно, что вторая выборка лучше для обучения, потому что обучаемый не подвергнется соблазну отличать котиков и собачек только по цвету.

вот я и спрашиваю, как формально это описать - что вторая выборка лучше (богаче, "репрезентативнее") для обучения классификации, чем первая.
(считаем, что у вас нет возможности обратиться к генеральной совокупности)

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 14:06 
Заслуженный участник
Аватара пользователя


16/07/14
9248
Цюрих
Без ссылки на общее распределение - никак. Глядя только на белых котиков и черных собачек, вы никак не можете понять, что вон то белое, но с круглыми зрачками и висящими ушами - это собака, а не кошка.

Нет "абсолютной" репрезентативности - только относительно какого-то распределения. И одна и та же выборка может быть репрезентативна относительно одного распределения, и нерепрезентативна относительно другого.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 19:14 


23/12/07
1763
mihaild в сообщении #1190762 писал(а):
ез ссылки на общее распределение - никак. Глядя только на белых котиков и черных собачек, вы никак не можете понять, что вон то белое, но с круглыми зрачками и висящими ушами - это собака, а не кошка.


речь о размеченных выборках - я ребенку показываю картинки из выборки и говорю - это котик, а это собачка. только при обучении по первой выборке из примера он может запомнить, что котик - это там, где белое, а собачка, где черное (потому что цвета напрямую коррелируют с классом), и в дальнейшем ошибаться на реальных случаях, а при обучении на второй вбюорке он этого сделать не сможет, а потому вероятность того, что он правильно обучится различать кошек и собак (выберет и сформирует нужные признаки) - выше.
вот я и пытаюсь найти критерий, по которому можно было бы судить о качестве выборки для обучения такого рода.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 19:35 
Заслуженный участник
Аватара пользователя


16/07/14
9248
Цюрих
Ну вот для определения, что первая выборка плохая, а вторая - хорошая, вы использовали знание о том, что в общем распределении цвет с видом коррелирует гораздо слабее, чем в вашей обучающей. Без использования общего распределения такой вывод получить нельзя.

Если общее распределение есть, то формальное описание: в обучающей выборке корреляция цвета с целевой функцией сильно выше, чем в настоящем распределении.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 20:00 


23/12/07
1763
mihaild в сообщении #1190854 писал(а):
Ну вот для определения, что первая выборка плохая, а вторая - хорошая, вы использовали знание о том, что в общем распределении цвет с видом коррелирует гораздо слабее, чем в вашей обучающей. Без использования общего распределения такой вывод получить нельзя.

я не могу сказать, насколько выборка плоха, не зная исходного распределения, но остается же еще вариант - я могу (без исходного распределения) попытаться сказать, насколько она хороша. интуиция тут такая - если в ее гистограмме по признакам очень много пиков примерно одинакового размера, то это значит, что при обучении ребенок будет ориентироваться сразу на множество признаков, не отдавая предпочтения каким-то выбранным. а это дает более высокую надежность правильного обучения.
например, в указанном примере, у меня бы в гистограмме очень сильный выброс был бы по признаку "цвет", и слабенькие по всем остальным (наподобие "форма глаз", "пропорции носа" и т.п.), а значит, эта выборка ненадежна для обучения (она может быть и репрезентативной, если в мире все, что белое - это коты, а черное - собаки, но мы не можем гарантировать без наличия исходной генеральной совокупности, что это так).

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 21:13 
Аватара пользователя


11/12/16
14118
уездный город Н
_hum_
У Вас есть одна выборка и нужно оценить её "качество", или у Вас есть много выборок и нужно выбрать выборку с лучшим "качеством"?

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение08.02.2017, 22:07 


23/12/07
1763
EUgeneUS, в общем случае хотелось бы оценивать "надежность" одной выборки, чтобы в случае ее "ненадежности" искать другую.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение09.02.2017, 01:23 
Заслуженный участник
Аватара пользователя


16/07/14
9248
Цюрих
_hum_, а представьте, что у вас общее распределение имеет вид "красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги", и вы учите отличать квадраты от кругов. Тогда выборку из красных больших квадратов + синих маленьких кругов вы примете - хотя она хуже, чем смесь всех четырех типов.
Или еще хуже - у вас очень редко встречаются синие квадраты и красные круги разных размеров, но очень редко. Тогда вы отдадите предпочтение выборке, в которой есть сильная корреляция формы как с размером, так и с цветом выборке, в которой корреляция только с цветом - хотя по второй выборке учиться гораздо лучше.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение09.02.2017, 09:07 


23/12/07
1763
mihaild в сообщении #1190971 писал(а):
_hum_, а представьте, что у вас общее распределение имеет вид "красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги", и вы учите отличать квадраты от кругов. Тогда выборку из красных больших квадратов + синих маленьких кругов вы примете - хотя она хуже, чем смесь всех четырех типов.

mihaild, я не говорил, что достаточно только смотреть на количество мод (если б этого было достаточно, я бы не задавал тут вопроса). я просто привел интуитивные соображения. в вашем примере признаки на гистограмме будут сцепленные - распределение пар ("цвет", "форма") при фиксированной координате "размер" будет линейным , что интуитивно опять позволяет не доверять такой выборке (ведь сцепленность фактически "схлопывает" данные признаки в один).

еще раз интуитивное соображение: надежная выборка - это та, где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?

-- Чт фев 09, 2017 10:16:42 --

mihaild в сообщении #1190971 писал(а):
Или еще хуже - у вас очень редко встречаются синие квадраты и красные круги разных размеров, но очень редко. Тогда вы отдадите предпочтение выборке, в которой есть сильная корреляция формы как с размером, так и с цветом выборке, в которой корреляция только с цветом - хотя по второй выборке учиться гораздо лучше.

этого я не понял.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение09.02.2017, 13:24 
Заслуженный участник
Аватара пользователя


16/07/14
9248
Цюрих
_hum_ в сообщении #1190996 писал(а):
где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?
А этого не понял я, даже интуитивно.
Просто "есть много координат, по которым распределение сильно отличается от точечного, и координаты независимы в совокупности"?

_hum_ в сообщении #1190996 писал(а):
этого я не понял.
Представим себе, что наше подлинное распределение такое: по $24%$ - красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги; по $1%$ - синие большие квадраты, синие маленькие квадраты, красные большие круги, красные маленькие круги.

Тогда по критерию "разнообразия" выборка по $N$ фигур каждого из 8 типов будет лучше, чем по $24N$ каждого из распространенных типов, и по $N$ из нераспространенных.
Но если в выборке фигур каждого типа одинаково - то мы, глядя на нее, не научимся давать предсказания лучше, чем монетка, по второй мы обучимся "красное - это квадрат с вероятностью $96%$, синее - это круг с вероятностью $96$", что является лучшей возможной точностью.

 Профиль  
                  
 
 Re: Формализация репрезентативности обучающей выборки
Сообщение09.02.2017, 23:08 


23/12/07
1763
mihaild в сообщении #1191078 писал(а):
_hum_ в сообщении #1190996 писал(а):
где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?
А этого не понял я, даже интуитивно.
Просто "есть много координат, по которым распределение сильно отличается от точечного, и координаты независимы в совокупности"?

интуитивно - для признаков, частоты которых в выборке наиболее высокие, должно быть справедливо:
1) таких признаков много;
2) такие признаки частотно независимы друг от друга;
3) частоты их примерно сравнимы.

[пара 1),2) отвечает за "разнообразие выборки", 3) - за "сбалансированность"]

mihaild в сообщении #1191078 писал(а):
Но если в выборке фигур каждого типа одинаково - то мы, глядя на нее, не научимся давать предсказания лучше, чем монетка, по второй мы обучимся "красное - это квадрат с вероятностью $96%$, синее - это круг с вероятностью $96$", что является лучшей возможной точностью.

если речь о классификаторе формы, то чего ж не научимся - научимся. классификатор в итоге станет обращать внимание только на один признак - форму (потому что учет любого другого признака будет увеличивать частоту неправильной классификации при обучении).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 43 ]  На страницу 1, 2, 3  След.

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: MoonWatcher


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group