Формализация репрезентативности обучающей выборки

_hum_ · 28.01.2017, 18:09

Есть ли какие-нибудь подходы к формализации понятия репрезентативности обучающей выборки классификатора? Вроде интуитивно кажется, что такие должны быть, поскольку, например, выборка, состоящая из 100 мужчин в черном и 100 женщин в белом, обладает плохой репрезентативностью (признак цвета одежды напрямую сцеплен с признаком пола).

ozheredov · 01.02.2017, 22:53

Тип классификатора? NN, neural network, convolutional neural network?

_hum_ · 07.02.2017, 16:03

ozheredov в сообщении #1189159 писал(а):

Тип классификатора? NN, neural network, convolutional neural network?

а что есть разница? ну тогда любой, относительно которого у вас есть ответ на мой вопрос.

manul91 · 07.02.2017, 22:57

_hum_ в сообщении #1188034 писал(а):

Есть ли какие-нибудь подходы к формализации понятия репрезентативности обучающей выборки классификатора?

Есть формализованное понятие "репрезентативности выборки относно общей совокупности, для какого-то признака".

Для полностью случайной выборки - есть статформулы для рассчета ее ошибки (ошибка случайной выборки зависит от размера общей совокупности и доли признака в ней, размера выборки, требуемого доверительного интервала и т.д.).
Напр см. http://www.fdfgroup.ru/?id=189

Не совсем понятно причем тут классификатор (и вообще цели для которых используется выборка) - она либо репрезентативна для общей совокупности - либо нет.

-- 08.02.2017, 00:06 --

_hum_ в сообщении #1188034 писал(а):

Вроде интуитивно кажется, что такие должны быть, поскольку, например, выборка, состоящая из 100 мужчин в черном и 100 женщин в белом, обладает плохой репрезентативностью (признак цвета одежды напрямую сцеплен с признаком пола).

Если вас интересует гарантия ошибки относно "неопределенного" числа признаков - формулы для случайной выборки могут вам гарантировать что при размере выборки не меньше Х от общей совокупности Y, все признаки с доли не меньше чем Z будут репрезентативно представлены с доверительностью напр. Q=95% с ошибки не превышающей P - это позволит рассчитать необходимый размер случайной выборки Х, имея Y, Z, Q и P.

_hum_ · 08.02.2017, 01:16

manul91, задача такая: есть две выборки из одной и той же общей совокупности. положим, они содержат котиков и собачек. и вы собираетесь по этим выборкам учить вашего ребенка отличать котиков от собачек.
теперь представьте, в одной выборке у вас все собачки черные, а все котики белые. а во второй - с одинаковой частотой встречаются как черные так и белые.
интуитивно понятно, что вторая выборка лучше для обучения, потому что обучаемый не подвергнется соблазну отличать котиков и собачек только по цвету.

вот я и спрашиваю, как формально это описать - что вторая выборка лучше (богаче, "репрезентативнее") для обучения классификации, чем первая.
(считаем, что у вас нет возможности обратиться к генеральной совокупности)

mihaild · 08.02.2017, 14:06

Без ссылки на общее распределение - никак. Глядя только на белых котиков и черных собачек, вы никак не можете понять, что вон то белое, но с круглыми зрачками и висящими ушами - это собака, а не кошка.

Нет "абсолютной" репрезентативности - только относительно какого-то распределения. И одна и та же выборка может быть репрезентативна относительно одного распределения, и нерепрезентативна относительно другого.

_hum_ · 08.02.2017, 19:14

mihaild в сообщении #1190762 писал(а):

ез ссылки на общее распределение - никак. Глядя только на белых котиков и черных собачек, вы никак не можете понять, что вон то белое, но с круглыми зрачками и висящими ушами - это собака, а не кошка.

речь о размеченных выборках - я ребенку показываю картинки из выборки и говорю - это котик, а это собачка. только при обучении по первой выборке из примера он может запомнить, что котик - это там, где белое, а собачка, где черное (потому что цвета напрямую коррелируют с классом), и в дальнейшем ошибаться на реальных случаях, а при обучении на второй вбюорке он этого сделать не сможет, а потому вероятность того, что он правильно обучится различать кошек и собак (выберет и сформирует нужные признаки) - выше.
вот я и пытаюсь найти критерий, по которому можно было бы судить о качестве выборки для обучения такого рода.

mihaild · 08.02.2017, 19:35

Ну вот для определения, что первая выборка плохая, а вторая - хорошая, вы использовали знание о том, что в общем распределении цвет с видом коррелирует гораздо слабее, чем в вашей обучающей. Без использования общего распределения такой вывод получить нельзя.

Если общее распределение есть, то формальное описание: в обучающей выборке корреляция цвета с целевой функцией сильно выше, чем в настоящем распределении.

_hum_ · 08.02.2017, 20:00

mihaild в сообщении #1190854 писал(а):

Ну вот для определения, что первая выборка плохая, а вторая - хорошая, вы использовали знание о том, что в общем распределении цвет с видом коррелирует гораздо слабее, чем в вашей обучающей. Без использования общего распределения такой вывод получить нельзя.

я не могу сказать, насколько выборка плоха, не зная исходного распределения, но остается же еще вариант - я могу (без исходного распределения) попытаться сказать, насколько она хороша. интуиция тут такая - если в ее гистограмме по признакам очень много пиков примерно одинакового размера, то это значит, что при обучении ребенок будет ориентироваться сразу на множество признаков, не отдавая предпочтения каким-то выбранным. а это дает более высокую надежность правильного обучения.
например, в указанном примере, у меня бы в гистограмме очень сильный выброс был бы по признаку "цвет", и слабенькие по всем остальным (наподобие "форма глаз", "пропорции носа" и т.п.), а значит, эта выборка ненадежна для обучения (она может быть и репрезентативной, если в мире все, что белое - это коты, а черное - собаки, но мы не можем гарантировать без наличия исходной генеральной совокупности, что это так).

EUgeneUS · 08.02.2017, 21:13

_hum_
У Вас есть одна выборка и нужно оценить её "качество", или у Вас есть много выборок и нужно выбрать выборку с лучшим "качеством"?

_hum_ · 08.02.2017, 22:07

EUgeneUS, в общем случае хотелось бы оценивать "надежность" одной выборки, чтобы в случае ее "ненадежности" искать другую.

mihaild · 09.02.2017, 01:23

_hum_, а представьте, что у вас общее распределение имеет вид "красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги", и вы учите отличать квадраты от кругов. Тогда выборку из красных больших квадратов + синих маленьких кругов вы примете - хотя она хуже, чем смесь всех четырех типов.
Или еще хуже - у вас очень редко встречаются синие квадраты и красные круги разных размеров, но очень редко. Тогда вы отдадите предпочтение выборке, в которой есть сильная корреляция формы как с размером, так и с цветом выборке, в которой корреляция только с цветом - хотя по второй выборке учиться гораздо лучше.

_hum_ · 09.02.2017, 09:07

mihaild в сообщении #1190971 писал(а):

_hum_, а представьте, что у вас общее распределение имеет вид "красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги", и вы учите отличать квадраты от кругов. Тогда выборку из красных больших квадратов + синих маленьких кругов вы примете - хотя она хуже, чем смесь всех четырех типов.

mihaild, я не говорил, что достаточно только смотреть на количество мод (если б этого было достаточно, я бы не задавал тут вопроса). я просто привел интуитивные соображения. в вашем примере признаки на гистограмме будут сцепленные - распределение пар ("цвет", "форма") при фиксированной координате "размер" будет линейным , что интуитивно опять позволяет не доверять такой выборке (ведь сцепленность фактически "схлопывает" данные признаки в один).

еще раз интуитивное соображение: надежная выборка - это та, где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?

-- Чт фев 09, 2017 10:16:42 --

mihaild в сообщении #1190971 писал(а):

Или еще хуже - у вас очень редко встречаются синие квадраты и красные круги разных размеров, но очень редко. Тогда вы отдадите предпочтение выборке, в которой есть сильная корреляция формы как с размером, так и с цветом выборке, в которой корреляция только с цветом - хотя по второй выборке учиться гораздо лучше.

этого я не понял.

mihaild · 09.02.2017, 13:24

_hum_ в сообщении #1190996 писал(а):

где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?

А этого не понял я, даже интуитивно.
Просто "есть много координат, по которым распределение сильно отличается от точечного, и координаты независимы в совокупности"?

_hum_ в сообщении #1190996 писал(а):

этого я не понял.

Представим себе, что наше подлинное распределение такое: по $24%$ - красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги; по $1%$ - синие большие квадраты, синие маленькие квадраты, красные большие круги, красные маленькие круги.

Тогда по критерию "разнообразия" выборка по $N$ фигур каждого из 8 типов будет лучше, чем по $24N$ каждого из распространенных типов, и по $N$ из нераспространенных.
Но если в выборке фигур каждого типа одинаково - то мы, глядя на нее, не научимся давать предсказания лучше, чем монетка, по второй мы обучимся "красное - это квадрат с вероятностью $96%$ , синее - это круг с вероятностью $96$ ", что является лучшей возможной точностью.

_hum_ · 09.02.2017, 23:08

mihaild в сообщении #1191078 писал(а):

_hum_ в сообщении #1190996 писал(а):

где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?

А этого не понял я, даже интуитивно.
Просто "есть много координат, по которым распределение сильно отличается от точечного, и координаты независимы в совокупности"?

интуитивно - для признаков, частоты которых в выборке наиболее высокие, должно быть справедливо:
1) таких признаков много;
2) такие признаки частотно независимы друг от друга;
3) частоты их примерно сравнимы.

[пара 1),2) отвечает за "разнообразие выборки", 3) - за "сбалансированность"]

mihaild в сообщении #1191078 писал(а):

Но если в выборке фигур каждого типа одинаково - то мы, глядя на нее, не научимся давать предсказания лучше, чем монетка, по второй мы обучимся "красное - это квадрат с вероятностью $96%$ , синее - это круг с вероятностью $96$ ", что является лучшей возможной точностью.

если речь о классификаторе формы, то чего ж не научимся - научимся. классификатор в итоге станет обращать внимание только на один признак - форму (потому что учет любого другого признака будет увеличивать частоту неправильной классификации при обучении).

Научный форум dxdy

Формализация репрезентативности обучающей выборки