Формализация репрезентативности обучающей выборки

manul91 · 24/08/12 1154

_hum_ в сообщении #1191643 писал(а):

в пропорции нельзя "делить на нуль".

Зато нуль на все делить можно, в чем проблема? Отношение м:ж как 0:1 : ))
А если серьезно, то разумеется деление на нуль тут непричем.
Нейронка обученная на выборке где отношение женщин к мужчин 10000:1 (не нуль), при тестировании на реальной совокупности у которой отношение женщин к мужчин 50:50 - будет иметь худшую итоговую узнаваемость в среднем, чем та же нейронка но обученная на репрезентативной выборке где отношение ж/м 50:50 (то же самое, как и у реальной совокупности).

_hum_ в сообщении #1191643 писал(а):

вы занимаетесь буквоедством. мне неважно, как это называется. назовите learning-representativeness, если вас цепляет использование того же термина.

В том то и дело, что тот же самый термин в вашем случае используется в своем стандартном значении (ваша "learning-representativeness" и обычная "representativeness" - на самом деле одно и то же). Не зная стандартное значение, вы просто додумали от себя не пойми чего.
Подразумевать под терминов то же самое что они и значат - не буквоедство, а обычный здравый разум.
А вот чтобы утверждать что используется такой же термин, но в отличном от стандартном значении - нужно иметь веские основания.

mihaild · 16/07/14 9737 Цюрих

manul91 в сообщении #1191616 писал(а):

выборка репрезентативна относно совокупности "всех людей на земле" если она выбрана случайным семплированием всех людей на земле

Это странное определение - получается, что репрезентативность выборки не является свойством собственно выборки.

manul91 в сообщении #1191655 писал(а):

Нейронка обученная на выборке где отношение женщин к мужчин 10000:1 (не нуль), при тестировании на реальной совокупности у которой отношение женщин к мужчин 50:50 - будет иметь худшую итоговую узнаваемость в среднем, чем та же нейронка но обученная на репрезентативной выборке

Не факт. В эту сторону скорее всего правда, а вот в обратную - искусственное смещение, чтобы классы стали близкими по размеру - может сделать сильно лучше.

-- 11.02.2017, 03:43 --

manul91 в сообщении #1191616 писал(а):

выборка репрезентативна относно совокупности "всех людей на земле" если она выбрана случайным семплированием всех людей на земле

Это странное определение - получается, что репрезентативность выборки не является свойством собственно выборки.

manul91 в сообщении #1191655 писал(а):

Нейронка обученная на выборке где отношение женщин к мужчин 10000:1 (не нуль), при тестировании на реальной совокупности у которой отношение женщин к мужчин 50:50 - будет иметь худшую итоговую узнаваемость в среднем, чем та же нейронка но обученная на репрезентативной выборке

Не факт. В эту сторону скорее всего правда, а вот в обратную - искусственное смещение, чтобы классы стали близкими по размеру - может сделать сильно лучше.

manul91 · 24/08/12 1154

mihaild в сообщении #1191659 писал(а):

Это странное определение - получается, что репрезентативность выборки не является свойством собственно выборки.

Да, оно определяется методом выбора (а именно равновероятно-случайным), и не бывает "репрезентативность выборки вообще" - а только относно некоей четко заданной глобальной совокупности.
Например, если глобальная совокупность "население москвы" (10 миллионов) и у ней соотношение некоего признака скажем 50:50 - для репрезентативной выборки из них, размером 10000 (т.е. эти 10000 равновероятно-случайно выбраны из эти 10 миллиона) - можно например доказать, что с вероятностью 95% ошибка для соотношения того же признака в данной выборки не превышает 1% (по отношению 50:50 в глобальной совокупности) - т.е. с 95% вероятностью тот же признак в выборки будет в границ 50:50 до 51:49. Или например, можно доказать что с вероятностью 0.000001% ошибка в выборки для соотношения того же признака будет превышать 10% (т.е. будет 60:40 или более). И так далее.
Для нерепрезентативной выборки размером 10000 (выбранной НЕслучайно из этих 10 миллионов, или выбранной случайно, но из некоторых других 10 миллионов с неизвестным распределением признаков) - ничего формально доказать нельзя.
Нерепрезентативность относно данной общей совокупности - означает что выборка выбрана непонятно как (хотя возможно из той же совокупности) и/или что вообще выбрана из какой-то другой совокупности.
(числа примерны, взяты с потолка - не считал).
Уж такое определение репрезентативности.
(Я вполне допускаю и "разговорное" понятие репрезентативности - выборка репрезентативна относно общей совокупности только если "хорошо ее иммитирует", и наоборот если "нехорошо иммитирует", то нерепрезентативна - но стандартное определение репрезентативности этого не требует - наоборот, доказывается например что *репрезентативная* выборка определенного размера, с очень малой вероятностью может быть "сильно непохожей" на общей совокупности.)

mihaild в сообщении #1191659 писал(а):

Не факт. В эту сторону скорее всего правда, а вот в обратную - искусственное смещение, чтобы классы стали близкими по размеру - может сделать сильно лучше.

Не совсем понятно что вы имеете ввиду. Но все равно, чтобы такого говорить как минимум нужно четко определить (формализовать) что значит "сильно лучше".
Как мерять будем, что лучше и насколько?

manul91 в сообщении #1191616 писал(а):

Представьте себе что классификатор не бинарный, а должен распознавать например прописные буквы алфавита 30-ти букв (30 классов) в типично встречающихся текстах на русском языке.
По-вашему, искуственно подобранная обучающая выборка у которой 30 букв встречаются с одинаковой частотой - для цели распознавания текста будет лучше, чем естественная в которой буквы встречаются с той же частотой как и в тексте?

Что вы думаете насчет сказанного - и какие будут обоснования?

mihaild · 16/07/14 9737 Цюрих

manul91, понятно, что репрезентативность зависит от распределения, его считаем фиксированным.
Кажется очень странным говорить "репрезентативность выборки их распределения", понимая под выборкой мультимножество объектов, но при этом нельзя проверить, является ли выборка репрезентативной, глядя только на это мультимножество и распределение.
Откуда у вас такое определение? Я всегда видел только что-то вроде "репрезентативная выборка - выборка, в которой распределение близко к общему" - но внезапно не могу найти ни одного нормального источника, где вообще было бы определение репрезентативности. А то, о чем говорите вы, всегда называлось просто "выборкой из распределения" - и дальше уже можно смотреть, как связано распределение выборочных статистик с соответствующими статистиками распределения.

manul91 в сообщении #1191671 писал(а):

Как мерять будем, что лучше и насколько?

Фиксируем классификатор, фиксируем метод и параметры обучения, обучаем, сравниваем LogLoss или AUC, или любую другую стандартную метрику.

Стандартный пример хорошего смещения для выборки - hard negative. (тут конечно вопрос определений, считаем мы это изменением выборки или частью обучения)

manul91 в сообщении #1191671 писал(а):

Что вы думаете насчет сказанного - и какие будут обоснования?

Зависит от классификатора, от реального распределения и т.д. Просто "приписать всем буквам равную частоту" скорее всего сделает хуже, т.к. это какое-то случайное непонятно чем обоснованное искажение.

manul91 · 24/08/12 1154