Кажется очень странным говорить "репрезентативность выборки их распределения", понимая под выборкой мультимножество объектов, но при этом нельзя проверить, является ли выборка репрезентативной, глядя только на это мультимножество и распределение.
Когда под репрезентативностью понимаем способ выборки из целевой совокупности (а именно - равновероятный), в этом ничего странного.
Именно для таких выборок, и можно доказывать статистические связи для любых признаков выборки с теми же в целевой совокупностью (известных и неизвестных).
Откуда у вас такое определение?
Не помню (самому лень искать), но у меня в голове со студенческих лет прочно засело определение "A representative sample is one which is drawn
without bias from
the population of interest."
Я всегда видел только что-то вроде "репрезентативная выборка - выборка, в которой распределение близко к общему" - но внезапно не могу найти ни одного нормального источника, где вообще было бы определение репрезентативности.
Популярна и такая интерпретация понятия в обиходном языке (наверное просто потому, что вероятность чтобы распределение representative sample отклонялось от общего - очень мала, и падает очень быстро с размером выборки - так что ее можно пренебречь для практических нужд).
Не знаю насколько "официально" мое определение, но во всяком случае оно логично.
Проблема в "популярном" понятии в том, что если выборка сделана искуственно - да, ее распределение можно подогнать только под распределение некоторых (известных параметров) в целевой совокупности - но для того что не подогнано, ничего доказать нельзя.
Например, целевая совокупность - "люди земли" - известно соотношение полов 50:50.
Вы искуственно делаете выборку в котором соотношение полов то же 50:50.
Можно ли ее назвать репрезентативной для "людей земли"?
Нет (если не только условно, только по этого признака распределения пола) - потому что про других признаков (напр. расовая принадлежность) ничего сказать нельзя про связи с общим распределением в целевой совокупности.
Ладно, берем искуственно выборку в которой соотношение полов 50:50, и соотношение рас тоже такое же как в целевой совокупности.
Ее опять нельзя назвать "репрезентативной" т.к. какой то третий признак может быть распределен не так (да и корреляция пола с расы может не совпадать). И так далее.
С другой стороны, для репрезентативной (unbiased - т.е. равновероятной) выборки - мы можем доказать что любые признаки и любые корреляции и т.д. - известные и неизвестные - будут близки к теми же в общей совокупности (с большой вероятностью клонящей очень быстро к 100%, при увеличивании размера выборки).
Это и ближе по смыслу к теме нашего обсуждения для машинного обучения - где в "чистом" случае, для предметной области ничего не известно (существует только обучающий "оракул" на базе ответов которого настраивается нейронка)
А то, о чем говорите вы, всегда называлось просто "выборкой из распределения" - и дальше уже можно смотреть, как связано распределение выборочных статистик с соответствующими статистиками распределения.
Просто "выборка из распределения" (без указания
как именно сделана выборка) - может быть сделана как угодно - поэтому для связи статистикой ее признаков (вкл. неизвестных) со статистикой тех же признаков в распределении - можно
"смотреть" (для известных признаков), но ничего
формально доказать (для любых признаков! известных и неизвестных) нельзя.
Фиксируем классификатор, фиксируем метод и параметры обучения, обучаем, сравниваем LogLoss или AUC, или любую другую стандартную метрику.
Стандартный пример хорошего смещения для выборки - hard negative. (тут конечно вопрос определений, считаем мы это изменением выборки или частью обучения)
Это понятно, но тестировать-то (и вычислять ошибку) будем именно над целевой совокупности - верно?
В моем примере с текстом, тестировать распознавание и считать среднюю ошибку (по соответной методике) - будем именно над типичных русскоязычных текстов (где буквы встречаются с разной вероятностью) - а не например над некой совокупностью где "испитывающий" предлагает буквы равновероятно уже обученной нейронки?
Зависит от классификатора, от реального распределения и т.д. Просто "приписать всем буквам равную частоту" скорее всего сделает хуже, т.к. это какое-то случайное непонятно чем обоснованное искажение.
Вот вот, и я об этом (подчеркнул ключевое в вашей цитаты)
Я не отрицаю, что "подкручивая выборку" - результаты можно сделать лучше (и именно в строгом понимании выше).
Но это всегда подразумевает некоторую дополнительную информацию о предметной области (то самое, в чем вы "обвиняли" _hum_).
Пример в случае для распознавания букв - если имеются близкие по написанию буквы (типа "н" и "и") которые в определенном смысле очень близки в пространстве входных признаков ("трудноотличаемые") (и одна из них типа "и" встречается довольно часто) - то стоит увеличить их частоту в обучающей выборке (по отношению к "естественной" в русских текстов) - и это на самом деле уменьшит среднюю ошибку по сравнению с "естественном распределении".
Но это - уже закладывание дополнительного знания из предметной области в задаче обучения (а именно, знание как конкретно связаны входные признаки с определяемых классов).
Для задачи обучения классификатора "в чистом виде" - где о предметной области нам ничегошеньки неизвестно - лучшие результаты будут если мы подаем именно репрезентативную выборку (просто потому, что не на чего другого "опереться").
В примере с классификатора классов - связь входных признаков с классов наперед никак не известна (существует только "оракул" обучения) - поэтому единственное разумное/естественное предположение это что классы "равномерно размазаны по входных признаков" ("все буквы одинаково трудно отличимы друг от друга") - и тут мы не можем сделать ничего лучшего, кроме как подавать на вход репрезентативную выборку. Все другое как вы сказали - будет "необоснованным искажением".