Формализация репрезентативности обучающей выборки

mihaild · 09.02.2017, 23:24

Ну вот ваши свойства вполне могут быть не выполнены в настоящем распределении (и на практике очень часто не выполнено). А дальше уже вопрос модели - ее может быть лучше обучать на смещенном относительно реального распределения, но далеко не всегда (и смещенность должна быть разной для разных моделей).

_hum_ в сообщении #1191337 писал(а):

классификатор в итоге станет обращать внимание только на один признак - форму

Пардон, имелось в виду, что форма - целевая функция, а признаки - только цвет и размер.

_hum_ · 10.02.2017, 00:53

mihaild в сообщении #1191339 писал(а):

Ну вот ваши свойства вполне могут быть не выполнены в настоящем распределении (и на практике очень часто не выполнено). А дальше уже вопрос модели - ее может быть лучше обучать на смещенном относительно реального распределения, но далеко не всегда (и смещенность должна быть разной для разных моделей).

еще раз повторюсь - задача не в том, чтобы любую выборку подвести под категорию - хорошая/плохая, а в том, чтобы иметь возможность градации "хорошая выборка/не известно".
вот набрали вы выборку, оценили. оказалось, что не удовлетворяет условиям "надежности". ну и ладно - решение за вами - можете на ней обучать на свой страх и риск,а можете попытаться выбрать другую (либо путем просеивания текущей, либо путем набора совершенно новой). да, никто не гарантирует, что хоть какая-то подпадет под нужную, но! если -таки подпадет, то можно будет при обучении классификатора хоть какое-то обоснование итоговой надежности давать (типа "обучен на выборке с показателем надежности степени 0.8").
насчет того, что в реальности мои интуитивные соображения вряд ли выполняются. ну.. как бы кажется все-таки, что большинство предметов окружающей нас среды, трудно поддающихся распознаванию на простых классификаторах, как раз-таки содержат кучу независимых примерно одинаковых по важности признаков. те же лица - глаза, губы, нос - слабо зависимы друг от друга. а еще, возможно, нужно использовать не независимость, а условную независимость.

mihaild в сообщении #1191339 писал(а):

Пардон, имелось в виду, что форма - целевая функция, а признаки - только цвет и размер.

то есть, в выборке вообще нет признака, коррелирующего с определенным классом? ну да, такой момент, теоретически, тоже возможен. в этом случае, наверное, стоит добавить условие, чтобы признаки, о которых идет речь, были "активные" (то есть, изменение их частотности в выборке влияло бы на показатели ошибочности классификатора). тогда для данного случая все признаки отсеются как пассивные, и выборка подпадет под категорию "нет гарантии" (использовать на свой страх и риск).

но, согласитесь, ваш вариант, когда классификатор все-таки научится определять форму по цвету, не имеющему непосредственно к форме никакого отношения, как раз относится к "ненадежному". именно о таких я и хотел бы иметь возможность получать какое-то предупреждение.

mihaild · 10.02.2017, 01:59

_hum_ в сообщении #1191355 писал(а):

то можно будет при обучении классификатора хоть какое-то обоснование итоговой надежности давать

Нет, нельзя. Какое-то обоснование можно давать только для выборок, похожих на правильное распределение. Либо для определенного класса распределений давать гарантию вида "для случайной выборки с большой вероятностью обучимся примерно правильно" (probably approximately correct).
Проблема в том, что одинаковые выборки можно набрать из очень разных распределений (достаточно, чтобы вероятность каждого объекта была не ноль). И любой ваш критерий, который смотрит только на выборку, будет для части распределений ошибаться.

"Репрезентативность выборки" можно оценивать только относительно какого-то распределения.

_hum_ в сообщении #1191355 писал(а):

ваш вариант, когда классификатор все-таки научится определять форму по цвету, не имеющему непосредственно к форме никакого отношения, как раз относится к "ненадежному".

Давайте тогда четче ставить проблему. Обычно при обучении есть набор факторов и целевая функция, никакого "отношения одного к другому тут нет". Если вы предлагаете какую-то другую модель - сформулируйте, пожалуйста.

manul91 · 10.02.2017, 06:26

_hum_ в сообщении #1191337 писал(а):

интуитивно - для признаков, частоты которых в выборке наиболее высокие, должно быть справедливо:
1) таких признаков много;
2) такие признаки частотно независимы друг от друга;
3) частоты их примерно сравнимы.
[пара 1),2) отвечает за "разнообразие выборки", 3) - за "сбалансированность"]

Отнюдь.
Если для 100 мужчин и 100 женщин брать признаки не цвета одежды, а например наличия/отсутствия бороды, наличия/отсутствия груди, вид одежды (брюк vs платье) и т.д. - что опять "интуитивно" такие признаки должны быть не коррелирующими с полом? Или они с какой-то стати не выполняют "требований" 1, 2, 3 выше?

Да и цвет одежды скорее всего имеет корреляцию с полом, это вам только кажется что он в идеале должен быть независимым.

Поймите простую вещь - выборка (из общей совокупности) репрезентативна - если она статистически иммитирует общей совокупности - со всеми частотами, корреляциями и/или некорелляцями всех существующих признаков.

Самый верный метод (который при этом, позволяет охватить все признаки вкл. те о которых не подумали; со всех их возможных корреляций и сцепленностей/несцепленностей) - это брать равномерно-случайную выборку из общей совокупности. Тогда у вас грубо говоря "гарантия", что с увеличиванием размера выборки - ее репрезентативность будет расти притом достаточно быстро.

При этом, выборку из общей совокупности нужно реально брать случайно (а не умничать и/или проводить "мысленные эксперименты"). Так как интуиция гарантированно ошибается (что видно из самих ваших рассуждений).
Например, если признаки у вас пол и цвет одежды.
И, если общая совокупность - "граждане москвы".
Тогда в идеале вам нужен список всех граждан москвы, из котором равновероятно выбираете 200 имен - и смотрите у кого какой цвет одежды в данный момент.
Уже там как получится - напр. может быть 98 мужчив на 102 женщин; у мужчин 70% темная одежда а у женщин 60% светлая (кто-то возможно окажется голым, кто-то гермафродитом, у кого-то одежда "серая" и т.д.).
Притом - нельзя статистику брать просто идя по Тверской в 2 часов вторника, из первых 200 прохожих - поскольку такая выборка уже будет иммитировать совершенно другую общую совокупность - "людей идущих в 2 часов вторника по Тверской" - что совсем не то, что совокупность "граждане москвы".
Точно также, если для московчан может быть у мужчин 70% темная одежда а у женщин 60% светлая - в каком-то Рио вполне возможно быть наоборот.

Короче, вам нужно четко определиться с общей совокупности, и честно выбрать из нее (именно из нее, а не из какую-то другую) "достаточно большую" случайную выборку. Она и будет "достаточно репрезентативна". (на все это имеется четкая статистическая формализация, и все можно посчитать).
А "догадываться", и "интуитивно рассуждать" - верный путь ошибиться.

Выборка сама по себе - либо "репрезентативна", либо "нет" - и это, никак не связано с тем зачем она вам нужна - обучать нейронку, предсказывать результаты выборов, оптимизировать рекламную кампанию или для чего-то другого.

-- 10.02.2017, 07:50 --

Я выше использовал слово "репрезентативность" в несколько вольном смысле (так чтобы вам было понятнее).

На самом деле, за термином "репрезентативность выборки" - понимается более тесное понятие - а именно то что выборка сделана случайно, из "правильной" общей совокупности которой она должна репрезентировать (а не какой-то другой).
Например, равновероятно-случайная выборка 200 прохожих из Тверской в 2 часа вторника - является репрезентативной для общей совокупности ""людей идущих в 2 часов вторника по Тверской" (и нерепрезентативной для совокупностей "граждан Москвы", "людей Рио", "людей на Земле", или "людей идущих в 2 часов вторника по Тверской которые улыбаются и наверное, не против поговорить").
У репрезентативной выборки, тем не менее имеется "очень малая" вероятность чтобы она оказалась "сильно сбитой" по любого из признаков относно реальной совокупности - напр. 200 прохожих может оказаться 140 женщин vs 60 мужчин притом что реальная частота пола идущих в 2 по Тверской 50% (эта вероятность "сбитости" очень быстро падает с увеличения размера выборки - сравните выбор четырех vs выбор тысячу прохожих) - но даже и такая "сбитая выборка", по прежнему называется репрезентативной (т.к. реально выбрана случайно, именно из правильной общей совокупности которой она и репрезентирует).

_hum_ · 10.02.2017, 11:12

mihaild, manul91, я не совсем понимаю, почему вы все пытаетесь притянуть распределение исходной генеральной совокупности. для построения классификатора оно же не играет такой существенной роли, как для оценки каких-то статистических выборочных характеристик.
ну какая разница, с какой частотой встречаются в реальности мужчины и женщины. достаточно просто, чтобы в обучающей выборке были сущностные признаки (например, видны те же гениталии или хромосомный набор). проблема именно в том, чтобы определить, насколько много такой сущностной информации в представленной выборке. и как раз указанные выше моменты (что высокочастотных признаков в выборке должно быть много, что они должны быть независимы, что классификатор должен быть к ним чувствителен) и пытаются как-то охарактеризовать эту информативность.

-- Пт фев 10, 2017 12:18:07 --

mihaild в сообщении #1191363 писал(а):

Давайте тогда четче ставить проблему. Обычно при обучении есть набор факторов и целевая функция, никакого "отношения одного к другому тут нет". Если вы предлагаете какую-то другую модель - сформулируйте, пожалуйста.

есть выборка, где каждому элементу поставлен в соответствие какой-то класс. эта выборка подается в процессе обучения классификатору (ребенку показывается картинка и говорится - это кошка, потом вторая - а это собака, а это опять кошка и т.д.)
после этого ожидается, что классификатор сможет различать к какому классу какой объект принадлежит и в произвольном случае (для объектов генеральной совокупности).

mihaild · 10.02.2017, 17:31

_hum_ в сообщении #1191409 писал(а):

есть выборка

Вот что это такое - математически? Обычно элементы выборки - точки из

\mathbb{R^n}

, либо строки из

\mathbb{R}^*

, у вас так же? Класс - просто элемент конечного множества?

_hum_ в сообщении #1191409 писал(а):

проблема именно в том, чтобы определить, насколько много такой сущностной информации в представленной выборке

Тут вы для определения "сущностной информации" используете особенности предметной области.

_hum_ в сообщении #1191409 писал(а):

после этого ожидается, что классификатор сможет различать к какому классу какой объект принадлежит и в произвольном случае (для объектов генеральной совокупности)

И вот тут вы пользуетесь "генеральной совокупностью". Ваше определение существенно зависит от общего распределения. На одной и той же выборке классификатор обучится одному и тому же (для простоты считаем обучение детерменированным). Соответственно, глядя только на выборку и ничего не зная об общем распределении, вы ничего не можете ожидать от классификатора на общем распределении.
(если вы знаете, что выборка была сгенерирована просто семплированием распределения - то что-то ожидать можно; но если ее подбирали специально - то нельзя)

Классификатор, который отличает мужчин и женщин, и всех людей в юбке относит к женщинам, в России - хорощий, в Шотландии - нет. Выборка, в которой в юбках только женщины, хороша для России, и плоха для Шотландии.

manul91 · 10.02.2017, 20:40

_hum_ в сообщении #1191409 писал(а):

mihaild, manul91, я не совсем понимаю, почему вы все пытаетесь притянуть распределение исходной генеральной совокупности.

Вы спрашивали про репрезентативностью выборки - мы про нее и отвечаем - что это такое.

_hum_ в сообщении #1191409 писал(а):

для построения классификатора оно же не играет такой существенной роли, как для оценки каких-то статистических выборочных характеристик.
ну какая разница, с какой частотой встречаются в реальности мужчины и женщины. достаточно просто, чтобы в обучающей выборке были сущностные признаки (например, видны те же гениталии или хромосомный набор)

В вашем частном случае:
Вы-то признак мужчина/женщина будете определять по потенциальными корреляциями с "индиректных признаков" так ведь (на вход - индиректные признаки; на выход "решение" мужчина или женщина).
Значит при обучении важно, чтобы корреляции этих индиректных признаков с полом (и не только, а также корреляции индиректных признаков друг с другом, с относительных частот и т.д. всевозможные взаимозависимости любого уровня, какие нейронка может научиться учитывать) - совпадали с реальными в описываемой генеральной совокупности.

_hum_ в сообщении #1191409 писал(а):

проблема именно в том, чтобы определить, насколько много такой сущностной информации в представленной выборке....что классификатор должен быть к ним чувствителен) и пытаются как-то охарактеризовать эту информативность.

Допустим, на вход вы подаете N признаков - конкретный признак будет "лишним" только если результат для пола полностью независим от этого признака (при пробегании остальными N-1 признаками всех их возможных значений! А то при какой-то комбинации значений N-1 признаков этот признак может оказаться совершенно лишним не влияющим никак на резулатьт - а при других значений N-1 признаков - наоборот, решающим.)
Да, если у вас есть "божественное знание" для этого конкретного признака - что он "полностью бесполезен" в указанном выше строгом математическом смысле (для решения мужчина/женщина, при требуемой генеральной совокупности) - то вы можете eго убрать из входных данных с чистой совестью, т.к. на решение он не повлияет.

Но это - использование неких частных "знаний" для предметной области (в которых вы точно ошибетесь если берете их "с потолка", "по интуиции").
Ведь весь смысл в том не чтобы вы указывали нейронку какие признаки лишние/сущностные и какие нет и насколько (потому что сами не знаете) - а чтобы она сама, обучилась этого решать.
После обучения, нейронка по идее должна сама должна внутренне "ортогонализировать" признаки по значимостью для решения (и если некий признак для решения никак и никогда неважен - то она сама его изолирует, и он не будет влиять на ее решение).

А если вам известен такой 100% скоррелированный с полом признак как хромозомный набор (по сути - определение пола) - то зачем городить нейронную сеть чтобы статистически анализировать признаки? Достаточен будет обычный оператор if/else.

mihaild в сообщении #1191488 писал(а):

Ваше определение существенно зависит от общего распределения. На одной и той же выборке классификатор обучится одному и тому же (для простоты считаем обучение детерменированным). Соответственно, глядя только на выборку и ничего не зная об общем распределении, вы ничего не можете ожидать от классификатора на общем распределении.
(если вы знаете, что выборка была сгенерирована просто семплированием распределения - то что-то ожидать можно; но если ее подбирали специально - то нельзя)

mihaild в сообщении #1191488 писал(а):

Классификатор, который отличает мужчин и женщин, и всех людей в юбке относит к женщинам, в России - хорощий, в Шотландии - нет. Выборка, в которой в юбках только женщины, хороша для России, и плоха для Шотландии.

То что написал mihaild выше - вам понятно?

_hum_ · 10.02.2017, 21:17

mihaild в сообщении #1191488 писал(а):

_hum_ в сообщении #1191409 писал(а):

есть выборка

Вот что это такое - математически? Обычно элементы выборки - точки из

\mathbb{R^n}

, либо строки из

\mathbb{R}^*

, у вас так же? Класс - просто элемент конечного множества?

см. Задача классификации (в контексте обучения с учителем)

Цитата:

_hum_ в сообщении #1191409 писал(а):

проблема именно в том, чтобы определить, насколько много такой сущностной информации в представленной выборке

Тут вы для определения "сущностной информации" используете особенности предметной области.

тут я лишь хочу показать, что информация о самом распределении генеральной совокупности в общем случае не нужна для того, чтобы классификатор правильно обучился. главное, чтобы в обучающей выборке была нужная информация о классах.

mihaild в сообщении #1191488 писал(а):

Классификатор, который отличает мужчин и женщин, и всех людей в юбке относит к женщинам, в России - хорощий, в Шотландии - нет. Выборка, в которой в юбках только женщины, хороша для России, и плоха для Шотландии.

да, но вы для того, чтобы научиться отличать мужчин от женщин, не ездили по миру, чтобы получить распределение обучающей выборки, аналогичное распределению генеральной совокупности.

manul91 в сообщении #1191551 писал(а):

_hum_ в сообщении #1191409 писал(а):

mihaild, manul91, я не совсем понимаю, почему вы все пытаетесь притянуть распределение исходной генеральной совокупности.

Вы спрашивали про репрезентативностью выборки - мы про нее и отвечаем - что это такое.

я спрашивал про реперезентативность выборки для обучения, а не для статистического анализа.

manul91 · 10.02.2017, 21:36

_hum_ в сообщении #1191575 писал(а):

да, но вы для того, чтобы научиться отличать мужчин от женщин, не ездили по миру, чтобы получить распределение обучающей выборки, аналогичное распределению генеральной совокупности.

Если так, то mihaild при определении пола будет более вероятно ошибаться в Шотландии (для которой его обучающая выборка нерепрезентативна) и будет более правильно определять пол в России (для которой его обучающая выборка была репрезентативна). Вот и все следствия.
Допустим задача не определять пол что вам кажется "интуитивно ясным"- а определять похороны это или свадьба. Признак - светлая или темная одежда. Это существенный признак - но с точности до наоборот в зависимости из какой общей совокупности сделана выборка (в европе цвет траура - черный, в других стран напр. восточных - белый).

_hum_ в сообщении #1191575 писал(а):

я спрашивал про реперезентативность выборки для обучения, а не для статистического анализа.

Я вам уже говорил что выборка либо репрезентативна, либо нет (относно конкретной общей совокупности) - и это никак не связано с тем, как ею кто-нибудь намерен пользоваться.
"Выборка Q репрезентативна относно конкретной общей совокупности X" - эквивалентно "выборка Q реально выбрана равновероятным семплированием из той же самой общей совокупности Х".
Что тут непонятного?

_hum_ · 10.02.2017, 22:28

manul91 в сообщении #1191585 писал(а):

Если так, то mihaild при определении пола будет более вероятно ошибаться в Шотландии (для которой его обучающая выборка нерепрезентативна) и будет более правильно определять пол в России (для которой его обучающая выборка была репрезентативна). Вот и все следствия.

спросим у mihaild, ошибается ли он чаще в шотландии :)

manul91 в сообщении #1191585 писал(а):

Допустим задача не определять пол что вам кажется "интуитивно ясным"- а определять похороны это или свадьба. Признак - светлая или темная одежда. Это существенный признак - но с точности до наоборот в зависимости из какой общей совокупности сделана выборка (в европе цвет траура - черный, в других стран напр. восточных - белый).

похороны определяют не по одеждам, а по наличию умершего и его погребению. так что выучившись на черных одеждах не ошибется на белых. я же говорю, все дело в том, чтобы нужные признаки присутствовали в обучающей выборке.

manul91 в сообщении #1191585 писал(а):

Я вам уже говорил что выборка либо репрезентативна, либо нет (относно конкретной общей совокупности) - и это никак не связано с тем, как ею кто-нибудь намерен пользоваться.

ну как не связано. если мне нужно оценить пропорцию числа мужчин и женщин по стране, то мне нужно взять выборку, в которой эта пропорция такая же, как в генеральной совокупности.
если же мне надо обучить отличать мужчину от женщины, мне все равно, в какой пропорции они будут в обучающей выборке (обычно берут в равной).

manul91 · 10.02.2017, 23:23

_hum_ в сообщении #1191607 писал(а):

спросим у mihaild, ошибается ли он чаще в шотландии :)

_hum_ в сообщении #1191607 писал(а):

похороны определяют не по одеждам, а по наличию умершего и его погребении. так что выучившись на черных одеждах не ошибется на белых. я же говорю, все дело в том, чтобы нужные признаки присутствовали в обучающей выборке.

А что, если нет умершего и погребения (скажем - оценивается снимок, и/или ситуация прежде и/или после погребения) - это уже не похороны? Все при отсутствии трупа - сватьба, и наоборот? А если кто-то помер на сватьбе и его закопали? : ) : ) Так мы ни к чему не придем.
Еще раз, если у вас есть 100%-ный признак корреляции который подается на вход - зачем вам вообще нейронка ведь можно обойтись с простым if/else?
И да, человек оценивает миллиарды факторов а не только несколько...и лучше не умничать : )

_hum_ в сообщении #1191607 писал(а):

если же мне надо обучить отличать мужчину от женщины, мне все равно, в какой пропорции они будут в обучающей выборке (обычно берут в равной).

Впервых, никак не все равно в какой пропорции - если б так было, то и выборка из одних только женщин вам пригодилась бы для обучения.

Во вторых - "выбирают примерно поровну" - это не случайно. Представьте себе что классификатор не бинарный, а должен распознавать например прописные буквы алфавита 30-ти букв (30 классов) в типично встречающихся текстах на русском языке.
По-вашему, искуственно подобранная обучающая выборка у которой 30 букв встречаются с одинаковой частотой - для цели распознавания текста будет лучше, чем естественная в которой буквы встречаются с той же частотой как и в тексте?
А если на выход типа

30^2

классов попарных сочетаний букв из текстов, опять нужно выборку искуственно подгонять чтобы при обучении все

30^2

попарные сочетания букв подавались на вход поровну?
Очевидно, что это ошибочно. Если выборка подает буквы/пары с репрезентативной для текста частотой - нейронка более оптимально "распределит свои вычислительные/информационные ресурсы" (будет толерировать бОльшей ошибки для менее значимых букв, которые и так встречаются очень редко в тексте; и наоборот) - в итоге распознавание типичных текстов в целом будет лучше, с наименьшей средней ошибкой.

В третьих, как бы оно не было у вашей нейронки - это никак не может изменить определение термина "репрезентативности выборки".
Еще раз - выборка репрезентативна относно совокупности "всех людей на земле" если она выбрана случайным семплированием всех людей на земле (притом даже если при этом случилось, что в выборке оказались одни женщины, что крайне маловероятно. Именно для этих вероятностей/невероятностей и есть формальные оценки, для репрезентативных выборок).
По определению.
И по определению, это никак не зависит от того "для чего нужна" выборка.
Даже если допустим что почему-то магически оказывается, что в каком-нибудь смысле нейронка дает лучшие результаты на генеральной совокупности, если ее обучать на нерепрезентативной для этой совокупности выборке - от этого выборка репрезентативной не станет.

_hum_ · 11.02.2017, 01:21

manul91 в сообщении #1191616 писал(а):

Еще раз, если у вас есть 100%-ный признак корреляции который подается на вход - зачем вам вообще нейронка ведь можно обойтись с простым if/else?

я привел пример для наглядности. на практике же мы не знаем даже признаков (нейронка сама их выбирает).

manul91 в сообщении #1191616 писал(а):

Впервых, никак не все равно в какой пропорции - если б так было, то и выборка из одних только женщин вам пригодилась бы для обучения.

в пропорции нельзя "делить на нуль".

manul91 в сообщении #1191616 писал(а):

В третьих, как бы оно не было у вашей нейронки - это никак не может изменить определение термина "репрезентативности выборки".

похоже, вы занимаетесь буквоедством. мне неважно, как это называется. назовите learning-representativeness, если вас цепляет использование того же термина.

в общем, ваша позиция мне понятна. спасибо.

mihaild · 11.02.2017, 01:30

_hum_ в сообщении #1191575 писал(а):

тут я лишь хочу показать, что информация о самом распределении генеральной совокупности в общем случае не нужна для того, чтобы классификатор правильно обучился

От этой информации зависит определение того, обучился классификатор правильно или неправильно. Т.е. при фиксированной выборке и классификаторе, варьируя общее распределение, мы можем получить как правильно обученный классификатор, так и неправильно.

_hum_ в сообщении #1191575 писал(а):

чтобы в обучающей выборке была нужная информация о классах

Вот какая информация "нужная" - зависит от общего распределения.

_hum_ в сообщении #1191575 писал(а):

но вы для того, чтобы научиться отличать мужчин от женщин, не ездили по миру, чтобы получить распределение обучающей выборки, аналогичное распределению генеральной совокупности

Да, я обучался на некотором подмножестве, и правильно буду отвечать только в случаях, которые достаточно на него похожи. Например, если у некоторого вида инопланетян женщины выглядят как человеческие мужчины, только с 7ю пальцами, то я, глядя на такого представителя, весьма вероятно ошибусь.

Вот я вам приношу две выборки. Объекты с двумя бинарными признаками, и целевая функция тоже бинарная. Записывать будем в виде (признак1, признак2, цель).
Первая выборка:

(0, 0, 0) - 100, (0, 0, 1) - 1, (0, 1, 0) - 100, (0, 1, 1) - 1, (1, 0, 0) - 1, (1, 0, 1) - 100, (1, 1, 0) - 1, (1, 1, 1) - 100

.
Вторая выборка:

(0, 0, 0) - 100, (0, 0, 1) - 1, (0, 1, 0) - 1, (0, 1, 1) - 100, (1, 0, 0) - 1, (1, 0, 1) - 100, (1, 1, 0) - 100, (1, 1, 1) - 1

.
Какая из них "лучше"?

_hum_ в сообщении #1191643 писал(а):

на практике же мы не знаем даже признаков

То, что мы ей даем на вход - и называется признаками.

_hum_ · 11.02.2017, 02:00

mihaild, и ваша позиция понятна. спасибо.

Dan B-Yallay · 11.02.2017, 02:17

(Оффтоп)

Я представил себе упрощенную ситуацию:
Есть 2 мешка игрушек. Наугад выбрал по 4 из каждого мешка и получил в каждой выборке по 2 чёрных и 2 белых лошадки.
Открываю первый мешок - там разнообразные животные самых разных цветов. Стало быть выборка оказалась нерепрезентативной.
Открываю второй мешок, а там -- только чёрные или белые лошадки. :shock:

Научный форум dxdy

Формализация репрезентативности обучающей выборки