интуитивно - для признаков, частоты которых в выборке наиболее высокие, должно быть справедливо:
1) таких признаков много;
2) такие признаки частотно независимы друг от друга;
3) частоты их примерно сравнимы.
[пара 1),2) отвечает за "разнообразие выборки", 3) - за "сбалансированность"]
Отнюдь.
Если для 100 мужчин и 100 женщин брать признаки не цвета одежды, а например наличия/отсутствия бороды, наличия/отсутствия груди, вид одежды (брюк vs платье) и т.д. - что опять "интуитивно" такие признаки должны быть не коррелирующими с полом? Или они с какой-то стати не выполняют "требований" 1, 2, 3 выше?
Да и цвет одежды скорее всего имеет корреляцию с полом, это вам только кажется что он в идеале должен быть независимым.
Поймите простую вещь - выборка (из общей совокупности) репрезентативна - если она статистически иммитирует общей совокупности - со всеми частотами, корреляциями и/или некорелляцями всех существующих признаков.
Самый верный метод (который при этом, позволяет охватить все признаки вкл. те о которых не подумали; со всех их возможных корреляций и сцепленностей/несцепленностей) - это брать равномерно-случайную выборку из общей совокупности. Тогда у вас грубо говоря "гарантия", что с увеличиванием размера выборки - ее репрезентативность будет расти притом достаточно быстро.
При этом, выборку из общей совокупности нужно реально брать случайно (а не умничать и/или проводить "мысленные эксперименты"). Так как интуиция гарантированно ошибается (что видно из самих ваших рассуждений).
Например, если признаки у вас пол и цвет одежды.
И, если общая совокупность - "граждане москвы".
Тогда в идеале вам нужен список всех граждан москвы, из котором равновероятно выбираете 200 имен - и смотрите у кого какой цвет одежды в данный момент.
Уже там как получится - напр. может быть 98 мужчив на 102 женщин; у мужчин 70% темная одежда а у женщин 60% светлая (кто-то возможно окажется голым, кто-то гермафродитом, у кого-то одежда "серая" и т.д.).
Притом - нельзя статистику брать просто идя по Тверской в 2 часов вторника, из первых 200 прохожих - поскольку такая выборка уже будет иммитировать совершенно другую общую совокупность - "людей идущих в 2 часов вторника по Тверской" - что совсем не то, что совокупность "граждане москвы".
Точно также, если для московчан может быть у мужчин 70% темная одежда а у женщин 60% светлая - в каком-то Рио вполне возможно быть наоборот.
Короче, вам нужно четко определиться с общей совокупности, и честно выбрать из нее (именно из нее, а не из какую-то другую) "достаточно большую" случайную выборку. Она и будет "достаточно репрезентативна". (на все это имеется четкая статистическая формализация, и все можно посчитать).
А "догадываться", и "интуитивно рассуждать" - верный путь ошибиться.
Выборка сама по себе - либо "репрезентативна", либо "нет" - и это, никак не связано с тем зачем она вам нужна - обучать нейронку, предсказывать результаты выборов, оптимизировать рекламную кампанию или для чего-то другого.
-- 10.02.2017, 07:50 --Я выше использовал слово "репрезентативность" в несколько вольном смысле (так чтобы вам было понятнее).
На самом деле, за термином "репрезентативность выборки" - понимается более тесное понятие - а именно то что выборка сделана случайно, из "правильной" общей совокупности которой она должна репрезентировать (а не какой-то другой).
Например, равновероятно-случайная выборка 200 прохожих из Тверской в 2 часа вторника - является репрезентативной для общей совокупности ""людей идущих в 2 часов вторника по Тверской" (и нерепрезентативной для совокупностей "граждан Москвы", "людей Рио", "людей на Земле", или "людей идущих в 2 часов вторника по Тверской которые улыбаются и наверное, не против поговорить").
У репрезентативной выборки, тем не менее имеется "очень малая" вероятность чтобы она оказалась "сильно сбитой" по любого из признаков относно реальной совокупности - напр. 200 прохожих может оказаться 140 женщин vs 60 мужчин притом что реальная частота пола идущих в 2 по Тверской 50% (эта вероятность "сбитости" очень быстро падает с увеличения размера выборки - сравните выбор четырех vs выбор тысячу прохожих) - но даже и такая "сбитая выборка", по прежнему называется репрезентативной (т.к. реально выбрана случайно, именно из правильной общей совокупности которой она и репрезентирует).