Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия, Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки
У меня есть стратифицированная выборка. Стратификация проходит по цвету (цветов 100). Больше страт сделать нет возможности, но надо расчитать будет ли выборка репрезентативная еще и по размеру (размеров допустим 20).
Под репрезентативностью в данном случае я понимаю умножение на веса и сравнение с реальными результатами по стратам (они известны). Тоесть выборка пока на стадии симуляции.
Стратифицировать и по цвету и по размеру нет возможности (страт дофига - 2000 получается, а малые страты (меньше 7 едениц) обследываются полностью согласно действующей методологии (елементы страт с меньше чем 7 еденицами имеют вероятность 1 попасть в выборку) ).
Едениц в генеральной сукупности, допустим, 100 000. Выборка 20% - 20 000. Метод отбора - простой вероятностный без возвращения (в каждой страте).
Но "домены" (результаты) надо расчитать и по размеру тоже. Есть ли какие-то методы расчета и коректировки выборки, что б получились норм результаты и по размеру, но не стратицицируя по нему ? :)
Боюсь что получится что только какие то размеры попали в выборку, а остальные - в пролете.