где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?
А этого не понял я, даже интуитивно.
Просто "есть много координат, по которым распределение сильно отличается от точечного, и координаты независимы в совокупности"?
этого я не понял.
Представим себе, что наше подлинное распределение такое: по
- красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги; по
- синие большие квадраты, синие маленькие квадраты, красные большие круги, красные маленькие круги.
Тогда по критерию "разнообразия" выборка по
фигур каждого из 8 типов будет лучше, чем по
каждого из распространенных типов, и по
из нераспространенных.
Но если в выборке фигур каждого типа одинаково - то мы, глядя на нее, не научимся давать предсказания лучше, чем монетка, по второй мы обучимся "красное - это квадрат с вероятностью
, синее - это круг с вероятностью
", что является лучшей возможной точностью.