где есть много независимых одинаково часто встречающихся признаков. вот как это формализовать?
А этого не понял я, даже интуитивно.
Просто "есть много координат, по которым распределение сильно отличается от точечного, и координаты независимы в совокупности"?
этого я не понял.
Представим себе, что наше подлинное распределение такое: по
![$24%$ $24%$](https://dxdy-03.korotkov.co.uk/f/2/d/f/2df03c771507e725e4bc2e5b611e45e682.png)
- красные большие квадраты, красные маленькие квадраты, синие большие круги, синие маленькие круги; по
![$1%$ $1%$](https://dxdy-03.korotkov.co.uk/f/6/7/8/678557ef1d4d8c1ac04a5127631b4e1982.png)
- синие большие квадраты, синие маленькие квадраты, красные большие круги, красные маленькие круги.
Тогда по критерию "разнообразия" выборка по
![$N$ $N$](https://dxdy-04.korotkov.co.uk/f/f/9/c/f9c4988898e7f532b9f826a75014ed3c82.png)
фигур каждого из 8 типов будет лучше, чем по
![$24N$ $24N$](https://dxdy-01.korotkov.co.uk/f/4/0/1/401517a28949ca9f7ba2a9ffe0bd3a8582.png)
каждого из распространенных типов, и по
![$N$ $N$](https://dxdy-04.korotkov.co.uk/f/f/9/c/f9c4988898e7f532b9f826a75014ed3c82.png)
из нераспространенных.
Но если в выборке фигур каждого типа одинаково - то мы, глядя на нее, не научимся давать предсказания лучше, чем монетка, по второй мы обучимся "красное - это квадрат с вероятностью
![$96%$ $96%$](https://dxdy-04.korotkov.co.uk/f/3/c/3/3c3618382e3608605424e18bed6b62af82.png)
, синее - это круг с вероятностью
![$96$ $96$](https://dxdy-04.korotkov.co.uk/f/3/4/1/341821aa7fe12c01cbc264817774407582.png)
", что является лучшей возможной точностью.