Здравствуйте,
У нас с коллегой вышел спор о корректности предлагаемого ниже метода, не могли бы вы найти ошибку, если она есть.
Пусть у нас есть

объектов и классификатор

, который для объекта умеет отвечать ДА/НЕТ.
Интересует процент объектов для которых классификатор ответит ДА. При этом не хочется проверять все объекты, потому что время классификации велико.
Предлагается следующий метод оценки процента.
Выберем равновероятно один из объектов ---

. Утверждается, что

является биномиальным распределением. Действительно, среди

объектов для

из них классификатор ответит ДА. Тогда вероятность выбрать объект для которого классификатор ответит ДА будет

.
Предположим, мы умеем равновероятно выбирать один из объектов. Тогда повторим данную процедуру, например, 100 раз. Получим выборку для случайной величины

, при этом

имеет биномиальное распределение с неизвестным параметром

. Оценим данный параметр с помощью 95% доверительного, относительно полученной выборки. В результате доверительный интервал будет являться оценкой для процента объектов для которых классификатор говорит ДА.