Здравствуйте,
У нас с коллегой вышел спор о корректности предлагаемого ниже метода, не могли бы вы найти ошибку, если она есть.
Пусть у нас есть
объектов и классификатор
, который для объекта умеет отвечать ДА/НЕТ.
Интересует процент объектов для которых классификатор ответит ДА. При этом не хочется проверять все объекты, потому что время классификации велико.
Предлагается следующий метод оценки процента.
Выберем равновероятно один из объектов ---
. Утверждается, что
является биномиальным распределением. Действительно, среди
объектов для
из них классификатор ответит ДА. Тогда вероятность выбрать объект для которого классификатор ответит ДА будет
.
Предположим, мы умеем равновероятно выбирать один из объектов. Тогда повторим данную процедуру, например, 100 раз. Получим выборку для случайной величины
, при этом
имеет биномиальное распределение с неизвестным параметром
. Оценим данный параметр с помощью 95% доверительного, относительно полученной выборки. В результате доверительный интервал будет являться оценкой для процента объектов для которых классификатор говорит ДА.