Классификация объектов с помощью дов. интервала

vedun-z · 10.03.2017, 13:09

Здравствуйте,

У нас с коллегой вышел спор о корректности предлагаемого ниже метода, не могли бы вы найти ошибку, если она есть.

Пусть у нас есть $N$ объектов и классификатор $C$ , который для объекта умеет отвечать ДА/НЕТ.

Интересует процент объектов для которых классификатор ответит ДА. При этом не хочется проверять все объекты, потому что время классификации велико.

Предлагается следующий метод оценки процента.

Выберем равновероятно один из объектов --- $X$ . Утверждается, что $P(C(X) = \texttt{ДА})$ является биномиальным распределением. Действительно, среди $N$ объектов для $K$ из них классификатор ответит ДА. Тогда вероятность выбрать объект для которого классификатор ответит ДА будет $K/N$ .

Предположим, мы умеем равновероятно выбирать один из объектов. Тогда повторим данную процедуру, например, 100 раз. Получим выборку для случайной величины $$C(X)$ , при этом $C(X)$ имеет биномиальное распределение с неизвестным параметром $p$ . Оценим данный параметр с помощью 95% доверительного, относительно полученной выборки. В результате доверительный интервал будет являться оценкой для процента объектов для которых классификатор говорит ДА.

Karan · 10.03.2017, 15:03

i

Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Карантин»
по следующим причинам:

- неправильно набраны формулы (краткие инструкции: «Краткий FAQ по тегу [math]» и видеоролик Как записывать формулы);

Исправьте все Ваши ошибки и сообщите об этом в теме Сообщение в карантине исправлено.
Настоятельно рекомендуется ознакомиться с темами Что такое карантин и что нужно делать, чтобы там оказаться и Правила научного форума.

Karan · 10.03.2017, 18:22

i	Тема перемещена из форума «Карантин» в форум «Помогите решить / разобраться (М)»

GAA · 10.03.2017, 22:05

vedun-z, см. Hypergeometric distribution. По поводу сведения к задаче для оценки параметра $p$ биномиального распределения в учебниках написано и на форуме немного обсуждалось.

vedun-z · 11.03.2017, 16:45

Мне кажется гипергеометрическое здесь вообще не причем, потому что оно во-первых без повторений, что усложняет дело, хотя на в моём случае я могу и с повторениями. Во-вторых оно про то, что мы уже выбрали k элементов, т.е. выборку там построить не удастся.

Обсуждение то обсуждение я читал, но я привожу решение задачи. Мне интересно, прежде всего, есть ли в этом решении проблемы.

GAA · 11.03.2017, 18:31

vedun-z в сообщении #1198732 писал(а):

При этом не хочется проверять все объекты, потому что время классификации велико.

Т.е. по условию имеется конечное множество. В таких случаях обычно рассматривают выборку без возвращения.

vedun-z в сообщении #1198732 писал(а):

Предположим, мы умеем равновероятно выбирать один из объектов. Тогда повторим данную процедуру, например, 100 раз. Получим выборку для случайной величины $$C(X)$ , при этом $C(X)$ имеет биномиальное распределение с неизвестным параметром $p$

Если выборка без возвращения, то это неправильно. На пальцах это следует из того, что нет независимости испытаний.
Если выборка с возвращением, то, да, будет биномиальное распределение.

Upd. На всякий случай. В случае выборки с возвращением, распределение $C(X)$ будет частным случаем биномиального распределения — бернуллиевским (Можно считать, что «Да» соответствует 1, а «Нет» — 0). Число исходов, в которых $C(X)$ приняло значение «Да», будет иметь биномиальное распределение с параметрами $n$ (число испытаний) и $p$ (вероятности $C(X)$ принять в каждом испытании значение 1 или «Да»).
Уточнение мелкое и очевидное. Просто времени не будет часто заглядывать.

Научный форум dxdy

Классификация объектов с помощью дов. интервала