2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Классификация объектов с помощью дов. интервала
Сообщение10.03.2017, 13:09 


10/03/17
3
Здравствуйте,

У нас с коллегой вышел спор о корректности предлагаемого ниже метода, не могли бы вы найти ошибку, если она есть.

Пусть у нас есть $N$ объектов и классификатор $C$, который для объекта умеет отвечать ДА/НЕТ.

Интересует процент объектов для которых классификатор ответит ДА. При этом не хочется проверять все объекты, потому что время классификации велико.

Предлагается следующий метод оценки процента.

Выберем равновероятно один из объектов --- $X$. Утверждается, что $P(C(X) = \texttt{ДА})$ является биномиальным распределением. Действительно, среди $N$ объектов для $K$ из них классификатор ответит ДА. Тогда вероятность выбрать объект для которого классификатор ответит ДА будет $K/N$.

Предположим, мы умеем равновероятно выбирать один из объектов. Тогда повторим данную процедуру, например, 100 раз. Получим выборку для случайной величины $C(X), при этом $C(X)$ имеет биномиальное распределение с неизвестным параметром $p$. Оценим данный параметр с помощью 95% доверительного, относительно полученной выборки. В результате доверительный интервал будет являться оценкой для процента объектов для которых классификатор говорит ДА.

 Профиль  
                  
 
 Posted automatically
Сообщение10.03.2017, 15:03 
Модератор


19/10/15
1196
 i  Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Карантин»
по следующим причинам:

- неправильно набраны формулы (краткие инструкции: «Краткий FAQ по тегу [math]» и видеоролик Как записывать формулы);

Исправьте все Ваши ошибки и сообщите об этом в теме Сообщение в карантине исправлено.
Настоятельно рекомендуется ознакомиться с темами Что такое карантин и что нужно делать, чтобы там оказаться и Правила научного форума.

 Профиль  
                  
 
 Posted automatically
Сообщение10.03.2017, 18:22 
Модератор


19/10/15
1196
 i  Тема перемещена из форума «Карантин» в форум «Помогите решить / разобраться (М)»

 Профиль  
                  
 
 Re: Классификация объектов с помощью дов. интервала
Сообщение10.03.2017, 22:05 
Заслуженный участник


12/07/07
4530
vedun-z, см. Hypergeometric distribution. По поводу сведения к задаче для оценки параметра $p$ биномиального распределения в учебниках написано и на форуме немного обсуждалось.

 Профиль  
                  
 
 Re: Классификация объектов с помощью дов. интервала
Сообщение11.03.2017, 16:45 


10/03/17
3
Мне кажется гипергеометрическое здесь вообще не причем, потому что оно во-первых без повторений, что усложняет дело, хотя на в моём случае я могу и с повторениями. Во-вторых оно про то, что мы уже выбрали k элементов, т.е. выборку там построить не удастся.

Обсуждение то обсуждение я читал, но я привожу решение задачи. Мне интересно, прежде всего, есть ли в этом решении проблемы.

 Профиль  
                  
 
 Re: Классификация объектов с помощью дов. интервала
Сообщение11.03.2017, 18:31 
Заслуженный участник


12/07/07
4530
vedun-z в сообщении #1198732 писал(а):
При этом не хочется проверять все объекты, потому что время классификации велико.
Т.е. по условию имеется конечное множество. В таких случаях обычно рассматривают выборку без возвращения.
vedun-z в сообщении #1198732 писал(а):
Предположим, мы умеем равновероятно выбирать один из объектов. Тогда повторим данную процедуру, например, 100 раз. Получим выборку для случайной величины $C(X), при этом $C(X)$ имеет биномиальное распределение с неизвестным параметром $p$
Если выборка без возвращения, то это неправильно. На пальцах это следует из того, что нет независимости испытаний.
Если выборка с возвращением, то, да, будет биномиальное распределение.

Upd. На всякий случай. В случае выборки с возвращением, распределение $C(X)$ будет частным случаем биномиального распределения — бернуллиевским (Можно считать, что «Да» соответствует 1, а «Нет» — 0). Число исходов, в которых $C(X)$ приняло значение «Да», будет иметь биномиальное распределение с параметрами $n$ (число испытаний) и $p$ (вероятности $C(X)$ принять в каждом испытании значение 1 или «Да»).
Уточнение мелкое и очевидное. Просто времени не будет часто заглядывать.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: YandexBot [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group