2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Классификация объектов с помощью дов. интервала
Сообщение10.03.2017, 13:09 


10/03/17
3
Здравствуйте,

У нас с коллегой вышел спор о корректности предлагаемого ниже метода, не могли бы вы найти ошибку, если она есть.

Пусть у нас есть $N$ объектов и классификатор $C$, который для объекта умеет отвечать ДА/НЕТ.

Интересует процент объектов для которых классификатор ответит ДА. При этом не хочется проверять все объекты, потому что время классификации велико.

Предлагается следующий метод оценки процента.

Выберем равновероятно один из объектов --- $X$. Утверждается, что $P(C(X) = \texttt{ДА})$ является биномиальным распределением. Действительно, среди $N$ объектов для $K$ из них классификатор ответит ДА. Тогда вероятность выбрать объект для которого классификатор ответит ДА будет $K/N$.

Предположим, мы умеем равновероятно выбирать один из объектов. Тогда повторим данную процедуру, например, 100 раз. Получим выборку для случайной величины $C(X), при этом $C(X)$ имеет биномиальное распределение с неизвестным параметром $p$. Оценим данный параметр с помощью 95% доверительного, относительно полученной выборки. В результате доверительный интервал будет являться оценкой для процента объектов для которых классификатор говорит ДА.

 Профиль  
                  
 
 Posted automatically
Сообщение10.03.2017, 15:03 
Модератор


19/10/15
1196
 i  Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Карантин»
по следующим причинам:

- неправильно набраны формулы (краткие инструкции: «Краткий FAQ по тегу [math]» и видеоролик Как записывать формулы);

Исправьте все Ваши ошибки и сообщите об этом в теме Сообщение в карантине исправлено.
Настоятельно рекомендуется ознакомиться с темами Что такое карантин и что нужно делать, чтобы там оказаться и Правила научного форума.

 Профиль  
                  
 
 Posted automatically
Сообщение10.03.2017, 18:22 
Модератор


19/10/15
1196
 i  Тема перемещена из форума «Карантин» в форум «Помогите решить / разобраться (М)»

 Профиль  
                  
 
 Re: Классификация объектов с помощью дов. интервала
Сообщение10.03.2017, 22:05 
Заслуженный участник


12/07/07
4537
vedun-z, см. Hypergeometric distribution. По поводу сведения к задаче для оценки параметра $p$ биномиального распределения в учебниках написано и на форуме немного обсуждалось.

 Профиль  
                  
 
 Re: Классификация объектов с помощью дов. интервала
Сообщение11.03.2017, 16:45 


10/03/17
3
Мне кажется гипергеометрическое здесь вообще не причем, потому что оно во-первых без повторений, что усложняет дело, хотя на в моём случае я могу и с повторениями. Во-вторых оно про то, что мы уже выбрали k элементов, т.е. выборку там построить не удастся.

Обсуждение то обсуждение я читал, но я привожу решение задачи. Мне интересно, прежде всего, есть ли в этом решении проблемы.

 Профиль  
                  
 
 Re: Классификация объектов с помощью дов. интервала
Сообщение11.03.2017, 18:31 
Заслуженный участник


12/07/07
4537
vedun-z в сообщении #1198732 писал(а):
При этом не хочется проверять все объекты, потому что время классификации велико.
Т.е. по условию имеется конечное множество. В таких случаях обычно рассматривают выборку без возвращения.
vedun-z в сообщении #1198732 писал(а):
Предположим, мы умеем равновероятно выбирать один из объектов. Тогда повторим данную процедуру, например, 100 раз. Получим выборку для случайной величины $C(X), при этом $C(X)$ имеет биномиальное распределение с неизвестным параметром $p$
Если выборка без возвращения, то это неправильно. На пальцах это следует из того, что нет независимости испытаний.
Если выборка с возвращением, то, да, будет биномиальное распределение.

Upd. На всякий случай. В случае выборки с возвращением, распределение $C(X)$ будет частным случаем биномиального распределения — бернуллиевским (Можно считать, что «Да» соответствует 1, а «Нет» — 0). Число исходов, в которых $C(X)$ приняло значение «Да», будет иметь биномиальное распределение с параметрами $n$ (число испытаний) и $p$ (вероятности $C(X)$ принять в каждом испытании значение 1 или «Да»).
Уточнение мелкое и очевидное. Просто времени не будет часто заглядывать.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group