2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2, 3  След.
 
 Re: Определение параметра биномиального распределения
Сообщение19.03.2014, 18:51 
Аватара пользователя
Александрович
Ну что Вы такое пишете?
Биномиальное распределение имеет параметры $n$ (число испытаний, если вспомнить схему Бернулли) и $p$ (вероятность успеха в одном испытании). ТС известно $n$, но неизвестно $p$. Он хочет оценить $p$ имея выборку объема $m$.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение19.03.2014, 21:12 
Аватара пользователя
--mS-- в сообщении #838665 писал(а):
Кролик в сообщении #838630 писал(а):
Но здесь, по меньшей мере, отсутствует оценка аппроксимационной точности (достоверности).
Так Вам нужны доверительные интервалы? Вроде у Вас есть ссылка на тему, где их обсуждали. Или Вы не знаете, что нужно?

-- В прикладной математике 21-ого века аппроксимации без оценок уже никого не удовлетворяют. Если кроме интервальной оценки есть какие-то ещё способы определить качество аппроксимированного значения $p*$ (вычисленного по формуле Otta или какой-то другой формуле), то я с удовольствием этому поучусь.

Александрович в сообщении #838669 писал(а):
$m$ здесь - количество выборок объёмом $n$.

-- О выборках объёма $n=100$ я бы здесь не стал говорить, т.к. чистая схема Бернулли не подходит. Скорее всего надо представить себе некоторый случайный процесс, т.е. неограниченную последовательность случайный величин
$$
X_1, X_2, X_3, ...
$$
с областью значений от 0 до 100 каждая. С точностью, приемлемой для практики, можно считать, что все эти величины взаимно независимы и имеют биномиальное распределение с одним и тем же параметром $p$. Пусть первые $m$ величин реализовались: $x_1, x_2, ..., x_m$ ($m$ -- не очень велико). Нам надо строить прогнозы "на будущее".

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение19.03.2014, 21:26 
Аватара пользователя
Кролик в сообщении #838783 писал(а):
-- В прикладной математике 21-ого века аппроксимации без оценок уже никого не удовлетворяют. Если кроме интервальной оценки есть какие-то ещё способы определить качество аппроксимированного значения $p*$ (вычисленного по формуле Otta или какой-то другой формуле), то я с удовольствием этому поучусь.

Доверительные интервалы как раз и оценивают вероятность случайным границам накрывать неизвестный параметр. Если Вам нужно это, то исходный вопрос непонятен: ссылка на ветку про доверительные интервалы у Вас есть. Если очень грубо, то расхождение данной оценки и параметра можно оценить, скажем, неравенством Чебышёва как $\mathsf P\bigl(\bigl|\frac{\overline X}{n}-p\bigr|\geqslant \varepsilon\bigr)\leqslant \frac{1}{4nm\varepsilon^2}$. Если есть уверенность, что выборка из биномиального распределения, то при большом значении параметра $n$ (там у Вас где-то 27 мелькало) не нужно иметь большой объём выборки $m$, чтобы воспользоваться нормальной аппроксимацией и оценить вероятность на порядок точнее: биномиальное распределение уже сумма бернуллевских, и 27 слагаемых, спрятавшихся в одном наблюдении $X_1$, вполне хватит для удовлетворительной точности нормального приближения.

-- Чт мар 20, 2014 01:38:29 --

Кролик в сообщении #838783 писал(а):
-- О выборках объёма $n=100$ я бы здесь не стал говорить, т.к. чистая схема Бернулли не подходит.

Вы сейчас говорите, что у Вас нет ноликов и единичек, а есть лишь количество единичек в первых $n$ бернуллевских величинах, в следующих $n$, и так до последней $m$-й энки. Безразлично - есть эти нолики и единички или есть только их суммы, если строить оценки только по суммам или средним.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение19.03.2014, 23:50 
Аватара пользователя
ex-math в сообщении #838731 писал(а):
ТС известно $n$, но неизвестно $p$. Он хочет оценить $p$ имея выборку объема $m$.

-- Оценка Чебышёва наглядно показывает ошибку в моей формулировке. Похоже, что $n$ мне тоже неизвестно.

--mS-- в сообщении #838791 писал(а):
Кролик в сообщении #838783 писал(а):
-- О выборках объёма $n=100$ я бы здесь не стал говорить, т.к. чистая схема Бернулли не подходит.
Вы сейчас говорите, что у Вас нет ноликов и единичек, а есть лишь количество единичек в первых $n$ бернуллевских величинах, в следующих $n$, и так до последней $m$-й энки. Безразлично - есть эти нолики и единички или есть только их суммы, если строить оценки только по суммам или средним.

-- Там что-то вроде сумм ноликов и единичек с весами (точная начинка неизвестна), т.е. распределение, конечно, не совсем биномиальное, но мы пытаемся его приблизить биномиальным, как наиболее подходящим и хорошо изученным. Выходит, что область значений (от 0 до 100) надо ещё равномерно переразбить на подходящее количество групп значений, чтобы принять это количество за параметр $n$ искомого псевдо-биномиального распределения. Выходит, аппроксимировать надо сразу оба параметра: и $p$, и $n$. Делали такое хоть когда-нибудь?

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 01:31 
Аватара пользователя
Кролик, напишите что вы делаете, какие получаете данные и что хотите с ними сделать.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 01:55 
Аватара пользователя
Александрович в сообщении #838846 писал(а):
Кролик, напишите что вы делаете, какие получаете данные и что хотите с ними сделать.

Имеется неограниченная последовательность случайный величин
$$
X_1, X_2, X_3, ...
$$
с областью значений от 0 до 100 каждая. С точностью, приемлемой для практики, можно считать, что все эти величины взаимно независимы и имеют распределение, близкое к биномиальному с одним и тем же параметром $p$ и $n$ ($n<\!\!<100$). Пусть первые $m$ величин реализовались: $x_1, x_2, ..., x_m$ ($m$ -- не очень велико). Нам надо строить прогнозы "на будущее". В частности, надо обеспечить достоверный коридор значений некой функции от $s$ и от ещё не реализовавшихся величин $X_{m+1}, X_{m+2}, ..., X_{m+s}$. Параметры $p$ и $n$ неизвестны и могут быть определены только из статистики первых реализаций.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 02:43 
Аватара пользователя
Кролик в сообщении #838848 писал(а):
$$
X_1, X_2, X_3, ...
$$
с областью значений от 0 до 100 каждая.

Таким образом вы задали $n=100$.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 09:06 
Аватара пользователя
Ну, как вариант для достаточно больших n и не слишком малых p можно вспомнить, что матожидание $X_i$ равно np, а дисперсия, соответственно, np(1-p). То есть это выполняется, разумеется, для любых n и p, но для оценивания желательные большие (а для построения доверительного интервала хорошо бы аппроксимировать нормальным, и тут требования к n и p растут).
Считаем по выборке $X_i$ среднее и дисперсию, делим вторую на первое - имеем (1-p). Делим первое на p - получаем n. Доверительные интервалы - грубозавышенную оценку можно получить, взяв доверительные интервалы для матожидания и дисперсии обычным образом, и при делении действуем по правилам интервальной арифметики.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 11:21 
Аватара пользователя
Александрович в сообщении #838853 писал(а):
Кролик в сообщении #838848 писал(а):
$$
X_1, X_2, X_3, ...
$$с областью значений от 0 до 100 каждая.
Таким образом вы задали $n=100$.

-- Мне кажется, это задача с неполностью заданной вероятностной моделью (ср. topic1721.html). Параметр $n$ искомого биномиального распределения (описывающего модель хотя бы частично) неизвестен, как и параметр $p$.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 11:49 
Аватара пользователя
Вы указали
Кролик в сообщении #838848 писал(а):
с областью значений от 0 до 100 каждая


Это можно трактовать трояко. Что у Вас в принципе не генерируются биномиально распределённые величины более 100. То есть параметр n полагается равным 100. Что у Вас параметр n неизвествен, но Вы из нестатистических источников знаете, что n<100. Или что у Вас распределение с неизвестным параметром n, но оно цензурованное, с отсечкой по уровню 100 (тут, кстати, распадается на два варианта - либо реализации с результатом более 100 бракуются и в выборку не попадают, либо заменяются на максимальное 100).
Позвольте просить об уточнении постановки.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 11:57 
Аватара пользователя
Евгений Машеров в сообщении #838869 писал(а):
Считаем по выборке $X_i$ среднее и дисперсию, делим вторую на первое - имеем (1-p). Делим первое на p - получаем n. Доверительные интервалы - грубозавышенную оценку можно получить, взяв доверительные интервалы для матожидания и дисперсии обычным образом, и при делении действуем по правилам интервальной арифметики.

-- Этот алгоритм кажется простым и рациональным, но недостаточно обоснованным до тех пор, пока полностью отсутствует проверка гипотезы биномиальности. Как было верно замечено, стандартный $\chi^2$-тест не подходит ввиду того, что произведение $n (1-p)$ не обязательно велико. А какие тесты ещё существуют?

-- Чт мар 20, 2014 12:09:46 --

Евгений Машеров в сообщении #838894 писал(а):
Вы указали
Кролик в сообщении #838848 писал(а):
с областью значений от 0 до 100 каждая
Позвольте просить об уточнении постановки.

Область значений каждой случайной величины $X_i$ можно разбить на $n$ непересекающихся интервалов так, что распределение по этим интервалам будет близко к биномиальному. (100 -- характеризует лишь точность измерения показателя, но не свойство стоящего за ним случайного процесса.)

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 13:35 
Аватара пользователя
Кролик в сообщении #838896 писал(а):
Область значений каждой случайной величины $X_i$ можно разбить на $n$ непересекающихся интервалов так, что распределение по этим интервалам будет близко к биномиальному. (100 -- характеризует лишь точность измерения показателя, но не свойство стоящего за ним случайного процесса.)



Извините, я наверно, резко отупел и смысла этих фраз не понимаю.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 13:45 
Аватара пользователя
Кролик в сообщении #838848 писал(а):
Имеется неограниченная последовательность случайный величин
$$
X_1, X_2, X_3, ...
$$
с областью значений от 0 до 100 каждая. С точностью, приемлемой для практики, можно считать, что все эти величины взаимно независимы и имеют распределение, близкое к биномиальному с одним и тем же параметром $p$ и $n$ ($n<\!\!<100$). Пусть первые $m$ величин реализовались: $x_1, x_2, ..., x_m$ ($m$ -- не очень велико). Нам надо строить прогнозы "на будущее". В частности, надо обеспечить достоверный коридор значений некой функции от $s$ и от ещё не реализовавшихся величин $X_{m+1}, X_{m+2}, ..., X_{m+s}$. Параметры $p$ и $n$ неизвестны и могут быть определены только из статистики первых реализаций.

Правильно ли я понял вашу задачу, переведя её на бытовой язык?
Я позавчера рыбу ловил, поймал меньше сотни, среди улова было 3 карася. Вчера тоже ловил, поймал столько же, из улова 2 карася. И сегодня ловил, поймал столько же, ни одного карася. Сколько завтра я поймаю карасей, если улов будет таким же?

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 13:56 
Аватара пользователя
Кролик в сообщении #838896 писал(а):
-- Этот алгоритм кажется простым и рациональным, но недостаточно обоснованным до тех пор, пока полностью отсутствует проверка гипотезы биномиальности. Как было верно замечено, стандартный $\chi^2$-тест не подходит ввиду того, что произведение $n (1-p)$ не обязательно велико. А какие тесты ещё существуют?


Ну, например, предложен G-тест
http://en.wikipedia.org/wiki/G-test
Который можно рассматривать, как $\chi^2$квадрат без требования достаточного количества в ячейке.
Вообще же тестов не много, а очень много.

 
 
 
 Re: Определение параметра биномиального распределения
Сообщение20.03.2014, 14:16 
Аватара пользователя
Александрович в сообщении #838908 писал(а):
Правильно ли я понял вашу задачу, переведя её на бытовой язык?
Я позавчера рыбу ловил, поймал меньше сотни, среди улова было 3 карася. Вчера тоже ловил, поймал столько же, из улова 2 карася. И сегодня ловил, поймал столько же, ни одного карася. Сколько завтра я поймаю карасей, если улов будет таким же?

-- Близко, но не так. Точнее. Позавчера ученик получил по контрольной 63 балла из 100 возможных. Вчера он получил по контрольной 87 баллов, а сегодня 74. Сколько баллов получит ученик на следующей контрольной, если считать, что качаство его знаний в предмете не прогрессирует и не регрессирует?

 
 
 [ Сообщений: 43 ]  На страницу Пред.  1, 2, 3  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group