2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Если при статистическом оценивании частота события = 1?
Сообщение28.08.2008, 12:47 
Аватара пользователя


20/11/05
19
Москва
Пусть случайная величина принимает значения 1 и 0. Задача оценить вероятность значения "1" по выборке большого объема. Для этого можно воспользоваться, например, критерием Пирсона, чтобы построить доверительный интервал...

Однако вопрос - а будет ли такая оценка справедливой, если в выборке частота события равна 1?

 Профиль  
                  
 
 Re: Если при статистическом оценивании частота события = 1?
Сообщение28.08.2008, 13:27 
Аватара пользователя


02/04/08
742
Римский писал(а):
Пусть случайная величина принимает значения 1 и 0. Задача оценить вероятность значения "1" по выборке большого объема. Для этого можно воспользоваться, например, критерием Пирсона, чтобы построить доверительный интервал...

Однако вопрос - а будет ли такая оценка справедливой, если в выборке частота события равна 1?

ну там же есть наука под названием "теория проверки гипотез"

 Профиль  
                  
 
 
Сообщение28.08.2008, 13:28 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Римский писал(а):
Однако вопрос - а будет ли такая оценка справедливой, если в выборке частота события равна 1?


Вообще-то нет, так как критерий Пирсона требует, чтобы каждое событие произошло хотя бы несколько раз.

Но данный вырожденный случай нетрудно исследовать вручную. Если $p$ - предполагаемая вероятность значения "1", а $N$ - количество испытаний, то вероятность того, что данное значение выпадет во всех испытаниях, равно $p^N$. Задавшись уровнем значимости $\alpha$, можно найти минимальное значение $p_0$, при котором данная вероятность будет не меньше чем $1-\alpha$. Это значение $p_0$ и будет нижним концом доверительного интервала; верхним концом, очевидно, будет 1.

 Профиль  
                  
 
 
Сообщение28.08.2008, 13:44 


13/06/06
51
Если заменить
"случайная величина принимает значения 1 и 0"
на "случайное событие принимает значения сущ. и несущ.".
(но думаю тут это неважно)
То ваш доверительный интервал находится с помощью обратной функции биномиального распределения.
http://algolist.manual.ru/maths/matstat ... /index.php

Независимо от размера выборки и независимо от количества встреч значений.

 Профиль  
                  
 
 
Сообщение07.09.2008, 23:13 
Аватара пользователя


20/11/05
19
Москва
PAV писал(а):
Но данный вырожденный случай нетрудно исследовать вручную. Если $p$ - предполагаемая вероятность значения "1", а $N$ - количество испытаний, то вероятность того, что данное значение выпадет во всех испытаниях, равно $p^N$. Задавшись уровнем значимости $\alpha$, можно найти минимальное значение $p_0$, при котором данная вероятность будет не меньше чем $1-\alpha$. Это значение $p_0$ и будет нижним концом доверительного интервала; верхним концом, очевидно, будет 1.


Спасибо за ответ! Как я понимаю, при таком подходе - \alpha есть вероятность отвергнуть нулевую гипотезу (p\in(p_0,1)), но как оценить вероятность ошибки второго рода?

Я беру результаты эксперимента, где в каждой серии объемом (N) наблюдаю реакцию (условно), с какой вероятностью я могу утверждать, что вероятность возникновения реакции в интервале (p_0,1)?

Спасибо.

 Профиль  
                  
 
 
Сообщение08.09.2008, 14:46 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
В задаче доверительной оценки параметров нет понятия ошибки второго рода. Строится доверительный интервал, который с заданной вероятностью накрывает неизвестное истинное значение параметра. В моих обозначениях эта вероятность больше или равна $1-\alpha$. Вероятность ошибки не превышает $\alpha$.

 Профиль  
                  
 
 
Сообщение09.09.2008, 21:05 
Аватара пользователя


20/11/05
19
Москва
PAV писал(а):
В задаче доверительной оценки параметров нет понятия ошибки второго рода. Строится доверительный интервал, который с заданной вероятностью накрывает неизвестное истинное значение параметра. В моих обозначениях эта вероятность больше или равна $1-\alpha$. Вероятность ошибки не превышает $\alpha$.


Спасибо за ответ!
Но все-таки - тогда получается, что чем меньше интервал $(p_0,1)$ тем меньше вероятность ошибки! Ведь: $p_0=(1-\alpha)^{1/N}$

Или я что-то недопонимаю..
Спасибо.

 Профиль  
                  
 
 
Сообщение10.09.2008, 09:43 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Вы правы, а я ошибся. Нижний конец интервала в данном случае будет определяться из уравнения $p_0=\alpha^{1/N}$. Потому что интервал должен быть таким, чтобы при всех значениях $p$, не попадающих в него, вероятность получить наблюденное нами событие ($N$ успехов в $N$ испытаниях) была бы меньше $\alpha$.

 Профиль  
                  
 
 
Сообщение10.09.2008, 11:05 
Аватара пользователя


20/11/05
19
Москва
PAV писал(а):
Вы правы, а я ошибся. Нижний конец интервала в данном случае будет определяться из уравнения $p_0=\alpha^{1/N}$. Потому что интервал должен быть таким, чтобы при всех значениях $p$, не попадающих в него, вероятность получить наблюденное нами событие ($N$ успехов в $N$ испытаниях) была бы меньше $\alpha$.


Спасибо!
теперь понятно.

 Профиль  
                  
 
 
Сообщение10.09.2008, 11:39 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Я хочу еще обратить внимание на такую важную деталь.

Неправильно выбирать способ построения доверительного интервала в зависимости от того, что получилось в опыте. Он должен быть выбран заранее (хотя может зависеть от имеющейся у нас априорной информации).

Если мы заранее знаем, что оцениваемая вероятность близка к 1, то мы можем заранее решить, что будем искать доверительный интервал в виде $[p_0,1]$, т.е. не будем оценивать вероятность сверху. Тогда решение в случае всех успехов именно такое, как написано.

Но если мы этого не знаем и априори собираемся строить двусторонний интервал вида $[p_0,p_1]$, то даже в случае выпадения всех успехов верхняя граница будет также равна 1, однако нижняя будет определяться из уравнения $p_0=(\alpha/2)^{1/N}$ и будет немного меньше, чем в первом случае (хотя чем больше $N$, те меньше будет отличие).

Если выбирать способ построения интервала в зависимости от выпавшего исхода, то строго говоря вероятность ошибки может оказаться больше заявленной.

 Профиль  
                  
 
 
Сообщение10.09.2008, 16:34 
Заслуженный участник
Аватара пользователя


28/09/06
10855
А давайте я расскажу Вам, как такие задачи решаются с помощью Байесовского оценивания.

Для начала оговорим все априорные предположения. Итак, предполагается, что испытания в серии независимы и вероятность выпадения единицы имеет некую фиксированную величину $p$. Получается, что $p$ это просто некий неизвестный параметр, который мы хотим оценить (забудем о том, что это "вероятность"). Однако для вероятности выпадения единицы мы можем смело записать:
$P(1|p) = p$
Здесь вероятность умышленно обозначена большой буквой, чтобы "не путать" её с искомым параметром $p$. Соответственно:
$P(0|p) = 1-p$

Для полноты определения задачи не хватает только априорного распределения параметра $p$:
$F(x)=P(p<x)$
Но мы не слишком сильно погрешим против истины, если примем, что этот параметр априорно распределён равномерно по отрезку от 0 до 1. Или в терминах плотности вероятности:
$f(p)=1$

Вот и все априорные предположения. Поскольку испытания в серии независимы, вероятность выпадения $m$ единиц в $n$ испытаниях запишется как:
$P(m/n|p) = p^m*(1-p)^{n-m}$
что является не новым результатом для тех, кто знаком с биномиальным распределением.

Дело остаётся за малым: собственно за применением формулы Байеса, которая в данном случае сводится к тому, что для получения апостериорной плотности вероятности $f(p|m/n)$ произведение $P(m/n|p)*f(p)$ остаётся пронормировать по параметру $p$.

Вот, собственно, и всё. Далее - что хотите: Хотите для величины $p$ точечную оценку по максимуму плотности вероятности - получите $m/n$. Хотите точечную оценку по средне-вероятному значению - получите $(m+1)/(n+2)$. Хотите интервальную оценку - выбирайте любой угодный Вам доверительный интервал и считайте.

Для случая, когда $m=n$, имеем $f(p|n/n)=p^n*(n+1)$. Вероятность того, что $p$ отклонится от единицы более чем на $a$, нетрудно подсчитать, проинтегрировав эту функцию от $0$ до $1-a$ (и получится $(1-a)^{n+1}$). Вот и будет Вам интервальная оценка такая-то с достоверностью такой-то.

 Профиль  
                  
 
 
Сообщение10.09.2008, 20:27 
Заслуженный участник
Аватара пользователя


28/09/06
10855
Кстати, любопытный вывод отсюда заключается в том, что достоверность интервальной оценки "вероятность превосходит $n/(n+2)$" в очень широком диапазоне количеств испытаний $n$ (от нескольких штук, до многих миллионов) составляет примерно 86-87%, т.е. не так уж мало. А достоверность интервальной оценки "вероятность превосходит $n/(n+5)$" при количествах испытаний больше двух десятков превосходит 99%. Так что если понимать под "достоверностью гипотезы" величину, обратную к вероятности ошибки, то оная величина где-то примерно пропорциональна количеству независимых подтверждений гипотезы. Что, в общем-то вполне соответствует здравому смыслу.

Однако не нужно отсюда делать глобальных методологических выводов в пользу "чистого эмпиризма". Дело в том, что стоит нам ошибиться где-то в исходных априорных предположениях, как вся эта красивая схема перестаёт работать. Можно получить хоть миллион казалось бы независимых экспериментальных подтверждений гипотезы, несостоятельной в силу внутренних логических причин, и всё равно такая гипотеза должна быть отвергнута (а методика проведения экспериментов, которые приводили к таким результатам, пересмотрена).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 12 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group