2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Квантили уровня а и б. Интервальные оценки. Теорвер
Сообщение06.12.2008, 23:18 
Коэффициент доверия = 1-а-б

Как я понял, почти всегда для всех распределений берут а и б равными. Если да, то почему? Просто проще выкладки? Если нет, то где можно почитать, о том как их лучше брать?

 
 
 
 
Сообщение07.12.2008, 14:24 
Вопрос -- совершенно непонятен, поэтому отвечу так.

Доверительный интервал -- это интервал, в который интересующая нас величина попадает с заданной (доверительной) вероятностью $p$.

Доверительные интервалы бывают односторонними ($(-\infty;\;b)$ или $(a;\;+\infty)$) и двусторонними ($(a;\;b)$).

Односторонние интервалы определяются доверительной вероятностью $p$ однозначно, двусторонние -- естественно, нет. Поэтому встаёт вопрос, какой вариант предпочесть. Естественно использовать какие-либо соображения симметрии.

Время от времени (скажем, в известной книжке Гмурмана) под симметричным двусторонним интервалом понимается интервал вида $(m-d;\;m+d$), где $m$ -- точечная оценка величины. Но для асимметричных распределений это довольно неестественно, а если величина, скажем, по определению положительна -- то и попросту бессмысленно.

Поэтому обычно под симметричностью понимают одинаковость вероятностей выхода за пределы интервала как вправо, так и влево:

$$P(\{X>b\})=P(\{X<a\})={1-p\over2}$$.

 
 
 
 
Сообщение07.12.2008, 14:30 
DFooz писал(а):
Коэффициент доверия = 1-а-б
Как я понял, почти всегда для всех распределений берут а и б равными. Если да, то почему? Просто проще выкладки? Если нет, то где можно почитать, о том как их лучше брать?
Да, в основном ради простоты. Но в некоторых случаях оказывается, что такой выбор в некотором смысле оптимален. Примером может служить построение доверительного интервала для математического ожидания нормально распределенной случайной величины: интервал с одинаковыми a и b оказывается несмещенным. Обоснование и точные формулировки можно посмотреть в книге [1]. Но доверительный интервал для дисперсии нормально распределенной случайной величины (при неизвестном ожидании)
$\frac{(n-1)S_0^2}{C_2} < \sigma^2 < \frac{(n-1)S_0^2}{C_1}}$, $C_1 = K_{n-1}^{-1}(\epsilon/2)$, $C_2 = K_{n-1}^{-1}(1 - \epsilon/2)$
не будет несмещенным [2, 3]. Здесь $K_{n-1}$ — функция распределения $\chi^2$ c $n-1$ степенью свободы, $S_0^2 = \frac{1}{n-1}\sum\limits_{i=1}^n (X_i-\bar{X})^2$, $n$ — объем выборки, [Вставлено]«коэффициент доверия» обозначен через $1-\epsilon$, как это принято, например, в НГУ; т.е. в Ваших обозначениях $a=b=\epsilon/2$[/вставлено]. Тоже самое можно сказать и о доверительном интервале для дисперсии нормально распределенной случайной величины для случая, когда ожидание известно: выбор $C_1 = K_{n}^{-1}(\epsilon/2)$, $C_2 = K_{n}^{-1}(1 - \epsilon/2)$ не делает интервал несмещенным.

[1] Боровков A.А. Математическая статистика. Оценка параметров, проверка гипотез, 1984. Книгу также можно свободно скачать с сайта Теория вероятностей, математическая статистика и их приложения.
[2] Кендалл М. Стьюарт А. Статистические выводы и связи, 1973. Обратите особое внимание на то, что терминология этой книги существенно устарела. Это может привести к неверному пониманию некоторых утверждений. Более того, книга содержит ошибки, массу недоразумений и тьму опечаток. Все это — несмотря на исправления редакторами перевода.
[3] Леман Э. Проверка статистических гипотез. — М.: Наука, 1979. Гл 3 Несмещенность: теория, первые приминения, §2 Однопараметрические экспоненциальные семейства, Пример 2.

Добавлено спустя 4 минуты 35 секунд:

И присоединяюсь к замечанию ewert — вопрос сформулирован непонятно. Пишите в развернутой форме, описывая все величины и указывая используемую литературу.

Утром 08.12.08 в описании величин, входящих в выражение для доверительного интервала, исправлена опечатка: $S_0=\ldots$ заменено на $S_0^2=\ldots$.

 
 
 
 
Сообщение07.12.2008, 19:16 
В простейшем случае нам надо решить оптимизационную задачу:
$b-a \to \min$ при условии $F(b)-F(a)=1-\alpha$,
где $a<b$ - искомые границы доверительного интервала, $F$ - функция распределения соответствующей случайной величины, $1-\alpha$ - заданный уровень значимости.
Очевидно, если рассматриваемое распределение унимодально, симметрично относительно моды$=$медианы$=$матожидания$=m$ и у него имеется плотность (как, например, у нормального распределения или распределения Стьюдента), то искомый интервал $(a,b)$ симметричен относительно точки $m$.

 
 
 
 
Сообщение07.12.2008, 19:34 
Mikhail Sokolov писал(а):
Очевидно, если рассматриваемое распределение унимодально, симметрично относительно моды$=$медианы$=$матожидания$=m$ и у него имеется плотность (как, например, у нормального распределения или распределения Стьюдента), то искомый интервал $(a,b)$ симметричен относительно точки $m$.
Что Вы называете рассматриваемым распределением?

 
 
 
 
Сообщение07.12.2008, 22:38 
Я, конечно, могу только догадываться, о чем именно спрашивал DFooz. Но, возможно, имелось ввиду всего лишь построение доверительного интервала для случайной величины с известным законом распределения. В предыдущем сообщении этот закон распределения я назвал "рассматриваемым".

 
 
 
 
Сообщение07.12.2008, 23:08 
Доверительный интервал в смысле Неймана—Пирсона (а именно о таких доверительных интервалах говорят, когда не уточняют о каких доверительных интервалах идет речь) строится не для случайной величины, а для параметрической функции (возможно векторной), в частности для параметра (возможно векторного). Вы утверждаете, что если случайная величина $X$, например, нормально распределенная случайная величина, имеет симметричное распределение, то доверительный интервал, имеющий минимальное математическое ожидание длины, будет симметричен относительно математического ожидания = моде = медиане? Но это утверждение уже невозможно интерпретировать, рассматривая доверительный интервал для дисперсии нормальной случайной величины. Уточните, пожалуйста, о каком распределении идет речь в утверждении: «Очевидно, если рассматриваемое распределение унимодально, симметрично...».

К слову, из того, что создатель темы «коэффициентом доверия» называл величину $1-a-b$ очевидно, что $a$ и $b$ нельзя интерпретировать, как концы доверительного интервала.

Добавлено на следующий день утром

Пусть требуется построить доверительный интервал для скалярного параметра или скалярной параметрической функции $\theta$, т.е. случайный интервал $(\theta^-(X), \theta^+(X))$ накрывающий (неизвестное) значение параметра с заданной вероятностью
$\mathsf{P}_\theta \,\{\theta \in (\theta^-(X), \theta^+(X))\} = 1 - \epsilon$.
Обозначим центральную статистику (по-другому — pivot quantity, pivot) через $G(X, \theta)$
$ \mathsf{P}_\theta \, (g_1 < G(X, \theta) < g_2) = 1 - \epsilon$.
До тех пор пока создатель темы не уточнил обозначения, во избежание дальнейших разночтений, предлагаю считать:
$a = \mathsf{P}_\theta \,\{G(X, \theta) < g_1\}$, $b= \mathsf{P}_\theta \, \{G(X, \theta) > g_2\}$,
т.е. $a$ — это то, что часто обозначают через $\epsilon_1$ или $\alpha_1$, а $b$ — это то, что часто обозначают через $\epsilon_2$ или $\alpha_2$; $\epsilon_1 + \epsilon_2 = \epsilon$, аналогично для $\alpha$.
________________________
Центральная статистика, конечно, не является статистикой. Термин, на мой взгляд, неудачный, используется, например, в [4, c.82], но другого русскоязычного термина я не знаю. Например, Н.И. Чернова [лекции 2006г. и ранее] или А.А. Боровков [1] вообще никак $G(X, \theta)$ не называют.

[4] Ивченко Г. И., Медведев Ю. И. Математическая статистика. — М.: Высш. шк., 1984. Книгу можно свободно скачать с уже упоминавшегося выше сайта.

 
 
 
 
Сообщение08.12.2008, 15:15 
Да, вы правы, термины "доверительный интервал" и "доверительное оценивание" в той простой задаче, о которой я говорил, неуместны.
Применительно к подходу Неймана, который вы привели, имелось ввиду всего лишь следующее: если для любых фиксированных $\epsilon_1+ \epsilon_2 =\epsilon$ вероятность $\mathsf{P}_\theta (g_1 <G(X,\theta) < g_2)$ не зависит от $\theta$ (то есть доверительный интервал подобен пространству выборок), то имеет смысл рассмотреть экстремальную задачу:
$g_2-g_1 \to \min$ по $g_1$, $g_2$, при условии $\mathsf{P}_\theta \{ G(X, \theta) < g_1\} + \mathsf{P}_\theta \{ G(X, \theta) > g_2\} = \epsilon$.

Ясно, что если "центральная статистика" не зависит явно от $\theta$ ($G(X,\theta)=G(X)$), является несмещенной оценкой параметра $\theta$ и имеет унимодальное, симметричное абсолютно непрерывное распределение, то оптимум достигается при $\epsilon_1= \epsilon_2 = \epsilon / 2$, а соответствующий доверительный интервал симметричен относительно $G(X)$.

 
 
 
 
Сообщение14.12.2008, 18:12 
К слову, помимо [4] термин центральная статистика используется, например, в переводе книги Кокса и Хинкли [5]. См. гл.7 Интервальное оценивание. В частности, на с. 237
Цитата:
Пример 7.3 Центральные величины. Иногда удобно выводить доверительные границы из распределения центральной случайной величины [В оригинале употреблен термин “pivot”. Далее будем называть ее также центральной статистикой. — Прим. перев.]. Последняя определяется как функция данных и параметра, имеющая одно и то же фиксированное распределение для всех значений параметра.

Отмечу, распределение центральной статистики не зависит от параметра, для которого строится доверительный интервал. И центральная статистика явно зависит от параметра, для которого строится доверительный интервал. Однако, даже, если доверительный интервал для $\theta$ строится при помощи несмещенной оценки этого параметра, то 1) симметрии исходного распределения относительно «моды = медиане = м.о.», 2) симметрии оценки относительно «моды = медиане = м.о.» 3) несмещенности оценки, 4) унимодальности и абсолютной непрерывности всех распределений недостаточно для оптимальности в смысле Михаила Соколова.
Действительно, рассмотрим часто приводимый пример
Ред. [2] на с. 145 писал(а):
... из симметрии выборочной статистики не следует, что доверительные границы будут равноотстоящими от неё. Пусть, например, оценивается параметр $\theta$ в нормальном распределении со средним $\theta$ и дисперсией $\theta^2$. Тогда, пользуясь тем, что $z=(\bar x - \theta)/(\theta/\sqrt{n})$ имеет нормальное (0,1) распределение, получим для $\theta$ доверительные границы вида $\bar x/(1\pm d/\sqrt{n})$, не равноотстоящие от $\bar x$.
Все распределения: исходное, $\bar x$, $z$ — это нормальные распределения, которые удовлетворяют всем указанным Mikhail Sokolov требованиям. Однако, ожидание математической длины интервала не будет минимальным, если брать $d = \Phi^{-1}(1-\epsilon/2)$.

ref
[5] Кокс Д., Хинкли Л. Теоретическая статистика. — М.: Мир, 1978.

P.S. Приведенный пример приводится в качестве упражнения 2.115 (с.74) в книге Ивченко Г.И., Медведев Ю.И., Чистяков А.В. Сборник задач по математической статистике. — М.: Высш.шк., 1989; или упражнения 44 [4, с. 100], или упражнения 49 (c. 133) во втором издании книги Ивченко Г.И., Медведев Ю.И. (1992 г.).

 
 
 
 
Сообщение22.12.2008, 01:04 
всем спасибо. Кое в чём разобрался.

 
 
 [ Сообщений: 10 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group