Квантили уровня а и б. Интервальные оценки. Теорвер

DFooz · 06.12.2008, 23:18

Коэффициент доверия = 1-а-б

Как я понял, почти всегда для всех распределений берут а и б равными. Если да, то почему? Просто проще выкладки? Если нет, то где можно почитать, о том как их лучше брать?

ewert · 07.12.2008, 14:24

Вопрос -- совершенно непонятен, поэтому отвечу так.

Доверительный интервал -- это интервал, в который интересующая нас величина попадает с заданной (доверительной) вероятностью $p$ .

Доверительные интервалы бывают односторонними ( $(-\infty;\;b)$ или $(a;\;+\infty)$ ) и двусторонними ( $(a;\;b)$ ).

Односторонние интервалы определяются доверительной вероятностью $p$ однозначно, двусторонние -- естественно, нет. Поэтому встаёт вопрос, какой вариант предпочесть. Естественно использовать какие-либо соображения симметрии.

Время от времени (скажем, в известной книжке Гмурмана) под симметричным двусторонним интервалом понимается интервал вида $(m-d;\;m+d$ ), где $m$ -- точечная оценка величины. Но для асимметричных распределений это довольно неестественно, а если величина, скажем, по определению положительна -- то и попросту бессмысленно.

Поэтому обычно под симметричностью понимают одинаковость вероятностей выхода за пределы интервала как вправо, так и влево:

$P(\{X>b\})=P(\{X<a\})={1-p\over2}$ .

GAA · 07.12.2008, 14:30

DFooz писал(а):

Коэффициент доверия = 1-а-б
Как я понял, почти всегда для всех распределений берут а и б равными. Если да, то почему? Просто проще выкладки? Если нет, то где можно почитать, о том как их лучше брать?

Да, в основном ради простоты. Но в некоторых случаях оказывается, что такой выбор в некотором смысле оптимален. Примером может служить построение доверительного интервала для математического ожидания нормально распределенной случайной величины: интервал с одинаковыми a и b оказывается несмещенным. Обоснование и точные формулировки можно посмотреть в книге [1]. Но доверительный интервал для дисперсии нормально распределенной случайной величины (при неизвестном ожидании)
$\frac{(n-1)S_0^2}{C_2} < \sigma^2 < \frac{(n-1)S_0^2}{C_1}}$ , $C_1 = K_{n-1}^{-1}(\epsilon/2)$ , $C_2 = K_{n-1}^{-1}(1 - \epsilon/2)$
не будет несмещенным [2, 3]. Здесь $K_{n-1}$ — функция распределения $\chi^2$ c $n-1$ степенью свободы, $S_0^2 = \frac{1}{n-1}\sum\limits_{i=1}^n (X_i-\bar{X})^2$ , $n$ — объем выборки, [Вставлено]«коэффициент доверия» обозначен через $1-\epsilon$ , как это принято, например, в НГУ; т.е. в Ваших обозначениях $a=b=\epsilon/2$ [/вставлено]. Тоже самое можно сказать и о доверительном интервале для дисперсии нормально распределенной случайной величины для случая, когда ожидание известно: выбор $C_1 = K_{n}^{-1}(\epsilon/2)$ , $C_2 = K_{n}^{-1}(1 - \epsilon/2)$ не делает интервал несмещенным.

[1] Боровков A.А. Математическая статистика. Оценка параметров, проверка гипотез, 1984. Книгу также можно свободно скачать с сайта Теория вероятностей, математическая статистика и их приложения.
[2] Кендалл М. Стьюарт А. Статистические выводы и связи, 1973. Обратите особое внимание на то, что терминология этой книги существенно устарела. Это может привести к неверному пониманию некоторых утверждений. Более того, книга содержит ошибки, массу недоразумений и тьму опечаток. Все это — несмотря на исправления редакторами перевода.
[3] Леман Э. Проверка статистических гипотез. — М.: Наука, 1979. Гл 3 Несмещенность: теория, первые приминения, §2 Однопараметрические экспоненциальные семейства, Пример 2.

Добавлено спустя 4 минуты 35 секунд:

И присоединяюсь к замечанию ewert — вопрос сформулирован непонятно. Пишите в развернутой форме, описывая все величины и указывая используемую литературу.

Утром 08.12.08 в описании величин, входящих в выражение для доверительного интервала, исправлена опечатка: $S_0=\ldots$ заменено на $S_0^2=\ldots$ .

Mikhail Sokolov · 07.12.2008, 19:16

В простейшем случае нам надо решить оптимизационную задачу:
$b-a \to \min$ при условии $F(b)-F(a)=1-\alpha$ ,
где $a<b$ - искомые границы доверительного интервала, $F$ - функция распределения соответствующей случайной величины, $1-\alpha$ - заданный уровень значимости.
Очевидно, если рассматриваемое распределение унимодально, симметрично относительно моды $=$ медианы $=$ матожидания $=m$ и у него имеется плотность (как, например, у нормального распределения или распределения Стьюдента), то искомый интервал $(a,b)$ симметричен относительно точки $m$ .

GAA · 07.12.2008, 19:34

Mikhail Sokolov писал(а):

Очевидно, если рассматриваемое распределение унимодально, симметрично относительно моды $=$ медианы $=$ матожидания $=m$ и у него имеется плотность (как, например, у нормального распределения или распределения Стьюдента), то искомый интервал $(a,b)$ симметричен относительно точки $m$ .

Что Вы называете рассматриваемым распределением?

Mikhail Sokolov · 07.12.2008, 22:38

Я, конечно, могу только догадываться, о чем именно спрашивал DFooz. Но, возможно, имелось ввиду всего лишь построение доверительного интервала для случайной величины с известным законом распределения. В предыдущем сообщении этот закон распределения я назвал "рассматриваемым".

GAA · 07.12.2008, 23:08

Доверительный интервал в смысле Неймана—Пирсона (а именно о таких доверительных интервалах говорят, когда не уточняют о каких доверительных интервалах идет речь) строится не для случайной величины, а для параметрической функции (возможно векторной), в частности для параметра (возможно векторного). Вы утверждаете, что если случайная величина $X$ , например, нормально распределенная случайная величина, имеет симметричное распределение, то доверительный интервал, имеющий минимальное математическое ожидание длины, будет симметричен относительно математического ожидания = моде = медиане? Но это утверждение уже невозможно интерпретировать, рассматривая доверительный интервал для дисперсии нормальной случайной величины. Уточните, пожалуйста, о каком распределении идет речь в утверждении: «Очевидно, если рассматриваемое распределение унимодально, симметрично...».

К слову, из того, что создатель темы «коэффициентом доверия» называл величину $1-a-b$ очевидно, что $a$ и $b$ нельзя интерпретировать, как концы доверительного интервала.

Добавлено на следующий день утром

Пусть требуется построить доверительный интервал для скалярного параметра или скалярной параметрической функции $\theta$ , т.е. случайный интервал $(\theta^-(X), \theta^+(X))$ накрывающий (неизвестное) значение параметра с заданной вероятностью
$\mathsf{P}_\theta \,\{\theta \in (\theta^-(X), \theta^+(X))\} = 1 - \epsilon$ .
Обозначим центральную статистику (по-другому — pivot quantity, pivot) через $G(X, \theta)$
$\mathsf{P}_\theta \, (g_1 < G(X, \theta) < g_2) = 1 - \epsilon$ .
До тех пор пока создатель темы не уточнил обозначения, во избежание дальнейших разночтений, предлагаю считать:
$a = \mathsf{P}_\theta \,\{G(X, \theta) < g_1\}$ , $b= \mathsf{P}_\theta \, \{G(X, \theta) > g_2\}$ ,
т.е. $a$ — это то, что часто обозначают через $\epsilon_1$ или $\alpha_1$ , а $b$ — это то, что часто обозначают через $\epsilon_2$ или $\alpha_2$ ; $\epsilon_1 + \epsilon_2 = \epsilon$ , аналогично для $\alpha$ .
________________________
Центральная статистика, конечно, не является статистикой. Термин, на мой взгляд, неудачный, используется, например, в [4, c.82], но другого русскоязычного термина я не знаю. Например, Н.И. Чернова [лекции 2006г. и ранее] или А.А. Боровков [1] вообще никак $G(X, \theta)$ не называют.

[4] Ивченко Г. И., Медведев Ю. И. Математическая статистика. — М.: Высш. шк., 1984. Книгу можно свободно скачать с уже упоминавшегося выше сайта.

Mikhail Sokolov · 08.12.2008, 15:15

Да, вы правы, термины "доверительный интервал" и "доверительное оценивание" в той простой задаче, о которой я говорил, неуместны.
Применительно к подходу Неймана, который вы привели, имелось ввиду всего лишь следующее: если для любых фиксированных $\epsilon_1+ \epsilon_2 =\epsilon$ вероятность $\mathsf{P}_\theta (g_1 <G(X,\theta) < g_2)$ не зависит от $\theta$ (то есть доверительный интервал подобен пространству выборок), то имеет смысл рассмотреть экстремальную задачу:
$g_2-g_1 \to \min$ по $g_1$ , $g_2$ , при условии $\mathsf{P}_\theta \{ G(X, \theta) < g_1\} + \mathsf{P}_\theta \{ G(X, \theta) > g_2\} = \epsilon$ .

Ясно, что если "центральная статистика" не зависит явно от $\theta$ ( $G(X,\theta)=G(X)$ ), является несмещенной оценкой параметра $\theta$ и имеет унимодальное, симметричное абсолютно непрерывное распределение, то оптимум достигается при $\epsilon_1= \epsilon_2 = \epsilon / 2$ , а соответствующий доверительный интервал симметричен относительно $G(X)$ .

GAA · 14.12.2008, 18:12

К слову, помимо [4] термин центральная статистика используется, например, в переводе книги Кокса и Хинкли [5]. См. гл.7 Интервальное оценивание. В частности, на с. 237

Цитата:

Пример 7.3 Центральные величины. Иногда удобно выводить доверительные границы из распределения центральной случайной величины [В оригинале употреблен термин “pivot”. Далее будем называть ее также центральной статистикой. — Прим. перев.]. Последняя определяется как функция данных и параметра, имеющая одно и то же фиксированное распределение для всех значений параметра.

Отмечу, распределение центральной статистики не зависит от параметра, для которого строится доверительный интервал. И центральная статистика явно зависит от параметра, для которого строится доверительный интервал. Однако, даже, если доверительный интервал для $\theta$ строится при помощи несмещенной оценки этого параметра, то 1) симметрии исходного распределения относительно «моды = медиане = м.о.», 2) симметрии оценки относительно «моды = медиане = м.о.» 3) несмещенности оценки, 4) унимодальности и абсолютной непрерывности всех распределений недостаточно для оптимальности в смысле Михаила Соколова.
Действительно, рассмотрим часто приводимый пример

Ред. [2] на с. 145 писал(а):

... из симметрии выборочной статистики не следует, что доверительные границы будут равноотстоящими от неё. Пусть, например, оценивается параметр $\theta$ в нормальном распределении со средним $\theta$ и дисперсией $\theta^2$ . Тогда, пользуясь тем, что $z=(\bar x - \theta)/(\theta/\sqrt{n})$ имеет нормальное (0,1) распределение, получим для $\theta$ доверительные границы вида $\bar x/(1\pm d/\sqrt{n})$ , не равноотстоящие от $\bar x$ .

Все распределения: исходное, $\bar x$ , $z$ — это нормальные распределения, которые удовлетворяют всем указанным Mikhail Sokolov требованиям. Однако, ожидание математической длины интервала не будет минимальным, если брать $d = \Phi^{-1}(1-\epsilon/2)$ .

ref
[5] Кокс Д., Хинкли Л. Теоретическая статистика. — М.: Мир, 1978.

P.S. Приведенный пример приводится в качестве упражнения 2.115 (с.74) в книге Ивченко Г.И., Медведев Ю.И., Чистяков А.В. Сборник задач по математической статистике. — М.: Высш.шк., 1989; или упражнения 44 [4, с. 100], или упражнения 49 (c. 133) во втором издании книги Ивченко Г.И., Медведев Ю.И. (1992 г.).

DFooz · 22.12.2008, 01:04

всем спасибо. Кое в чём разобрался.

Научный форум dxdy

Квантили уровня а и б. Интервальные оценки. Теорвер