Асимптотические доверительные интервалы. Вопрос обоснования.

_hum_ · 11.10.2018, 18:00

Есть выборка не из нормального распределения, и к ней пытаются применить формулу построения доверительного интервала типа такой wiki для матожидания при неизвестной дисперсии (апеллируя к ее асимптотической независимости от предположения о нормальности исходного распределения). Вопрос: если выборка не относится к слишком большой, как обосновать адекватность применения этой формулы?

На ум приходит что-то из разряда: поскольку используется аппроксимация распределения основной статистики распределением Стьюдента, то надо как-то оценить ошибку такой аппроксимации. В качестве естественной оценки такой ошибки в данном случае просится Total variation distance. Но найти подобного подхода мне пока не удалось, потому буду благодарен за любую информацию по этому поводу. Спасибо.
____________
// Предварительное обсуждение темы отделено в «Чулан». / GAA

--mS-- · 12.10.2018, 02:41

_hum_ в сообщении #1345531 писал(а):

На ум приходит что-то из разряда: поскольку используется аппроксимация распределения основной статистики распределением Стьюдента, то надо как-то оценить ошибку такой аппроксимации. В качестве естественной оценки такой ошибки в данном случае просится Total variation distance. Но найти подобного подхода мне пока не удалось, потому буду благодарен за любую информацию по этому поводу. Спасибо.

Бенткус, Гётце 1996: Неравенство Берри - Эссеена для стьюдентизированной статистики https://projecteuclid.org/download/pdf_ ... 1042644728
Пинелис 2012: https://arxiv.org/pdf/1101.3286.pdf
В последней статье константы выписаны в явном виде. Разумеется, оценка близости распределения автонормированной суммы к нормальному нуждается в знании старших моментов распределения. Но от этого и в неравенстве Берри - Эссеена в ЦПТ никуда не деться, однако же ЦПТ применяют.

_hum_ · 15.10.2018, 19:23

--mS--
Спасибо. Но при невозможности что-то сказать относительно участвующих в оценке моментов, это, кажется, мало чем может помочь обоснованию.
Я думал, есть какой-нибудь подход наподобие: пусть $\mathcal{E}_{n}$ - эмпирическое распределение статистики Стьюдента $T_n$ , $\mathcal{T}$ - некоторое распределение Стьюдента и некоторое $\varepsilon > 0$ , такие, что выполняется $d_\infty(\mathcal{E}_{n},\mathcal{T}) < \varepsilon$ (здесь $d_\infty$ - равномерная метрика). Тогда для любого интервала $I$
$\mathbf{P}(T_n \in I) = \mathbf{P}\big(T_n \in I \,\big| \,d_\infty(\mathcal{E}_{n},\mathcal{T}) < \varepsilon\big)\mathbf{P}\big(d_\infty(\mathcal{E}_{n},\mathcal{T})< \varepsilon\big).$
Первый множитель с точностью до $\varepsilon$ будет совпадать с оценкой доверительной вероятности для случая распределенной по Стьюденту статистики, второй же, кажется, можно попытаться оценить через какой-нибудь результат наподобие Chernoff-Hoeffding Theorem, дающий оценку вероятности уклонения эмпирического распределения от любого другого через дивергенцию Кульбака-Лейблера $D_{K-L}$ .

Тогда бы процедура обоснования сводилась бы к:
1) поиску $\mathcal{T}^0$ , минимизирующего $D_{K-L}(\mathcal{E}_{n},\mathcal{T}^0)$ (по Pinsker's inequality это дает и верхнюю оценку для $d_\infty(\mathcal{E}_{n},\mathcal{T}^0)$ );
2) вычислению вероятности уклонения;
3) вычислению нижней границы доверительной вероятности с учетом полученных оценок.
Это как-то очень сильно напоминает Хи-квадрат тестирование, потому, кажется, что "истина где-то рядом".

Евгений Машеров · 23.02.2020, 14:51

(шипение ползучего эмпирика :wink:

)
В реальной задаче мы можем оценить моменты и даже руководствоватся полученной оценкой, но не гарантировать, что мы действительно имеет оценку сверху для моментов. Всегда может оказаться, что с очень малой вероятностью величина принимает весьма большое значение, так что момент определённого порядка окажется больше любой заданной величины. А так как вероятность мала - то в полученную нами выборку этот гигантский выброс не попадёт. И отсутствие слишком больших моментов приходится постулировать.
Но здесь спасает то, что очень большие значения, пусть и допустимые по виду распределения, неограниченного слева или справа, будут рассматриваться исследователем, как ошибки измерения. Или вообще не будут зафиксированы прибором. Скажем, есть вполне физичная величина с распределением Коши - координата "зайчика" от зеркальца гальванометра. Но хотя у этой величины моментов вообще нет, слишком далеко ушедший "зайчик" попросту не увидится. Поэтому все реально доступные величины заключены в некоторый интервал, и если ещё предположить унимодальность распределения, то моменты чётного порядка будут не более моментов равномерного указанной ширины.

Научный форум dxdy

Асимптотические доверительные интервалы. Вопрос обоснования.