Распределение Пуассона и нормальный закон

StaticZero · 27.02.2018, 01:42

Geen в сообщении #1294604 писал(а):

Какой случайной величины??
Посмотрите, хотя бы, https://ru.wikipedia.org/wiki/ Доверительный_интервал_для_математического_ожидания_нормальной_выборки

(Оффтоп)

Я из ума выживаю, что ли? Вопроса даже не возникло бы, заметь я, что подменяю одну величину в равенстве другой. В общем, всё, что написано в стартовом посте (и не только в нём) - чушь, и я прошу прощения, что забрал у вас время.

Отправляемся от величины $\sqrt n \dfrac{\langle X \rangle - \mu}{\sigma}$ , которая распределена стандартно, если $X$ распределена как $\mathcal N(\mu, \sigma^2)$ .

У нас $X$ — пуассоновская с. в. с параметром $\lambda \gg 1$ , которая очень похожа на $\mathcal N(\lambda, \lambda)$ . Тогда в той же степени $\sqrt{\dfrac n \lambda} (\langle X \rangle - \lambda)$ похожа на $\mathcal N(0, 1)$ . Точка.

Евгений Машеров · 27.02.2018, 08:58

Geen в сообщении #1294604 писал(а):

Ну если хотите 20000 "значений" (боюсь употреблять слово статистика), то надо сгенерировать 40000 с.в., разбить их на пары и т.д. Главное, что каждая сгенерированная с.в. используется не более одного раза.

Собственно, и в этом случае не всё хорошо. В каждой паре два равных по абсолютной величине, но с разным знаком значения.

Я вижу тут две осмысленные постановки моделирования.
1. Просто проверить, достаточны ли наши величины, чтобы принимать их за нормальные. То есть генерируется несколько тысяч пуассоновских величин с заданным $\lambda=2000$ , скажем, и прогоняются сквозь тест нормальности. Затем, если проходит, успокаиваемся, пользуясь нормальной аппроксимацией.
2. Полный тест методики. Делаем ровно то, что предполагается делать по схеме эксперимента.
а. Оценка доверительного интервала, исходя из пар наблюдений. Рассчитываем пару величин, оцениваем среднее и дисперсию для пары, строим доверительный интервал и смотрим, попало ли в него истинное значение. ВтираемПовторяем до полного удовлетворения. Для правильного (пусть, для определённости, 95%) интервала после тысячи испытаний будет около 50 значений вне интервала и 950 внутри. Если вне меньше - то интервал слишком широк, если больше - слишком узок.
б. Оценка доверительного интервала, исходя из пуассоновского распределения. Генерируем единичные (ну, или, для сопоставимости с предыдущим, пары, и берём среднее), в качестве оценки дисперсии используем полученное значение числа успехов, строим доверительный интервал и также по серии опытов проверяем, насколько интервал адекватен, соответствует ли число выпаданий истинного значения за границы интервала выбранной доверительной вероятности.
И смотрим, что лучше. Да, можно и среднюю величину интервала посчитать, особого статистического смысла не видится, но для аргументации выбора метода интервального оценивания будет полезно.

А что Вы делали.
У Вас получилось 100 подвыборок пар значений, причём совпадающих с точностью до сдвига. Это уже даст коррелированность. Одна подвыборка составлена из пар значений, из которых вычтено среднее для пары. В ней значения в парах антикоррелированы (зачем умные слова - просто совпадают с точностью до перемены знака). Поскольку на эту выборку приходится 1%, как бы ни было интересно её поведение, определяться, полагаю, будет остальными 99%. А там у Вас будет разность (положим, что у нас нормальная аппроксимация удовлетворительна) нормально распределённой величины и другой нормально распределённой величины с половинной дисперсией в числителе (то есть эта разница будет иметь не единичную, а полуторную дисперсию), а в знаменателе корень из нормально распределённой величины с матожиданием, равным этой дисперсии (но поскольку она случайна, у нас получится не то, что если бы мы делили на СКО, не нормальная величина с нулевым МО и дисперсией полтора, а величина с иным распределением, Стьюдента или приближением к нему). То есть у нас уже две причины, чтобы не $N(0,1)$ . А третий фактор эта самая коррелированность, из-за которой у Вас формально 20000 наблюдений, а фактически 200.

(Оффтоп)

Теоретически у нас 111 миллионов, а фактически две... эээ... леди и старый... эээ... Эраст.

Geen · 27.02.2018, 10:06

StaticZero в сообщении #1294615 писал(а):

Тогда в той же степени $\sqrt{\dfrac n \lambda} (\langle X \rangle - \lambda)$ похожа на $\mathcal N(0, 1)$ .

Вы только уточните где $n$ , а где $n-1$ ...

StaticZero · 27.02.2018, 11:56

Geen в сообщении #1294646 писал(а):

Вы только уточните где $n$ , а где $n-1$ ...

Без единички у Стьюдента. У Гаусса всё в порядке, вроде бы.

-- 27.02.2018, 12:41 --

Евгений Машеров в сообщении #1294632 писал(а):

Просто проверить, достаточны ли наши величины, чтобы принимать их за нормальные. То есть генерируется несколько тысяч пуассоновских величин с заданным $\lambda=2000$ , скажем, и прогоняются сквозь тест нормальности. Затем, если проходит, успокаиваемся, пользуясь нормальной аппроксимацией.

Через $\chi^2$ -тест проходит.

-- 27.02.2018, 12:45 --

Евгений Машеров в сообщении #1294632 писал(а):

Оценка доверительного интервала, исходя из пар наблюдений. Рассчитываем пару величин, оцениваем среднее и дисперсию для пары, строим доверительный интервал и смотрим, попало ли в него истинное значение. ВтираемПовторяем до полного удовлетворения. Для правильного (пусть, для определённости, 95%) интервала после тысячи испытаний будет около 50 значений вне интервала и 950 внутри. Если вне меньше - то интервал слишком широк, если больше - слишком узок.

Пусть $c_i$ --- одно из средних некоторой пары. Мы подсчитываем число $c_i$ таких, что одновременно выполняются условия $c_i + \Delta x \geqslant 2000$ и $c_i - \Delta x \leqslant 2000$ , я правильно понял? Если так, то зачем нужна дисперсия пары?

Евгений Машеров · 27.02.2018, 13:04

Ну вот Вы и ответили на оба вопроса.
1. Подтвердили, что аппроксимация нормальным вполне удовлетворительна.
2. Показали, что подход, основанный на предположении пуассоновости, рабочий.

А дисперсия пары - боюсь, что по двум точкам это оценка никакая...

StaticZero · 27.02.2018, 13:14

Попробую построить доверительный интервал для $\lambda$ в предположении нормальности.

Решим неравенство $\sqrt{ \dfrac{n}{\lambda}} \big( \langle X \rangle - \lambda \big) > z$ . Получаем $\dfrac{\langle X \rangle}{\sqrt{\lambda}} - \sqrt \lambda > \dfrac{z}{\sqrt n}$ , $\lambda + \dfrac{z \sqrt \lambda}{\sqrt n} - \langle X \rangle < 0$ .

Решение относительно $\sqrt \lambda$ такое:
$- \dfrac{z}{2 \sqrt n} - \dfrac{\sqrt{z^2 + 4 n \langle X \rangle}}{2 \sqrt n} < 0 \leqslant \sqrt \lambda \leqslant - \dfrac{z}{2 \sqrt n} + \dfrac{\sqrt{z^2 + 4 n \langle X \rangle}}{2 \sqrt n},$
$0 \leqslant \sqrt \lambda \leqslant \dfrac{\sqrt {z^2 + 4 n \langle X \rangle} - z}{2 \sqrt n}.$

Теперь получаем
$1 - F(z) = \mathbb P \left(\sqrt{ \dfrac{n}{\lambda}} \big( \langle X \rangle - \lambda \big) > z \right) = \mathbb P\left(0 \leqslant \sqrt \lambda \leqslant \dfrac{\sqrt {z^2 + 4 n \langle X \rangle} - z}{2 \sqrt n}\right),$
$1 - F(-z) = \mathbb P\left(0 \leqslant \sqrt \lambda \leqslant \dfrac{\sqrt {z^2 + 4 n \langle X \rangle} + z}{2 \sqrt n}\right),$
где $F(x)$ --- функция стандартного распределения. Учитывая, что $F(-x) = 1 - F(x)$ , находим
$F(z) = \mathbb P\left(0 \leqslant \sqrt \lambda \leqslant \dfrac{\sqrt {z^2 + 4 n \langle X \rangle} + z}{2 \sqrt n}\right).$

Событие $A$ : $0 \leqslant \sqrt \lambda \leqslant \dfrac{\sqrt {z^2 + 4 n \langle X \rangle} + z}{2 \sqrt n}$ , вероятность равна $\mathbb P(A) = F(z)$ ;
Событие $B$ : $\sqrt \lambda \geqslant \dfrac{\sqrt {z^2 + 4 n \langle X \rangle} - z}{2 \sqrt n}$ , вероятность равна $\mathbb P(B) = F(z)$ .
Событие $A \cap B$ состоит в том, что $\dfrac{\sqrt {z^2 + 4 n \langle X \rangle} - z}{2 \sqrt n} \leqslant \sqrt \lambda \leqslant \dfrac{\sqrt {z^2 + 4 n \langle X \rangle} + z}{2 \sqrt n}$ . Для него вероятность

$\mathbb P(A \cap B) = \mathbb P(A) + \mathbb P(B) - \mathbb P(A \cup B) = \mathbb P(A) + \mathbb P(B) - 1 = 2 F(z) - 1.$

Отсюда заключаем, что если $z_\frac{1+\alpha}{2}$ --- $\dfrac{1 + \alpha}{2}$ -квантиль стандартного распределения, то в нашем приближении
$\mathbb P \left( \dfrac{\sqrt {z^2_\frac{1+\alpha}{2} + 4 n \langle X \rangle} - z_\frac{1+\alpha}{2}}{2 \sqrt n} \leqslant \sqrt \lambda \leqslant \dfrac{\sqrt {z^2_\frac{1+\alpha}{2} + 4 n \langle X \rangle} + z_\frac{1+\alpha}{2}}{2 \sqrt n} \right) = \alpha.$

Всё правильно?

-- 27.02.2018, 13:15 --

Евгений Машеров в сообщении #1294678 писал(а):

А дисперсия пары - боюсь, что по двум точкам это оценка никакая...

Ну вы её просто помянули. Спасибо за ваши ответы!

Евгений Машеров · 27.02.2018, 14:11

Формально она получается, поскольку в несмещённой оценке делим на (n-1), деления на 0 нет. Равна четверти квадрата размаха. И можно подставить в выражение для интервалов. Будет не ошибка, но "ложное употребление".

Korvin · 27.02.2018, 14:27

Евгений Машеров в сообщении #1294693 писал(а):

Формально она получается, поскольку в несмещённой оценке делим на (n-1), деления на 0 нет. Равна четверти квадрата размаха. И можно подставить в выражение для интервалов. Будет не ошибка, но "ложное употребление".

А если есть обоснованные предположения об априорном распределении, то 2 измерения подкорректируются по Байесу, и не станет ли вычисленная по ним дисперсия "менее ложной" в употреблении?

StaticZero · 27.02.2018, 14:47

StaticZero в сообщении #1294681 писал(а):

$\mathbb P \left( \dfrac{\sqrt {z^2_\frac{1+\alpha}{2} + 4 n \langle X \rangle} - z_\frac{1+\alpha}{2}}{2 \sqrt n} \leqslant \sqrt \lambda \leqslant \dfrac{\sqrt {z^2_\frac{1+\alpha}{2} + 4 n \langle X \rangle} + z_\frac{1+\alpha}{2}}{2 \sqrt n} \right) = \alpha.$

И если это верно, то как я понимаю, любая разумная квантиль будет сильно меньше, чем $4 n \langle X \rangle$ . Тогда
$\dfrac{\sqrt{z^2 + 4 n \langle X \rangle} - z}{2 \sqrt n} \gtrsim \dfrac{2 \sqrt{n \langle X \rangle} - z}{2 \sqrt n} = \sqrt{\langle X \rangle} - \dfrac{z}{2 \sqrt n}$
$\dfrac{\sqrt{z^2 + 4 n \langle X \rangle} + z}{2 \sqrt n} \lesssim \dfrac{2 \sqrt{n \langle X \rangle} \left(1 + \dfrac{z^2}{8 n \langle X \rangle}\right) + z}{2 \sqrt n} = \sqrt{\langle X \rangle} + \dfrac{z}{2 \sqrt n} + \dfrac{z^2}{8 n \sqrt{\langle X \rangle}},$
то есть можно чуть раздвинуть интервал (правда не очень хорошо, что не симметрично), упростив при этом выражение.

Симметрии можно достигнуть, если корень приближать в виде $\sqrt {1 + x} \approx 1$ . Вероятности $\alpha = 99{,}999 \%$ соответствует квантиль $z \approx 4{,}4$ , и если ограничить себя набором квантилей $\leqslant 5$ , тогда ошибка при таком отбрасывании будет порядка $\mathrm O \left( n^{-1} \langle X \rangle^{-1/2} \right) = \mathrm O \left( n^{-1} \lambda ^{-1/2} \right)$ .

Дальше можно получить что-то вроде такого:
$\alpha \approx \mathbb P \left( \sqrt{\langle X \rangle} - \dfrac{z_\frac{1 + \alpha}{2}}{2 \sqrt n} < \sqrt \lambda < \sqrt{\langle X \rangle} + \dfrac{z_\frac{1 + \alpha}{2}}{2 \sqrt n} \right) = \ldots = \mathbb P \left( \left| \sqrt \lambda - \sqrt {\langle X \rangle} \right| 2 \sqrt n < z_\frac{1 + \alpha}{2}\right).$
То есть приблизительно стандартно должна быть распределена величина $2 \sqrt n ( \sqrt \lambda - \sqrt {\langle X \rangle} )$ , оценка с порядком $\mathrm O(n^{-1} \lambda^{-1/2})$ .

Осталось понять, каков же доверительный интервал для самой $\lambda$ . Возведём в квадрат неравенство (здесь индекс квантили опущен для краткости):
$\alpha \approx \mathbb P \left( \sqrt{\langle X \rangle} - \dfrac{z}{2 \sqrt n} < \sqrt \lambda < \sqrt{\langle X \rangle} + \dfrac{z}{2 \sqrt n} \right)$
$\alpha \approx \mathbb P \left( \langle X \rangle + \dfrac{z^2}{4 n} - z \sqrt{\dfrac{\langle X \rangle}{n} } < \lambda < \langle X \rangle + \dfrac{z^2}{4 n} + z \sqrt{\dfrac{\langle X \rangle}{n} } \right)$
Умножим теперь на $\sqrt{\dfrac{n}{\langle X \rangle}}$ :
$\alpha \approx \mathbb P \left( \sqrt{ n \langle X \rangle} + \dfrac{z^2}{4 \sqrt{n \langle X \rangle}} - z < \lambda \sqrt{\dfrac{n}{\langle X \rangle}} < \sqrt{ n \langle X \rangle} + \dfrac{z^2}{4 \sqrt{n \langle X \rangle}} + z\right)$
С точностью до $\mathrm O \left( (n \lambda)^{-1/2} \right)$ из предыдущего тогда можно получить такое:
$\alpha \approx \mathbb P \left( \left| \lambda \sqrt{\dfrac{n}{\langle X \rangle}} - \sqrt{n \langle X \rangle} \right| < z\right) = \mathbb P \left( \sqrt{\dfrac{n}{\langle X \rangle}} \big| \lambda - \langle X \rangle \big| < z\right).$

В этих приближениях отброшены члены вида $\mathrm O \left( (n \lambda)^{-1/2} \right)$ , $\mathrm O \left( n^{-1} \lambda ^{-1/2} \right)$ , из них самый "плохой" член $\mathrm O \left( (n \lambda)^{-1/2} \right)$ , на малой выборке $n$ выбрасываем и порядок приближения получается $\mathrm O (\lambda^{-1/2})$ .

Таким образом, если пуассоновкую с параметром $\lambda$ величину $X$ мы рассматриваем, как нормально распределённую, то с точностью до отброшенных членов порядка $\mathrm O (\lambda^{-1/2})$ на малой выборке действительно выполняется
$\alpha \approx \mathbb P \left( \sqrt{\dfrac{n}{\langle X \rangle}} \big| \lambda - \langle X \rangle \big| < z_\frac{1 + \alpha}{2}\right),$
но этого мы и хотели с самого начала. Всё, получается, доказали?..

-- 27.02.2018, 15:13 --

Ну и как показывает опыт по Евгений Машеров'у, для $\lambda = 2000$ точность удовлетворительная (значение 61 очень близко к тому, что получается из величины $z_\frac{1 + 0{,}95}{2} \sqrt{2000}/\sqrt{2}$ ).

Отброшенными слагаемыми порядка $1/\sqrt{2000} \lesssim 1/40$ вносятся возмущения в концы интервала, из-за формы стандартного распределения эти возмущения и не должны особо влиять на вероятности, поэтому есть надежда, что и при меньших $\lambda$ , например, больших 100, искажение не будет большим. Пойду проверять.

-- 27.02.2018, 15:39 --

На малых $\lambda$ хи-квадрат тесты проваливаются (перебирал 100 и 200), но доверительные интервалы почти точно соответствуют вычисленным по этой формуле.

StaticZero в сообщении #1294702 писал(а):

$\alpha \approx \mathbb P \left( \sqrt{\dfrac{n}{\langle X \rangle}} \big| \lambda - \langle X \rangle \big| < z_\frac{1 + \alpha}{2}\right),$

Научный форум dxdy

Распределение Пуассона и нормальный закон