Ну если хотите 20000 "значений" (боюсь употреблять слово статистика), то надо сгенерировать 40000 с.в., разбить их на пары и т.д. Главное, что каждая сгенерированная с.в. используется не более одного раза.
Собственно, и в этом случае не всё хорошо. В каждой паре два равных по абсолютной величине, но с разным знаком значения.
Я вижу тут две осмысленные постановки моделирования.
1. Просто проверить, достаточны ли наши величины, чтобы принимать их за нормальные. То есть генерируется несколько тысяч пуассоновских величин с заданным
, скажем, и прогоняются сквозь тест нормальности. Затем, если проходит, успокаиваемся, пользуясь нормальной аппроксимацией.
2. Полный тест методики. Делаем ровно то, что предполагается делать по схеме эксперимента.
а. Оценка доверительного интервала, исходя из пар наблюдений. Рассчитываем пару величин, оцениваем среднее и дисперсию для пары, строим доверительный интервал и смотрим, попало ли в него истинное значение.
ВтираемПовторяем до полного удовлетворения. Для правильного (пусть, для определённости, 95%) интервала после тысячи испытаний будет около 50 значений вне интервала и 950 внутри. Если вне меньше - то интервал слишком широк, если больше - слишком узок.
б. Оценка доверительного интервала, исходя из пуассоновского распределения. Генерируем единичные (ну, или, для сопоставимости с предыдущим, пары, и берём среднее), в качестве оценки дисперсии используем полученное значение числа успехов, строим доверительный интервал и также по серии опытов проверяем, насколько интервал адекватен, соответствует ли число выпаданий истинного значения за границы интервала выбранной доверительной вероятности.
И смотрим, что лучше. Да, можно и среднюю величину интервала посчитать, особого статистического смысла не видится, но для аргументации выбора метода интервального оценивания будет полезно.
А что Вы делали.
У Вас получилось 100 подвыборок пар значений, причём совпадающих с точностью до сдвига. Это уже даст коррелированность. Одна подвыборка составлена из пар значений, из которых вычтено среднее для пары. В ней значения в парах антикоррелированы (зачем умные слова - просто совпадают с точностью до перемены знака). Поскольку на эту выборку приходится 1%, как бы ни было интересно её поведение, определяться, полагаю, будет остальными 99%. А там у Вас будет разность (положим, что у нас нормальная аппроксимация удовлетворительна) нормально распределённой величины и другой нормально распределённой величины с половинной дисперсией в числителе (то есть эта разница будет иметь не единичную, а полуторную дисперсию), а в знаменателе корень из нормально распределённой величины с матожиданием, равным этой дисперсии (но поскольку она случайна, у нас получится не то, что если бы мы делили на СКО, не нормальная величина с нулевым МО и дисперсией полтора, а величина с иным распределением, Стьюдента или приближением к нему). То есть у нас уже две причины, чтобы не
. А третий фактор эта самая коррелированность, из-за которой у Вас формально 20000 наблюдений, а фактически 200.
(Оффтоп)
Теоретически у нас 111 миллионов, а фактически две... эээ... леди и старый... эээ... Эраст.