Евгений Машеров спасибо за разъяснение, на счёт того откуда берётся Хи квадрат просто и понятно. Здесь правда нужно подчеркнуть, что независимыми и одинаково распределёнными слагаемые статистики становятся только после вычитания теоретических частот и и нормирования, и это при условии выполнения нуль-гипотезы, т.е. когда теоретическое распределение соответствует данным. Сами по себе эмпирические частоты в разных карманах гистограммы коррелируют, это думаю очевидно всем
В случае равногруппной классификации возникает, прежде всего, практическая трудность выбора границ групп. Они могут быть выбраны в любой точке между принадлежащими соседним ячейкам соседними наблюдениями. Условное правило, разрешающее это затруднение, скажем, выбор границы точно посредине, ставит результат в зависимость от произвольного допущения. Существеннее, однако другое. У нас уже не будет сумма квадратов независимых случайных величин, и критерий неприменим
Ну, а по поводу этого, на мой взгляд, слишком категорично. В идеале да, как уже выяснили до этого, неприменим. Равно как и неприменим он для равно интервальной группировки. Во первых, положения границ в равноинтервальной гистограмме всё же зависят от выборки, хотя и всего лишь от 2-х крайних значений. Опять же аппроксимация биноминального закона нормальным имеет конечную точность. По крайней мере, формула Стерджеса, основанная на такой аппроксимации критикуется повсеместно. Я всё это к тому, что в статистике желательно избегать категоричных высказываний, в силу специфики самого предмета. Предпочтительнее судить о том, какой подход лучше, в каких случаях, и по каким причинам.
Всё это по поводу равнонаполненных гистограмм, применение которых некоторые считают уделом исключительно малограмотных студентов. Причина таких взглядов происходит из слишком однобокого подхода. Чтобы аргументированно судить о недостатках равнонаполненных гистограмм, нужно оперировать числами. Сделать это можно следующим образом: представим, что есть идеальная группировка, не зависящая от выборки, и группировка построенная по выборке. Чем они отличаются друг от друга? Понятно чем - положением границ интервалов. В гистограмме, построенной по выборке границы будут случайным образом смещены относительно "правильных" положений. А это приведёт к тому, что вычисленное значение Хи квадрат будет отличаться от истинного значения. Весь вопрос в том насколько сильно?
Ну а это можно легко оценить. Величина случайного смещение границ интервалов определяется дисперсией выборочных квантилей, в положении которых эти интервалы находятся. Есть простая формула Вальда:
где
- уровень квантиля, N - объём выборки. Есть и более точные формулы.
С помощью (1) можно оценить предельную погрешность статистики Хи квадрат, обусловленную особенностями равнонаполненной группировки.
Чтобы не держать интригу - сообщу сразу. Если количество интервалов будет небольшим, то эта погрешность окажется несущественной. Более того, оптимальное число интервалов, выбираемое из этих соображений очень хорошо согласуется с формулой Скотта, для равноинтервальной группировки. А она, как известно, предпочтительнее формулы Стерджеса, особенно для выборок больших объёмов.
Вообще то, сам вопрос выбора оптимального числа интервалов равнонаполненной гистограммы широко рассматривается в литературе. Но надо понимать, что авторы подобных исследований являются малограмотными студентами, либо - ничем от них не отличаются.
А по поводу расхождений в численном эксперименте - я проверю, код не нужен, Вы всё описали достаточно подробно. Но мне кажется дело здесь может быть в нулевом среднем. Потом отпишусь.
-- 06.09.2019, 17:06 --Перепроверил, была ошибка в генераторе. Сделал как у Вас, для медианы Std получается 0.0316-0.0317 (почти как у Вас), но для среднего 0.0321-0.0323. Пробовал раз 5, различие в 3-йцифре, как Вы и пишете, хотя со средним не состыковка. Вообще, к медиане у меня претензий и не было.
А вот к показателям вариации - да. Std для стандартного отклонения получается 0.0442, а для среднего абсолютного отклонения 3.2269e-04. Как бы всё хорошо, но если оценивать непосредственно дисперсию параметра
, а это обратная к ним величина, то получается совсем другая картина 0.0602 и 1.6786, т.е. с Mad хуже, и намного. Пока не пойму, в чём причина.