Насколько я понял, Вы раскладываете числа по ячейкам с одинаковой вероятностью, а потом сравниваете это с теоретическими частотами и находите значение критерия. Как то это опять всё косвенно и сомнительно.
Да. Именно так. Максимально приближенно к реальной процедуре анализа.
о преимуществах равноинтервальной группировки. Проблем с ней, как выясняется намного больше, запрограммировать её труднее, да и алгоритм получается медленнее. Может этих преимуществ, кроме сугубо эстетических, и нет вовсе?
Проблем вообще не вижу, программа мне представляется проще, чем Ваша (разумеется, это субъективно), раскидывание по ячейкам линейная сложность, тогда как сортировка в лучшем случае
, а то и квадратична, так что и со скоростью не вижу преимуществ. Но, разумеется, вопрос в том, насколько можно верить результатам. Хи-квадрат - можно. А "равносоставленному"?
У нас появляется вместо одной случайной величины, числа попаданий в ячейку, другая, ширина интервала. И она оказывается в знаменателе. Полагая, что матожидание
её в точности равно
, получаем, что отдельное слагаемое будет
, где эпсилон - случайное отклонение ширины интервала от его матожидания. Разлагая в ряд геометрической прогрессии, видим, что у нас появляются члены с эпсилон в возрастающих степенях, и они делают распределение ненормальным, а сумму этих слагаемых - распределённой не
. Однако с ростом N дисперсия
падает, и распределение приближается к искомому. Надо признаться, что и для стандартного
-критерия сходимость наступает не сразу, а при достаточно большом числе наблюдений в ячейке (отмечу, что "честное объединение" это когда объединяются ячейки с малым числом
ожидаемых попаданий, объединение с малым числом фактических это халтура, но иногда "допустимая", если иначе не выходит). И для сравнения критериев надо оценить,как меняются их свойства при росте выборки.
Для этого было проведено моделирование двух этих процедур при разном числе наблюдений в выборке, от 50 до 1000 с шагом 50 (ячеек 10 по-прежнему, так что в ячейке от 5 до 100 в среднем наблюдений). Рассчитывались (по 100000 реализаций) матожидание критерия, асимметрия и эксцесс, а также число отвержений на 1% и 5% уровня.
Синим - теоретическое значение, красным - обычный хи-квадрат, зелёным - "равносоставленный" (кроме второго графика, извините, лень переделывать... Там красным "равносоставленный", зелёным стандартный)
Сверху вниз - матожидания критериев, асимметрия, эксцесс, число ошибочных отвержений (из 100000 реализаций) на 5% и 1% уровнях.
Очевидно, предлагаемый критерий во всех случаях хуже, однако по мере увеличения объёма выборки постепенно приближается к характеристикам, достигаемым стандартным хи-квадрат уже при объёме выборки настолько малом, что "установленный минимум" достигает менее чем в половине ячеек. Даже при 100 наблюдениях в ячейке процент ложных срабатываний заметно выше, чем у обычного критерия. Можно ожидать, что сравняются они (вернее сказать, "новый" станет немногим хуже "старого") при тысячах или даже десятках тысяч наблюдений на ячейку, но если выборка столь велика - исследователь может пожелать разбить данные на ячейки дробнее, так что среднее число в ячейке вновь упадёт.
Таким образом, вывод "чистой теории" о том, что данное усовершенствование не работоспособно, подтверждается экспериментом.