И тем не менее, мой вопрос остался без ответа. Что мешает использовать Хи квадрат при равнонаполненной группировке?
Кстати, проблема нулевых/очень малых частот в этом случае решается сама собой. Ну, а объединение соседних ячеек - это ни что иное, как переход к неравномерным интервалам.
т.е. Вы намекаете, что Хи-квадрат к равно наполненной гистограмме вообще непригодна?
где вообще такое сказано, что границы интервалов не должны зависеть от распределения? ведь их положение до определённой степени произвольно и при равно интервальной группировке
Оптимально делать равновероятную группировку по теоретическому распределению. Но, так как его параметры неизвестны, можно использовать равно наполненные интервалы. При справедливости нуль-гипотезы, такая группировка будет очень близка к оптимальной. К тому же почти полностью устраняется проблема нулевых частот. Так, что если уж при использовании равноинтервальной гистограммы статистика подчиняется распределению Хи квадрат, значит и в случае равнонаполненной будет то же самое.
Чувствительность критерия при этом будет максимальная, хотя мощность, возможно и пострадает. Но это решаемо. После определения Хи квадрат оптимальных параметров, можно перестроить гистограмму с их учётом. Это позволит существенно уменьшить ошибки второго рода. Можно сделать несколько итераций. В итоге гистограмма получится и не равнонаполненная, и не равноинтервальная. Зато оценки будут наилучшими.
Если количество интервалов будет небольшим, то эта погрешность окажется несущественной.
Это изложение Вашей позиции. Из этих и прочих Ваших слов я понял, что Вы не считаете распределение статистики при равнонаполненных интервалах отличным от
и, более того, полагаете не только вправе пользоваться критическими значениями для этого распределения, но и рекомендуете данных способ, как оптимальный.
Соображения, по которым это не так, высказала уважаем
ая --mS-- здесь и в иных местах дискуссии.
Границы интервалов не должны зависеть от выборки, а не от распределения. Где это сказано? В любой теореме про предельное поведение статистики любого критерия хи-квадрат. Хоть теореме Пирсона, хоть теореме Фишера: в условиях каждой из них интервалы группировки заранее фиксированы, а вся случайность из выборки сидит в частотах
, а также (для параметрической гипотезы) в подходящих оценках неизвестных параметров. Если границы интервалов начинают зависеть от выборки, утверждения этих теорем перестают быть верными.
Факт о предельном поведении статистики критерия хи-квадрат верен при неких условиях, которые в Вашей схеме нарушаются. Вам и обосновывать.
Оценивать сначала параметры а потом брать по оцененному распределению интервалы - значит получить интервалы со случайными концами и предельное распределение статистики хи-квадрат вообще непонятно какое. То же самое, если брать интервалы с одинаковым числом элементов выборки в каждом: границы интервалов начинают зависеть от выборки и предельное распределение статистики критерия хи-квадрат портится непредсказуемо.
Однако Вы изволили пропустить мимо ушей соображения человека, заведомо больше разбирающегося в ТВиМС (я, разумеется, не о себе), а на попытки указать Вам на возможные (а, как потом выяснилось, действительные) источники Ваших ошибок реагировали так, что мне захотелось сменить свой ник на тот, которым иногда пользуюсь в других Форумах. Но вместо этого я предпочёл "достать и померять", в смысле провести численный эксперимент (см. выше), из которого следовало:
0. Применение критерия хи-квадрат традиционного вида даёт правильный результат (1% ложноположительных на 1% уровне значимости, 5% на 5% уровне).
1. Применение Вашей идеи приводит к грубым ошибкам, при 1% уровне значимости отвергается 3.5%-4.5% реализаций, при том, что генерировались данные именно в соответствии с заданным распределением.
2. Поправить дело, используя критические значения данного критерия для иного числа степеней свободы, невозможно. Поскольку третий и четвёртый моменты имеют значения, существенно отличные от определяемых числом степеней свободы, оцениваемым по среднему значению. Иначе говоря, какое там распределение, в точности не назову, но точно не
Не смею надеяться, что я сколь-нибудь повлияю на Ваше поведение и Ваши манеры, но, по крайности, предупрежу многих, что данной Вашей идеей пользоваться точно не стоит, да и все прочие надобно принимать
cum grano salis.
И ещё:
Всё правильно, кстати я об этом написал, как только устранил ошибку, ещё пару дней назад:
Andrey_Kireew в сообщении #1413932
писал(а):
Нашел в чём дело, там где вычисляется sa(ii) нужно делить не на 100000 а на 1000, перепутал по ошибке объём выборки с числом реплик.
Теперь дисперсия
вычисленного посредством Mad стала меньше, чем с использованием Std. Дисперсия самого Mad так же осталась меньше, чем дисперсия Std, и различия уже не такие большие. В общем, теперь всё согласуется
значения правда не привёл, но помню было что то похожее на результаты Евгений Машеров
Однако далее в данном (#1413932) сообщении Вы пишете:
Но с реальными данными проблема никуда не делась. Определение
через Std выборки даёт лучшее соглассование данных с теоретическим законом, чем при использовании Mad.
То есть уже после исправления ошибки Вы по-прежнему полагаете более точными значения параметра распределения Лапласа, оцененные по std. На что я Вам и указываю выше. Если Вы и пришли к выводу, что прежние Ваши тезисы о превосходстве в точности среднеквадратичной оценки над САО были ложны, здесь Вы об этом упомянуть не изволили.