1) изначально (вне зависимости от выборки) задается
-карманов;
В случае сложной гипотезы мы не можем задать разбиение (по-другому, задать промежутки группировки, классы, разряды,…) до получения данных.
Ещё задолго до 70-х годов было замечено, что для распределений с ограниченным носителем при оценке определяющих носитель параметров методом максимального правдоподобия число степеней свободы не уменьшается на число оцениваемых параметров. [Некоторые сведения касающиеся этого изложены в книге Кендалл и Стьюарт «Статистические выводы и связи», 1973] Для «регулярных» распределений (к числу которых относится нормальное) при практических расчетах поступали следующим образом. Сначала по исходной выборке находили оценки параметров, затем на основе этих оценок строили интервалы, в частности, с «равной ожидаемой вероятностью классов» (обозначим число интервалов группировки через
), затем находили оценки параметров методом минимума
или им асимптотически эквивалентные, и на основании этих оценок вычисляли значение статистики. Считалось, что с ростом объёма выборки распределение статистики стремится к распределению
с числом степеней свободы
, где
— число оцениваемых параметров. В начале 70-х годов была доказана справедливость этого метода для точно сформулированных классов распределений. См.
Чибисов Д. М. Некоторые критерии типа хи-квадрат для непрерывных распределений// Теория вероятн. и ее примен., 1971, т. 16, вып. 1, с. 3–202, вариант B) находится оценка максимального правдоподобия параметра
по несгруппированной выборке;
В этом направлении разрабатывались модификации критерия
, начиная с работы K. C. Rao and D. S. Robson, “A chi-square statistics for goodness-of-fit tests within the exponential family,” Commun. Statist., 3, 1139–1153 (1974). Можно нагуглить эту статью и продолжение этой линии.
Upd. Можно ещё посмотреть диссертацию на мастера Hutchinson D. “Modern developments in chi-square goodness-of-fit testing.” (1977).
4, вариант B) если используется
, то полагаются на результат, что в этом случае распределение будет зависеть от параметра, но при этом находиться (функция распределения будет принимать значения) между хи-квадрат с
- число оцененных параметров - 1 и хи-квадрат с
- 1, а потому можно смело отвергать гипотезу на выбранном уровне значимости, если значение критерия выше (соответствующего уровню значимости) квантиля для хи-квадрат с
- 1, и смело не отвергать, если оно меньше квантиля для хи-квадрат с
- число оцененных параметров - 1, с оставшейся серой зоной между этими двумя квантилями (когда ничего нельзя сказать).
Опечатки, но мысль понятна.
Все прекрасно, кроме того, как в этом случае выбирать число карманов и их ширину?
Выбор числа интервалов зависит от рассматриваемых альтернатив. См. в Kендалл и Стьюарт пп. 30.28–30.29 и ссылки там. Выбор интервалов с равными вероятностями классов, очевидно, плодотворен при большом числе интервалов группировки. При большом числе интервалов (классов) при таком выборе уменьшается число случаев, когда статистика критерия не может быть вычислена. Более того, по моему опыту, итерационные процедуры при таком выборе интервалов в случае нормально распределения сходятся (может быть (не проверял) кроме экзотически малых объёмов выборок, но я не сталкивался).
Не совсем понял, как использовать "Таблицы асимптотически оптимального группирования при проверке гипотез о согласии с использованием критериев типа c^2 Пирсона и оценивании параметров" - каким образом по ним выбирать схему построения карманов?
По ссылке (в теме выше) приведены примеры; посмотрите
оглавление. Лучше задать более конкретный вопрос.