В начальном сообщении описывается "почти модификация" Durbin’а.
В [1, с. 59 (несколько строк)] отмечено: из результатов Рао вытекает что, если оценивать параметры по половине выборки, а при вычислении статистики критерия (с оценкой вместо истинного значения параметра) использовать
всю выборку, то асимптотически распределение статистики Комогорова — Смирнова будет то же, что и при проверке простой гипотезы. Этот метод получил название “half-sample”. В [2] получено, что предельное распределение статистики критерия “half-sample” метода то же, что и предложенного ранее метода “random substitution”. В [3] для случая нормального и показательного распределений методом Монте-Карло сравниваются мощности критерия использующего для оценки параметров всю выборку и специальные таблицы для критических значений (для удобства ссылки назовем его критерием Лиллиефорса, хотя на самом деле использовалась модификация Стефенса) и критерия “half-sample”. Оказывается: при малых объемах выборки (до 20; в те времена промоделировать выборки большого объёма было невозможно), крайне малом числе выборок (1000) и только одном уровне значимости, мощность критерия “half-sample” меньше мощности критерия Лиллиефорса. Этим и объясняется использование критерия Лиллиефорса несмотря на утомительное моделирование для получения таблицы критических значений. [Другой (субъективный) недостаток методов “half-sample” и “random substitution”: в случае двух проверок (для одной и той же реализации выборки, т.е. на одном и том же экспериментальном материале) в одном случае основная гипотеза может быть отвергнута, а в другом принята.]
(Ссылки на “half-sample” на русском)
[1] Durbin J. Distribution theory for tests based on sample distribution function. —
Regional Conference Series in applied Mathematics, SIAM publications No. 9, Philadelphia, 1973 (
djvu).
[2] Durbin J. Kolmogorov–Smirnov tests when parameters are estimated. //
Lecture Notes in Mathematics Vol. 566, 1976, pp 33-44.
[3] Stephens M.A. On the Half-sample Method for Goodness-of-fit. //
J. R. Statist. Soc. B (1978), 40, No.1, pp. 64-70.
P.S. Модификации критерия КС для проверки сложной гипотезы обсуждались в сообщении
«Сравнение реальных уровней значимости различных модификаций критерия Колмогорова — Смирнова для сложной гипотезы».
--==Добавлено 21.08.2013 ==--Чтобы получить представление насколько проигрывает в мощности метод “half-sample” критерию Лиллиефорса, я выполнил незамысловатое моделирование, в котором проверялась гипотеза о нормальности, а для генерации данных использовались генераторы нормального и равномерного распределения. В обоих случаях ожидание (

) полагалось равным нулю, а стандартное отклонение (

) — единице. Результатами расчетов были оценки вероятности (

)отклонить: (A) верную гипотезу, (табл.1) [для контроля возможности использования асимптотического критерия и «качества» критических значений статистики] и (B) ложную гипотезу, табл.2. Расчеты выполнялись для выборок объёмов

и

. Для каждого объёма выборки для получения

было сгенерировано 1 млн. реализаций выборки.
(Детали расчетов)
1. В качестве генератора равномерно распределённых на [0,1] случайных чисел использовался встроенный генератор Delphi. Нормально распределённые случайные числа генерировались при помощи метода полярных координат (Бокс — Мюллер — Марсалья, [Д. Кнут «Искусство программирования», T.2 Получисленные алгоритмы]).
Для каждой реализации выборки

рассчитывались значения о.м.п. параметра

:
где

равен

для критерия Лиллиефорса и

— для “half-sample”.
2. Далее, используя

в качестве значения параметра,
стандартным образом рассчитывалось значение статистики Колмогорова — Смирнова

:
2.1 Реализация выборки упорядочивалась по возрастанию:

, где

.
2.2 Вычислялись

,

,

.
Для вычисления функции нормального распределения использовался модуль из библиотеки alglib.
3. Поскольку критерий “half-sample” асимптотический, для него использовались квантили распределения Колмогорова, а в качестве статистики критерия

.
[Статистика

обоснована для случая простой гипотезы. Для асимптотического критерия “half-sample” она использовалась «по аналогии» (без всякого обоснования) в связи с тем, что при использовании в качестве статистики критерия

вероятность отклонить верную гипотезу заметно меньше уровня критерия.] Для критерия Лиллиефорса использовалась статистика

и приведенные в работе W. F. Scott a & B. Stewart (2011) критические значения (для соответствующих объёмов выборок).
Для удобства в таблице приведены критические значения для критерия Лиллиефорса и критерия Колмогорова (строка

)
Табл.1 — Оценки вероятности отвергнуть истинную гипотезу «о нормальности»

В табл. 1 и 2 в стоках «Колмогоров» приведены результаты для случая проверки простой гипотезы, т.е. параметрам функции нормального распределения присваивались значения 0 и 1 соответственно. Хорошо видно, что для всех значений

и объёмов выборки оценка вероятности отклонить верную гипотезу близка к уровню значимости. [Точные совпадения являются, конечно, элементом случайности.]
Табл.2 — Оценки вероятности отвергнуть ложную гипотезу «о нормальности»

Для всех объёмов выборки и уровней значимости оценки вероятности отклонить ложную гипотезу для критерия Лиллиефорса больше, чем для критерия “half-sample”. При уровне значимости 0.01 даже для объёма выборки 400 вероятность отклонить ложную гипотезу «о нормальности» для критерия “half-sample”, когда истинное распределение равномерное, близка к 0.5!
--==Добавлено 23.08.2013 ==--Дополнительно попробовал оценить вероятность отклонить ложную гипотезу «о нормальности», если элементы выборки имеют распределение Стьюдента. В Табл. 3 в столбце

указано число степеней свободы распределения Стьюдента. Для получения

(для каждого объема выборки и каждой степени свободы) было сгенерировано 500 тыс. реализаций выборки. [Для получения случайных чисел с распределением Стьюдента использовалась функция InvStudentTDistribution из библиотеки alglib.]
Табл. 3 — оценки вероятности отклонить ложную гипотезу «о нормальности»

И в этом случае оценки вероятностей отклонить ложную гипотезу «о нормальности» в случае применения критерия Лиллиефорса выше, чем в случае применения критерия “half-sample”.