В статистических исследованиях наиболее распространённой является проверка гипотезы нормальности распределения случайной величины. Вопросам проверки принадлежности другим типам распределений уделяется значительно меньшее внимание и он плохо освящены в литературе.
Один из примеров тому - распределение Лапласа (или двойное экспоненциальное распределение), плотность которого описывается уравнением:
В простейшем случае, для проверки нуль-гипотезы можно использовать критерий Хи-квадрат Пирсона, что требует оценки параметров теоретического распределения. Известно, что лучшие результаты достигаются при непосредственной минимизации критерия Хи-квадрат, но это слишком сложно и для такого простого критерия, на мой взгляд, неоправданно. Обычно для этих целей вполне подходят ММП - оценки параметров распределения, использование которых приводит лишь к очень небольшому отклонению статистики Хи - квадрат.
Известно, что для нормального распределения такими оценками являются математическое ожидание и стандартное отклонение.
Но какими будут Хи-квадрат оптимальные оценки
для распределения Лапласа?
В литературе указано что
является математическим ожиданием, модой и медианой этого распределения, а дисперсия определяется формулой
из которой можно найти
.
Но насколько оценка параметра масштаба, основанная на (2) будет оптимальной с точки зрения Хи- квадрат?
Численный эксперимент показывает, что использование медианы в качестве
значительно лучше использование математического ожидания, в том смысле, что это приводит к заметно меньшим значениям статистики Хи - квадрат.
По аналогии, вместо стандартного отклонения можно было бы использовать среднее абсолютное отклонение
Визуально, качество аппроксимации гистограммы с использованием (3) получается лучше, чем с использованием (2). Однако, значение Хи - квадрат в этом случае получается намного больше. Видимо, это связано с тем, что в критерии Хи квадрат наибольший вес имеют "хвосты" различия в которых визуально не так заметно, а в случае распределения Лапласа они очень большие.
Может быть, вместо Mad использовать интерквартильный интервал, или ещё какой нибудь параметр?
Можно ли при построении гистограммы "отбрасывать" выбросы, из-за которых получаются очень большие "хвосты", например ограничится 99% наблюдений?
Буду благодарен за любую информацию по данному вопросу