Это откуда цитата? Какого она года?
Из Википедии, из статьи, ссылку на которую Вы дали. Год не назову, поскольку для этого нужно анализировать лог правок Вики, а мне не до этого. Но, во всяком случае, это не вызывает отторжения у авторов Вики в данный момент.
-- 13 авг 2018, 13:12 --Так а что делать с тестированием сложной гипотезы? Матожидание какого распределения выбирать для расчета матожиданий для карманов?
Биномиального, вестимо. Или, строго говоря, мультиномиального.
-- 13 авг 2018, 13:14 --Это, я так понимаю, в случае, когда карманы заранее выбраны, то есть, независимы от выборки (плюс, оценка идет по сгруппированной выборке). В случае же использования для выбора карманов оценочного распределения начинается зависимость...
-- 13 авг 2018, 13:29 --Ещё раз. G-тест и
-тест устроены совершенно одинаково, отличаясь только расчётной формулой. И там, и там предполагается разбивка на ячейки, нахождение ожидаемого числа в ячейках, определение фактического числа попаданий и вычисление некоей меры расхождения ожидаемых и фактических величин. Поскольку, в отличие от дискретного случая, когда ячейки определены вполне однозначно, при дискретизации непрерывных величин может иметь место произвол, это может исказить результат. Практика, однако, показывает, что выбор разного числа интервалов (при соблюдении рекомендуемого минимума в ячейках) и сдвиг интервалов на общий результат влияет слабо, так что такой выбор оставляют на усмотрение исследователя. Часто выбирают число интервалов по формуле Стёрджесса
, хотя это скорее "хоть и безобразно, но однообразно"
(Оффтоп)
как выражался товарищ майор, приказывая взводу расстегнуть в жару воротнички
Фактическое число будет меньше рекомендованного, поскольку, найдя вероятности попадания в интервалы, будем вынуждены объединить некоторые. Есть и другие рекомендации, вот некоторый обзор
https://ami.nstu.ru/~headrd/seminar/xi_square/28.htmно существенно на результат это не повлияет. А в той степени, в какой повлияет - это претензия равно к G-тесту и
-тесту.
Само выражение для слагаемых G-теста является аппроксимацией для слагаемых
-теста (ну, или наоборот). И при немалом числе в ячейке дают почти одно и то же. При малом разница есть, и G-тест предпочтительнее, да. Только вот при малом числе в ячейке желательно от такого теста отказаться вовсе или объединять ячейки. Теоретически работать при малых G-тест будет, только вот на практике бывают досадные мелочи, то ли от невнимания не туда попало, то ли от округления на границе ячеек, и когда в ячейке много попаданий - такая ошибка несущественна, а когда мало - результат сильно искажён. А если объединять, не допуская малого числа - преимущества G-теста становятся сугубо академическими.
-- 13 авг 2018, 13:46 --Разложение логарифма имеет вид
Расписывая выражение под логарифмом, как
и подставляя его в ряд, оставив члены до квадратичного, получим слагаемое для
. Поскольку при достаточном числе ожидаемых попаданий в ячейку x мало, отбрасывание прочих членов мало искажает ответ.
Глубокие исследования эффективности этих критериев показали, что по Бахадуру G-тест эффективнее, чем
. а по Питмену и Ходжесу-Леману они эквивалентны. Однако эффективность по Бахадуру сравнивает оценки при стремлении уровня значимости к нулю, то есть для обычной практики использования критериев, когда довольствуются уровнями 5% и 1% это неважно.
То есть при обычной практике использования G-тест не имеет существенных преимуществ, но работает при малом числе в ячейке, что удобно, но при практической работе может порождать грубые ошибки из-за дефектов данных, которые не повлияли бы на
.