2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Допустимое семейство распределений критерия хи-квадрат
Сообщение25.09.2021, 14:42 


21/03/11
200
У меня возник вопрос по так называемому "простому" критерию согласия хи-квадрат Пирсона (под простотой здесь подразумевается, что вероятности попадания в интервалы не зависят от параметра, то есть асимптотическое распределение тестовой статистики при справедливости нулевой гипотезы имеет вид $\chi^2_{k-1}$). Как я понял, этот критерий может быть применен для трех разных постановок задач, отличающихся друг от друга входными данными. Ниже я выписал три этих постановки (далее символом $\mathbf{X} = (X_1, \ldots, X_n)$ обозначена i.i.d. выборка, $\mathbf{x}=(x_1,\ldots,x_n)$ - ее релизация).

Случай 1. Заданы числа $\nu_1,\ldots,\nu_k \in \mathbb{N}$ и $p_1,\ldots,p_k \in (0,1)$, где $\sum_{j=1}^k \nu_j = n, ~\sum_{j=1}^k p_j = 1$.
Пусть носитель $R_X = \mathrm{supp}(F_{\mathrm{true}})$ случайной величины $X \sim F_{\mathrm{true}}$ разбит на $k$ непересекающихся интервалов $A_1,\ldots,A_k$, границы которых фиксированы, но не известны, сам носитель $R_X$ и $F_{\mathrm{true}}$ тоже неизвестны. По результатам $n$ независимых наблюдений $x_1, \ldots, x_n$ случайной величины $X$ были кем-то посчитаны частоты ее попаданий в эти интервалы, они оказались равны $\nu_1, \ldots, \nu_k$ соответственно. Здесь семейство допустимых распределений $\mathscr{F} = \{F: \exists A^F_1, \ldots, A^F_k \subset \mathrm{supp}(F): A^F_1 \sqcup \ldots \sqcup A_k^F = \mathrm{supp}(F)\}$ (оно содержит все одномерные непрерывные распределения и все одномерные дискретные распределения, у которых $|\mathrm{supp}(F)| \ge k$). Формально гипотезы выглядит следующим образом:

$H_0: ~ F_{\mathrm{true}} \in \mathscr{F}_0$, где семейство $\mathscr{F}_0 \subset \mathscr{F}$ таково, что $\forall F \in \mathscr{F}_0 \hookrightarrow P_{F}(X \in A^F_j) = p_j, \, \forall j =1,\ldots,k$.
$\iff \widetilde H_0: F_{\mathrm{true}} \in \mathscr{F}_0$, где семейство $\mathscr{F}_0 \subset \mathscr{F}$ таково, что $\forall F \in \mathscr{F}_0 \hookrightarrow \boldsymbol\nu(\mathbf{X}) = (\nu_1(\mathbf{X}), \ldots, \nu_k(\mathbf{X})) \sim \mathrm{Mult}(n,\mathbf{p}),$ где $\mathbf{p} = (p_1, \ldots, p_k),~ \nu_j(\mathbf{X}) = \sum_{i=1}^n I(X_i \in A_j^F);~$ (часто пишут "$H_0: \mathbf{p}_{\mathrm{true}} = \mathbf{p}$")

$H_1: F_{\mathrm{true}} \in \mathscr{F}_1 = \mathscr{F} \setminus \mathscr{F}_0$.      ($\iff H_1: \mathbf{p}_{\mathrm{true}} \neq \mathbf{p}$)

Для случайного вектора $\boldsymbol\nu(\mathbf{X}) = (\nu_1(\mathbf{X}), \ldots, \nu_k(\mathbf{X}))$ допустимым семейством распределений является семейство всевозможных $n$-мерных мультиномиальных распределений: $\mathcal{V} = \{F_{\mathrm{Mult(n, \mathbf{p})}}: \mathbf{p} \in (0,1)^k\}$.

Тестовая статистика критерия имеет вид $\displaystyle T(\mathbf{X}) = \sum_{j=1}^k \frac{(\nu_j(\mathbf{X}) - n p_j)^2}{np_j}$, а ее реализация есть $\displaystyle T(\mathbf{x}) = \sum_{j=1}^k \frac{(\nu_j - n p_j)^2}{np_j}$. При верности гипотезы $H_0$ и $n \to \infty$ выполняется $T(\mathbf{X}) \sim \chi^2_{k-1}$.

Случай 2. Задан вектор $\mathbf{x} = (x_1,\ldots, x_n)$ – реализация i.i.d. выборки $\mathbf{X} = (X_1,\ldots, X_n)$ из неизвестного распределения $F_{\mathrm{true}}$, а также некоторое известное распределение $F_0$. Предполагается, что носитель $R_X = \mathrm{supp}(F_{\mathrm{true}})$ случайной величины $X \sim F_{\mathrm{true}}$ известен априори.
Разобъем $R_X$ на $k$ непересекающихся интервалов (так, чтобы в каждый из них попал хотя бы один элемент из $\mathbf{x}$): $R_X = A_1 \sqcup \ldots \sqcup A_k$, и посчитаем вероятности $p_j = P_{F_0}(X \in A_j), \, \forall j =1,\ldots,k$. Если окажется, что $\sum_{j=1}^k p_j < 1$, или хотя бы одна из вероятностей $p_j $ окажется равной 0 или 1, то считаем, что критерий хи-квадрат неприменим для $F_0$. Вычислим числа $\nu_1, \ldots, \nu_k$ – частоты попаданий элементов вектора $\mathbf{x}$ в интервалы $A_1, \ldots, A_k$ соответственно. Дальше выписывается семейство допустимых распределений $\mathscr{F}$, гипотезы и тестовая статистика $T(\mathbf{X})$.

Случай 3. То же самое, что в случае 2, только носитель $\mathrm{supp}(F_{\mathrm{true}})$ неизвестен. В этом случае нужно положить $R_X = \mathbb{R}$ и дальше действовать так же, как в 2.

Мой вопрос.
В случае 2 предполагается, что носитель $R_X = \mathrm{supp}(F_{\mathrm{true}})$ случайной величины $X \sim F_{\mathrm{true}}$ известен априори, тогда как в случаях 1 и 3 мы вообще ничего не знаем про его структуру. Правильно ли я понимаю, что несмотря на это, в случае 2 семейство допустимых допустимых распределений $\mathscr{F}$ и гипотезы $H_0,H_1$ выглядят точно так же, как в случае 1?
Положительный ответ на этот вопрос означает, что критерий согласия хи-квадрат в принципе не способен как-то учесть априорную информацию о носителе истинного распределения для того, чтобы специфицировать $\mathscr{F},H_0,H_1$ - то есть, независимо от наличия этой информации, $\mathscr{F},H_0,H_1$ всегда выглядят так, как описано в случае 1. Если же они выглядят как-то по другому, то как именно?

 Профиль  
                  
 
 Re: Допустимое семейство распределений критерия хи-квадрат
Сообщение26.09.2021, 00:46 


18/09/21
1685
give_up в сообщении #1532679 писал(а):
Правильно ли я понимаю, что несмотря на это, в случае 2 семейство допустимых допустимых распределений $\mathscr{F}$ и гипотезы $H_0,H_1$ выглядят точно так же, как в случае 1?

Ну если априори известно, что случайная величина не выходит вообще за какие-то пределы, то нет смысла проверять каким-либо критерием такие распределения которые имеют ненулевую вероятность за этими пределами.
Т.е. априорная информация об ограничениях значений случайной величины должна уже быть заложена в семейство допустимых распределений и далее не имеет никакого отношения к критерию Пирсона или какому другому критерию.

 Профиль  
                  
 
 Re: Допустимое семейство распределений критерия хи-квадрат
Сообщение27.09.2021, 17:55 


21/03/11
200
zykov в сообщении #1532761 писал(а):
give_up в сообщении #1532679 писал(а):
Правильно ли я понимаю, что несмотря на это, в случае 2 семейство допустимых допустимых распределений $\mathscr{F}$ и гипотезы $H_0,H_1$ выглядят точно так же, как в случае 1?

Ну если априори известно, что случайная величина не выходит вообще за какие-то пределы, то нет смысла проверять каким-либо критерием такие распределения которые имеют ненулевую вероятность за этими пределами.
Т.е. априорная информация об ограничениях значений случайной величины должна уже быть заложена в семейство допустимых распределений и далее не имеет никакого отношения к критерию Пирсона или какому другому критерию.

Это все логично. Вот только проблема в том, что я еще не встречал ни одной программной реализации критерия согласия хи-квадрат, или функции, анализирующей его характеристики (например, мощность на альтернативах (power analysis)), которые могли бы как-то учесть эту информацию, то есть в которых была бы какая-то разница между тем, известен ли носитель истинного распределения или не известен. Я думаю, что всем программным реализациям наплевать, известен ли он или нет. Если известен, то они никак эту информацию не используют.
А мы можем при известном $R_X$ лишь "вручную" смотреть, совпадает ли с этим множеством носитель распределения $F_0$. Если не совпадает, то сразу отбрасывать распределение $F_0$ как неподходящее (считать его "недопустимым").

 Профиль  
                  
 
 Re: Допустимое семейство распределений критерия хи-квадрат
Сообщение27.09.2021, 21:22 


18/09/21
1685
Да, ничто не машает вам просто проигнорировать имеющуюся априорную информацию.
Хуже, если где-то вы её используете, а где-то игнорируете. Может возникнуть несоответствие и противорчие.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 4 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Mikhail_K


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group