2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Допустимое семейство распределений критерия хи-квадрат
Сообщение25.09.2021, 14:42 


21/03/11
200
У меня возник вопрос по так называемому "простому" критерию согласия хи-квадрат Пирсона (под простотой здесь подразумевается, что вероятности попадания в интервалы не зависят от параметра, то есть асимптотическое распределение тестовой статистики при справедливости нулевой гипотезы имеет вид $\chi^2_{k-1}$). Как я понял, этот критерий может быть применен для трех разных постановок задач, отличающихся друг от друга входными данными. Ниже я выписал три этих постановки (далее символом $\mathbf{X} = (X_1, \ldots, X_n)$ обозначена i.i.d. выборка, $\mathbf{x}=(x_1,\ldots,x_n)$ - ее релизация).

Случай 1. Заданы числа $\nu_1,\ldots,\nu_k \in \mathbb{N}$ и $p_1,\ldots,p_k \in (0,1)$, где $\sum_{j=1}^k \nu_j = n, ~\sum_{j=1}^k p_j = 1$.
Пусть носитель $R_X = \mathrm{supp}(F_{\mathrm{true}})$ случайной величины $X \sim F_{\mathrm{true}}$ разбит на $k$ непересекающихся интервалов $A_1,\ldots,A_k$, границы которых фиксированы, но не известны, сам носитель $R_X$ и $F_{\mathrm{true}}$ тоже неизвестны. По результатам $n$ независимых наблюдений $x_1, \ldots, x_n$ случайной величины $X$ были кем-то посчитаны частоты ее попаданий в эти интервалы, они оказались равны $\nu_1, \ldots, \nu_k$ соответственно. Здесь семейство допустимых распределений $\mathscr{F} = \{F: \exists A^F_1, \ldots, A^F_k \subset \mathrm{supp}(F): A^F_1 \sqcup \ldots \sqcup A_k^F = \mathrm{supp}(F)\}$ (оно содержит все одномерные непрерывные распределения и все одномерные дискретные распределения, у которых $|\mathrm{supp}(F)| \ge k$). Формально гипотезы выглядит следующим образом:

$H_0: ~ F_{\mathrm{true}} \in \mathscr{F}_0$, где семейство $\mathscr{F}_0 \subset \mathscr{F}$ таково, что $\forall F \in \mathscr{F}_0 \hookrightarrow P_{F}(X \in A^F_j) = p_j, \, \forall j =1,\ldots,k$.
$\iff \widetilde H_0: F_{\mathrm{true}} \in \mathscr{F}_0$, где семейство $\mathscr{F}_0 \subset \mathscr{F}$ таково, что $\forall F \in \mathscr{F}_0 \hookrightarrow \boldsymbol\nu(\mathbf{X}) = (\nu_1(\mathbf{X}), \ldots, \nu_k(\mathbf{X})) \sim \mathrm{Mult}(n,\mathbf{p}),$ где $\mathbf{p} = (p_1, \ldots, p_k),~ \nu_j(\mathbf{X}) = \sum_{i=1}^n I(X_i \in A_j^F);~$ (часто пишут "$H_0: \mathbf{p}_{\mathrm{true}} = \mathbf{p}$")

$H_1: F_{\mathrm{true}} \in \mathscr{F}_1 = \mathscr{F} \setminus \mathscr{F}_0$.      ($\iff H_1: \mathbf{p}_{\mathrm{true}} \neq \mathbf{p}$)

Для случайного вектора $\boldsymbol\nu(\mathbf{X}) = (\nu_1(\mathbf{X}), \ldots, \nu_k(\mathbf{X}))$ допустимым семейством распределений является семейство всевозможных $n$-мерных мультиномиальных распределений: $\mathcal{V} = \{F_{\mathrm{Mult(n, \mathbf{p})}}: \mathbf{p} \in (0,1)^k\}$.

Тестовая статистика критерия имеет вид $\displaystyle T(\mathbf{X}) = \sum_{j=1}^k \frac{(\nu_j(\mathbf{X}) - n p_j)^2}{np_j}$, а ее реализация есть $\displaystyle T(\mathbf{x}) = \sum_{j=1}^k \frac{(\nu_j - n p_j)^2}{np_j}$. При верности гипотезы $H_0$ и $n \to \infty$ выполняется $T(\mathbf{X}) \sim \chi^2_{k-1}$.

Случай 2. Задан вектор $\mathbf{x} = (x_1,\ldots, x_n)$ – реализация i.i.d. выборки $\mathbf{X} = (X_1,\ldots, X_n)$ из неизвестного распределения $F_{\mathrm{true}}$, а также некоторое известное распределение $F_0$. Предполагается, что носитель $R_X = \mathrm{supp}(F_{\mathrm{true}})$ случайной величины $X \sim F_{\mathrm{true}}$ известен априори.
Разобъем $R_X$ на $k$ непересекающихся интервалов (так, чтобы в каждый из них попал хотя бы один элемент из $\mathbf{x}$): $R_X = A_1 \sqcup \ldots \sqcup A_k$, и посчитаем вероятности $p_j = P_{F_0}(X \in A_j), \, \forall j =1,\ldots,k$. Если окажется, что $\sum_{j=1}^k p_j < 1$, или хотя бы одна из вероятностей $p_j $ окажется равной 0 или 1, то считаем, что критерий хи-квадрат неприменим для $F_0$. Вычислим числа $\nu_1, \ldots, \nu_k$ – частоты попаданий элементов вектора $\mathbf{x}$ в интервалы $A_1, \ldots, A_k$ соответственно. Дальше выписывается семейство допустимых распределений $\mathscr{F}$, гипотезы и тестовая статистика $T(\mathbf{X})$.

Случай 3. То же самое, что в случае 2, только носитель $\mathrm{supp}(F_{\mathrm{true}})$ неизвестен. В этом случае нужно положить $R_X = \mathbb{R}$ и дальше действовать так же, как в 2.

Мой вопрос.
В случае 2 предполагается, что носитель $R_X = \mathrm{supp}(F_{\mathrm{true}})$ случайной величины $X \sim F_{\mathrm{true}}$ известен априори, тогда как в случаях 1 и 3 мы вообще ничего не знаем про его структуру. Правильно ли я понимаю, что несмотря на это, в случае 2 семейство допустимых допустимых распределений $\mathscr{F}$ и гипотезы $H_0,H_1$ выглядят точно так же, как в случае 1?
Положительный ответ на этот вопрос означает, что критерий согласия хи-квадрат в принципе не способен как-то учесть априорную информацию о носителе истинного распределения для того, чтобы специфицировать $\mathscr{F},H_0,H_1$ - то есть, независимо от наличия этой информации, $\mathscr{F},H_0,H_1$ всегда выглядят так, как описано в случае 1. Если же они выглядят как-то по другому, то как именно?

 Профиль  
                  
 
 Re: Допустимое семейство распределений критерия хи-квадрат
Сообщение26.09.2021, 00:46 
Заслуженный участник


18/09/21
1756
give_up в сообщении #1532679 писал(а):
Правильно ли я понимаю, что несмотря на это, в случае 2 семейство допустимых допустимых распределений $\mathscr{F}$ и гипотезы $H_0,H_1$ выглядят точно так же, как в случае 1?

Ну если априори известно, что случайная величина не выходит вообще за какие-то пределы, то нет смысла проверять каким-либо критерием такие распределения которые имеют ненулевую вероятность за этими пределами.
Т.е. априорная информация об ограничениях значений случайной величины должна уже быть заложена в семейство допустимых распределений и далее не имеет никакого отношения к критерию Пирсона или какому другому критерию.

 Профиль  
                  
 
 Re: Допустимое семейство распределений критерия хи-квадрат
Сообщение27.09.2021, 17:55 


21/03/11
200
zykov в сообщении #1532761 писал(а):
give_up в сообщении #1532679 писал(а):
Правильно ли я понимаю, что несмотря на это, в случае 2 семейство допустимых допустимых распределений $\mathscr{F}$ и гипотезы $H_0,H_1$ выглядят точно так же, как в случае 1?

Ну если априори известно, что случайная величина не выходит вообще за какие-то пределы, то нет смысла проверять каким-либо критерием такие распределения которые имеют ненулевую вероятность за этими пределами.
Т.е. априорная информация об ограничениях значений случайной величины должна уже быть заложена в семейство допустимых распределений и далее не имеет никакого отношения к критерию Пирсона или какому другому критерию.

Это все логично. Вот только проблема в том, что я еще не встречал ни одной программной реализации критерия согласия хи-квадрат, или функции, анализирующей его характеристики (например, мощность на альтернативах (power analysis)), которые могли бы как-то учесть эту информацию, то есть в которых была бы какая-то разница между тем, известен ли носитель истинного распределения или не известен. Я думаю, что всем программным реализациям наплевать, известен ли он или нет. Если известен, то они никак эту информацию не используют.
А мы можем при известном $R_X$ лишь "вручную" смотреть, совпадает ли с этим множеством носитель распределения $F_0$. Если не совпадает, то сразу отбрасывать распределение $F_0$ как неподходящее (считать его "недопустимым").

 Профиль  
                  
 
 Re: Допустимое семейство распределений критерия хи-квадрат
Сообщение27.09.2021, 21:22 
Заслуженный участник


18/09/21
1756
Да, ничто не машает вам просто проигнорировать имеющуюся априорную информацию.
Хуже, если где-то вы её используете, а где-то игнорируете. Может возникнуть несоответствие и противорчие.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 4 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group