2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Подобрать веса в "смешанной" оценке функции распределения
Сообщение07.04.2015, 14:16 
Пусть есть две выборки $X$ и $Y$ с количеством элементов $N_1$ и $N_2$ из распределения $F$, причем элементы $Y$ выбираются по правилу:

$P[O \ \text{попадет в выборку} \ | \ \xi(O)=t] = w(t)$,

где $\xi(O)$ - некоторая наблюдаемая величина, а $w(t)$ - заданная функция. На практике это реализуется у меня так:

$X$ имеет распределение ChiDistribution[1] (я полагаю, результат должен зависеть от распределения), $w(t) = (1 + \exp \{t - 1\})^{-1}$, а $Y$ набирается следующим образом: генерируется $Y_0^{(i)}$ из распределения $F$, затем - равномерная на $[0,1]$ случайная величина $C^{(i)}$, и $Y_0^{(i)}$ включается в выборку, если $w(Y_0^{(i)})<C^{(i)}$. Процедура повторяется, пока не будет набрано $N_2$ элементов, $Y = \{Y_1,...,Y_{N_2}\}$ (У меня $N_1=N_2=50$).

Дальше я строю "обычную" оценку функции распределения по первой выборке

$\hat{F}_{\text{simple}}(x) = \frac{1}{N_1}\sum_{j=1}^{N_1}\mathbb{I}_{\{X_j < x\}}$

И оценку Горвица-Томпсона по второй

$\hat{F}_{\text{HT}}(x) = \big( \sum_{j=1}^{N_2} \frac{1}{w(Y_j)}\mathbb{I}_{\{Y_j < x\}} \big)\cdot \big( \sum_{j=1}^{N_2}\frac{1}{w(Y_j)} \big)^{-1}$

Теперь я хочу получить наилучший $\alpha$ для "смешанной" оценки (распределение $F$ - неизвестно!)

$\hat{F}_{\text{mix}}(\alpha, x) = \alpha \hat{F}_{\text{simple}}(x) + (1-\alpha )\hat{F}_{\text{HT}}(x)$

График показывает, что оценка Горвица-Томпсона в моем случае явно значительно хуже, и в большинстве случаев, проверка равномерной нормы с известной $F$ (подставляя значения $\alpha$ с каким-то шагом)

$d = \sup_{0<t<4}|\hat{F}_{\text{mix}}(\alpha,t) - F(t) |, \ \ \alpha = \{0, 0.1, 0.2, ..., 0.9, 1\}$

дает убывание ее величины вплоть до $\alpha = 1$.

Тем не менее, при отдельных запусках бывает и чуть по-другому. Так или иначе, мне нужно это доказать.

Что пробовал:
$F$ "неизвестна", у меня есть разве что утверждение об асимптотической нормальности для обеих

$\sqrt{n}(\hat{F}_{n}(x) - F(x)) \rightarrow N(0, F(x)(1-F(x)))$ в каждой точке,

где вместо $F$ у дисперсии нормального распределения можно подставить оценку.
Но это оказался тупиковый путь, так как максимальное значение по $x$ дисперсии $\hat{F}_{\text{mix}}(\alpha, x)(1-\hat{F}_{\text{mix}}(\alpha, x))$ для любых $\alpha$ выходит одинаковым (мог бы и догадаться).

 
 
 
 UPD
Сообщение08.04.2015, 20:42 
Утверждение об асимптотической нормальности для оценки Горвица-Томпсона функции распределения и, как следствие, "смешанной" оценки было неверным, это неправда (или там другое выражение).
Тогда дисперсия нашей оценки выглядит так:


$\hat{Var}(\hat{F}_{\text{mix}}(\alpha, x)) = \hat{Var}(\alpha \hat{F}_{\text{simple}}(x) + (1-\alpha )\hat{F}_{\text{HT}}(x)) =$
$= \alpha^2 \hat{Var}(\hat{F}_{\text{simple}}(x)) + (1-\alpha )^2\hat{Var}(\hat{F}_{\text{HT}}(x))$

Вопрос, как оценить дисперсию, в особенности дисперсию оценки Горвица-Томпсона для функции распределения. В интернете вообще пусто, оценка ГТ гуглится для среднего/суммарного при выборочных обследованиях.


По идее, оценка ГТ для ф.р. - это

$\hat{F}_{\text{HT}}(x) = \frac{1}{N_2}\sum_{j=1}^{N_2}\pi_j^{-1}\mathbb{I}_{(Y_j<x)}$

Где $\pi_j^{-1} = (1/w(Y_j))\cdot(\sum_{i=1}^{N_2}1/w(Y_i))^{-1}$

-- 08.04.2015, 21:23 --

Вышенаписанная запись оценки ГТ для ф.р. используется тут, 4я страница: http://www.epa.gov/nheerl/arm/documents/m01.pdf
Тогда, на том же сайте я нашел оценку для дисперсии, 2я страница http://www.epa.gov/nheerl/arm/documents/m10.pdf
В моем понимании (у меня выборка - вся совокупность, $n_a = N_a = N_2$) она будет такой:

$\hat{Var}(\hat{F}_{\text{HT}})(x) = \frac{1}{N_2}(\sum_{j=1}^{N_2}\frac{1}{\pi_j^2}\mathbb{I}_{(Y_j<x)}+\sum_{j=1}^{N_2}\sum_{i \neq j}\mathbb{I}_{(Y_j<x)}\mathbb{I}_{(Y_i<x)}(\frac{1}{\pi_i}\frac{1}{\pi_j}-\frac{1}{\pi_{ij}}))$

Думаю, над тем, что такое $\pi_{ij}$ для меня. В конце второй статьи пишется, что если используется дизайн простого выбора (без возвращений??) для меня возможно $\pi_{ij} = (N_2-1)\pi_i \pi_j /N_2$

И еще думаю, как тогда оценить дисперсию "обычной" оценки ф.р.

 
 
 
 Re: Подобрать веса в "смешанной" оценке функции распределения
Сообщение18.04.2015, 19:04 
Устранил одну ошибку, связанную с плохим пониманием формулы:

$n_a = N_2$ (хотя здесь я не очень уверен, т.к. выбираю из бесконечной генеральной совокупности)
$N_a = \sum_{i=1}^{N_2}\frac{1}{\pi_i}$

Тогда дисперсия принимает вид

$\hat{Var}(\hat{F}_{\text{HT}})(x) = \frac{1}{N_a^2}(\sum_{j=1}^{N_2}\frac{1}{\pi_j^2}\mathbb{I}_{(Y_j<x)}+\sum_{j=1}^{N_2}\sum_{i \neq j}\mathbb{I}_{(Y_j<x)}\mathbb{I}_{(Y_i<x)}(\frac{1}{\pi_i}\frac{1}{\pi_j}-\frac{1}{\pi_{ij}}))$

В конце второй статьи есть приближенное выражение для $\pi_{ij}$ при простом случайном отборе:

$\pi_{ij} = (N_2-1)\pi_i \pi_j /N_2$

С ним последняя скобка у дисперсии отрицательна, но это, похоже, правильно, поскольку имеет место и в формуле им. Yates-Grundy-Sen .

Я провел моделирование вольфрамом,

X = ChiDistribution[1],

$w(t) = (1 + \exp \{t - 1\})^{-1}$

а дисперсию обычной оценки я полагаю $\hat{F}_{\text{simple}}( x)(1-\hat{F}_{\text{simple}}( x))$ (см. википедию, статья "Empirical distribution function"):

Код:
    For[x = 0, x < 4, x = x + 0.5, Print[VarFHT[x]]]
   
    0.
   
    0.00670945
   
    0.00654398
   
    0.0037609
   
    0.00249729
   
    0.001421
   
    0.001421
   
    0.001421



   
    Minimizer[a_] :=
     First[NMaximize[{(1/N1)*a^2*Fsimple[t]*(1 - Fsimple[t]) + (1 - a)^2*
          VarFHT[t], 0 <= t <= 4}, t]]
    W = {};
    For[a = 0, a < 1, a = a + 0.1, W = Append[W, Minimizer[a]]];
    W
   
    Out[62]= {0.00762577, 0.00622488, 0.0050725, 0.00416863, 0.00351328, \
    0.00310644, 0.00294856, 0.00306938, 0.0034719, 0.00411709}


Выходит, минимаксная оценка для $\alpha$ лежит где-то в районе 0.6.


Очень требуется какая-то теоретическая помощь в обосновании результата и очень хотелось бы получить хоть приблизительные "формульные" выкладки.

P.S. Учебник Jun Shao - Mathematical Statistics, Second Edition на стр.328 по вопросу асимптотических свойств оценки Горвица-Томпсона моего вида ссылается на статью Chen, J. and Qin, J. (1993). Empirical likelihood estimation for finite populations and the effective usage of auxiliary information. Biometrika, 80, 107-116. Но достать ее нигде не могу.

 
 
 [ Сообщений: 3 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group