2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Подобрать веса в "смешанной" оценке функции распределения
Сообщение07.04.2015, 14:16 


17/12/12
91
Пусть есть две выборки $X$ и $Y$ с количеством элементов $N_1$ и $N_2$ из распределения $F$, причем элементы $Y$ выбираются по правилу:

$P[O \ \text{попадет в выборку} \ | \ \xi(O)=t] = w(t)$,

где $\xi(O)$ - некоторая наблюдаемая величина, а $w(t)$ - заданная функция. На практике это реализуется у меня так:

$X$ имеет распределение ChiDistribution[1] (я полагаю, результат должен зависеть от распределения), $w(t) = (1 + \exp \{t - 1\})^{-1}$, а $Y$ набирается следующим образом: генерируется $Y_0^{(i)}$ из распределения $F$, затем - равномерная на $[0,1]$ случайная величина $C^{(i)}$, и $Y_0^{(i)}$ включается в выборку, если $w(Y_0^{(i)})<C^{(i)}$. Процедура повторяется, пока не будет набрано $N_2$ элементов, $Y = \{Y_1,...,Y_{N_2}\}$ (У меня $N_1=N_2=50$).

Дальше я строю "обычную" оценку функции распределения по первой выборке

$\hat{F}_{\text{simple}}(x) = \frac{1}{N_1}\sum_{j=1}^{N_1}\mathbb{I}_{\{X_j < x\}}$

И оценку Горвица-Томпсона по второй

$\hat{F}_{\text{HT}}(x) = \big( \sum_{j=1}^{N_2} \frac{1}{w(Y_j)}\mathbb{I}_{\{Y_j < x\}} \big)\cdot \big( \sum_{j=1}^{N_2}\frac{1}{w(Y_j)} \big)^{-1}$

Теперь я хочу получить наилучший $\alpha$ для "смешанной" оценки (распределение $F$ - неизвестно!)

$\hat{F}_{\text{mix}}(\alpha, x) = \alpha \hat{F}_{\text{simple}}(x) + (1-\alpha )\hat{F}_{\text{HT}}(x)$

График показывает, что оценка Горвица-Томпсона в моем случае явно значительно хуже, и в большинстве случаев, проверка равномерной нормы с известной $F$ (подставляя значения $\alpha$ с каким-то шагом)

$d = \sup_{0<t<4}|\hat{F}_{\text{mix}}(\alpha,t) - F(t) |, \ \ \alpha = \{0, 0.1, 0.2, ..., 0.9, 1\}$

дает убывание ее величины вплоть до $\alpha = 1$.

Тем не менее, при отдельных запусках бывает и чуть по-другому. Так или иначе, мне нужно это доказать.

Что пробовал:
$F$ "неизвестна", у меня есть разве что утверждение об асимптотической нормальности для обеих

$\sqrt{n}(\hat{F}_{n}(x) - F(x)) \rightarrow N(0, F(x)(1-F(x)))$ в каждой точке,

где вместо $F$ у дисперсии нормального распределения можно подставить оценку.
Но это оказался тупиковый путь, так как максимальное значение по $x$ дисперсии $\hat{F}_{\text{mix}}(\alpha, x)(1-\hat{F}_{\text{mix}}(\alpha, x))$ для любых $\alpha$ выходит одинаковым (мог бы и догадаться).

 Профиль  
                  
 
 UPD
Сообщение08.04.2015, 20:42 


17/12/12
91
Утверждение об асимптотической нормальности для оценки Горвица-Томпсона функции распределения и, как следствие, "смешанной" оценки было неверным, это неправда (или там другое выражение).
Тогда дисперсия нашей оценки выглядит так:


$\hat{Var}(\hat{F}_{\text{mix}}(\alpha, x)) = \hat{Var}(\alpha \hat{F}_{\text{simple}}(x) + (1-\alpha )\hat{F}_{\text{HT}}(x)) =$
$= \alpha^2 \hat{Var}(\hat{F}_{\text{simple}}(x)) + (1-\alpha )^2\hat{Var}(\hat{F}_{\text{HT}}(x))$

Вопрос, как оценить дисперсию, в особенности дисперсию оценки Горвица-Томпсона для функции распределения. В интернете вообще пусто, оценка ГТ гуглится для среднего/суммарного при выборочных обследованиях.


По идее, оценка ГТ для ф.р. - это

$\hat{F}_{\text{HT}}(x) = \frac{1}{N_2}\sum_{j=1}^{N_2}\pi_j^{-1}\mathbb{I}_{(Y_j<x)}$

Где $\pi_j^{-1} = (1/w(Y_j))\cdot(\sum_{i=1}^{N_2}1/w(Y_i))^{-1}$

-- 08.04.2015, 21:23 --

Вышенаписанная запись оценки ГТ для ф.р. используется тут, 4я страница: http://www.epa.gov/nheerl/arm/documents/m01.pdf
Тогда, на том же сайте я нашел оценку для дисперсии, 2я страница http://www.epa.gov/nheerl/arm/documents/m10.pdf
В моем понимании (у меня выборка - вся совокупность, $n_a = N_a = N_2$) она будет такой:

$\hat{Var}(\hat{F}_{\text{HT}})(x) = \frac{1}{N_2}(\sum_{j=1}^{N_2}\frac{1}{\pi_j^2}\mathbb{I}_{(Y_j<x)}+\sum_{j=1}^{N_2}\sum_{i \neq j}\mathbb{I}_{(Y_j<x)}\mathbb{I}_{(Y_i<x)}(\frac{1}{\pi_i}\frac{1}{\pi_j}-\frac{1}{\pi_{ij}}))$

Думаю, над тем, что такое $\pi_{ij}$ для меня. В конце второй статьи пишется, что если используется дизайн простого выбора (без возвращений??) для меня возможно $\pi_{ij} = (N_2-1)\pi_i \pi_j /N_2$

И еще думаю, как тогда оценить дисперсию "обычной" оценки ф.р.

 Профиль  
                  
 
 Re: Подобрать веса в "смешанной" оценке функции распределения
Сообщение18.04.2015, 19:04 


17/12/12
91
Устранил одну ошибку, связанную с плохим пониманием формулы:

$n_a = N_2$ (хотя здесь я не очень уверен, т.к. выбираю из бесконечной генеральной совокупности)
$N_a = \sum_{i=1}^{N_2}\frac{1}{\pi_i}$

Тогда дисперсия принимает вид

$\hat{Var}(\hat{F}_{\text{HT}})(x) = \frac{1}{N_a^2}(\sum_{j=1}^{N_2}\frac{1}{\pi_j^2}\mathbb{I}_{(Y_j<x)}+\sum_{j=1}^{N_2}\sum_{i \neq j}\mathbb{I}_{(Y_j<x)}\mathbb{I}_{(Y_i<x)}(\frac{1}{\pi_i}\frac{1}{\pi_j}-\frac{1}{\pi_{ij}}))$

В конце второй статьи есть приближенное выражение для $\pi_{ij}$ при простом случайном отборе:

$\pi_{ij} = (N_2-1)\pi_i \pi_j /N_2$

С ним последняя скобка у дисперсии отрицательна, но это, похоже, правильно, поскольку имеет место и в формуле им. Yates-Grundy-Sen .

Я провел моделирование вольфрамом,

X = ChiDistribution[1],

$w(t) = (1 + \exp \{t - 1\})^{-1}$

а дисперсию обычной оценки я полагаю $\hat{F}_{\text{simple}}( x)(1-\hat{F}_{\text{simple}}( x))$ (см. википедию, статья "Empirical distribution function"):

Код:
    For[x = 0, x < 4, x = x + 0.5, Print[VarFHT[x]]]
   
    0.
   
    0.00670945
   
    0.00654398
   
    0.0037609
   
    0.00249729
   
    0.001421
   
    0.001421
   
    0.001421



   
    Minimizer[a_] :=
     First[NMaximize[{(1/N1)*a^2*Fsimple[t]*(1 - Fsimple[t]) + (1 - a)^2*
          VarFHT[t], 0 <= t <= 4}, t]]
    W = {};
    For[a = 0, a < 1, a = a + 0.1, W = Append[W, Minimizer[a]]];
    W
   
    Out[62]= {0.00762577, 0.00622488, 0.0050725, 0.00416863, 0.00351328, \
    0.00310644, 0.00294856, 0.00306938, 0.0034719, 0.00411709}


Выходит, минимаксная оценка для $\alpha$ лежит где-то в районе 0.6.


Очень требуется какая-то теоретическая помощь в обосновании результата и очень хотелось бы получить хоть приблизительные "формульные" выкладки.

P.S. Учебник Jun Shao - Mathematical Statistics, Second Edition на стр.328 по вопросу асимптотических свойств оценки Горвица-Томпсона моего вида ссылается на статью Chen, J. and Qin, J. (1993). Empirical likelihood estimation for finite populations and the effective usage of auxiliary information. Biometrika, 80, 107-116. Но достать ее нигде не могу.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 3 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group