2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5  След.
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение11.02.2023, 22:49 


27/06/20
337
ipgmvq в сообщении #1581067 писал(а):
я ничего не напутал?
Наверное есть ошибка тут. Монтекарла не согласна, что в этом случае дисперсия оценки на регрессии хуже:
Используется синтаксис Python
import numpy as np

выборка = 10000
n = 3000

индексы = np.arange(1,n+1)
X =  np.asmatrix(np.vstack((np.ones(n), индексы)).T)
решение = np.linalg.inv(X.T * X) * X.T
регрессия = np.vectorize(lambda _: (решение * np.asmatrix(np.resize(np.random.normal(size=(n,)) + индексы, (n,1))))[1,0])
начало_конец = np.random.normal(size=(выборка, n)) + np.resize(np.tile(индексы, выборка), (выборка, n))

print(регрессия(np.zeros(выборка)).std())
print(((начало_конец[:,n-1] - начало_конец[:,0])/(n-1)).std())
 

Если права Монтекарла, значит, это пример того, когда регрессия даст более точный результат по наклону, чем выборочная средняя инкрементов.

-- 11.02.2023, 23:45 --

ipgmvq в сообщении #1581067 писал(а):
$\frac{2 \sigma^2}{(n-1)^2} $ при нарастании n убывает намного быстрее, чем $ \frac{ \sigma^2 }{ \sum_{i=1}^{n} i^2 - \frac{ n (n-1)^2 }{4} } $

Понял. Тут ошибка. Всё наоборот. $ \frac{ \sigma^2 }{ \sum_{i=1}^{n} i^2 - \frac{ n (n-1)^2 }{4} } $ убывает быстрее. В общем мы нашли частный случай, когда оценка наклона регрессией точнее, чем выборочная средняя инкрементов. Теперь было бы важным сделать тест на единичные корни Вашего экспериментального датасета (предположительно кумулятивных) иксов.

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение12.02.2023, 00:00 


27/06/20
337
Кролик в сообщении #1581173 писал(а):
опирается только на 2 значения!
В данном конкретном случае я находил выборочную среднюю всех $n-1$ значений инкрементов $V_i$ выборки. Но именно наше априорное знание о тесной зависимости этих $n-1$ случайных величин $V_i$ позволило упростить формулу до того, что в ней начали фигурировать всего два из (изначально казавшихся кумулятивными) значений $X_i$.

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение12.02.2023, 05:18 


27/06/20
337
Если исходить из озвученной гипотезы, что $V_i$ независимы и стационарны, то эмпирически в случае их нормального распределения, например, с $\mu = 1$ (при изменении результат не меняется) и $\sigma^2 = 1$ дисперсия оценки $\beta_1$ путем регрессии ряда превосходит дисперсию оценки $\beta_1$ путем выборочного среднего $V_i$ статистически значимо (но не катастрофически) примерно на 20%.
код: [ скачать ] [ спрятать ]
Используется синтаксис Python
import numpy as np
from scipy.stats import f as f_test

выборка = 100000
n = 3000
µ = 1.0

индексы = np.arange(1,n+1)
X =  np.asmatrix(np.vstack((np.ones(n), индексы)).T)
решение = np.linalg.inv(X.T * X) * X.T
регрессия = np.vectorize(lambda _: (решение * np.asmatrix(np.random.normal(loc=µ, size=(n,1)).cumsum(axis=0)))[1,0])

результат1 = np.random.normal(loc=µ, size=(n,выборка)).mean(axis=0)
результат2 = регрессия(np.zeros(выборка))

print("Дисперсия оценки β1 путем выборочной средней инкрементов:", результат1.var(ddof=1))
print("Дисперсия оценки β1 путем линейной регрессии кумулятивных значений:", результат2.var(ddof=1))
print("Отношение дисперсий оценок β1 регрессией и выборочным средним:", результат2.var(ddof=1)/результат1.var(ddof=1))
print("Значение p в F-тесте:", 1.0 - f_test.cdf(результат2.var(ddof=1)/результат1.var(ddof=1), выборка-1, выборка-1))
 


Учитывая, что у Вас $V_i$ предположительно ненормальная, её можно забутстрепить из Вашей выборки в Монте-Карло, чтобы сооринтироваться, будет ли у Вас сходный результат.

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение12.02.2023, 07:44 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Неформальное объяснение. Чем больше информации мы сможем усвоить из данных, тем точнее будут оценки. Но при этом желательно, чтобы "помехи" были независимыми. Для случая тренда, на измеренные значения которого накладывается случайная ошибка, регрессия будет лучше (а популярный в экономическом анализе временных рядов приём, переход к разностям и расчёт средних по этим разностям, проще, но даёт меньшую точность). Однако, если отдельные отсчёты независимые случайные величины с ненулевым средним, лучше рассчитывать, как по обычной выборке, а не переходить к накопленным значениям, на которые строить регрессию. Вся доступная нам информация будет в последнем отсчёте, как сумма всех "помех", а промежуточные будут искажать результат, поскольку зависимы и имеют неравную дисперсию.

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение12.02.2023, 10:23 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
В общем, надо начинать с точного описания модели, в частности, со спецификации ошибки. И тогда можно будет искать оптимальную процедуру оценивания.

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение12.02.2023, 23:26 
Аватара пользователя


07/03/06
128
ipgmvq в сообщении #1581196 писал(а):
В общем мы нашли частный случай, когда оценка наклона регрессией точнее, чем выборочная средняя инкрементов. Теперь было бы важным сделать тест на единичные корни Вашего экспериментального датасета (предположительно кумулятивных) иксов.
-- Тест Дики-Фуллера я сделал при помощи стандартной Питоновской процедуры adfuller.
Используется синтаксис Python
from statsmodels.tsa.stattools import adfuller
import numpy as np
iseq = 6  # номер реализации {V_n} (здесь dlcr)
nv = len(dlcr[0])
iksy = np.zeros(nv+1)
for i in range(1,nv+1):
    iksy[i] = iksy[i-1] + dlcr[iseq][i-1]
datax = iksy[::20]
datav = dlcr[iseq][::20]
adfuller(datax, maxlag = 0, regression='c'), \
adfuller(datav, maxlag = 0, regression='c')

Для реализаций "скоростей" $\{v_n\}$ нулевая гипотеза всегда решительно отвергается. Там последовательность явно стационарная... Для самих иксов во многих случаях $H_0$ тоже отвергается! Но есть немало случаев граничных или с явным подозрением на единичный корень. Вот пример выдачи при iseq = 1:
Код:
((-1.5583558515478213,
  0.5044717378958264,
  0,
  170,
  {'1%': -3.469413468959902,
   '5%': -2.8786964197028295,
   '10%': -2.5759166089965397},
  647.8486866589052),
(-13.346588848304247,
  5.778500767084577e-25,
  0,
  170,
  {'1%': -3.469413468959902,
   '5%': -2.8786964197028295,
   '10%': -2.5759166089965397},
  156.49372600698513))
Что же? Для таких случаев выкидывать 99% статистического материала и, как дурачку, считать "последний минус первый, делить на $N$"? :?

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение13.02.2023, 04:40 


27/06/20
337
Бинго!
Кролик в сообщении #1581339 писал(а):
Используется синтаксис Python
datax = iksy[::20]
datav = dlcr[iseq][::20]

Если Вы выборочную среднюю и наклон в регрессии тоже считали на этих слайсах датасета, тогда мне хорошо понятно, почему регрессия давала более точные значения :lol: (у Вас же информации в регрессии эдак в 20 раз больше—Вы выкидывате из $\left\lbrace V_i \right\rbrace$ большую часть измерений, которые по сути остаются кумулятивно в $\left\lbrace X_i \right\rbrace$)

Как Вы посчитали радиус корреляции и почему опасаетесь автокорреляции настолько, что выкидываете большинство наблюдений?

Кролик в сообщении #1581339 писал(а):
как дурачку, считать "последний минус первый, делить на $N$"?
Нет же, мы установили, что это менее точно.

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение13.02.2023, 08:13 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Кролик в сообщении #1581339 писал(а):
Что же? Для таких случаев выкидывать 99% статистического материала и, как дурачку, считать "последний минус первый, делить на $N$"? :?


Ну, человек, лучше меня владеющий теорией математической статистики, наверно, сказал бы нечто о "достаточных статистиках". А я лишь вспомню афоризм покойного дяди-ракетчика: "Требования к Изделию выражаются принципом 5П - Полезно, Просто, Прочно, Приятно Посмотреть". Вот такой подход очевидно полезен, давая разумный ответ, прост, прочен в смысле отсутствия вычислительных неустойчивостей, а что мне на него посмотреть приятнее, чем Вам - это субъективно.

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение13.02.2023, 23:02 
Аватара пользователя


07/03/06
128
ipgmvq в сообщении #1581356 писал(а):
Если Вы выборочную среднюю и наклон в регрессии тоже считали на этих слайсах датасета, тогда мне хорошо понятно, почему регрессия давала более точные значения :lol: (у Вас же информации в регрессии эдак в 20 раз больше—Вы выкидывате из $\left\lbrace V_i \right\rbrace$ большую часть измерений, которые по сути остаются кумулятивно в $\left\lbrace X_i \right\rbrace$)
-- Это я только для теста Дики-Фуллера последовательность прорядил, напрасно, вероятно. (Евгений Леонидович застращал меня словами "надо начинать с точного описания модели, в частности, со спецификации ошибки".) Без прореживания результат теста качественно получается таким же. Сам дрейф иксов (матожидание "скоростей") я естественно считал на полных данных.
ipgmvq в сообщении #1581356 писал(а):
Нет же, мы установили, что это менее точно.
-- Однако, мне кажется, что ни линейная регрессия, ни формула "последний минус первый, делить на $N$" не являются оптимальными процедурами для расчёта ожидаемого дрейфа $\nu$.
Существует ли литература, где описаны ещё более точные подходы?

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение13.02.2023, 23:24 


27/06/20
337
Кролик в сообщении #1581490 писал(а):
Сам дрейф иксов (матожидание "скоростей") я естественно считал на полных данных.
Уф! Я так понимаю, таких последовательностей по примерно 3400 наблюдений у Вас много. Напишите пожалуйста в каком проценте таких наборов (без прореживания иксов) не удалось отвергнуть $H_0$ о том, что единичный корень в $X_i$ есть (с $p \geqslant 0.05$ или, как Вам угодно, с поправкой на множественность тестов).

Кролик в сообщении #1581490 писал(а):
Однако, мне кажется, что ни линейная регрессия, ни формула "последний минус первый, делить на $N$" не являются оптимальными процедурами для расчёта ожидаемого дрейфа $\nu$.
Обычно оптимальной формулой для независимых одинаково распределенных случайных величин (с конечным первым моментом) является формула, приведенная Вами в первом сообщении. Хотя есть конкретные исключения, типа распределения Лапласа. Но хотя Вы не пишете об этом четко, исходя из Ваших слов, $V_i$ не являются независимыми. Есть какая-то ACF и PACF, которую Вы почему-то скрываете. Как без знания точной статистическую природы Вашей последовательности можно советовать литературу?!

Используется синтаксис Python
nv = len(dlcr[0])

Странная аббревиатура. У Вас последовательность точно одномерная? :-)

И главное: как Вы изначально поняли, что оценка по линейной регрессии у Вас более точная, чем выборочная средняя, если эта последовательность не является плодом Вашей симуляции Монте-Карло.
И доп. вопрос: какие есть физические причины исходить из того, что $\mu$ в этой последовательности "скоростей" постоянна?

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение13.02.2023, 23:54 
Аватара пользователя


07/03/06
128
Последовательности все одномерные, их около 50 штук. Нулевая гипотеза для иксов отвергается, к сожалению, лишь в ~10% случаев. Ковариационная функция для "скоростей" имеет вид чётко-выраженного максимума в нуле и низенького шлейфа, спадающего вдвое каждые 20 временных единиц. (Отсюда я делаю грубую оценку на радиус корреляции.)
Цитата:
И главное: как Вы изначально поняли, что оценка по линейной регрессии у Вас более точная, чем выборочная средняя, если эта последовательность не является плодом Вашей симуляции Монте-Карло.
И доп. вопрос: какие есть физические причины исходить из того, что $\mu$ в этой последовательности "скоростей" постоянна?
--Последовательности взяты из живого эксперимента (это не компьютерные симуляции). Понял я про обе оценки интуитивно, написал в форум как "проверенный факт", чтобы зажечь интерес участников и построить содержательную и поучительную дискуссию. Постоянность ожидаемого дрейфа иксов (матожидания "скоростей") следует из общей теоретической модели случайного процесса. Должно быть так в предметной теории...

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение14.02.2023, 00:43 


27/06/20
337
Кролик в сообщении #1581504 писал(а):
лишь в ~10% случаев
Вероятно с поправкой на множественность сравнений их станет ещё меньше. Для 50 независимых (если они независимы) наборов случайных временных последовательностей это (5 из 50 или больше) при верности нулевой гипотезы могло случиться (для значимости на уровне 0.05) в примерно 10% случаев. Маловато, но можно начинать склоняться к тому, что единичный корень есть везде, что ожидаемо от Вашей теоретической модели, а значит хорошо.

Кролик в сообщении #1581504 писал(а):
и низенького шлейфа
Хотя бы одно её значение (помимо в нуле) выходит за пределы доверительного интервала? (я к тому, а там точно есть автокорреляция вообще). Если выходят, как выглядит PACF (с оглядкой на его доверительный интервал).

Кролик в сообщении #1581504 писал(а):
Должно быть так в предметной теории...
Если Вы поясните предмет, то легче будет найти научную литературу (академическую периодику) по прикладной статистике, проливающую свет на предмет именно Вашего научного изыскания.

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение14.02.2023, 00:48 
Аватара пользователя


22/11/22
620
Кролик в сообщении #1581504 писал(а):
Последовательности все одномерные, их около 50 штук.

Вот расскажите чайнику, о какой регрессии вы говорите в одномерном случае. Регрессия чего и чего? Номера элемента последовательности и значения этого элемента? Насколько это осмысленно вообще, у вас к номеру элемента привязан какой-то физический смысл, время, например?

Напомню, парная линейная регрессия (а вы пытаетесь к ее результатам обратиться, насколько я понимаю) имеет модель вида $y_i=\beta_0+\beta_1x_i +\varepsilon_i$ и данными для нее является выборка из пар $(x_i,y_i)$. Что выступает у вас в роли пар? Какова модель?

Кролик в сообщении #1581504 писал(а):
Понял я про обе оценки интуитивно, написал в форум как "проверенный факт", чтобы зажечь интерес участников и построить содержательную и поучительную дискуссию.

Пока не получается, если нужно зажечь, начните сначала, с постановки задачи и спецификации модели. Вас уже просили.

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение14.02.2023, 02:02 


27/06/20
337
Combat Zone в сообщении #1581509 писал(а):
Номера элемента последовательности и значения этого элемента?
Да. По его номеру.
Линейная регрессия — это hot topic. Финальный ответ на все многовековые чаяния человечества. Ключ к любым предсказаниям и выявлению любых вероятностных и детерминированных (но имеющих погрешности измерения) закономерностей.
Линейная регрессия по индексу, ряда по ряду, ряда по последовательности, последовательности по двум линейно связанным между собой регрессорам, авторегрессия ряда по самому себе (и построение на основании неё полной инсайтов автокорреляционной функции), линейная регрессия по регрессору, с которым связь заведомо нелинейна — все эти методы широко используются именитыми вендорами маркетинговых и эконометрических исследований и консалтинга направо и налево, и берут за такие линейно-регрессионные исследования в Excel сотни тысяч рублей за штуку (последнее не шутка). Знание всех видов неправильного использования такого мощного и популярного метода как линейная регрессия должна быть prerequisite для ответа на вопросы на форуме, чтобы не создавать вопросами-уточнениями стресса у топик-стартеров. :mrgreen:
Да, по индексу и, да, ряда. И да, это ноу-хау, требующее срочной публикации в рецензируемом журнале Annals of Statistics (если мы конечно подтвердим на форуме, что пока это открытие ещё не опубликовано).

 Профиль  
                  
 
 Re: Оценка матожидания стационарной случайной последовательности
Сообщение14.02.2023, 02:40 
Аватара пользователя


22/11/22
620
ipgmvq
Да я-то что, я могу и помолчать, чтобы не создавать стрессов уточнениями, но ведь в стресс может загнать и распознавание сарказма... и таки хорошо, если он хоть где-то будет распознан. Не мучьте Кролика. :cry:

Кролик, оценка дурная, бессмысленная и беспощадная. Нет, она не лучше стандартной.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 74 ]  На страницу Пред.  1, 2, 3, 4, 5  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group