2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2, 3
 
 Re: Статистическая задача
Сообщение26.10.2015, 19:24 
По поводу changepoint вообще можно посмотреть работу
Killick R., Eckley I. A. Changepoint: An R Package for Changepoint Analysis // JSS, Volume 58, Issue 3 (2014).
В этой работе как раз говорится о проблеме выбора числа changepoints. Короче говоря, в общем случае авторам работы не известен критерий. Там по ссылкам можно найти базу с библиографией.

Для случая пуассоновского потока у меня все равно не складывается картинка. Первое что приходит в голову — это зафиксировать число интервалов и найти методом максимального правдоподобия оценки для параметров $\lambda_1$, $\lambda_2$ и $\tau_i$ (точек в которых происходит изменение распределения). Сами changepoints могут находиться между точками, в которых получены экспериментальные значения. [С этим бороться легко. На некотором интервале результат будет равен сумме двух пуассоновских случайных величин с разными параметрами.] Длины интервалов должны удовлетворять показательному распределению. Возможно, это и будет хорошим критерием для выбора числа интервалов.

-- Пн 26.10.2015 18:33:40 --

По поводу динамического программирования есть что-то в работе
Hawkins D. M. Fitting multiple change-point models to data. // Comput. Statist. & Data Anal. 37 (2001) 323–341 (pdf).
Но она, на мой взгляд, очень небрежно написана. И в этой работе вопрос о выборе числа интервалов считается открытым.

-- Пн 26.10.2015 18:41:55 --

В общем, задача как-то странно звучит, что не заставляет о ней думать.

 
 
 
 Re: Статистическая задача
Сообщение26.10.2015, 21:28 
Аватара пользователя
К сожалению, наивный алгоритм - рассмотреть все возможные последовательности состояний, для каждой оценить параметры обоих пуассоновских распределений (по обычным формулам, разделив на две подвыборки для одного и второго состояния) и вероятность смены состояния, используя эти параметры, вычислить правдоподобие и выбрать наилучшую, упирается в "проклятие размерности". Он целесообразен только для очень коротких последовательностей, поскольку всего $2^n$ вариантов, и увеличение числа наблюдений на 10 увеличивает время счёта более чем в тысячу раз. Полагаю, что 10 точек "обсчитаются" за несколько секунд, 20 - где-то за час, 30 уже месяц счёта (ну, или какой-нибудь"Тесла" и часы), а более 40, ну, пусть 50 вообще за гранью возможного.
Как вариант - разбить задачу на два шага. Оценивание параметров Пуассона и оценивание переходов, причём вероятность перехода p принимается известной (имеется в виду, что эти два шага,или, возможно, только второй, повторяются для каждого значения p, перебирая их по сетке, или используя какой-то алгоритм одномерной оптимизации).
Расчёт пуассоновских параметров может быть упрощён, исходя из "принципа подводной лодки" - число всплытий равно числу погружений, или отличается на единицу. То есть число отрезков нахождения в первом и втором состоянии равны или на единицу различны. К сожалению, это не гарантирует того, что количества число точек, соответствующих первому и второму состоянию, равны, они будут равны только в среднем. Однако при достаточно длинных рядах предположение довольно разумное. Предложенная выше оценка методом моментов очень простая, но, возможно, хуже ММП-оценки. Но она, видимо, может быть получена только численно, и оценка методом моментов послужит хорошим начальным приближением.
Имея оценки распределений Пуассона, приступаем ко второму шагу - разметке состояний. Тут хотелось бы сократить с $2^n$ вариантов до $2n$. Напрашивается нечто в духе динамического программирования. Начинаем с конца, с последнего отсчёта, рассматриваем два варианта - что первое или второе состояние. Для каждого вычисляем правдоподобие (только исходя из Пуассонов для двух значений параметра и числа успехов в данном наблюдении). Затем включаем в рассмотрение и предыдущий отсчёт, два варианта, и для каждого рассчитываем правдоподобие, учитывая и распределение для данного наблюдения,и вероятности перехода, и правдоподобие для последующего отсчёта. И выбираем из 4 вариантов ($1\to 1$, $1\to 2$, $2\to 1$, $2\to 2$) два самых правдоподобных (самый правдоподобный, начинающийся с состояния I и самый правдоподобный с состояния II). И так до начала выборки. Получаем последовательность состояний и её правдоподобие. Выбираем значение p, дающее максимум правдоподобия.
Получив последовательность состояний, оцениваем по нему вероятность перехода.

 
 
 
 Re: Статистическая задача
Сообщение27.10.2015, 01:10 
Аватара пользователя
Вообще, я тут поприкидывал и понял, что ваше самое первое предложение, которое заключается в том, чтобы дикриминировать элементы выборки в плане принадлежности их какому-то состоянию по их значению, не лишена права на жизнь. Если мы сможем добиться того, чтобы вероятность ошибки в одну сторону равнялась вероятности ошибки в другую сторону (и, соответственно, равнялась $1/2$), то средний период между переключениями будет в пределе равняться реальному. Однако, проблема в том, что добиться того, чтобы вес переднего хвоста большего распределения равнялся весу заднего хвоста меньшего распределения для какой-то пороговой величины, можно только с случае непрерывного распределения, а у нас тут дискретное. Есть вариант найти ближайшее пороговое значение, слева и справа от которого дискриминация будет однозначной, а для самого значения стохастической; таким образом уравновешивая неравномерность хвостов. Не знаю, правда, на сколько это будет логичным. В любом случае, надо будет точно знать каким именно распределениям подчиняется случайная величина в первом и втором состояниях. Реально, распределение не Пуассоново, а какое-то гораздо более размытое (для состояния с большим средним во всяком случае).

 
 
 
 Re: Статистическая задача
Сообщение29.10.2015, 08:32 
Аватара пользователя
А как проверить, что заданная выборка подчиняется распределению с заданной формулой? Есть какая-нибудь мера совпадения выборки и формулы?

 
 
 
 Re: Статистическая задача
Сообщение29.10.2015, 10:24 
Аватара пользователя
Ну, стандартная же задача. Критерий $\chi^2$, или Колмогорова-Смирнова или $\omega^2$. В любом справочнике.

 
 
 [ Сообщений: 35 ]  На страницу Пред.  1, 2, 3


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group