Статистическая задача

GAA · 26.10.2015, 19:24

По поводу changepoint вообще можно посмотреть работу
Killick R., Eckley I. A. Changepoint: An R Package for Changepoint Analysis // JSS, Volume 58, Issue 3 (2014).
В этой работе как раз говорится о проблеме выбора числа changepoints. Короче говоря, в общем случае авторам работы не известен критерий. Там по ссылкам можно найти базу с библиографией.

Для случая пуассоновского потока у меня все равно не складывается картинка. Первое что приходит в голову — это зафиксировать число интервалов и найти методом максимального правдоподобия оценки для параметров $\lambda_1$ , $\lambda_2$ и $\tau_i$ (точек в которых происходит изменение распределения). Сами changepoints могут находиться между точками, в которых получены экспериментальные значения. [С этим бороться легко. На некотором интервале результат будет равен сумме двух пуассоновских случайных величин с разными параметрами.] Длины интервалов должны удовлетворять показательному распределению. Возможно, это и будет хорошим критерием для выбора числа интервалов.

-- Пн 26.10.2015 18:33:40 --

По поводу динамического программирования есть что-то в работе
Hawkins D. M. Fitting multiple change-point models to data. // Comput. Statist. & Data Anal. 37 (2001) 323–341 (pdf).
Но она, на мой взгляд, очень небрежно написана. И в этой работе вопрос о выборе числа интервалов считается открытым.

-- Пн 26.10.2015 18:41:55 --

В общем, задача как-то странно звучит, что не заставляет о ней думать.

Евгений Машеров · 26.10.2015, 21:28

К сожалению, наивный алгоритм - рассмотреть все возможные последовательности состояний, для каждой оценить параметры обоих пуассоновских распределений (по обычным формулам, разделив на две подвыборки для одного и второго состояния) и вероятность смены состояния, используя эти параметры, вычислить правдоподобие и выбрать наилучшую, упирается в "проклятие размерности". Он целесообразен только для очень коротких последовательностей, поскольку всего $2^n$ вариантов, и увеличение числа наблюдений на 10 увеличивает время счёта более чем в тысячу раз. Полагаю, что 10 точек "обсчитаются" за несколько секунд, 20 - где-то за час, 30 уже месяц счёта (ну, или какой-нибудь"Тесла" и часы), а более 40, ну, пусть 50 вообще за гранью возможного.
Как вариант - разбить задачу на два шага. Оценивание параметров Пуассона и оценивание переходов, причём вероятность перехода p принимается известной (имеется в виду, что эти два шага,или, возможно, только второй, повторяются для каждого значения p, перебирая их по сетке, или используя какой-то алгоритм одномерной оптимизации).
Расчёт пуассоновских параметров может быть упрощён, исходя из "принципа подводной лодки" - число всплытий равно числу погружений, или отличается на единицу. То есть число отрезков нахождения в первом и втором состоянии равны или на единицу различны. К сожалению, это не гарантирует того, что количества число точек, соответствующих первому и второму состоянию, равны, они будут равны только в среднем. Однако при достаточно длинных рядах предположение довольно разумное. Предложенная выше оценка методом моментов очень простая, но, возможно, хуже ММП-оценки. Но она, видимо, может быть получена только численно, и оценка методом моментов послужит хорошим начальным приближением.
Имея оценки распределений Пуассона, приступаем ко второму шагу - разметке состояний. Тут хотелось бы сократить с $2^n$ вариантов до $2n$ . Напрашивается нечто в духе динамического программирования. Начинаем с конца, с последнего отсчёта, рассматриваем два варианта - что первое или второе состояние. Для каждого вычисляем правдоподобие (только исходя из Пуассонов для двух значений параметра и числа успехов в данном наблюдении). Затем включаем в рассмотрение и предыдущий отсчёт, два варианта, и для каждого рассчитываем правдоподобие, учитывая и распределение для данного наблюдения,и вероятности перехода, и правдоподобие для последующего отсчёта. И выбираем из 4 вариантов ( $1\to 1$ , $1\to 2$ , $2\to 1$ , $2\to 2$ ) два самых правдоподобных (самый правдоподобный, начинающийся с состояния I и самый правдоподобный с состояния II). И так до начала выборки. Получаем последовательность состояний и её правдоподобие. Выбираем значение p, дающее максимум правдоподобия.
Получив последовательность состояний, оцениваем по нему вероятность перехода.

B@R5uk · 27.10.2015, 01:10

Вообще, я тут поприкидывал и понял, что ваше самое первое предложение, которое заключается в том, чтобы дикриминировать элементы выборки в плане принадлежности их какому-то состоянию по их значению, не лишена права на жизнь. Если мы сможем добиться того, чтобы вероятность ошибки в одну сторону равнялась вероятности ошибки в другую сторону (и, соответственно, равнялась $1/2$ ), то средний период между переключениями будет в пределе равняться реальному. Однако, проблема в том, что добиться того, чтобы вес переднего хвоста большего распределения равнялся весу заднего хвоста меньшего распределения для какой-то пороговой величины, можно только с случае непрерывного распределения, а у нас тут дискретное. Есть вариант найти ближайшее пороговое значение, слева и справа от которого дискриминация будет однозначной, а для самого значения стохастической; таким образом уравновешивая неравномерность хвостов. Не знаю, правда, на сколько это будет логичным. В любом случае, надо будет точно знать каким именно распределениям подчиняется случайная величина в первом и втором состояниях. Реально, распределение не Пуассоново, а какое-то гораздо более размытое (для состояния с большим средним во всяком случае).

B@R5uk · 29.10.2015, 08:32

А как проверить, что заданная выборка подчиняется распределению с заданной формулой? Есть какая-нибудь мера совпадения выборки и формулы?

Евгений Машеров · 29.10.2015, 10:24

Ну, стандартная же задача. Критерий $\chi^2$ , или Колмогорова-Смирнова или $\omega^2$ . В любом справочнике.

Научный форум dxdy

Статистическая задача