2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3
 
 Re: Статистическая задача
Сообщение26.10.2015, 19:24 
Заслуженный участник


12/07/07
4529
По поводу changepoint вообще можно посмотреть работу
Killick R., Eckley I. A. Changepoint: An R Package for Changepoint Analysis // JSS, Volume 58, Issue 3 (2014).
В этой работе как раз говорится о проблеме выбора числа changepoints. Короче говоря, в общем случае авторам работы не известен критерий. Там по ссылкам можно найти базу с библиографией.

Для случая пуассоновского потока у меня все равно не складывается картинка. Первое что приходит в голову — это зафиксировать число интервалов и найти методом максимального правдоподобия оценки для параметров $\lambda_1$, $\lambda_2$ и $\tau_i$ (точек в которых происходит изменение распределения). Сами changepoints могут находиться между точками, в которых получены экспериментальные значения. [С этим бороться легко. На некотором интервале результат будет равен сумме двух пуассоновских случайных величин с разными параметрами.] Длины интервалов должны удовлетворять показательному распределению. Возможно, это и будет хорошим критерием для выбора числа интервалов.

-- Пн 26.10.2015 18:33:40 --

По поводу динамического программирования есть что-то в работе
Hawkins D. M. Fitting multiple change-point models to data. // Comput. Statist. & Data Anal. 37 (2001) 323–341 (pdf).
Но она, на мой взгляд, очень небрежно написана. И в этой работе вопрос о выборе числа интервалов считается открытым.

-- Пн 26.10.2015 18:41:55 --

В общем, задача как-то странно звучит, что не заставляет о ней думать.

 Профиль  
                  
 
 Re: Статистическая задача
Сообщение26.10.2015, 21:28 
Заслуженный участник
Аватара пользователя


11/03/08
9967
Москва
К сожалению, наивный алгоритм - рассмотреть все возможные последовательности состояний, для каждой оценить параметры обоих пуассоновских распределений (по обычным формулам, разделив на две подвыборки для одного и второго состояния) и вероятность смены состояния, используя эти параметры, вычислить правдоподобие и выбрать наилучшую, упирается в "проклятие размерности". Он целесообразен только для очень коротких последовательностей, поскольку всего $2^n$ вариантов, и увеличение числа наблюдений на 10 увеличивает время счёта более чем в тысячу раз. Полагаю, что 10 точек "обсчитаются" за несколько секунд, 20 - где-то за час, 30 уже месяц счёта (ну, или какой-нибудь"Тесла" и часы), а более 40, ну, пусть 50 вообще за гранью возможного.
Как вариант - разбить задачу на два шага. Оценивание параметров Пуассона и оценивание переходов, причём вероятность перехода p принимается известной (имеется в виду, что эти два шага,или, возможно, только второй, повторяются для каждого значения p, перебирая их по сетке, или используя какой-то алгоритм одномерной оптимизации).
Расчёт пуассоновских параметров может быть упрощён, исходя из "принципа подводной лодки" - число всплытий равно числу погружений, или отличается на единицу. То есть число отрезков нахождения в первом и втором состоянии равны или на единицу различны. К сожалению, это не гарантирует того, что количества число точек, соответствующих первому и второму состоянию, равны, они будут равны только в среднем. Однако при достаточно длинных рядах предположение довольно разумное. Предложенная выше оценка методом моментов очень простая, но, возможно, хуже ММП-оценки. Но она, видимо, может быть получена только численно, и оценка методом моментов послужит хорошим начальным приближением.
Имея оценки распределений Пуассона, приступаем ко второму шагу - разметке состояний. Тут хотелось бы сократить с $2^n$ вариантов до $2n$. Напрашивается нечто в духе динамического программирования. Начинаем с конца, с последнего отсчёта, рассматриваем два варианта - что первое или второе состояние. Для каждого вычисляем правдоподобие (только исходя из Пуассонов для двух значений параметра и числа успехов в данном наблюдении). Затем включаем в рассмотрение и предыдущий отсчёт, два варианта, и для каждого рассчитываем правдоподобие, учитывая и распределение для данного наблюдения,и вероятности перехода, и правдоподобие для последующего отсчёта. И выбираем из 4 вариантов ($1\to 1$, $1\to 2$, $2\to 1$, $2\to 2$) два самых правдоподобных (самый правдоподобный, начинающийся с состояния I и самый правдоподобный с состояния II). И так до начала выборки. Получаем последовательность состояний и её правдоподобие. Выбираем значение p, дающее максимум правдоподобия.
Получив последовательность состояний, оцениваем по нему вероятность перехода.

 Профиль  
                  
 
 Re: Статистическая задача
Сообщение27.10.2015, 01:10 
Аватара пользователя


26/05/12
1700
приходит весна?
Вообще, я тут поприкидывал и понял, что ваше самое первое предложение, которое заключается в том, чтобы дикриминировать элементы выборки в плане принадлежности их какому-то состоянию по их значению, не лишена права на жизнь. Если мы сможем добиться того, чтобы вероятность ошибки в одну сторону равнялась вероятности ошибки в другую сторону (и, соответственно, равнялась $1/2$), то средний период между переключениями будет в пределе равняться реальному. Однако, проблема в том, что добиться того, чтобы вес переднего хвоста большего распределения равнялся весу заднего хвоста меньшего распределения для какой-то пороговой величины, можно только с случае непрерывного распределения, а у нас тут дискретное. Есть вариант найти ближайшее пороговое значение, слева и справа от которого дискриминация будет однозначной, а для самого значения стохастической; таким образом уравновешивая неравномерность хвостов. Не знаю, правда, на сколько это будет логичным. В любом случае, надо будет точно знать каким именно распределениям подчиняется случайная величина в первом и втором состояниях. Реально, распределение не Пуассоново, а какое-то гораздо более размытое (для состояния с большим средним во всяком случае).

 Профиль  
                  
 
 Re: Статистическая задача
Сообщение29.10.2015, 08:32 
Аватара пользователя


26/05/12
1700
приходит весна?
А как проверить, что заданная выборка подчиняется распределению с заданной формулой? Есть какая-нибудь мера совпадения выборки и формулы?

 Профиль  
                  
 
 Re: Статистическая задача
Сообщение29.10.2015, 10:24 
Заслуженный участник
Аватара пользователя


11/03/08
9967
Москва
Ну, стандартная же задача. Критерий $\chi^2$, или Колмогорова-Смирнова или $\omega^2$. В любом справочнике.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 35 ]  На страницу Пред.  1, 2, 3

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group