2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Статистика. Выбросы.
Сообщение16.11.2012, 01:35 
Подскажите, пожалуйста -- какие данные хорошо было бы взять для выявления выбросов? (очень было бы здорово, если бы что-то конкретное посоветовали..). Какой альтернативный метод можно противопоставить выявлению выбросов с помощью межквартильного расстояния (желательно - простой)?

P.S. Желательно такие данные, чтобы анализ на выбросы можно было бы интерпретировать с точки зрения менеджмента.

 
 
 
 Re: Статистика. Выбросы.
Сообщение16.11.2012, 11:56 
Аватара пользователя
Доходности активов.

 
 
 
 Re: Статистика. Выбросы.
Сообщение16.11.2012, 12:58 
Аватара пользователя
mad1math в сообщении #645231 писал(а):
Какой альтернативный метод можно противопоставить выявлению выбросов с помощью межквартильного расстояния (желательно - простой)?

А что за метод такой?

 
 
 
 Re: Статистика. Выбросы.
Сообщение16.11.2012, 14:37 
Евгений Машеров в сообщении #645286 писал(а):
Доходности активов.


Спасибо.

Временной ряд? А какую компанию можно взять? (ну хотя бы пару штук можете предложить, пожалуйста?) Какой промежуток времени между наблюдениями? Сколько наблюдений примерно нужно взять?

-- 16.11.2012, 14:54 --

Александрович в сообщении #645305 писал(а):
А что за метод такой?

http://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81_(%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)

 
 
 
 Re: Статистика. Выбросы.
Сообщение19.11.2012, 08:19 
Аватара пользователя
Ну, я бы взял дневные данные с finance.yahoo.com (adjusted close), вычислил бы доходность, как $\log \frac {x_t} {x_{t-1}}$ или $\frac {x_t - x_{t-1}} {x_{t-1}}$ (это приблизительно равные величины, первая чаще употребительна в теории, вторую иногда предпочитают практики).
По любой известной фирме. Если нужно много выбросов - биотех или IT. Впрочем, отдельные выбросы можно найти и в солидных индексах. Скажем, S&P упал 19.10.1987 на 22.9%, падения на 5-10% в день были в 1950, 1955, 1962, 1987, 1988, 1989, 1997, 1998, 2000, 2001, 2008, 2009, 2011 годах, всего 27 случаев за менее чем 62 года, при том, что стандартное отклонение 0.98%, так что это "выход за границу пять сигма", который в предположении нормального распределения случается один раз на три с половиной миллиона испытаний.

-- 19 ноя 2012, 09:13 --

Критерии для отбрасывания - критерий Шовене, критерий Пирса, критерий Граббса (все основаны на выборочных среднем и дисперсии, наиболее разработан последний
http://en.wikipedia.org/wiki/Grubbs%27_ ... r_outliers ), общий их недостаток в том, что подозрительное значение входит в расчёт среднего и (где особо искажает) дисперсии, так что может себя маскировать (завышая дисперсию и смещая в свою сторону среднее), особенно это проявляется при наличии двух и более выбросов (отчасти лечится "скользящим экзаменом", удалением перед расчётом показателей подозрительного наблюдения из выборки); Q-тест Диксона, в котором рассчитывается разница между подозрительным и ближайшим к нему значением, делится на "размах" (разницу максимального и минимального значений), затем обращаются к предложенной им таблице
http://en.wikipedia.org/wiki/Dixon%27s_Q_test
критерий Титьена-Мура (для случая, когда подозрительны k наблюдений), описание есть в (Айвазян, Енюков, Мешалкин, "Прикладная статистика", том 1) или в (Смоляк Титаренко, "Устойчивые методы оценивания").

 
 
 
 Re: Статистика. Выбросы.
Сообщение19.11.2012, 09:26 
Аватара пользователя
Стандарт ASTM E178: Standard Practice for Dealing With Outlying Observations рассматривает, насколько можно понять из абстракта (полный текст, увы, платен) тесты Диксона и Граббса.

 
 
 
 Re: Статистика. Выбросы.
Сообщение20.11.2012, 17:33 
Спасибо! А можно ли с помощью уравнения регрессии определить выбросы, отталкиваясь от максимального отклонения от тренда(или квадрата отклонения от тренда)?

 
 
 
 Re: Статистика. Выбросы.
Сообщение23.11.2012, 06:19 
Аватара пользователя
Ну, в принципе можно. Вопрос в том, а есть ли тренд? Или это просто подгонка к данным. "Случайное блуждание", стандартная модель в финансах, даёт красивую картину сменяющихся трендов, но каждый всего лишь игра случайностей.

 
 
 
 Re: Статистика. Выбросы.
Сообщение23.11.2012, 13:35 
Аватара пользователя
Евгений Машеров в сообщении #648410 писал(а):
"Случайное блуждание", стандартная модель в финансах, даёт красивую картину сменяющихся трендов, но каждый всего лишь игра случайностей.

Эта игра отсеивается при проверке гипотезы о значимости коэффициента регрессии.

 
 
 
 Re: Статистика. Выбросы.
Сообщение24.11.2012, 16:39 
Аватара пользователя
Сложность в то, что, выбирая отрезок, "трендовость" которого проверяем, значимостью ли коэффициента регрессии или каким-то иным тестом, сперва выбираем "видимый глазом" тренд. Что приводит к тому, что получаем "значимый тренд" там, где всего лишь совпадение знаков у нескольких последовательных отклонений.

 
 
 
 Re: Статистика. Выбросы.
Сообщение25.11.2012, 23:43 
Да, я подразумевал, что тренд есть (да, следовало об этом сказать), значимый по Фишеру.

 
 
 [ Сообщений: 11 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group