2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение16.11.2009, 14:44 
Имеется выборка из вещественных чисел (в размере 600 чисел), с min значением -1 и max значением меньше или равным 15.
Для оценки среднего значения можно отбросить элементы выборки равные min (для определенности, в количестве m) и max (в количестве m).
Можно таким образом построенную выборку использовать для построения оценки выборочной дисперсии (она получается в два раза меньше) ?

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение16.11.2009, 19:54 
Нельзя.

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 10:11 
Аватара пользователя
Я бы сказал, что вопрос неоднозначный. Если отбрасывание небольшого (?) числа значений приводит к такому изменению дисперсии, то это подозрительно. Я бы взглянул на гистограмму - похоже ли на то, что это могут быть выбросы?

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 13:26 
Кол-во "-1" = 110 (значит отбрасываем всего 220 значений).

Цитата:
Я бы взглянул на гистограмму - похоже ли на то, что это могут быть выбросы?

"-1" - это фактически и есть выбросы.

C "-1":
Изображение

Без "-1":
Изображение

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 13:51 
Аватара пользователя
Я бы сказал, что то, что от -0.5 до 0.5 можно аппроксимировать смесью двух нормальных законов. Там явно две моды просматриваются.

Для случайного выброса частота -1 уж слишком велика. Это явно некоторое систематическое значение, а каков его содержательный смысл - это нужно смотреть по сути задачи.

Вопрос в том, для чего собственно дисперсию предполагается использовать? Если посчитать ее по цензурированной выборке, а затем применять для входа, в котором так часто -1 встречаются, то это явно будет что-то неадекватное.

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 14:13 
Частота "-1" зависит от способа обработки. Ее можно уменьшить и, видимо, ничего лучше тут не сделаешь.

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 14:18 
Аватара пользователя
Возможно, что-то более определенное можно было бы сказать, если бы узнать, в чем собственно суть задачи и что требуется.
Но пока что довольно очевидно, что хорошо эти данные ни под какой "простой" закон распределения не ложатся, и что тут явно смешаны несколько групп (кластеров).

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 15:42 
Вообще, я понял, что изменив метод обработки, можно вообще избавиться от "-1". Тогда гистограмма получается такой:
Изображение
Сама плотность тут не нужна, дальнейшая цель - это тест на выборку из распределения с маотжиданием равным 0 и доверительные интервалы для среднего (должно быть равно 0 в идеале) и дисперсии.

Если окажется, что не выполняются условия для возможности использования выборочных среднего и дисперсии - то можно увеличивать выборку (эти данные - уже результат обработки для некоторого кластера, размер которого, при необходимости, можно увеличить).

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 15:50 
Аватара пользователя
Можно попробовать аппроксимировать гамма-распределением, по виду похоже вроде...

http://en.wikipedia.org/wiki/Gamma_distribution

Смущают хвосты справа. Они могут на оценку дисперсии влиять.

-- Чт ноя 19, 2009 15:51:41 --

Я не знаю, какой тут можно критерий для математического ожидания использовать (я имею в виду доверительный интервал). Очевидно, что на нормальное распределение это не похоже и вообще оно заведомо несимметрично.

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 16:14 
PAV в сообщении #263512 писал(а):
Я не знаю, какой тут можно критерий для математического ожидания использовать (я имею в виду доверительный интервал).

Mathematica считает эти доверительные интервалы для выборки через StudentTDistribution (с 599 степенями свободы).
http://reference.wolfram.com/mathematic ... nTest.html

А влият ли симметричность то корректность такого вычисления, не знаю, честно говоря (не знаю, почему должно влиять).

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 17:39 
Аватара пользователя
Строго говоря, распределение Стьюдента можно применять, если данные распределены по нормальному закону. Если это не так (а здесь это явно не так), то результаты могут быть неадекватны.

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение23.11.2009, 17:46 
Аватара пользователя
Не то, чтобы нельзя - но категорически нельзя пользоваться обычной формулой для оценки дисперсии, подставив в неё лишь неотброшенные значения. В отличие от оценки среднего, отбросив некоторое количество минимальных и максимальных значений, получим так смещённую оценку для дисперсии. Можно воспользоваться какими-то ранговыми оценками, скажем, оценить дисперсию через семиинтерквартильное расстояние.
Или построив регрессию значений отклонений оставленных в выборке наблюдений от среднего на матожидания соответствующих квантилей нормального распределения, наклон линии регрессии будет соответствовать стандартному отклонению.

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение23.11.2009, 17:48 
Окончательный вид распределения пока таков:
Изображение
Надо будет где-нибудь посмотреть, насколько сильно несимметричность влияет на тест "матожидание=0"...
Вообще, можно это распределение симметризовать, если немного добавить рандомизации, но нужно понять, нужно ли это делать, и как тогда усреднять окончательные результаты.

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение23.11.2009, 18:00 
Аватара пользователя
Я читал про один метод оценки моды, пригодный для асимметричных распределений. Авторы предлагают возвести данные в степень $\beta$, подобрав ее так, чтобы полученное распределение было максимально похоже на нормальное. Далее по полученной новой выборке оцениваются параметры нормального закона $a$ и $\sigma$, после чего уже теоретически рассчитывается, что если мы имеем распределение $\mathcal{N}(a,\sigma)$ и возведем его в степень $1/\beta$, то чему окажется равен интересующий нас параметр. Авторы применяли этот подход для "сильно асимметричных" распределений и вроде как пришли к выводу, что он дает хорошие результаты.

-- Пн ноя 23, 2009 18:04:04 --

Евгений Машеров в сообщении #264652 писал(а):
но категорически нельзя пользоваться обычной формулой для оценки дисперсии, подставив в неё лишь неотброшенные значения.


А вот у меня была задача. Наблюдалось распределение, похожее на нормальное, но также явно наличествовали сильные выбросы. Нужно было оценить дисперсию. Я заметил, что при отбрасывании значений оценка скакала очень сильно. Что-то такое сделал, но так и не было убеждения, что получилось что-то правильное. Не знаете, какие есть подходы к такой задаче?

 
 
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение25.11.2009, 13:54 
Интересный подход, спасибо.
Правда, по-видимому, если в данных есть отрицательные значений, то данные нужно сначала сдвигуть на некоторую величену.

 
 
 [ Сообщений: 18 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group