2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение16.11.2009, 14:44 


16/05/07
172
Москва
Имеется выборка из вещественных чисел (в размере 600 чисел), с min значением -1 и max значением меньше или равным 15.
Для оценки среднего значения можно отбросить элементы выборки равные min (для определенности, в количестве m) и max (в количестве m).
Можно таким образом построенную выборку использовать для построения оценки выборочной дисперсии (она получается в два раза меньше) ?

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение16.11.2009, 19:54 
Заслуженный участник


04/05/09
4587
Нельзя.

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 10:11 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Я бы сказал, что вопрос неоднозначный. Если отбрасывание небольшого (?) числа значений приводит к такому изменению дисперсии, то это подозрительно. Я бы взглянул на гистограмму - похоже ли на то, что это могут быть выбросы?

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 13:26 


16/05/07
172
Москва
Кол-во "-1" = 110 (значит отбрасываем всего 220 значений).

Цитата:
Я бы взглянул на гистограмму - похоже ли на то, что это могут быть выбросы?

"-1" - это фактически и есть выбросы.

C "-1":
Изображение

Без "-1":
Изображение

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 13:51 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Я бы сказал, что то, что от -0.5 до 0.5 можно аппроксимировать смесью двух нормальных законов. Там явно две моды просматриваются.

Для случайного выброса частота -1 уж слишком велика. Это явно некоторое систематическое значение, а каков его содержательный смысл - это нужно смотреть по сути задачи.

Вопрос в том, для чего собственно дисперсию предполагается использовать? Если посчитать ее по цензурированной выборке, а затем применять для входа, в котором так часто -1 встречаются, то это явно будет что-то неадекватное.

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 14:13 


16/05/07
172
Москва
Частота "-1" зависит от способа обработки. Ее можно уменьшить и, видимо, ничего лучше тут не сделаешь.

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 14:18 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Возможно, что-то более определенное можно было бы сказать, если бы узнать, в чем собственно суть задачи и что требуется.
Но пока что довольно очевидно, что хорошо эти данные ни под какой "простой" закон распределения не ложатся, и что тут явно смешаны несколько групп (кластеров).

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 15:42 


16/05/07
172
Москва
Вообще, я понял, что изменив метод обработки, можно вообще избавиться от "-1". Тогда гистограмма получается такой:
Изображение
Сама плотность тут не нужна, дальнейшая цель - это тест на выборку из распределения с маотжиданием равным 0 и доверительные интервалы для среднего (должно быть равно 0 в идеале) и дисперсии.

Если окажется, что не выполняются условия для возможности использования выборочных среднего и дисперсии - то можно увеличивать выборку (эти данные - уже результат обработки для некоторого кластера, размер которого, при необходимости, можно увеличить).

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 15:50 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Можно попробовать аппроксимировать гамма-распределением, по виду похоже вроде...

http://en.wikipedia.org/wiki/Gamma_distribution

Смущают хвосты справа. Они могут на оценку дисперсии влиять.

-- Чт ноя 19, 2009 15:51:41 --

Я не знаю, какой тут можно критерий для математического ожидания использовать (я имею в виду доверительный интервал). Очевидно, что на нормальное распределение это не похоже и вообще оно заведомо несимметрично.

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 16:14 


16/05/07
172
Москва
PAV в сообщении #263512 писал(а):
Я не знаю, какой тут можно критерий для математического ожидания использовать (я имею в виду доверительный интервал).

Mathematica считает эти доверительные интервалы для выборки через StudentTDistribution (с 599 степенями свободы).
http://reference.wolfram.com/mathematic ... nTest.html

А влият ли симметричность то корректность такого вычисления, не знаю, честно говоря (не знаю, почему должно влиять).

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение19.11.2009, 17:39 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Строго говоря, распределение Стьюдента можно применять, если данные распределены по нормальному закону. Если это не так (а здесь это явно не так), то результаты могут быть неадекватны.

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение23.11.2009, 17:46 
Заслуженный участник
Аватара пользователя


11/03/08
9906
Москва
Не то, чтобы нельзя - но категорически нельзя пользоваться обычной формулой для оценки дисперсии, подставив в неё лишь неотброшенные значения. В отличие от оценки среднего, отбросив некоторое количество минимальных и максимальных значений, получим так смещённую оценку для дисперсии. Можно воспользоваться какими-то ранговыми оценками, скажем, оценить дисперсию через семиинтерквартильное расстояние.
Или построив регрессию значений отклонений оставленных в выборке наблюдений от среднего на матожидания соответствующих квантилей нормального распределения, наклон линии регрессии будет соответствовать стандартному отклонению.

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение23.11.2009, 17:48 


16/05/07
172
Москва
Окончательный вид распределения пока таков:
Изображение
Надо будет где-нибудь посмотреть, насколько сильно несимметричность влияет на тест "матожидание=0"...
Вообще, можно это распределение симметризовать, если немного добавить рандомизации, но нужно понять, нужно ли это делать, и как тогда усреднять окончательные результаты.

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение23.11.2009, 18:00 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Я читал про один метод оценки моды, пригодный для асимметричных распределений. Авторы предлагают возвести данные в степень $\beta$, подобрав ее так, чтобы полученное распределение было максимально похоже на нормальное. Далее по полученной новой выборке оцениваются параметры нормального закона $a$ и $\sigma$, после чего уже теоретически рассчитывается, что если мы имеем распределение $\mathcal{N}(a,\sigma)$ и возведем его в степень $1/\beta$, то чему окажется равен интересующий нас параметр. Авторы применяли этот подход для "сильно асимметричных" распределений и вроде как пришли к выводу, что он дает хорошие результаты.

-- Пн ноя 23, 2009 18:04:04 --

Евгений Машеров в сообщении #264652 писал(а):
но категорически нельзя пользоваться обычной формулой для оценки дисперсии, подставив в неё лишь неотброшенные значения.


А вот у меня была задача. Наблюдалось распределение, похожее на нормальное, но также явно наличествовали сильные выбросы. Нужно было оценить дисперсию. Я заметил, что при отбрасывании значений оценка скакала очень сильно. Что-то такое сделал, но так и не было убеждения, что получилось что-то правильное. Не знаете, какие есть подходы к такой задаче?

 Профиль  
                  
 
 Re: Можно ли отбрасывать min и max значения в выбор. дисперсии?
Сообщение25.11.2009, 13:54 


16/05/07
172
Москва
Интересный подход, спасибо.
Правда, по-видимому, если в данных есть отрицательные значений, то данные нужно сначала сдвигуть на некоторую величену.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 18 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group