2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Дисперсия и доверительный интервал
Сообщение08.02.2011, 10:31 
Дисперсия – это мера измерения отклонения случайных величин от среднего. Вычисляется она по формуле
$$D=\frac{\sum_{i=1}^n(x_i-x_{cp})^2}n$$ как средняя сумма квадратов таких отклонений.
Корень из дисперсии $\sigma=\sqrt{D}$ определяет доверительный интервал для математического ожидания $(x_{cp}-\sigma;x_{cp}+\sigma)$.
На мой взгляд, при таком подходе завышаются границы доверительного интервала.
Если сумму квадратов, по которой вычисляем дисперсию, разбить на две суммы,
одна $$D_{-}=\frac{\sum_{i=1}^k(x_i-x_{cp})^2}k$$для левого интервала,
вторая $$D_{+}=\frac{\sum_{i=1}^{n-k}(x_i-x_{cp})^2}{n-k}$$ для правого, то интервалы отклонений от среднего значения $(x_{cp}-\sigma_{-};x_{cp}+\sigma_{+})$ существенно уменьшаются, где $\sigma_{-}=\sqrt{D_{-}}$, $\sigma{+}=\sqrt{D_{+}}$.
Уважаемы софорумники, подскажите, известно что-нибудь по этому вопросу. Мои математические вычисления подтверждают изложенный вывод.

 
 
 
 Re: Дисперсия и доверительный интервал
Сообщение08.02.2011, 22:42 
 i  Тема перемещена из раздела «Дт. (М)» в Карантин.
Побережный Александр, пожалуйста, посмотрите учебник по математической статистике (например, Ивченко Г. И., Медведев Ю. И. Математическая статистика. djvu) и сформулируйте точно: что Вы строите, приведите Ваши «математические вычисления». После редактирования напишите заявку на возвращение в теме Сообщение в карантине исправлено.

(Уважаемые модераторы, если будете возвращать тему, удалите, пожалуйста, это моё сообщение.)

 
 
 
 Re: Дисперсия и доверительный интервал
Сообщение14.02.2011, 12:31 
Аватара пользователя
 i  Сообщение возвращено в раздел "Помогите решить/разбраться (М)". Сообщение GAA оставляю, поскольку оно по существу дела


-- Пн фев 14, 2011 13:37:53 --

Побережный Александр
Было бы совсем нелишним, если бы Вы последовали данному Вам совету, и сперва изучили бы вопрос. Начнем с того, что строить какие-либо доверительные интервалы без задания вероятностной модели некорректно, а никакой модели Вы не описали и явно даже и не собирались.

Рассмотрим, например, простейшую нормальную модель с неизвестными средним и дисперсией. В этом случае перед $\sigma$, во-первых, должен стоять числовой коэффициент, определяющий уровень значимости. В указанной модели это будет соответствующая квантиль распределения Стьюдента. А во-вторых, что значительно более важно, сигма еще и должна быть разделена на корень из количества элементов в выборке, чего у Вас нет и близко. Это выражает тот принципиальный момент, что с увеличением объема выборки точность оценки повышается (ширина интервала становится меньше). А у Вас зависимости ширины интервала от числа элементов выборки нет вообще, что делает его совершенно бессмысленным.

Разбирайтесь.

 
 
 
 Re: Дисперсия и доверительный интервал
Сообщение15.02.2011, 10:41 
Уважаемый PAV, спасибо за возврат темы на форум. С вашими замечаниями я полностью согласен! Конечно, в интервале будет присутствовать квантиль распределения Стьюдента. Я его и не отменял вовсе. Единственное, что я пытался обосновать, это оценка для $\sigma$. Хочу привести полностью мои рассуждения.
$$D=\frac1n\sum_{i=1}^n(x_i-x_{cp})^2=\frac1n(\sum_{i=1}^k(x_i-x_{cp})^2+\sum_{i=k+1}^{n}(x_i-x_{cp})^2)=\frac{k}n(\frac1k(\sum_{i=1}^k(x_i-x_{cp})^2)+\frac{n-k}n(\frac1{n-k}(\sum_{i=k+1}^{n}(x_i-x_{cp})^2)=\frac{k}nD_-+\frac{n-k}nD_+$$
Считаем, что $\sigma=\sqrt{D}$, $\sigma_-=\sqrt{D_-}$, $\sigma_+=\sqrt{D_+}$. Теперь сделаем оценки для сигма $\sigma$.
$\sigma=\sqrt{D}=\sqrt{\frac{k}nD_-+\frac{n-k}nD_+}<\sqrt{\frac{k}nD_-}+\sqrt{\frac{n-k}nD_+}=\sqrt{\frac{k}n}\sigma_- +\sqrt{\frac{n-k}n}\sigma_+\le\sqrt2\sqrt{\frac{k}nD_-+\frac{n-k}nD_+}=\sqrt2\sqrt{D}=\sqrt2\sigma<2\sigma$
Как вы видите, основное неравенство $\sqrt{\frac{k}n}\sigma_- +\sqrt{\frac{n-k}n}\sigma_+\le\sqrt2\sigma<2\sigma$.
Следовательно, можно утверждать, что доверительный интервал для средней величины выглядит так:
$(x_{cp}-\sqrt{\frac{k}n}\sigma_-;x_{cp}+\sqrt{\frac{n-k}n}\sigma_+)$
Соответственно, я сделал вывод, что классический доверительный интервал дает завышенные значения.
Естественно, в формуле будет присутствовать квантиль распределения Стьюдента. Его применение осталось обычным. Здесь я его не написал для простоты восприятия.

 
 
 
 Re: Дисперсия и доверительный интервал
Сообщение15.02.2011, 10:52 
Аватара пользователя
Вторая сумма во всех выкладках должна выглядеть так:
$$\sum_{i=k+1}^n$$
иначе банально неверно получается, исправьте пока в течении часа можете еще редактировать свой пост

 
 
 
 Re: Дисперсия и доверительный интервал
Сообщение15.02.2011, 10:58 
Исправил. Спасибо.

 
 
 
 Re: Дисперсия и доверительный интервал
Сообщение15.02.2011, 11:09 
Аватара пользователя
А по сути я еще раз говорю - Вы упускаете важнейший момент, а именно - что сигма в доверительном интервале должна быть еще разделена на корень из количества элементов выборки. Вы пытаетесь перейти к двум другим сигмам, полученным по выборкам меньшего объема, и тогда этот корень будет меньше, что в итоге приведет к худшему интервалу, более широкому.

В любом случае,
Побережный Александр в сообщении #413184 писал(а):
Следовательно, можно утверждать, что доверительный интервал для средней величины выглядит так:

это не доказано. Проведите аккуратное доказательство, аналогичное тому, как доказывается классический доверительный интервал, и тогда можно будет на что-то поглядеть.

 
 
 
 Re: Дисперсия и доверительный интервал
Сообщение20.02.2011, 09:39 
Уважаемый PAV, я пытался найти обоснование появления $\sigma$, но во всех найденных мной источниках сигма вводится по определению $\sigma^2=D$ без всякого обоснования. Ее еще называют среднеквадратичным отклонением от средней величины. Но по изложенным выше рассуждениям, такое среднеквадратичное отклонение имеет завышенную величину. Разве не логично пользоваться более точными значениями?

 
 
 
 Re: Дисперсия и доверительный интервал
Сообщение20.02.2011, 10:58 
Аватара пользователя
Еще раз повторяю: разберитесь в предмете, о котором пытаетесь судить. Пока что Вы пишете полный бред. Речь не о дисперсии как таковой, а о доверительном интервале для математического ожидания. Возьмите правильную формулу, разберитесь в том, как она доказывается, и затем уже пытайтесь провести доказательство для своего "улучшения".

 
 
 
 Re: Дисперсия и доверительный интервал
Сообщение20.02.2011, 15:07 
Аватара пользователя
0. Это "псевдорешение" неверно понятой проблемы. Повышение точности оценок, а если точность меряется дисперсией оценки - то снижение дисперсии, является важной практической проблемой. Но решается она использованием более точных инструментов, повторением и усреднением измерений, а никак не измышлением новых оценок для дисперсии, единственное достоинство которых в том, что они меньше традиционных. Уподоблю придумывание таких оценок расфасовке гречки в пакеты, внешне похожие на прежние, но отчётливо меньше, чтобы потом заявлять - "А в моём магазине покупать дешевле!", при том, что плата за то же количество скорее выросла.

1. Откуда у Вас взялось "сокращение"? Дело в том, что, как и Вы сами видите, традиционная оценка дисперсии может вычисляться, как сумма оценок, полученных по частям выборки, если брать их с весами, пропорциональными объёму подвыборок. Вы же взамен этого желаете брать равные веса, что, при разном количестве элементов в "большей" и "меньшей" подвыборках, означает, что "меньшую" по объёму Вы берёте с бОльшим весом, чем при обычном расчёте. Это и обуславливает "выигрыш".

2. Оставляя в стороне вопрос о том, что Вы, собственно, говоря о доверительном интервале, его не вычисляете, а лишь полуфабрикат для его получения, дисперсию, замечу, что требование малости дисперсии предъявляется никак не к способу её вычисления, иначе лучшей ея оценкой был бы тождественный ноль. От оценок дисперсии требуют близости их к истинному значению, и выбирая разные смыслы понятия "близко к истинному", получаем разные оценки. Так, потребовав того, чтобы матожидание оценки было бы равно истинному значению, приходим к "несмещённым оценкам", и к делителю в формуле дисперсии (n-1). Полученная же Вами оценка от истинного значения отдаляется.

3. Расчёт мер разброса только по отклонениям от среднего одного знака, впрочем, некоторое практическое применение находит. Такой способ употребляется иногда в расчётах финансовых рисков, когда расчёт дисперсии проводится лишь по убыточным сделкам. Однако тут речь не о повышении точности сужением интервала, а о том, что, не зная достоверно закона распределения финансовых результатов, но подозревая, что он ненормален, и даже асимметричен, рассчитывают разброс лишь в "более опасной" части, игнорируя прибыльную

 
 
 [ Сообщений: 10 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group