Дисперсия и доверительный интервал

Побережный Александр · 08.02.2011, 10:31

Дисперсия – это мера измерения отклонения случайных величин от среднего. Вычисляется она по формуле
$D=\frac{\sum_{i=1}^n(x_i-x_{cp})^2}n$ как средняя сумма квадратов таких отклонений.
Корень из дисперсии $\sigma=\sqrt{D}$ определяет доверительный интервал для математического ожидания $(x_{cp}-\sigma;x_{cp}+\sigma)$ .
На мой взгляд, при таком подходе завышаются границы доверительного интервала.
Если сумму квадратов, по которой вычисляем дисперсию, разбить на две суммы,
одна $D_{-}=\frac{\sum_{i=1}^k(x_i-x_{cp})^2}k$ для левого интервала,
вторая $D_{+}=\frac{\sum_{i=1}^{n-k}(x_i-x_{cp})^2}{n-k}$ для правого, то интервалы отклонений от среднего значения $(x_{cp}-\sigma_{-};x_{cp}+\sigma_{+})$ существенно уменьшаются, где $\sigma_{-}=\sqrt{D_{-}}$ , $\sigma{+}=\sqrt{D_{+}}$ .
Уважаемы софорумники, подскажите, известно что-нибудь по этому вопросу. Мои математические вычисления подтверждают изложенный вывод.

GAA · 08.02.2011, 22:42

i

Тема перемещена из раздела «Дт. (М)» в Карантин.
Побережный Александр, пожалуйста, посмотрите учебник по математической статистике (например, Ивченко Г. И., Медведев Ю. И. Математическая статистика. djvu) и сформулируйте точно: что Вы строите, приведите Ваши «математические вычисления». После редактирования напишите заявку на возвращение в теме Сообщение в карантине исправлено.

(Уважаемые модераторы, если будете возвращать тему, удалите, пожалуйста, это моё сообщение.)

PAV · 14.02.2011, 12:31

i	Сообщение возвращено в раздел "Помогите решить/разбраться (М)". Сообщение GAA оставляю, поскольку оно по существу дела

-- Пн фев 14, 2011 13:37:53 --

Побережный Александр
Было бы совсем нелишним, если бы Вы последовали данному Вам совету, и сперва изучили бы вопрос. Начнем с того, что строить какие-либо доверительные интервалы без задания вероятностной модели некорректно, а никакой модели Вы не описали и явно даже и не собирались.

Рассмотрим, например, простейшую нормальную модель с неизвестными средним и дисперсией. В этом случае перед $\sigma$ , во-первых, должен стоять числовой коэффициент, определяющий уровень значимости. В указанной модели это будет соответствующая квантиль распределения Стьюдента. А во-вторых, что значительно более важно, сигма еще и должна быть разделена на корень из количества элементов в выборке, чего у Вас нет и близко. Это выражает тот принципиальный момент, что с увеличением объема выборки точность оценки повышается (ширина интервала становится меньше). А у Вас зависимости ширины интервала от числа элементов выборки нет вообще, что делает его совершенно бессмысленным.

Разбирайтесь.

Побережный Александр · 15.02.2011, 10:41

Уважаемый PAV, спасибо за возврат темы на форум. С вашими замечаниями я полностью согласен! Конечно, в интервале будет присутствовать квантиль распределения Стьюдента. Я его и не отменял вовсе. Единственное, что я пытался обосновать, это оценка для $\sigma$ . Хочу привести полностью мои рассуждения.
$D=\frac1n\sum_{i=1}^n(x_i-x_{cp})^2=\frac1n(\sum_{i=1}^k(x_i-x_{cp})^2+\sum_{i=k+1}^{n}(x_i-x_{cp})^2)=\frac{k}n(\frac1k(\sum_{i=1}^k(x_i-x_{cp})^2)+\frac{n-k}n(\frac1{n-k}(\sum_{i=k+1}^{n}(x_i-x_{cp})^2)=\frac{k}nD_-+\frac{n-k}nD_+$
Считаем, что $\sigma=\sqrt{D}$ , $\sigma_-=\sqrt{D_-}$ , $\sigma_+=\sqrt{D_+}$ . Теперь сделаем оценки для сигма $\sigma$ .
$\sigma=\sqrt{D}=\sqrt{\frac{k}nD_-+\frac{n-k}nD_+}<\sqrt{\frac{k}nD_-}+\sqrt{\frac{n-k}nD_+}=\sqrt{\frac{k}n}\sigma_- +\sqrt{\frac{n-k}n}\sigma_+\le\sqrt2\sqrt{\frac{k}nD_-+\frac{n-k}nD_+}=\sqrt2\sqrt{D}=\sqrt2\sigma<2\sigma$
Как вы видите, основное неравенство $\sqrt{\frac{k}n}\sigma_- +\sqrt{\frac{n-k}n}\sigma_+\le\sqrt2\sigma<2\sigma$ .
Следовательно, можно утверждать, что доверительный интервал для средней величины выглядит так:
$(x_{cp}-\sqrt{\frac{k}n}\sigma_-;x_{cp}+\sqrt{\frac{n-k}n}\sigma_+)$
Соответственно, я сделал вывод, что классический доверительный интервал дает завышенные значения.
Естественно, в формуле будет присутствовать квантиль распределения Стьюдента. Его применение осталось обычным. Здесь я его не написал для простоты восприятия.

PAV · 15.02.2011, 10:52

Вторая сумма во всех выкладках должна выглядеть так:
$\sum_{i=k+1}^n$
иначе банально неверно получается, исправьте пока в течении часа можете еще редактировать свой пост

Побережный Александр · 15.02.2011, 10:58

Исправил. Спасибо.

PAV · 15.02.2011, 11:09

А по сути я еще раз говорю - Вы упускаете важнейший момент, а именно - что сигма в доверительном интервале должна быть еще разделена на корень из количества элементов выборки. Вы пытаетесь перейти к двум другим сигмам, полученным по выборкам меньшего объема, и тогда этот корень будет меньше, что в итоге приведет к худшему интервалу, более широкому.

В любом случае,

Побережный Александр в сообщении #413184 писал(а):

Следовательно, можно утверждать, что доверительный интервал для средней величины выглядит так:

это не доказано. Проведите аккуратное доказательство, аналогичное тому, как доказывается классический доверительный интервал, и тогда можно будет на что-то поглядеть.

Побережный Александр · 20.02.2011, 09:39

Уважаемый PAV, я пытался найти обоснование появления $\sigma$ , но во всех найденных мной источниках сигма вводится по определению $\sigma^2=D$ без всякого обоснования. Ее еще называют среднеквадратичным отклонением от средней величины. Но по изложенным выше рассуждениям, такое среднеквадратичное отклонение имеет завышенную величину. Разве не логично пользоваться более точными значениями?

PAV · 20.02.2011, 10:58

Еще раз повторяю: разберитесь в предмете, о котором пытаетесь судить. Пока что Вы пишете полный бред. Речь не о дисперсии как таковой, а о доверительном интервале для математического ожидания. Возьмите правильную формулу, разберитесь в том, как она доказывается, и затем уже пытайтесь провести доказательство для своего "улучшения".

Евгений Машеров · 20.02.2011, 15:07

0. Это "псевдорешение" неверно понятой проблемы. Повышение точности оценок, а если точность меряется дисперсией оценки - то снижение дисперсии, является важной практической проблемой. Но решается она использованием более точных инструментов, повторением и усреднением измерений, а никак не измышлением новых оценок для дисперсии, единственное достоинство которых в том, что они меньше традиционных. Уподоблю придумывание таких оценок расфасовке гречки в пакеты, внешне похожие на прежние, но отчётливо меньше, чтобы потом заявлять - "А в моём магазине покупать дешевле!", при том, что плата за то же количество скорее выросла.

1. Откуда у Вас взялось "сокращение"? Дело в том, что, как и Вы сами видите, традиционная оценка дисперсии может вычисляться, как сумма оценок, полученных по частям выборки, если брать их с весами, пропорциональными объёму подвыборок. Вы же взамен этого желаете брать равные веса, что, при разном количестве элементов в "большей" и "меньшей" подвыборках, означает, что "меньшую" по объёму Вы берёте с бОльшим весом, чем при обычном расчёте. Это и обуславливает "выигрыш".

2. Оставляя в стороне вопрос о том, что Вы, собственно, говоря о доверительном интервале, его не вычисляете, а лишь полуфабрикат для его получения, дисперсию, замечу, что требование малости дисперсии предъявляется никак не к способу её вычисления, иначе лучшей ея оценкой был бы тождественный ноль. От оценок дисперсии требуют близости их к истинному значению, и выбирая разные смыслы понятия "близко к истинному", получаем разные оценки. Так, потребовав того, чтобы матожидание оценки было бы равно истинному значению, приходим к "несмещённым оценкам", и к делителю в формуле дисперсии (n-1). Полученная же Вами оценка от истинного значения отдаляется.

3. Расчёт мер разброса только по отклонениям от среднего одного знака, впрочем, некоторое практическое применение находит. Такой способ употребляется иногда в расчётах финансовых рисков, когда расчёт дисперсии проводится лишь по убыточным сделкам. Однако тут речь не о повышении точности сужением интервала, а о том, что, не зная достоверно закона распределения финансовых результатов, но подозревая, что он ненормален, и даже асимметричен, рассчитывают разброс лишь в "более опасной" части, игнорируя прибыльную

Научный форум dxdy

Дисперсия и доверительный интервал