Гипотеза об эрланговском распределении.

_hum_ · 23/12/07 1763

T(h)rasher в сообщении #710749 писал(а):

_hum_, раньше никогда не сталкивался.

Ну и ладно :)
В принципе, это то же самое, как если вы берете уровень значимости, например, 0.05 и проверяете, проходит выборка тест или нет. Если проходит, то можно взять и попробовать протестировать при более высоком уровне значимости, например 0.06. Опять, если проходит, то попробовать на 0.07 и т.д., пока не придете к некоторому максимальному уровню, за которым уже ваша гипотеза будет отвергаться. Вот это максимальное значение и есть p-значение. Оно, очевидно, отражает "надежность" принятия вашей гипотезы.

T(h)rasher · 16/04/11 31

_hum_ в сообщении #710758 писал(а):

В принципе, это то же самое, как если вы берете уровень значимости, например, 0.05 и проверяете, проходит выборка тест или нет. Если проходит, то можно взять и попробовать протестировать при более высоком уровне значимости, например 0.06. Опять, если проходит, то попробовать на 0.07 и т.д., пока не придете к некоторому максимальному уровню, за которым уже ваша гипотеза будет отвергаться. Вот это максимальное значение и есть p-значение. Оно, очевидно, отражает "надежность" принятия вашей гипотезы.

Теперь более понятно стало, что это такое. Спасибо.

--mS-- · 23/11/06 4171

_hum_ в сообщении #710715 писал(а):

2-ой: нам дали единcтвенную выборку и спрашивают, надо ли открывать огонь.

Теперь второй случай. А вот здесь можно поступить по-другому. Не мудрствуя лукаво, взять и подвергнуть выборку тестированию на какую-нибудь простую гипотезу, например, $H=\{\theta = a_2\}$ . Если она пройдет тест с уровнем значимости (== ошибка первого рода), например, 0.8, то мы сможем сказать начальству:
"господин генерал, тест, который очень серьезно относится к запуску ракеты, а именно, даже когда нужно стрелять, он более чем в 80% случаев сомневается и не дает подтверждения, сейчас говорит о наличии цели."
Если же выборка не пройдет тест, то сможем только развести руками и сказать, "не знаем" (поскольку о мощности такой процедуры тестирования ничего нельзя сказать).
Все хорошо, но какую же из простых гипотез в таком подходе лучше выбрать на проверку (если их, например, очень много, а времени в обрез). Логично не гадать, а взять $a_i$ , которое совпадает с некоторым оценочным значением $\theta^*$ . Что от этого изменится? Да ничего. Как проводили процедуру обнаружения цели, так и будем продолжать (несмотря на то, что раньше брали "от балды", а сейчас определяем по самой выборке). Единственное, теперь умный лейтенант может заметить "братцы, так если вы берете в качестве параметра оценку максимального правдоподобия, то можно же использовать не ваш "старинный" подход с тестом по простой гипотезе, а тест Никулина, который может оказаться не таким капризным к принятию решений по открытию огня (ошибку первого рода можно уменьшить), и в то же время гарантированно довольно мощным (то есть, не открывающим огонь понапрасну)."

Вот, другое дело: ошибка первого рода у критерия, который Вы предлагаете использовать, существенно больше, чем получается на самом деле. Т.е. гипотеза простой не оказывается. Умный лейтенант удовлетворён. Стоило ли это затраченного времени?

_hum_ в сообщении #710715 писал(а):

А здесь какая крамола?

А почему бы Вам не посоветовать ещё сотню интервалов добавить - их там много можно найти от 72 до $+\infty$ , и гарантированно принять гипотезу?

-- Вт апр 16, 2013 07:56:05 --

T(h)rasher в сообщении #710630 писал(а):

Что я имел в виду по поводу частот, возможно случилось недопонимание. У меня есть некий ряд чисел: от 0 до 72. В этом ряду есть повторяющиеся значения: некоторое количество 0, 1, 2, 3, 4, 5.... и т.д.

Выборка у Вас целочисленная. Откуда взялась вообще гипотеза о распределении Эрланга? Случайная величина, у которой есть плотность распределения, не может давать целочисленных значений, и уж тем более повторяющихся. Разве что кто-то округлял значения, полученные в эксперименте. Почему Вы полагаете, что гипотеза должна приниматься?

Александрович · 21/01/09 3948 Дивногорск

T(h)rasher в сообщении #710201 писал(а):

В числителе у этой дроби квадрат разности соответствующих эмпирических и теоритических частот, а в знаменателе - соответствующая эмпирическая частота. Для получения наблюдаемого значения критерия эти дроби складываются.

В знаменателе у этой дроби должна стоять теоретическая частота.

-- Вт апр 16, 2013 08:43:55 --

T(h)rasher в сообщении #710523 писал(а):

Выборочную среднюю нашел по формуле $\bar{x}_{v}=\frac{1} {n} \sum_{i=1}^n x_in_i$ , где $x_i$ - это $i$ -ая варианта выборки, а $n_i$ - это соответствующая ей частота (количество таких значений в выборке).
Выборочную дисперсию нашел по формуле $D_v=\sum_{i=1}^k \frac {n_i (x_i-\bar{x}_{v})^2}{n}$ . $k$ - это как я понял количество вариант, а $n$ - объем самой выборки.
Далее я нашел $k$ и $\lambda$ по методу моментов.
$k$ у меня получилось 1,5827. Я округлил до 2. $\lambda$ получилась 0,119, я округлил до 0,120.

Параметр формы эрланговского распределения удобно находится из коэффициента вариации, затем округляется до целых и через среднее значение выборки оценивается параметр масштаба.

-- Вт апр 16, 2013 08:57:01 --

T(h)rasher в сообщении #710687 писал(а):

число степеней свободы равно: 6-1-2=3 (из 10 интервалов я сделал 6, объединив последние 5 интервалов в один, т.к. в каждом из них было менее 5 значений).

Обычно объединяют интервалы, если теоретическая частота меньше 5.

-- Вт апр 16, 2013 09:02:18 --

_hum_ в сообщении #710171 писал(а):

--mS-- в сообщении #710162 писал(а):

Критерий Колмогорова в принципе не умеет проверять сложную гипотезу.

Я имел в виду, как и делал автор, берем подставляем оценочные параметры - получаем простую - и вперед по Колмогорову. Чем это хуже того же подхода по Пирсону? Почему на него все так ведутся?

По этому поводу встречал следующую рекамендацию, исходная выборка делится на две, по одной оценивают параметры, а по второй проверяют гипотезу по критерию Колмогорова.

T(h)rasher · 16/04/11 31

--mS-- в сообщении #710848 писал(а):

Выборка у Вас целочисленная. Откуда взялась вообще гипотеза о распределении Эрланга? Случайная величина, у которой есть плотность распределения, не может давать целочисленных значений, и уж тем более повторяющихся. Разве что кто-то округлял значения, полученные в эксперименте. Почему Вы полагаете, что гипотеза должна приниматься?

По построенной гистограмме мне сказали, что это Эрланговское распределение, а преподаватель попросил проверить гипотезу, чтобы убедиться в этом..Вот, собственно, интеграл от плотности - от минимального значения выборки до максимального:
http://www.wolframalpha.com/input/?i=in ... 1385x%29dx

Может быть, здесь не распределение Эрланга вовсе, а гамма-распределение? Параметр $k$ как раз не целый, если не округлять.

Видимо, стоит сказать о самой выборке. Это интервалы (в минутах) между поездами, прибывающими на станцию с различных направлений. Случается так, что два поезда пришли одновременно. Это возможно, если они приходят в разные парки станции. Вот распределение этих самых интервалов между прибывающими поездами я и проверяю.

Александрович в сообщении #710850 писал(а):

В знаменателе у этой дроби должна стоять теоретическая частота.

Да, Вы правы, я опечатался. Когда я проводил вычисления, я делил на теоретические частоты.

Александрович в сообщении #710850 писал(а):

Параметр формы эрланговского распределения удобно находится из коэффициента вариации, затем округляется до целых и через среднее значение выборки оценивается параметр масштаба.

Я находил через метод моментов, потому что так мне посоветовал сделать преподаватель..Можете поподробней объяснить Ваш метод нахождения параметров распределения? Может быть, будут другие результаты.

Александрович в сообщении #710850 писал(а):

Обычно объединяют интервалы, если теоретическая частота меньше 5.

Вот тут я действительно ошибся. Я объединял интервалы, если эмпирическая частота была меньше 5. Опять же я это делал, опираясь на учебник Гмурмана В.Е. "Руководство к решению задач по теории вероятностей и математической статистике", 2004 г., стр. 270, там объединяются интервалы, имеющие эмпирические частоты меньше 5, при этом одна из соответствующих теоретических частот больше 5.

--mS-- · 23/11/06 4171

T(h)rasher в сообщении #710946 писал(а):

Может быть, здесь не распределение Эрланга вовсе, а гамма-распределение? Параметр $k$ как раз не целый, если не округлять.

Видимо, стоит сказать о самой выборке. Это интервалы (в минутах) между поездами, прибывающими на станцию с различных направлений. Случается так, что два поезда пришли одновременно. Это возможно, если они приходят в разные парки станции. Вот распределение этих самых интервалов между прибывающими поездами я и проверяю.

Эрланг - это всего лишь частный случай гамма. Попробуйте не округлять.

На мой взгляд, нет никаких оснований считать, что эта величина может подчиняться распределению Эрланга. Во-первых, явно смесь разных распределений. Во-вторых, в лучшем случае показательных, но никак не Эрланга.

Распределение Эрланга есть всего лишь распределение суммы $k$ независимых показательных случайных величин с параметром $\lambda$ . В пуассоновском потоке - распределение момента $k$ -го события потока. Какое отношение к этому распределению может иметь интервал между последовательными прибытиями поездов - для меня загадка.

Александрович · 21/01/09 3948 Дивногорск

Все-таки хотелось посмотреть на гистограмму. Это и распределением Вейбулла может быть.

T(h)rasher · 16/04/11 31

--mS-- в сообщении #711013 писал(а):

Эрланг - это всего лишь частный случай гамма. Попробуйте не округлять.

Хорошо, но я не знаю как добавить число 0,583863751 (это $k-1$ ) в формулу плотности в нотации сайта вольфрам-альфа, а именно в знаменатель этой формулы, т.е. $k-1!$ .

--mS-- в сообщении #711013 писал(а):

На мой взгляд, нет никаких оснований считать, что эта величина может подчиняться распределению Эрланга. Во-первых, явно смесь разных распределений. Во-вторых, в лучшем случае показательных, но никак не Эрланга.

С Ваших слов я понял, что случайная величина (а интервал между поездами это случайная величина) не может иметь целочисленных значений, следовательно о какой гипотезе можно говорить? Или все-таки можно?

--mS-- в сообщении #711013 писал(а):

Распределение Эрланга есть всего лишь распределение суммы независимых показательных случайных величин с параметром . В пуассоновском потоке - распределение момента -го события потока. Какое отношение к этому распределению может иметь интервал между последовательными прибытиями поездов - для меня загадка.

Еще раз Вам говорю - я решил, что интервалы имеют Эрланговское распределение, посмотрев на гистограмму.

Александрович в сообщении #711033 писал(а):

Все-таки хотелось посмотреть на гистограмму. Это и распределением Вейбулла может быть.

При вставке изображения с помощью тега мне выводит сообщение о том, что не удалось определить размер изображения.

_hum_ · 23/12/07 1763

--mS-- в сообщении #710848 писал(а):

Вот, другое дело: ошибка первого рода у критерия, который Вы предлагаете использовать, существенно больше, чем получается на самом деле. Т.е. гипотеза простой не оказывается. Умный лейтенант удовлетворён. Стоило ли это затраченного времени?

Я ничего не понял. Все настолько иносказательно, что "как хочешь, так и понимай".

--mS-- в сообщении #710848 писал(а):

А почему бы Вам не посоветовать ещё сотню интервалов добавить - их там много можно найти от 72 до $+\infty$ , и гарантированно принять гипотезу?

В приложении критерия Пирсона для непрерывных с.в. предполагается, что вместо них выступают их дискретные представители, которые получаются путем разбиения всей области значений на интервалы и приписывания каждому такому интервалу одного значения с вероятностью его появления, равной вероятности попадания в данный интервал значения исходной с.в. ТС сказал, что он выполнил построение дискретизации только до значения 72, тогда как эрланговское распределение простирается на всю положительную полуось. Соответственно, его дискретизация будет неполной - ен будет хватать "хвостовых" значений и вероятностей. Вот я и предложил дополнить недостающим интервалом (он хоть и большой, но на нем вероятности близких к эмпирическому эрланговских распределений будут малы). Что здесь не так?

T(h)rasher · 16/04/11 31

Никогда раньше не добавлял к последнему интервалу пустой, хотя гипотезу проверяю не первый раз. Нас таким методам не учили. Тот факт, что сумма вероятностей интервалов (тех, которых 10 штук) чуть меньше 1, говорит о том, что что-то не так с выборкой или как раз с параметром $k$ .

Гистограмма:

хостинг фотографий

По поводу значения параметра $k$ . В моем случае параметр равен 1,583863751 (найден с помощью метода моментов). В итоге значение $k-1$ получается равным 0,583863751. Возвести в это число числитель формулы плотности $\lambda x$ не сложно, но вот как быть со знаменателем ( $k-1 !$ )? Ведь факториал числа 0,583863751 - это 0.

--mS-- · 23/11/06 4171

T(h)rasher в сообщении #711123 писал(а):

Хорошо, но я не знаю как добавить число 0,583863751 (это $k-1$ ) в формулу плотности в нотации сайта вольфрам-альфа, а именно в знаменатель этой формулы, т.е. $k-1!$ .

Попробуйте научиться пользоваться поиском.
гамма-распределение,
гамма-функция
http://www.wolframalpha.com/examples/GammaFunctions.html
и т.п.

T(h)rasher в сообщении #711123 писал(а):

С Ваших слов я понял, что случайная величина (а интервал между поездами это случайная величина) не может иметь целочисленных значений, следовательно о какой гипотезе можно говорить? Или все-таки можно?

Случайная величина может принимать любые значения. Тем более раз Ваши наблюдения - просто округления. Речь шла о другом. Гипотеза не должна появляться с потолка. Она должна быть разумной исходя из ожидаемых качеств эксперимента.

-- Ср апр 17, 2013 01:02:17 --

_hum_ в сообщении #711183 писал(а):

Я ничего не понял. Все настолько иносказательно, что "как хочешь, так и понимай".

Ну, иносказание - не моё, а Ваше, я лишь процитировала. Ничем не могу больше помочь. Вы просили объяснений - Вы их получили и согласились с ними в итоге. У меня нет больше времени на пустой диалог.

_hum_ в сообщении #711183 писал(а):

--mS-- в сообщении #710848 писал(а):

А почему бы Вам не посоветовать ещё сотню интервалов добавить - их там много можно найти от 72 до $+\infty$ , и гарантированно принять гипотезу?

Вот я и предложил дополнить недостающим интервалом (он хоть и большой, но на нем вероятности близких к эмпирическому эрланговских распределений будут малы). Что здесь не так?

Повторяю своё предложение (в надежде, что Вы достаточно квалифицированы и сможете самостоятельно осознать его абсурдность и тем самым абсурдность своего совета). Добавьте не один. а сотню интервалов. От 72 до 82, от 82 до 92 и т.д.

И довольно. ТС наша пустая беседа бесполезна, ему бы с азами разобраться. Я тоже смысла в ней не нахожу.

T(h)rasher · 16/04/11 31

--mS-- в сообщении #711239 писал(а):

Случайная величина может принимать любые значения. Тем более раз Ваши наблюдения - просто округления. Речь шла о другом. Гипотеза не должна появляться с потолка. Она должна быть разумной исходя из ожидаемых качеств эксперимента.

При получении результатов наблюдений я ничего не округлял. Я вычитал из времени прибытия текущего поезда время прибытия предыдущего поезда. Таким образом получил эти интервалы.

Подскажите пожалуйста, откуда можно взять гипотезу. Я всегда брал гипотезу или исходя из имеющихся данных или по совету преподавателя. В данном конкретном случае, каюсь, я не сообразил показать ему гистограмму.

--mS-- · 23/11/06 4171

T(h)rasher в сообщении #711254 писал(а):

При получении результатов наблюдений я ничего не округлял. Я вычитал из времени прибытия текущего поезда время прибытия предыдущего поезда. Таким образом получил эти интервалы.

Если бы не округляли, времена были бы не целые. А, например, $7.35176253165237...$ сек.

T(h)rasher в сообщении #711254 писал(а):

Подскажите пожалуйста, откуда можно взять гипотезу.

Не знаю. Кто же знает, какими особенностями обладают поезда на Вашей станции и чего от них ждать.

T(h)rasher · 16/04/11 31

--mS-- в сообщении #711263 писал(а):

Если бы не округляли, времена были бы не целые. А, например, сек.

Да, это так, но во времени прибытия секунды не учитываются (по ним просто нет данных), учитываются только часы и минуты. Часы учитывать в данном случае бессмысленно, поскольку поезда приходят в основном достаточно часто, поэтому я учитываю только минуты.

Интеграл, считающий функцию плотности гамма-распределения с моими параметрами (на всем отрезке от 0 до 72), дает худшее значение - 0,9747.
http://www.wolframalpha.com/input/?i=in ... 1469%29+dx

Интеграл, считающий функцию плотности показательного распределения с параметром $\lambda=\frac {1}{\bar{x}_{v}}$ (на всем отрезке от 0 до 72), дает значение 0,995573.
http://www.wolframalpha.com/input/?i=in ... 8814x%29dx

Может быть, я не правильно интерпретировал параметр $\theta$ как $1/\lambda$ ?
Возможно, что данная выборка не имеет одного конкретного распределения, а является смесью распределений, о котороой Вы говорили выше?

--mS-- · 23/11/06 4171

Да нет, оценки Вы верно находили.
Посмотрите, в выборке есть явные пики на "круглых" значениях. Они всё сильно портят. Вместо них, скорее всего, есть как-то размазанные реальные времена. Кто-то просто очень любил круглые цифры.

Но даже и с такой выборкой согласие с эрланговским распределением не такое уж и плохое. Приходится, конечно, мудрить с границами интервалов, чтобы "круглые" времена находились внутри, а не вблизи границ. Ну и чтоб вероятности были не слишком малы или велики.

Если разбивать ось точками $0,\, 1.5,\, 3.5,\, 6.5,\, 8.5,\, 11.5,\,16.5,\,21.5,\,28.5,\,38.5,\,+\infty$ - 10 интервалов, то (с неокругленными оценками) вероятности в них попасть
$0.0415813$ , $0.0965569$ , $0.161913$ , $0.102285$ , $0.134794$ , $0.170374$ , $0.112561$ , $0.0913876$ , $0.0575685$ и $0.0309779$ ,
статистика критерия получается $16.370$ , реально достигнутый уровень значимости (p-value) $1-\chi^2_7(16.37)=0.02194$ . В принципе при столь корявой выборке вполне сносное значение, чтобы (с очень большой осторожностью) не считать гипотезу о гамма-распределении совсем абсурдной. При очень большом желании можно и принять.

Научный форум dxdy

Правила форума

Гипотеза об эрланговском распределении.

Кто сейчас на конференции