Гипотеза об эрланговском распределении.

T(h)rasher · 16/04/11 31

Функцию распределения Эрланга нашел в интернете, выглядит она так: $F(x)=(1-i \eta a)^{-k}$ . Параметр $i$ - это мнимая единица, параметр $a$ - это, видимо, $\lambda$ (в источнике сказано только о мнимой единице), а вот что за параметр $\eta$ ? Даже зная саму функцию я все равно не понимаю как с ее помощью находить вероятности интервалов.

_hum_ · 23/12/07 1763

--mS-- в сообщении #710355 писал(а):

Автор, если ему верить, нашёл оценки для параметров - обычно именно это делают, когда говорят "я нашёл параметры". В любом случае, как бы их не называть, это объекты, вычисленные по данной выборке. На другой выборке будут другие. Гипотеза простой никак не станет. Простая гипотеза - она одна и та же, какой бы ни была выборка из неё.

Да как бы без разницы, откуда мы берем значение параметра. Просто если оно "от балды взятое", то мы имеем право применить только тест на простую гипотезу. Если же оно (значение!) выбирается каким-то специальным образом, например, как вы говорили, по методу минимума хи-квадрат, то тогда мы (дополнительно!) имеем право применить к этим же данным еще и "обобщенный" пирсоновский тест, строящийся на сложных гипотезах. Грубо говоря:

пусть у нас есть набор данных. Выберем любое числовое значение $a$ . Тогда:

1) имеем право тестировать данные на принадлежность эрланговоскому распределению с помощью обычного критерия согласия Пирсона (тестирвоание простой гипотезы), в котором в соответствующем месте неизвестный параметр распределения $\theta$ заменяется на $a$ [если проходит тест, значит, можно считать эрланговским, если нет, то ничего сказать нельзя];

2) если число $a$ удовлетворяет равенству $a = \mathrm{arg} \min_\theta (\chi^2_\theta)^*$ , то имеем право тестировать данные на принадлжность эрланговоскому распределению с помощью "обобщенного" теста Пирсона, в котором в соответствующем месте $\theta$ заменяется на $a$ ;

3) если число $a$ удовлетворяет равенству $a = \mathrm{arg} \max_\theta L_\theta$ , где $L_\theta$ - функция правдоподобия, то имеем право тестировать данные на принадлжность эрланговоскому распределению с помощью теста Никулина, в котором в соответствующем месте $\theta$ заменяется на $a$ ;

и т.д.

Ясно, что мощности этих критериев будут разные, но это уже другой вопрос (вопрос выбора теста). Главное, что применение тестов корректно - ничто не запрещает нам проводить тестирование по п.1), даже если соответствующее значение $a$ удовлетворяет условию п.2) или п.3).

Автор, насколько я понял, использует обычный критерий Пирсона, в котором в качестве занчений параметров выбирает значения оценок. А так корректно делать, только если считать, что осуществляется тестирование по п.1) - когда вывод о принадлежности выборки распределению из параметрического семейства распределений строится на основе результата теста о принадлежности выборки какому-то конкретному распределению. В этом случае, очевидно, используется подход с тестированием простой гипотезы.

-- Пн апр 15, 2013 16:36:47 --

T(h)rasher, вы не путайте функцию распределения $F = F(x)$ , плотность распределения $f = f(x)$ и характеристическую функцию $\varphi = \varphi(t)$ .

Вероятность для интервала $(a,b]$ можно найти либо с помощью функции распределения, либо с помощью плотности распределения (учитывая, что $f(x) = F'(x)$ ):
$P\big((a,b]\big) = F(b) - F(a) = \int_{a}^{b} f(x)dx.$

T(h)rasher · 16/04/11 31

_hum_, спасибо, я как раз и перепутал...Но дело в том, что распределение имеющейся у меня выборки не является эрланговским (исходя из проведенной процедуры проверки гипотезы по критерию Пирсона), хотя гистограмма, построенная в Excel говорит об обратном, не могу понять в чем дело..
Выборочную среднюю нашел по формуле $\bar{x}_{v}=\frac{1} {n} \sum_{i=1}^n x_in_i$ , где $x_i$ - это $i$ -ая варианта выборки, а $n_i$ - это соответствующая ей частота (количество таких значений в выборке).
Выборочную дисперсию нашел по формуле $D_v=\sum_{i=1}^k \frac {n_i (x_i-\bar{x}_{v})^2}{n}$ . $k$ - это как я понял количество вариант, а $n$ - объем самой выборки.
Далее я нашел $k$ и $\lambda$ по методу моментов.
$k$ у меня получилось 1,5827. Я округлил до 2. $\lambda$ получилась 0,119, я округлил до 0,120.

_hum_ · 23/12/07 1763

T(h)rasher, вы бы на гистограмму наложили график значений вероятностей интервалов - он должен "повторять" профиль гистограммы. И округлять значения не стоит.

T(h)rasher · 16/04/11 31

Ясно, спасибо..

-- Пн апр 15, 2013 18:08:26 --

Я посчитал по ссылке (http://www.wolframalpha.com/input/?i=in ... 1385x%29dx) интеграл от минимального значения выборки до максимального ( $k=$ 2, $\lambda=$ 0,119231385). Судя по получившемуся графику, это Эрланговское распределение, но сумма вероятностей всех интервалов (я разбил выборку на 10 интервалов) получилась чуть меньше 1. При этом, когда я считал в Excel вероятности самих вариант выборки (вероятность пропорцианальна частоте варианты) сумма вероятностей получилась строго 1.

--mS-- · 23/11/06 4171

T(h)rasher в сообщении #710482 писал(а):

Функцию распределения Эрланга нашел в интернете, выглядит она так: $F(x)=(1-i \eta a)^{-k}$ . Параметр $i$ - это мнимая единица

Функция распределения не может быть комплекснозначной.

Откройте любой учебник и изучите, что такое функции распределения и плотности распределения.

-- Пн апр 15, 2013 21:46:50 --

T(h)rasher в сообщении #710549 писал(а):

но сумма вероятностей всех интервалов (я разбил выборку на 10 интервалов) получилась чуть меньше 1.

Наверное, это потому, что интервалы у Вас не покрывают всю область $(0,\, +\infty)$ . Почему до 72? Эрланговское распределение имеет положительную плотность на всей положительной полуоси.

T(h)rasher · 16/04/11 31

--mS-- в сообщении #710591 писал(а):

Функция распределения не может быть комплекснозначной. Откройте любой учебник и изучите, что такое функции распределения и плотности распределения.

Опять ошибся. Это не функция распределения, а характеристическая функция распределения.

--mS-- в сообщении #710591 писал(а):

Наверное, это потому, что интервалы у Вас не покрывают всю область . Почему до 72? Эрланговское распределение имеет положительную плотность на всей положительной полуоси.

Всего значений в выборке 324 (вместе с повторными вариантами), а самих вариант (без повторов) 72. Минимальное значение выборки 0, а максимальное 72. При проверке гипотез нам говорили разбивать на 10 интервалов. В итоге шаг получается равным 7,2.

_hum_ · 23/12/07 1763

T(h)rasher, просто к вашим интервалам добавьте еще один $(72; +\infty)$ и просто считайте, что в него ничего не попало. Тогда сумма вероятностей по всем вашим интервалам (включая добавленный) станет равна 1.

--mS-- · 23/11/06 4171

_hum_ в сообщении #710502 писал(а):

Ясно, что мощности этих критериев будут разные, но это уже другой вопрос (вопрос выбора теста). Главное, что применение тестов корректно - ничто не запрещает нам проводить тестирование по п.1), даже если соответствующее значение $a$ удовлетворяет условию п.2) или п.3).

Вы забываете одно-единственное обстоятельство. Смысл, который вкладывается в использование критериев с заданным уровнем значимости (при чем тут мощность?). Вот проверили Вы по числовой выборке гипотезу - любым из предлагаемых Вами способов, безразлично. Статистика критерия (пусть 7) меньше квантили (пусть 13) того распределения, с которым Вы собирались сравнивать её. Вы приняли гипотезу, счастье наступило, всё на этом? А какой, по-Вашему, смысл вкладывался в понятие "проверить гипотезу критерием заданного размера (уровня и т.п.)?" Ведь для числовых выборок ни о каких вероятностях речь уже не идёт? Заданный размер при проверке гипотез по числовым выборкам можно трактовать только как частоту, с которой при повторении той же проверки по новым и новым числовым выборкам мы будем ошибочно отвергать основную гипотезу. Так вот, если взятое от фонаря значение $a$ будет всякий раз одно и то же, то, разумеется, речь идёт о проверке простой гипотезы. И частота, с которой мы при данном $a$ будем получать значения статистики критерия большие $c$ , есть $1-\chi^2_{n-1}(c)$ . А если, как Вы предлагаете, в качестве параметров брать оценки, то никакой простой гипотезы тут нет. И вероятность статистике критерия хи-квадрат с такой оценкой параметра быть больше любого числа подчиняется иному распределению хи-квадрат, чем для простой гипотезы. И частота, с которой, поступая так, мы будем получать $\rho > c$ , будет уже $1-\chi^2_{n-3}(c)$ .

_hum_ в сообщении #710502 писал(а):

Автор, насколько я понял, использует обычный критерий Пирсона, в котором в качестве занчений параметров выбирает значения оценок. А так корректно делать, только если считать, что осуществляется тестирование по п.1) - когда вывод о принадлежности выборки распределению из параметрического семейства распределений строится на основе результата теста о принадлежности выборки какому-то конкретному распределению. В этом случае, очевидно, используется подход с тестированием простой гипотезы.

Полагаю, автору объясняли, что при замене параметров на оценки число степеней свободы уменьшается на число оцененных параметров. Никакой "обычный" критерий Пирсона при использовании любых оценок, полученных по данной выборке, возникнуть не может. Распределение статистики критерия будет иным, чем при использовании констант вместо параметров. Какую роль играет теоретическое распределение при использовании критерия для данной числовой выборки - см. выше. Оно играет роль гаранта, что при повторении подобных действий доля ошибочных решений будет именно ожидаемая, а не иная. Использовать в качестве значений параметра оценки и считать гипотезу простой запрещает ожидаемый размер ошибки первого рода.

Про корректность использования произвольных оценок в критерии для проверки параметрической гипотезы см. ещё выше: если $\theta^*$ - оцекнка минимума хи-квадрат, а $\theta^{**}$ - произвольная оценка, то для статистик критерия с этими оценками выполнено неравенство $\chi^2(\theta^*)\leqslant \chi^2(\theta^{**})$ . Поэтому если $\chi^2(\theta^{**})$ окажется меньше квантили распределения $\chi^2_{n-3}$ , то и "правильная" статистика будет тоже меньше, и мы не ошибёмся, принимая гипотезу. А вот чтобы её отвергнуть - в случае, когда $\chi^2(\theta^{**})$ превысит квантиль, придётся всё пересчитывать, используя правильные оценки.

T(h)rasher, а о каких частотах вообще речь? Распределение Эрланга - непрерывное, в выборке из него не может быть никаких повторяющихся значений. Если только её предварительно не испортили. Вы уверены в формулах, по которым вычисляли оценки параметров? Попробуйте их пошевелить и посмотреть, как меняется статистика критерия.

Да, и сообщите уже нам, сколько у Вас получилась статистика критерия.
И ещё раз: интервалами делят не область данных - от 0 до 72, а весь носитель распределения. Так что последняя вероятность должна быть равна единице минус все остальные, а последний интервал - не до 72, а до бесконечности. Но это мелочь, конечно, при таких не очень больших объёмах выборки. И ни в коем случае не делайте так, как предлагает _hum_: не добавляйте интервал, в который ничего не попало.

T(h)rasher · 16/04/11 31

Спасибо вам за советы. Во всех предыдущих попытках $\chi^2_{nabl}$ получалось значительно больше критического значения, пытаюсь разобраться с этим и ни к чему ни прихожу...Да, в формулах уверен, я их брал из учебника.

Я заново пересчитаю гипотезу и напишу сюда. Я все делаю по методике, описанной в учебнике Гмурмана В.Е. "Руководство к решению задач по теории вероятностей и математической статистике", 2004 г., стр. 268

Что я имел в виду по поводу частот, возможно случилось недопонимание. У меня есть некий ряд чисел: от 0 до 72. В этом ряду есть повторяющиеся значения: некоторое количество 0, 1, 2, 3, 4, 5.... и т.д. Каких-то значений несколько, каких-то - 0. Это я имел в виду под частотами. Во всей этой последовательности (включая повторяющиеся значения) 324 значения, если без них, без повторяющихся (т.е. без учета частоты), то 72 значения, и 72 максимальное.

На интервалы (которых 10 штук) я разбиваю, естестественно, всю последовательность, все 324 значения и смотрю в какой интервал сколько значений попало. Соответственно, в интервалах оказываются и эти самые одинаковые значения, т.е. в первом интервале от 0 до 7.2 у меня 120 значений. Сюда входят 0, которых 18 штук; 1; 2, которых 9 штук; 3, которых 11 и т.д. Это правильно или я опять ошибся?Эта частота имеет отношение только к этим интервалам, она не имеет отношения к количеству во всей последовательности того или иного значения.

Кстати, есть один интервал, в котором ничего нет.

T(h)rasher · 16/04/11 31

Такой вопрос: когда подсчитывается количество значений, попавших в интервал, учитываются границы интервала? Например, интервал a;b. Количество значений, в него попавших, будет a<x<b или a<=x<=b ? Впрочем, в моем случае, если границы не учитывать, то окажется значений сильно меньше, чем 324.

Вообщем, $\chi^2_{nabl} =$ 62,89424511, при этом критическое значение равно 7,8147. Уровень значимости 0,05, число степеней свободы равно: 6-1-2=3 (из 10 интервалов я сделал 6, объединив последние 5 интервалов в один, т.к. в каждом из них было менее 5 значений).

Может быть, когда я нахожу теоретические частоты, нужно в качестве n использовать число не 324 (всю выборку, вместе с повторяющимися значениями), а число 72 (без повторов)?

_hum_ · 23/12/07 1763

--mS-- в сообщении #710627 писал(а):

Вы забываете одно-единственное обстоятельство. Смысл, который вкладывается в использование критериев с заданным уровнем значимости (при чем тут мощность?).
[...]
Вы приняли гипотезу, счастье наступило, всё на этом? А какой, по-Вашему, смысл вкладывался в понятие "проверить гипотезу критерием заданного размера (уровня и т.п.)?"

Смысл следующий. Удобнее его пояснить на параметрическом семействе $\{P_\theta\}_\theta$ с дискретным параметром $\theta \in \{a_1, a_2, a_3\}$ . Допустим, эти распределения характеризуют сложную гипотезу $H = \{$ присутствие вражеской цели, которую необходимо уничтожить $\}$ . Тогда может быть два варианта:
1-ый: нам дают задание построить прибор, который бы по получаемой выборке автоматически открывал огонь на поражение в зависимости от наличия вражеской цели;
2-ой: нам дали единcтвенную выборку и спрашивают, надо ли открывать огонь.

В первом случае наш прибор будет работать с разными выборками, потому нам важно, чтобы частота ошибок в серии случаев не была большой. Приходим к стандартной интерпретации (о которой вы и вели речь).

Теперь второй случай. А вот здесь можно поступить по-другому. Не мудрствуя лукаво, взять и подвергнуть выборку тестированию на какую-нибудь простую гипотезу, например, $H=\{\theta = a_2\}$ . Если она пройдет тест с уровнем значимости (== ошибка первого рода), например, 0.8, то мы сможем сказать начальству:
"господин генерал, тест, который очень серьезно относится к запуску ракеты, а именно, даже когда нужно стрелять, он более чем в 80% случаев сомневается и не дает подтверждения, сейчас говорит о наличии цели."
Если же выборка не пройдет тест, то сможем только развести руками и сказать, "не знаем" (поскольку о мощности такой процедуры тестирования ничего нельзя сказать).
Все хорошо, но какую же из простых гипотез в таком подходе лучше выбрать на проверку (если их, например, очень много, а времени в обрез). Логично не гадать, а взять $a_i$ , которое совпадает с некоторым оценочным значением $\theta^*$ . Что от этого изменится? Да ничего. Как проводили процедуру обнаружения цели, так и будем продолжать (несмотря на то, что раньше брали "от балды", а сейчас определяем по самой выборке). Единственное, теперь умный лейтенант может заметить "братцы, так если вы берете в качестве параметра оценку максимального правдоподобия, то можно же использовать не ваш "старинный" подход с тестом по простой гипотезе, а тест Никулина, который может оказаться не таким капризным к принятию решений по открытию огня (ошибку первого рода можно уменьшить), и в то же время гарантированно довольно мощным (то есть, не открывающим огонь понапрасну)."

--mS-- в сообщении #710627 писал(а):

И ни в коем случае не делайте так, как предлагает _hum_: не добавляйте интервал, в который ничего не попало.

А здесь какая крамола?

-- Пн апр 15, 2013 21:46:16 --

T(h)rasher в сообщении #710687 писал(а):

Такой вопрос: когда подсчитывается количество значений, попавших в интервал, учитываются границы интервала? Например, интервал a;b. Количество значений, в него попавших, будет a<x<b или a<=x<=b ?

Область значений разбивается на непересекающиеся интервалы: либо вида $(a_i,b_i]$ , либо вида $[a_i,b_i)$ .

-- Пн апр 15, 2013 21:48:55 --

T(h)rasher, лучше получать p-value теста (тогда не надо напрямую привязываться к заранее заданному уровню значимости, как у вас 0.05).

T(h)rasher · 16/04/11 31

_hum_, спасибо.

_hum_ в сообщении #710715 писал(а):

T(h)rasher, лучше получать p-value теста (тогда не надо напрямую привязываться к заранее заданному уровню значимости, как у вас 0.05).

Что значит p-value? Я взял уровень значимости 0.05, потому что всегда раньше его использовал. На самом деле, может быть, здесь надо было использовать другой, я точно не знаю..

Еще вот какой вопрос: когда я считаю количество значений, попавших в интервал, повторяющиеся значения (из тех 324) нужно учитывать? Или повторяющиеся значения не учитываются и при подсчете теоретических частот используется то же число 72?

_hum_ · 23/12/07 1763

T(h)rasher в сообщении #710722 писал(а):

Что значит p-value?

Это реально достигаемый уровень значимости. То есть, грубо говоря, он показывает крайний уровень значимости при котором (если бы вы его выбрали изначально), гипотеза все еще принималась. Обычно в программных пакетах он в тестах считается...

T(h)rasher · 16/04/11 31

_hum_, раньше никогда не сталкивался.

Научный форум dxdy

Правила форума

Гипотеза об эрланговском распределении.

Кто сейчас на конференции