Как сравнить 2 функции распределения

hedgehogues · 01.06.2017, 10:09

Привет. Подскажите методы в статистике, которые позволят отнести серию экспериментов к одному из двух заданных распределений. Заранее известно, что эксперименты относятся к одному или другому.

Евгений Машеров · 01.06.2017, 10:11

Наивно предложил бы воспользоваться $\chi^2$

ShMaxG · 01.06.2017, 10:48

hedgehogues в сообщении #1220813 писал(а):

к одному из двух заданных распределений

Критерий Неймана-Пирсона. Байесовские критерии, минимаксный критерий. Если речь идет о нормальных распределениях, то возможно нужны T-test и F-test.

hedgehogues · 01.06.2017, 10:50

$\chi^2$ для нормального, нет? А что насчёт произвольных распределений? Что из себя представляют байесовские критерии, минимаксные?

Александрович · 01.06.2017, 11:19

hedgehogues в сообщении #1220813 писал(а):

Подскажите методы в статистике, которые позволят отнести серию экспериментов к одному из двух заданных распределений. Заранее известно, что эксперименты относятся к одному или другому.

Проверка гипотезы о принадлежности выборочного распределения известному
по критерию согласия Колмогорова.

ShMaxG · 01.06.2017, 15:52

Я не очень понимаю, почему ТС рекомендуют критерий хи-квадрат и критерий согласия Колмогорова. У человека две гипотезы, а не одна. Надо это использовать.

hedgehogues в сообщении #1220838 писал(а):

Что из себя представляют байесовские критерии, минимаксные.

Возьмите учебники, да почитайте. Байесовские и минимаксные критерии это про то, что есть некая функция штрафа или функция риска и надо найти решающее правило, которое бы минимизировало риск в среднем. Байесовский критерий опирается на известное априорное распределение на гипотезах. Например, вам может быть известно, что выборка была получена из первой гипотезы с вероятностью 70%, и с вероятностью 30% она вся была получена из второго распределения. Решение этой оптимизационной задачи известно, выражается аналитически, смотрите книги. Минимаксное решающее правило применяют, когда штрафы есть, но нет априорных вероятностей. В общем случае найти минимаксное решающее правило трудно, но в случае двух гипотез это делается несложно, совсем как для критерия Неймана-Пирсона.

В любом случае, вам нужна лемма Неймана-Пирсона, которая предоставляет по сути алгоритм поиска каждого из этих трех решающих правил (байесовское, минимаксное и наиболее мощное).

Евгений Машеров · 01.06.2017, 18:55

Совершенно не обязательно для нормального. Хи-квадрат вообще непараметрика. Считаем теоретические вероятности попадания в ячейки для каждого из известных распределений, считаем фактические попадания и вычисляем критерий.

ShMaxG · 01.06.2017, 21:05

Евгений Машеров в сообщении #1221129 писал(а):

Считаем теоретические вероятности попадания в ячейки для каждого из известных распределений, считаем фактические попадания и вычисляем критерий.

А в чем смысл использования критерия хи-квадрат в случае двух гипотез? Если окажется, что данные не противоречат какой-то из наших гипотез, то ничего определенного сказать мы не сможем. Мы не знаем, с какой вероятностью мы ошибаемся, говоря что выборка распределена вот так-то. В специальных же критериях, которые работают с двумя гипотезами, всегда можно сказать, какова вероятность ошибки отнесения к той или иной гипотезе или вероятность правильного отнесения. Или может быть вы имеете ввиду какую-то версию/модификацию/вариант критерия хи-квадрат специально для двух гипотез?

alisa-lebovski · 01.06.2017, 21:30

А для какого теоретического распределения статистика хи-квадрат окажется меньше, то и выбрать.

Korvin · 01.06.2017, 23:46

alisa-lebovski в сообщении #1221255 писал(а):

А для какого теоретического распределения статистика хи-квадрат окажется меньше, то и выбрать.

И это несмотря на то, что статистики хи-квадрат могут оказаться близкими или разнесенными? Не следует ли ввести функцию вероятности фактического распределения быть отнесенным к одному из двоих распределений (тогда ко второму вероятность дополняет до 1), и этими значениями и руководствоваться?
Это может иметь смысл, например, если разная стоимость ошибки неверного выбора. Тогда может оказаться так, что по критерию хи-квадрат фактическое распределение относим к 1 типу, а исходя из огромной цены ошибки относим ко 2. Минимизируя тем самым потери по серии опытов.

Александрович · 02.06.2017, 01:41

ТС не сообщил также две важные вещи, каков объём выборки и как значимо различаются распределения.

Евгений Машеров · 02.06.2017, 10:00

Продолжаю рекомендовать $\chi^2$ , как наиболее удобный. Но в качестве альтернатив - функцию правдоподобия посчитать
$L_k=\Sigma \ln p_k(x_i)$ для каждой из гипотез, и выбрать "самую правдоподобную" ( $p_k$ - плотность распределения для k-той гипотезы, $x_i$ - i-тое наблюдение в выборке)

(Оффтоп)

"В светском уложении правдоподобие равняется правде!" (А.С.Пушкин)

Можно выбирать графически. Для этого надо знать обратные к функции распределения $F^{-1}_k(x)$ , посчитать $F^{-1}_k(X_{(i)})$ , где элементы выборки предполагаются упорядоченными по возрастанию, и нанести их на график. Где ближе к прямой получится, то и распределение верное.
Но вот $\chi^2$ мне больше нравится. И я бы разбивал на интервалы не слепо нарубив на равные, а, если уж нам даны теоретические функции распределения, сперва построил бы их графики и посмотрел бы, на каких интервалах какая больше. Соответственно, за границы интервалов принимал бы точки пересечения графиков (разумеется, слишком сильно дробить тоже не стоит, лучше следовать рекомендациям выбирать интервалы так, чтобы в них было не менее 5, или даже 10 наблюдений). Конечно, даже с этим разбиением, максимально контрастирующим распределения, вовсе не гарантировано, что одна гипотеза будет принята, а другая отброшена. Могут быть принимаемы обе, или обе отброшены. Второй случай - это неприятная, но важная информация, что наша теория никуда не годится. Надо менять модель. Первый случай может случиться попросту из-за малости выборки, недостаточно данных для однозначного ответа. Тогда просто принять лучшее приближение, помня, что и второе не отвергнуто, и есть смысл повторить, набрав поболее данных.
Что до учёта "цены ошибки" - если её можно определить (иногда трудно из-за нехватки данных, иногда из-за неопределённости критерия, а иногда несравнимо в принципе - ошибка первого рода, ложноположительная диагностика это перерасход на лечение в рублях, ошибка второго рода, ложноотрицательная диагностика это повышение смертности в жизнях), то такой учёт желателен. Но без Байеса он малополезен. Надо изыскать априорные вероятности, затем, сравнив с выборкой, найти апостериорные (например, используя тот же критерий $\chi^2$ для оценки вероятности события при данной гипотезе, или через правдоподобие), умножить вероятности ошибок на цены ошибок и минимизировать ожидаемые потери.

Александрович · 02.06.2017, 12:07

С функцией правдоподобия мне понравилось.

Научный форум dxdy

Как сравнить 2 функции распределения