2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Как сравнить 2 функции распределения
Сообщение01.06.2017, 10:09 


26/08/13
50
Привет. Подскажите методы в статистике, которые позволят отнести серию экспериментов к одному из двух заданных распределений. Заранее известно, что эксперименты относятся к одному или другому.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 10:11 
Заслуженный участник
Аватара пользователя


11/03/08
10041
Москва
Наивно предложил бы воспользоваться $\chi^2$

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 10:48 
Заслуженный участник
Аватара пользователя


11/04/08
2749
Физтех
hedgehogues в сообщении #1220813 писал(а):
к одному из двух заданных распределений
Критерий Неймана-Пирсона. Байесовские критерии, минимаксный критерий. Если речь идет о нормальных распределениях, то возможно нужны T-test и F-test.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 10:50 


26/08/13
50
$\chi^2$ для нормального, нет? А что насчёт произвольных распределений? Что из себя представляют байесовские критерии, минимаксные?

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 11:19 
Аватара пользователя


21/01/09
3929
Дивногорск
hedgehogues в сообщении #1220813 писал(а):
Подскажите методы в статистике, которые позволят отнести серию экспериментов к одному из двух заданных распределений. Заранее известно, что эксперименты относятся к одному или другому.

Проверка гипотезы о принадлежности выборочного распределения известному
по критерию согласия Колмогорова.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 15:52 
Заслуженный участник
Аватара пользователя


11/04/08
2749
Физтех
Я не очень понимаю, почему ТС рекомендуют критерий хи-квадрат и критерий согласия Колмогорова. У человека две гипотезы, а не одна. Надо это использовать.
hedgehogues в сообщении #1220838 писал(а):
Что из себя представляют байесовские критерии, минимаксные.
Возьмите учебники, да почитайте. Байесовские и минимаксные критерии это про то, что есть некая функция штрафа или функция риска и надо найти решающее правило, которое бы минимизировало риск в среднем. Байесовский критерий опирается на известное априорное распределение на гипотезах. Например, вам может быть известно, что выборка была получена из первой гипотезы с вероятностью 70%, и с вероятностью 30% она вся была получена из второго распределения. Решение этой оптимизационной задачи известно, выражается аналитически, смотрите книги. Минимаксное решающее правило применяют, когда штрафы есть, но нет априорных вероятностей. В общем случае найти минимаксное решающее правило трудно, но в случае двух гипотез это делается несложно, совсем как для критерия Неймана-Пирсона.

В любом случае, вам нужна лемма Неймана-Пирсона, которая предоставляет по сути алгоритм поиска каждого из этих трех решающих правил (байесовское, минимаксное и наиболее мощное).

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 18:55 
Заслуженный участник
Аватара пользователя


11/03/08
10041
Москва
Совершенно не обязательно для нормального. Хи-квадрат вообще непараметрика. Считаем теоретические вероятности попадания в ячейки для каждого из известных распределений, считаем фактические попадания и вычисляем критерий.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 21:05 
Заслуженный участник
Аватара пользователя


11/04/08
2749
Физтех
Евгений Машеров в сообщении #1221129 писал(а):
Считаем теоретические вероятности попадания в ячейки для каждого из известных распределений, считаем фактические попадания и вычисляем критерий.
А в чем смысл использования критерия хи-квадрат в случае двух гипотез? Если окажется, что данные не противоречат какой-то из наших гипотез, то ничего определенного сказать мы не сможем. Мы не знаем, с какой вероятностью мы ошибаемся, говоря что выборка распределена вот так-то. В специальных же критериях, которые работают с двумя гипотезами, всегда можно сказать, какова вероятность ошибки отнесения к той или иной гипотезе или вероятность правильного отнесения. Или может быть вы имеете ввиду какую-то версию/модификацию/вариант критерия хи-квадрат специально для двух гипотез?

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 21:30 
Заслуженный участник
Аватара пользователя


05/12/09
1813
Москва
А для какого теоретического распределения статистика хи-квадрат окажется меньше, то и выбрать.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 23:46 
Аватара пользователя


14/02/12

841
Лорд Амбера
alisa-lebovski в сообщении #1221255 писал(а):
А для какого теоретического распределения статистика хи-квадрат окажется меньше, то и выбрать.

И это несмотря на то, что статистики хи-квадрат могут оказаться близкими или разнесенными? Не следует ли ввести функцию вероятности фактического распределения быть отнесенным к одному из двоих распределений (тогда ко второму вероятность дополняет до 1), и этими значениями и руководствоваться?
Это может иметь смысл, например, если разная стоимость ошибки неверного выбора. Тогда может оказаться так, что по критерию хи-квадрат фактическое распределение относим к 1 типу, а исходя из огромной цены ошибки относим ко 2. Минимизируя тем самым потери по серии опытов.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение02.06.2017, 01:41 
Аватара пользователя


21/01/09
3929
Дивногорск
ТС не сообщил также две важные вещи, каков объём выборки и как значимо различаются распределения.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение02.06.2017, 10:00 
Заслуженный участник
Аватара пользователя


11/03/08
10041
Москва
Продолжаю рекомендовать $\chi^2$, как наиболее удобный. Но в качестве альтернатив - функцию правдоподобия посчитать
$L_k=\Sigma \ln p_k(x_i)$ для каждой из гипотез, и выбрать "самую правдоподобную" ($p_k$ - плотность распределения для k-той гипотезы, $x_i$ - i-тое наблюдение в выборке)

(Оффтоп)

"В светском уложении правдоподобие равняется правде!" (А.С.Пушкин)

Можно выбирать графически. Для этого надо знать обратные к функции распределения $F^{-1}_k(x)$, посчитать $F^{-1}_k(X_{(i)})$, где элементы выборки предполагаются упорядоченными по возрастанию, и нанести их на график. Где ближе к прямой получится, то и распределение верное.
Но вот $\chi^2$ мне больше нравится. И я бы разбивал на интервалы не слепо нарубив на равные, а, если уж нам даны теоретические функции распределения, сперва построил бы их графики и посмотрел бы, на каких интервалах какая больше. Соответственно, за границы интервалов принимал бы точки пересечения графиков (разумеется, слишком сильно дробить тоже не стоит, лучше следовать рекомендациям выбирать интервалы так, чтобы в них было не менее 5, или даже 10 наблюдений). Конечно, даже с этим разбиением, максимально контрастирующим распределения, вовсе не гарантировано, что одна гипотеза будет принята, а другая отброшена. Могут быть принимаемы обе, или обе отброшены. Второй случай - это неприятная, но важная информация, что наша теория никуда не годится. Надо менять модель. Первый случай может случиться попросту из-за малости выборки, недостаточно данных для однозначного ответа. Тогда просто принять лучшее приближение, помня, что и второе не отвергнуто, и есть смысл повторить, набрав поболее данных.
Что до учёта "цены ошибки" - если её можно определить (иногда трудно из-за нехватки данных, иногда из-за неопределённости критерия, а иногда несравнимо в принципе - ошибка первого рода, ложноположительная диагностика это перерасход на лечение в рублях, ошибка второго рода, ложноотрицательная диагностика это повышение смертности в жизнях), то такой учёт желателен. Но без Байеса он малополезен. Надо изыскать априорные вероятности, затем, сравнив с выборкой, найти апостериорные (например, используя тот же критерий $\chi^2$ для оценки вероятности события при данной гипотезе, или через правдоподобие), умножить вероятности ошибок на цены ошибок и минимизировать ожидаемые потери.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение02.06.2017, 12:07 
Аватара пользователя


21/01/09
3929
Дивногорск
С функцией правдоподобия мне понравилось.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 13 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: YandexBot [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group