2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Как сравнить 2 функции распределения
Сообщение01.06.2017, 10:09 


26/08/13
50
Привет. Подскажите методы в статистике, которые позволят отнести серию экспериментов к одному из двух заданных распределений. Заранее известно, что эксперименты относятся к одному или другому.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 10:11 
Заслуженный участник
Аватара пользователя


11/03/08
9541
Москва
Наивно предложил бы воспользоваться $\chi^2$

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 10:48 
Заслуженный участник
Аватара пользователя


11/04/08
2737
Физтех
hedgehogues в сообщении #1220813 писал(а):
к одному из двух заданных распределений
Критерий Неймана-Пирсона. Байесовские критерии, минимаксный критерий. Если речь идет о нормальных распределениях, то возможно нужны T-test и F-test.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 10:50 


26/08/13
50
$\chi^2$ для нормального, нет? А что насчёт произвольных распределений? Что из себя представляют байесовские критерии, минимаксные?

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 11:19 
Аватара пользователя


21/01/09
3923
Дивногорск
hedgehogues в сообщении #1220813 писал(а):
Подскажите методы в статистике, которые позволят отнести серию экспериментов к одному из двух заданных распределений. Заранее известно, что эксперименты относятся к одному или другому.

Проверка гипотезы о принадлежности выборочного распределения известному
по критерию согласия Колмогорова.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 15:52 
Заслуженный участник
Аватара пользователя


11/04/08
2737
Физтех
Я не очень понимаю, почему ТС рекомендуют критерий хи-квадрат и критерий согласия Колмогорова. У человека две гипотезы, а не одна. Надо это использовать.
hedgehogues в сообщении #1220838 писал(а):
Что из себя представляют байесовские критерии, минимаксные.
Возьмите учебники, да почитайте. Байесовские и минимаксные критерии это про то, что есть некая функция штрафа или функция риска и надо найти решающее правило, которое бы минимизировало риск в среднем. Байесовский критерий опирается на известное априорное распределение на гипотезах. Например, вам может быть известно, что выборка была получена из первой гипотезы с вероятностью 70%, и с вероятностью 30% она вся была получена из второго распределения. Решение этой оптимизационной задачи известно, выражается аналитически, смотрите книги. Минимаксное решающее правило применяют, когда штрафы есть, но нет априорных вероятностей. В общем случае найти минимаксное решающее правило трудно, но в случае двух гипотез это делается несложно, совсем как для критерия Неймана-Пирсона.

В любом случае, вам нужна лемма Неймана-Пирсона, которая предоставляет по сути алгоритм поиска каждого из этих трех решающих правил (байесовское, минимаксное и наиболее мощное).

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 18:55 
Заслуженный участник
Аватара пользователя


11/03/08
9541
Москва
Совершенно не обязательно для нормального. Хи-квадрат вообще непараметрика. Считаем теоретические вероятности попадания в ячейки для каждого из известных распределений, считаем фактические попадания и вычисляем критерий.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 21:05 
Заслуженный участник
Аватара пользователя


11/04/08
2737
Физтех
Евгений Машеров в сообщении #1221129 писал(а):
Считаем теоретические вероятности попадания в ячейки для каждого из известных распределений, считаем фактические попадания и вычисляем критерий.
А в чем смысл использования критерия хи-квадрат в случае двух гипотез? Если окажется, что данные не противоречат какой-то из наших гипотез, то ничего определенного сказать мы не сможем. Мы не знаем, с какой вероятностью мы ошибаемся, говоря что выборка распределена вот так-то. В специальных же критериях, которые работают с двумя гипотезами, всегда можно сказать, какова вероятность ошибки отнесения к той или иной гипотезе или вероятность правильного отнесения. Или может быть вы имеете ввиду какую-то версию/модификацию/вариант критерия хи-квадрат специально для двух гипотез?

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 21:30 
Заслуженный участник
Аватара пользователя


05/12/09
1769
Москва
А для какого теоретического распределения статистика хи-квадрат окажется меньше, то и выбрать.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение01.06.2017, 23:46 
Аватара пользователя


14/02/12

841
Лорд Амбера
alisa-lebovski в сообщении #1221255 писал(а):
А для какого теоретического распределения статистика хи-квадрат окажется меньше, то и выбрать.

И это несмотря на то, что статистики хи-квадрат могут оказаться близкими или разнесенными? Не следует ли ввести функцию вероятности фактического распределения быть отнесенным к одному из двоих распределений (тогда ко второму вероятность дополняет до 1), и этими значениями и руководствоваться?
Это может иметь смысл, например, если разная стоимость ошибки неверного выбора. Тогда может оказаться так, что по критерию хи-квадрат фактическое распределение относим к 1 типу, а исходя из огромной цены ошибки относим ко 2. Минимизируя тем самым потери по серии опытов.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение02.06.2017, 01:41 
Аватара пользователя


21/01/09
3923
Дивногорск
ТС не сообщил также две важные вещи, каков объём выборки и как значимо различаются распределения.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение02.06.2017, 10:00 
Заслуженный участник
Аватара пользователя


11/03/08
9541
Москва
Продолжаю рекомендовать $\chi^2$, как наиболее удобный. Но в качестве альтернатив - функцию правдоподобия посчитать
$L_k=\Sigma \ln p_k(x_i)$ для каждой из гипотез, и выбрать "самую правдоподобную" ($p_k$ - плотность распределения для k-той гипотезы, $x_i$ - i-тое наблюдение в выборке)

(Оффтоп)

"В светском уложении правдоподобие равняется правде!" (А.С.Пушкин)

Можно выбирать графически. Для этого надо знать обратные к функции распределения $F^{-1}_k(x)$, посчитать $F^{-1}_k(X_{(i)})$, где элементы выборки предполагаются упорядоченными по возрастанию, и нанести их на график. Где ближе к прямой получится, то и распределение верное.
Но вот $\chi^2$ мне больше нравится. И я бы разбивал на интервалы не слепо нарубив на равные, а, если уж нам даны теоретические функции распределения, сперва построил бы их графики и посмотрел бы, на каких интервалах какая больше. Соответственно, за границы интервалов принимал бы точки пересечения графиков (разумеется, слишком сильно дробить тоже не стоит, лучше следовать рекомендациям выбирать интервалы так, чтобы в них было не менее 5, или даже 10 наблюдений). Конечно, даже с этим разбиением, максимально контрастирующим распределения, вовсе не гарантировано, что одна гипотеза будет принята, а другая отброшена. Могут быть принимаемы обе, или обе отброшены. Второй случай - это неприятная, но важная информация, что наша теория никуда не годится. Надо менять модель. Первый случай может случиться попросту из-за малости выборки, недостаточно данных для однозначного ответа. Тогда просто принять лучшее приближение, помня, что и второе не отвергнуто, и есть смысл повторить, набрав поболее данных.
Что до учёта "цены ошибки" - если её можно определить (иногда трудно из-за нехватки данных, иногда из-за неопределённости критерия, а иногда несравнимо в принципе - ошибка первого рода, ложноположительная диагностика это перерасход на лечение в рублях, ошибка второго рода, ложноотрицательная диагностика это повышение смертности в жизнях), то такой учёт желателен. Но без Байеса он малополезен. Надо изыскать априорные вероятности, затем, сравнив с выборкой, найти апостериорные (например, используя тот же критерий $\chi^2$ для оценки вероятности события при данной гипотезе, или через правдоподобие), умножить вероятности ошибок на цены ошибок и минимизировать ожидаемые потери.

 Профиль  
                  
 
 Re: Как сравнить 2 функции распределения
Сообщение02.06.2017, 12:07 
Аватара пользователя


21/01/09
3923
Дивногорск
С функцией правдоподобия мне понравилось.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 13 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group