2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5, 6, 7, 8  След.
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 07:15 


07/10/15

2400
--mS-- в сообщении #1413736 писал(а):
Насколько перестают - не в курсе, но верю Евгений Машеров про допустимый уровень халтуры

--mS-- в сообщении #1413847 писал(а):
Поэтому рекомендация "от минимума до максимума на равновеликие интервалы, а потом объединить малочисленные" скорее всего будет работать

Лично меня, ответы данные по соображениям веры мало интересуют, так как появляются они обычно лишь по одной причине.

Удалось разобраться самому. Равноинтервальная группировка применяется только потому, что её легче построить (нужно иметь в виду, что все подобные рекомендации ориентированы на ручной счёт), ну и выглядит она по симпатичнее. Других плюсов у неё нет.
Оптимально делать равновероятную группировку по теоретическому распределению. Но, так как его параметры неизвестны, можно использовать равно наполненные интервалы. При справедливости нуль-гипотезы, такая группировка будет очень близка к оптимальной. К тому же почти полностью устраняется проблема нулевых частот. Так, что если уж при использовании равноинтервальной гистограммы статистика подчиняется распределению Хи квадрат, значит и в случае равнонаполненной будет то же самое.

Чувствительность критерия при этом будет максимальная, хотя мощность, возможно и пострадает. Но это решаемо. После определения Хи квадрат оптимальных параметров, можно перестроить гистограмму с их учётом. Это позволит существенно уменьшить ошибки второго рода. Можно сделать несколько итераций. В итоге гистограмма получится и не равнонаполненная, и не равноинтервальная. Зато оценки будут наилучшими.

Если я ошибся в своих выводах, то пожалуйста, прошу представить свои контраргументы

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 08:25 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
В случае равноинтервальной (и вообще нарезанной не на основании данных) гистограммы приближение $\chi^2$ получается из того, что число попаданий в ячейку при известной вероятности имеет биномиальное распределение, его матожидание и дисперсия известны, при достаточно большой вероятности попадания в ячейку аппроксимация нормальным работает, а вычитание матожидания и деление на СКО приводит к стандартному нормальному, а сумма квадратов стандартных нормально распределённых величин имеет распределение $\chi^2$. Оценка параметров по выборке приводит к тому, что отклонения лежат в подпространстве меньшей размерности, и число степеней свободы распределения $\chi^2$ оказывается меньше числа ячеек n. Причём если параметры оцениваются подсчётом числа попаданий в ячейки, а затем расчётом по этим группированным данным, то чисто геометрически можно показать, что число степеней свободы меньше ровно на число параметров. Но группировка и затем расчёт, используя центры групп, был снижающим трудоёмкость приёмом в XIX веке, когда считать попадания мог неквалифицированный помощник (даже неграмотный, если ячейки означить картинками), а вычисления вручную требовали уже некоей квалификации, особенно умножение. Поскольку даже простейшая вычтехника (начиная с табулятора Холлерита) делает более простым более точный расчёт, суммирование значений и деление на число наблюдений N, и так же для дисперсии, распределение уже отличалось от $\chi^2$ с (n-p) степенями свободы. Число степеней свободы лежало между этой величиной и n, но эта халтура расценивалась, как допустимая, поскольку использование таблиц для (n-p), при том, что на самом деле число степеней свободы больше, критерий ужесточало, так что истинная значимость была выше оцененной.
В случае равногруппной классификации возникает, прежде всего, практическая трудность выбора границ групп. Они могут быть выбраны в любой точке между принадлежащими соседним ячейкам соседними наблюдениями. Условное правило, разрешающее это затруднение, скажем, выбор границы точно посредине, ставит результат в зависимость от произвольного допущения. Существеннее, однако другое. У нас уже не будет сумма квадратов независимых случайных величин, и критерий неприменим. Должен заметить, что подобная идея возникает регулярно, это некая детская болезнь студентов-статистиков, сам такую перенёс лет 40 назад. Лечится приёмом внутрь доказательства для критерия $\chi^2$.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 10:38 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Теперь касательно оценивания. Метод максимального правдоподобия не "метод, дающий всегда лучшие оценки". У него другое достоинство - он метод, дающий хорошие (иногда и оптимальные, но, как правило, асимптотически оптимальные) оценки при помощи достаточно стандартной процедуры, если повезёт - и вычислительно простой, а если не столь везёт - сводимой к доступным методам оптимизации. Для той же дисперсии ММП-оценка $\sigma^2_{MLE}=\frac 1 n \Sigma(x_i-\bar{x})$ не является ни несмещённой, таковой будет $\sigma^2_{UB}=\frac 1 {n-1} \Sigma(x_i-\bar{x})$, ни минимизирующей сумму квадратов отклонений от точного значения, это обеспечивает $\sigma^2_{MSE}=\frac 1 {n+1} \Sigma(x_i-\bar{x})$. И в каких-то случаях может быть целесообразно использовать иные, не ММП-оценки.
Для частного случая оценки параметров распределения Лапласа (ограничиваясь параметром положения; если кому интересно развить и оценить параметр масштаба, могу матлабовскую программку кинуть, равно и для критики и опровержения) сравнил медиану (которая ММП-оценка) и среднее (которая просто популярная оценка).
Для 100000 реализаций строилась последовательность лапласовских С.В. длиной 1001, параметр положения, без потери общности, брался 0, масштаба - 1, считались медиана и среднее, затем по 100000 реализациям рассчитывались стандартное отклонение (в силу того, что параметр масштаба 0 - это же и сумма квадратов отклонений от истинного), для медианы получено 0.0325, для среднего 0.0446, при повторных опытах значения отличались в третьей значащей цифре, а также подсчитывалось число выходов за границу $\pm 0.03$ (примерно одна сигма) - 34672 для медианной оценки и 50089 для среднего (35% и 50%) и выходов за границу $\pm 0.10$ (примерно три сигмы) - 260 для медианной оценки и 2495 для среднего (0.26% и 2.5%).
Из чего я делаю вывод, что в данном случае ММП-оценка "медиана" оказывается явно лучше. Что, вообще говоря, максимальное правдоподобие не гарантирует, но на практике почти всегда ММП даёт хорошие оценки. Что до несоответствия результатов моего и Вашего моделирования - я готов к критике моего подхода, и если нужен для опровержения мой скрипт, выложу его или вышлю Вам личкой. Но, может быть, стоит проверить и Ваш результат?

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 15:26 


07/10/15

2400
Евгений Машеров спасибо за разъяснение, на счёт того откуда берётся Хи квадрат просто и понятно. Здесь правда нужно подчеркнуть, что независимыми и одинаково распределёнными слагаемые статистики становятся только после вычитания теоретических частот и и нормирования, и это при условии выполнения нуль-гипотезы, т.е. когда теоретическое распределение соответствует данным. Сами по себе эмпирические частоты в разных карманах гистограммы коррелируют, это думаю очевидно всем

Евгений Машеров в сообщении #1413854 писал(а):
В случае равногруппной классификации возникает, прежде всего, практическая трудность выбора границ групп. Они могут быть выбраны в любой точке между принадлежащими соседним ячейкам соседними наблюдениями. Условное правило, разрешающее это затруднение, скажем, выбор границы точно посредине, ставит результат в зависимость от произвольного допущения. Существеннее, однако другое. У нас уже не будет сумма квадратов независимых случайных величин, и критерий неприменим

Ну, а по поводу этого, на мой взгляд, слишком категорично. В идеале да, как уже выяснили до этого, неприменим. Равно как и неприменим он для равно интервальной группировки. Во первых, положения границ в равноинтервальной гистограмме всё же зависят от выборки, хотя и всего лишь от 2-х крайних значений. Опять же аппроксимация биноминального закона нормальным имеет конечную точность. По крайней мере, формула Стерджеса, основанная на такой аппроксимации критикуется повсеместно. Я всё это к тому, что в статистике желательно избегать категоричных высказываний, в силу специфики самого предмета. Предпочтительнее судить о том, какой подход лучше, в каких случаях, и по каким причинам.

Всё это по поводу равнонаполненных гистограмм, применение которых некоторые считают уделом исключительно малограмотных студентов. Причина таких взглядов происходит из слишком однобокого подхода. Чтобы аргументированно судить о недостатках равнонаполненных гистограмм, нужно оперировать числами. Сделать это можно следующим образом: представим, что есть идеальная группировка, не зависящая от выборки, и группировка построенная по выборке. Чем они отличаются друг от друга? Понятно чем - положением границ интервалов. В гистограмме, построенной по выборке границы будут случайным образом смещены относительно "правильных" положений. А это приведёт к тому, что вычисленное значение Хи квадрат будет отличаться от истинного значения. Весь вопрос в том насколько сильно?
Ну а это можно легко оценить. Величина случайного смещение границ интервалов определяется дисперсией выборочных квантилей, в положении которых эти интервалы находятся. Есть простая формула Вальда:
$$\sigma_\tau=\sqrt{\frac{\tau(1-\tau)}{N}},      (1)$$
где $\tau$ - уровень квантиля, N - объём выборки. Есть и более точные формулы.
С помощью (1) можно оценить предельную погрешность статистики Хи квадрат, обусловленную особенностями равнонаполненной группировки.
Чтобы не держать интригу - сообщу сразу. Если количество интервалов будет небольшим, то эта погрешность окажется несущественной. Более того, оптимальное число интервалов, выбираемое из этих соображений очень хорошо согласуется с формулой Скотта, для равноинтервальной группировки. А она, как известно, предпочтительнее формулы Стерджеса, особенно для выборок больших объёмов.

Вообще то, сам вопрос выбора оптимального числа интервалов равнонаполненной гистограммы широко рассматривается в литературе. Но надо понимать, что авторы подобных исследований являются малограмотными студентами, либо - ничем от них не отличаются.

А по поводу расхождений в численном эксперименте - я проверю, код не нужен, Вы всё описали достаточно подробно. Но мне кажется дело здесь может быть в нулевом среднем. Потом отпишусь.

-- 06.09.2019, 17:06 --

Перепроверил, была ошибка в генераторе. Сделал как у Вас, для медианы Std получается 0.0316-0.0317 (почти как у Вас), но для среднего 0.0321-0.0323. Пробовал раз 5, различие в 3-йцифре, как Вы и пишете, хотя со средним не состыковка. Вообще, к медиане у меня претензий и не было.
А вот к показателям вариации - да. Std для стандартного отклонения получается 0.0442, а для среднего абсолютного отклонения 3.2269e-04. Как бы всё хорошо, но если оценивать непосредственно дисперсию параметра $\alpha$, а это обратная к ним величина, то получается совсем другая картина 0.0602 и 1.6786, т.е. с Mad хуже, и намного. Пока не пойму, в чём причина.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 16:13 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Ну вот модельный пример. Желаем проверить гипотезу о том, что величина с нормальным распределением и единичной дисперсией (это постулируется) имеет нулевое матожидание. И делаем две ячейки. При стандартном подходе - граница ячеек 0, при равнонаполненном - медиана. Которая величина случайная, и случайными являются теоретическое число наблюдений в ячейке и его дисперсия.
То есть при стандартном у нас случайное фактическое число наблюдений в ячейке, распределение известное, биномиальное, и при заданных матожидании и дисперсии приводится к стандартному нормальному. Всё замечательно, случайность у нас есть в "специально отведенном месте", и распределение статистики известно.
А при равнонаполненном случайность и в числителе отношения, и в знаменателе, распределение не то, чтобы нельзя было вполне вычислить, но точно не нормальное (даже если аппроксимировать числитель нормальным - знаменатель делает ненормальным, подобно как в Стьюденте), и уже сумма квадратов никак не $\chi^2$
То есть разработанные статистики не валидны, с чем сравнивать непонятно, но точно не с имеющейся таблицей.
И, извините, я про "малограмотных студентов" не говорил. Я говорил о студентах, которые достаточно много уже поняли, но не полностью. И их изобретательский энтузиазм стоит на фундаменте полузнания. Малограмотные делают, как сказали, и не задумываются. Действительно понявшие - понимают, почему так сказали делать. А на середине пути "творят, выдумывают, пробуют". Это нормальный этап развития. Только застревать на нём не стоит.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 16:25 
Заслуженный участник
Аватара пользователя


23/11/06
4171

(Оффтоп)

Andrey_Kireew в сообщении #1413851 писал(а):
Если я ошибся в своих выводах, то пожалуйста, прошу представить свои контраргументы

Нет, извините, так в математике не делается. Бремя доказательства здесь лежит на утверждающем. Факт о предельном поведении статистики критерия хи-квадрат верен при неких условиях, которые в Вашей схеме нарушаются. Вам и обосновывать.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 17:00 


07/10/15

2400
Евгений Машеров в сообщении #1413894 писал(а):
и уже сумма квадратов никак не $\chi^2$

да, так и есть и насколько оно от него отличается я пояснил в предыдущем посте, впрочем, как я понял, неудобные вещи вы склонны попросту игнорировать. К стати биномиальное распределение тоже не является нормальным, но вас это ни сколько не смущает.

Евгений Машеров в сообщении #1413894 писал(а):
"творят, выдумывают, пробуют". Это нормальный этап развития. Только застревать на нём не стоит

Видимо это напутствие адресовано Mann H.B., Wald A., Таушанову З., Тоневой Е., Пеновой Р., Алексеевой И.У., ну и вместе с ними. конечно же мне. Кому смогу, при случае передам.

Вам же остаётся только позавидовать, что вовремя удалось вырваться из тьмы неведения и полузнания, достигнув высшей степени просветления, поняв наконец, почему же нужно делать так как говорят.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 17:16 
Заслуженный участник


12/07/07
4522
Andrey_Kireew, как-то так. (Формулы Вы не пищите, поэтому неоднозначно и путано.)

Но чтобы схема, о которой вы писали выше, работала должны быть всё же выполнены некоторые условия. Эта тема много раз поднималась на этом форуме. Вот в этом сообщении ещё раз давалась ссылка на статью Чибисова (журнал вполне авторитетный, найдёте ошибки/опечатки [в статье], возможно, найдутся благодарные Вам люди). Начать, видимо, можно с проверки выполнения условий теорем [статьи Чибисова] для рассматриваемого Вами распределения.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 17:34 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Andrey_Kireew в сообщении #1413890 писал(а):
Std для стандартного отклонения получается 0.0442, а для среднего абсолютного отклонения 3.2269e-04


Как-то слишком мало. Там нет ошибки при вычислении САО?

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 18:08 


07/10/15

2400
Спасибо GAA, почитал статью Чибисова, правда не до конца, но нашел информацию как раз по теме. Мои смутные предположения подтверждаются, в том что границы интервалов зависят от данных нет ничего криминального. Главное, при построении эмпирического распределения использовать "хорошие" оценки его параметров. Но это уже совсем другой вопрос, который здесь подробно обсуждался. А то тут некоторые "просветлённые" совсем с толку сбили ...

Евгений Машеров в сообщении #1413903 писал(а):
Как-то слишком мало. Там нет ошибки при вычислении САО?

как уж есть, вот мой код, вроде ошибке там быть просто негде
Используется синтаксис Matlab M
for ii=1:100000;
      e1=rand(1000,1); e2=rand(1000,1);
      l=log(e1./(e2+1))/1+0;
      med(ii)=median(l); m(ii)=mean(l);
      sd(ii)=std(l);
      sa(ii)=sum(abs(l-0))/100000;
end
 

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 19:19 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
А зачем к e2 единичку?

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 19:40 


07/10/15

2400
Александрович в сообщении #1413685 писал(а):
Для принятых ТС условных обозначениях: $x_i=\beta+\frac{1}{\alpha}\ln\frac{r_i}{r_{i+1}}$.

показалось что +1, а это оказывается сдвиг.

Переделал, теперь Std для среднего 0.0447, т.е. уже тоже такое как у Вас.
Std стандартного отклонения 0.0499, а для Mad 3.1550e-04. С параметром $\alpha$ та же самая история, при оценивании его через Mad дисперсия оценки получается почти в 100 раз больше, чем при оценивании через Std. Хотя дисперсия оценок самого Mad, наоборот в 100 раз меньше. Вот этот момент меня расстраивает больше всего. Ладно на модельном распределении Лапласа. Хуже всего, что на реальных данных, при оценивании $\alpha$ через Mad, значение статистики Хи квадрат получается почти в 2 раза больше, чем при оценивании через Std. Т.е. получается, что Mad хуже, но в то же время, точность оценивания самого Mad выше. На мой взгляд явное противоречие, так быть не должно.

-- 06.09.2019, 21:19 --

Нашел в чём дело, там где вычисляется sa(ii) нужно делить не на 100000 а на 1000, перепутал по ошибке объём выборки с числом реплик.
Теперь дисперсия $\alpha$ вычисленного посредством Mad стала меньше, чем с использованием Std. Дисперсия самого Mad так же осталась меньше, чем дисперсия Std, и различия уже не такие большие. В общем, теперь всё согласуется.

-- 06.09.2019, 21:34 --

Но с реальными данными проблема никуда не делась. Определение $\alpha$ через Std выборки даёт лучшее соглассование данных с теоретическим законом, чем при использовании Mad.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 21:27 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Может быть, настало время проверить и расчёт $\chi^2$?

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение06.09.2019, 21:52 


07/10/15

2400
Проверял, и не раз. Там есть ещё альтернативная гипотеза (на нормальность), по ней всё работает отлично. Ну и гистограммы с наложенными графиками смотрю. Грубые ошибки я бы нашел уже давно.
Дело ещё в том, что эмпирическое распределение сил но асимметричное. Судя пографикам, как я уже писал, Mad позволяет лучше аппроксимировать центральную часть распределения, в ущерб хвостам. При использовании Std, хвостам уделяется больше внимания, хотя центр распределения аппроксимируется хуже. Но хвосты имеют больший вес, и статистика с Mad получается больше, чем с Srd.
Есть ещё идея, что проверяя согласие с симметричным распределением, я обязан рассматривать симметричный интервал. Тогда слева появится множество пустых ячеек, а значение Хи квадрат увеличится. Кто знает, может при таком подходе Mad начнёт работать лучше, чем Std.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение07.09.2019, 02:46 
Аватара пользователя


21/01/09
3925
Дивногорск
Andrey_Kireew в сообщении #1413964 писал(а):
Дело ещё в том, что эмпирическое распределение сил но асимметричное.

Если с учётом сдвига разбить выборочное распределения на два и инвертировать отрицательные иксы, выборки получаются однородными? А с отсечением хвостов?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 110 ]  На страницу Пред.  1, 2, 3, 4, 5, 6, 7, 8  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Утундрий


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group