2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Типичное значение
Сообщение31.10.2017, 17:42 
Аватара пользователя


14/02/12

841
Лорд Амбера
Коллеги, у меня было 7 замеров, заведомо распределенных не по Гауссу, с выпадающими значениями. Необходимо типичное значение ТЗ для сравнения с ТЗ другого набора данных и в конечном счете для выявления динамики. По Ходжесу-Леману ТЗ находится как медиана 28 значений, меня устраивало.
Теперь чисто для уменьшения измерительной нагрузки ТЗ должно определяться по 3 значениям. Медиана отпадает, остается Ходжес-Леман по 6 значениям? Интуиция подсказывает что будет болтанка. Не улучшит ли положение другая мера центральной тенденции, чтобы учитывать не только медиану, но и как-то распределение данных. Да и медиана как СА двух центральных значений при четном числе значений напрягает, всегда хочется учесть соседние значение и сместить ТЗ. Не лучше ли будет работать трехсреднее Тьюки (Tukey's trimean)?
https://en.wikipedia.org/wiki/Trimean
Для 6 значений тогда взялось бы СА 1, 2 и 3 квартиля с весами 1, 2, 1, это № в ряду 2,25; 3,5; 4,75; для дробных значений номера по соседним членам с весом, т.е. в итоге весовая комбинация 2,3, 4 и 5 значений с весами соответственно 3, 5, 5 и 3. Может ли иметь смысл эта эквилибристика с отбрасыванием минимального и максимального и почти одинаковыми весами оставшихся членов?

 Профиль  
                  
 
 Re: Типичное значение
Сообщение02.11.2017, 05:11 
Аватара пользователя


14/02/12

841
Лорд Амбера
Увы, пока совершал пробежку, перелопатил в голове задачку еще раз (это лучше, чем на бумаге, бумага потом для пруфа), и выяснилось, что упорядоченный ряд полученный после приложения Ходжеса-Лемана обладает некоторой симметрией: сумма 2 и 4 членов равна сумме 3 и 4 членов. Тогда и медиана, и трехсреднее Тьюки дают одно значение, равное взвешенному среднему 3 исходных значений: малому, среднему и большому с весами 1, 2, 1. Т.е. Ходжес-Леман выступил промежуточным этапом, ответ находится по исходным данным.
Однако если приложить Тьюки непосредственно к исходным данным, то вследствие возможной скошенности результат также отличен от медианы: медиана дает 2 член упорядоченного ряда, а Тьюки по трем значениям с весами 1, 6, 1.
Есть ли какой резонный довод в пользу того или иного решения? Сами собой тогда напрашиваются средние веса 1, 4, 1. Такие коэффициенты в формуле Симпсона, тоже какой-то смысл имеет проведение через 3 точки параболы и подмена ее для окончательного результата равновеликим по площади прямоугольником.
При этом коэффициенты 1, 2, 1 можно интерпретировать как проведение вместо параболы ломаной (формула трапеций).
Тогда не существует ли возможность при любом числе исходных данных нахождение типичного значения путем аппроксимации полиномом и усреднением по площади? Или такое решение теряет признаки робастности и при высокой степени полинома может пойти вразнос, стать неустойчивым?

 Профиль  
                  
 
 Re: Типичное значение
Сообщение02.11.2017, 06:18 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
А что-то про распределение известно, кроме негауссовости? При ну очень тяжёлых хвостах может быть, что ничего, кроме медианы, не годится.

 Профиль  
                  
 
 Re: Типичное значение
Сообщение02.11.2017, 10:44 
Аватара пользователя


14/02/12

841
Лорд Амбера
Евгений Машеров в сообщении #1261459 писал(а):
А что-то про распределение известно, кроме негауссовости? При ну очень тяжёлых хвостах может быть, что ничего, кроме медианы, не годится.

Выше опечатка вкралась: в
сумма 2 и 4 членов равна сумме 3 и 4 членов
читать
сумма 2 и 5 членов равна сумме 3 и 4 членов.

Вот по одной выборке из 450 значений (тренд и месячная цикличность учтены и устранены, по остаткам) по экселю скос 1,16; эксцесс 6,89

 Профиль  
                  
 
 Re: Типичное значение
Сообщение04.11.2017, 15:55 
Аватара пользователя


14/02/12

841
Лорд Амбера
Еще одно соображение в пользу весовых коэффициентов 1/6, 4/6, 1/6 при малом, среднем и большом члене ряда из 3 значений при нахождении робастного типичного значения.
Если в качестве нулевого приближения типичного значения принять медиану ряда из 3 значений, то прочие 2 значения можно считать реализациями этого значения с неизвестным распределением (априорным). Каждое из 2 измерений (малое и большое) также обладают некоторым распределением. Соответствующее апостериорное значение будет взвешенным значением медианы и одного из измерений (большое и малое значения в ряду), но поскольку неизвестны распределения, по принципу недостаточного обоснования Лапласа апостериорное значение можно полагать средним между медианой и измеренным значением.
По новым 3 значениям ряда можно вычислить СА, которое и будет исходными значениями малым, средним и большим с весами 1/6, 4/6, 1/6.
Сходятся Байес, Лаплас и Симпсон. Или же истина в ином - более далекое от медианы значение должно обладать меньшим весом, чем более близкое, на чем основаны бивес-оценки?
Буду благодарен за разъяснение.

 Профиль  
                  
 
 Re: Типичное значение
Сообщение16.11.2017, 13:43 
Аватара пользователя


14/02/12

841
Лорд Амбера
Спасибо всем ответившим в теме. Моя задача: по тройкам значений с негауссовым распределением найти типичное значение. Остановился на бивес-оценке Тьюки без итераций, ответ по первому решению с нулевым приближением медиана и вычисленными по отклонениям весами двух других значений. Возник ряд вопросов, буду благодарен за подсказки.
1. Тьюки предлагает найти по выборке медиану абсолютных отклонений и по ней масштабировать отклонения, с отсеиванием выпадающих по критерию. Но при 3 значениях в выборке отсеивания не будет. Но я знаю медиану абс. откл. по большим выборкам, и она составляет 0,2. Могу ли я подставлять в формулу вычисления веса именно это значение для всех троек, Тьюки рекомендует с коэффициентом 6 или 9, что примерно есть отклонение в 4 или 6 сигм. Тогда данная тройка значений будет оцениваться исходя из параметров всей генеральной совокупности, которая предполагается однородной.
2. Формула веса прекрасно (максимальное отклонение меньше 0,01) аппроксимируется косинусом (четверть периода) в степени 1,68. Очевидно исходя из простоты программной реализации (упрощение кода формулы по вычислению) в PHP такая подмена возможна? Вряд ли можно обосновать именно тот вид формулы, примененной Тьюки, хотя могу ошибаться, мне не известны основания ее выбор. Половинка обычной колоколообразной кривой, хорошо аппроксимируется также двумя параболами с разделением на значении 0,5.
3. При медиане абс. откл. 0,2 и коэф. 6 веса крайних значений по конкретным реализациям формулы среднего Тьюки не опускаются ниже 0,9 (медиана =1 по определению). Значит ли это, что вся эта возня не имеет смысла и СА окажется лучше медианы, незачем вычислять и Тьюки, поскольку все веса близки к 1? Можно принять коэф. не из интервала 6-9, а опустить его ниже, скажем 3 (что равнозначно отклонению в 2 сигмы, вполне нормальная замена правилу 3 сигм в нетехнических приложениях). Какова причина, что Тьюки дает такие высокие значения коэф. 6 или 9, с расчетом на длинные хвосты негауссовых распределений?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group