Медиана кусочно-постоянной функции распределения

Anatoly · 22.01.2019, 12:39

Добрый день уважаемые форумчане!
Вопрос в следующем.
Предположим, что имеется случайная величина $X$ , заданная функцией распределения:
$F(X) = \left\{ \begin{array}{l} {0, X < 0}, \\{0.5, 0\leqslant X<1}, \\{1, 1\leqslant X} \end{array}\right.$
Как определить, если это вообще возможно, медиану для такого типа распределения?

worm2 · 22.01.2019, 12:54

По определению любое число в интервале [0, 1) будет медианой.
Но если нужно одно значение, то часто берут среднее из этого множества (0.5). Так же поступают в дискретном случае.

Anatoly · 22.01.2019, 15:26

Вопрос в том, как описать вычислительную процедуру, которая ничего заранее не зная про вид функции распределения, выдала бы как раз результат 0.5.

Anatoly · 22.01.2019, 16:45

Я выше описал скорее вырожденный случай. Просто на практике встречаются случаи, когда построенная(вычисленная) функция распределения имеет участки с малым наклоном и тогда требуется более устойчивая процедура нахождения медианы, чем просто перебор и сравнение по значению.

worm2 · 22.01.2019, 17:18

Можно отсортировать значения в выборке ( $N$ штук) по возрастанию, отступить от центра ( $N/2$ ) сколько-то значений ( $n\ll N$ ) влево и вправо и от них взять среднее арифметическое. Как выбирать $n$ — не знаю, можно попробовать сначала априори $\sqrt{N}$ , а потом на практических данных поэкспериментировать.

Anatoly · 22.01.2019, 17:55

Да, алгоритм понятен, но вопрос как раз в выборе "n". Под конкретное распределение можно подобрать, но в общем случае может оказаться неустойчивым.

worm2 · 22.01.2019, 18:30

Тут есть две погрешности: погрешность частоты и погрешность значений. Обычно медианой интересуются, чтобы избавиться от погрешности значений (выбросов, значительно больших или значительно меньших типичных значений). Но сама медиана чувствительна к погрешности частоты. Тут, я думаю, для любого алгоритма её расчёта можно подобрать такие данные, что либо при малом изменении частот она будет сильно меняться, либо она не отреагирует на существенное изменение частот (в каждой задаче существенный уровень может быть свой).

-- Вт янв 22, 2019 20:36:52 --

Ещё можно, например, убирать выбросы с помощью 5% и 95% квантилей, а от оставшихся данных брать не медиану, а среднее — как вам такой вариант?

--mS-- · 22.01.2019, 19:08

worm2 в сообщении #1370800 писал(а):

По определению любое число в интервале [0, 1) будет медианой.

По определению, любое число в отрезке $[0,1]$ будет медианой.

Anatoly · 22.01.2019, 19:22

worm2 в сообщении #1370889 писал(а):

Ещё можно, например, убирать выбросы с помощью 5% и 95% квантилей, а от оставшихся данных брать не медиану, а среднее — как вам такой вариант?

Если я правильно понимаю, то речь идет об оценке мат. ожидания. К сожалению, специфика рассматриваемой мною задачи может, в частности, выдавать распределения типа Коши, для которых мат. ожидание не существует. Именно поэтому, в качестве робастной оценки параметра была выбрана медиана.

-- Вт янв 22, 2019 19:28:13 --

Если говорить точнее, то речь идет об оценке случайной величины, являющейся отношением двух нормально распределенных случайных величин с ненулевыми матожиданиями. В случае нулевых матожиданий числителя и знаменателя получаем распределение Коши, в другом случае более сложное распределение. Решение для этой задачи есть, однако, численные эксперименты показали, что в ряде случаев вблизи медианы функция распределения имеет весьма пологий вид. Откуда, собственно, и возникла вышеописанная проблема. Возможно есть другие критерии оптимальной оценки случайной величины, буду благодарен любым подсказкам.

worm2 · 22.01.2019, 20:00

Anatoly в сообщении #1370916 писал(а):

численные эксперименты показали, что в ряде случаев вблизи медианы функция распределения имеет весьма пологий вид.

Давайте подумаем, а почему это так получилось, что именно вблизи медианы функция так плохо себя ведёт. Откуда вдруг такое счастливое совпадение? Я подозреваю, что в числителе у вас величина с ненулевым матожиданием, а в знаменателе — с нулевым (или близким к нулю; и маленькой дисперсией). В итоге мы получаем с равной вероятностью большое положительное число и такое же по модулю отрицательное число. Отсюда медиана близка к 0. А маленькие по модулю значения весьма маловероятны (т.к. знаменатель редко даёт большие по модулю значения), вот функция распределения и ведёт себя полого, именно в районе медианы. Какой мы отсюда можем сделать вывод? Да чёрт его знает, какой :twisted:

Мне кажется, тут неустранимая погрешность. Ну "не живёт" распределение в районе медианы, в двух далеко отстоящих друг от друга местах оно "живёт". А мы хотим его одним числом охарактеризовать. Какой толк нам от этого числа? ("Среднестатистический человек — гермафродит").

Другое дело, если знаменатель имеет ненулевое матожидание ("хорошо отделён" от нуля). Тут ситуация гораздо лучше, отношение хоть и может тут жить в разных местах, но весьма предпочитает только одно.

Anatoly · 22.01.2019, 20:40

worm2 в сообщении #1370930 писал(а):

Отсюда медиана близка к 0. А маленькие по модулю значения весьма маловероятны (т.к. знаменатель редко даёт большие по модулю значения), вот функция распределения и ведёт себя полого, именно в районе медианы. Какой мы отсюда можем сделать вывод? Да чёрт его знает, какой :twisted:

Мне кажется, тут неустранимая погрешность. Ну "не живёт" распределение в районе медианы, в двух далеко отстоящих друг от друга местах оно "живёт". А мы хотим его одним числом охарактеризовать. Какой толк нам от этого числа? ("Среднестатистический человек — гермафродит").

Абсолютно с Вами согласен, но практика требует поиска решений. Дело в том, что задача по сути состоит в нахождении значения производной вдоль некой кривой, наклон которой может меняться со временем по неизвестному закону, при этом в каждый дискретный момент времени проводятся измерения локальных приращений аргумента и значения функции на фоне шумов с известной дисперсией. Если оставить все как есть, то есть просто делить одно значение на другое, то в местах малых приращений аргумента имеем большие выбросы, что плохо для дальнейшей обработки. Было бы неплохо учесть шум измерений при выдаче оценки. Например, в предельном случае, когда измеренные значения малы по сравнению с шумом, то в качестве оценки хорошо бы иметь число близкое к нулю. Отсюда, собственно, и все эти вышеописанные поиски функции распределения отношения двух нормальных величин и его медианы.

worm2 · 22.01.2019, 21:23

А, численное дифференцирование!
Если приращение аргумента мало, то смысла в вычисленной конечной разности мало: слишком большая погрешность.
Если мы не можем это приращение произвольно выбирать, и оно нам какое даётся, такое и приходится использовать, тогда ой, я даже не знаю, что делать.
Обычно всё-таки бывает так, что нам известны значения функции в некотором наборе точек, и уж среди этого набора мы вольны выбирать точки, где хотим. А мы хотим выбрать их не слишком близко друг к другу (чтобы погрешность вычисления функции слишком не выросла), но и не слишком далеко (чтобы погрешность замены производной конечной разностью не была слишком большой). У меня есть готовые формулы, с помощью которых можно искать оптимальный баланс, для случая, когда точки расположены равномерно (см. мою тему https://dxdy.ru/topic117490.html, с последней поправкой именно на статистическую оценку погрешности). В случае неравномерной сетки примерный рецепт тоже есть: построить сглаживающий сплайн, а потом у него брать производную (даже вторую можно найти). Но там готовых формул для оптимального подбора параметра нету, и их непросто найти в литературе. Можно численным моделированием подобрать.

Anatoly · 22.01.2019, 22:26

Да, спасибо за подсказки. Но дело не совсем в численном дифференцировании. С помощью зондирующих импульсов наблюдается некоторая среда с нелинейным откликом. Среда постепенно меняется, что отражается на форме отклика. Чтобы линеаризовать задачу в зондирующий сигнал вводится модуляция, которая позволяет оценить локальные параметры модулирующей функции среды. Отсюда и возникает обратная задача. Так что, к сожалению, шаг аргумента выбрать не совсем получается.

-- Вт янв 22, 2019 22:35:01 --

Опишу свою задачу тогда более формально.
Имеем функцию наблюдения:
$y_k=f(x_k)+n_k, k = 1 \dots N,$
$f(x) = ax+b$ .
И состояния системы:
$x_k=\gamma k + (-1)^k$

Нужно по измеренным величинам $y_k$ и известной дисперсии БГШ $n_k$ оптимальным образом оценить $\gamma$ . Коэффициенты $a$ и $b$ неизвестны.
В общем случае полином, описывающий наблюдение, может иметь более высокий порядок. Однако, это не отменяет главной проблемы, при малых значениях производной передаточной функции $f(x)$ на интервале наблюдения погрешность оценки очень большая.

worm2 · 23.01.2019, 09:24

$x_k$ прыгает изначально от $+1$ до $-1$ и обратно, медленно (если $\gamma$ маленькое) смещаясь вправо, причём скорость этого смещения $\gamma$ нужно найти. Правильно я понимаю?
Если неизвестная функция $f$ в действительности равна константе $b$ ( $a=0$ ), то мы не заметим никаких изменений (ибо все изменения — случайный белый гауссовский шум). Конечно, тут нет никаких шансов найти $\gamma$ . Но найти $b$ и $a$ (даже если оно близко к 0) мы сможем.
Если же $a\approx 0$ , но всё же отлично от нуля, то мы сможем это заметить, но нужно будет большое количество измерений. Дождёмся такого (чётного) $k$ , когда $y_k$ существенно изменится по сравнению с $y_0$ (выше $6\max n_k$ , например). Рассчитаем $y_k-y_0 \approx \gamma k a$ (лучше, конечно, усреднить несколько значений в районе нуля и в районе $k$ для увеличения точности) и $\sum\limits_{i=0}^{k/2-1}(y_{2i+1}-y_{2i}) \approx k a$ , разделим первое на второе и получим оценку $\gamma$ .

Научный форум dxdy

Медиана кусочно-постоянной функции распределения