Генератор для 3х зависимых дискретных величин.

_hum_ · 17.01.2013, 00:59

А еще, возможно, стоит в эту строну покопать. Я для удобства буду говорить про непрерывные случайные величины. Смотрите, если просто брать и, как предлагали ранее, генерировать случайные значения, после чего проверять их на условие "не попадают в одну клетку" и отбрасывать ненужные, то получится не совсем то - маргинальные распределения могут не совпадать с теми, что вам надо. Но поскольку вам само совместное распределение не важно, можно просто подумать, каким способом можно дополнительно проредить получаемые значения, чтобы в конце-концов распределения отдельных компонент вектора (маргианальные распределения) стали иметь нужную форму. И тут, как мне кажется, может помочь метод исключений (метод Неймана/режекции). Смотрите, там есть следующие результаты.
Пусть $f = f(x)$ - нужная маргинальная плотность распределения, $\Tilde{f} = \Tilde{f}(x)$ - маргинальная плотность того распределения, реализации которого собираемся прореживать. И пусть $g(x) = C\Tilde{f}(x)$ , где $C>0$ такова, что
$f\leq g.$
Утверждение 1. Пусть $(\xi,\eta)$ - двумерный случайный вектор, равномерно распределенный в области:
$G_f = \big\{(x,y) : 0 \leq y \leq f(x), x \in \mathbb{R}\big\}.$
Тогда компонента $\xi$ этого вектора имеет плотность распределения $f = f(x)$ .

Утверждение 2. Если $(\xi'_1, \eta'_1),(\xi'_2, \eta'_2)$ , $\dots$ , - независимые в совокупности случайные векторы, равномерно распределенные в
$G_g = \big\{(x,y) : 0 \leq y \leq g(x), x \in \mathbb{R}\big\},$
то случайный вектор
$(\xi'_\nu, \eta'_\nu),\quad\text{ где }\nu = \min \big\{k: (\xi'_k, \eta'_k) \in G_f\big\}$
равномерно распределен в $G_f$ .

Утверждение 3 Пусть случайные величины $(\xi', \eta')$ таковы, что их плотности распределений
$f_{\xi'}(x) = g(x)/\mes G_g, \quad f_{\eta'|\xi'}(y|x) = I_{[0,g(x))}(y)/g(x).$
Тогда случайный вектор $(\xi', \eta')$ распределен равномерно в $G_g$ . (Здесь $I_A = I_A(x)$ - индикаторная функция множества $A$ .)

У вас фактически есть реализации с.в. $\xi'$ . Если воспользоваться Утверждением 3, то можно так подобрать компоненту $\eta'$ , что $(\xi', \eta')$ станет равномерно распределенным в $G_g$ . А значит, если мы начнет просеивать значения этого вектора в соответствие с Утверждением 2, то по Утверждению 1 первые компоненты просеянных значений будут реализациями нужной с.в. с плотностью $f = f(x)$ .

Итого, будет что-то типа следующего алгоритма:
1) генерируем реализацию $(z'_1, z'_2, z'_3)$ случайного вектора $(\zeta'_1, \zeta'_2, \zeta'_3)$ , удовлетворяющую всем необходимым условиям на совместимость значений;
2) рассматриваем сначала первую компоненту $x' = \zeta'_1$ .
3) для выбранной компоненты в соответствие с Утверждением 3 генерируем реализацию $y'$ . Проверяем, если $(x',y')$ не попадают в $G_f$ , то забраковываем всю реализацию $(z'_1, z'_2, z'_3)$ и переходим к п. 4). Иначе, повторяем п 3) для следующей по порядку компоненты (если все три уже просмотрели, переходим к п. 4) ).
4) если компонента забракована, то переходим к п. 1) иначе подаем ее на выход алгоритма в качестве реализации искомого случайного вектора с нужными маргинальными плотностями.

Sinclair · 18.01.2013, 19:23

_hum_ в сообщении #672622 писал(а):

А еще, возможно, стоит в эту строну покопать. <...>

Огромное спасибо за этот вариант решения.
К сожалению, я не увидел ваш ответ вчера, поэтому отвечаю только сейчас.
Я разобрался с вашим вариантом, он и правда, похоже, превосходит предыдущие. Я так понимаю, он является идеальной версией итерационного построения генератора. (post672283.html#p672283). Вместо итерационного алгоритма нам нужно только найти константу C (хотя бы приблизительно), и у нас будет готовый генератор. В качестве минусов - будут отбраковываться дополнительные варианты (и их число будет тем больше, чем больше C).
Но главная проблема, из за которой мне не подходил тот алгоритм осталась.
Дело в том, что вот эта фраза:

_hum_ в сообщении #672622 писал(а):

Но поскольку вам само совместное распределение не важно, можно просто подумать, каким способом можно дополнительно проредить получаемые значения, чтобы в конце-концов распределения отдельных компонент вектора (маргианальные распределения) стали иметь нужную форму.

не верна.
Запрет занимать одну и ту же линию (или хотя бы одно и то же место) в ряде случаев (к которым, к сожалению, моя проблема склонна), не позволяет использовать данный алгоритм.
Я приведу совсем упрощенный пример:
Пусть есть 3 клетки. И 2 фишки - черная и белая. Фишки не могут находиться на одной клетке.
Предположим, что у обеих фишек одинаковое маргинальное распределение, и оно выглядит так:
1я клетка - 50%
2я клетка - 25%
3я клетка - 25%
Если посмотреть на это распределение повнимательнее, то можно заметить, что из него следует, что на первой клетке всегда находится одна из фишек. Если в каком-то проценте случаев первая клетка пуста, то вероятность нахождения на ней фишки любого цвета меньше 100%. А поскольку обе фишки не могут находиться на одной клетке (эти события несовместны) - вероятность того, что либо первая, либо вторая находятся на первой клетке - равна 100% (50+50).
Ни "алгоритм компенсации" ни "алгоритм режекции" не позволяют учесть этот момент. Проблема не столько в предельном случае, сколько в том, что все алгоритмы, не учитывающие данный феномен начинают наращивать ошибку, по мере приближения суммы вероятностей нахождения фишек на конкретной клетке к 1. В моей задаче, повторяюсь, достаточно вероятны распределения, при которых совокупная вероятность нахождения ладей на одной линии близка к 1.
Эту проблему я решить так и не смог. Вот сейчас я сижу, думаю над этой упрощенной задачей. Пытаюсь решить ее теми методами, которые могут быть потом применимы к исходной задаче.

_hum_ · 18.01.2013, 20:04

Sinclair в сообщении #673338 писал(а):

Запрет занимать одну и ту же линию (или хотя бы одно и то же место) в ряде случаев (к которым, к сожалению, моя проблема склонна), не позволяет использовать данный алгоритм.

Честно говоря, я не понимаю, в чем конкретно проблема. Генерируете любое распределение фишек по клеткам. Из реализаций отбрасываете те, что не удовлетворяют условию "в одной клетке не более одной фишки". Получаете новое распределение со своими маргинальными. Проверяете, чтобы эти маргинальные распределения не принимали нулевых значений там, где ваши исходные маргинальные распределения отличны от нуля (чтобы можно было удовлетворить $f < C\Hat{f}$ при некотором $C > 0$ ). Если все ОК - отдаете реализации на прореживание с целью получить распределение с нужными маргинальными.

Sinclair · 18.01.2013, 20:49