Цитата:
Посчитать-то её нетрудно,
Как?

Первый сомножитель - это количество комбинаций, оставляющее количества всех символов в выпавшем куске последовательности неизменными.
В общем виде этого доказать не могу, но эта формула совпадает с моей (с биномиальным распределением, но немного поправленной -- там надо и вероятность p перенормировать для каждого столбца гистограммы) в нескольких проверенных мною частных случаях.
-- Вт сен 21, 2010 18:01:34 --Я бы даже сказал, что нужна вероятность

, где

- последовательность выпавших символов. В смысле, если выпали два "А", а потом одно "Б", то это не то же самое, что выпало "А", потом "Б", а потом "А" (хотя вероятности и одинаковые).
В моём случае это неразличимые ситуации -- то есть, вывод должен быть сделан один и тот же.
-- Вт сен 21, 2010 18:04:41 --Здесь

(функция без индекса) - некое априорное распределение параметра

, которое тоже должно быть задано.
То есть, фактически, это вероятности того, что мы столкнёмся с тем или иным распределением, которое нужно распознать. Так?
А что такое величина с буквой бета?
-- Вт сен 21, 2010 18:21:02 --По формуле Байеса

Здесь

совпадает с Вашей величиной с альфа. А

, наверное, с бета?
Ну вот, теперь задача проясняется.
Если у нас выпала определённая гистограмма, то наша задача -- сравнить между собой все вероятности

для каждого из распознаваемых распределений

и выбрать из них максимальное. Это и будет результатом работы программы. Величина

для решения задачи не нужна, так как она одна и та же у всех сравниваемых величин.
А вот величина

желательна.
Однако, возможно, что разумного предположения о ней сделать нельзя, поэтому нужно будет положить это распределение равномерным, то есть,

. В этом случае задача сведётся к изначальной, то есть, к выбору согласно величине

.
Роль величины

сводится к тому, что она может перебить

в некоторых случаях.
Однако, если статистики достаточно много, то величина

будет сильно дифференцирована для разных p и, в этом случае, дополнительный учёт

вообще ничего не даст.