Я бы даже сказал, что нужна вероятность

, где

- последовательность выпавших символов. В смысле, если выпали два "А", а потом одно "Б", то это не то же самое, что выпало "А", потом "Б", а потом "А" (хотя вероятности и одинаковые).
В моём случае это неразличимые ситуации -- то есть, вывод должен быть сделан один и тот же.
Вы не сказали, что Вам сообщаются только количества выпавших символов, но не их порядок. Впрочем, в данном случае это действительно неважно.
Здесь

(функция без индекса) - некое априорное распределение параметра

, которое тоже должно быть задано.
То есть, фактически, это вероятности того, что мы столкнёмся с тем или иным распределением, которое нужно распознать. Так?
Априорные вероятности.
А что такое величина с буквой бета?
Бета - это просто связанная переменная в формуле. Функция та же, что и для альфы.
По формуле Байеса

Здесь

совпадает с Вашей величиной с альфа.
Точнее, определённая Вами величина

совпадает с определённой мной величиной

А

, наверное, с бета?
Зачем тут нужно априорное распределение

? Забудьте о нём. Если Вас беспокоит, что эта величина стоит в знаменателе формулы Байеса, так это просто нормировочный коэффициент.
Если у нас выпала определённая гистограмма, то наша задача -- сравнить между собой все вероятности

для каждого из распознаваемых распределений

и выбрать из них максимальное.
Вы ставили задачу не так, чтобы "выбрать максимальное". Вы спрашивали о "распределении распределения". Вот это оно и есть: апостериорные вероятности для вектора

. Если хотите выбрать конкретное распределение, то по максимуму вероятности это будет:

(выше я писал об этом),
а оценка по среднему даст:

.
А вот величина

желательна.
Однако, возможно, что разумного предположения о ней сделать нельзя, поэтому нужно будет положить это распределение равномерным, то есть,

. В этом случае задача сведётся к изначальной, то есть, к выбору согласно величине

.
Величина

называется функцией правдоподобия. Поэтому выбор по её максимуму называется оценкой по максимуму правдоподобия. Как видите, он соответствует случаю априорной равновероятности.
Однако, если статистики достаточно много, то величина

будет сильно дифференцирована для разных p и, в этом случае, дополнительный учёт

вообще ничего не даст.
Статистика, как известно, это худшая разновидность лжи.

Это можно воотчию наблюдать на примерах, когда даже при "достаточно большой выборке" мы, основываясь на ошибочных исходных предположениях, приходим к неверным оценкам. Это относится и к правильности выбора априорного распределения.