Задача. Рассматривается игра двух игроков игральным кубиком. Во время одного хода каждый игрок кидает кубик до тех пор, пока не решит остановиться и передать ход другому игроку, или же пока на кубике не выпадет 1, в этом случае ход также переходит к другому игроку. В первом случае сумма набранных очков за ход прибавляется к общей сумме, набранной игроком за игру, а во втором случае - все очки, набранные игроком за этот ход, сгорают. Целью игры является первым набрать суммарное количество очков 100.
Есть подсказка. Априорной информацией является общая сумма набранных очков в игре

. Вектор состояния состоит из трех компонент: текущая сумма в процессе всего хода

,

- состояние, указывающее, остановлено или нет бросание, и номер бросания

. Вектор управления состоит из одной компоненты, которая принимает только два значения: остановить бросание, продолжить бросание. Случайным возмущением

является количество выпавших на кубике очков (от 1 до 6, каждое с вероятностью

).
Строим математическую модель. В общем, тут и застряли. Рассматриваем действия одного игрока. Обозначим

- число очков, выпавшее на кубике при

-м бросании кубика игроком. Вектор состояния
![$ \[{{\vec{x}}_{i}}=\left\{ {{\sigma }_{i}},{{B}_{i}} \right\}\]$ $ \[{{\vec{x}}_{i}}=\left\{ {{\sigma }_{i}},{{B}_{i}} \right\}\]$](https://dxdy-03.korotkov.co.uk/f/2/0/0/200a6ae121829b819afb869200ce44ad82.png)
.
Здесь

, если бросание остановлено, и

в противном случае;

- текущая сумма в процессе всего хода;
и непонятно: если третью компоненту

включать в этот вектор, то как ей потом уравнение составлять?

??
Управление принимает всего два значения:

, где 1 означает остановить бросания, а 0 – продолжать.
Тогда модель системы будет иметь вид:
![$$\[{{\vec{x}}_{i+1}}=\left\{ \begin{array}{*{35}{l}}
{{\sigma }_{i+1}}=\left\{ \begin{array}{*{35}{l}}
{{\sigma }_{i}}+{{\omega }_{i+1}}, & {{\omega }_{i+1}}\ne 1, \\
0, & {{\omega }_{i+1}}=1, \\
\end{array} \right. \\
{{B}_{i+1}}={{u}_{i}} \\
\end{array} \right\}\]$$ $$\[{{\vec{x}}_{i+1}}=\left\{ \begin{array}{*{35}{l}}
{{\sigma }_{i+1}}=\left\{ \begin{array}{*{35}{l}}
{{\sigma }_{i}}+{{\omega }_{i+1}}, & {{\omega }_{i+1}}\ne 1, \\
0, & {{\omega }_{i+1}}=1, \\
\end{array} \right. \\
{{B}_{i+1}}={{u}_{i}} \\
\end{array} \right\}\]$$](https://dxdy-01.korotkov.co.uk/f/c/2/9/c298b75a6f3e973c3abc5c54150b15ef82.png)
И уже много непонятного накопилось. Во-первых, составленная таким образом математическая модель не учитывает, какой игрок делает ход, т.е. нужно еще дополнительно проверять, куда прибавлять заработанные очки: к сумме первого или второго игроков. Во-вторых, сомневаюсь, правильно ли составлено уравнение для компоненты

в последнем выражении: если

, то

будет означать, что ход перешел к другому игроку... И что делать с априорной информацией – тоже неясно.
Пробовала составлять модель не для каждого бросания, а для всего хода целиком только для второго игрока, но вопросов получается не меньше…
Функционал качества, который нужно минимизировать по управлению, - это математическое ожидание разницы между желаемыми 100 очками и фактической суммой игрока. Но опять же - непонятно, как его записывать в тех обозначениях, которые написаны выше. И как-то нужно учесть в нем априорную информацию и то, чей ход.
Проконсультируйте, пожалуйста, по математической модели, и, если возможно, подскажите, из какого источника эта задача (я уже не говорю про решение, хотя бы само условие в оригинале прочитать и теорию, которая ей предшествует).