Задача. Рассматривается игра двух игроков игральным кубиком. Во время одного хода каждый игрок кидает кубик до тех пор, пока не решит остановиться и передать ход другому игроку, или же пока на кубике не выпадет 1, в этом случае ход также переходит к другому игроку. В первом случае сумма набранных очков за ход прибавляется к общей сумме, набранной игроком за игру, а во втором случае - все очки, набранные игроком за этот ход, сгорают. Целью игры является первым набрать суммарное количество очков 100.
Есть подсказка. Априорной информацией является общая сумма набранных очков в игре
. Вектор состояния состоит из трех компонент: текущая сумма в процессе всего хода
,
- состояние, указывающее, остановлено или нет бросание, и номер бросания
. Вектор управления состоит из одной компоненты, которая принимает только два значения: остановить бросание, продолжить бросание. Случайным возмущением
является количество выпавших на кубике очков (от 1 до 6, каждое с вероятностью
).
Строим математическую модель. В общем, тут и застряли. Рассматриваем действия одного игрока. Обозначим
- число очков, выпавшее на кубике при
-м бросании кубика игроком. Вектор состояния
.
Здесь
, если бросание остановлено, и
в противном случае;
- текущая сумма в процессе всего хода;
и непонятно: если третью компоненту
включать в этот вектор, то как ей потом уравнение составлять?
??
Управление принимает всего два значения:
, где 1 означает остановить бросания, а 0 – продолжать.
Тогда модель системы будет иметь вид:
И уже много непонятного накопилось. Во-первых, составленная таким образом математическая модель не учитывает, какой игрок делает ход, т.е. нужно еще дополнительно проверять, куда прибавлять заработанные очки: к сумме первого или второго игроков. Во-вторых, сомневаюсь, правильно ли составлено уравнение для компоненты
в последнем выражении: если
, то
будет означать, что ход перешел к другому игроку... И что делать с априорной информацией – тоже неясно.
Пробовала составлять модель не для каждого бросания, а для всего хода целиком только для второго игрока, но вопросов получается не меньше…
Функционал качества, который нужно минимизировать по управлению, - это математическое ожидание разницы между желаемыми 100 очками и фактической суммой игрока. Но опять же - непонятно, как его записывать в тех обозначениях, которые написаны выше. И как-то нужно учесть в нем априорную информацию и то, чей ход.
Проконсультируйте, пожалуйста, по математической модели, и, если возможно, подскажите, из какого источника эта задача (я уже не говорю про решение, хотя бы само условие в оригинале прочитать и теорию, которая ей предшествует).