Оптимальная стратегия.

SergeyGubanov · 19.02.2024, 23:06

А, дошло. То есть обнаружив безнадёжную позицию $3$ (в которой всегда выгодно говорить "пас" и терять всего 1 монету штрафа) надо учесть это в матрице выигрыша-проигрыша. Но после этого позиция $2$ тоже становится безнадёжной, и это надо тоже учесть
$\begin{pmatrix}0&5&400\\-5&0&600\\-400&-600&0\end{pmatrix} \quad \to \quad \begin{pmatrix}0&5&1\\-5&0&1\\-1&-1&0\end{pmatrix} \quad \to \quad \begin{pmatrix}0&1&1\\-1&0&1\\-1&-1&0\end{pmatrix}$ Теперь получается, в позиции $1$ надо говорить "чек", в остальных "пас"?

Получается, в общем случае, ходим по матрице и "коллапсируем" безнадёжные позиции пока есть что сколлапсировать?

Geen · 19.02.2024, 23:54

SergeyGubanov в сообщении #1630279 писал(а):

Получается, в общем случае, ходим по матрице и "коллапсируем" безнадёжные позиции пока есть что сколлапсировать?

Не совсем - посмотрите примеры выше. В том то и дело, что не так однозначно. Если идти от максимального штрафа за пас (когда надо во всех позициях говорить "чек"), то может быть так, что сначала мы перестаём играть плохую позицию, а при более низком штрафе снова начинаем её играть....

SergeyGubanov · 20.02.2024, 08:53

Сначала мы понимаем, что позиция $1$ безнадёжна и принимаем решение всегда её пасить. Но после этого позиция $2$ становится безнадёжной, пасим её тоже. Ответ: в позициях $1$ и $2$ -- "пас", в позиции $3$ -- "чек".
$\begin{pmatrix} 0 & -3 & 1\\ 3 & 0 & -4\\ -1 & 4 & 0 \end{pmatrix} \quad \to \quad \begin{pmatrix} 0 & -1 & -1\\ 1 & 0 & -4\\ 1 & 4 & 0 \end{pmatrix} \quad \to \quad \begin{pmatrix} 0 & 1 & -1\\ -1 & 0 & -1\\ 1 & 1 & 0 \end{pmatrix}$ После второго преобразования позиция $1$ как бы перестала быть безнадёжной, но это не должно нас сбивать с толку. Один раз приняв решение говорить в позиции $1$ пас, не надо от этого решения отказываться, иначе "горе от ума".

Geen · 20.02.2024, 11:30

SergeyGubanov в сообщении #1630297 писал(а):

не надо от этого решения отказываться

Это не оптимально. :roll:

Geen · 21.02.2024, 20:26

Некоторые пояснения по матрицам с примером когда "то играется, то не играется".

Пусть имеется следующая колода карт: два туза A, три короля K, четыре дамы Q и пять валетов J. Масти значения не имеют.
Игрокам разадаётся по одной карте; они (одновременно и независимо) решают будут они продолжать играть или пасуют; если оба играют, то сдаётся ещё одна общая карта; победитель определятся по старшей комбинации двух карт (его собственной и общей).
Определим старшинство комбинаций следующей таблицей (от старшей к младшей): $\begin{array}{rcc} & \text{комбинация} & \text{количество} \\\text{пары}\\&AA&1\\&KK&3\\&QQ&6\\&JJ&10\\\text{стриты}\\ &AK&6\\&KQ&12\\&QJ&20\\ \text{старшая карта}\\ &AQ&8\\&AJ&10\\&KJ&15 \end{array}\tag{O}$
(общее количество, как и следовало ожидать, равно ${14\choose2}$ ).

Таким образом, для каждого игрока заданы 4 позиции: $\begin{array}{rcccc}\text{карта}&A&K&Q&J\\\text{относительная частота}&2&3&4&5\end{array}\tag{q}$ Заметим, что относительные частоты являются строкой $\bar{q}$ с точностью до (несущественного) множителя 156.

Сосчитаем количество выигрышей проигрышей для каждой пары позиций. Сделаем это следующим образом: фиксируем карту первого игрока и перебираем все 156 вариантов выбора общей карты и карты второго игрока. Выигрыши первого игрока будем обозначать знаком '+', ничьи знаком '=' и проигрыши знаком '-'.

(большая таблица)

$\begin{array}{ccc}\text{карты: первого, общая, второго}&\text{количество случаев}&\text{результат}\\ \hline AAA&0&=\\AKA&3&=\\AQA&4&=\\AJA&5&=\\\\ AAK&3&+\\AKK&6&-\\AQK&12&-\\AJK&15&+\\\\ AAQ&4&+\\AKQ&12&+\\AQQ&12&-\\AJQ&20&-\\\\ AAJ&5&+\\AKJ&15&+\\AQJ&20&-\\AJJ&20&-\\\hline\\ KAA&2&-\\KKA&4&+\\KQA&8&+\\KJA&10&-\\\\ KAK&4&=\\KKK&2&=\\KQK&8&=\\KJK&10&=\\\\ KAQ&8&+\\KKQ&8&+\\KQQ&12&-\\KJQ&20&-\\\\ KAJ&10&+\\KKJ&10&+\\KQJ&20&+\\KJJ&20&-\\\hline\end{array}$
(вторая половина не влезла)
$\begin{array}{ccc}\text{карты: первого, общая, второго}&\text{количество случаев}&\text{результат}\\ \hline QAA&2&-\\QKA&6&-\\QQA&6&+\\QJA&10&+\\\\ QAK&6&-\\QKK&6&-\\QQK&9&+\\QJK&15&+\\\\ QAQ&6&=\\QKQ&9&=\\QQQ&6&=\\QJQ&15&=\\\\ QAJ&10&+\\QKJ&15&+\\QQJ&15&+\\QJJ&20&-\\\hline\\ JAA&2&-\\JKA&6&-\\JQA&8&+\\JJA&8&+\\\\ JAK&6&-\\JKK&6&-\\JQK&12&-\\JJK&12&+\\\\ JAQ&8&-\\JKQ&12&-\\JQQ&12&-\\JJQ&16&+\\\\ JAJ&8&=\\JKJ&12&=\\JQJ&16&=\\JJJ&12&=\\ \hline \end{array}$

Объединим результаты в "матрицу" строки которой соответствуют карте первого игрока, столбцы - карте второго, а элементами являются триплеты Win/Split/Loose.
$\begin{array}{c|cccc}&A&K&Q&J\\ \hline A&0/12/0&18/0/18&16/0/32&20/0/40\\ K&12/0/12&0/24/0&16/0/32&40/0/20\\ Q&16/0/8&24/0/12&0/36/0&40/0/20\\ J&16/0/8&12/0/24&16/0/32&0/48/0 \end{array}\tag{M}$
Сумма всех чисел в каждой строке равна 156. Если строки матрицы умножить на соответствующие частоты, то результат будет антисимметричной матрицей (считая анитисимметричными развёрнутые WSL триплеты). Если мы заменим WSL триплеты суммой их чисел, и умножим строки на частоты, то получим матрицу $P$ , умноженную на 2184
$Q=2184P=\begin{pmatrix}24&72&96&120\\72&72&144&180\\96&144&144&240\\120&180&240&240\end{pmatrix}\tag{P}$

Если мы заменим WSL триплет на $(W-L)/(W+S+L)$ , умножим строки на частоты и умножим результат на величину выигрыша $w$ , то мы получим матрицу $A$
$A/w=\begin{pmatrix}0&0&-1/3&-1/3\\0&0&-1/3&1/3\\1/3&1/3&0&1/3\\1/3&-1/3&-1/3&0\end{pmatrix}\tag{A}$

Если мы заменим WSL триплет на разницу $W-L$ , то получим матрицу $D=\begin{pmatrix}0&0&-16&-20\\0&0&-16&20\\8&12&0&20\\8&-12&-16&0\end{pmatrix}\tag{D}$

Для этой матрицы зависимость оптимальной стратегии от "штрафа за пас" $v$ будет
$\begin{array}{c|cccc} v_j & A & K & Q & J\\ \hline +\infty\\ & 1 & 1 & 1 & 1\\ 36\\ & 0 & 1 & 1 & 1\\ 28\\ & (28-v)/8 & 1 & 1 & (v-16)/20\\ 20\\ & 1 & 1 & 1 & 0\\ 16\\ & 0 & 0 & 1 & 0\\ 0\\ & 0 & 0 & 0 & 0\\ \end{array}$

Как видно, в жёстких условиях, при большом штрафе за пас мы вынуждены играть с любой картой. По мере смягчения условий первым выбывает туз. Потом, туза и валета следует играть лишь с некоторой вероятностью. Но при ещё большем смягчении условий мы должны перестать играть с валетом, но должны опять играть с тузом!
(С дамой играем всегда).

Научный форум dxdy

Оптимальная стратегия.