2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Оптимальная стратегия.
Сообщение19.02.2024, 23:06 
Аватара пользователя


14/11/12
1367
Россия, Нижний Новгород
А, дошло. То есть обнаружив безнадёжную позицию $3$ (в которой всегда выгодно говорить "пас" и терять всего 1 монету штрафа) надо учесть это в матрице выигрыша-проигрыша. Но после этого позиция $2$ тоже становится безнадёжной, и это надо тоже учесть
$$
\begin{pmatrix}0&5&400\\-5&0&600\\-400&-600&0\end{pmatrix}
\quad \to \quad
\begin{pmatrix}0&5&1\\-5&0&1\\-1&-1&0\end{pmatrix}
\quad \to \quad
\begin{pmatrix}0&1&1\\-1&0&1\\-1&-1&0\end{pmatrix}
$$ Теперь получается, в позиции $1$ надо говорить "чек", в остальных "пас"?

Получается, в общем случае, ходим по матрице и "коллапсируем" безнадёжные позиции пока есть что сколлапсировать?

 Профиль  
                  
 
 Re: Оптимальная стратегия.
Сообщение19.02.2024, 23:54 
Заслуженный участник
Аватара пользователя


01/09/13
4656
SergeyGubanov в сообщении #1630279 писал(а):
Получается, в общем случае, ходим по матрице и "коллапсируем" безнадёжные позиции пока есть что сколлапсировать?

Не совсем - посмотрите примеры выше. В том то и дело, что не так однозначно. Если идти от максимального штрафа за пас (когда надо во всех позициях говорить "чек"), то может быть так, что сначала мы перестаём играть плохую позицию, а при более низком штрафе снова начинаем её играть....

 Профиль  
                  
 
 Re: Оптимальная стратегия.
Сообщение20.02.2024, 08:53 
Аватара пользователя


14/11/12
1367
Россия, Нижний Новгород
Сначала мы понимаем, что позиция $1$ безнадёжна и принимаем решение всегда её пасить. Но после этого позиция $2$ становится безнадёжной, пасим её тоже. Ответ: в позициях $1$ и $2$ -- "пас", в позиции $3$ -- "чек".
$$\begin{pmatrix}
0 & -3 & 1\\
3 & 0 & -4\\
-1 & 4 & 0
\end{pmatrix}
\quad \to \quad
\begin{pmatrix}
0 & -1 & -1\\
1 & 0 & -4\\
1 & 4 & 0
\end{pmatrix}
\quad \to \quad
\begin{pmatrix}
0 & 1 & -1\\
-1 & 0 & -1\\
1 & 1 & 0
\end{pmatrix}
$$После второго преобразования позиция $1$ как бы перестала быть безнадёжной, но это не должно нас сбивать с толку. Один раз приняв решение говорить в позиции $1$ пас, не надо от этого решения отказываться, иначе "горе от ума".

 Профиль  
                  
 
 Re: Оптимальная стратегия.
Сообщение20.02.2024, 11:30 
Заслуженный участник
Аватара пользователя


01/09/13
4656
SergeyGubanov в сообщении #1630297 писал(а):
не надо от этого решения отказываться

Это не оптимально. :roll:

 Профиль  
                  
 
 Re: Оптимальная стратегия.
Сообщение21.02.2024, 20:26 
Заслуженный участник
Аватара пользователя


01/09/13
4656
Некоторые пояснения по матрицам с примером когда "то играется, то не играется".

Пусть имеется следующая колода карт: два туза A, три короля K, четыре дамы Q и пять валетов J. Масти значения не имеют.
Игрокам разадаётся по одной карте; они (одновременно и независимо) решают будут они продолжать играть или пасуют; если оба играют, то сдаётся ещё одна общая карта; победитель определятся по старшей комбинации двух карт (его собственной и общей).
Определим старшинство комбинаций следующей таблицей (от старшей к младшей): $$\begin{array}{rcc} & \text{комбинация} & \text{количество} \\\text{пары}\\&AA&1\\&KK&3\\&QQ&6\\&JJ&10\\\text{стриты}\\
		&AK&6\\&KQ&12\\&QJ&20\\
		\text{старшая карта}\\
		&AQ&8\\&AJ&10\\&KJ&15
		\end{array}\tag{O}$$
(общее количество, как и следовало ожидать, равно ${14\choose2}$).

Таким образом, для каждого игрока заданы 4 позиции: $$\begin{array}{rcccc}\text{карта}&A&K&Q&J\\\text{относительная частота}&2&3&4&5\end{array}\tag{q}$$ Заметим, что относительные частоты являются строкой $\bar{q}$ с точностью до (несущественного) множителя 156.

Сосчитаем количество выигрышей проигрышей для каждой пары позиций. Сделаем это следующим образом: фиксируем карту первого игрока и перебираем все 156 вариантов выбора общей карты и карты второго игрока. Выигрыши первого игрока будем обозначать знаком '+', ничьи знаком '=' и проигрыши знаком '-'.

(большая таблица)

$$\begin{array}{ccc}\text{карты: первого, общая, второго}&\text{количество случаев}&\text{результат}\\ \hline
		AAA&0&=\\AKA&3&=\\AQA&4&=\\AJA&5&=\\\\
		AAK&3&+\\AKK&6&-\\AQK&12&-\\AJK&15&+\\\\
		AAQ&4&+\\AKQ&12&+\\AQQ&12&-\\AJQ&20&-\\\\
		AAJ&5&+\\AKJ&15&+\\AQJ&20&-\\AJJ&20&-\\\hline\\
		KAA&2&-\\KKA&4&+\\KQA&8&+\\KJA&10&-\\\\
		KAK&4&=\\KKK&2&=\\KQK&8&=\\KJK&10&=\\\\
		KAQ&8&+\\KKQ&8&+\\KQQ&12&-\\KJQ&20&-\\\\
		KAJ&10&+\\KKJ&10&+\\KQJ&20&+\\KJJ&20&-\\\hline\end{array}$$
(вторая половина не влезла)
$$\begin{array}{ccc}\text{карты: первого, общая, второго}&\text{количество случаев}&\text{результат}\\ \hline
		QAA&2&-\\QKA&6&-\\QQA&6&+\\QJA&10&+\\\\
		QAK&6&-\\QKK&6&-\\QQK&9&+\\QJK&15&+\\\\
		QAQ&6&=\\QKQ&9&=\\QQQ&6&=\\QJQ&15&=\\\\
		QAJ&10&+\\QKJ&15&+\\QQJ&15&+\\QJJ&20&-\\\hline\\
		JAA&2&-\\JKA&6&-\\JQA&8&+\\JJA&8&+\\\\
		JAK&6&-\\JKK&6&-\\JQK&12&-\\JJK&12&+\\\\
		JAQ&8&-\\JKQ&12&-\\JQQ&12&-\\JJQ&16&+\\\\
		JAJ&8&=\\JKJ&12&=\\JQJ&16&=\\JJJ&12&=\\ \hline
		\end{array}$$


Объединим результаты в "матрицу" строки которой соответствуют карте первого игрока, столбцы - карте второго, а элементами являются триплеты Win/Split/Loose.
$$\begin{array}{c|cccc}&A&K&Q&J\\ \hline
		A&0/12/0&18/0/18&16/0/32&20/0/40\\
		K&12/0/12&0/24/0&16/0/32&40/0/20\\
		Q&16/0/8&24/0/12&0/36/0&40/0/20\\
		J&16/0/8&12/0/24&16/0/32&0/48/0
		\end{array}\tag{M}$$
Сумма всех чисел в каждой строке равна 156. Если строки матрицы умножить на соответствующие частоты, то результат будет антисимметричной матрицей (считая анитисимметричными развёрнутые WSL триплеты). Если мы заменим WSL триплеты суммой их чисел, и умножим строки на частоты, то получим матрицу $P$, умноженную на 2184
$$Q=2184P=\begin{pmatrix}24&72&96&120\\72&72&144&180\\96&144&144&240\\120&180&240&240\end{pmatrix}\tag{P}$$

Если мы заменим WSL триплет на $(W-L)/(W+S+L)$, умножим строки на частоты и умножим результат на величину выигрыша $w$, то мы получим матрицу $A$
$$A/w=\begin{pmatrix}0&0&-1/3&-1/3\\0&0&-1/3&1/3\\1/3&1/3&0&1/3\\1/3&-1/3&-1/3&0\end{pmatrix}\tag{A}$$

Если мы заменим WSL триплет на разницу $W-L$, то получим матрицу $$D=\begin{pmatrix}0&0&-16&-20\\0&0&-16&20\\8&12&0&20\\8&-12&-16&0\end{pmatrix}\tag{D}$$

Для этой матрицы зависимость оптимальной стратегии от "штрафа за пас" $v$ будет
$$\begin{array}{c|cccc}
v_j & A & K & Q & J\\
\hline
+\infty\\
 & 1 & 1 & 1 & 1\\
36\\
 & 0 & 1 & 1 & 1\\
28\\
 & (28-v)/8 & 1 & 1 & (v-16)/20\\
20\\
 & 1 & 1 & 1 & 0\\
16\\
 & 0 & 0 & 1 & 0\\
0\\
 & 0 & 0 & 0 & 0\\
\end{array}$$

Как видно, в жёстких условиях, при большом штрафе за пас мы вынуждены играть с любой картой. По мере смягчения условий первым выбывает туз. Потом, туза и валета следует играть лишь с некоторой вероятностью. Но при ещё большем смягчении условий мы должны перестать играть с валетом, но должны опять играть с тузом!
(С дамой играем всегда).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу Пред.  1, 2

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group