2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Оптимальная стратегия.
Сообщение19.02.2024, 23:06 
Аватара пользователя


14/11/12
1367
Россия, Нижний Новгород
А, дошло. То есть обнаружив безнадёжную позицию $3$ (в которой всегда выгодно говорить "пас" и терять всего 1 монету штрафа) надо учесть это в матрице выигрыша-проигрыша. Но после этого позиция $2$ тоже становится безнадёжной, и это надо тоже учесть
$$
\begin{pmatrix}0&5&400\\-5&0&600\\-400&-600&0\end{pmatrix}
\quad \to \quad
\begin{pmatrix}0&5&1\\-5&0&1\\-1&-1&0\end{pmatrix}
\quad \to \quad
\begin{pmatrix}0&1&1\\-1&0&1\\-1&-1&0\end{pmatrix}
$$ Теперь получается, в позиции $1$ надо говорить "чек", в остальных "пас"?

Получается, в общем случае, ходим по матрице и "коллапсируем" безнадёжные позиции пока есть что сколлапсировать?

 Профиль  
                  
 
 Re: Оптимальная стратегия.
Сообщение19.02.2024, 23:54 
Заслуженный участник
Аватара пользователя


01/09/13
4656
SergeyGubanov в сообщении #1630279 писал(а):
Получается, в общем случае, ходим по матрице и "коллапсируем" безнадёжные позиции пока есть что сколлапсировать?

Не совсем - посмотрите примеры выше. В том то и дело, что не так однозначно. Если идти от максимального штрафа за пас (когда надо во всех позициях говорить "чек"), то может быть так, что сначала мы перестаём играть плохую позицию, а при более низком штрафе снова начинаем её играть....

 Профиль  
                  
 
 Re: Оптимальная стратегия.
Сообщение20.02.2024, 08:53 
Аватара пользователя


14/11/12
1367
Россия, Нижний Новгород
Сначала мы понимаем, что позиция $1$ безнадёжна и принимаем решение всегда её пасить. Но после этого позиция $2$ становится безнадёжной, пасим её тоже. Ответ: в позициях $1$ и $2$ -- "пас", в позиции $3$ -- "чек".
$$\begin{pmatrix}
0 & -3 & 1\\
3 & 0 & -4\\
-1 & 4 & 0
\end{pmatrix}
\quad \to \quad
\begin{pmatrix}
0 & -1 & -1\\
1 & 0 & -4\\
1 & 4 & 0
\end{pmatrix}
\quad \to \quad
\begin{pmatrix}
0 & 1 & -1\\
-1 & 0 & -1\\
1 & 1 & 0
\end{pmatrix}
$$После второго преобразования позиция $1$ как бы перестала быть безнадёжной, но это не должно нас сбивать с толку. Один раз приняв решение говорить в позиции $1$ пас, не надо от этого решения отказываться, иначе "горе от ума".

 Профиль  
                  
 
 Re: Оптимальная стратегия.
Сообщение20.02.2024, 11:30 
Заслуженный участник
Аватара пользователя


01/09/13
4656
SergeyGubanov в сообщении #1630297 писал(а):
не надо от этого решения отказываться

Это не оптимально. :roll:

 Профиль  
                  
 
 Re: Оптимальная стратегия.
Сообщение21.02.2024, 20:26 
Заслуженный участник
Аватара пользователя


01/09/13
4656
Некоторые пояснения по матрицам с примером когда "то играется, то не играется".

Пусть имеется следующая колода карт: два туза A, три короля K, четыре дамы Q и пять валетов J. Масти значения не имеют.
Игрокам разадаётся по одной карте; они (одновременно и независимо) решают будут они продолжать играть или пасуют; если оба играют, то сдаётся ещё одна общая карта; победитель определятся по старшей комбинации двух карт (его собственной и общей).
Определим старшинство комбинаций следующей таблицей (от старшей к младшей): $$\begin{array}{rcc} & \text{комбинация} & \text{количество} \\\text{пары}\\&AA&1\\&KK&3\\&QQ&6\\&JJ&10\\\text{стриты}\\
		&AK&6\\&KQ&12\\&QJ&20\\
		\text{старшая карта}\\
		&AQ&8\\&AJ&10\\&KJ&15
		\end{array}\tag{O}$$
(общее количество, как и следовало ожидать, равно ${14\choose2}$).

Таким образом, для каждого игрока заданы 4 позиции: $$\begin{array}{rcccc}\text{карта}&A&K&Q&J\\\text{относительная частота}&2&3&4&5\end{array}\tag{q}$$ Заметим, что относительные частоты являются строкой $\bar{q}$ с точностью до (несущественного) множителя 156.

Сосчитаем количество выигрышей проигрышей для каждой пары позиций. Сделаем это следующим образом: фиксируем карту первого игрока и перебираем все 156 вариантов выбора общей карты и карты второго игрока. Выигрыши первого игрока будем обозначать знаком '+', ничьи знаком '=' и проигрыши знаком '-'.

(большая таблица)

$$\begin{array}{ccc}\text{карты: первого, общая, второго}&\text{количество случаев}&\text{результат}\\ \hline
		AAA&0&=\\AKA&3&=\\AQA&4&=\\AJA&5&=\\\\
		AAK&3&+\\AKK&6&-\\AQK&12&-\\AJK&15&+\\\\
		AAQ&4&+\\AKQ&12&+\\AQQ&12&-\\AJQ&20&-\\\\
		AAJ&5&+\\AKJ&15&+\\AQJ&20&-\\AJJ&20&-\\\hline\\
		KAA&2&-\\KKA&4&+\\KQA&8&+\\KJA&10&-\\\\
		KAK&4&=\\KKK&2&=\\KQK&8&=\\KJK&10&=\\\\
		KAQ&8&+\\KKQ&8&+\\KQQ&12&-\\KJQ&20&-\\\\
		KAJ&10&+\\KKJ&10&+\\KQJ&20&+\\KJJ&20&-\\\hline\end{array}$$
(вторая половина не влезла)
$$\begin{array}{ccc}\text{карты: первого, общая, второго}&\text{количество случаев}&\text{результат}\\ \hline
		QAA&2&-\\QKA&6&-\\QQA&6&+\\QJA&10&+\\\\
		QAK&6&-\\QKK&6&-\\QQK&9&+\\QJK&15&+\\\\
		QAQ&6&=\\QKQ&9&=\\QQQ&6&=\\QJQ&15&=\\\\
		QAJ&10&+\\QKJ&15&+\\QQJ&15&+\\QJJ&20&-\\\hline\\
		JAA&2&-\\JKA&6&-\\JQA&8&+\\JJA&8&+\\\\
		JAK&6&-\\JKK&6&-\\JQK&12&-\\JJK&12&+\\\\
		JAQ&8&-\\JKQ&12&-\\JQQ&12&-\\JJQ&16&+\\\\
		JAJ&8&=\\JKJ&12&=\\JQJ&16&=\\JJJ&12&=\\ \hline
		\end{array}$$


Объединим результаты в "матрицу" строки которой соответствуют карте первого игрока, столбцы - карте второго, а элементами являются триплеты Win/Split/Loose.
$$\begin{array}{c|cccc}&A&K&Q&J\\ \hline
		A&0/12/0&18/0/18&16/0/32&20/0/40\\
		K&12/0/12&0/24/0&16/0/32&40/0/20\\
		Q&16/0/8&24/0/12&0/36/0&40/0/20\\
		J&16/0/8&12/0/24&16/0/32&0/48/0
		\end{array}\tag{M}$$
Сумма всех чисел в каждой строке равна 156. Если строки матрицы умножить на соответствующие частоты, то результат будет антисимметричной матрицей (считая анитисимметричными развёрнутые WSL триплеты). Если мы заменим WSL триплеты суммой их чисел, и умножим строки на частоты, то получим матрицу $P$, умноженную на 2184
$$Q=2184P=\begin{pmatrix}24&72&96&120\\72&72&144&180\\96&144&144&240\\120&180&240&240\end{pmatrix}\tag{P}$$

Если мы заменим WSL триплет на $(W-L)/(W+S+L)$, умножим строки на частоты и умножим результат на величину выигрыша $w$, то мы получим матрицу $A$
$$A/w=\begin{pmatrix}0&0&-1/3&-1/3\\0&0&-1/3&1/3\\1/3&1/3&0&1/3\\1/3&-1/3&-1/3&0\end{pmatrix}\tag{A}$$

Если мы заменим WSL триплет на разницу $W-L$, то получим матрицу $$D=\begin{pmatrix}0&0&-16&-20\\0&0&-16&20\\8&12&0&20\\8&-12&-16&0\end{pmatrix}\tag{D}$$

Для этой матрицы зависимость оптимальной стратегии от "штрафа за пас" $v$ будет
$$\begin{array}{c|cccc}
v_j & A & K & Q & J\\
\hline
+\infty\\
 & 1 & 1 & 1 & 1\\
36\\
 & 0 & 1 & 1 & 1\\
28\\
 & (28-v)/8 & 1 & 1 & (v-16)/20\\
20\\
 & 1 & 1 & 1 & 0\\
16\\
 & 0 & 0 & 1 & 0\\
0\\
 & 0 & 0 & 0 & 0\\
\end{array}$$

Как видно, в жёстких условиях, при большом штрафе за пас мы вынуждены играть с любой картой. По мере смягчения условий первым выбывает туз. Потом, туза и валета следует играть лишь с некоторой вероятностью. Но при ещё большем смягчении условий мы должны перестать играть с валетом, но должны опять играть с тузом!
(С дамой играем всегда).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу Пред.  1, 2

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: VanD


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group