Если выплаты в игре сразу не известны (игра многоходовая), то годится только обучение с подкреплением. Но конкретных методов обучения с подкреплением очень много. Включая построение модели противника (или среды) каким угодно способом, в т.ч. нейронной сетью с LSTM или без оной.
Народная мудрость, впрочем, утверждает, что нейросеть для сложных игр очень трудно обучить не имея ресурсов гугла. Маленькая сеть плохо аппроксимирует сильно негладкие функции (например, в оценке шахматных позиций), а для большой машинного времени не напасешься.
Рукомендую классическую книжку Саттона и Барто (
http://www.ozon.ru/context/detail/id/7107485/). На английском книжка есть в pdf бесплатно. Есть также лекции на youtube David Silver "Reinforcement Learning". Приблизительно покрывают материал книжки Саттона с описанием некоторых свежих (на момент выхода лекций) достижений.