Как обучить агента в частично наблюдаемой среде?

AdaBoost · 29.10.2017, 12:19

Подскажите пожалуйста, есть ли аналоги обучения с подкреплением? Нужно обучить агента в частично наблюдаемой среде. Помимо обучения с подкреплением какие ещё существуют методы обучения для частично наблюдаемых сред?

Нашёл только "Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением"

AdaBoost · 29.10.2017, 14:56

Получше сформулирую вопрос:
Нужно обучить агента в частично наблюдаемой среде. Помимо обучения с подкреплением какие ещё существуют методы обучения для частично наблюдаемых сред или для игр с неполной информацией?

Mihaylo · 31.10.2017, 05:28

(Размышления вслух.)

1. Если информации нет, то ее надо собирать, другого пути нет. Если неполнота информации серьезная, то надо смотреть методы активного обучения. По сути это методы выбора эффективных решений для сбора информации.

2. Есть методы, которые успешно работают без сбора информации: это ассоциативное мышление, мышление по аналогии (перенос знаний из одной области в другую). Эти методы должны работать лишь при достаточно большом количестве накопленных знаний, должно быть несколько разнообразных и смежных областей знаний.

Человек в детстве и молодости активно пользуется п.1, с опытом больше налегает на п.2. К тому же со временем среда превращается из плохо наблюдаемой в хорошо наблюдаемую, то есть в целом оба пункта во взрослом возрасте используются реже. Но в любом случае они используются в той или иной степени.

Будет ошибкой, если вы будете классификатор изображений пытаться программировать мыслить ассоциативно. Где тут делать ассоциации? Хотя я может ошибаюсь.

На мой взгляд, п.2 - это причина качественного роста нейронных сетей при большом количестве обучающих данных.

slavav · 31.10.2017, 10:28

Вам нужен LSTM - Long short-term memory. Это способ обеспечить нейронную сеть памятью где она будет накапливать информацию об окружении.

Paragraph · 10.11.2017, 04:04

Если выплаты в игре сразу не известны (игра многоходовая), то годится только обучение с подкреплением. Но конкретных методов обучения с подкреплением очень много. Включая построение модели противника (или среды) каким угодно способом, в т.ч. нейронной сетью с LSTM или без оной.

Народная мудрость, впрочем, утверждает, что нейросеть для сложных игр очень трудно обучить не имея ресурсов гугла. Маленькая сеть плохо аппроксимирует сильно негладкие функции (например, в оценке шахматных позиций), а для большой машинного времени не напасешься.

Рукомендую классическую книжку Саттона и Барто (http://www.ozon.ru/context/detail/id/7107485/). На английском книжка есть в pdf бесплатно. Есть также лекции на youtube David Silver "Reinforcement Learning". Приблизительно покрывают материал книжки Саттона с описанием некоторых свежих (на момент выхода лекций) достижений.

Научный форум dxdy

Как обучить агента в частично наблюдаемой среде?