Типа AlphaGo - нереально. AlphaGo Zero (самая легкая из серии) училась на 4 TPU, первая версия AlphaGo училась на 176 GPU. Это правда для обучения нейронок, формально RL их не требует.
Да, прошу прощения, в той статье, которая мне попалась на Arxiv.org, идет речь не об AlphaGo, а о Reinforcement Learning. Для того, чтобы проверить свои идеи "на коленке" на домашнем компе, достаточно ли
нечто подобного?