На arxiv.org появилась такая статья:
Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report. Вот ее абстракт:
Цитата:
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr’s efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and Olympiad-Bench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications. Codes publicly accessible at github.com/trotsky1997/MathBlackBox
Google-перевод:
Цитата:
В этом документе представлен алгоритм самоуточнения MCT (MCTSr), инновационная интеграция моделей большого языка (LLM) с поиском по дереву Монте-Карло (MCTS), предназначенный для повышения производительности при выполнении сложных математических задач. Решая проблемы точности и надежности в LLM, особенно в стратегических и математических рассуждениях, MCTSr использует систематические исследования и эвристические механизмы самосовершенствования для улучшения структуры принятия решений в LLM. Алгоритм строит дерево поиска Монте-Карло посредством итеративных процессов выбора, самоуточнения, самооценки и обратного распространения ошибки, используя улучшенную формулу верхней доверительной границы (UCB) для оптимизации баланса разведки и эксплуатации. Обширные эксперименты демонстрируют эффективность MCTSr в решении математических задач олимпиадного уровня, значительно повышая показатели успеха в нескольких наборах данных, включая GSM8K, GSM Hard, MATH, а также в тестах олимпиадного уровня, включая Math Odyssey, AIME и Olympiad-Bench. Исследование продвигает применение LLM в сложных логических задачах и закладывает основу для будущей интеграции искусственного интеллекта, повышая точность и надежность принятия решений в приложениях, основанных на LLM.