Авторы Телеграм-канала Сиолошная предположили, что слухи о достигнутом в OpenAI прорыве в решении математических задач могут быть связаны с работой, опубликованной в мае -
Let's Verify Step by Step:
Цитата:
В работе обучается модель, генерирующая решения математических задач. При этом во время тренировки предлагается поощрять нейронку за каждый правильный шаг рассуждения (делается «контроль процесса») вместо вознаграждения за правильный окончательный ответ («контроль результата», именно так обучалась GPT-4).
Простыми словами вместо того, чтобы смотреть на всё решение целиком и говорить «ну, ответ неправильный, поэтому решение фигня» (как ваш препод в универе), теперь делают так: «ага, вот эти первые 6 шагов правильные, а в 7м ошибка, из-за которой ответ не получился». Это даёт куда больше полезного сигнала, что приводит к более качественным результатам.
Один из артефактов обучения новым методом — в ходе тренировки мы получаем модель, которая для каждого отдельного шага решения учится предсказывать, является ли оно корректным. Такая модель может обнаруживать как галлюцинации, когда модель что-то сказанула не подумав, так и ошибки в чистой математике, когда задним числом понимаешь, что что-то не сходится.
А теперь давайте сделаем вот такой трюк: через GPT сгенерируем тысячу решений задачи, а затем используем упомянутую выше модель-оценщика для того, чтобы выбрать самое правильное. Если ChatGPT достаточно умна, чтобы хотя бы раз в 1000 генераций выдавать правильный ответ (не так много и требуем, кстати), а оценщик достаточно хорошо пост-фактум по решению определяет его корректность, то это ведёт к увеличению доли решённых задач. И действительно — вы можете в этом убедиться на приложенном графике. По горизонтали увеличивается количество генерируемых гипотез, а по вертикали видим рост качества. Интересно, что оно не выходит на плато — в теории, можно и сто тысяч гипотез генерировать, и качество лишь улучшится.
На репрезентативном, как утверждается в работе, подмножестве бенчмарка MATH модель, в которой реализован этот принцип, набрала 78% - это почти вдвое больше самого лучшего на сегодня результата (GPT-4 - 42.5%).