Реализация Chain of thought в современных LLM

Rasool · 12.06.2025, 18:41

В отличие от символьного ИИ, узким местом современного коннекционистского ИИ является возможность логически рассуждать. В последнее время среди LLM получило развитие reasoning. Интересно, до какой степени будт развиваться возможность рассуждать среди современных нейронных сетей?

Цитата:

Ловушка Chain-of-thought
#nlp #про_nlp #nlp_papers

На днях коллегиат из Apple выпустил статью с говорящим названием: "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity".
Поскольку из названия можно сразу сделать далеко идущий вывод, скажу сразу, что статья гораздо менее кликбейтная, и заслуживает внимания.
Краткий вывод: Reasoning LLM скорее эксплуатируют паттерны, чем реально демонстрируют способности к логике, особенно если их поместить в среду с задачами, где язык совсем не нужен.

Суть экспериментов

Авторы специально создают набор задач, где язык как таковой не нужен, а нужны логические операции и ограниченный состав предикатов. Авторы берут задачки навроде Ханойской башни ([url]https://ru.wikipedia.org/wiki/%D0%A5%D0%B0%D0%BD%D0%BE%D0%B9%D1%81%D0%BA%D0%B0%D1%8F_%D0%B1%D0%B0%D1%88%D0%BD%D1%8F), Волка-козла-капусты (https://ru.wikipedia.org/wiki/%D0%92%D0 ... 1%82%D0%B0[/url]) и тд, и искусственно контролируют их сложность, увеличивая количество элементов.

По результатам авторы выделяют 3 группы задач: 1) задачи низкой сложности, где обычные инструкт-модели показывают такой же или лучший результат, чем ризонинг-модели 2) задачи средней сложности, где у ризонинга выходит преимущество 3) задачи высокой сложности, где у всех LLM результат падает в ноль.

Итог: при фиксированном бюджете на вывод (60 тыс токенов), у инструкционных и ризонинг моделей разные траектории. На простых и средних задачах ризонинг модели явно лидируют, но на задачах повышенной сложности результат не воспроизводится и качество у всех падает в ноль.

Тестируются o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking — на всех результаты схожие.

Chain-of-thought и не должен работать

Почему вообще Chain-of-thought должен лучше работать?
Chain of thought изначально очень ограниченный инструмент. Эксплуатация промпт-инжиниринга, которая опирается на совершенно искусственные данные. В веб-корпусе со всего интернета таких примеров будет совсем мало, и источника данных, по которым можно было бы проверить естественное распределение явлений в логах хода мыслей человека у нас нет. Датасеты, на которых ризонинг-модели учатся, достаточно искусственные и не то чтобы разнообразные. Да, на некоторых задачах потратить больше времени на генерацию помогает. Но есть и другие методы — разный декодинг, многошаговая генерация и т.д. Поэтому не стоит думать, что ризнинг-модели прямо хорошо думают, и что это из коробки масштабируется.

Одним из самых известных (и уже сатурированных) бенчмарков, который проверяет по сути это же — способность моделей демонстировать интеллект без языка — является ARC AGI (https://t.me/rybolos_channel/1370). Он тоже построен на масштабируемых паттернах, и в ноябре 2024 его уже зарешали. Несколько аналогичных работ (вот (https://arxiv.org/abs/2305.15771)и вот (https://arxiv.org/abs/2410.02162)) проводило такие же тесты на способнсти LLM к планированию — и для ризонинг-моделей, и для инструкционных.

Мечта о символьном ИИ

Требовать от вероятностной модели хорошо работать в условиях, где нужны строгие правила, вообще странновато, на мой взгляд. Но можно, если мы признаем, что логика предикатов и другие правиловые системы являются подмножеством в вероятностном пространстве языка.

Гипотеза, вообще говоря, имеет право на существование: попытки соединить фундаментальные модели и символьные методы уже были, например, есть трансформеры логики предикатов и даже на алголе. Ждем, когда это все протечет в тюнинг ризонинг-моделей!

А что делать?

Может быть, комбинация с символьными методами и правда принесет нам что-то полезное.
Но пока до этого ещё далеко, можно было бы сделать как минимум три вещи:
— получше разобраться с механистической интерпретацией в применении к таким задачам, посмотреть, что вообще происходит с цепочками активаций и можно ли это улучшить тюнингом на данных;
— попробовать перетюнить модели с разными методиками inference time training — и сравнить результаты;
— попробовать разные методы декодинга, чтобы проверить, что результат сохраняется, либо существующий декодинг просто не оптимален для подобных задач.

Все эти гипотезы по сути заблокированы, так как веса у моделей закрытые, но как минимум можно было бы взять DeepSeek.

В общем, экспоненту найти (https://t.me/rybolos_channel/1442) в очередной раз не получилось, разве что отрицательный разве что отрицательный рост.

Научный форум dxdy

Реализация Chain of thought в современных LLM