Да, соглашусь, мне просто кажется, что если взять не самую суперсложную модель, возможно оффлайн, и попытаться с помощью нее строить само дерево итерационно и в качестве целевой функции иметь какую-то метрику, то за пару дней работы на H100 или примерно такой же архитектуре это дело может сойтись куда надо, и быть выгоднее, чем сотрудник, который за это время просто банально то же самое не успеет сделать.
Вы говорите про LLM-агента(ов), но они не автономные разумные системы, а достаточно не хитрые алгоритмические надстройки вокруг языковой модели: цикл вызовов, память, инструменты и заранее заданные роли. Они декомпозируют задачи(но даже на этом этапе нужен человек), генерируют типовой код(вот тут всё уже замечательно), выполняют локальные исправления и проходят формальные проверки. Всё это работает, пока задача хорошо описывается текстом и имеет чёткие критерии успеха. Агент в этом режиме — ускоритель исполнения, а не субъект решения. Чем более задача типовая тем выше вероятность её полностью автоматического решения.
Проблемы начинаются на уровне проектов или задач сложнее средних. LLM не удерживает устойчивую глобальную модель системы, не помнит причин принятия решений и не чувствует их, так сказать, "заморозки" во времени. Контекст фрагментируется, а архитектурные инварианты легко разрушаются очередной "разумной" переработкой. Для агента любое изменение обратимо и дёшево, тогда как в реальном проекте цена возврата болезненна. Нужны отдельные агенты которые "маскируют" сравнительно готовое от переделок и тп. Всё это пытаются решить всё новыми и новыми промт-костыликами или внешними агентами оркестрантами\супервайзерами, но система усложняется и постоянно возникают новые высокоуровневые баги, ещё более странные чем предыдущие.
Ещё человек интуитивно учитывает стоимость времени, риски, репутацию и последствия ошибок. Агент или система агентов не несёт ответственности, не платит за промахи и потому не оптимизирует реальность, хотя это тоже уже пытаются прикрутить, оптять е усложняя и добавляя проблем. В результате относительно простая система склонна либо к бесконечному улучшательству, либо к радикальным переделкам без понимания их цены, а посложнее иногда может вообще парализовать, или она начнёт давать совсем странные результаты, причины которых сложно понять человеку. Надо для справделивости отметить, что и людские команды довольно часто запарывают сложные проекты и тоже чаще всего из-за кризиса сложности и управления. Так что это проблема не самого подхода, а природы раработки сложных проектов.
В общем, системы из множества агентов не решают проблему фундаментально. Всё равно они остаются текстовыми процессорами с прибамчасами, без "якоря истины" и авторитетного "владельца решения". Такой "коллектив" легко скатывается в "театральную критику", согласие\несогласие друг с другом или дрейф требований. Это не коллективный разум, а оркестрация генераторов. Наверно каждый из нас был в ситуации, когда группа умных людей обсуждает проблему и это превращается в ерунду и результат какой то несуразный в итоге.
Человек со средними когнитивными способностями выигрывает не интеллектом, а "включённостью в реальность"(наличие модели мира), так сейчас кажется. Он работает с ситуацией, а не с формальной задачей; чувствует риск до его описания; управляет необратимостью и умеет вовремя остановиться. Его ошибки контекстны и локальны, потому что он живёт с их последствиями.
Даже гипотетическое добавление агенту сложной памяти, санкций, идентичности и права отказа не снимает фундаментального различия. Агент остаётся внешним по отношению к миру: переносимым, откатываемым, без экзистенциальной ставки. Поэтому пока: LLM-агенты могут оптимизировать и ускорять работу, но не могут быть носителями ответственности за реальный проект, как сотрудник за 30-50 баксов в час с LLM в инструментарии.
Не, там задача довольно не тривиальная. В промпте очень завуалированно сказано, что надо экономить вычислительные ресурсы. А если на все эти моменты обратить внимание, а потом попытаться это имплементировать на какой-либо реал-тайм платформе, то сотрудник (то биш я) пару месяцев реально угрохает, и вот тут-то как раз хочется начать экономить. А вот таких задач у меня сейчас реально пруд-пруди, а денег на сотрудников нет, и за задачи мне, к сожалению, не платят, так как они возникли от участия в конкурсе, в котором было бы престижно победить или не на последнем месте финишировать.
А вдруг оффлайн решение таки выстрелит, если суперплатные версии не сильно далеко вперед ушли? Как вы думаете, какую версию для таких целей правильнее ставить, и желательно, чтобы по-русски менеджерить?
Llama3 или Qwen2.5 не важно, "по русски" поначалу лучще не искать, это эксперимент, они выходят сейчас десятками в месяц. Существеннее не выбор модели, а то, насколько жёстко и прозрачно вы контролируете её использование. Начинать лучше без готовых агентных фреймворков, если цель разобраться. Простейшая ручная оркестрация в одном скрипте даёт больше понимания, чем сложные абстракции. Явный цикл, чёткие промпты, логирование каждого шага — это позволяет увидеть, где агент реально помогает, а где начинает гнать пургу. Магия как правило быстро исчезает, остаётся инженерная боль.
Ключевой момент — ограничения. Агенту нужен узкий коридор действий: фиксированные роли, лимиты итераций, запрет на пересмотр фундаментальных решений и архитектуры. Он хорошо работает на генерации boilerplate, тестов, документации, локальном рефакторинге, если речь про код. Там, где требуется глобальное понимание и работа с неопределённостью, его лучше не пускать. Ну или под жестким контролем, за полётом фантазии.
Главный помнить: вы не создаёте разумного "сотрудника", а собираете автоматизированный инструмент. Чем раньше это принять, тем полезнее и спокойнее будет эксперимент.