Еще немного про замену разработчиков на ИИ:
Alibaba протестировала 18 ИИ-агентов для программирования — и результаты оказались… болезненными.
Эксперимент был максимально реалистичным:
100 настоящих кодовых баз, каждая — 233 дня разработки.
Задача — не просто написать код, а поддерживать его в течение 8 месяцев.
И тут всё развалилось.
Написать код, который один раз проходит тесты — легко.
Поддерживать код и не ломать его при каждом изменении — почти никто из моделей не умеет.
Для этого Alibaba сделала новый бенчмарк — SWE-CI (
https://arxiv.org/abs/2603.03823).
Он проверяет не "почини баг один раз", а как код переживает эволюцию проекта.
Каждая задача — это 71 последовательный коммит реального развития кода.
Результаты
- 75% моделей ломают ранее работающий код во время поддержки
- только Claude Opus 4.5 и 4.6 держатся выше 50% zero-regression rate
- остальные модели накапливают технический долг на каждой итерации
Вывод
Почти все модели умеют писать код.
Почти ни одна не умеет его поддерживать.