На неделе компания Magic.dev анонсировала модель LTM-1 (Long-Term Memory network): большую языковую модель с поддержкой контекста в 5'000'000 токенов.
Нет, это не ошибка, пять миллионов. У GPT-4 есть версия на 32'000 токенов, конкурент OpenAI предлагает модель Claude с поддержкой окна контекста 100'000 - в 50 раз меньше, чем LTM-1. Сценарий использования у модели — это написание кода и помощь разработчикам.
Вот
тут и
тут можно посмотреть примеры юзкейсов. Однако меня это не сильно впечатлило — с помощью правильного промпта и эвристик в целом получалось то же самое (см. промпт GitHub Copilot
тут).
Проект интересен по другой причине. AI Software Engineer, как это называет компания Magic.dev, впечатляет, но по настоящему такой длинный контекст раскроется в других областях. Подумайте, что будет дальше:
— Целые проекты в промптах (большие наборы функций на все случаи жизни)
— Инструкции для модели длинной в книгу, с описанием всех тонкостей
— Подстановка K примеров выполнения схожей задачи, где K равно не 10-30, как сейчас, а 10'000
— При этом каждый пример может быть по 30 страниц - это тоже влезет в промпт!
Те, кто заявлял о неминуемой смерти промпт-инженеринга до того, как появились модели с длинным контекстом, скорее всего просто обладали слабым воображением! Мы по сути еще и не начали писать (и генерировать!) промпты на полную.
И немного о компании: открылись в 2022 году,
подняли раунд $23M (в том числе от соавтора GitHub Copilot, лол), нанимают инженеров, в том числе низкоуровневы - потому что нужно делать очень специфичные решения для масштабирования. К слову, LTM-1 хоть и видит больше контекста, чем GPT, но имеет меньше параметров, чем современные топовые модели, что делает её менее способной. А зная, насколько сильно масштабирование модели улучшает производительность GPT, можно помечтать о том, во что превратится и этот монстр!
Пока доступ к модели только по спискам, встать в очередь можно
тут.