DeepSeek и Пекинский университет получили «Лучшую статью ACL» за революционную технологию NSA!
Новое поколение ИИ от DeepSeek сможет обрабатывать длинные тексты в 11 раз быстрее без потери качества.
Что произошло?
На конференции ACL (главное событие в области NLP) объявили лучшую статью года — её авторами стали исследователи из DeepSeek и Пекинского университета. Их работа посвящена новой архитектуре внимания — Natively Sparse Attention (NSA).
Проблема: Почему ИИ так плохо работает с длинными текстами?
Сейчас все крупные языковые модели используют механизм полного внимания (Full Attention), который:
- Сравнивает каждое новое слово со всеми предыдущими
- При длинных текстах требует огромных вычислительных ресурсов
- Замедляет работу и увеличивает стоимость API
Решение DeepSeek: Нативное разреженное внимание (NSA)
Технология имитирует то, как человек читает большие документы:
Сжатие токенов — группировка ранних частей текста как "конспекта глав"
Выбор ключевых фрагментов — точный анализ только релевантных участков
Скользящее окно — детальная обработка недавних данных
Результаты тестов:
- Скорость генерации ответов: х11
- Скорость обучения: прямой проход х9, обратный х6
- Точность в тестах MMLU/GSM8K выше классических моделей
- 100% точность поиска информации в текстах до 64k токенов
Что это даст пользователям?
- Можно будет загружать целые книги или наборы файлов
- Значительно более быстрые ответы
- Возможно снижение стоимости API
Технические детали
- Совместимость: GQA, FlashAttention-2, Triton
- Проверено на моделях 27B и MoE-архитектурах
- Полностью интегрировано в обучение (не только инференс)
Эта технология, вероятно, ляжет в основу следующего поколения моделей DeepSeek. Теперь остаётся ждать официального релиза R2!
Читать статью на arXiv:
https://arxiv.org/abs/2502.11089