Avey neural processor (Enricher, Contextualizer, Fuser)

SergeyGubanov · 01.07.2025, 14:58

Кто нибудь уже понял принцип действия Avey-ного "нервного" процессора?

Don't Pay Attention
Mohammad Hammoud, Devang Acharya
https://arxiv.org/abs/2506.11305

Там на рисунке 3 изображена красная горизонтальная стрелка соединяющая красные контекстуализаторы: $Cx \leftrightarrow Cx$ . Что эта стрелка обозначает?

Далее написана формула (2) из которой (по замыслу авторов) должно быть всё понятно:
$\mathbf{c}(\mathbf{Z}_t) = \mathbf{Z}_{tl} \odot \sigma\left( \left( \mathbf{V} \odot \mathcal{N}(\mathbf{Z}_{t r}) \mathcal{N}(\mathbf{Z}_{t r}^\top) \right) \mathbf{Z}_{t r} + \mathbf{b}' \right)$
Но все эти обозначения мне не понятны. Нужна пояснительная бригада. Как конкретно векторы $e_1$ и $e_2$ взаимодействуют друг с другом?

SergeyGubanov · 01.07.2025, 18:27

Похоже авторы имели ввиду, что $\sigma$ принимает на вход что-то такое:
$Y^i_c = \sum_{a, b, j} V_{a b} {\mathcal N}^i_a {\mathcal N}^j_b Z^j_c + B^i_c.$

Не понимаю зачем матрицу $V_{a b}$ делать обучаемой. Она же одна и та же на все случаи жизни. Из соображений так сказать пригодности для всего, она вроде как может состоять только из всех единиц. Ну или быть треугольной (причинной), например, на диагонали и ниже диагонали единицы, а выше диагонали - нули.

mihaild · 01.07.2025, 19:23

У Вас порядок перемножений другой, и нормировка с транспонированием не коммутируют. Под сигмоидой стоит $\sum_b (V_a^b \cdot \sum_i \mathcal N_a^i \mathcal M_i^j) \cdot Z_b^c + B_a^c$ .

$V$ определяет, взаимодействие каких пар токенов нам интересно. Насколько я понимаю, у них много таких блоков в сети, и логично, что в одном блоке нас могут интересовать соседние токены, а в другом например взаимодействие первого со всеми.

SergeyGubanov · 02.07.2025, 12:20

mihaild в сообщении #1693031 писал(а):

$\sum_b (V_a^b \cdot \sum_i \mathcal N_a^i \mathcal M_i^j) \cdot Z_b^c + B_a^c$

Смущает, что индекс $a$ есть и у $V_a^b$ и у $N_a^i$ , так и было задумано?

Выдвину ещё одну гипотезу. Может быть авторы имели ввиду, что под сигмой стоит вот это:
$Y^{\mu}_{a} = \sum_{b} \sum_{c} \sum_{\nu} V^{b}_{a} \, \mathcal{N}^{\mu}_{c} \mathcal{M}^{c}_{\nu} \, Z^{\nu}_{b} + B^{\mu}_{a}$
$\mu$ , $\nu$ - векторные индексы.
$a$ , $b$ , $c$ - токенные индексы.

mihaild · 02.07.2025, 12:29

SergeyGubanov в сообщении #1693080 писал(а):

Смущает, что индекс $a$ есть и у $V_a^b$ и у $N_a^i$ , так и было задумано?

Да. Там произведение Адамара. Ошибка у меня в другом месте - должно быть $M_i^b$ . Индексы у матриц $V$ и $NM$ должны совпадать.

SergeyGubanov · 02.07.2025, 12:40

То есть две суммы вместо трёх? Вот так?
$Y^{\mu}_{a} = \sum_{b} \sum_{\nu} V^{b}_{a} \, \mathcal{N}^{\nu}_{a} \mathcal{M}^{b}_{\nu} \, Z^{\mu}_{b} + B^{\mu}_{a}$

mihaild · 03.07.2025, 11:47

Да, так (если правильно договориться какие индексы верхние, а какие нижние).
У $\sum_{\nu} \mathcal{N}^{\nu}_{a} \mathcal{M}^{b}_{\nu}$ есть понятный самостоятельный смысл - это косинусная похожесть $a$ -го эмбеддинга на $b$ -й. Если убрать $V$ , то получится, что мы каждый эмбеддинг заменяем суммой остальных с весами, равными похожести. Ну там если все эмбеддинги попарно перпендикулярны, то просто оставляем как есть. Я, откровенно говоря, не очень понимаю физического смысла этой операции.

А что вас так заинтересовало в конкретно этой статье? Подобных выходят десятки в месяц, если не в день.

SergeyGubanov · 03.07.2025, 23:34

mihaild в сообщении #1693148 писал(а):

Я, откровенно говоря, не очень понимаю физического смысла этой операции.

Я тоже не понимаю. Но если оно работает, то это даёт надежду, что истина где-то рядом.

mihaild в сообщении #1693148 писал(а):

А что вас так заинтересовало в конкретно этой статье? Подобных выходят десятки в месяц, если не в день.

Это мне ютуб предложил посмотреть видео обзор статьи. Заинтересовало то, что это не мышонок, не лягушка и не трансформер и не RNN. А какие еще подобные есть? Так чтобы и не трансформер и не RNN?

Я смотрел разные варианты трансформеров включая DeepSeek-овый и трансформер с Lighting Attention. Смотрел Mamba. Ничего не понятно, но очень интересно. Про реактивный самолёт кто-то из авиаконструкторов говорил, что если есть достаточно мощный двигатель, то и палка полетит. Вот похоже тут тоже самое. Если обладаешь достаточной вычислительной мощностью, то любая достаточно выразительная архитектура сгодится.

mihaild · 04.07.2025, 11:27

SergeyGubanov в сообщении #1693183 писал(а):

Но если оно работает, то это даёт надежду, что истина где-то рядом.

Примерно любая архитектура достаточного размера будет как-то работать. Тут модель еще и медленнее улучшается с ростом числа параметром.

SergeyGubanov в сообщении #1693183 писал(а):

А какие еще подобные есть? Так чтобы и не трансформер и не RNN?

Да просто поиск в гугле по запросу attention alternative уже много чего выдает. Я навскидку помню retentive networks, про которые несколько дней пару лет назад много шумели, а потом как-то всё затихло.

SergeyGubanov в сообщении #1693183 писал(а):

Если обладаешь достаточной вычислительной мощностью, то любая достаточно выразительная архитектура сгодится.

Это примерно так. Но поскольку у нас ресурсы ограничены, то архитектура на практике важна.
Для текстов сейчас интересна в первую очередь архитектура, лучшая текущей на больших размерах. Во вторую - дающая качество как текущая на средних размерах, но сильно её быстрее (для таких моделей прикладные задачи тоже есть). Всё остальное - это "улучшение метрик в пятом знаке в трех бенчмарках из 400".

Научный форум dxdy

Avey neural processor (Enricher, Contextualizer, Fuser)