2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение01.07.2025, 14:58 
Аватара пользователя
Кто нибудь уже понял принцип действия Avey-ного "нервного" процессора?

Don't Pay Attention
Mohammad Hammoud, Devang Acharya
https://arxiv.org/abs/2506.11305

Там на рисунке 3 изображена красная горизонтальная стрелка соединяющая красные контекстуализаторы: $Cx \leftrightarrow Cx$. Что эта стрелка обозначает?

Далее написана формула (2) из которой (по замыслу авторов) должно быть всё понятно:
$$
\mathbf{c}(\mathbf{Z}_t) = \mathbf{Z}_{tl} \odot \sigma\left( \left( \mathbf{V} \odot \mathcal{N}(\mathbf{Z}_{t r}) \mathcal{N}(\mathbf{Z}_{t r}^\top) \right) \mathbf{Z}_{t r} + \mathbf{b}' \right)
$$
Но все эти обозначения мне не понятны. Нужна пояснительная бригада. Как конкретно векторы $e_1$ и $e_2$ взаимодействуют друг с другом?

 
 
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение01.07.2025, 18:27 
Аватара пользователя
Похоже авторы имели ввиду, что $\sigma$ принимает на вход что-то такое:
$$
Y^i_c = \sum_{a, b, j} V_{a b} {\mathcal N}^i_a {\mathcal N}^j_b  Z^j_c + B^i_c.
$$

Не понимаю зачем матрицу $V_{a b}$ делать обучаемой. Она же одна и та же на все случаи жизни. Из соображений так сказать пригодности для всего, она вроде как может состоять только из всех единиц. Ну или быть треугольной (причинной), например, на диагонали и ниже диагонали единицы, а выше диагонали - нули.

 
 
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение01.07.2025, 19:23 
Аватара пользователя
У Вас порядок перемножений другой, и нормировка с транспонированием не коммутируют. Под сигмоидой стоит $\sum_b (V_a^b \cdot \sum_i \mathcal N_a^i \mathcal M_i^j) \cdot Z_b^c + B_a^c$.

$V$ определяет, взаимодействие каких пар токенов нам интересно. Насколько я понимаю, у них много таких блоков в сети, и логично, что в одном блоке нас могут интересовать соседние токены, а в другом например взаимодействие первого со всеми.

 
 
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение02.07.2025, 12:20 
Аватара пользователя
mihaild в сообщении #1693031 писал(а):
$\sum_b (V_a^b \cdot \sum_i \mathcal N_a^i \mathcal M_i^j) \cdot Z_b^c + B_a^c$
Смущает, что индекс $a$ есть и у $V_a^b$ и у $N_a^i$, так и было задумано?

Выдвину ещё одну гипотезу. Может быть авторы имели ввиду, что под сигмой стоит вот это:
$$
Y^{\mu}_{a} = \sum_{b} \sum_{c} \sum_{\nu} V^{b}_{a} \, \mathcal{N}^{\mu}_{c} \mathcal{M}^{c}_{\nu} \, Z^{\nu}_{b} + B^{\mu}_{a}
$$
$\mu$, $\nu$ - векторные индексы.
$a$, $b$, $c$ - токенные индексы.

 
 
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение02.07.2025, 12:29 
Аватара пользователя
SergeyGubanov в сообщении #1693080 писал(а):
Смущает, что индекс $a$ есть и у $V_a^b$ и у $N_a^i$, так и было задумано?
Да. Там произведение Адамара. Ошибка у меня в другом месте - должно быть $M_i^b$. Индексы у матриц $V$ и $NM$ должны совпадать.

 
 
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение02.07.2025, 12:40 
Аватара пользователя
То есть две суммы вместо трёх? Вот так?
$$
Y^{\mu}_{a} = \sum_{b} \sum_{\nu} V^{b}_{a} \, \mathcal{N}^{\nu}_{a} \mathcal{M}^{b}_{\nu} \, Z^{\mu}_{b} + B^{\mu}_{a}
$$

 
 
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение03.07.2025, 11:47 
Аватара пользователя
Да, так (если правильно договориться какие индексы верхние, а какие нижние).
У $\sum_{\nu} \mathcal{N}^{\nu}_{a} \mathcal{M}^{b}_{\nu}$ есть понятный самостоятельный смысл - это косинусная похожесть $a$-го эмбеддинга на $b$-й. Если убрать $V$, то получится, что мы каждый эмбеддинг заменяем суммой остальных с весами, равными похожести. Ну там если все эмбеддинги попарно перпендикулярны, то просто оставляем как есть. Я, откровенно говоря, не очень понимаю физического смысла этой операции.

А что вас так заинтересовало в конкретно этой статье? Подобных выходят десятки в месяц, если не в день.

 
 
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение03.07.2025, 23:34 
Аватара пользователя
mihaild в сообщении #1693148 писал(а):
Я, откровенно говоря, не очень понимаю физического смысла этой операции.
Я тоже не понимаю. Но если оно работает, то это даёт надежду, что истина где-то рядом.
mihaild в сообщении #1693148 писал(а):
А что вас так заинтересовало в конкретно этой статье? Подобных выходят десятки в месяц, если не в день.
Это мне ютуб предложил посмотреть видео обзор статьи. Заинтересовало то, что это не мышонок, не лягушка и не трансформер и не RNN. А какие еще подобные есть? Так чтобы и не трансформер и не RNN?

Я смотрел разные варианты трансформеров включая DeepSeek-овый и трансформер с Lighting Attention. Смотрел Mamba. Ничего не понятно, но очень интересно. Про реактивный самолёт кто-то из авиаконструкторов говорил, что если есть достаточно мощный двигатель, то и палка полетит. Вот похоже тут тоже самое. Если обладаешь достаточной вычислительной мощностью, то любая достаточно выразительная архитектура сгодится.

 
 
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение04.07.2025, 11:27 
Аватара пользователя
SergeyGubanov в сообщении #1693183 писал(а):
Но если оно работает, то это даёт надежду, что истина где-то рядом.
Примерно любая архитектура достаточного размера будет как-то работать. Тут модель еще и медленнее улучшается с ростом числа параметром.
SergeyGubanov в сообщении #1693183 писал(а):
А какие еще подобные есть? Так чтобы и не трансформер и не RNN?
Да просто поиск в гугле по запросу attention alternative уже много чего выдает. Я навскидку помню retentive networks, про которые несколько дней пару лет назад много шумели, а потом как-то всё затихло.
SergeyGubanov в сообщении #1693183 писал(а):
Если обладаешь достаточной вычислительной мощностью, то любая достаточно выразительная архитектура сгодится.
Это примерно так. Но поскольку у нас ресурсы ограничены, то архитектура на практике важна.
Для текстов сейчас интересна в первую очередь архитектура, лучшая текущей на больших размерах. Во вторую - дающая качество как текущая на средних размерах, но сильно её быстрее (для таких моделей прикладные задачи тоже есть). Всё остальное - это "улучшение метрик в пятом знаке в трех бенчмарках из 400".

 
 
 [ Сообщений: 9 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group