2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение01.07.2025, 14:58 
Аватара пользователя


14/11/12
1421
Россия, Нижний Новгород
Кто нибудь уже понял принцип действия Avey-ного "нервного" процессора?

Don't Pay Attention
Mohammad Hammoud, Devang Acharya
https://arxiv.org/abs/2506.11305

Там на рисунке 3 изображена красная горизонтальная стрелка соединяющая красные контекстуализаторы: $Cx \leftrightarrow Cx$. Что эта стрелка обозначает?

Далее написана формула (2) из которой (по замыслу авторов) должно быть всё понятно:
$$
\mathbf{c}(\mathbf{Z}_t) = \mathbf{Z}_{tl} \odot \sigma\left( \left( \mathbf{V} \odot \mathcal{N}(\mathbf{Z}_{t r}) \mathcal{N}(\mathbf{Z}_{t r}^\top) \right) \mathbf{Z}_{t r} + \mathbf{b}' \right)
$$
Но все эти обозначения мне не понятны. Нужна пояснительная бригада. Как конкретно векторы $e_1$ и $e_2$ взаимодействуют друг с другом?

 Профиль  
                  
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение01.07.2025, 18:27 
Аватара пользователя


14/11/12
1421
Россия, Нижний Новгород
Похоже авторы имели ввиду, что $\sigma$ принимает на вход что-то такое:
$$
Y^i_c = \sum_{a, b, j} V_{a b} {\mathcal N}^i_a {\mathcal N}^j_b  Z^j_c + B^i_c.
$$

Не понимаю зачем матрицу $V_{a b}$ делать обучаемой. Она же одна и та же на все случаи жизни. Из соображений так сказать пригодности для всего, она вроде как может состоять только из всех единиц. Ну или быть треугольной (причинной), например, на диагонали и ниже диагонали единицы, а выше диагонали - нули.

 Профиль  
                  
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение01.07.2025, 19:23 
Заслуженный участник
Аватара пользователя


16/07/14
9964
Цюрих
У Вас порядок перемножений другой, и нормировка с транспонированием не коммутируют. Под сигмоидой стоит $\sum_b (V_a^b \cdot \sum_i \mathcal N_a^i \mathcal M_i^j) \cdot Z_b^c + B_a^c$.

$V$ определяет, взаимодействие каких пар токенов нам интересно. Насколько я понимаю, у них много таких блоков в сети, и логично, что в одном блоке нас могут интересовать соседние токены, а в другом например взаимодействие первого со всеми.

 Профиль  
                  
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение02.07.2025, 12:20 
Аватара пользователя


14/11/12
1421
Россия, Нижний Новгород
mihaild в сообщении #1693031 писал(а):
$\sum_b (V_a^b \cdot \sum_i \mathcal N_a^i \mathcal M_i^j) \cdot Z_b^c + B_a^c$
Смущает, что индекс $a$ есть и у $V_a^b$ и у $N_a^i$, так и было задумано?

Выдвину ещё одну гипотезу. Может быть авторы имели ввиду, что под сигмой стоит вот это:
$$
Y^{\mu}_{a} = \sum_{b} \sum_{c} \sum_{\nu} V^{b}_{a} \, \mathcal{N}^{\mu}_{c} \mathcal{M}^{c}_{\nu} \, Z^{\nu}_{b} + B^{\mu}_{a}
$$
$\mu$, $\nu$ - векторные индексы.
$a$, $b$, $c$ - токенные индексы.

 Профиль  
                  
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение02.07.2025, 12:29 
Заслуженный участник
Аватара пользователя


16/07/14
9964
Цюрих
SergeyGubanov в сообщении #1693080 писал(а):
Смущает, что индекс $a$ есть и у $V_a^b$ и у $N_a^i$, так и было задумано?
Да. Там произведение Адамара. Ошибка у меня в другом месте - должно быть $M_i^b$. Индексы у матриц $V$ и $NM$ должны совпадать.

 Профиль  
                  
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение02.07.2025, 12:40 
Аватара пользователя


14/11/12
1421
Россия, Нижний Новгород
То есть две суммы вместо трёх? Вот так?
$$
Y^{\mu}_{a} = \sum_{b} \sum_{\nu} V^{b}_{a} \, \mathcal{N}^{\nu}_{a} \mathcal{M}^{b}_{\nu} \, Z^{\mu}_{b} + B^{\mu}_{a}
$$

 Профиль  
                  
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение03.07.2025, 11:47 
Заслуженный участник
Аватара пользователя


16/07/14
9964
Цюрих
Да, так (если правильно договориться какие индексы верхние, а какие нижние).
У $\sum_{\nu} \mathcal{N}^{\nu}_{a} \mathcal{M}^{b}_{\nu}$ есть понятный самостоятельный смысл - это косинусная похожесть $a$-го эмбеддинга на $b$-й. Если убрать $V$, то получится, что мы каждый эмбеддинг заменяем суммой остальных с весами, равными похожести. Ну там если все эмбеддинги попарно перпендикулярны, то просто оставляем как есть. Я, откровенно говоря, не очень понимаю физического смысла этой операции.

А что вас так заинтересовало в конкретно этой статье? Подобных выходят десятки в месяц, если не в день.

 Профиль  
                  
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение03.07.2025, 23:34 
Аватара пользователя


14/11/12
1421
Россия, Нижний Новгород
mihaild в сообщении #1693148 писал(а):
Я, откровенно говоря, не очень понимаю физического смысла этой операции.
Я тоже не понимаю. Но если оно работает, то это даёт надежду, что истина где-то рядом.
mihaild в сообщении #1693148 писал(а):
А что вас так заинтересовало в конкретно этой статье? Подобных выходят десятки в месяц, если не в день.
Это мне ютуб предложил посмотреть видео обзор статьи. Заинтересовало то, что это не мышонок, не лягушка и не трансформер и не RNN. А какие еще подобные есть? Так чтобы и не трансформер и не RNN?

Я смотрел разные варианты трансформеров включая DeepSeek-овый и трансформер с Lighting Attention. Смотрел Mamba. Ничего не понятно, но очень интересно. Про реактивный самолёт кто-то из авиаконструкторов говорил, что если есть достаточно мощный двигатель, то и палка полетит. Вот похоже тут тоже самое. Если обладаешь достаточной вычислительной мощностью, то любая достаточно выразительная архитектура сгодится.

 Профиль  
                  
 
 Re: Avey neural processor (Enricher, Contextualizer, Fuser)
Сообщение04.07.2025, 11:27 
Заслуженный участник
Аватара пользователя


16/07/14
9964
Цюрих
SergeyGubanov в сообщении #1693183 писал(а):
Но если оно работает, то это даёт надежду, что истина где-то рядом.
Примерно любая архитектура достаточного размера будет как-то работать. Тут модель еще и медленнее улучшается с ростом числа параметром.
SergeyGubanov в сообщении #1693183 писал(а):
А какие еще подобные есть? Так чтобы и не трансформер и не RNN?
Да просто поиск в гугле по запросу attention alternative уже много чего выдает. Я навскидку помню retentive networks, про которые несколько дней пару лет назад много шумели, а потом как-то всё затихло.
SergeyGubanov в сообщении #1693183 писал(а):
Если обладаешь достаточной вычислительной мощностью, то любая достаточно выразительная архитектура сгодится.
Это примерно так. Но поскольку у нас ресурсы ограничены, то архитектура на практике важна.
Для текстов сейчас интересна в первую очередь архитектура, лучшая текущей на больших размерах. Во вторую - дающая качество как текущая на средних размерах, но сильно её быстрее (для таких моделей прикладные задачи тоже есть). Всё остальное - это "улучшение метрик в пятом знаке в трех бенчмарках из 400".

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group