Но если оно работает, то это даёт надежду, что истина где-то рядом.
Примерно любая архитектура достаточного размера будет как-то работать. Тут модель еще и медленнее улучшается с ростом числа параметром.
А какие еще подобные есть? Так чтобы и не трансформер и не RNN?
Да просто поиск в гугле по запросу attention alternative уже много чего выдает. Я навскидку помню retentive networks, про которые несколько дней пару лет назад много шумели, а потом как-то всё затихло.
Если обладаешь достаточной вычислительной мощностью, то любая достаточно выразительная архитектура сгодится.
Это примерно так. Но поскольку у нас ресурсы ограничены, то архитектура на практике важна.
Для текстов сейчас интересна в первую очередь архитектура, лучшая текущей на больших размерах. Во вторую - дающая качество как текущая на средних размерах, но сильно её быстрее (для таких моделей прикладные задачи тоже есть). Всё остальное - это "улучшение метрик в пятом знаке в трех бенчмарках из 400".