Проверка способности LLM решать математические задачи

Djong · 16.04.2024, 16:03

ozheredov
Помнит ли комп какой terrain сгенерил год назад при годе непрерывной работы Minecraft?

ozheredov · 16.04.2024, 16:08

Djong в сообщении #1636547 писал(а):

Помнит ли комп какой terrain сгенерил год назад при годе непрерывной работы Minecraft?

Это неправильная постановка задачи. Бесконечный terrain генерится весь и сразу, а бегать по нему можно три года. Если известно, по какой траектории бегал перс, то можно спросить компьютер, что находится в заданной окрестности точки, где перс находился три года назад. Да, комп даст ответ.

Djong · 16.04.2024, 16:14

ozheredov
Так зачем изобретать тогда, взять алгоритм Minecraft и встроить в ИИ.

diletto · 16.04.2024, 17:03

Djong в сообщении #1636535 писал(а):

This subtle but critical modification to the attention layer enables LLMs to process infinitely long contexts with bounded memory and computation resources.

Но из этой фразы не следует, что контекст весь удерживается в памяти. Как-то процессится, и только.

Djong · 16.04.2024, 17:45

diletto
Всё таки подразумевается, что ИИ ничего не забудет даже из бесконечного контекста. Может это делается без расхода памяти. Я уже ничему не удивляюсь.

mihaild · 16.04.2024, 17:48

Djong, ок, это цитата из статьи. А где там написано про равенство?

Djong в сообщении #1636535 писал(а):

В рецензируемых журналах чаще пишут LLM. В научпопе и в СМИ в основном пишут AI

Не читайте советских газет перед едой.
В рецензируемых журналах пишут LLM когда говорят об LLM, и пишут что-то другое, когда говорят о чем-то другом.

-- 16.04.2024, 15:50 --

Djong в сообщении #1636562 писал(а):

Всё таки подразумевается, что ИИ ничего не забудет даже из бесконечного контекста. Может это делается без расхода памяти

А Вы статью читали? Особенно раздел 2.1.2.

Djong · 16.04.2024, 18:42

mihaild
Что-то вроде рекурсивной нейронной сети (RNN) получилось как я понял. От чего уходили к тому и пришли. Уходили именно из-за того, что RNN быстро забывает что было раньше. Но чуть-чуть RNN теоретически помнит за любое время (при бесконечной точности чисел). В этом они правы.

Цитата:

we reuse the query, key and value states (Q, K and V) from the dot-product attention compu- tation. The state sharing and reusing between the dot-product attention and compressive memory not only enables efficient plug-in-play long-context adaptation but also speeds up training and inference.

Что такое compressive (а не compressed) я не понимаю. Будущая торговая марка революционного ИИ?

mihaild · 16.04.2024, 18:59

Djong в сообщении #1636575 писал(а):

Что-то вроде рекурсивной нейронной сети (RNN) получилось как я понял

Да, причем с очень простой рекуррентой (просто сумма результатов attention с предыдущих шагов).
Получается комбинация - недавний контекст нам доступен напрямую, но есть и смутные воспоминания о том, что было давно.
Мне в целом не очевидно, что такой подход может хорошо работать. Но почему бы и нет.

Djong в сообщении #1636575 писал(а):

Что такое compressive (а не compressed) я не понимаю

Там чуть ниже формулы.

MoonWatcher · 17.04.2024, 11:31

MoonWatcher в сообщении #1636518 писал(а):

Снова на эту тему - с Телеграм-канала DL Paper Reviews:

Цитата:

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Что?
Ну вот, оказывается, ребятам из Гугла пришло в голову обрубить затраты памяти, при этом не терять концы в бесконечно длинном тексте. В итоге они разработали такую вещь, как Infini-attention, чтобы прокачать свои трансформеры, делая их способными "видеть" и помнить огромные объемы информации без потери качества обработки.

Зачем?
Ребята явно заморочились вопросом, как обеспечить обработку текстов с лошадиными объемами данных, такие как целая книга или мега-длинная запись, не превращаясь в финансовую дыру из-за огромных затрат на память. Чтобы не превратиться в банкротов на этой золотой жиле, они и создали Infini-attention, который позволяет справляться с такими задачами более эффективно и экономно.

Как?
Какие-то маги связали стандартные механизмы внимания в трансформерах с короткозамкнутой памятью, чтобы держать весь пласт входящих данных постоянно на виду (а не забывать старое, как невнимательные ученики). Как по палочке, бац – и они создают составную память для аттеншн механизмов, позволяя трансформеру не потеряться и не утонуть в море данных. И всё это не превращая модель в суперкомпьютер из-за объемов памяти.

Что получилось?
Охереть, чего только они не достигли. Их модель не просто поддерживает память и делает свое дело, она это делает с несравненно меньшим использованием памяти, обрабатывая тексты до миллиона словил с небывалой точностью и качеством, расставляя новые стандарты и поднимая планку для отрасли.

Альтернативное описание с Телеграм-канала КПД (комментарии):

Цитата:

В попытках найти эффективную альтернативу стандартному механизму внимания в трансфромере человечество перевело не одни джунгли в Амазонии, выбросило тучу CO2. За последние годы было предложено множество интересных механизмов эффективеого attention, state-space модели, и переосмыслены рекуррентные модели, но все подходы так или иначе уступали в выразительности первородному трансформеру.

И группа из Google предложила очередную модификацию внимания, способную работать с длинным контекстом с асимптотической линейной сложностью по вычислениям и компактной памятью, не зависящей от длины.

Метод

За основу берут еще старый добрый Transformer-XL (https://arxiv.org/abs/1901.02860), который считает внимание в пределах некоторого сегмента фиксированного размера. Однако, ограниченность такого подхода в том, что k, v кэши считаются только для последнего сегмента, потому нет возможности учитывать контекст с прошлых окон, и суммарный контекст ограничен размером сегмента на глубину сети.

В данной работе предложили привнести рекуррентность в Transformer-XL и поддерживают два состояния памяти:

(1) M - размера IR d_key ×d_value в числителе
(2) z - размера IR dkey в знаменателе

И некая комбинация, составленная из этих сущностей и Query в текущем сегменте выступает в качестве одного из членов в итоговой формуле attention, которая будет определена чуть ниже.

Состояние M обновляется после каждого сегмента через некоторую формулу с внешним произведением key, valuе в текущем сегменте. А z - через сумму от ключей, к которым применили функцию активации (ELU + 1), в данном сегменте (т.е z - является по существу скользящей суммой).

Итоговый контекст получается как взвешенная сумма локального attention в данном окне и полученного выше контекста. Относительный вес каждого слагаемого получается из обучаемого скаляра (отдельного для каждой головы внимания).

Эксперименты

Метод валидируют на бенчмарках по языковому моделированию с длинным контекстом (PG-19, arXiv-math). passkey retrieval и суммаризации книг (500k контекста).

В первом эксперименте берут трансформер с 12 слоями и hidden_dim =1024.
По перплексии метод заметно опережает конкурентные подходы (Transformer-XL, Memorizing Transformers (https://arxiv.org/abs/2203.08913)), при этом имея значительно меньшее потребление памяти.

Infini-Transformer c контекстом вплоть до 1M токенов.

На BookSum Infini-Transformer так же бьет BART (https://arxiv.org/abs/1910.13461) и Primera (https://arxiv.org/abs/2110.08499), и обе с опцией (+ Unlimiformer (https://arxiv.org/abs/2305.01625)), будто бы существенно, но не радикально.

Выводы

Идея объединить локальное контекстное окно с рекуррентной памятью не выглядит принципиально новой. Экспериментальная валидация в статье недостаточна, не хватает очевидного сравнения с теми же state-space моделями. Как мне кажется, предложенный подход вряд ли сможет успешно решать с хорошей точность задачи, требующие селективности и способности запоминать несколько фактов одновременно из далекого прошлого, разнесенных по времени с произвольными интервалами между ними.

Djong · 17.04.2024, 12:18

MoonWatcher

Цитата:

ребятам из Гугла

Тут только матом уместно ответить. Так что промолчу.

MoonWatcher · 17.04.2024, 13:28

Еще одна работа по этой теме:

Цитата:

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

Что?
Команда авторов статьи, разгоняясь не по-детски, решила выкатить архитектуру нейросети под названием Megalodon, которая обрабатывает длинные последовательности данных на разыгрывающихся расстояниях. Всё это они делают на основе MEGA (это такой прикол с экспоненциально взвешенным скользящим средним и воротами внимания), добавив кучу новых технических штуковин, чтобы всё это стабильно работало даже на огромных массивах данных.

Зачем?
Короче, они заморочились с этим всем, чтобы сделать моделируемые алгоритмы не просто быстрыми, но и чтобы они могли работать с бесконечно большими блоками текста или данных без снижения эффективности. Это как переходить с легкового авто на грузовик, не теряя в скорости и маневренности. Цель — исключить главный недостаток Трансформеров, которые с увеличением объема данных начинали тупить из-за своей квадратичной сложности.

Как?
Какой-то там Мегалодон оказался не просто большой рыбой. Во-первых, они придумали комплексное экспоненциальное скользящее среднее (CEMA), которое является улучшенной версией основы MEGA, но уже в комплексной области. Мало того, добавили нормализацию временных шагов и нормализованное внимание, чтобы всё это добро эффективно обучалось и масштабировалось. И еще двухступенчатую предварительную нормализацию для стабильности. И вдобавок заменили стандартные подходы расчета и обработки данных.

Что получилось?
Блин, вот они реально сделали что-то крутое! Megalodon по мощности работы показал себя лучше обыденных Трансформеров, налетев на scale сразу 7 миллиардов параметров и 2 триллиона тренировочных токенов. Ребята в прямом соревновании с LLAMA2 на таком же количестве данных и памяти показали, что их моделька валидируется быстрее и точнее. На практике это означало, что они преуспели в обучении с ультра-длинными контекстами, куда ушли бы месяцы и годы работы со старой моделью.

mihaild · 17.04.2024, 13:50

MoonWatcher, а Вы заметили, что в этих двух статьях, хотя они вроде бы решают одну и ту же проблему (LLM с большим контекстом), сравнения с разными конкурентами и на разных датасетах?

MoonWatcher · 17.04.2024, 13:53

mihaild
Пока не вчитывался, и вообще мало что в этом понимаю - рассчитываю услышать отзывы тех, кто в этом более-менее разбирается.

Djong · 17.04.2024, 14:43

MoonWatcher
И опять ребята.

(Оффтоп)

Цитата:

Что?
Команда авторов статьи,

разгоняясь

не по-детски, решила выкатить архитектуру нейросети под названием Megalodon, которая обрабатывает длинные последовательности данных на разыгрывающихся расстояниях. Всё это они делают на основе MEGA (это такой прикол с экспоненциально взвешенным скользящим средним и воротами внимания), добавив кучу новых технических штуковин, чтобы всё это стабильно работало даже на огромных массивах данных.

Зачем?
Короче, они заморочились с этим всем, чтобы сделать моделируемые алгоритмы не просто быстрыми, но и чтобы они могли работать с бесконечно большими блоками текста или данных без снижения эффективности. Это как переходить с легкового авто на грузовик, не теряя в скорости и маневренности. Цель — исключить главный недостаток Трансформеров, которые с увеличением объема данных начинали тупить из-за своей квадратичной сложности.

Как?
Какой-то там Мегалодон оказался не просто большой рыбой. Во-первых, они придумали комплексное экспоненциальное скользящее среднее (CEMA), которое является улучшенной версией основы MEGA, но уже в комплексной области. Мало того, добавили нормализацию временных шагов и нормализованное внимание, чтобы всё это добро эффективно обучалось и масштабировалось. И еще двухступенчатую предварительную нормализацию для стабильности. И вдобавок заменили стандартные подходы расчета и обработки данных.

Что получилось?
Блин, вот они реально сделали что-то крутое! Megalodon по мощности работы показал себя лучше обыденных Трансформеров, налетев на scale сразу 7 миллиардов параметров и 2 триллиона тренировочных токенов. Ребята в прямом соревновании с LLAMA2 на таком же количестве данных и памяти показали, что их моделька валидируется быстрее и точнее. На практике это означало, что они преуспели в обучении с ультра-длинными контекстами, куда ушли бы месяцы и годы работы со старой моделью.

ИИ что ли пишет про разработавших его ребят? Текст похож на генерацию ИИ.

MoonWatcher, Ваши тексты про революционные ИИ совершенно в одном «стиле реальных пацанов», очевидна генерация.

MoonWatcher · 17.04.2024, 15:52

Djong в сообщении #1636661 писал(а):

очевидна генерация

Слишком умно для современных генеративных моделей. Вы видите явные косяки в этих обзорах? А ребят только один из этих двух каналов упомянул.

Научный форум dxdy

Проверка способности LLM решать математические задачи