Проверка способности ChatGPT решать математические задачи

Booker48 · 07/06/17 1314

Mikhail_K в сообщении #1580840 писал(а):

druggist в сообщении #1580838 писал(а):

Не понял, это ChatGPT выдал в качестве ответа?

Ну конечно. Вы к этому "решению" присмотритесь внимательнее.

Гм, ответ вроде верный. (на самом деле нет, см. ниже)
В рассуждениях чат явно путает "по ветру" и "против ветра":

Цитата:

Since the speed of the wind is 30 mph, the plane's speed relative to the ground when it is flying with the wind is 175 - 30 = 145 mph. And when it's flying against the wind, it's 175 + 30 = 205 mph.

А "эффективные скорости" - "что, так можно было?????"(с).
Мне кажется, что правильно приравнивать время по ветру и против, но почему ответ такой же? После работы буду смотреть. )))

upd Ну и, конечно, вопрос был какова скорость? Тогда ответ нужно ещё умножить на $2$ , правильно: $v=350 mph$

druggist · 27/02/09 2860

Booker48 в сообщении #1587066 писал(а):

"что, так можно было?????"(с)

Это из "уральских пельменей"?

MoonWatcher · 17/10/22 427

MoonWatcher в сообщении #1587053 писал(а):

Снова к вопросу о предельных размерах запроса - с одного Телеграм-канала:

Цитата:

Вы думали, что 260 000 токенов это что-то невозможное для этэншна? А вот и нет, оказывается, если приделать approximate KNN (https://towardsdatascience.com/comprehe ... 94f057d6b6) внутрь механизма внимания и складировать Keys и Values в отдельном буфере, то можно засунуть в GPT целые книги!

Авторы показывают, что такое внимание помогает модели вспоминать сложные теоремы и леммы, которые были описаны десятки страниц назад! А самое крутое — это можно приделать к любому предобученному трансформеру, нужно лишь немного потюнить его на длинных текстах, что не очень сложно, так как градиенты через память не идут.

А вот непосредственно из публикации (ссылка):

Цитата:

Language models typically need to be trained or finetuned in order to acquire new knowledge, which involves updating their weights. We instead envision language models that can simply read and memorize new data at inference time, thus acquiring new knowledge immediately. In this work, we extend language models with the ability to memorize the internal representations of past inputs. We demonstrate that an approximate kNN lookup into a non-differentiable memory of recent (key, value) pairs improves language modeling across various benchmarks and tasks, including generic webtext (C4), math papers (arXiv), books (PG-19), code (Github), as well as formal theorems (Isabelle). We show that the performance steadily improves when we increase the size of memory up to 262K tokens. On benchmarks including code and mathematics, we find that the model is capable of making use of newly defined functions and theorems during test time.

С другого Телеграм-канала, на ту же тему:

Цитата:

Memorizing Transformers: как приделать к языковой модели внешнюю память, чтобы расширить контекст до 260.000 токенов

Языковые модели сейчас получаются классненькие, но все равно не идеальные. Одна из главных проблем — длина контекста (количество токенов текста, на которое модель может опираться, выдавая очередную генерацию). В стандартной GPT-4, к примеру, длина контекста — 8.000 токенов. В расширенной версии — 32.000. То есть, лучшая GPT-4 "видит" только 32.000 токенов поданного на вход текста. Все, что дальше, для нее не существует.

Увеличивать контекст модели довольно дорого по времени, количеству параметров и памяти. Поэтому ищутся другие способы. Один из вариантов — вариации "внешней памяти". В эту внешнюю память в каком-то виде складируется информация из входного текста, а модель в процессе работы с помощью некого механизма вытаскивает оттуда релевантные части для текущего шага генерации.

Идея внешней памяти сама по себе даалекоо не нова, ее и в СV, и в NLP развивают много лет со всех сторон. Но ребята из Гугла придумали новую идею этого механизма, довольно простую и эффекивную.

Вот в чем идея:
Устройство показано на 1 картинке к посту. Берем обычную языковую модель (трансформер). Берем один слой attention внутри этого трансформера (авторы берут слой, близкий к концу сети). К этому слою приделываем хранилище key-value пар, механизм выделения из хранилица нужной инфы и механизм использования этой инфы — еще один attention.

Сейчас расскажу, как эти части устроены. На каждом шаге генерации языковой модели происходит следующее:
- В хранилище добавляются все значения key и value для всех поданых на вход токенов и всех голов attention этого слоя;
- Для значений query всех поданых на вход токенов с помощью KNN ищутся k ближайших key-value пар из хранилища;
- Считается attention между query всех поданых на вход токенов и этими k ближайшими key-value парами. Из k полученных значений attention для каждого токена берется взвешенное среднее — получается одно значение attention на каждый входной токен;
- Считается обычный attention между query, key и value всех поданых на вход токенов;
- Два полученных attention фьюзятся в один также с помощью взвешенного среднего.

Все. Эксперименты показывают, что такая идея позволяет модели выделять релевантную инфу из памяти, которая была записана туда много-много токенов назад. Авторы тестировали модель на разных датасетах, включая датасет статей из arxiv, кода на GitHub, а также PG-19 — это датасет книг на английском языке, который стал классическим бенчмарком для проверки long-range natural language text modeling.

В общем-то, на всех них perplexity модели с памятью вместимостью 65к токенов выигрывает у модели без памяти (2 картинка к посту). Более того, у авторов получилось, что небольшой трансформер с внешней памятью всего 8к может показывать те же результаты, что большой трансформер без памяти, у которого в 5 раз больше обучаемых параметров.

Ну и что еще круто: эту память можно приделать при дообучении предобученной модели. Дообучать придется не очень много — модель быстро учится использовать механизм памяти и улучшает результат (3 картинка к посту)

Ну вот, общая идея такая. В устройстве модели есть еще пара важных нюансов, о них читайте в разделах 3.2 и 3.3 статьи.

need_to_learn · 04/08/21 307

MoonWatcher в сообщении #1587746 писал(а):

С другого Телеграм-канала, на ту же тему:

Цитата:

Memorizing Transformers: как приделать к языковой модели внешнюю память, чтобы расширить контекст до 260.000 токенов

Языковые модели сейчас получаются классненькие, но все равно не идеальные. Одна из главных проблем — длина контекста (количество токенов текста, на которое модель может опираться, выдавая очередную генерацию). В стандартной GPT-4, к примеру, длина контекста — 8.000 токенов. В расширенной версии — 32.000. То есть, лучшая GPT-4 "видит" только 32.000 токенов поданного на вход текста. Все, что дальше, для нее не существует.

[ ... ]

Ну вот, общая идея такая. В устройстве модели есть еще пара важных нюансов, о них читайте в разделах 3.2 и 3.3 статьи.

Не подскажете, на каком именно Телеграм-канале Вы это увидели? Не удаётся найти.

И первый Телеграм-канал из начала Вашего поста тоже хотелось бы узнать.

MoonWatcher · 17/10/22 427

need_to_learn
1-я ссылка отсюда, 2-я - отсюда.

Здесь тоже интересно:

Цитата:

Очередное решение радикально решает вопрос увеличения attention span, теперь он “бесконечный”. Это достигается за счёт использования retrieval-based механизма, который можно добавить к уже обученному трансформеру.

(отсюда)

need_to_learn · 04/08/21 307

MoonWatcher

Огромное спасибо!

MoonWatcher · 17/10/22 427

Вдогонку, планы OpenAI на ближайшее будущее:

Цитата:

Longer context windows — Context windows as high as 1 million tokens are plausible in the near future.

отсюда

MoonWatcher · 17/10/22 427

С Телеграм-канала Сиолошная:

Цитата:

На неделе компания Magic.dev анонсировала модель LTM-1 (Long-Term Memory network): большую языковую модель с поддержкой контекста в 5'000'000 токенов.

Нет, это не ошибка, пять миллионов. У GPT-4 есть версия на 32'000 токенов, конкурент OpenAI предлагает модель Claude с поддержкой окна контекста 100'000 - в 50 раз меньше, чем LTM-1. Сценарий использования у модели — это написание кода и помощь разработчикам.

Вот тут и тут можно посмотреть примеры юзкейсов. Однако меня это не сильно впечатлило — с помощью правильного промпта и эвристик в целом получалось то же самое (см. промпт GitHub Copilot тут).

Проект интересен по другой причине. AI Software Engineer, как это называет компания Magic.dev, впечатляет, но по настоящему такой длинный контекст раскроется в других областях. Подумайте, что будет дальше:
— Целые проекты в промптах (большие наборы функций на все случаи жизни)
— Инструкции для модели длинной в книгу, с описанием всех тонкостей
— Подстановка K примеров выполнения схожей задачи, где K равно не 10-30, как сейчас, а 10'000
— При этом каждый пример может быть по 30 страниц - это тоже влезет в промпт!

Те, кто заявлял о неминуемой смерти промпт-инженеринга до того, как появились модели с длинным контекстом, скорее всего просто обладали слабым воображением! Мы по сути еще и не начали писать (и генерировать!) промпты на полную.

И немного о компании: открылись в 2022 году, подняли раунд $23M (в том числе от соавтора GitHub Copilot, лол), нанимают инженеров, в том числе низкоуровневы - потому что нужно делать очень специфичные решения для масштабирования. К слову, LTM-1 хоть и видит больше контекста, чем GPT, но имеет меньше параметров, чем современные топовые модели, что делает её менее способной. А зная, насколько сильно масштабирование модели улучшает производительность GPT, можно помечтать о том, во что превратится и этот монстр!

Пока доступ к модели только по спискам, встать в очередь можно тут.

mathematician123 · 21/04/22 356

Теренс Тао про GPT4:
https://mathstodon.xyz/@tao/110601051375142142.

(Текст поста)

Цитата:

As an experiment, I recently tried consulting #GPT4 on a question I found on #MathOverflow prior to obtaining a solution. The question is at https://mathoverflow.net/questions/449361/elegant-recursion-for-a301897 and my conversation with GPT-4 is at https://chat.openai.com/share/53aab67e-6974-413c-9e60-6366e41d8414 . Based on past experience, I knew to not try to ask the #AI to answer the question directly (as this would almost surely lead to nonsense), but instead to have it play the role of a collaborator and offer strategy suggestions. It did end up suggesting eight approaches, one of which (generating functions) being the one that was ultimately successful. In this particular case, I would probably have tried a generating function approach eventually, and had no further need of GPT-4 once I started doing so (relying instead on a lengthy MAPLE worksheet, and some good old-fashioned hand calculations at the blackboard and with pen and paper), but it was slightly helpful nevertheless (I had initially thought of pursuing the asymptotic analysis approach instead to gain intuition, but this turned out to be unnecessary). I also asked an auxiliary question in which GPT-4 pointed out the relevance of Dyck paths (and some related structures), which led to one of my other comments on the OP's question. I decided to share my experience in case it encourages others to perform similar experiments.

MoonWatcher · 17/10/22 427

MoonWatcher в сообщении #1597102 писал(а):

На неделе компания Magic.dev анонсировала модель LTM-1 (Long-Term Memory network): большую языковую модель с поддержкой контекста в 5'000'000 токенов.

А вот и миллиард подвезли: LongNet: Scaling Transformers to 1,000,000,000 Tokens

mihaild · 16/07/14 9737 Цюрих

Про LTM-1 сказать нельзя вообще ничего, данных нет.
LongNet, насколько я понимаю, не сможет решить задачу "вот тебе список из 100000 чисел: [список], найди сумму первого и второго".

MoonWatcher · 17/10/22 427

mihaild
Почему нет?

Webpack · 15/06/23 ∞ 69

По графику на рис. 5 это революция. Сложность Attention практически НЕ ЗАВИСИТ от длины окна. Надо натравить этот ИИ на самого себя, чтоб он менял свой код, повышая свою разумность.

mihaild · 16/07/14 9737 Цюрих

MoonWatcher в сообщении #1600109 писал(а):

Почему нет?

Потому что в момент запроса суммы модель не может видеть одновременно оба нужных числа.

Плюс они не замеряют ничего про качество на длинных контекстах (больше 32К), рисуют графики не с нуля (рис. 6 - кажется что их решение работает в 3 с лишним раза быстрее, а на самом деле в 2), что всё вместе вызывает сомнения в пригодности этой модели даже не для миллиарда, а для миллиона токенов.

Webpack · 15/06/23 ∞ 69

Почему мы стали бояться квадратичной сложности? В эпоху ламповых компьютеров не боялись, а сейчас боимся. По теории любая полиномиальная сложность это хорошо. Квадратичная - вообще круто.

Научный форум dxdy

Проверка способности ChatGPT решать математические задачи

Кто сейчас на конференции