Проверка способности LLM решать математические задачи

MoonWatcher · 07.07.2023, 12:09

mihaild
А вообще существует более-менее четкая взаимосвязь между длиной контекста языковых моделей и производительностью? Можно ли говорить, например, о квадратичной сложности? В этом случае, как я понимаю, переход от нынешних 32k токенов к 32m потребует 1k^2=1m, т.е. при увеличении длины контекста в тысячу раз производительность должна вырасти в миллион. Но там точно квадратичная сложность, или может какая-то другая?

mihaild · 07.07.2023, 12:35

MoonWatcher
Под производительностью Вы тут понимаете вычислительные затраты (а не качество результатов), так?
Global attention требует квадратичных вычислительных ресурсов, если верна strong exponential time hypothesis - что выполнимость булевых формул нельзя проверять сильно быстрее, чем перебором (это более сильное утверждение, чем

\text{P} \neq \text{NP}

, но не намного).
Можно ли вместо global attention считать что-то в каком-то смысле похожее без потерь по качеству но сильно быстрее - никто не знает. Как раз пытаются найти, но пока явных успехов нет.

MoonWatcher · 07.07.2023, 12:38

mihaild в сообщении #1600225 писал(а):

Под производительностью Вы тут понимаете вычислительные затраты (а не качество результатов), так?

Да, вычислительные затраты.

Т.е. я правильно понимаю насчет global attention:

MoonWatcher в сообщении #1600219 писал(а):

переход от нынешних 32k токенов к 32m потребует 1k^2=1m, т.е. при увеличении длины контекста в тысячу раз [требуемая] производительность должна вырасти в миллион

?

mihaild · 07.07.2023, 12:50

С точки зрения алгоритмов - правильно. На практике чуть больше, потому что с ростом размера у нас растет доля нелокальных коммуникаций, но с хорошей точностью так.

MoonWatcher · 07.07.2023, 12:56

mihaild
ИМХО любая проблема, которая упирается в производительность, обречена на благополучное разрешение. Но вы все-таки скептически оцениваете пользу от увеличения контекстного окна? Некоторые считают это дорогой к AGI.

mihaild · 07.07.2023, 13:23

MoonWatcher в сообщении #1600231 писал(а):

ИМХО любая проблема, которая упирается в производительность, обречена на благополучное разрешение

Доказательство гипотезы Римана тоже в каком-то смысле упирается в производительность - перебираем все строчки и проверяем каждую из них, является ли она доказательством.

MoonWatcher в сообщении #1600231 писал(а):

Но вы все-таки скептически оцениваете пользу от увеличения контекстного окна? Некоторые считают это дорогой к AGI.

Никто точно не знает. Лично я не верю, что AGI достигается просто масштабированием текущих подходов. Точнее - я считаю, что AGI будет раньше, чем трансформеры с полным контекстом

2^{30}

токенов, и его ключевой частью не будет буквально текущая архитектура, обучаемая текущими методами.

Я например не исключаю, что можно вот прямо GPT4 с

2^{15}

токенов в контексте допилить до AGI, если придумать способ учить градиентным спуском использовать внешние источники информации и память - т.е. сказать "вот так ты можешь делать записи, вот так ты можешь их читать". Но думаю что тут нужно именно менять веса под это, few shot недостаточно.

Webpack · 07.07.2023, 13:57

mihaild
И попутно перебирать все точки вне прямой x=1/2, не являются ли они контрпримером.

Mihaylo · 15.07.2023, 11:16

mihaild в сообщении #1600236 писал(а):

допилить до AGI

Никто не знает, до чего допиливать надо. ChatGPT уже приносит деньги. Надо допиливать так, чтобы приносил больше денег, а не до мифического AGI. Пройдет время, и это станет понятно. Будет выращен монстр, который не может как человек, но может многое больше.
AGI - это как красная тряпка для быка. Тряпка есть, но как цель обманчивая.

Webpack · 16.07.2023, 20:08

Mihaylo
Как пилить ясно. Производить больше машин. Запускать нейронную сеть большего размера. Эта нейронная сеть будет лучше уовлетворять потребностям потребителей. Следовательно, можно задрать цену за ее использование.

Еще раз! Полиномиальной сложности никогда в истории кибернетики не боялись! А сейчас вдруг стали бояться детской сложности

n^2

.

mihaild · 16.07.2023, 20:34

Webpack в сообщении #1601251 писал(а):

Полиномиальной сложности никогда в истории кибернетики не боялись

Это неправда.

Webpack · 16.07.2023, 21:36

Mihaylo в сообщении #1601067 писал(а):

Никто не знает, до чего допиливать надо. ChatGPT уже приносит деньги. Надо допиливать так, чтобы приносил больше денег, а не до мифического AGI

Я думаю в OpenAI это понимают. Однако если убедить народ, что "у нас есть сильный ИИ", то денег с народа можно взять побольше. Вопрос как мы будем зарабатывать деньги когда нас заменят на очередную версию GPT. Или Вы акционер OpenAI и Вас этот вопрос не касается?

Ende · 16.07.2023, 23:51

i	Прекращаем оффтоп. Эта тема о решении математических задач с помощью ChatGPT, а не об AGI.

MoonWatcher · 08.09.2023, 19:07

Китайцы анонсировали MathGLM - модель с 2 млрд параметров, которая умеет почти со 100% точностью перемножать 8-значные числа. Для сравнения, говорят авторы, GPT-4 выполняет такие вычисления с точностью 4.3%.

MoonWatcher · 24.11.2023, 13:39

Авторы Телеграм-канала Сиолошная предположили, что слухи о достигнутом в OpenAI прорыве в решении математических задач могут быть связаны с работой, опубликованной в мае - Let's Verify Step by Step:

Цитата:

В работе обучается модель, генерирующая решения математических задач. При этом во время тренировки предлагается поощрять нейронку за каждый правильный шаг рассуждения (делается «контроль процесса») вместо вознаграждения за правильный окончательный ответ («контроль результата», именно так обучалась GPT-4).

Простыми словами вместо того, чтобы смотреть на всё решение целиком и говорить «ну, ответ неправильный, поэтому решение фигня» (как ваш препод в универе), теперь делают так: «ага, вот эти первые 6 шагов правильные, а в 7м ошибка, из-за которой ответ не получился». Это даёт куда больше полезного сигнала, что приводит к более качественным результатам.

Один из артефактов обучения новым методом — в ходе тренировки мы получаем модель, которая для каждого отдельного шага решения учится предсказывать, является ли оно корректным. Такая модель может обнаруживать как галлюцинации, когда модель что-то сказанула не подумав, так и ошибки в чистой математике, когда задним числом понимаешь, что что-то не сходится.

А теперь давайте сделаем вот такой трюк: через GPT сгенерируем тысячу решений задачи, а затем используем упомянутую выше модель-оценщика для того, чтобы выбрать самое правильное. Если ChatGPT достаточно умна, чтобы хотя бы раз в 1000 генераций выдавать правильный ответ (не так много и требуем, кстати), а оценщик достаточно хорошо пост-фактум по решению определяет его корректность, то это ведёт к увеличению доли решённых задач. И действительно — вы можете в этом убедиться на приложенном графике. По горизонтали увеличивается количество генерируемых гипотез, а по вертикали видим рост качества. Интересно, что оно не выходит на плато — в теории, можно и сто тысяч гипотез генерировать, и качество лишь улучшится.

На репрезентативном, как утверждается в работе, подмножестве бенчмарка MATH модель, в которой реализован этот принцип, набрала 78% - это почти вдвое больше самого лучшего на сегодня результата (GPT-4 - 42.5%).

MoonWatcher · 15.12.2023, 02:20

DeepMind заявляет о новых математических открытиях, сделанных при помощи FunSearch - сочетания предварительно обученного LLM (целью которого является предоставление творческих решений в форме компьютерного кода) с автоматическим «оценщиком», который защищает от галлюцинаций и неправильных идей.

Научный форум dxdy

Проверка способности LLM решать математические задачи