Проверка способности LLM решать математические задачи

vicvolf · 06.04.2025, 16:09

Anton_Peplov в сообщении #1681276 писал(а):

Combat Zone в сообщении #1681273 писал(а):

По моему опыту, DeepSeek на диво устойчив относительно обучения.

А он вообще обучается на запросах пользователя? Я думаю, что нет. Правда, про DeepSeek не знаю,

Я уже довольно много работаю с DeepSeek. В пределах одной темы он обучается. Но в другой теме он об этом не помнит. Я перекачиваю нужный материал из одной темы в другую для продолжения.

Mihaylo · 06.04.2025, 19:36

Anton_Peplov в сообщении #1681276 писал(а):

Человек непрерывно обучается на любой поступающей информации. У искусственных нейросетей, вообще говоря, не так. Есть обучение (подбор синаптических весов), а есть использование (обработка запросов при фиксированных синаптических весах). Это разные режимы работы. Вы можете в своих запросах прочесть нейросети полный курс матана, но она будет знать о матане столько же, сколько знала в момент релиза, и ни битом больше.

Объясню, почему LLM не обучаются на ходу. Во-первых, они уже переработали пентабайты данных, а вот эти текущие данные - это мизер, во-вторых, обучение на лету требует дополнительных вычислительных ресурсов, в третьих, качество новых данных неконтролируемо (потенциально опасно снижением интеллекта).
Но я думаю, эти все проблемы решаемы и в будущем конкуренция дойдёт до такой степени, что их будет выгодно решить.

Red_Herring · 06.04.2025, 21:37

Reports of LLMs mastering math have been greatly exaggerated

MoonWatcher · 06.04.2025, 22:03

Даже я, простой обыватель, в тот же день как вышли результаты узнал, что Gemini 2.5 Pro в USAMO 2025 набрала 24%. А Маркус не удосужился уточнить свежие результаты хотя бы перед публикацией.

Anton_Peplov · 06.04.2025, 23:03

vicvolf в сообщении #1681311 писал(а):

В пределах одной темы он обучается.

Нет, не обучается. Просто получает в качестве вводной весь предыдущий тред. Синаптические веса не меняются, сеть не усваивает новую информацию. Об этом ясно сказали выше.

wrest · 06.04.2025, 23:11

Red_Herring в сообщении #1681345 писал(а):

Reports of LLMs mastering math have been greatly exaggerated

Вот кстати очень точно подмечено, что проблема в том, что эти LLM не могут "увидеть" (ну или "понять"), что вывод неверный, решение ошибочно. Они "уверены" (если так можно сказать) что задача решена. Вплоть до того, что при решении уравнения "как-бы" подставляют вычисленный корень в уравнение и получают что он корень, хотя он вовсе не корень. А юзеры верят -- написано же что вот подставляем, смотрите, получился ноль. То есть способности к "рассуждению" LLM не имеют.

Yadryara · 07.04.2025, 04:17

wrest в сообщении #1681352 писал(а):

А юзеры верят -- написано же что вот подставляем, смотрите, получился ноль.

А откуда известно, что они верят? Им что лень проверить? Скопипастить строчку и в калькулятор, в более сложных случаях — в Альфу.

Если людям настолько лень вдруг стало, то это очень плохой знак: несмотря на регулярное враньё LLM, людям всё равно настолько хочется им верить, что даже простейшие вещи не делают.

Yadryara · 07.04.2025, 05:43

wrest в сообщении #1681270 писал(а):

Завожу новый диалог и прошу только вычислить,

Цитата:

вычисли

(0.0617235993853495)^3 + (0.0617235993853495)^2 - 0.0617235993853495 - 1/9

после долгих рассуждений и вычисьения слагаемых по отдельности, затем их суммирования, получаю ответ

\[ \boxed{-0.168789786774} \]

Альфа и с этим не согласна. Сравним равное количество знаков:

Код:

-0.168789786774
-0.168789753038

vicvolf · 07.04.2025, 18:21

Anton_Peplov в сообщении #1681351 писал(а):

vicvolf в сообщении #1681311 писал(а):

В пределах одной темы он обучается.

Нет, не обучается.

Смотря, что понимать под обучением. Я могу присоединить в теме книги или статьи и ИИ использует их в дальнейшем обсуждении. Это же процесс получения новых знаний, т.е. обучение. Другое дело, что это только в пределах темы. Общая база знаний этого ИИ обновлялась в сентябре 2023 года.

mihaild · 07.04.2025, 19:07

vicvolf в сообщении #1681408 писал(а):

Смотря, что понимать под обучением

Изменение весов сети. В контексте LLM (и вообще нейронок) это стандартный термин.
(Правда есть еще one/few-shot learning, который таким обучением не является, но это как морская свинка)

lel0lel · 08.04.2025, 02:08

https://dxdy.ru/post1681436.html#p1681436 Судя по всему, ИИ действительно может решать задачи. Как минимум, подбрасывать правильные мысли, если вопрос где-нибудь ранее обсуждался. Интересно, что он способен находить аналогичные проблемы, хотя сформулированы они могут быть не очень похоже. Как-то неуютненько)

vicvolf · 08.04.2025, 17:45

lel0lel в сообщении #1681438 писал(а):

ИИ действительно может решать задачи.

Я ранее писал, что Deep Seek, по-моему опыту, решает задачи на уровне научного работника (аспиранта или выше) и недооценивать его нельзя. Однако, также как человек, он может ошибаться, поэтому надо проверять.

mihaild в сообщении #1681412 писал(а):

vicvolf в сообщении #1681408 писал(а):

Смотря, что понимать под обучением

Изменение весов сети. В контексте LLM (и вообще нейронок) это стандартный термин.

Спасибо, почитал. Мне удобнее сравнивать способности ИИ с человеком, в том числе способность к обучению.

lel0lel · 09.04.2025, 03:30

vicvolf в сообщении #1681507 писал(а):

Я ранее писал, что Deep Seek, по-моему опыту, решает задачи на уровне научного работника (аспиранта или выше)

В моём понимании, научный работник или аспирант занимается чем-то существенно новым, что до сих пор неизвестно (в реальности, это не всегда так). Поэтому, корректнее говорить о способности ИИ к быстрому анализу проблем, которые уже рассматривались ранее, и о способности правильно "понимать" вольное описание проблемы. На данный момент, это может облегчить поиск решения исследователю.

vicvolf в сообщении #1681507 писал(а):

недооценивать его нельзя

Согласен.

vicvolf · 09.04.2025, 10:07

lel0lel в сообщении #1681540 писал(а):

В моём понимании, научный работник или аспирант занимается чем-то существенно новым, что до сих пор неизвестно (в реальности, это не всегда так).

DeepSeek способен доказать новое утверждение, опираясь на уже известные.

realeugene · 09.04.2025, 10:28

vicvolf в сообщении #1681507 писал(а):

Я ранее писал, что Deep Seek, по-моему опыту, решает задачи на уровне научного работника (аспиранта или выше) и недооценивать его нельзя. Однако, также как человек, он может ошибаться, поэтому надо проверять.

А вы не пробовали в случае обнаружения ошибки запустить его снова на его же выдачу с просьбой найти ошибки?

Научный форум dxdy

Проверка способности LLM решать математические задачи