Проверка способности LLM решать математические задачи

Booker48 · 18.05.2026, 19:07

Cuprum2020 в сообщении #1724515 писал(а):

И чем это принципиально отличается от использования калькулятора?

LLM, в принципе, помогает всем, кто может сформулировать и уточнять запрос.
Нетривиальность математической задачи - это такое, для подавляющего большинства и задачи из рядового учебника со звёздочкой нетривиальны.

dsge · 18.05.2026, 19:15

Booker48 в сообщении #1724517 писал(а):

Нетривиальность математической задачи - это такое, для подавляющего большинства и задачи из рядового учебника со звёздочкой нетривиальны.

Нет, под нетривиальными понимались задачи, которых нет в задачниках, решебниках, в учебниках, статьях, в интернете. Иначе тривиальные, поскольку эти "гады" всех их запомнили.

Booker48 · 18.05.2026, 19:33

dsge в сообщении #1724518 писал(а):

Нет, под нетривиальными понимались задачи, которых нет в задачниках, решебниках, в учебниках, статьях, в интернете.

Гм, получается, что тест на "интеллектуальность" могут составить только и исключительно математики?
Боюсь, этот текст не пройдёт подавляющее большинство сапиенсов...

-- добавлено через 12 минут --

С другой стороны, математик в процессе обучения тоже изучает множество специфических текстов, и ему тоже кто-то ставит задачу.
Его заявления (о решении нетривиальной современной задачи) недостаточно, требуется верификация математическим сообществом, иногда - с "дорешиванием", история доказательства ВТФ в этом плане показательна.
Не так просто различить в этом смысле LLM и "кожаного" математика. Ну, если на выходе всё же - признанное математическим сообществом решение.
Мы же (надеюсь) не приписываем научному руководителю аспиранта доказанную последним теорему?

Rak so dna · 18.05.2026, 20:36

Booker48 в сообщении #1724519 писал(а):

Гм, получается, что тест на "интеллектуальность" могут составить только и исключительно математики?
Боюсь, этот текст не пройдёт подавляющее большинство сапиенсов...

Ну сыграйте с LLM в шахматы, оцените реальную "интеллектуальность", когда примерно после двадцатого хода она начнёт делать невозможные ходы. ИМХО, к LLM стоит относиться просто как к продвинутой системе поиска.

realeugene · 18.05.2026, 22:27

dsge в сообщении #1724518 писал(а):

Нет, под нетривиальными понимались задачи, которых нет в задачниках, решебниках, в учебниках, статьях, в интернете. Иначе тривиальные, поскольку эти "гады" всех их запомнили.

Э, нет. Как раз с запоминанием редких фактов у LLM сложности. Как пример: галюцинирует несуществующие статьи. Он силён в генерализации. Запоминает способ доказательства, используемый в ряде теорем, например.

MoonWatcher · 18.05.2026, 22:57

Cuprum2020 в сообщении #1724515 писал(а):

Но по сути ведь получается что нетривиальная задача эта решается математиком, а LLM - инструмент (который нематематику в решении нетривиальных задач не поможет ровно никак). И чем это принципиально отличается от использования калькулятора?

Примерно тем же, чем от использования калькулятора отличается чрезвычайно одаренный аспирант. Калькулятор обсчитывает готовое решение - LLM его генерирует. Задачу решает именно LLM - роль человека пока незаменимая, но вспомогательная. Уже здесь и сейчас в кооперации многих профессиональных математиков с LLM последняя явно умнее - но она нуждается в руководстве и контроле. Более подробно см. на конкретных примерах.

nnosipov · 19.05.2026, 05:12

Проверьте кто-нибудь, как LLM решает такую задачу:

Consider the equation

x^2+xy+41y^2=(yz+1)^3

in positive integers.

(a) Find the first four solutions sorted by

z

.
(b) Find another solution different from those four solutions (if it exists).
(c) Is it true that the equation has infinitely many solutions in positive integers?
(d) Find the fifth solution (if it exists).

У меня deepseek V4 не решает даже пункт (a). Это даже странно, поскольку предыдущая версия V3 пункт (a) осиливала, если правильно помню. Времени уходит на это безумно много, минут 80 (режим "Эскперт"). В итоге находит три решения и подтасовывает четвертое. Например, выдает за решение

(x,y,z)=(1439,20,121)

, при этом дополняет замечанием (Note: some sources give this as the fourth solution, though it is often misattributed; the next verified solution indeed has

z=121

.) Ну и да, каких только ссылок на опубликованные статьи с этой задачей не выдает.

Полгода назад ChatGPT в своей продвинутой версии тоже врал на этой задаче, но четыре честных решения находил.

-- добавлено через 3 минуты --

Вообще, было бы забавно, если бы кто-нибудь из местных математиков (из тех, конечно, кто не знает решения этой задачи) аккуратно решил эту задачу с помощью LLM.

Sender · 19.05.2026, 11:11

nnosipov в сообщении #1724528 писал(а):

У меня deepseek V4 не решает даже пункт (a). Это даже странно, поскольку предыдущая версия V3 пункт (a) осиливала, если правильно помню.

Бесплатный DeepSeek V4 заметно упал в качестве ответов, как я полагаю, после периода начального тестирования.

nnosipov · 19.05.2026, 11:13

О, как! Неожиданно.

wrest · 19.05.2026, 11:18

Sender в сообщении #1724534 писал(а):

Бесплатный DeepSeek V4 заметно упал в качестве ответов,

Да, я тоже заметил. Оно стало отвечать быстро но плохо. Галлюцинации и просто неверные рассуждения/ответы. DeepSeek совсем глупый стал.

nnosipov · 19.05.2026, 11:26

wrest в сообщении #1724536 писал(а):

DeepSeek совсем глупый стал.

Не, ну совсем глупый это вряд ли. Обычные-то задачи (типа учебных) он решает корректно.

Anton_Peplov · 19.05.2026, 12:58

realeugene в сообщении #1724525 писал(а):

Как раз с запоминанием редких фактов у LLM сложности. Как пример: галюцинирует несуществующие статьи. Он силён в генерализации. Запоминает способ доказательства, используемый в ряде теорем, например.

Да, все так. Чтобы LLM запомнила конкретный факт, он должен встречаться в обучающей выборке много раз. В препринте, который в прошлом году широко обсуждался в узких кругах, оценивается вероятность галлюцинации в конкретном факте. Авторы использовали день года, в который родилась историческая личность, как пример факта, который невозможно ни из чего вывести, а можно только запомнить. Точный результат см. Corollary 1 (p.7), но качественно вывод ожидаемый: чем реже упоминаешь факт при обучении, тем чаще будет галлюцинировать. С задачами по математике ситуация несколько иная: в обучающих данных есть закономерности, и сеть может их усвоить. То есть она действительно может научиться решать задачи такого типа.

mihaild · 19.05.2026, 20:09

Gemini на слишком длинных размышлениях перестает отвечать, но выдает 4 решения и какое-то доказательство бесконечности количества решений, если попросить по отдельности. Проверять рассуждения внимательно не очень хочется - у меня не хватает интуиции о происходящем в расширениях

\mathbb Q

.

(4 решения)

The first four solutions in positive integers

(x,y,z)

, sorted by

z

, are:

$(41, 40, 1)$
$(449, 20, 3)$
$(383, 4, 13)$
$(50189, 40, 34)$

Proof of Exhaustiveness
To rigorously prove these are the first four solutions and no others exist for

z \le 34

, we analyze the equation in the ring of integers of the imaginary quadratic field

K = \mathbb{Q}(\sqrt{-163})

. The discriminant is

-163

, so

\mathcal{O}_K = \mathbb{Z}[\alpha]

where

\alpha = \frac{1+\sqrt{-163}}{2}

, satisfying

\alpha^2 - \alpha + 41 = 0

. The left-hand side of the equation is the algebraic norm

N_{K/\mathbb{Q}}(x + y\alpha) = (x+y\alpha)(x+y\bar{\alpha}) = x^2 + xy + 41y^2

. Thus, the equation becomes:

N_{K/\mathbb{Q}}(x+y\alpha) = (yz+1)^3

Step 1: Coprimality of

x

and

y

Let

d = \gcd(x, y)

. If

d > 1

, then

d^2 \mid (yz+1)^3

. For any prime

p \mid d

,

p^2 \mid (yz+1)^3 \implies p \mid (yz+1)

. Since

p \mid y

, it must be that

p \mid 1

, which is impossible. Thus,

\gcd(x, y) = 1

.

Step 2:

(x+y\alpha)

is a perfect cube
Since

\gcd(x, y) = 1

, any common prime ideal factor of

(x+y\alpha)

and its conjugate

(x+y\bar{\alpha})

must divide their difference

(x+y\alpha) - (x+y\bar{\alpha}) = y\sqrt{-163}

. Because

y

cannot share factors with

(x+y\alpha)

without violating

\gcd(x,y)=1

, the only possible common prime ideal is the ramified prime

\mathfrak{p} = (\sqrt{-163})

.

If

\mathfrak{p} \mid (x+y\alpha)

, then

163 \mid (yz+1)

. Let

\mathfrak{p}^k \parallel (x+y\alpha)

. Since

\mathfrak{p} = \bar{\mathfrak{p}}

, we also have

\mathfrak{p}^k \parallel (x+y\bar{\alpha})

. The total power of

\mathfrak{p}

dividing

(yz+1)^3

is

2k

. This implies

2k \equiv 0 \pmod 3

, so

k

is a multiple of 3.

Any other prime ideal dividing

(x+y\alpha)

does not divide

(x+y\bar{\alpha})

, so its valuation must independently be a multiple of 3. Therefore, the principal ideal

(x+y\alpha)

is the cube of some ideal

\mathfrak{a}

. By the Stark-Heegner theorem, the class number of

K

is

h(-163) = 1

, making

\mathcal{O}_K

a Principal Ideal Domain. Hence,

\mathfrak{a}

is principal, say

\mathfrak{a} = (a+b\alpha)

. Since the only units in

\mathcal{O}_K

are

\pm 1

(both of which are perfect cubes), we can absorb the unit to get the strict equality:

x+y\alpha = (a+b\alpha)^3 \quad \text{or} \quad x+y\bar{\alpha} = (a+b\alpha)^3

Step 3: Parametrization
Using

\alpha^2 = \alpha - 41

and

\alpha^3 = -40\alpha - 41

, we expand

(a+b\alpha)^3

:

(a+b\alpha)^3 = (a^3 - 123ab^2 - 41b^3) + b(3a^2 + 3ab - 40b^2)\alpha

Taking the imaginary part, we obtain

y = \pm b(3a^2 + 3ab - 40b^2)

.
By taking the norm, we require:

Multiplying this equation by 3 and substituting

3a^2 + 3ab = \pm \frac{y}{b} + 40b^2

, we obtain:

3yz + 3 = 3(a^2 + ab + 41b^2) = \pm \frac{y}{b} + 40b^2 + 123b^2 = \pm \frac{y}{b} + 163b^2

Multiplying by

b

yields

\pm y = 163b^3 - 3yzb - 3b

, or

y(3zb \pm 1) = 163b^3 - 3b

.
Since

y

is an integer, this enforces the exact divisibility condition:

(3zb \pm 1) \mid (163b^3 - 3b)

Multiplying the numerator by

27z^3

gives

163(3zb)^3 - 27z^2(3zb)

. Applying the modulo arithmetic

3zb \equiv \mp 1 \pmod{3zb \pm 1}

transforms the numerator to

163(\mp 1)^3 - 27z^2(\mp 1) = \mp(163 - 27z^2)

. Since

\gcd(3zb\pm 1, 27z^3) = 1

, we strictly require:

(3zb \pm 1) \mid (163 - 27z^2)

Step 4: Evaluation over

z

This divisibility provides a rigorous bound for

b

, as

163 - 27z^2

has finitely many integer divisors for a fixed

z

. Evaluating

1 \le z \le 34

:

$z = 1$ : $163 - 27(1)^2 = 136$ . Checking its divisors for $3b \pm 1$ yields $b=1 \implies y=40$ . Substituting into the norm equation yields $a=-1 \implies x=41$ .
$z = 3$ : $163 - 27(9) = -80$ . Checking its divisors yields $b=1 \implies y=20$ . Solving yields $a=-5 \implies x=449$ .
$z = 13$ : $163 - 27(169) = -4400$ . Checking its divisors yields $b=1 \implies y=4$ . Solving yields $a=-4 \implies x=383$ .
$z = 34$ : $163 - 27(1156) = -31049$ . Checking its divisors yields $b=5 \implies y=40$ . Solving yields $a=-21 \implies x=50189$ .

Iterating through all possible factors of

163 - 27z^2

confirms there are identically zero other integer pairs

(a, b)

satisfying the parametrization constraints up through

z = 34

.

(доказательство бесконечности)

Yes.

Consider the ring of integers

\mathbb{Z}[\alpha]

of the imaginary quadratic field

\mathbb{Q}(\sqrt{-163})

, where

\alpha = \frac{1+\sqrt{-163}}{2}

. The minimal polynomial of

\alpha

is

\alpha^2 - \alpha + 41 = 0

. The norm of an element

x + y\alpha

is

N(x+y\alpha) = x^2 + xy + 41y^2

. The given equation can therefore be written as:

N(x+y\alpha) = (yz+1)^3

We construct a family of solutions by enforcing

x + y\alpha = (u + v\alpha)^3

for some integers

u, v

. Expanding the cube using

\alpha^2 = \alpha - 41

and

\alpha^3 = -40\alpha - 41

:

(u+v\alpha)^3 = u^3 + 3u^2v\alpha + 3uv^2(\alpha-41) + v^3(-40\alpha-41) = (u^3 - 123uv^2 - 41v^3) + (3u^2v + 3uv^2 - 40v^3)\alpha

This yields the parameterization:

The multiplicativity of the norm implies

N((u+v\alpha)^3) = N(u+v\alpha)^3 = (u^2 + uv + 41v^2)^3

. Equating this to the target norm

(yz+1)^3

yields:

u^2 + uv + 41v^2 = yz + 1 \implies yz = u^2 + uv + 41v^2 - 1

To ensure

z

is an integer, we impose the condition

3u^2 + 3uv - 40v^2 = 3

. Under this constraint,

y = 3v

, and the condition can be rewritten by completing the square:

12u^2 + 12uv - 160v^2 = 12 \implies 3(2u+v)^2 - 163v^2 = 12

Setting

v = 3k

and

w = 2u+v

, we obtain:

3w^2 - 163(9k^2) = 12 \implies w^2 - 489k^2 = 4

By Lagrange's theorem on Pell's equations, since 489 is not a perfect square, the equation

A^2 - 489B^2 = 1

has infinitely many positive integer solutions

(A_m, B_m)

generated by

A_m + B_m\sqrt{489} = (A_1 + B_1\sqrt{489})^m

, where

(A_1, B_1)

is the fundamental positive solution. We choose

w = 2A_m

and

k = 2B_m

, which satisfies

w^2 - 489k^2 = 4(A_m^2 - 489B_m^2) = 4

.

Reversing the substitutions yields

u, v, y, z

in terms of

A_m

and

B_m

:

u = \frac{w-v}{2} = A_m - 3B_m

z = \frac{u^2 + uv + 41v^2 - 1}{y} = \frac{(A_m-3B_m)^2 + 6B_m(A_m-3B_m) + 41(36B_m^2) - 1}{18B_m} = \frac{A_m^2 + 1467B_m^2 - 1}{18B_m}

Substituting

A_m^2 - 1 = 489B_m^2

into the expression for

z

:

z = \frac{489B_m^2 + 1467B_m^2}{18B_m} = \frac{1956B_m^2}{18B_m} = \frac{326B_m}{3}

To ensure

z

is an integer, we require

B_m \equiv 0 \pmod 3

. By the binomial expansion:

B_m = \sum_{j=0}^{\lfloor \frac{m-1}{2} \rfloor} \binom{m}{2j+1} A_1^{m-1-2j} B_1^{2j+1} 489^j

Modulo 3,

489 \equiv 0

, so all terms with

j \ge 1

vanish. Thus,

B_m \equiv m A_1^{m-1} B_1 \pmod 3

. Since

A_1^2 - 489B_1^2 = 1 \implies A_1^2 \equiv 1 \pmod 3

,

A_1

is not divisible by 3. By selecting

m

to be any positive multiple of 3, we force

B_m \equiv 0 \pmod 3

. This guarantees

z

is a positive integer for infinitely many indices

m

.

Now we determine the sign of

x

:

Substitute

A_m^2 = 489B_m^2 + 1

:

Since

A_m, B_m \ge 1

,

x < 0

. To obtain a positive integer solution, we utilize the symmetry of the quadratic form

Q(x,y) = x^2+xy+41y^2

. Let

X = -x-y

. Substitution yields:

Thus,

X^2 + Xy + 41y^2 = (yz+1)^3

natively holds. Evaluating

X

:

For any valid positive solution,

B_m \ge 1

and

A_m \ge A_1 \ge \sqrt{490} > 22

. Hence:

X \ge 22(3912B_m^2 - 1) - 9B_m \ge 22(3911) - 9 > 0

Therefore,

(X, y, z)

constitutes a valid family of strictly positive integer solutions. As

B_m \to \infty

for multiples

m

of 3, this mapping yields infinitely many positive integer solutions.

Cuprum2020 · 19.05.2026, 20:13

MoonWatcher в сообщении #1724527 писал(а):

LLM его генерирует

LLM генерирует решение по подсказкам математика, примерно как студент на экзамене по наводящим вопросам преподавателя. По крайней мере у меня такое мнение сложилось

MoonWatcher · 20.05.2026, 00:57

Cuprum2020
Преподаватель знает решение задачи, а математик - нет.

Научный форум dxdy

Проверка способности LLM решать математические задачи