Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1 ... 28, 29, 30, 31, 32
 Re: Проверка способности LLM решать математические задачи
Cuprum2020 в сообщении #1724515 писал(а):
И чем это принципиально отличается от использования калькулятора?

LLM, в принципе, помогает всем, кто может сформулировать и уточнять запрос.
Нетривиальность математической задачи - это такое, для подавляющего большинства и задачи из рядового учебника со звёздочкой нетривиальны.

 Re: Проверка способности LLM решать математические задачи
Booker48 в сообщении #1724517 писал(а):
Нетривиальность математической задачи - это такое, для подавляющего большинства и задачи из рядового учебника со звёздочкой нетривиальны.

Нет, под нетривиальными понимались задачи, которых нет в задачниках, решебниках, в учебниках, статьях, в интернете. Иначе тривиальные, поскольку эти "гады" всех их запомнили.

 Re: Проверка способности LLM решать математические задачи
dsge в сообщении #1724518 писал(а):
Нет, под нетривиальными понимались задачи, которых нет в задачниках, решебниках, в учебниках, статьях, в интернете.

Гм, получается, что тест на "интеллектуальность" могут составить только и исключительно математики?
Боюсь, этот текст не пройдёт подавляющее большинство сапиенсов...

-- добавлено через 12 минут --

С другой стороны, математик в процессе обучения тоже изучает множество специфических текстов, и ему тоже кто-то ставит задачу.
Его заявления (о решении нетривиальной современной задачи) недостаточно, требуется верификация математическим сообществом, иногда - с "дорешиванием", история доказательства ВТФ в этом плане показательна.
Не так просто различить в этом смысле LLM и "кожаного" математика. Ну, если на выходе всё же - признанное математическим сообществом решение.
Мы же (надеюсь) не приписываем научному руководителю аспиранта доказанную последним теорему?

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
Booker48 в сообщении #1724519 писал(а):
Гм, получается, что тест на "интеллектуальность" могут составить только и исключительно математики?
Боюсь, этот текст не пройдёт подавляющее большинство сапиенсов...

Ну сыграйте с LLM в шахматы, оцените реальную "интеллектуальность", когда примерно после двадцатого хода она начнёт делать невозможные ходы. ИМХО, к LLM стоит относиться просто как к продвинутой системе поиска.

 Re: Проверка способности LLM решать математические задачи
dsge в сообщении #1724518 писал(а):
Нет, под нетривиальными понимались задачи, которых нет в задачниках, решебниках, в учебниках, статьях, в интернете. Иначе тривиальные, поскольку эти "гады" всех их запомнили.
Э, нет. Как раз с запоминанием редких фактов у LLM сложности. Как пример: галюцинирует несуществующие статьи. Он силён в генерализации. Запоминает способ доказательства, используемый в ряде теорем, например.

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
Cuprum2020 в сообщении #1724515 писал(а):
Но по сути ведь получается что нетривиальная задача эта решается математиком, а LLM - инструмент (который нематематику в решении нетривиальных задач не поможет ровно никак). И чем это принципиально отличается от использования калькулятора?

Примерно тем же, чем от использования калькулятора отличается чрезвычайно одаренный аспирант. Калькулятор обсчитывает готовое решение - LLM его генерирует. Задачу решает именно LLM - роль человека пока незаменимая, но вспомогательная. Уже здесь и сейчас в кооперации многих профессиональных математиков с LLM последняя явно умнее - но она нуждается в руководстве и контроле. Более подробно см. на конкретных примерах.

 Re: Проверка способности LLM решать математические задачи
Проверьте кто-нибудь, как LLM решает такую задачу:

Consider the equation $x^2+xy+41y^2=(yz+1)^3$ in positive integers.

(a) Find the first four solutions sorted by $z$.
(b) Find another solution different from those four solutions (if it exists).
(c) Is it true that the equation has infinitely many solutions in positive integers?
(d) Find the fifth solution (if it exists).

У меня deepseek V4 не решает даже пункт (a). Это даже странно, поскольку предыдущая версия V3 пункт (a) осиливала, если правильно помню. Времени уходит на это безумно много, минут 80 (режим "Эскперт"). В итоге находит три решения и подтасовывает четвертое. Например, выдает за решение $(x,y,z)=(1439,20,121)$, при этом дополняет замечанием (Note: some sources give this as the fourth solution, though it is often misattributed; the next verified solution indeed has $z=121$.) Ну и да, каких только ссылок на опубликованные статьи с этой задачей не выдает.

Полгода назад ChatGPT в своей продвинутой версии тоже врал на этой задаче, но четыре честных решения находил.

-- добавлено через 3 минуты --

Вообще, было бы забавно, если бы кто-нибудь из местных математиков (из тех, конечно, кто не знает решения этой задачи) аккуратно решил эту задачу с помощью LLM.

 Re: Проверка способности LLM решать математические задачи
nnosipov в сообщении #1724528 писал(а):
У меня deepseek V4 не решает даже пункт (a). Это даже странно, поскольку предыдущая версия V3 пункт (a) осиливала, если правильно помню.

Бесплатный DeepSeek V4 заметно упал в качестве ответов, как я полагаю, после периода начального тестирования.

 Re: Проверка способности LLM решать математические задачи
О, как! Неожиданно.

 Re: Проверка способности LLM решать математические задачи
Sender в сообщении #1724534 писал(а):
Бесплатный DeepSeek V4 заметно упал в качестве ответов,

Да, я тоже заметил. Оно стало отвечать быстро но плохо. Галлюцинации и просто неверные рассуждения/ответы. DeepSeek совсем глупый стал.

 Re: Проверка способности LLM решать математические задачи
wrest в сообщении #1724536 писал(а):
DeepSeek совсем глупый стал.
Не, ну совсем глупый это вряд ли. Обычные-то задачи (типа учебных) он решает корректно.

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
realeugene в сообщении #1724525 писал(а):
Как раз с запоминанием редких фактов у LLM сложности. Как пример: галюцинирует несуществующие статьи. Он силён в генерализации. Запоминает способ доказательства, используемый в ряде теорем, например.
Да, все так. Чтобы LLM запомнила конкретный факт, он должен встречаться в обучающей выборке много раз. В препринте, который в прошлом году широко обсуждался в узких кругах, оценивается вероятность галлюцинации в конкретном факте. Авторы использовали день года, в который родилась историческая личность, как пример факта, который невозможно ни из чего вывести, а можно только запомнить. Точный результат см. Corollary 1 (p.7), но качественно вывод ожидаемый: чем реже упоминаешь факт при обучении, тем чаще будет галлюцинировать. С задачами по математике ситуация несколько иная: в обучающих данных есть закономерности, и сеть может их усвоить. То есть она действительно может научиться решать задачи такого типа.

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
Gemini на слишком длинных размышлениях перестает отвечать, но выдает 4 решения и какое-то доказательство бесконечности количества решений, если попросить по отдельности. Проверять рассуждения внимательно не очень хочется - у меня не хватает интуиции о происходящем в расширениях $\mathbb Q$.

(4 решения)

The first four solutions in positive integers $(x,y,z)$, sorted by $z$, are:

  1. $(41, 40, 1)$
  2. $(449, 20, 3)$
  3. $(383, 4, 13)$
  4. $(50189, 40, 34)$

Proof of Exhaustiveness
To rigorously prove these are the first four solutions and no others exist for $z \le 34$, we analyze the equation in the ring of integers of the imaginary quadratic field $K = \mathbb{Q}(\sqrt{-163})$. The discriminant is $-163$, so $\mathcal{O}_K = \mathbb{Z}[\alpha]$ where $\alpha = \frac{1+\sqrt{-163}}{2}$, satisfying $\alpha^2 - \alpha + 41 = 0$. The left-hand side of the equation is the algebraic norm $N_{K/\mathbb{Q}}(x + y\alpha) = (x+y\alpha)(x+y\bar{\alpha}) = x^2 + xy + 41y^2$. Thus, the equation becomes:
$$N_{K/\mathbb{Q}}(x+y\alpha) = (yz+1)^3$$

Step 1: Coprimality of $x$ and $y$
Let $d = \gcd(x, y)$. If $d > 1$, then $d^2 \mid (yz+1)^3$. For any prime $p \mid d$, $p^2 \mid (yz+1)^3 \implies p \mid (yz+1)$. Since $p \mid y$, it must be that $p \mid 1$, which is impossible. Thus, $\gcd(x, y) = 1$.

Step 2: $(x+y\alpha)$ is a perfect cube
Since $\gcd(x, y) = 1$, any common prime ideal factor of $(x+y\alpha)$ and its conjugate $(x+y\bar{\alpha})$ must divide their difference $(x+y\alpha) - (x+y\bar{\alpha}) = y\sqrt{-163}$. Because $y$ cannot share factors with $(x+y\alpha)$ without violating $\gcd(x,y)=1$, the only possible common prime ideal is the ramified prime $\mathfrak{p} = (\sqrt{-163})$.

If $\mathfrak{p} \mid (x+y\alpha)$, then $163 \mid (yz+1)$. Let $\mathfrak{p}^k \parallel (x+y\alpha)$. Since $\mathfrak{p} = \bar{\mathfrak{p}}$, we also have $\mathfrak{p}^k \parallel (x+y\bar{\alpha})$. The total power of $\mathfrak{p}$ dividing $(yz+1)^3$ is $2k$. This implies $2k \equiv 0 \pmod 3$, so $k$ is a multiple of 3.

Any other prime ideal dividing $(x+y\alpha)$ does not divide $(x+y\bar{\alpha})$, so its valuation must independently be a multiple of 3. Therefore, the principal ideal $(x+y\alpha)$ is the cube of some ideal $\mathfrak{a}$. By the Stark-Heegner theorem, the class number of $K$ is $h(-163) = 1$, making $\mathcal{O}_K$ a Principal Ideal Domain. Hence, $\mathfrak{a}$ is principal, say $\mathfrak{a} = (a+b\alpha)$. Since the only units in $\mathcal{O}_K$ are $\pm 1$ (both of which are perfect cubes), we can absorb the unit to get the strict equality:
$$x+y\alpha = (a+b\alpha)^3 \quad \text{or} \quad x+y\bar{\alpha} = (a+b\alpha)^3$$

Step 3: Parametrization
Using $\alpha^2 = \alpha - 41$ and $\alpha^3 = -40\alpha - 41$, we expand $(a+b\alpha)^3$:
$$(a+b\alpha)^3 = (a^3 - 123ab^2 - 41b^3) + b(3a^2 + 3ab - 40b^2)\alpha$$
Taking the imaginary part, we obtain $y = \pm b(3a^2 + 3ab - 40b^2)$.
By taking the norm, we require:
$$a^2 + ab + 41b^2 = yz + 1$$
Multiplying this equation by 3 and substituting $3a^2 + 3ab = \pm \frac{y}{b} + 40b^2$, we obtain:
$$3yz + 3 = 3(a^2 + ab + 41b^2) = \pm \frac{y}{b} + 40b^2 + 123b^2 = \pm \frac{y}{b} + 163b^2$$
Multiplying by $b$ yields $\pm y = 163b^3 - 3yzb - 3b$, or $y(3zb \pm 1) = 163b^3 - 3b$.
Since $y$ is an integer, this enforces the exact divisibility condition:
$$(3zb \pm 1) \mid (163b^3 - 3b)$$
Multiplying the numerator by $27z^3$ gives $163(3zb)^3 - 27z^2(3zb)$. Applying the modulo arithmetic $3zb \equiv \mp 1 \pmod{3zb \pm 1}$ transforms the numerator to $163(\mp 1)^3 - 27z^2(\mp 1) = \mp(163 - 27z^2)$. Since $\gcd(3zb\pm 1, 27z^3) = 1$, we strictly require:
$$(3zb \pm 1) \mid (163 - 27z^2)$$

Step 4: Evaluation over $z$
This divisibility provides a rigorous bound for $b$, as $163 - 27z^2$ has finitely many integer divisors for a fixed $z$. Evaluating $1 \le z \le 34$:
  • $z = 1$: $163 - 27(1)^2 = 136$. Checking its divisors for $3b \pm 1$ yields $b=1 \implies y=40$. Substituting into the norm equation yields $a=-1 \implies x=41$.
  • $z = 3$: $163 - 27(9) = -80$. Checking its divisors yields $b=1 \implies y=20$. Solving yields $a=-5 \implies x=449$.
  • $z = 13$: $163 - 27(169) = -4400$. Checking its divisors yields $b=1 \implies y=4$. Solving yields $a=-4 \implies x=383$.
  • $z = 34$: $163 - 27(1156) = -31049$. Checking its divisors yields $b=5 \implies y=40$. Solving yields $a=-21 \implies x=50189$.

Iterating through all possible factors of $163 - 27z^2$ confirms there are identically zero other integer pairs $(a, b)$ satisfying the parametrization constraints up through $z = 34$.


(доказательство бесконечности)

Yes.

Consider the ring of integers $\mathbb{Z}[\alpha]$ of the imaginary quadratic field $\mathbb{Q}(\sqrt{-163})$, where $\alpha = \frac{1+\sqrt{-163}}{2}$. The minimal polynomial of $\alpha$ is $\alpha^2 - \alpha + 41 = 0$. The norm of an element $x + y\alpha$ is $N(x+y\alpha) = x^2 + xy + 41y^2$. The given equation can therefore be written as:


$$N(x+y\alpha) = (yz+1)^3$$

We construct a family of solutions by enforcing $x + y\alpha = (u + v\alpha)^3$ for some integers $u, v$. Expanding the cube using $\alpha^2 = \alpha - 41$ and $\alpha^3 = -40\alpha - 41$:


$$(u+v\alpha)^3 = u^3 + 3u^2v\alpha + 3uv^2(\alpha-41) + v^3(-40\alpha-41) = (u^3 - 123uv^2 - 41v^3) + (3u^2v + 3uv^2 - 40v^3)\alpha$$


This yields the parameterization:


$$x = u^3 - 123uv^2 - 41v^3$$

$$y = 3u^2v + 3uv^2 - 40v^3 = v(3u^2 + 3uv - 40v^2)$$

The multiplicativity of the norm implies $N((u+v\alpha)^3) = N(u+v\alpha)^3 = (u^2 + uv + 41v^2)^3$. Equating this to the target norm $(yz+1)^3$ yields:


$$u^2 + uv + 41v^2 = yz + 1 \implies yz = u^2 + uv + 41v^2 - 1$$

To ensure $z$ is an integer, we impose the condition $3u^2 + 3uv - 40v^2 = 3$. Under this constraint, $y = 3v$, and the condition can be rewritten by completing the square:


$$12u^2 + 12uv - 160v^2 = 12 \implies 3(2u+v)^2 - 163v^2 = 12$$

Setting $v = 3k$ and $w = 2u+v$, we obtain:


$$3w^2 - 163(9k^2) = 12 \implies w^2 - 489k^2 = 4$$

By Lagrange's theorem on Pell's equations, since 489 is not a perfect square, the equation $A^2 - 489B^2 = 1$ has infinitely many positive integer solutions $(A_m, B_m)$ generated by $A_m + B_m\sqrt{489} = (A_1 + B_1\sqrt{489})^m$, where $(A_1, B_1)$ is the fundamental positive solution. We choose $w = 2A_m$ and $k = 2B_m$, which satisfies $w^2 - 489k^2 = 4(A_m^2 - 489B_m^2) = 4$.

Reversing the substitutions yields $u, v, y, z$ in terms of $A_m$ and $B_m$:


$$v = 3k = 6B_m$$

$$u = \frac{w-v}{2} = A_m - 3B_m$$

$$y = 3v = 18B_m$$

$$z = \frac{u^2 + uv + 41v^2 - 1}{y} = \frac{(A_m-3B_m)^2 + 6B_m(A_m-3B_m) + 41(36B_m^2) - 1}{18B_m} = \frac{A_m^2 + 1467B_m^2 - 1}{18B_m}$$

Substituting $A_m^2 - 1 = 489B_m^2$ into the expression for $z$:


$$z = \frac{489B_m^2 + 1467B_m^2}{18B_m} = \frac{1956B_m^2}{18B_m} = \frac{326B_m}{3}$$

To ensure $z$ is an integer, we require $B_m \equiv 0 \pmod 3$. By the binomial expansion:


$$B_m = \sum_{j=0}^{\lfloor \frac{m-1}{2} \rfloor} \binom{m}{2j+1} A_1^{m-1-2j} B_1^{2j+1} 489^j$$

Modulo 3, $489 \equiv 0$, so all terms with $j \ge 1$ vanish. Thus, $B_m \equiv m A_1^{m-1} B_1 \pmod 3$. Since $A_1^2 - 489B_1^2 = 1 \implies A_1^2 \equiv 1 \pmod 3$, $A_1$ is not divisible by 3. By selecting $m$ to be any positive multiple of 3, we force $B_m \equiv 0 \pmod 3$. This guarantees $z$ is a positive integer for infinitely many indices $m$.

Now we determine the sign of $x$:


$$x = u^3 - 123uv^2 - 41v^3 = (A_m-3B_m)^3 - 123(A_m-3B_m)(36B_m^2) - 41(216B_m^3)$$

$$x = A_m^3 - 9A_m^2B_m - 4401A_mB_m^2 + 4401B_m^3$$

Substitute $A_m^2 = 489B_m^2 + 1$:


$$x = A_m(489B_m^2 + 1) - 9B_m(489B_m^2 + 1) - 4401A_mB_m^2 + 4401B_m^3$$

$$x = A_m(1 - 3912B_m^2) - 9B_m$$

Since $A_m, B_m \ge 1$, $x < 0$. To obtain a positive integer solution, we utilize the symmetry of the quadratic form $Q(x,y) = x^2+xy+41y^2$. Let $X = -x-y$. Substitution yields:


$$Q(X,y) = (-x-y)^2 + (-x-y)y + 41y^2 = x^2 + 2xy + y^2 - xy - y^2 + 41y^2 = x^2 + xy + 41y^2 = Q(x,y)$$

Thus, $X^2 + Xy + 41y^2 = (yz+1)^3$ natively holds. Evaluating $X$:


$$X = -[A_m(1 - 3912B_m^2) - 9B_m] - 18B_m = A_m(3912B_m^2 - 1) - 9B_m$$

For any valid positive solution, $B_m \ge 1$ and $A_m \ge A_1 \ge \sqrt{490} > 22$. Hence:


$$X \ge 22(3912B_m^2 - 1) - 9B_m \ge 22(3911) - 9 > 0$$

Therefore, $(X, y, z)$ constitutes a valid family of strictly positive integer solutions. As $B_m \to \infty$ for multiples $m$ of 3, this mapping yields infinitely many positive integer solutions.

 Re: Проверка способности LLM решать математические задачи
MoonWatcher в сообщении #1724527 писал(а):
LLM его генерирует

LLM генерирует решение по подсказкам математика, примерно как студент на экзамене по наводящим вопросам преподавателя. По крайней мере у меня такое мнение сложилось

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
Cuprum2020
Преподаватель знает решение задачи, а математик - нет.

 [ Сообщений: 480 ]  На страницу Пред.  1 ... 28, 29, 30, 31, 32


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group