Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1 ... 28, 29, 30, 31, 32  След.
 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
dsge в сообщении #1724402 писал(а):
Откуда вы знаете уровень "талантливого, если не гениального, аспиранта"? Вы руководили когда-нибудь аспирантом? Вы были когда-нибудь аспирантом? Вы видели когда-нибудь аспиранта?

Аспирантом был, но какое это имеет значение? Никогда не понимал этого апеллирования в личному опыту - любой начитанный школьник знает о жизни больше тысячи людей с огромным жизненным опытом вместе взятых... Сравнение с аспирантом не мое - его сделал, например, Теренс Тао (еще в сентябре 2024, когда ИИ были намного глупее, чем сейчас): a mediocre, but not completely incompetent, (static simulation of a) graduate student. Более свежий пример - Andrew Sutherland (MIT): They are now useful research assistants.


Вот, для иллюстрации, вклад ИИ в решение нескольких задач Эрдеша:

№ 960 Сколько “обычных прямых” может быть у набора точек на плоскости, если запрещены вырождения (например, много точек на одной прямой) и запрещены маленькие “полные конфигурации” (каждая пара точек образует такую прямую)
ИИ: Нашёл нетривиальную геометрическую конструкцию (через эллиптические кривые), дающую очень много таких прямых
Люди: Проверка и оформление

№ 987 Можно ли построить числовую последовательность, у которой все частичные суммы сложных колебаний (экспоненциальных сумм) остаются маленькими для всех частот
ИИ: Построил случайную конструкцию и доказал почти оптимальную оценку
Люди: Проверка и упрощение доказательства

№ 1091 Существуют ли графы, которые требуют 4 цвета, но при этом все их малые подграфы можно раскрасить в 3 цвета, и при этом циклы в них не слишком “запутаны” (имеют мало дополнительных связей)
ИИ: Построил явную конструкцию таких графов и доказал свойства
Люди: Немного упростили одно доказательство

№ 990 Можно ли оценивать распределение корней многочлена только через число ненулевых коэффициентов
ИИ: Нашёл контрпример: показал, что такая оценка в общем случае неверна
Люди: Проверка и оформление

№ 1141: Существуют ли бесконечно многие числа n, для которых выражения вида n - a\cdot k^2 дают простые числа для всех допустимых k
ИИ: Доказал, что таких n — конечное число
Люди: Заметили возможность обобщения и спросили о нем у модели

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
MoonWatcher в сообщении #1724407 писал(а):
Сравнение с аспирантом не мое
И кто из авторитетных людей писал про "гениального аспиранта"?

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
mihaild
Дословно - возможно никто. А косвенно это следует, например, из слов польского математика Бартош Наскрэнцки, который решение одной из задач бенчмарка FrontierMath категории Tier 4 сравнил с ходом № 37 в знаменитом матче между AlphaGo и Ли Седолем. Я только не пойму к чему авторитеты в этом вопросе. Ведь факт есть факт: без ИИ эти проблемы из списка Эрдеша не были бы решены математиками, которые прибегли к помощи ИИ, или по меньшей мере не были бы решены так быстро. Если бы эти математики прибегли к помощи аспиранта, а не богомерзкого ИИ, то нисколько не сомневаюсь - оценки этого аспиранта содержали бы такие эпитеты как "талантливый" или даже "гениальный".

 Re: Проверка способности LLM решать математические задачи
MoonWatcher в сообщении #1724407 писал(а):
любой начитанный школьник знает о жизни больше тысячи людей с огромным жизненным опытом вместе взятых...

Сильное заявление, не согласен

 Re: Проверка способности LLM решать математические задачи
MoonWatcher в сообщении #1724407 писал(а):
уровень талантливого, если не гениального, аспиранта

MoonWatcher в сообщении #1724407 писал(а):
Теренс Тао
a mediocre, but not completely incompetent, (static simulation of a) graduate student.

MoonWatcher попросите ЧатДжиПиТи перевести на русский слова Тао, и почувствуйте разницу. Тао и сейчас относится к LLMs, только как к вспомогательному средству и только в купе с Lean. Вряд ли сейчас в глазах Тао LLMs превысили уровень посредственного аспиранта.

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
dsge
Еще раз:
MoonWatcher в сообщении #1724407 писал(а):
Сравнение с аспирантом не мое - его сделал, например, Теренс Тао (еще в сентябре 2024, когда ИИ были намного глупее, чем сейчас)

Если вы сами не почувствовали разницу с ИИ почти двухлетней давности, то пожалуйста новое мнение Теренса Тао:
Цитата:
In September 2024, after testing an earlier OpenAI model on difficult math problems, he said it felt like advising “a mediocre, but not completely incompetent, graduate student.” Now the verdict is much warmer. At a conference at IPAM this week called “Accelerating Math and Theoretical Physics with AI,” Tao said that current models are now “ready for primetime,” because in math and theoretical physics, AI now “saves more time than it wastes.”

Опять же - это начало марта, перечисленные выше решения были получены в апреле и не учитывались Тао.

-- добавлено через 6 минут --

Cuprum2020 в сообщении #1724419 писал(а):
Сильное заявление, не согласен

Я и сам с собой не был согласен в детстве и юности. Но наслушавшись феерической ахинеи деятелей, которые занимают высокопоставленные посты в спецслужбах, прошли не одну и войну и т.д., окончательно понял, что книжный опыт дает куда более полное и глубокое понимание жизни. Студентик, который читал воспоминания тысяч участников Афганской войны, например, знает о ней намного больше, чем матерый вояка, вобравший в себя исключительно свой личный опыт. И потом авторитетно вещающий что-то вроде "Вы фсё врете, я там был и такого не видел!"

 Re: Проверка способности LLM решать математические задачи
MoonWatcher в сообщении #1724446 писал(а):
Но наслушавшись феерической ахинеи деятелей, которые занимают высокопоставленные посты в спецслужбах, прошли не одну и войну и т.д., окончательно понял, что книжный опыт дает куда более полное и глубокое понимание жизн

Глубоко ли Вы уверены в том что этот книгочей, занимай он высокопоставленный пост, не нёс бы той самой феерической ахинеи чтобы и далее занимать свой пост?
MoonWatcher в сообщении #1724446 писал(а):
Студентик, который читал воспоминания тысяч участников Афганской войны, например, знает о ней намного больше, чем матерый вояка, вобравший в себя исключительно свой личный опыт. И потом авторитетно вещающий что-то вроде "Вы фсё врете, я там был и такого не видел!"

Опять же очень сомнительно. "Врёт как очевидец" + цензура в той или иной форме (в том числе и самоцензура)

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
Cuprum2020
Это тема для отдельной дискуссии, не хотелось бы оффтопить.

 Re: Проверка способности LLM решать математические задачи
MoonWatcher, похоже, что вы непонимаете цитаты, которые сами приводите, а воспользоваться AI или переводчиком вам лень.
MoonWatcher в сообщении #1724446 писал(а):
Tao said that in math and theoretical physics, AI now “saves more time than it wastes.”

Tao сказал, что AI сейчас больше сохраняют время у математика, чем бесполезно тратят его.
Большинство нормальных людей способны перемножить 17-значные числа на бумаге, однако калькулятор немного сохраняет наше время для этой деятельности.
Также с AI, без участия человека это просто намагниченные железки.
MoonWatcher в сообщении #1724407 писал(а):
Более свежий пример - Andrew Sutherland (MIT)
: They are now useful research assistants.

Еще один пример непонимания, что написано на английском, research assistants - это низкоквалифицированая должность, основной функционал, которой собирать данные, искать литературу и т.п.
С этим можно согласиться, что AI способно на такую работу. В Штатах сейчас как раз такая проблема у выпускников колледжей и университетов, диплом есть, опыта работы нет. Раньше, чтобы входили в дело начинали с простой работы, а сейчас оказалось, что LLM хорошо справляется с такой работой за 25 долларов в месяц.

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
dsge
Я и секунды не сомневался, что вы скажете про калькулятор :facepalm:

dsge в сообщении #1724501 писал(а):
С этим можно согласиться

Нет, нельзя с этим согласиться - это глупость, понимаете? LLM здесь и сейчас не только данные собирают, но и генерируют решения сложных математических задач - о чем я привел конкретные примеры.

 Re: Проверка способности LLM решать математические задачи
MoonWatcher в сообщении #1724503 писал(а):
но и генерируют решения сложных математических задач - о чем я привел конкретные примеры.

Калькулятор генерирует решение произведения 17-значных чисел, тоже "сложная математическая задача".

Профессионалам LLM могут экономить время, а дилетантам это кажется волшебством - "генерируют решения сложных математических задач". Как 60 лет назад для них казалось волшебством работа калькулятора.

MoonWatcher попробуйте сами решить с помощью LLM нерешенную "сложную математическую задачу", войдете в историю, или на худой конец в ленту новостей, потом поздно будет - "они" все задачи решат.

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
dsge
Нет, мне не кажется это волшебством. Судя по всему, это именно вы считаете решение ИИ сложных математических проблем волшебством - и поэтому отрицаете его. Что касается калькулятора, то кроме фейспалма на это сравнение ответить больше нечем - вы ровным счетом ничего не поняли. Как и многие другие мои оппоненты в подобных спорах, имеющие очень смутное представление об ИИ, вы воображаете LLM этаким брутфорсом. Увы и ах - нет, LLM работают по совершенно другому принципу. Благодаря чему, с достижением LLM определенного уровня, они и стали генерировать вышеупомянутые решения.

Вот что об этом говорит в недавнем интервью непосредственно Теренс Тао. Он вовсе не разделяет восторга некоторых своих коллег и отзывается об ИИ весьма сдержанно - и в частности указывает на текущие проблемы ИИ:
Цитата:
На задачах Эрдёша мы видим замечательный прогресс. Всего около тысячи задач. В сентябре было решено около 380 – в основном из литературы или людьми, а затем всё чаще ИИ. Зелёная линия показывает число решённых задач. Был хаотичный период в начале 2026 года, когда поток решений (людских, ИИ, гибридных) привёл к тому, что решили около 50 задач. Затем наступило плато: все лёгкие задачи, которые не были рассмотрены ранее, теперь просмотрены и ИИ, и людьми. А в последний месяц прогресс снова ускорился – выпуск GPT-5.5 сыграл большую роль. Появляется новая волна решённых задач. Но остаётся ещё 600–700 нерешённых задач разной сложности: от тех, что решаются на одной странице, до тех, где требуется статья на уровне Annals of Mathematics. Это сырые числа, не взвешенные по сложности.

ИИ стал полезен для решения этих задач разными способами: поиск литературы, верификация и формализация существующих доказательств, рефакторинг (сжатие сложного доказательства или оптимизация констант), генерация вариантов существующих работ, численные эксперименты, а теперь всё чаще – полуавтономная или полностью автономная генерация частичных или полных решений. Но мы сталкиваемся с проблемой несоответствия (impedance mismatch). В решении математической задачи три этапа: генерация доказательства (получение полного верного доказательства), верификация доказательства (проверка отсутствия ошибок) и, как я говорил, переваривание доказательства (понимание основных идей, связь с литературой, повествование, как бы вы сами пришли к доказательству, какие будущие вопросы можно ответить). Ещё год назад все три этапа были трудными, и люди делали практически всё. Поскольку они были примерно одинаково сложными, можно было сосредоточиться на генерации: если вы потратили несколько месяцев на генерацию доказательства, вы, вероятно, проделали достаточно работы и для верификации, и для переваривания, чтобы объяснить другим. Нам не нужно было разделять эти цели. Но сейчас, с развитием ИИ и формальной верификации, первые два компонента становятся автоматизированными и гораздо более быстрыми. А третий компонент не сдвинулся с места. Впервые мы испытываем «несварение доказательств» (proof indigestion). Мы получаем множество доказательств, верифицируем их, но решение не закончено, потому что никто не понимает доказательство достаточно хорошо, чтобы прочитать доклад и объяснить другим. Мы не учимся на этих доказательствах. Это только две трети доказательства. Правильный показатель – не сгенерировано ли доказательство и не верифицировано ли оно, а может ли кто-то прочитать о нём лекцию и ответить на вопросы. Современные ИИ-решения выполняют только две трети этой задачи.

Редактура и автоперевод выполнены DeepSeek, надеюсь обошлось без галлюцинаций.

 Re: Проверка способности LLM решать математические задачи
MoonWatcher в сообщении #1724506 писал(а):
Как и многие другие мои оппоненты в подобных спорах, имеющие очень смутное представление об ИИ, вы воображаете LLM этаким брутфорсом. Увы и ах - нет, LLM работают по совершенно другому принципу. Благодаря чему, с достижением LLM определенного уровня, они и стали генерировать вышеупомянутые решения.


dsge в сообщении #1724504 писал(а):
MoonWatcher попробуйте сами решить с помощью LLM нерешенную "сложную математическую задачу"

Вы хотя бы одну нетривиальную математическую задачу с помощью LLM решили? Вы хотя бы одну нетривиальную математическую задачу решили?

 Re: Проверка способности LLM решать математические задачи
Аватара пользователя
dsge
Я - нет. Это как-то отменяет тот факт, что при помощи LLM нетривиальные задачи решают математики?

 Re: Проверка способности LLM решать математические задачи
MoonWatcher в сообщении #1724509 писал(а):
dsge
Я - нет. Это как-то отменяет тот факт, что при помощи LLM нетривиальные задачи решают математики?


Но по сути ведь получается что нетривиальная задача эта решается математиком, а LLM - инструмент (который нематематику в решении нетривиальных задач не поможет ровно никак). И чем это принципиально отличается от использования калькулятора?

 [ Сообщений: 480 ]  На страницу Пред.  1 ... 28, 29, 30, 31, 32  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group