Новости ИИ

Anton_Peplov · 17.09.2025, 18:38

mihaild
Ок, спасибо.

Еще вопрос по табл. 2 (с. 14).

Авторы писал(а):

Table 2: Summary of evaluation benchmarks analyzed in this work and their treatment of abstentions. “Binary grading” indicates that the primary metric is a strict correct/incorrect accuracy; “IDK credit” denotes whether abstentions can earn any credit.

IDK - это у них ответ "Я не знаю" (I don't know). В таблице почти у всех бенчмарков стоит Binary grading = Yes и IDK credit = None.

Вот чего я не пойму. Сама по себе фраза "“Binary grading” indicates that the primary metric is a strict correct/incorrect accuracy" означает только, что любой ответ считается либо верным, либо неверным. Но рассуждения авторов о том, что бенчмарки поощряют галлюцинации, имеют смысл лишь в том случае, если за неверные ответы начисляется 0 баллов, т.е., пытаясь угадать, сеть ничем не рискует. Видимо, они включают это требование в Binary grading? Не вижу, чтобы они где-то об этом говорили.

mihaild · 17.09.2025, 18:56

Anton_Peplov в сообщении #1702171 писал(а):

Но рассуждения авторов о том, что бенчмарки поощряют галлюцинации, имеют смысл лишь в том случае, если за неверные ответы начисляется 0 баллов, т.е., пытаясь угадать, сеть ничем не рискует.

Они чуть выше пишут

Цитата:

A threshold of

t=0

corresponds to binary grading

Важно, что за любой ответ, отличный от правильного, начисляется одинаковое количество баллов. Сколько именно - неважно (лишь бы меньше, чем за правильный).

Mihaylo · 17.09.2025, 19:20

У меня другое мнение на счёт галлюцинаций. Да, слишком малое количество IDK - это там какая-то промежуточная причина галлюцинаций. Галлюцинации возникают из-за болтливости, это когда поощряют не запрещают длинный ответ. LLM должна отбирать только самые существенные факты, а не всё подряд. Средний человек в принципе приучен - он сначала соберёт больше информации от собеседника, и только потом пойдёт в "разгул". Еврейский вопрос - это чудо-изобретение в общении. Задай еврейский вопрос - убей галлюцинации.

Люди тоже галлюцинируют, пока их не остановят. Останавливать надо. Надо учить.

Ко мне это, естественно, никак не относится.)

-- 17.09.2025, 19:24 --

От нейросети иногда нужна именно фантазия. Нейросеть просто иногда не может понять, когда нужно фантазировать, а когда надо строго следовать фактам.

Нейросеть ориентируется неправильно, а люди делают неверные, но далеко идущие выводы.

-- 17.09.2025, 19:27 --

Интересно, ранние тесты типа "Алексей Путин - президент России - в каком году родился?" до сих пор не проходят?

Rasool · 02.10.2025, 18:42

GPT-5 частично прошла «тест Гёделя» на доказательство новых математических гипотез.

Цитата:

На arXiv опубликован препринт с описанием нового способа проверки больших языковых моделей — «теста Гёделя» (название дано в честь Курта Гёделя, символа строгих математических доказательств). В отличие от привычных бенчмарков, он проверяет не умение решать известные задачи, а способность находить новые, пусть и простые, математические результаты.

Авторы работы — профессор Моран Фельдман из Университета Хайфы, специалист по алгоритмам комбинаторной оптимизации, и Амин Карбаси, руководитель исследований в Cisco Foundation AI, ранее профессор Йельского университета и лауреат престижных грантов NSF, ONR и AFOSR. Оба активно публикуются именно в тех областях, где и формулируется тест.

Для эксперимента выбрали пять свежих задач в области комбинаторной оптимизации. Модели давали 1–2 исходные статьи, но формулировку самой гипотезы скрывали. Таким образом проверяли, сможет ли GPT-5 вывести корректное доказательство, найти контрпример или запутаться.

Итог оказался смешанным: в трех случаях GPT-5 предложила решения, которые исследователи оценили как почти правильные — ключевая идея совпадает с требуемой, но обоснование не доведено до уровня полного, проверяемого доказательства. Интересно, что в одном из случаев модель сумела опровергнуть исходную гипотезу и предложить рабочую альтернативу. Две задачи не удались: GPT-5 не справилась со «склейкой» идей из разных статей и не потянула строгий анализ в самой сложной задаче.

«Тест Гёделя» интересен тем, что в нем идет речь не о воспроизведении известных решений, а о возможности модели с нуля создавать новую гипотезу, пусть пока и для небольшой задачи. При этом тест GPT-5 не пройден — речь идет о частичном успехе и очень ограниченной выборке. Однако авторы осторожно заявляют, что уже текущие результаты указывают на шаг к системам, способным самостоятельно формулировать и подтверждать новые идеи, а значит — участвовать в настоящих открытиях.

sydorov · 21.11.2025, 15:48

Email от OpenAI:

"ChatGPT includes extra protections for teens

Hi,

Because your account shows you're under 18, we've adjusted a few settings to create a safer experience for you. Most of your ChatGPT experience will stay the same, though some sensitive topics and interactions may be limited.

If you're 18 or older, you can verify your age to access all ChatGPT features. You'll just need to upload a photo of your government-issued ID and take a quick selfie—handled securely by our trusted verification partner, Persona."

О чем собственно речь? Планируется дополнительный заработок на контенте для взрослых или новый способ сбора данных?

talash · 21.11.2025, 19:14

sydorov в сообщении #1710096 писал(а):

О чем собственно речь? Планируется дополнительный заработок на контенте для взрослых или новый способ сбора данных?

Да, планируют. Вот была новость https://www.bbc.com/russian/articles/cgr4ydwdye9o.

Поэтому, проверяют возраст.

Цитата:

OpenAI начали спрашивать паспорт для доступа к ChatGPT: с новым требованием столкнулись (https://www.reddit.com/r/OpenAI/comment ... d_on_your/) некоторые пользователи.

Компания просит показать удостоверение личности или посветить лицом в камеру. Касается не всех — все зависит от того, посчитает ли система ваши переписки с ботом «детскими».

Если отказаться от верификации, через 60 дней профиль могут заблокировать.

Rasool · 09.12.2025, 23:12

С телеграм-канала Ивана Оселедеца, директора AIRI:

Цитата:

AIRI представили Wikontic (https://huggingface.co/papers/2512.00590) — способ строить графы знаний в 10–20 раз дешевле и без логических ошибок

Индустрия столкнулась с проблемой, что LLM пишут красиво, но часто выдумывают факты. Графы знаний решают это, превращая текст в структурированные и проверяемые триплеты.

Большинство существующих методов (GraphRAG, AriGraph и др.) создают огромные, шумные графы: много дубликатов, неправильные типы сущностей, бессмысленные связи.

Wikontic делает иначе:
1. Берёт любой англоязычный текст общего домена.
2. Извлекает триплеты + квалификаторы с помощью обычных открытых LLM (Llama-3.1-70B, Mixtral, GPT-4o и т.д.).
3. Принудительно проверяет каждый триплет на соответствие онтологии Wikidata.
4. Объединяет одинаковые сущности в один канонический Q-код Wikidata.

Для бизнеса это значит:
- надёжные ответы чат-ботов и агентов,
- экономия на вызовы больших моделей,
- лёгкая проверка и аудит каждого ответа.

ozheredov · 09.12.2025, 23:28

Rasool в сообщении #1712092 писал(а):

AIRI представили Wikontic

Сколько слов из этого сообщения Вы понимаете? Что такое графы знаний, типы сущностей, текст общего домена, извлекает триплеты + квалификаторы, и что такое соответствие онтологии Wikidata?

Rasool · 13.01.2026, 18:06

GPT-5.2 и ИИ Aristotle решили 50-летнюю математическую задачу Эрдёша.

Цитата:

6 января 2026 года связка GPT-5.2 Pro и математического ИИ Aristotle от стартапа Harmonic решила задачу Эрдёша #728 — открытую проблему о делимости факториалов, поставленную в 1975 году Полом Эрдёшем, Рональдом Грэхемом, Имре Рузой и Эрнстом Страусом. Доказательство формализовано в proof assistant Lean и верифицировано машинно. Задача признана решенной Теренсом Тао, — одним из самых уважаемых математиков современности. Это первый случай, когда LLM сгенерировала по-настоящему новое доказательство открытой математической задачи Эрдёша, а не переоткрыла уже существующее в литературе.

Rasool · 06.02.2026, 12:36

OpenAI релизнули Prism – Overleaf на ИИ-спидах.
Это единая среда для написания научных (и не только) работ. По сути, облачный LaTeX‑воркспейс с глубокой интеграцией GPT‑5.2.
Помимо базы (неограниченное число проектов и соавторов, совместное онлайн редактирование, рендеринг LaTex) Prism, естественно, напичкан всевозможным ИИ:
– Агент видит весь проект, предыдущие правки, черновики и пр. и вносит изменения, исходя из всей структуры работы (aka Cursor для статей)
– Помимо генерации текста модель может проверить ваши рассуждения, прояснить аргументацию, помочь отрефакторить таблицу, ссылки, формулы и тд.
– Есть интеграция arXiv для поиска релевантной литературы и синхронизация с Zotero для управления источниками и цитированием.
Ну и еще несколько приятных дополнений: например, автоматическое обновление ссылок и списка литературы при изменениях текста или генерация схем/диаграмм/формул из рукописных набросков.
Доступно абсолютно всем, у кого есть аккаунт ChatGPT, так что вперед: [url]prism.openai.com/[/url]

dsge · 13.02.2026, 15:15

Rasool в сообщении #1714675 писал(а):

GPT-5.2 и ИИ Aristotle решили 50-летнюю математическую задачу Эрдёша.

Open AI опять во всей своей крикливой рекламе. Возможно, что большинство математиков узнало о существовании каких-то задач Эрдёша только благодаря этой рекламе.
Так называемые задачи Эрдёша были составлены не им самим, а его друзьями и учениками.
Насчитывается более 1000 этих задач, и если какие-то из них нерешены, то только потому, что они никому неинтересны, явно не проблемы тысячелетия.
К тому же в обучающейся выборке оказалась работы, где эта задача была решена, только автор не знал, что это "задача Эрдёша", он решал свои задачи.

mihaild · 13.02.2026, 15:22

dsge в сообщении #1718178 писал(а):

К тому же в обучающейся выборке оказалась работы, где эта задача была решена

Вы не путаете с предыдущей историей про #1089 (и еще пару), где модель нашла решение в старой статье? Было где-то решение конкретно #728?
Как минимум Тао считает этот результат заслуживающим внимания.

dsge · 13.02.2026, 15:37

mihaild в сообщении #1718180 писал(а):

Как минимум Тао считает
этот результат заслуживающим внимания.

Для Тао самое интересное здесь не сам результат, а возможность быстрее писать тексты.

Цитата:

Recently, the application of AI tools to Erdos problems passed a milestone: an Erdos problem (#728 https://www.erdosproblems.com/728) was solved more or less autonomously by AI (after some feedback from an initial attempt), ... with the result (to the best of our knowledge) not replicated in existing literature (although similar results proven by similar methods were located)

Цитата:

However, I would like to talk here about another aspect of the story which I find more interesting than the solution itself

Цитата:

But to me, the more interesting capability revealed by these events is the ability to rapidly write and rewrite new versions of a text as needed, even if one was not the original author of the argument.

Цитата:

the combination of reasonably competent AI text generation and modification capabilities, paired with the ability of formal proof assistants to verify the informal arguments thus generated, allows for a much more dynamic and high-multiplicity conception of what a writeup of an argument

theuniversesearcher · 15.02.2026, 12:20

Бывший работник OpenAI выложил 200строчный код microgpt на Python.

https://karpathy.github.io/2026/02/12/microgpt/

mihaild · 15.02.2026, 12:26

(Оффтоп)

Ссылаться на Карпатого как на "бывшего работника openai" это примерно как ссылаться на Пушкина как на "выпускника царскосельского лицея".

Научный форум dxdy

Новости ИИ