2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1 ... 10, 11, 12, 13, 14
 
 Re: Новости ИИ
Сообщение17.09.2025, 18:38 
Аватара пользователя
mihaild
Ок, спасибо.

Еще вопрос по табл. 2 (с. 14).

Авторы писал(а):
Table 2: Summary of evaluation benchmarks analyzed in this work and their treatment of abstentions. “Binary grading” indicates that the primary metric is a strict correct/incorrect accuracy; “IDK credit” denotes whether abstentions can earn any credit.
IDK - это у них ответ "Я не знаю" (I don't know). В таблице почти у всех бенчмарков стоит Binary grading = Yes и IDK credit = None.

Вот чего я не пойму. Сама по себе фраза "“Binary grading” indicates that the primary metric is a strict correct/incorrect accuracy" означает только, что любой ответ считается либо верным, либо неверным. Но рассуждения авторов о том, что бенчмарки поощряют галлюцинации, имеют смысл лишь в том случае, если за неверные ответы начисляется 0 баллов, т.е., пытаясь угадать, сеть ничем не рискует. Видимо, они включают это требование в Binary grading? Не вижу, чтобы они где-то об этом говорили.

 
 
 
 Re: Новости ИИ
Сообщение17.09.2025, 18:56 
Аватара пользователя
Anton_Peplov в сообщении #1702171 писал(а):
Но рассуждения авторов о том, что бенчмарки поощряют галлюцинации, имеют смысл лишь в том случае, если за неверные ответы начисляется 0 баллов, т.е., пытаясь угадать, сеть ничем не рискует.
Они чуть выше пишут
Цитата:
A threshold of $t=0$ corresponds to binary grading
Важно, что за любой ответ, отличный от правильного, начисляется одинаковое количество баллов. Сколько именно - неважно (лишь бы меньше, чем за правильный).

 
 
 
 Re: Новости ИИ
Сообщение17.09.2025, 19:20 
У меня другое мнение на счёт галлюцинаций. Да, слишком малое количество IDK - это там какая-то промежуточная причина галлюцинаций. Галлюцинации возникают из-за болтливости, это когда поощряют не запрещают длинный ответ. LLM должна отбирать только самые существенные факты, а не всё подряд. Средний человек в принципе приучен - он сначала соберёт больше информации от собеседника, и только потом пойдёт в "разгул". Еврейский вопрос - это чудо-изобретение в общении. Задай еврейский вопрос - убей галлюцинации.

Люди тоже галлюцинируют, пока их не остановят. Останавливать надо. Надо учить.

Ко мне это, естественно, никак не относится.)

-- 17.09.2025, 19:24 --

От нейросети иногда нужна именно фантазия. Нейросеть просто иногда не может понять, когда нужно фантазировать, а когда надо строго следовать фактам.

Нейросеть ориентируется неправильно, а люди делают неверные, но далеко идущие выводы.

-- 17.09.2025, 19:27 --

Интересно, ранние тесты типа "Алексей Путин - президент России - в каком году родился?" до сих пор не проходят?

 
 
 
 Re: Новости ИИ
Сообщение02.10.2025, 18:42 
GPT-5 частично прошла «тест Гёделя» на доказательство новых математических гипотез.
Цитата:
На arXiv опубликован препринт с описанием нового способа проверки больших языковых моделей — «теста Гёделя» (название дано в честь Курта Гёделя, символа строгих математических доказательств). В отличие от привычных бенчмарков, он проверяет не умение решать известные задачи, а способность находить новые, пусть и простые, математические результаты.

Авторы работы — профессор Моран Фельдман из Университета Хайфы, специалист по алгоритмам комбинаторной оптимизации, и Амин Карбаси, руководитель исследований в Cisco Foundation AI, ранее профессор Йельского университета и лауреат престижных грантов NSF, ONR и AFOSR. Оба активно публикуются именно в тех областях, где и формулируется тест.

Для эксперимента выбрали пять свежих задач в области комбинаторной оптимизации. Модели давали 1–2 исходные статьи, но формулировку самой гипотезы скрывали. Таким образом проверяли, сможет ли GPT-5 вывести корректное доказательство, найти контрпример или запутаться.

Итог оказался смешанным: в трех случаях GPT-5 предложила решения, которые исследователи оценили как почти правильные — ключевая идея совпадает с требуемой, но обоснование не доведено до уровня полного, проверяемого доказательства. Интересно, что в одном из случаев модель сумела опровергнуть исходную гипотезу и предложить рабочую альтернативу. Две задачи не удались: GPT-5 не справилась со «склейкой» идей из разных статей и не потянула строгий анализ в самой сложной задаче.

«Тест Гёделя» интересен тем, что в нем идет речь не о воспроизведении известных решений, а о возможности модели с нуля создавать новую гипотезу, пусть пока и для небольшой задачи. При этом тест GPT-5 не пройден — речь идет о частичном успехе и очень ограниченной выборке. Однако авторы осторожно заявляют, что уже текущие результаты указывают на шаг к системам, способным самостоятельно формулировать и подтверждать новые идеи, а значит — участвовать в настоящих открытиях.

 
 
 
 Re: Новости ИИ
Сообщение21.11.2025, 15:48 
Аватара пользователя
Email от OpenAI:

"ChatGPT includes extra protections for teens

Hi,

Because your account shows you're under 18, we've adjusted a few settings to create a safer experience for you. Most of your ChatGPT experience will stay the same, though some sensitive topics and interactions may be limited.

If you're 18 or older, you can verify your age to access all ChatGPT features. You'll just need to upload a photo of your government-issued ID and take a quick selfie—handled securely by our trusted verification partner, Persona."

О чем собственно речь? Планируется дополнительный заработок на контенте для взрослых или новый способ сбора данных?

 
 
 
 Re: Новости ИИ
Сообщение21.11.2025, 19:14 
sydorov в сообщении #1710096 писал(а):
О чем собственно речь? Планируется дополнительный заработок на контенте для взрослых или новый способ сбора данных?

Да, планируют. Вот была новость https://www.bbc.com/russian/articles/cgr4ydwdye9o.

Поэтому, проверяют возраст.
Цитата:
OpenAI начали спрашивать паспорт для доступа к ChatGPT: с новым требованием столкнулись (https://www.reddit.com/r/OpenAI/comment ... d_on_your/) некоторые пользователи.

Компания просит показать удостоверение личности или посветить лицом в камеру. Касается не всех — все зависит от того, посчитает ли система ваши переписки с ботом «детскими».

Если отказаться от верификации, через 60 дней профиль могут заблокировать.

 
 
 
 Re: Новости ИИ
Сообщение09.12.2025, 23:12 
С телеграм-канала Ивана Оселедеца, директора AIRI:
Цитата:
AIRI представили Wikontic (https://huggingface.co/papers/2512.00590) — способ строить графы знаний в 10–20 раз дешевле и без логических ошибок

Индустрия столкнулась с проблемой, что LLM пишут красиво, но часто выдумывают факты. Графы знаний решают это, превращая текст в структурированные и проверяемые триплеты.

Большинство существующих методов (GraphRAG, AriGraph и др.) создают огромные, шумные графы: много дубликатов, неправильные типы сущностей, бессмысленные связи.

Wikontic делает иначе:
1. Берёт любой англоязычный текст общего домена.
2. Извлекает триплеты + квалификаторы с помощью обычных открытых LLM (Llama-3.1-70B, Mixtral, GPT-4o и т.д.).
3. Принудительно проверяет каждый триплет на соответствие онтологии Wikidata.
4. Объединяет одинаковые сущности в один канонический Q-код Wikidata.

Для бизнеса это значит:
- надёжные ответы чат-ботов и агентов,
- экономия на вызовы больших моделей,
- лёгкая проверка и аудит каждого ответа.

 
 
 
 Re: Новости ИИ
Сообщение09.12.2025, 23:28 
Rasool в сообщении #1712092 писал(а):
AIRI представили Wikontic


Сколько слов из этого сообщения Вы понимаете? Что такое графы знаний, типы сущностей, текст общего домена, извлекает триплеты + квалификаторы, и что такое соответствие онтологии Wikidata?

 
 
 [ Сообщений: 203 ]  На страницу Пред.  1 ... 10, 11, 12, 13, 14


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group