2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1 ... 10, 11, 12, 13, 14
 
 Re: Новости ИИ
Сообщение17.09.2025, 18:38 
Аватара пользователя
mihaild
Ок, спасибо.

Еще вопрос по табл. 2 (с. 14).

Авторы писал(а):
Table 2: Summary of evaluation benchmarks analyzed in this work and their treatment of abstentions. “Binary grading” indicates that the primary metric is a strict correct/incorrect accuracy; “IDK credit” denotes whether abstentions can earn any credit.
IDK - это у них ответ "Я не знаю" (I don't know). В таблице почти у всех бенчмарков стоит Binary grading = Yes и IDK credit = None.

Вот чего я не пойму. Сама по себе фраза "“Binary grading” indicates that the primary metric is a strict correct/incorrect accuracy" означает только, что любой ответ считается либо верным, либо неверным. Но рассуждения авторов о том, что бенчмарки поощряют галлюцинации, имеют смысл лишь в том случае, если за неверные ответы начисляется 0 баллов, т.е., пытаясь угадать, сеть ничем не рискует. Видимо, они включают это требование в Binary grading? Не вижу, чтобы они где-то об этом говорили.

 
 
 
 Re: Новости ИИ
Сообщение17.09.2025, 18:56 
Аватара пользователя
Anton_Peplov в сообщении #1702171 писал(а):
Но рассуждения авторов о том, что бенчмарки поощряют галлюцинации, имеют смысл лишь в том случае, если за неверные ответы начисляется 0 баллов, т.е., пытаясь угадать, сеть ничем не рискует.
Они чуть выше пишут
Цитата:
A threshold of $t=0$ corresponds to binary grading
Важно, что за любой ответ, отличный от правильного, начисляется одинаковое количество баллов. Сколько именно - неважно (лишь бы меньше, чем за правильный).

 
 
 
 Re: Новости ИИ
Сообщение17.09.2025, 19:20 
У меня другое мнение на счёт галлюцинаций. Да, слишком малое количество IDK - это там какая-то промежуточная причина галлюцинаций. Галлюцинации возникают из-за болтливости, это когда поощряют не запрещают длинный ответ. LLM должна отбирать только самые существенные факты, а не всё подряд. Средний человек в принципе приучен - он сначала соберёт больше информации от собеседника, и только потом пойдёт в "разгул". Еврейский вопрос - это чудо-изобретение в общении. Задай еврейский вопрос - убей галлюцинации.

Люди тоже галлюцинируют, пока их не остановят. Останавливать надо. Надо учить.

Ко мне это, естественно, никак не относится.)

-- 17.09.2025, 19:24 --

От нейросети иногда нужна именно фантазия. Нейросеть просто иногда не может понять, когда нужно фантазировать, а когда надо строго следовать фактам.

Нейросеть ориентируется неправильно, а люди делают неверные, но далеко идущие выводы.

-- 17.09.2025, 19:27 --

Интересно, ранние тесты типа "Алексей Путин - президент России - в каком году родился?" до сих пор не проходят?

 
 
 [ Сообщений: 198 ]  На страницу Пред.  1 ... 10, 11, 12, 13, 14


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group