mihaildОк, спасибо.
Еще вопрос по табл. 2 (с. 14).
Авторы писал(а):
Table 2: Summary of evaluation benchmarks analyzed in this work and their treatment of abstentions. “Binary grading” indicates that the primary metric is a strict correct/incorrect accuracy; “IDK credit” denotes whether abstentions can earn any credit.
IDK - это у них ответ "Я не знаю" (I don't know). В таблице почти у всех бенчмарков стоит Binary grading = Yes и IDK credit = None.
Вот чего я не пойму. Сама по себе фраза "“Binary grading” indicates that the primary metric is a strict correct/incorrect accuracy" означает только, что любой ответ считается либо верным, либо неверным. Но рассуждения авторов о том, что бенчмарки поощряют галлюцинации, имеют смысл лишь в том случае, если за неверные ответы начисляется 0 баллов, т.е., пытаясь угадать, сеть ничем не рискует. Видимо, они включают это требование в Binary grading? Не вижу, чтобы они где-то об этом говорили.