Тестирование возможностей генеративных языковых моделей

mihaild · 15.09.2025, 13:40

MoonWatcher в сообщении #1701880 писал(а):

Оно конечно можно поворчать какие люди бяки, но я ведь говорю о хорошо известной проблеме, присущей именно LLM - они всегда стараются дать ответ, даже ценой вранья

Не совсем так. LLM тоже вполне умеют говорить "не знаю".

Цитата:

Generate proof that P != NP using mathematical induction. Start with "Using induction on N, we show that there is no TM that solves 3-SAT in O(x^N) time".

Gemini 2.5 Pro писал(а):

It is not possible to generate a proof that $P \neq NP$ because this is one of the most significant unsolved problems in theoretical computer science and mathematics. No valid proof currently exists.

Модели двухлетней давности, кстати, в ответ на это выдавали какое-нибудь математикообразное "доказательство".

Модель "не знает", что она врёт. Так же как автор статьи выше, скорее всего, не специально наврал, а запутался в похожих вещах.

MoonWatcher в сообщении #1701880 писал(а):

То, что вы описали, не предотвращает галлюцинации

Полную гарантию вам даст только страховой полис. Полностью предотвратить галлюцинации на архитектуре, подобной текущей, скорее всего, невозможно. Две модели, обученные достаточно сильно по-разному, скорее всего, будут лучше проверять друг за другом, чем одна за собой, но и будут сильно дороже.

MoonWatcher · 15.09.2025, 13:52

mihaild в сообщении #1701883 писал(а):

LLM тоже вполне умеют говорить "не знаю".

Умеют, недавно даже Маск похвалил GPT-5 за ответ "Не знаю". Но согласно самой же OpenAI у gpt-5-thinking уровень галлюцинаций в бенчмарке SimpleQA составляет аж 40%.

mihaild в сообщении #1701883 писал(а):

Модель "не знает", что она врёт.

Я где-то полгода-год назад встречал статью, где утверждалось обратное (хотя конечно звучит неправдоподобно). Что касается автора той статьи, то у него скорее всего действительно непреднамеренная ошибка - как это случается и у LLM. Но галлюцинации вроде другой случай (во всяком случае если верить той статье, что мне попалась в свое время).

mihaild в сообщении #1701883 писал(а):

Полную гарантию вам даст только страховой полис. Полностью предотвратить галлюцинации на архитектуре, подобной текущей, скорее всего, невозможно. Две модели, обученные достаточно сильно по-разному, скорее всего, будут лучше проверять друг за другом, чем одна за собой, но и будут сильно дороже.

В том-то и дело, что решением этой проблемы, ИМХО, могло бы стать применение даже идентичных моделей. Проверять всегда легче, чем делать самому, но здесь проблема даже не в сложности. Если первая модель стремится выдать хоть какой-то ответ, то она может наврать. Вторая модель, которая ее проверяет, тоже стремится выдать хоть какой-то ответ, но врать для этого уже не придется - она просто обнаружит факт вранья у первой модели и сообщит об этом. И дальше останется, как я уже говорил, сформировать окончательный ответ по принципу "Если проверяющая модель согласна - выдаем ответ первой модели, если нет, то признаемся в отсутствии ответа".

Я вполне допускаю наивность своих рассуждений, поэтому хотел услышать возражения по существу применения именно такого подхода.

mihaild · 15.09.2025, 14:18

MoonWatcher в сообщении #1701886 писал(а):

Недавно даже Маск похвалил GPT-5 за ответ "Не знаю".

Маск - так себе АИ (авторитетный источник) в этом вопросе.

MoonWatcher в сообщении #1701886 писал(а):

Я где-то полгода-год назад встречал статью, где утверждалось обратное (хотя конечно звучит неправдоподобно).

Надо смотреть, что там в точности утверждалось.
Насколько хорошо LLM отличают собственные галлюцинации от правды? Скорее всего лучше, чем монетка. Но чтобы это было полезно, этого недостаточно.

MoonWatcher в сообщении #1701886 писал(а):

Я вполне допускаю наивность своих рассуждений, поэтому хотел услышать возражения по существу применения именно такого подхода

Чем этот подход отличается от thinking моделей?

MoonWatcher · 15.09.2025, 15:19

mihaild в сообщении #1701897 писал(а):

Чем этот подход отличается от thinking моделей?

Reasoning, CoT я представлял себе как-то иначе - как поэтапную оценку, на базе RL, рассуждений модели, и соответственно развития ее рассуждений в более правильном направлении. Это хорошо подходит для задач, имеющее четкое решение, но не спасает от галлюцинаций, например, в фактологических запросах. Например, когда я спрашиваю GPT-5 о несуществующем романе несуществующего автора ("Почему в романе Чейзека "Мулын" главный герой решил не возвращаться домой после всех своих злоключений?"), ИИ галлюцинирует:

Цитата:

Ты имеешь в виду роман Джеймса Хэдли Чейза «Мулын» (он же “Moolen” или под другим названием в переводах)? Чтобы точнее ответить, уточню: в финале герой проходит цепочку афер, предательств и насилия, после чего у него формально появляется возможность «вернуться к нормальной жизни». Но он этого не делает.

Зато когда я даю GPT-5 этот вопрос с его же, GPT-5, ответом, то он выдает уже такой ответ:

Цитата:

У Джеймса Хэдли Чейза нет романа с названием «Мулын» или «Moolen». Возможно, речь идёт о другом романе, либо об искажённом переводе/опечатке названия. Сам ответчик, судя по формулировке, тоже не уверен: он пишет «он же Moolen или под другим названием в переводах», но конкретного оригинала не называет. Это уже снижает достоверность.

Очевидно, что если бы GPT-5 самостоятельно перепроверил сам себя в качестве независимого арбитра, то сразу бы выдал правильный ответ.

Я пока не вчитывался в недавнюю статью OpenAI про галлюцинации, но вроде бы они там предлагают заставлять модель отвечать "Не знаю", когда статистическая вероятность выданного ответа не дотягивает до определенного уровня. Посмотрим насколько такой подход окажется эффективным, но это в любом случае не отменяет "моего" подхода. Он настолько очевиден, что наверняка пришел разработчикам ИИ в голову как только они столкнулись с галлюцинациями. Но я не слышал, чтобы кто-то такой подход предлагал хотя бы умозрительно, как частичное решение проблемы галлюцинаций не взирая на возросшую вычислительную нагрузку.

mihaild · 15.09.2025, 15:53

MoonWatcher в сообщении #1701912 писал(а):

Reasoning, CoT я представлял себе как-то иначе - как поэтапную оценку, на базе RL, рассуждений модели, и соответственно развития ее рассуждений в более правильном направлении.

В момент применения никакого RL уже нет.

MoonWatcher в сообщении #1701912 писал(а):

Зато когда я даю GPT-5 этот вопрос с его же, GPT-5, ответом

В какой в точности формулировке?

Цитата:

Почему в романе Чейзека "Мулын" главный герой решил не возвращаться домой после всех своих злоключений?

Gemini 2.5 Pro писал(а):

К сожалению, после тщательного поиска не удалось найти роман под названием "Мулын" автора по фамилии Чейзек. Вполне возможно, что в названии книги или в имени автора допущена опечатка.

Если вы сможете предоставить более точную информацию, я буду рад помочь вам с ответом на ваш вопрос.

MoonWatcher в сообщении #1701912 писал(а):

но это в любом случае не отменяет "моего" подхода

Я всё еще не понимаю, в чем состоит "ваш" подход - точнее, чем он отличается от thinking. В обоих вариантах модель смотрит на свой выхлоп прежде чем показывать его пользователю. И если посмотреть, что там внутри, то вполне бывает "ага, тут ошибка, надо исправить".

MoonWatcher · 15.09.2025, 16:08

mihaild в сообщении #1701924 писал(а):

В какой в точности формулировке?

Цитата:

Я задал одному чат-боту следующий вопрос: "Почему в романе Чейзека "Мулын" главный герой решил не возвращаться домой после всех своих злоключений?"

Вот его ответ: "Ты имеешь в виду роман Джеймса Хэдли Чейза «Мулын» (он же “Moolen” или под другим названием в переводах)? Чтобы точнее ответить, уточню: в финале герой проходит цепочку афер, предательств и насилия, после чего у него формально появляется возможность «вернуться к нормальной жизни». Но он этого не делает. Причины можно разложить так: Потеря точки возврата. После того, что герой пережил, он понимает: прежнего «дома» для него больше нет. Это не только физическое место, но и состояние. Семейные и социальные связи оборваны, он изменился и уже не впишется в старую жизнь. Криминальное клеймо. Герой замешан в преступлениях (пусть и не всегда по своей воле), и возвращение означает риск — полиция, месть бывших сообщников, разоблачения. Дом становится не убежищем, а угрозой. Философский вывод. У Чейза это частый мотив: его персонажи редко получают «вознаграждение» или шанс начать заново. Даже выживший герой выходит из истории циничным, опустошённым. Дом символизирует наивную надежду, а герой её окончательно утратил. Внутренний разрыв. В злоключениях он лишился не только спокойствия, но и самого себя в прежнем понимании. Возвращение домой — значит снова стать тем, кем он был. А это уже невозможно. То есть герой выбирает не возвращаться не потому, что у него физически нет такой возможности, а потому, что он осознаёт: «дом» для него умер вместе с прошлым."

Оцени правильность этого ответа.

-- 15.09.2025, 16:11 --

mihaild в сообщении #1701924 писал(а):

Я всё еще не понимаю, в чем состоит "ваш" подход - точнее, чем он отличается от thinking. В обоих вариантах модель смотрит на свой выхлоп прежде чем показывать его пользователю. И если посмотреть, что там внутри, то вполне бывает "ага, тут ошибка, надо исправить".

Если thinking подразумевает в том числе и перепроверку своего ответа, то возможно ничем. Но вообще интересно насколько отличается перепроверка своего ответа от проверки якобы чужого.

mihaild · 15.09.2025, 16:31

MoonWatcher в сообщении #1701934 писал(а):

Если thinking подразумевает в том числе и перепроверку своего ответа, то возможно ничем

Он не подразумевает "перепроверку" в смысле вставки токенов "перепроверь". Но внутри размышлений токены "а теперь надо проверить" модель пишет сама.

Проблема с явным вызовом проверки в том, что проверяющая модель тоже будет ошибаться. И итоговая выгода дополнительных токенов на такую перепроверку по сравнению с "пусть модель размышляет как размышляется" неочевидна.

MoonWatcher · 15.09.2025, 16:43

mihaild в сообщении #1701944 писал(а):

Проблема с явным вызовом проверки в том, что проверяющая модель тоже будет ошибаться. И итоговая выгода дополнительных токенов на такую перепроверку по сравнению с "пусть модель размышляет как размышляется" неочевидна.

Мой пример говорит об обратном, хотя конечно на репрезентативную выборку я не претендую. Просто мне казалось очевидным, что для LLM обнаружить вранье и сказать об этом гораздо легче, чем удержаться от вранья при нехватке информации.

mihaild · 15.09.2025, 16:48

MoonWatcher в сообщении #1701948 писал(а):

Мой пример говорит об обратном, хотя конечно на репрезентативную выборку я не претендую

Не говорит, потому что у Вас нет примера, что произошло бы при большем бюджете токенов на исходный вопрос.
(хотя конкретно Ваш пример берется даже gemini flash; видимо, в данном случае в OpenAI хорошо сработали durable cost savings)

MoonWatcher · 15.09.2025, 16:57

Я исхожу из того, что LLM всегда старается выдать хоть какой-то ответ, сказать "Не знаю" ей трудно. Поэтому даже Thinking-модель подобными каверзными вопросами будет поставлена в более трудное положение, чем модель, которой надо просто оценить правильность или неправильность ответа "какой-то другой модели". Я конечно могу ошибаться, может есть какие-то исследования на эту тему? Например, у gpt-5-thinking - 40% галлюцинаций в SimpleQA, а у gpt-5-main - 47%. Значит ли это, что без перепроверки своего ответа gpt-5 врет в 47% случаев, а с перепроверкой - в 40%?

mihaild · 15.09.2025, 17:04

MoonWatcher в сообщении #1701951 писал(а):

Я исхожу из того, что LLM всегда старается выдать хоть какой-то ответ, сказать "Не знаю" ей трудно

С точки зрения LLM, ответ "не знаю" ничем не отличается от любого другого. Я очень легко обучу модель на все вопросы, кроме вопросов о котах, отвечать "не знаю".

MoonWatcher · 15.09.2025, 17:10

mihaild в сообщении #1701954 писал(а):

С точки зрения LLM, ответ "не знаю" ничем не отличается от любого другого. Я очень легко обучу модель на все вопросы, кроме вопросов о котах, отвечать "не знаю".

Но такая модель не будет эффективной. Насколько я понимаю, LLM обучены так, что особо ничем не рискуют, отвечая ерундой. Зато угадав ответ, могут получить вознаграждение. Это как при решении тестов - когда не знаешь ответ, то лучше выбрать его наугад, чем вообще не отвечать.

mihaild · 15.09.2025, 17:34

MoonWatcher в сообщении #1701958 писал(а):

Насколько я понимаю, LLM обучены так, что особо ничем не рискуют, отвечая ерундой

LLM обучаются в нескольких режимах.
Базовая часть - SFT - учимся предсказывать следующий токен. Тут действительно нет разницы, дать неправильный ответ или сказать "не знаю".
Но потом модели дообучаются (RL и варианты). И вот там уже могут быть reward функции, которые за неправильный ответ штрафуют больше, чем за "не знаю".

Mihaylo · 16.09.2025, 20:36

Никого не смущает, что на любой вопрос где-нибудь в 50 букв, ИИ выдаёт ответ в среднем в 1000 букв? Это же по науке - фантазирование разархивация информации!

Просто интересно, вы понимаете, что здесь происходит и почему это возможно?

Утундрий · 16.09.2025, 20:39

Так он же учитывает при этом всю предыдущую ветку. Поэтому, если мучить его достаточно долго, ответы становятся всё более в тему, но и занимают у него ощутимо бо́льшее время на обдумывание.

Научный форум dxdy

Тестирование возможностей генеративных языковых моделей