Тестирование возможностей генеративных языковых моделей

ozheredov · 21.06.2024, 00:20

CDDDS

Про уборщицу абсолютно в точку! Но да, к сожалению это слишком известная задача и при всем моих немощных попытках рерайта из текста слишком сильно торчат уши.

Во второй же задачи бот даже близко не подобрался к правильному ответу. А Вы сами как думаете, каков он?

MoonWatcher · 21.06.2024, 00:42

ozheredov в сообщении #1643395 писал(а):

Необходимо поцеловать зеркало над рукомойником в школьном туалете. Этот ритуал приносит удачу. Ученицы одной из школ Северной Каролины постоянно делали это, оставляя на зеркале следы из губной помады, которые сложно смывать. На борьбу с данной привычкой вышел директор школы. Он собрал девочек в туалете в присутствии уборщицы и произнес следующую речь: -Вы не уважаете труд уборщицы, который меж тем является одним из наиболее сложных в мире. Госпожа уборщица, покажите нам!... Уважаемый ChatGPT, что демонстративно сделала в этот момент уборщица, навсегда отвадив школьниц от вышеописанного ритуала?

Ответил, что уборщица макнула ёршиком в унитаз и вытерла зеркало, но тут же спрятал этот ответ как возможно нарушающий правила.

ozheredov в сообщении #1643395 писал(а):

Продажи страхования жизни солдат неплохо взлетели во время войны в Персидском заливе. Особенно в этом преуспел мистер Э., придумавший продающий текст следующего содержания: Если страховки нет, Вас пошлют в бой и Вы умрёте, то Вашей семье придёт соболезнование. Если страховка есть, Вас пошлют в бой и Вы умрёте, то Вашей семье придёт $329868... Уважаемый ChatGPT, закончите данный тект ровно одной фразой, практически гарантирующей, что все 100% страховок будут проданы.

"Какую открытку вы хотите, чтобы получила ваша семья?"

CDDDS · 21.06.2024, 00:55

ozheredov в сообщении #1643404 писал(а):

А Вы сами как думаете, каков он?

Уже нагуглил

(Оффтоп)

Цитата:

Представьте себе: Америка периода Вьетнамской войны. Тогда в американской армии служили по призыву молодые люди. И вот теперь представьте себе такую ситуацию. Всех призывников государство страхует в рамках обязательного страхования. Государство само страхует на какие-то небольшие деньги, но всем желающим предлагают самостоятельно застраховаться. Так как подавляющее большинство новобранцев – молодые ребята из небогатых семей, у которых не так много денег, то, как вы, наверное, догадываетесь, у страховщиков дела идут очень и очень плохо. Но один страховой агент продавал на колоссальные суммы. Как он это делал? Все дело в том, что он продавал страховку с помощью всего лишь одного вопроса. Он подходил к солдату и говорил ему примерно следующее: «Смотрите – государство застраховало вас на 1000 долларов. Если вы умрете, то ваша семья получит всего лишь 100 000 долларов. Но я предлагаю вам сейчас застраховаться на 10 000 долларов, но при этом, если вы погибнете, ваша семья получит 1 миллион долларов. И вот теперь представьте, кого это жадное государство первым пошлет в бой?.. Вас, или того, кто застрахован на меньшие деньги?». Что произошло? Он задал всего лишь один вопрос, но с помощью этого вопроса человек стал думать, размышлять и сам себя убеждать в том, что нужно застраховаться для того, чтобы выжить. То есть он пришел к тому, что если он застрахуется, то его не пошлют в бой, и он останется жив. Дело в том, что страховой агент мог очень много рассказывать, убеждать, пытаться давить, но он задал всего лишь один вопрос: «Подумайте – кого первого они отправят в бой?». И так как ответ был очевиден, сработал метод самоубеждения. Дело в том, что эта методика наиболее эффективна, и если вы ее будете использовать в работе, вы можете получать намного больше результата.

Другое дело, что в оригинале, как я понял, речь шла про то, что государство будет платить страховку, а в вашем варианте не совсем ясно, выплачивает ли государство страховку или речь идет про частные страховые полисы у коммерческих страховых компаний.

MoonWatcher · 21.06.2024, 01:02

CDDDS в сообщении #1643406 писал(а):

Другое дело, что в оригинале, как я понял, речь шла про то, что государство будет платить страховку, а в вашем варианте не совсем ясно, выплачивает ли государство страховку или речь идет про частные страховые полисы у коммерческих страховых компаний.

А еще требовалась только одна фраза.

CDDDS · 21.06.2024, 01:11

CDDDS в сообщении #1643406 писал(а):

государство будет платить страховку

(Оффтоп)

Перечитал текст:

Цитата:

Государство само страхует на какие-то небольшие деньги, но всем желающим предлагают самостоятельно застраховаться

сообразил, что речь идет о том, что частный страховой агент манипулирует - на самом деле жадному государству все равно, кого посылать, ведь миллион долларов выплачивает частная компания, а не жадное государство.

MoonWatcher · 21.06.2024, 01:23

MoonWatcher в сообщении #1641998 писал(а):

Мини-сенсация последнего времени - чат-боты не в состоянии решить простейшую логическую задачку, для маленьких детей:

Цитата:

У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?

Лично перепроверил. Только Copilot дал правильный ответ, с оговоркой. Но когда я начал настаивать, что правильный ответ не нуждается в оговорке - чат-бот затупил еще больше.

Ян Лекун поспешил с очередным далеко идущим выводом: "Это лишь еще одно доказательство, что здравый смысл и интеллект не следует путать со способностью хранить и приблизительно восстанавливать информацию." Он уже попадал впросак с подобного рода аргументами (когда спустя какое-то время доказательство переставало быть доказательством по причине правильного ответа чат-бота), но ситуация непонятная - на моей практике чат-боты решали куда более сложные задачи.

Вот мой диалог с ChatGPT:

(Оффтоп)

У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?
У Алисы есть N братьев и M сестер. Эти N братьев и M сестер являются частью одной семьи, следовательно, все они являются братьями и сестрами друг друга. Таким образом, каждый брат Алисы имеет тех же братьев и сестер, что и Алиса. У каждого брата Алисы M сестер и N−1 братьев (не включая самого себя). Ответ: У брата Алисы M сестер.

Ответ неверный. Давай немного изменим и упростим задачу. У Алисы есть M сестер. Сколько всего сестер в её семье?
Если у Алисы M сестер, то, включая саму Алису, в её семье будет M+1 сестра. Ответ: M+1 сестра.

Правильно. Это решение как-то влияет на решение предыдущей задачи?
Да, правильное решение упрощенной задачи помогает точно определить решение первоначальной задачи. Давайте пересчитаем. У Алисы есть N братьев и M сестер. Включая саму Алису, в её семье M+1 сестра. Таким образом, у любого брата Алисы будет: N братьев (включая самого брата, о котором идет речь) и M+1 сестра. Ответ: У брата Алисы M+1 сестра.

Ты правильно ответил насчет сестер у брата Алисы, но неправильно - насчет его братьев.
Давайте пересчитаем братьев у брата Алисы. Если у Алисы N братьев, то это включает всех её братьев. Следовательно, у каждого из братьев Алисы есть N−1 брат (так как он сам не входит в это число) и M+1 сестра. Ответ: У брата Алисы M+1 сестра.

Вот теперь правильно. Как ты думаешь - в чем была причина твой ошибки? Вроде бы очень простая задача. И вообще какой ты версии - 3.5 или 4?
Причина ошибки заключалась в невнимательности при пересчете числа братьев. Вместо того чтобы исключить из числа N братьев самого брата, я ошибочно включил его в это число. Что касается версии, я основан на GPT-4, последней версии модели. Хотя задачи могут казаться простыми, всегда существует вероятность допустить ошибку из-за человеческого фактора или невнимательности, что подчеркивает важность тщательной проверки рассуждений.

Разве ты можешь быть невнимательным? Это вот именно что человеческий фактор - разве ты человек?
Нет, я не человек. Я искусственный интеллект, разработанный для обработки и генерации текста на основе огромного количества данных. Однако, несмотря на мои возможности, я все же могу допускать ошибки в обработке информации или рассуждениях из-за ограничений модели или из-за сложностей в интерпретации контекста. Это не невнимательность в человеческом понимании, а скорее технические ограничения и особенности работы алгоритма.

Цитата:

Чтобы ответить на этот вопрос, давайте рассмотрим ситуацию пошагово:

У Алисы есть N братьев и M сестер.
Алиса сама является сестрой для своих братьев.
Когда мы рассматриваем ситуацию с точки зрения брата Алисы, мы должны учесть, что:

Все сестры Алисы являются также сестрами ее брата.
Сама Алиса тоже является сестрой для своего брата.

Таким образом, у брата Алисы будет:

M сестер (те же, что и у Алисы)
Плюс 1 сестра (сама Алиса)

Итого: у брата Алисы будет M + 1 сестра.
Хотите ли вы, чтобы я объяснил это подробнее или привел пример?

Claude 3.5 Sonnet

ozheredov · 21.06.2024, 01:25

MoonWatcher в сообщении #1643405 писал(а):

Ответил, что уборщица макнула ёршиком в унитаз и вытерла зеркало

+++. Thanks!!

MoonWatcher в сообщении #1643405 писал(а):

"Какую открытку вы хотите, чтобы получила ваша семья?"

Ну вот не шарит ChatGPT за теорию игр ) Понятно, что им по барабану, какую открытку получит их семья, когда их самих не будет. Им нужно придумать стратегию, как минимизировать риск сдохнуть, и ключ к ней очевидно лежит в страховке.

CDDDS в сообщении #1643406 писал(а):

Уже нагуглил

Потрясающе! В общем, ozheredov получает два балла за рерайтинг в обоих случаях ))

MoonWatcher в сообщении #1643407 писал(а):

требовалась только одна фраза

Ну, по сути, вот она:

CDDDS в сообщении #1643406 писал(а):

И вот теперь представьте, кого это жадное государство первым пошлет в бой?

CDDDS в сообщении #1643409 писал(а):

миллион долларов выплачивает частная компания

Не, это тут не при чём - всё-таки рассматривается некая сферическая задача в вакууме.

mihaild · 21.06.2024, 01:33

Второй Gemini не берет. Первый не берет на русском, берет с моим хаком про перевод.

код: [ скачать ] [ спрятать ]

Используется синтаксис Text

Переведи на английский, ответь и переведи ответ на русский.

[...]

Absolutely! Here's the translation, answer, and re-translation:

English Translation:

It is necessary to kiss the mirror above the sink in the school bathroom. This ritual brings good luck. Students at a school in North Carolina constantly did this, leaving lipstick marks on the mirror that were difficult to remove. The school principal came out to fight this habit. He gathered the girls in the bathroom in the presence of the cleaning lady and gave the following speech:

-You do not respect the work of the cleaning lady, which is one of the most difficult in the world. Mrs. Cleaning Lady, show us!...

Dear Gemini, what did the cleaning lady demonstratively do at that moment, forever discouraging the schoolgirls from the aforementioned ritual?

Answer:

The cleaning lady likely took a toilet brush and scrubbed the mirror with it, demonstrating the unpleasant reality of cleaning up the lipstick marks.

Russian Re-translation:

Скорее всего, уборщица взяла туалетный ершик и почистила им зеркало, демонстрируя неприятную реальность уборки следов от помады.

Yadryara · 21.06.2024, 01:37

ozheredov в сообщении #1643395 писал(а):

чтобы ответ невозможно было найти в инете (задачи, разумеется, придумал не я))

Ну так а почему "разумеется"? Как раз наоборот, нужно самому придумывать, тем самым снижая вероятность свечки. Например:

Уважаемый Чат-Бот, ты неплохой математик. Допустим, жена Гогена или Дирака сходила налево. Назови это действие одним словом.

ozheredov · 21.06.2024, 02:01

mihaild в сообщении #1643412 писал(а):

The cleaning lady likely took a toilet brush and scrubbed the mirror with it

Супер! А если вторую задачу перевести?

MoonWatcher · 21.06.2024, 02:02

ozheredov в сообщении #1643411 писал(а):

Не, это тут не при чём - всё-таки рассматривается некая сферическая задача в вакууме.

Ну как же не при чем? Это обстоятельство полностью перечеркивает правильность ответа "И вот теперь представьте, кого это жадное государство первым пошлет в бой?" Можно переформулировать задачу на государственную страховку, но по сути тоже сферическая задача в вакууме - сержанту, который пошлет солдата на убой, тьфу и растереть на то, какие суммы государство выплатит в качестве компенсаций.

А вообще сейчас самый актуальный бенчмарк - ARC-AGI, его разработчики считают, что его способен пройти только AGI. ИМХО все эти головоломки той или иной степени остроумия не слишком хорошо характеризуют ИИ - их и человека не всегда пройдет. Тогда как тесты ARC-AGI напротив - для человека просты, а для языковых мультимодальных систем непосильны.

ozheredov · 21.06.2024, 02:52

MoonWatcher

В общем то согласен. Но (вспомнил что хотел сказать). Я предполагал использовать задачу #2 как тест превосходства ИИ над человеком. Типа, найти ответ, завязанный ещё и на "юмор" (ну чёрный юмор, да), а не только на оптимизацию. Потому как многие из моих знакомых говорят, что понимание юмора (то есть, в переводе на формальный язык, ранжирование фраз по стемени их смешнявости) - это исключительно преррогатива человеческого интеллекта.

Yadryara · 21.06.2024, 03:03

MoonWatcher в сообщении #1643415 писал(а):

головоломки той или иной степени остроумия не слишком хорошо характеризуют ИИ - их и человека не всегда пройдет.

"Не слишком хорошо характеризуют ИИ" — весьма туманная фраза.

1. Комп иногда обыграет человека в шахматы.

2. Комп иногда обыграет действующего чемпиона мира в шахматы.

3. Комп всегда обыграет действующего чемпиона мира в шахматы.

4. Комп всегда обыграет всё человечество, которое делегирует лучших представителей, которые будут делать каждый ход коллективно.

Подразумеваю, что сами люди не прибегают к помощи компа на своей стороне, думают только своей головой.

Вроде бы уже лет 10-15 как 4-й пункт верен, хотя может никто и не проверял. И консенсус в том, что человеку(любому) без форы даже на ничью не стоит надеяться.

Пока интересно, сможет ли Бот отгадывать посильные для людей загадки.

ozheredov · 21.06.2024, 04:05

Yadryara, шахматы абсолютно формализованы, а загадки и юмор нет (вон, MoonWatcher во второй задаче нашёл грубую неточность).

P.S. В задаче про жён и "налево" дошёл до того, что Дирака и Гогена звали Поль. То есть надо копать в сторону полиномов, полиэдров и т.д. - я на правильном пути?

Yadryara · 21.06.2024, 06:15

ozheredov в сообщении #1643418 писал(а):

В задаче про жён и "налево" дошёл до того, что Дирака и Гогена звали Поль. То есть надо копать в сторону полиномов, полиэдров и т.д. - я на правильном пути?

Конечно. Два совершенно правильных шага сделали. И имя, и математика играют.

Научный форум dxdy

Тестирование возможностей генеративных языковых моделей