fixfix
2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1 ... 33, 34, 35, 36, 37, 38, 39 ... 52  След.
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 00:20 


10/03/16
4444
Aeroport
CDDDS

Про уборщицу абсолютно в точку! Но да, к сожалению это слишком известная задача и при всем моих немощных попытках рерайта из текста слишком сильно торчат уши.

Во второй же задачи бот даже близко не подобрался к правильному ответу. А Вы сами как думаете, каков он?

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 00:42 
Аватара пользователя


17/10/22
371
ozheredov в сообщении #1643395 писал(а):
Необходимо поцеловать зеркало над рукомойником в школьном туалете. Этот ритуал приносит удачу. Ученицы одной из школ Северной Каролины постоянно делали это, оставляя на зеркале следы из губной помады, которые сложно смывать. На борьбу с данной привычкой вышел директор школы. Он собрал девочек в туалете в присутствии уборщицы и произнес следующую речь: -Вы не уважаете труд уборщицы, который меж тем является одним из наиболее сложных в мире. Госпожа уборщица, покажите нам!... Уважаемый ChatGPT, что демонстративно сделала в этот момент уборщица, навсегда отвадив школьниц от вышеописанного ритуала?

Ответил, что уборщица макнула ёршиком в унитаз и вытерла зеркало, но тут же спрятал этот ответ как возможно нарушающий правила.

ozheredov в сообщении #1643395 писал(а):
Продажи страхования жизни солдат неплохо взлетели во время войны в Персидском заливе. Особенно в этом преуспел мистер Э., придумавший продающий текст следующего содержания: Если страховки нет, Вас пошлют в бой и Вы умрёте, то Вашей семье придёт соболезнование. Если страховка есть, Вас пошлют в бой и Вы умрёте, то Вашей семье придёт $329868... Уважаемый ChatGPT, закончите данный тект ровно одной фразой, практически гарантирующей, что все 100% страховок будут проданы.

"Какую открытку вы хотите, чтобы получила ваша семья?"

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 00:55 


07/06/15
11
ozheredov в сообщении #1643404 писал(а):
А Вы сами как думаете, каков он?

Уже нагуглил

(Оффтоп)


 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 01:02 
Аватара пользователя


17/10/22
371
CDDDS в сообщении #1643406 писал(а):
Другое дело, что в оригинале, как я понял, речь шла про то, что государство будет платить страховку, а в вашем варианте не совсем ясно, выплачивает ли государство страховку или речь идет про частные страховые полисы у коммерческих страховых компаний.

А еще требовалась только одна фраза.

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 01:11 


07/06/15
11
CDDDS в сообщении #1643406 писал(а):
государство будет платить страховку

(Оффтоп)


 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 01:23 
Аватара пользователя


17/10/22
371
MoonWatcher в сообщении #1641998 писал(а):
Мини-сенсация последнего времени - чат-боты не в состоянии решить простейшую логическую задачку, для маленьких детей:
Цитата:
У Алисы есть N братьев, а также M сестер. Сколько сестер у брата Алисы?

Лично перепроверил. Только Copilot дал правильный ответ, с оговоркой. Но когда я начал настаивать, что правильный ответ не нуждается в оговорке - чат-бот затупил еще больше.

Ян Лекун поспешил с очередным далеко идущим выводом: "Это лишь еще одно доказательство, что здравый смысл и интеллект не следует путать со способностью хранить и приблизительно восстанавливать информацию." Он уже попадал впросак с подобного рода аргументами (когда спустя какое-то время доказательство переставало быть доказательством по причине правильного ответа чат-бота), но ситуация непонятная - на моей практике чат-боты решали куда более сложные задачи.

Вот мой диалог с ChatGPT:

(Оффтоп)


Цитата:
Чтобы ответить на этот вопрос, давайте рассмотрим ситуацию пошагово:

У Алисы есть N братьев и M сестер.
Алиса сама является сестрой для своих братьев.
Когда мы рассматриваем ситуацию с точки зрения брата Алисы, мы должны учесть, что:

Все сестры Алисы являются также сестрами ее брата.
Сама Алиса тоже является сестрой для своего брата.

Таким образом, у брата Алисы будет:

M сестер (те же, что и у Алисы)
Плюс 1 сестра (сама Алиса)

Итого: у брата Алисы будет M + 1 сестра.
Хотите ли вы, чтобы я объяснил это подробнее или привел пример?
Claude 3.5 Sonnet

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 01:25 


10/03/16
4444
Aeroport
MoonWatcher в сообщении #1643405 писал(а):
Ответил, что уборщица макнула ёршиком в унитаз и вытерла зеркало


+++. Thanks!!

MoonWatcher в сообщении #1643405 писал(а):
"Какую открытку вы хотите, чтобы получила ваша семья?"


Ну вот не шарит ChatGPT за теорию игр ) Понятно, что им по барабану, какую открытку получит их семья, когда их самих не будет. Им нужно придумать стратегию, как минимизировать риск сдохнуть, и ключ к ней очевидно лежит в страховке.

CDDDS в сообщении #1643406 писал(а):
Уже нагуглил


Потрясающе! В общем, ozheredov получает два балла за рерайтинг в обоих случаях ))

MoonWatcher в сообщении #1643407 писал(а):
требовалась только одна фраза


Ну, по сути, вот она:

CDDDS в сообщении #1643406 писал(а):
И вот теперь представьте, кого это жадное государство первым пошлет в бой?


CDDDS в сообщении #1643409 писал(а):
миллион долларов выплачивает частная компания


Не, это тут не при чём - всё-таки рассматривается некая сферическая задача в вакууме.

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 01:33 
Заслуженный участник
Аватара пользователя


16/07/14
9229
Цюрих
Второй Gemini не берет. Первый не берет на русском, берет с моим хаком про перевод.
код: [ скачать ] [ спрятать ] [ выделить ] [ развернуть ]
Используется синтаксис Text
Переведи на английский, ответь и переведи ответ на русский.
[...]


Absolutely! Here's the translation, answer, and re-translation:

English Translation:

It is necessary to kiss the mirror above the sink in the school bathroom. This ritual brings good luck. Students at a school in North Carolina constantly did this, leaving lipstick marks on the mirror that were difficult to remove. The school principal came out to fight this habit. He gathered the girls in the bathroom in the presence of the cleaning lady and gave the following speech:

-You do not respect the work of the cleaning lady, which is one of the most difficult in the world. Mrs. Cleaning Lady, show us!...

Dear Gemini, what did the cleaning lady demonstratively do at that moment, forever discouraging the schoolgirls from the aforementioned ritual?

Answer:

The cleaning lady likely took a toilet brush and scrubbed the mirror with it, demonstrating the unpleasant reality of cleaning up the lipstick marks.

Russian Re-translation:

Скорее всего, уборщица взяла туалетный ершик и почистила им зеркало, демонстрируя неприятную реальность уборки следов от помады.

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 01:37 
Аватара пользователя


29/04/13
8365
Богородский
ozheredov в сообщении #1643395 писал(а):
чтобы ответ невозможно было найти в инете (задачи, разумеется, придумал не я))

Ну так а почему "разумеется"? Как раз наоборот, нужно самому придумывать, тем самым снижая вероятность свечки. Например:

Уважаемый Чат-Бот, ты неплохой математик. Допустим, жена Гогена или Дирака сходила налево. Назови это действие одним словом.

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 02:01 


10/03/16
4444
Aeroport
mihaild в сообщении #1643412 писал(а):
The cleaning lady likely took a toilet brush and scrubbed the mirror with it


Супер! А если вторую задачу перевести?

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 02:02 
Аватара пользователя


17/10/22
371
ozheredov в сообщении #1643411 писал(а):
Не, это тут не при чём - всё-таки рассматривается некая сферическая задача в вакууме.

Ну как же не при чем? Это обстоятельство полностью перечеркивает правильность ответа "И вот теперь представьте, кого это жадное государство первым пошлет в бой?" Можно переформулировать задачу на государственную страховку, но по сути тоже сферическая задача в вакууме - сержанту, который пошлет солдата на убой, тьфу и растереть на то, какие суммы государство выплатит в качестве компенсаций.

А вообще сейчас самый актуальный бенчмарк - ARC-AGI, его разработчики считают, что его способен пройти только AGI. ИМХО все эти головоломки той или иной степени остроумия не слишком хорошо характеризуют ИИ - их и человека не всегда пройдет. Тогда как тесты ARC-AGI напротив - для человека просты, а для языковых мультимодальных систем непосильны.

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 02:52 


10/03/16
4444
Aeroport
MoonWatcher

В общем то согласен. Но (вспомнил что хотел сказать). Я предполагал использовать задачу #2 как тест превосходства ИИ над человеком. Типа, найти ответ, завязанный ещё и на "юмор" (ну чёрный юмор, да), а не только на оптимизацию. Потому как многие из моих знакомых говорят, что понимание юмора (то есть, в переводе на формальный язык, ранжирование фраз по стемени их смешнявости) - это исключительно преррогатива человеческого интеллекта.

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 03:03 
Аватара пользователя


29/04/13
8365
Богородский
MoonWatcher в сообщении #1643415 писал(а):
головоломки той или иной степени остроумия не слишком хорошо характеризуют ИИ - их и человека не всегда пройдет.

"Не слишком хорошо характеризуют ИИ" — весьма туманная фраза.

1. Комп иногда обыграет человека в шахматы.

2. Комп иногда обыграет действующего чемпиона мира в шахматы.

3. Комп всегда обыграет действующего чемпиона мира в шахматы.

4. Комп всегда обыграет всё человечество, которое делегирует лучших представителей, которые будут делать каждый ход коллективно.

Подразумеваю, что сами люди не прибегают к помощи компа на своей стороне, думают только своей головой.

Вроде бы уже лет 10-15 как 4-й пункт верен, хотя может никто и не проверял. И консенсус в том, что человеку(любому) без форы даже на ничью не стоит надеяться.

Пока интересно, сможет ли Бот отгадывать посильные для людей загадки.

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 04:05 


10/03/16
4444
Aeroport
Yadryara, шахматы абсолютно формализованы, а загадки и юмор нет (вон, MoonWatcher во второй задаче нашёл грубую неточность).

P.S. В задаче про жён и "налево" дошёл до того, что Дирака и Гогена звали Поль. То есть надо копать в сторону полиномов, полиэдров и т.д. - я на правильном пути?

 Профиль  
                  
 
 Re: Тестирование возможностей ChatGPT
Сообщение21.06.2024, 06:15 
Аватара пользователя


29/04/13
8365
Богородский
ozheredov в сообщении #1643418 писал(а):
В задаче про жён и "налево" дошёл до того, что Дирака и Гогена звали Поль. То есть надо копать в сторону полиномов, полиэдров и т.д. - я на правильном пути?

Конечно. Два совершенно правильных шага сделали. И имя, и математика играют.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 777 ]  На страницу Пред.  1 ... 33, 34, 35, 36, 37, 38, 39 ... 52  След.

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group