2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение24.11.2023, 19:48 


15/11/15
1088
На Kaggle запущен конкурс на обнаружение текста, сгенерированного искусственным интеллектом.
В этом конкурсе участникам предлагается разработать модель машинного обучения, которая сможет точно определить, было ли эссе написано студентом или дипломированным специалистом. Набор данных конкурса включает в себя как эссе, написанные студентами, так и эссе, созданные различными магистратурами.
На текущий момент имеется свыше 1500 участников.

У меня возникает такой вопрос. Нужность конкурса вроде бы очевидна.
Но не является ли конкурс бессмысленным? Разве ИИ не создается таким, чтобы нельзя было отличить его текст от текста человека?
Хорошо, я найду критерий, который показывает с хорошей долей правильности, что это текст сгенерирован ИИ. А что помешает потом учесть этот критерий в генерации текста? И критерий больше не критерий...

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение24.11.2023, 22:39 


10/03/16
4444
Aeroport
gevaraweb в сообщении #1619641 писал(а):
Хорошо, я найду критерий, который показывает с хорошей долей правильности, что это текст сгенерирован ИИ. А что помешает потом учесть этот критерий в генерации текста? И критерий больше не критерий...


Для этого и создается конкурс. Борьба меча и щита (щит пишется английскими буквами путем транслитерации).

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение25.11.2023, 00:29 


15/11/15
1088
ozheredov в сообщении #1619683 писал(а):
Для этого и создается конкурс.

Для чего - для этого? Найти и потом убить все критерии?

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение25.11.2023, 00:40 


10/03/16
4444
Aeroport
gevaraweb в сообщении #1619705 писал(а):
Для чего - для этого? Найти и потом убить все критерии?


Убить особенности генеративок, за которые цепляется критерий (aka "уязвимости"). Другим интересен сам критерий, чтобы юзать его какое-то время, пока уязвимости большинства генеративок не будут убиты.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 18:22 


12/07/15
3387
г. Чехов
Пока нейросети друг друга "убивают", появляются специалисты, разбирающиеся в теме.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 18:30 
Заслуженный участник
Аватара пользователя


16/07/14
9342
Цюрих
gevaraweb в сообщении #1619641 писал(а):
А что помешает потом учесть этот критерий в генерации текста?
Набор текстов в конкурсе фиксирован.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 18:39 


12/08/13
990
gevaraweb в сообщении #1619641 писал(а):
было ли эссе написано студентом или дипломированным специалистом

Что-то в этой фразе меня смущает...

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 19:04 


15/11/15
1088
diletto в сообщении #1620253 писал(а):
Что-то в этой фразе меня смущает...

Да, сорри, скопипастил машинный перевод не особо вчитываясь...
Нужно читать как:
gevaraweb в сообщении #1619641 писал(а):
В этом конкурсе участникам предлагается разработать модель машинного обучения, которая сможет точно определить, было ли эссе написано студентом или ИИ. Набор данных конкурса включает в себя как эссе, написанные студентами, так и эссе, созданные различными LLM (большими языковыми моделями).

mihaild в сообщении #1620248 писал(а):
Набор текстов в конкурсе фиксирован.

Ага, я имел в виду в будущем ) Получается, конкурс на поиск некой уязвимости в ИИ?

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 20:52 
Заслуженный участник
Аватара пользователя


16/07/14
9342
Цюрих
gevaraweb в сообщении #1620258 писал(а):
Получается, конкурс на поиск некой уязвимости в ИИ?
В некотором смысле.
Для GAN по фиксированному дискриминатору легко обучить обманывающий его генератор, и наоборот, по фиксированному генератору легко обучить ловящий его дискриминатор. LLM, как правило, не обучаются как GAN, так что с ними аналогичные вещи пока не очень понятны.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение29.11.2023, 14:54 
Заслуженный участник
Аватара пользователя


28/09/06
11067
Поучаствовал и не увидел смысла. Хотя я правильно определил 7 из 10 вариантов, по-моему, просто повезло. Не вижу в текстах реальных людей какой-то изюминки, которую не мог бы повторить обучающийся на текстах этих же авторов ИИ, но легко мог бы увидеть человек, этих авторов если и читавший, то не очень хорошо помнящий.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение29.11.2023, 15:00 
Заслуженный участник
Аватара пользователя


16/07/14
9342
Цюрих
epros, банально подсчет 3,4 и 5-грамм (с небольшой нормализацией) уже дает 0.94 ROC-AUC https://www.kaggle.com/code/hubert101/0 ... s-are-keys.
epros в сообщении #1620363 писал(а):
но легко мог бы увидеть человек
Такого требования и нет.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение29.11.2023, 17:37 
Заслуженный участник
Аватара пользователя


28/09/06
11067
Ну, скажем так, задача сгенерировать текст, подобный тексту такого-то автора, по-моему, на хороший тест Тьюринга не тянет. Каких-то особо умных мыслей я не нашёл ни в текстах исходных авторов, ни в текстах ИИ. А, собственно, соблюдение грамматики, пунктуации и стилистики, наверное, не такая уж сложная задача по нынешним временам.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение29.11.2023, 17:59 
Аватара пользователя


29/05/17
815
epros в сообщении #1620382 писал(а):
Ну, скажем так, задача сгенерировать текст, подобный тексту такого-то автора, по-моему, на хороший тест Тьюринга не тянет.

ChatGPT неплохо в стиле Толстого пишет. На коротком тексте и не отличить. Но чем больше текст, тем толще партизаны :-)

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение09.12.2023, 10:27 


12/07/15
3387
г. Чехов
epros в сообщении #1620382 писал(а):
А, собственно, соблюдение грамматики, пунктуации и стилистики, наверное, не такая уж сложная задача по нынешним временам.

Тут надо понимать, что человек не бог, он не может решать супер-задачи, как некоторым самолюбивым кажется.)

Это трудно понять человекам, ведь они все любят себя. А те, кто не любит себя - это суицидники.

В обществе считается нормальным повышенная самооценка. Переоценка себя, я бы уточнил.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение09.12.2023, 12:02 
Заслуженный участник
Аватара пользователя


16/07/14
9342
Цюрих
epros в сообщении #1620382 писал(а):
А, собственно, соблюдение грамматики, пунктуации и стилистики, наверное, не такая уж сложная задача по нынешним временам
Смотря что под этим понимать.
И кстати про стиль конкретного человека там ничего нет - в негативах тексты от разных людей. Так что скорее это вопрос о наличии у LLM своего уникального стиля:) И его можно неплохо распознать даже по такому простому признаку, как используемые триграммы.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 16 ]  На страницу 1, 2  След.

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: tolstopuz


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group