2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение24.11.2023, 19:48 


15/11/15
1080
На Kaggle запущен конкурс на обнаружение текста, сгенерированного искусственным интеллектом.
В этом конкурсе участникам предлагается разработать модель машинного обучения, которая сможет точно определить, было ли эссе написано студентом или дипломированным специалистом. Набор данных конкурса включает в себя как эссе, написанные студентами, так и эссе, созданные различными магистратурами.
На текущий момент имеется свыше 1500 участников.

У меня возникает такой вопрос. Нужность конкурса вроде бы очевидна.
Но не является ли конкурс бессмысленным? Разве ИИ не создается таким, чтобы нельзя было отличить его текст от текста человека?
Хорошо, я найду критерий, который показывает с хорошей долей правильности, что это текст сгенерирован ИИ. А что помешает потом учесть этот критерий в генерации текста? И критерий больше не критерий...

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение24.11.2023, 22:39 


10/03/16
4444
Aeroport
gevaraweb в сообщении #1619641 писал(а):
Хорошо, я найду критерий, который показывает с хорошей долей правильности, что это текст сгенерирован ИИ. А что помешает потом учесть этот критерий в генерации текста? И критерий больше не критерий...


Для этого и создается конкурс. Борьба меча и щита (щит пишется английскими буквами путем транслитерации).

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение25.11.2023, 00:29 


15/11/15
1080
ozheredov в сообщении #1619683 писал(а):
Для этого и создается конкурс.

Для чего - для этого? Найти и потом убить все критерии?

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение25.11.2023, 00:40 


10/03/16
4444
Aeroport
gevaraweb в сообщении #1619705 писал(а):
Для чего - для этого? Найти и потом убить все критерии?


Убить особенности генеративок, за которые цепляется критерий (aka "уязвимости"). Другим интересен сам критерий, чтобы юзать его какое-то время, пока уязвимости большинства генеративок не будут убиты.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 18:22 


12/07/15
3316
г. Чехов
Пока нейросети друг друга "убивают", появляются специалисты, разбирающиеся в теме.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 18:30 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
gevaraweb в сообщении #1619641 писал(а):
А что помешает потом учесть этот критерий в генерации текста?
Набор текстов в конкурсе фиксирован.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 18:39 


12/08/13
982
gevaraweb в сообщении #1619641 писал(а):
было ли эссе написано студентом или дипломированным специалистом

Что-то в этой фразе меня смущает...

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 19:04 


15/11/15
1080
diletto в сообщении #1620253 писал(а):
Что-то в этой фразе меня смущает...

Да, сорри, скопипастил машинный перевод не особо вчитываясь...
Нужно читать как:
gevaraweb в сообщении #1619641 писал(а):
В этом конкурсе участникам предлагается разработать модель машинного обучения, которая сможет точно определить, было ли эссе написано студентом или ИИ. Набор данных конкурса включает в себя как эссе, написанные студентами, так и эссе, созданные различными LLM (большими языковыми моделями).

mihaild в сообщении #1620248 писал(а):
Набор текстов в конкурсе фиксирован.

Ага, я имел в виду в будущем ) Получается, конкурс на поиск некой уязвимости в ИИ?

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение28.11.2023, 20:52 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
gevaraweb в сообщении #1620258 писал(а):
Получается, конкурс на поиск некой уязвимости в ИИ?
В некотором смысле.
Для GAN по фиксированному дискриминатору легко обучить обманывающий его генератор, и наоборот, по фиксированному генератору легко обучить ловящий его дискриминатор. LLM, как правило, не обучаются как GAN, так что с ними аналогичные вещи пока не очень понятны.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение29.11.2023, 14:54 
Заслуженный участник
Аватара пользователя


28/09/06
10853
Поучаствовал и не увидел смысла. Хотя я правильно определил 7 из 10 вариантов, по-моему, просто повезло. Не вижу в текстах реальных людей какой-то изюминки, которую не мог бы повторить обучающийся на текстах этих же авторов ИИ, но легко мог бы увидеть человек, этих авторов если и читавший, то не очень хорошо помнящий.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение29.11.2023, 15:00 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
epros, банально подсчет 3,4 и 5-грамм (с небольшой нормализацией) уже дает 0.94 ROC-AUC https://www.kaggle.com/code/hubert101/0 ... s-are-keys.
epros в сообщении #1620363 писал(а):
но легко мог бы увидеть человек
Такого требования и нет.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение29.11.2023, 17:37 
Заслуженный участник
Аватара пользователя


28/09/06
10853
Ну, скажем так, задача сгенерировать текст, подобный тексту такого-то автора, по-моему, на хороший тест Тьюринга не тянет. Каких-то особо умных мыслей я не нашёл ни в текстах исходных авторов, ни в текстах ИИ. А, собственно, соблюдение грамматики, пунктуации и стилистики, наверное, не такая уж сложная задача по нынешним временам.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение29.11.2023, 17:59 
Аватара пользователя


29/05/17
806
epros в сообщении #1620382 писал(а):
Ну, скажем так, задача сгенерировать текст, подобный тексту такого-то автора, по-моему, на хороший тест Тьюринга не тянет.

ChatGPT неплохо в стиле Толстого пишет. На коротком тексте и не отличить. Но чем больше текст, тем толще партизаны :-)

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение09.12.2023, 10:27 


12/07/15
3316
г. Чехов
epros в сообщении #1620382 писал(а):
А, собственно, соблюдение грамматики, пунктуации и стилистики, наверное, не такая уж сложная задача по нынешним временам.

Тут надо понимать, что человек не бог, он не может решать супер-задачи, как некоторым самолюбивым кажется.)

Это трудно понять человекам, ведь они все любят себя. А те, кто не любит себя - это суицидники.

В обществе считается нормальным повышенная самооценка. Переоценка себя, я бы уточнил.

 Профиль  
                  
 
 Re: Конкурс Kaggle на обнаружение текста, сгенерированного ИИ
Сообщение09.12.2023, 12:02 
Заслуженный участник
Аватара пользователя


16/07/14
9149
Цюрих
epros в сообщении #1620382 писал(а):
А, собственно, соблюдение грамматики, пунктуации и стилистики, наверное, не такая уж сложная задача по нынешним временам
Смотря что под этим понимать.
И кстати про стиль конкретного человека там ничего нет - в негативах тексты от разных людей. Так что скорее это вопрос о наличии у LLM своего уникального стиля:) И его можно неплохо распознать даже по такому простому признаку, как используемые триграммы.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 16 ]  На страницу 1, 2  След.

Модератор: Модераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group