2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 14:21 
Аватара пользователя


17/10/22
366
Допустим, мы получили доступ к текстовой информации инопланетян (аналог нашего Интернета) - возможен ли обмен информацией или даже коммуницирование с ними посредством LLM? Предположим, что мы обучили LLM сначала на наших текстах, а потом на текстах этих инопланетян. Возможно ли при этом разграничить обучающие дата-сеты таким образом, чтобы из одного брались знания о нашем мире, а из другого - язык инопланетян?

 Профиль  
                  
 
 Posted automatically
Сообщение15.01.2024, 14:41 
Админ форума


02/02/19
2506
 i  Тема перемещена из форума «Искусственный интеллект и Машинное обучение» в форум «Свободный полёт»
Причина переноса: с внеземным разумом сюда.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 14:51 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
Если обучить модель на двух языках, и тексты на них как-то соотносятся, то модель можно использовать в качестве переводчика. Даже для примитивного word2vec это немного работает: если обучить эмбеддинги для русского и английского, то будет линейное преобразование, дающее перевод (пословный, конечно).
Я не уверен, что это проверялось, но, скорее всего, если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет, даже если в обучающей выборке не было ни одного текста, в котором одновременно есть кириллица и латиница.
MoonWatcher в сообщении #1625945 писал(а):
Возможно ли при этом разграничить обучающие дата-сеты таким образом, чтобы из одного брались знания о нашем мире, а из другого - язык инопланетян?
В обучении LLM вообще нет такого понятия, как "знания о мире" или "язык".

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 15:12 
Заслуженный участник
Аватара пользователя


01/08/06
3127
Уфа
Как я понял, стоит задача (взаимо)понимания инопланетян. Боюсь, для такой задачи текстов будет недостаточно.
Понадобятся картинки, чтобы сопоставить тексту смысл, т.к. нарисованные знания о мире гораздо легче интерпретировать (что нам, что внеземному разуму). Так было сделано в золотых пластинках "Пионера" и "Вояджера" и в "послании Аресибо".
Ну или параллельные тексты, но чтобы их получить, уже нужно понимание смысла.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 15:34 


14/01/11
3036
Кстати, интересно, как справляются существующие LLM с переводами с изолированных языков на самые распространённые и обратно? И с каким-нибудь узелковым письмом или древнеегипетским справятся?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 15:48 
Аватара пользователя


17/10/22
366
Ende в сообщении #1625949 писал(а):
Тема перемещена из форума «Искусственный интеллект и Машинное обучение» в форум «Свободный полёт»
Причина переноса: с внеземным разумом сюда.

К внеземному разуму тема не имеет никакого отношения, вопрос сугубо про LLM. С тем же успехом я мог заменить инопланетян на первобытное племя в Амазонии (просто у них нет письменных текстов, и вообще их язык легко выучить).

worm2 в сообщении #1625953 писал(а):
Как я понял, стоит задача (взаимо)понимания инопланетян.

Не совсем. Надо, чтобы носители изолированного языка получали информацию в контексте исключительно нашего дата-сета, но на своем языке. Мы не будем понимать ни их вопросы, ни ответы своей LLM. Но эти ответы будут заведомо релевантны нашей земной действительности и дадут гипотетическим инопланетянам представлением о нашем мире. Проблема в том, чтобы не загрязнить эти ответы их дата-сетом, а использовать его исключительно для перевода.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 16:04 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
Давайте тогда вообще без инопланетян.
У нас есть корпус текстов на русском и английском, без текстов на смеси, и без переводов. Такая начальная конфигурация Вам подходит?
Что дальше Вы от неё хотите?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 16:47 


12/08/13
982
mihaild в сообщении #1625950 писал(а):
Если обучить модель на двух языках, и тексты на них как-то соотносятся, то модель можно использовать в качестве переводчика. Даже для примитивного word2vec это немного работает: если обучить эмбеддинги для русского и английского, то будет линейное преобразование, дающее перевод (пословный, конечно).
Я не уверен, что это проверялось, но, скорее всего, если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет, даже если в обучающей выборке не было ни одного текста, в котором одновременно есть кириллица и латиница.

Можете это немного пояснить на пальцах? Для меня сказанное звучит совершенно неправдоподобно. Разве что условие "тексты как-то соотносятся" следует читать как "введена дополнительная информация, устанавливающая (достаточно обширные и подробные) связи между текстами на рус. и англ."

-- 15.01.2024, 17:47 --


 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 18:25 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
Exploiting Similarities among Languages for Machine Translation
Берем набор текстов на языке A и на языке B. Учим на каждом из них word2vec, получаем для каждого из языков для каждого слова вектор. Дальше учим "матрицу перевода" $W$: берем набор пар (слово на языке А, слово на языке B), берем их выученные эмбеддинги, и минимизируем по $W$ сумму $\sum_i \|W x_i - y_y\|^2$. Переводом слова с эмбеддингом $x$ объявляем слово, эмбеддинг которого минимизирует $\|W x - y\|$.
В Table 2 по ссылке выше есть качество: не слишком высокое, но сильно лучше, чем другие unsupervised подходы.
diletto в сообщении #1625969 писал(а):
Разве что условие "тексты как-то соотносятся" следует читать как "введена дополнительная информация, устанавливающая (достаточно обширные и подробные) связи между текстами на рус. и англ."
Это значит, что тексты примерно из общего мира, а не из параллельной вселенной.
Выданная связь - только набор образцов переводов некоторых слов.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 19:22 
Аватара пользователя


17/10/22
366
mihaild в сообщении #1625960 писал(а):
Давайте тогда вообще без инопланетян.
У нас есть корпус текстов на русском и английском, без текстов на смеси, и без переводов. Такая начальная конфигурация Вам подходит?
Что дальше Вы от неё хотите?

Соответственно донесения до англоязычных читателей сугубо российской действительности. Просто в данном случае, очевидно, в англоязычных текстах много информации о России, а в русскоязычных - обо всем остальном. Меня интересовали возможности использования "стохастических попугаев" для 1) извлечения информации из дата-сета на одном языке и 2) перевод этой информации на язык другого дата-сета - но так, чтобы первый дата-сет не был замусорен информацией из второго. Но насколько я понял выше, вы считаете это невозможным.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 19:30 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
Я не понимаю, что такое "не замусоренный информацией".
Например, давайте учить модели на текстах до XX века, а потом попросим перевести историю Октябрьской Революции. Такой пример сойдет?
С этим, думаю, современные LLM справятся.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 21:44 
Аватара пользователя


17/10/22
366
mihaild
Конечно справятся. Но знания о 19 веке человечества не противоречат знаниям о 20 веке человечества - первые составляют основу последних, они дополняют друг друга. Тогда как в моем гипотетическом сценарии важно не допустить, чтобы в ответы на вопросе о земной цивилизации примешались знания об инопланетной цивилизации. Ну например, инопланетянин спрашивает про жизнь на Земле. У них там на "Альфа Центавра", судя по их дата-сетам, существуют неорганические формы жизни в газовых облаках. Что и попадает в ответ. Потому что тоже "наша планета".

Может проблему решит разметка всех текстов инопланетян таким образом, что при обучении будет автоматически подтягиваться сноска, что эта информация относится к "Альфа Центавра" - такое возможно? Но как быть с проблемой, что эти две реальности никак не пересекаются? Ведь в обучении двуязычных LLM наверняка большую роль сыграли пары идентичных текстов.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 21:51 


12/08/13
982
mihaild в сообщении #1625978 писал(а):
учим "матрицу перевода" $W$: берем набор пар (слово на языке А, слово на языке B), берем их выученные эмбеддинги, и минимизируем по $W$ сумму $\sum_i \|W x_i - y_y\|^2$. Переводом слова с эмбеддингом $x$ объявляем слово, эмбеддинг которого минимизирует $\|W x - y\|$.

Я вот концепцию эмбеддингов не понял пока: они в базисе, претендующем на универсальность для обоих языков?
mihaild в сообщении #1625978 писал(а):
Выданная связь - только набор образцов переводов некоторых слов.

А какова величина этого набора в сравнении с общим тезаурусом корпусов?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 21:58 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
diletto в сообщении #1626005 писал(а):
Я вот концепцию эмбеддингов не понял пока: они в базисе, претендующем на универсальность для обоих языков?
Нет, они свои для каждого языка, в этом вся идея. Могут быть даже разной размерности.
diletto в сообщении #1626005 писал(а):
А какова величина этого набора в сравнении с общим тезаурусом корпусов?
В статье для пары английский-испанский брали 5000 слов. Тестировали на 19000 слов.
Но у меня для пары английский-русский получались неплохие результаты и если брать число примеров слов всего в 2 раза больше чем размерность эмбеддинга.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 22:41 


12/08/13
982
mihaild в сообщении #1626007 писал(а):
они свои для каждого языка, в этом вся идея.

И в статью заглянул, и ваши пояснения перечитал, но всё равно не уверен, что понимаю верно:
mihaild в сообщении #1625978 писал(а):
берем набор пар (слово на языке А, слово на языке B), берем их выученные эмбеддинги, и минимизируем по $W$ сумму $\sum_i \|W x_i - y_i\|^2$
- этот набор пар и есть те 5000, которые являются входом (тренировочным набором)?
Прошу простить, я о ML/DS осведомлён примерно на уровне "ну там чё-та оптимизируют методами линейной алгебры".

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 24 ]  На страницу 1, 2  След.

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group