2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 14:21 
Аватара пользователя


17/10/22
366
Допустим, мы получили доступ к текстовой информации инопланетян (аналог нашего Интернета) - возможен ли обмен информацией или даже коммуницирование с ними посредством LLM? Предположим, что мы обучили LLM сначала на наших текстах, а потом на текстах этих инопланетян. Возможно ли при этом разграничить обучающие дата-сеты таким образом, чтобы из одного брались знания о нашем мире, а из другого - язык инопланетян?

 Профиль  
                  
 
 Posted automatically
Сообщение15.01.2024, 14:41 
Админ форума


02/02/19
2507
 i  Тема перемещена из форума «Искусственный интеллект и Машинное обучение» в форум «Свободный полёт»
Причина переноса: с внеземным разумом сюда.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 14:51 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
Если обучить модель на двух языках, и тексты на них как-то соотносятся, то модель можно использовать в качестве переводчика. Даже для примитивного word2vec это немного работает: если обучить эмбеддинги для русского и английского, то будет линейное преобразование, дающее перевод (пословный, конечно).
Я не уверен, что это проверялось, но, скорее всего, если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет, даже если в обучающей выборке не было ни одного текста, в котором одновременно есть кириллица и латиница.
MoonWatcher в сообщении #1625945 писал(а):
Возможно ли при этом разграничить обучающие дата-сеты таким образом, чтобы из одного брались знания о нашем мире, а из другого - язык инопланетян?
В обучении LLM вообще нет такого понятия, как "знания о мире" или "язык".

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 15:12 
Заслуженный участник
Аватара пользователя


01/08/06
3127
Уфа
Как я понял, стоит задача (взаимо)понимания инопланетян. Боюсь, для такой задачи текстов будет недостаточно.
Понадобятся картинки, чтобы сопоставить тексту смысл, т.к. нарисованные знания о мире гораздо легче интерпретировать (что нам, что внеземному разуму). Так было сделано в золотых пластинках "Пионера" и "Вояджера" и в "послании Аресибо".
Ну или параллельные тексты, но чтобы их получить, уже нужно понимание смысла.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 15:34 


14/01/11
3036
Кстати, интересно, как справляются существующие LLM с переводами с изолированных языков на самые распространённые и обратно? И с каким-нибудь узелковым письмом или древнеегипетским справятся?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 15:48 
Аватара пользователя


17/10/22
366
Ende в сообщении #1625949 писал(а):
Тема перемещена из форума «Искусственный интеллект и Машинное обучение» в форум «Свободный полёт»
Причина переноса: с внеземным разумом сюда.

К внеземному разуму тема не имеет никакого отношения, вопрос сугубо про LLM. С тем же успехом я мог заменить инопланетян на первобытное племя в Амазонии (просто у них нет письменных текстов, и вообще их язык легко выучить).

worm2 в сообщении #1625953 писал(а):
Как я понял, стоит задача (взаимо)понимания инопланетян.

Не совсем. Надо, чтобы носители изолированного языка получали информацию в контексте исключительно нашего дата-сета, но на своем языке. Мы не будем понимать ни их вопросы, ни ответы своей LLM. Но эти ответы будут заведомо релевантны нашей земной действительности и дадут гипотетическим инопланетянам представлением о нашем мире. Проблема в том, чтобы не загрязнить эти ответы их дата-сетом, а использовать его исключительно для перевода.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 16:04 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
Давайте тогда вообще без инопланетян.
У нас есть корпус текстов на русском и английском, без текстов на смеси, и без переводов. Такая начальная конфигурация Вам подходит?
Что дальше Вы от неё хотите?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 16:47 


12/08/13
982
mihaild в сообщении #1625950 писал(а):
Если обучить модель на двух языках, и тексты на них как-то соотносятся, то модель можно использовать в качестве переводчика. Даже для примитивного word2vec это немного работает: если обучить эмбеддинги для русского и английского, то будет линейное преобразование, дающее перевод (пословный, конечно).
Я не уверен, что это проверялось, но, скорее всего, если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет, даже если в обучающей выборке не было ни одного текста, в котором одновременно есть кириллица и латиница.

Можете это немного пояснить на пальцах? Для меня сказанное звучит совершенно неправдоподобно. Разве что условие "тексты как-то соотносятся" следует читать как "введена дополнительная информация, устанавливающая (достаточно обширные и подробные) связи между текстами на рус. и англ."

-- 15.01.2024, 17:47 --


 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 18:25 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
Exploiting Similarities among Languages for Machine Translation
Берем набор текстов на языке A и на языке B. Учим на каждом из них word2vec, получаем для каждого из языков для каждого слова вектор. Дальше учим "матрицу перевода" $W$: берем набор пар (слово на языке А, слово на языке B), берем их выученные эмбеддинги, и минимизируем по $W$ сумму $\sum_i \|W x_i - y_y\|^2$. Переводом слова с эмбеддингом $x$ объявляем слово, эмбеддинг которого минимизирует $\|W x - y\|$.
В Table 2 по ссылке выше есть качество: не слишком высокое, но сильно лучше, чем другие unsupervised подходы.
diletto в сообщении #1625969 писал(а):
Разве что условие "тексты как-то соотносятся" следует читать как "введена дополнительная информация, устанавливающая (достаточно обширные и подробные) связи между текстами на рус. и англ."
Это значит, что тексты примерно из общего мира, а не из параллельной вселенной.
Выданная связь - только набор образцов переводов некоторых слов.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 19:22 
Аватара пользователя


17/10/22
366
mihaild в сообщении #1625960 писал(а):
Давайте тогда вообще без инопланетян.
У нас есть корпус текстов на русском и английском, без текстов на смеси, и без переводов. Такая начальная конфигурация Вам подходит?
Что дальше Вы от неё хотите?

Соответственно донесения до англоязычных читателей сугубо российской действительности. Просто в данном случае, очевидно, в англоязычных текстах много информации о России, а в русскоязычных - обо всем остальном. Меня интересовали возможности использования "стохастических попугаев" для 1) извлечения информации из дата-сета на одном языке и 2) перевод этой информации на язык другого дата-сета - но так, чтобы первый дата-сет не был замусорен информацией из второго. Но насколько я понял выше, вы считаете это невозможным.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 19:30 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
Я не понимаю, что такое "не замусоренный информацией".
Например, давайте учить модели на текстах до XX века, а потом попросим перевести историю Октябрьской Революции. Такой пример сойдет?
С этим, думаю, современные LLM справятся.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 21:44 
Аватара пользователя


17/10/22
366
mihaild
Конечно справятся. Но знания о 19 веке человечества не противоречат знаниям о 20 веке человечества - первые составляют основу последних, они дополняют друг друга. Тогда как в моем гипотетическом сценарии важно не допустить, чтобы в ответы на вопросе о земной цивилизации примешались знания об инопланетной цивилизации. Ну например, инопланетянин спрашивает про жизнь на Земле. У них там на "Альфа Центавра", судя по их дата-сетам, существуют неорганические формы жизни в газовых облаках. Что и попадает в ответ. Потому что тоже "наша планета".

Может проблему решит разметка всех текстов инопланетян таким образом, что при обучении будет автоматически подтягиваться сноска, что эта информация относится к "Альфа Центавра" - такое возможно? Но как быть с проблемой, что эти две реальности никак не пересекаются? Ведь в обучении двуязычных LLM наверняка большую роль сыграли пары идентичных текстов.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 21:51 


12/08/13
982
mihaild в сообщении #1625978 писал(а):
учим "матрицу перевода" $W$: берем набор пар (слово на языке А, слово на языке B), берем их выученные эмбеддинги, и минимизируем по $W$ сумму $\sum_i \|W x_i - y_y\|^2$. Переводом слова с эмбеддингом $x$ объявляем слово, эмбеддинг которого минимизирует $\|W x - y\|$.

Я вот концепцию эмбеддингов не понял пока: они в базисе, претендующем на универсальность для обоих языков?
mihaild в сообщении #1625978 писал(а):
Выданная связь - только набор образцов переводов некоторых слов.

А какова величина этого набора в сравнении с общим тезаурусом корпусов?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 21:58 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
diletto в сообщении #1626005 писал(а):
Я вот концепцию эмбеддингов не понял пока: они в базисе, претендующем на универсальность для обоих языков?
Нет, они свои для каждого языка, в этом вся идея. Могут быть даже разной размерности.
diletto в сообщении #1626005 писал(а):
А какова величина этого набора в сравнении с общим тезаурусом корпусов?
В статье для пары английский-испанский брали 5000 слов. Тестировали на 19000 слов.
Но у меня для пары английский-русский получались неплохие результаты и если брать число примеров слов всего в 2 раза больше чем размерность эмбеддинга.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение15.01.2024, 22:41 


12/08/13
982
mihaild в сообщении #1626007 писал(а):
они свои для каждого языка, в этом вся идея.

И в статью заглянул, и ваши пояснения перечитал, но всё равно не уверен, что понимаю верно:
mihaild в сообщении #1625978 писал(а):
берем набор пар (слово на языке А, слово на языке B), берем их выученные эмбеддинги, и минимизируем по $W$ сумму $\sum_i \|W x_i - y_i\|^2$
- этот набор пар и есть те 5000, которые являются входом (тренировочным набором)?
Прошу простить, я о ML/DS осведомлён примерно на уровне "ну там чё-та оптимизируют методами линейной алгебры".

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 24 ]  На страницу 1, 2  След.

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Rasool


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group