Могут ли LLM стать средством общения с внеземным разумом?

MoonWatcher · 17/10/22 428

Допустим, мы получили доступ к текстовой информации инопланетян (аналог нашего Интернета) - возможен ли обмен информацией или даже коммуницирование с ними посредством LLM? Предположим, что мы обучили LLM сначала на наших текстах, а потом на текстах этих инопланетян. Возможно ли при этом разграничить обучающие дата-сеты таким образом, чтобы из одного брались знания о нашем мире, а из другого - язык инопланетян?

Ende · 02/02/19 3038

i	Тема перемещена из форума «Искусственный интеллект и Машинное обучение» в форум «Свободный полёт» Причина переноса: с внеземным разумом сюда.

mihaild · 16/07/14 9737 Цюрих

Если обучить модель на двух языках, и тексты на них как-то соотносятся, то модель можно использовать в качестве переводчика. Даже для примитивного word2vec это немного работает: если обучить эмбеддинги для русского и английского, то будет линейное преобразование, дающее перевод (пословный, конечно).
Я не уверен, что это проверялось, но, скорее всего, если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет, даже если в обучающей выборке не было ни одного текста, в котором одновременно есть кириллица и латиница.

MoonWatcher в сообщении #1625945 писал(а):

Возможно ли при этом разграничить обучающие дата-сеты таким образом, чтобы из одного брались знания о нашем мире, а из другого - язык инопланетян?

В обучении LLM вообще нет такого понятия, как "знания о мире" или "язык".

worm2 · 01/08/06 3170 Уфа

Как я понял, стоит задача (взаимо)понимания инопланетян. Боюсь, для такой задачи текстов будет недостаточно.
Понадобятся картинки, чтобы сопоставить тексту смысл, т.к. нарисованные знания о мире гораздо легче интерпретировать (что нам, что внеземному разуму). Так было сделано в золотых пластинках "Пионера" и "Вояджера" и в "послании Аресибо".
Ну или параллельные тексты, но чтобы их получить, уже нужно понимание смысла.

Sender · 14/01/11 3464

Кстати, интересно, как справляются существующие LLM с переводами с изолированных языков на самые распространённые и обратно? И с каким-нибудь узелковым письмом или древнеегипетским справятся?

MoonWatcher · 17/10/22 428

Ende в сообщении #1625949 писал(а):

Тема перемещена из форума «Искусственный интеллект и Машинное обучение» в форум «Свободный полёт»
Причина переноса: с внеземным разумом сюда.

К внеземному разуму тема не имеет никакого отношения, вопрос сугубо про LLM. С тем же успехом я мог заменить инопланетян на первобытное племя в Амазонии (просто у них нет письменных текстов, и вообще их язык легко выучить).

worm2 в сообщении #1625953 писал(а):

Как я понял, стоит задача (взаимо)понимания инопланетян.

Не совсем. Надо, чтобы носители изолированного языка получали информацию в контексте исключительно нашего дата-сета, но на своем языке. Мы не будем понимать ни их вопросы, ни ответы своей LLM. Но эти ответы будут заведомо релевантны нашей земной действительности и дадут гипотетическим инопланетянам представлением о нашем мире. Проблема в том, чтобы не загрязнить эти ответы их дата-сетом, а использовать его исключительно для перевода.

mihaild · 16/07/14 9737 Цюрих

Давайте тогда вообще без инопланетян.
У нас есть корпус текстов на русском и английском, без текстов на смеси, и без переводов. Такая начальная конфигурация Вам подходит?
Что дальше Вы от неё хотите?

diletto · 12/08/13 1046

mihaild в сообщении #1625950 писал(а):

Если обучить модель на двух языках, и тексты на них как-то соотносятся, то модель можно использовать в качестве переводчика. Даже для примитивного word2vec это немного работает: если обучить эмбеддинги для русского и английского, то будет линейное преобразование, дающее перевод (пословный, конечно).
Я не уверен, что это проверялось, но, скорее всего, если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет, даже если в обучающей выборке не было ни одного текста, в котором одновременно есть кириллица и латиница.

Можете это немного пояснить на пальцах? Для меня сказанное звучит совершенно неправдоподобно. Разве что условие "тексты как-то соотносятся" следует читать как "введена дополнительная информация, устанавливающая (достаточно обширные и подробные) связи между текстами на рус. и англ."

-- 15.01.2024, 17:47 --

mihaild · 16/07/14 9737 Цюрих

Exploiting Similarities among Languages for Machine Translation
Берем набор текстов на языке A и на языке B. Учим на каждом из них word2vec, получаем для каждого из языков для каждого слова вектор. Дальше учим "матрицу перевода" $W$ : берем набор пар (слово на языке А, слово на языке B), берем их выученные эмбеддинги, и минимизируем по $W$ сумму $\sum_i \|W x_i - y_y\|^2$ . Переводом слова с эмбеддингом $x$ объявляем слово, эмбеддинг которого минимизирует $\|W x - y\|$ .
В Table 2 по ссылке выше есть качество: не слишком высокое, но сильно лучше, чем другие unsupervised подходы.

diletto в сообщении #1625969 писал(а):

Разве что условие "тексты как-то соотносятся" следует читать как "введена дополнительная информация, устанавливающая (достаточно обширные и подробные) связи между текстами на рус. и англ."

Это значит, что тексты примерно из общего мира, а не из параллельной вселенной.
Выданная связь - только набор образцов переводов некоторых слов.

MoonWatcher · 17/10/22 428

mihaild в сообщении #1625960 писал(а):

Давайте тогда вообще без инопланетян.
У нас есть корпус текстов на русском и английском, без текстов на смеси, и без переводов. Такая начальная конфигурация Вам подходит?
Что дальше Вы от неё хотите?

Соответственно донесения до англоязычных читателей сугубо российской действительности. Просто в данном случае, очевидно, в англоязычных текстах много информации о России, а в русскоязычных - обо всем остальном. Меня интересовали возможности использования "стохастических попугаев" для 1) извлечения информации из дата-сета на одном языке и 2) перевод этой информации на язык другого дата-сета - но так, чтобы первый дата-сет не был замусорен информацией из второго. Но насколько я понял выше, вы считаете это невозможным.

mihaild · 16/07/14 9737 Цюрих

Я не понимаю, что такое "не замусоренный информацией".
Например, давайте учить модели на текстах до XX века, а потом попросим перевести историю Октябрьской Революции. Такой пример сойдет?
С этим, думаю, современные LLM справятся.

MoonWatcher · 17/10/22 428

mihaild
Конечно справятся. Но знания о 19 веке человечества не противоречат знаниям о 20 веке человечества - первые составляют основу последних, они дополняют друг друга. Тогда как в моем гипотетическом сценарии важно не допустить, чтобы в ответы на вопросе о земной цивилизации примешались знания об инопланетной цивилизации. Ну например, инопланетянин спрашивает про жизнь на Земле. У них там на "Альфа Центавра", судя по их дата-сетам, существуют неорганические формы жизни в газовых облаках. Что и попадает в ответ. Потому что тоже "наша планета".

Может проблему решит разметка всех текстов инопланетян таким образом, что при обучении будет автоматически подтягиваться сноска, что эта информация относится к "Альфа Центавра" - такое возможно? Но как быть с проблемой, что эти две реальности никак не пересекаются? Ведь в обучении двуязычных LLM наверняка большую роль сыграли пары идентичных текстов.

diletto · 12/08/13 1046

mihaild в сообщении #1625978 писал(а):

учим "матрицу перевода" $W$ : берем набор пар (слово на языке А, слово на языке B), берем их выученные эмбеддинги, и минимизируем по $W$ сумму $\sum_i \|W x_i - y_y\|^2$ . Переводом слова с эмбеддингом $x$ объявляем слово, эмбеддинг которого минимизирует $\|W x - y\|$ .

Я вот концепцию эмбеддингов не понял пока: они в базисе, претендующем на универсальность для обоих языков?

mihaild в сообщении #1625978 писал(а):

Выданная связь - только набор образцов переводов некоторых слов.

А какова величина этого набора в сравнении с общим тезаурусом корпусов?

mihaild · 16/07/14 9737 Цюрих

diletto в сообщении #1626005 писал(а):

Я вот концепцию эмбеддингов не понял пока: они в базисе, претендующем на универсальность для обоих языков?

Нет, они свои для каждого языка, в этом вся идея. Могут быть даже разной размерности.

diletto в сообщении #1626005 писал(а):

А какова величина этого набора в сравнении с общим тезаурусом корпусов?

В статье для пары английский-испанский брали 5000 слов. Тестировали на 19000 слов.
Но у меня для пары английский-русский получались неплохие результаты и если брать число примеров слов всего в 2 раза больше чем размерность эмбеддинга.

diletto · 12/08/13 1046

mihaild в сообщении #1626007 писал(а):

они свои для каждого языка, в этом вся идея.

И в статью заглянул, и ваши пояснения перечитал, но всё равно не уверен, что понимаю верно:

mihaild в сообщении #1625978 писал(а):

берем набор пар (слово на языке А, слово на языке B), берем их выученные эмбеддинги, и минимизируем по $W$ сумму $\sum_i \|W x_i - y_i\|^2$

- этот набор пар и есть те 5000, которые являются входом (тренировочным набором)?
Прошу простить, я о ML/DS осведомлён примерно на уровне "ну там чё-та оптимизируют методами линейной алгебры".

Научный форум dxdy

Могут ли LLM стать средством общения с внеземным разумом?

Кто сейчас на конференции