2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 00:36 
Заслуженный участник
Аватара пользователя


16/07/14
8474
Цюрих
diletto в сообщении #1626012 писал(а):
этот набор пар и есть те 5000, которые являются входом (тренировочным набором)?
Тренировочным набором для матрицы $W$. Не для word2vec.
У нас есть набор текстов на русском языке, и набор текстов на английском языке. Мы обучили два word2vec, получили две матрицы $X$ и $Y$, строки одной которых соответствуют русским словам, другой - английским. Теперь мы взяли 5000 пар (русское слово, английское слово), взяли соответствующие им строки в качестве пар $(x_i, y_i)$, и нашли матрицу $W$.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 01:13 


12/08/13
920
mihaild, спасибо, дошло.
Осталось разобраться с собственно эмбеддингами... Word2vec, грубо говоря, делает выводы о степени синонимичности (в простейшем одномерном случае) или о некоем многопараметрическом (многомерном) сходстве слов внутри одного языка на основании анализа их ближнего окружения в корпусе текстов, так? Можно ли - на элементарном уровне - пояснить, как выбирается совокупность параметров, служащая базисом?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 02:35 
Заслуженный участник
Аватара пользователя


16/07/14
8474
Цюрих
diletto в сообщении #1626018 писал(а):
Можно ли - на элементарном уровне - пояснить, как выбирается совокупность параметров, служащая базисом?
Базис стандартный:) Вы, видимо, хотите спросить, как строятся вектора.
Совсем на пальцах - они строятся так, чтобы вектора слов, которые часто встречаются рядом, были похожи.
Вектора строятся градиентным спуском без явной целевой функции. На самом деле для каждого слова строится два вектора - левый $w$ и правый $c$. Мы берем два слова $i$ и $j$, которые расположены в тексте рядом, и градиентным спуском увеличиваем скалярное произведение $(w_i, c_j)$. А еще мы берем случайное слово $k$, и уменьшаем скалярное произведение $(w_i, c_k)$. После чего выкидываем матрицу $C$, оставляя только матрицу $W$.
Леви и Голдберг показали, что в некоторым варианте это эквивалентно оптимизации $(w_i, c_j) \approx \log  \frac{P(i, j)}{P(i)P(j)} - \log k$, где $P(i, j)$ - вероятность того, что случайная пара слов окажется парой $i, j$, $P(i)$ и $P(j)$ - частоты слов $i$ и $j$ соответственно, $k$ - параметр алгоритма.
Тут есть хитрый момент - мы по сути оптимизируем некоторую функциюю от $W C^T$, а используем только $W$. Но очевидно, что если мы возьмем $W' = WA$, $C' = C(A^{-1})^T$ для произвольной обратимой матрицы $A$, то целевая функция не изменится, а вот наши скалярные произведения между строками матрицы $W$ поменяются неизвестно как. Так что просто условия оптимальности относительно целевой функции недостаточно для получения хороших эмбеддингов, важно еще что-то. Что именно - я не знаю (и, видимо, никто не знает).

Но подход word embeddings, хотя и интересный, сейчас устарел. Современные подходы смотрят сразу на много слов.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 11:38 
Аватара пользователя


17/10/22
271
mihaild
Вы про трансформеры, attention is all you need?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 12:22 
Заслуженный участник
Аватара пользователя


16/07/14
8474
Цюрих
MoonWatcher в сообщении #1626037 писал(а):
Вы про трансформеры, attention is all you need?
Да, все современные модели основаны на трансформерах (плюс хитрые способы обучения, постпроцессинга и построения входных данных).

 Профиль  
                  
 
 Posted automatically
Сообщение16.01.2024, 12:33 
Админ форума


02/02/19
2046
 i  Тема перемещена из форума «Свободный полёт» в форум «Искусственный интеллект и Машинное обучение»
Причина переноса: пожалуй, действительно зря уносил.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 13:09 
Аватара пользователя


17/10/22
271
Ende
Спасибо!

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение13.03.2024, 09:36 
Аватара пользователя


14/11/12
1338
Россия, Нижний Новгород
mihaild в сообщении #1626016 писал(а):
Теперь мы взяли 5000 пар (русское слово, английское слово), взяли соответствующие им строки в качестве пар $(x_i, y_i)$, и нашли матрицу $W$.
То есть, 5000 слов неизвестного языка инопланетян надо будет всё-таки как-то исхитриться и перевести "вручную"?

Я правильно понимаю, что ручная "настройка" нужна потому, что автоматически искать структурное соответствие двух эмбедингов - это (практически) нерешаемая задача?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение13.03.2024, 12:23 
Заслуженный участник
Аватара пользователя


16/07/14
8474
Цюрих
SergeyGubanov в сообщении #1632658 писал(а):
Я правильно понимаю, что ручная "настройка" нужна потому, что автоматически искать структурное соответствие двух эмбедингов - это (практически) нерешаемая задача?
Насколько я видел, никакого особого "соответствия" и нет. Например в русском языке есть падежи, в английском нет, соответственно пословный перевод туда-сюда не биективен. При подходе выше это выражается в том, что при переводе с русского на английский разные падежи переводятся одинаково, а при переводе обратно - слово переводится в какой повезет падеж (и на практике часто в разные).

Для более продвинутых моделей такой проблемы, скорее всего, не будет. Хотя я сообразил, что
mihaild в сообщении #1625950 писал(а):
если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет
скорее всего неправда, потому что у модели нет причин соотносить "по-русски" с кириллическими токенами. И что-то не пойму, можно ли принципиально на подобных моделях обойтись вообще без затравки (хоть какого-то соотнесения двух языков, хотя бы несколько слов).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 24 ]  На страницу Пред.  1, 2

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group