2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 00:36 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
diletto в сообщении #1626012 писал(а):
этот набор пар и есть те 5000, которые являются входом (тренировочным набором)?
Тренировочным набором для матрицы $W$. Не для word2vec.
У нас есть набор текстов на русском языке, и набор текстов на английском языке. Мы обучили два word2vec, получили две матрицы $X$ и $Y$, строки одной которых соответствуют русским словам, другой - английским. Теперь мы взяли 5000 пар (русское слово, английское слово), взяли соответствующие им строки в качестве пар $(x_i, y_i)$, и нашли матрицу $W$.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 01:13 


12/08/13
982
mihaild, спасибо, дошло.
Осталось разобраться с собственно эмбеддингами... Word2vec, грубо говоря, делает выводы о степени синонимичности (в простейшем одномерном случае) или о некоем многопараметрическом (многомерном) сходстве слов внутри одного языка на основании анализа их ближнего окружения в корпусе текстов, так? Можно ли - на элементарном уровне - пояснить, как выбирается совокупность параметров, служащая базисом?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 02:35 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
diletto в сообщении #1626018 писал(а):
Можно ли - на элементарном уровне - пояснить, как выбирается совокупность параметров, служащая базисом?
Базис стандартный:) Вы, видимо, хотите спросить, как строятся вектора.
Совсем на пальцах - они строятся так, чтобы вектора слов, которые часто встречаются рядом, были похожи.
Вектора строятся градиентным спуском без явной целевой функции. На самом деле для каждого слова строится два вектора - левый $w$ и правый $c$. Мы берем два слова $i$ и $j$, которые расположены в тексте рядом, и градиентным спуском увеличиваем скалярное произведение $(w_i, c_j)$. А еще мы берем случайное слово $k$, и уменьшаем скалярное произведение $(w_i, c_k)$. После чего выкидываем матрицу $C$, оставляя только матрицу $W$.
Леви и Голдберг показали, что в некоторым варианте это эквивалентно оптимизации $(w_i, c_j) \approx \log  \frac{P(i, j)}{P(i)P(j)} - \log k$, где $P(i, j)$ - вероятность того, что случайная пара слов окажется парой $i, j$, $P(i)$ и $P(j)$ - частоты слов $i$ и $j$ соответственно, $k$ - параметр алгоритма.
Тут есть хитрый момент - мы по сути оптимизируем некоторую функциюю от $W C^T$, а используем только $W$. Но очевидно, что если мы возьмем $W' = WA$, $C' = C(A^{-1})^T$ для произвольной обратимой матрицы $A$, то целевая функция не изменится, а вот наши скалярные произведения между строками матрицы $W$ поменяются неизвестно как. Так что просто условия оптимальности относительно целевой функции недостаточно для получения хороших эмбеддингов, важно еще что-то. Что именно - я не знаю (и, видимо, никто не знает).

Но подход word embeddings, хотя и интересный, сейчас устарел. Современные подходы смотрят сразу на много слов.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 11:38 
Аватара пользователя


17/10/22
366
mihaild
Вы про трансформеры, attention is all you need?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 12:22 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
MoonWatcher в сообщении #1626037 писал(а):
Вы про трансформеры, attention is all you need?
Да, все современные модели основаны на трансформерах (плюс хитрые способы обучения, постпроцессинга и построения входных данных).

 Профиль  
                  
 
 Posted automatically
Сообщение16.01.2024, 12:33 
Админ форума


02/02/19
2507
 i  Тема перемещена из форума «Свободный полёт» в форум «Искусственный интеллект и Машинное обучение»
Причина переноса: пожалуй, действительно зря уносил.

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение16.01.2024, 13:09 
Аватара пользователя


17/10/22
366
Ende
Спасибо!

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение13.03.2024, 09:36 
Аватара пользователя


14/11/12
1367
Россия, Нижний Новгород
mihaild в сообщении #1626016 писал(а):
Теперь мы взяли 5000 пар (русское слово, английское слово), взяли соответствующие им строки в качестве пар $(x_i, y_i)$, и нашли матрицу $W$.
То есть, 5000 слов неизвестного языка инопланетян надо будет всё-таки как-то исхитриться и перевести "вручную"?

Я правильно понимаю, что ручная "настройка" нужна потому, что автоматически искать структурное соответствие двух эмбедингов - это (практически) нерешаемая задача?

 Профиль  
                  
 
 Re: Могут ли LLM стать средством общения с внеземным разумом?
Сообщение13.03.2024, 12:23 
Заслуженный участник
Аватара пользователя


16/07/14
9143
Цюрих
SergeyGubanov в сообщении #1632658 писал(а):
Я правильно понимаю, что ручная "настройка" нужна потому, что автоматически искать структурное соответствие двух эмбедингов - это (практически) нерешаемая задача?
Насколько я видел, никакого особого "соответствия" и нет. Например в русском языке есть падежи, в английском нет, соответственно пословный перевод туда-сюда не биективен. При подходе выше это выражается в том, что при переводе с русского на английский разные падежи переводятся одинаково, а при переводе обратно - слово переводится в какой повезет падеж (и на практике часто в разные).

Для более продвинутых моделей такой проблемы, скорее всего, не будет. Хотя я сообразил, что
mihaild в сообщении #1625950 писал(а):
если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет
скорее всего неправда, потому что у модели нет причин соотносить "по-русски" с кириллическими токенами. И что-то не пойму, можно ли принципиально на подобных моделях обойтись вообще без затравки (хоть какого-то соотнесения двух языков, хотя бы несколько слов).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 24 ]  На страницу Пред.  1, 2

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Rasool


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group