Могут ли LLM стать средством общения с внеземным разумом?

mihaild · 16/07/14 9737 Цюрих

diletto в сообщении #1626012 писал(а):

этот набор пар и есть те 5000, которые являются входом (тренировочным набором)?

Тренировочным набором для матрицы $W$ . Не для word2vec.
У нас есть набор текстов на русском языке, и набор текстов на английском языке. Мы обучили два word2vec, получили две матрицы $X$ и $Y$ , строки одной которых соответствуют русским словам, другой - английским. Теперь мы взяли 5000 пар (русское слово, английское слово), взяли соответствующие им строки в качестве пар $(x_i, y_i)$ , и нашли матрицу $W$ .

diletto · 12/08/13 1046

mihaild, спасибо, дошло.
Осталось разобраться с собственно эмбеддингами... Word2vec, грубо говоря, делает выводы о степени синонимичности (в простейшем одномерном случае) или о некоем многопараметрическом (многомерном) сходстве слов внутри одного языка на основании анализа их ближнего окружения в корпусе текстов, так? Можно ли - на элементарном уровне - пояснить, как выбирается совокупность параметров, служащая базисом?

mihaild · 16/07/14 9737 Цюрих

diletto в сообщении #1626018 писал(а):

Можно ли - на элементарном уровне - пояснить, как выбирается совокупность параметров, служащая базисом?

Базис стандартный:) Вы, видимо, хотите спросить, как строятся вектора.
Совсем на пальцах - они строятся так, чтобы вектора слов, которые часто встречаются рядом, были похожи.
Вектора строятся градиентным спуском без явной целевой функции. На самом деле для каждого слова строится два вектора - левый $w$ и правый $c$ . Мы берем два слова $i$ и $j$ , которые расположены в тексте рядом, и градиентным спуском увеличиваем скалярное произведение $(w_i, c_j)$ . А еще мы берем случайное слово $k$ , и уменьшаем скалярное произведение $(w_i, c_k)$ . После чего выкидываем матрицу $C$ , оставляя только матрицу $W$ .
Леви и Голдберг показали, что в некоторым варианте это эквивалентно оптимизации $(w_i, c_j) \approx \log \frac{P(i, j)}{P(i)P(j)} - \log k$ , где $P(i, j)$ - вероятность того, что случайная пара слов окажется парой $i, j$ , $P(i)$ и $P(j)$ - частоты слов $i$ и $j$ соответственно, $k$ - параметр алгоритма.
Тут есть хитрый момент - мы по сути оптимизируем некоторую функциюю от $W C^T$ , а используем только $W$ . Но очевидно, что если мы возьмем $W' = WA$ , $C' = C(A^{-1})^T$ для произвольной обратимой матрицы $A$ , то целевая функция не изменится, а вот наши скалярные произведения между строками матрицы $W$ поменяются неизвестно как. Так что просто условия оптимальности относительно целевой функции недостаточно для получения хороших эмбеддингов, важно еще что-то. Что именно - я не знаю (и, видимо, никто не знает).

Но подход word embeddings, хотя и интересный, сейчас устарел. Современные подходы смотрят сразу на много слов.

MoonWatcher · 17/10/22 428

mihaild
Вы про трансформеры, attention is all you need?

mihaild · 16/07/14 9737 Цюрих

MoonWatcher в сообщении #1626037 писал(а):

Вы про трансформеры, attention is all you need?

Да, все современные модели основаны на трансформерах (плюс хитрые способы обучения, постпроцессинга и построения входных данных).

Ende · 02/02/19 3038

i	Тема перемещена из форума «Свободный полёт» в форум «Искусственный интеллект и Машинное обучение» Причина переноса: пожалуй, действительно зря уносил.

MoonWatcher · 17/10/22 428

Ende
Спасибо!

SergeyGubanov · 14/11/12 1399 Россия, Нижний Новгород

mihaild в сообщении #1626016 писал(а):

Теперь мы взяли 5000 пар (русское слово, английское слово), взяли соответствующие им строки в качестве пар $(x_i, y_i)$ , и нашли матрицу $W$ .

То есть, 5000 слов неизвестного языка инопланетян надо будет всё-таки как-то исхитриться и перевести "вручную"?

Я правильно понимаю, что ручная "настройка" нужна потому, что автоматически искать структурное соответствие двух эмбедингов - это (практически) нерешаемая задача?

mihaild · 16/07/14 9737 Цюрих

SergeyGubanov в сообщении #1632658 писал(а):

Я правильно понимаю, что ручная "настройка" нужна потому, что автоматически искать структурное соответствие двух эмбедингов - это (практически) нерешаемая задача?

Насколько я видел, никакого особого "соответствия" и нет. Например в русском языке есть падежи, в английском нет, соответственно пословный перевод туда-сюда не биективен. При подходе выше это выражается в том, что при переводе с русского на английский разные падежи переводятся одинаково, а при переводе обратно - слово переводится в какой повезет падеж (и на практике часто в разные).

Для более продвинутых моделей такой проблемы, скорее всего, не будет. Хотя я сообразил, что

mihaild в сообщении #1625950 писал(а):

если обучить модель на русском и английском корпусах, то запросы вида "скажи по-русски london is the capital of great britain" она выполнять сможет

скорее всего неправда, потому что у модели нет причин соотносить "по-русски" с кириллическими токенами. И что-то не пойму, можно ли принципиально на подобных моделях обойтись вообще без затравки (хоть какого-то соотнесения двух языков, хотя бы несколько слов).

Научный форум dxdy

Могут ли LLM стать средством общения с внеземным разумом?

Кто сейчас на конференции