Машинный перевод без примеров

sergey zhukov · 04.03.2022, 15:58

В статьях по истории машинного перевода прослеживается направление давать компьютеру все меньше априорной информации и заставлять его все больше самостоятельно извлекать словарь и правила из примеров уже сделанного людьми перевода (при помощи статистических, вероятностных методов). Примерно как с шахматным компьютером, которому можно дать всего лишь правила перемещения фигур, а затем заставить его сыграть миллионы партий с самим собой и пусть он сам извлечет из этого всю шахматную премудрость. Ему даже не нужно изучать игры шахматистов.

Как я понял, для обучения статистического переводчика все же необходимы примеры переводов, сделанные людьми. Но в одной из лекций по машинному обучению я услышал, что можно обойтись и без этого. Если у нас какой-либо корпус текстов на одном языке, и какой-либо другой корпус текстов на другом языке (причем это разные тексты, они не являются переводами друг-друга), то можно заставить компьютер при помощи тех же статистических методов научиться отображать один текст на другой и наоборот. Можно извлечь словарь и правила перевода для двух языков, которые никто и никогда вообще не переводил друг на друга (ни прямо, ни косвенно). Скажем, если бы у нас были огромные архивы текстов на этрусском языке, то мы смогли бы теоретически выполнить его перевод на русский таким образом.

Наверное, теоретически это реально, но совершенно неподьемно? Используется ли уже такой подход?

mihaild · 04.03.2022, 16:17

Не только реально, но и работает. Современные большие текстовые модели вполне в состоянии продолжить примерно так:

Цитата:

Source: Лондон - столица Великобритании.
Translation: London is the capital of Great Britain.
Source: У меня есть черная кошка.
Translation: I have a black cat.
Source: Большие текстовые модели хорошо умеют переводить тексты.
Translation: large textual models are good translators of texts.

Жирным выделен ответ модели, остальное - написанная мной "затравка".
Модель никто специально переводить не учил, она просто на гигантском корпусе текстов училась предсказывать следующее слово по предыдущим.

Но специально обученные для перевода модели работают существенно лучше и требуют меньше ресурсов, чем просто текстовые модели. Сейчас они как правило учатся отдельно просто на корпусе текстов вообще "понимать" язык, и отдельно дообучаются на задачу имено перевода.

Sender · 05.03.2022, 00:33

mihaild, впечатляюще. Это GPT-3 такое творит?

sergey zhukov · 05.03.2022, 12:08

mihaild
Интересно. У меня создается впечатление что в последние лет 10...15 в обучении нейронных сетей произошел практически качественный прорыв. Еще недавно мы говорили о том, что компьютер до сих пор не умеет нормально читать рукописный текст, разговаривает, как зомби, а про распознавание речи и говорить нечего. Но сегодня компьютеры делают это и многое другое легко. А кроме того, они уже могут делать вещи, которые вообще выглядят, как волшебство.

Скажем, невероятное увеличение разрешения изображения (прямо как в старых американских фильмах, где лицо преступника, снятое камерой видеонаблюдения с разрешением 30×30, удается "улучшить" до вполне приемлемого качества). Когда смотришь на демонстративные примеры, невольно думаешь: это явно сделано в обратном порядке.

Или замена лица в видео. Эта технология, на мой взгляд, еще вчера была достаточно кривой, но в один момент она стала настолько реалистичной, что без подсказки распознать подлог почти невозможно. Создание фотореалистичных лиц генерационными сетями - это тоже совершенно удивительно.

Качество машинного перевода недавно значительно улучшилось, это хорошо чувствуется.

Иногда возникает ощущение, что с помощью нейронных сетей уже все возможно. Интер- и экстраполяционные возможности нейронных сетей очень впечатляют. С другой стороны, нейронная сеть, это (в самом простом варианте) просто математическая функция с множеством входов и множеством выходов. Если я правильно понимаю, нейронная сеть - это самый обычный алгоритм с блоками условий и стрелками переходов (точнее, нечеткий алгоритм), только его построение выполняется необычным образом. Скажем, когда человек пишет алгоритм, то он рисует только нужные блоки и связи, по принципу "вставить только нужное". Когда же нейронная сеть проходит обучение, то она, можно сказать, наоборот, изначально слишком сложна, многосвязна и содержит много лишнего (ее заготовка представляет по сути матрицу, на которой можно реализовать всевозможные алгоритмы). Обучение идет по принципу "отсечь все лишнее".

На что в принципе способна и не способна нейронная сеть? Скажем, я вот еще ни разу не слышал интересной музыки, написанной компьютером. В чем там проблема?

mihaild · 05.03.2022, 12:58

Sender в сообщении #1549868 писал(а):

Это GPT-3 такое творит?

Да, слегка модифицированная.