2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Машинный перевод без примеров
Сообщение04.03.2022, 15:58 


17/10/16
3893
В статьях по истории машинного перевода прослеживается направление давать компьютеру все меньше априорной информации и заставлять его все больше самостоятельно извлекать словарь и правила из примеров уже сделанного людьми перевода (при помощи статистических, вероятностных методов). Примерно как с шахматным компьютером, которому можно дать всего лишь правила перемещения фигур, а затем заставить его сыграть миллионы партий с самим собой и пусть он сам извлечет из этого всю шахматную премудрость. Ему даже не нужно изучать игры шахматистов.

Как я понял, для обучения статистического переводчика все же необходимы примеры переводов, сделанные людьми. Но в одной из лекций по машинному обучению я услышал, что можно обойтись и без этого. Если у нас какой-либо корпус текстов на одном языке, и какой-либо другой корпус текстов на другом языке (причем это разные тексты, они не являются переводами друг-друга), то можно заставить компьютер при помощи тех же статистических методов научиться отображать один текст на другой и наоборот. Можно извлечь словарь и правила перевода для двух языков, которые никто и никогда вообще не переводил друг на друга (ни прямо, ни косвенно). Скажем, если бы у нас были огромные архивы текстов на этрусском языке, то мы смогли бы теоретически выполнить его перевод на русский таким образом.

Наверное, теоретически это реально, но совершенно неподьемно? Используется ли уже такой подход?

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение04.03.2022, 16:17 
Заслуженный участник
Аватара пользователя


16/07/14
8346
Цюрих
Не только реально, но и работает. Современные большие текстовые модели вполне в состоянии продолжить примерно так:
Цитата:
Source: Лондон - столица Великобритании.
Translation: London is the capital of Great Britain.
Source: У меня есть черная кошка.
Translation: I have a black cat.
Source: Большие текстовые модели хорошо умеют переводить тексты.
Translation: large textual models are good translators of texts.
Жирным выделен ответ модели, остальное - написанная мной "затравка".
Модель никто специально переводить не учил, она просто на гигантском корпусе текстов училась предсказывать следующее слово по предыдущим.

Но специально обученные для перевода модели работают существенно лучше и требуют меньше ресурсов, чем просто текстовые модели. Сейчас они как правило учатся отдельно просто на корпусе текстов вообще "понимать" язык, и отдельно дообучаются на задачу имено перевода.

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение05.03.2022, 00:33 


14/01/11
2916
mihaild, впечатляюще. Это GPT-3 такое творит?

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение05.03.2022, 12:08 


17/10/16
3893
mihaild
Интересно. У меня создается впечатление что в последние лет 10...15 в обучении нейронных сетей произошел практически качественный прорыв. Еще недавно мы говорили о том, что компьютер до сих пор не умеет нормально читать рукописный текст, разговаривает, как зомби, а про распознавание речи и говорить нечего. Но сегодня компьютеры делают это и многое другое легко. А кроме того, они уже могут делать вещи, которые вообще выглядят, как волшебство.

Скажем, невероятное увеличение разрешения изображения (прямо как в старых американских фильмах, где лицо преступника, снятое камерой видеонаблюдения с разрешением 30×30, удается "улучшить" до вполне приемлемого качества). Когда смотришь на демонстративные примеры, невольно думаешь: это явно сделано в обратном порядке.

Или замена лица в видео. Эта технология, на мой взгляд, еще вчера была достаточно кривой, но в один момент она стала настолько реалистичной, что без подсказки распознать подлог почти невозможно. Создание фотореалистичных лиц генерационными сетями - это тоже совершенно удивительно.

Качество машинного перевода недавно значительно улучшилось, это хорошо чувствуется.

Иногда возникает ощущение, что с помощью нейронных сетей уже все возможно. Интер- и экстраполяционные возможности нейронных сетей очень впечатляют. С другой стороны, нейронная сеть, это (в самом простом варианте) просто математическая функция с множеством входов и множеством выходов. Если я правильно понимаю, нейронная сеть - это самый обычный алгоритм с блоками условий и стрелками переходов (точнее, нечеткий алгоритм), только его построение выполняется необычным образом. Скажем, когда человек пишет алгоритм, то он рисует только нужные блоки и связи, по принципу "вставить только нужное". Когда же нейронная сеть проходит обучение, то она, можно сказать, наоборот, изначально слишком сложна, многосвязна и содержит много лишнего (ее заготовка представляет по сути матрицу, на которой можно реализовать всевозможные алгоритмы). Обучение идет по принципу "отсечь все лишнее".

На что в принципе способна и не способна нейронная сеть? Скажем, я вот еще ни разу не слышал интересной музыки, написанной компьютером. В чем там проблема?

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение05.03.2022, 12:58 
Заслуженный участник
Аватара пользователя


16/07/14
8346
Цюрих
Sender в сообщении #1549868 писал(а):
Это GPT-3 такое творит?
Да, слегка модифицированная.
sergey zhukov в сообщении #1549877 писал(а):
У меня создается впечатление что в последние лет 10...15 в обучении нейронных сетей произошел практически качественный прорыв
Это правда.
sergey zhukov в сообщении #1549877 писал(а):
Скажем, невероятное увеличение разрешения изображения (прямо как в старых американских фильмах, где лицо преступника, снятое камерой видеонаблюдения с разрешением 30×30, удается "улучшить" до вполне приемлемого качества).
А вот это не совсем правда. Нейросеть может нарисовать реалистичную картинку, которая в низком разрешении будет выглядеть как данная, но восстановить исходное изображение не может - она по сути "придумывает" что-то похожее (и для лиц эту задачу даже называют face hallucination).
Изображение
Обратите внимание, что модель, например, убрала сережку, немного поменяла изгиб губ и цвет помады на верхней фотографии, и кардинально поменяла прическу на нижней.
sergey zhukov в сообщении #1549877 писал(а):
С другой стороны, нейронная сеть, это (в самом простом варианте) просто математическая функция с множеством входов и множеством выходов
Вся вселенная - это математическая функция:)
sergey zhukov в сообщении #1549877 писал(а):
ее заготовка представляет по сути матрицу, на которой можно реализовать всевозможные алгоритмы
Не совсем так. Современные архитектуры, основанные на attention (а почти все нынешние впечатляющие штуки его используют) как раз заточены под определенный класс алгоритмов - грубо говоря, нам на каждом шаге нужно посмотреть на какой-то небольшой кусок входных данных, но в разные моменты на разные куски. Полносвязные сети, в которых одинаково представляются вообще любые зависимости, работают существенно хуже.
sergey zhukov в сообщении #1549877 писал(а):
Скажем, я вот еще ни разу не слышал интересной музыки, написанной компьютером. В чем там проблема?
В определении "интересной музыки".

Вообще все примеры генерации всё еще можно отличить даже на глаз, если знать, куда смотреть https://www.media.mit.edu/projects/dete ... /overview/. И скорее всего так будет еще довольно долго.

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение05.03.2022, 16:48 


12/07/15
2907
г. Чехов
Прорыв не сколько благодаря алгоритмам, сколько благодаря количеству данных. Не все это понимают.

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение05.03.2022, 17:58 
Заслуженный участник
Аватара пользователя


16/07/14
8346
Цюрих
Mihaylo в сообщении #1549885 писал(а):
Прорыв не сколько благодаря алгоритмам, сколько благодаря количеству данных
Очень спорно. Трансформеры работают гораздо лучше даже при меньшем объеме данных, чем рекуррентные сети. Кроме того, их еще и можно учить на большем объеме данных, чем рекуррентные сети, но это тоже благодаря алгоритмам - классическую LSTM с числом параметров, близким к числу параметров GPT-3, обучить на том объеме данных, на котором училась GPT-3, невозможно, и вряд ли станет возможным в ближайшие годы.
Аналогичная ситуация со сверточными и полносвязными сетями.

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение06.03.2022, 05:23 


17/10/16
3893
mihaild
Если потренироваться, то, наверное, можно замечать такие подделки быстрее. Но не настолько это просто, как мне кажется. Многим, я думаю, даже в голову не приходит, что видео вообще можно подделывать настолько хорошо. Т.е. все, конечно, смотрели современные фильмы, но мы еще не привыкли в тому, что подобные вещи теперь стали гораздо доступнее и проще и могут легко применяться для дезинформации, т.е. подаваться не в кинотеатре, а под видом, скажем, новостных репортажей. Т.е. начиная смотреть фильм, мы заранее готовы увидеть что угодно. Нет необходимости быть постоянно настороже и отличать реальность от нарисованного. Но невозможно же постоянно настолько критично относится к тому, что ты видишь.

Я по крайней мере с тестом на этом сайте справился не лучшим образом. В ближайшем будущем на глаз уже ничего нельзя будет отличить, по моему. Т.е. при идеальных условиях, зная куда смотреть, просматривая видео многократно (а еще лучше, анализируя его при помощи других нейронных сетей) может это и всегда будет возможно. Но эта задача будет становиться все труднее, так что не профессионал ничего заметить уже не сможет.

Например, я уверен, что абсолютное большинство людей и глазом не моргнуло бы, посмотрев, скажем, вот это (разумеется, это видео нарочно сделано так, что его поддельность очевидна, но она очевидна вовсе не из-за технического несовершенства, а просто потому, что мы знаем, кто такой Джим Керри):
https://youtu.be/1fDIhVe6r3c

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение06.03.2022, 09:39 
Заслуженный участник


16/02/13
4105
Владивосток
Ну, не знаю. Джима Керри я, конечно, узнал, но даже если б не, какая-то мужиковатость режет глаз, имхо.
Касательно переводов — ну, не знаю. Лет двадцать назад попробовал попользоваться переводчиком. Ровно до фразы «Заключённый, подозреваемый в... (длинный список), бежал из тюрьмы» — «Prisoner believed in... (ну и так далее)», которую компьютер начал как «Заключённый верил в...» — тут дальнейший перевод вместе с переводчиком пошёл в помойку и я предпочёл далее пользоваться своим околонулевым знанием английского, ибо результат получался заметно лучше. Пробовал с тех пор вбивать эту фразу (ну как запомнил) во всякие другие переводчики — увы...

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение06.03.2022, 12:23 
Заслуженный участник
Аватара пользователя


16/07/14
8346
Цюрих
sergey zhukov в сообщении #1549893 писал(а):
В ближайшем будущем на глаз уже ничего нельзя будет отличить, по моему
Неизвестно. Всё же deep fake учится обманывать другие нейросети в первую очередь. Нейросети и люди воспринимают изображение по-разному, и вполне возможно что идеальные с точки зрения нейросетей подделка всё еще в основном легко определяются человеком на глаз.
sergey zhukov в сообщении #1549893 писал(а):
анализируя его при помощи других нейронных сетей
Это кстати сейчас активно развивающаяся область. Нейросети "ленивые" (любят оставлять закономерности), и научиться определять выход конкретной модели - задача не особо сложная, но совсем простые подходы ломаются даже если просто переобучить генератор. Ну и естественно под хороший дискриминатор всегда можно научить свой генератор...
iifat в сообщении #1549901 писал(а):
Prisoner believed in
А точно такое выражение вообще используется? Гугл по цитате ничего подходящего не находит.

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение06.03.2022, 13:56 
Заслуженный участник


16/02/13
4105
Владивосток
mihaild в сообщении #1549903 писал(а):
точно такое выражение вообще используется?
Лет двадцать назад в газетных новостях использовалось.
Кстати, спасибо за сомнения, полез проверять — и Яндекс, и Гугл переводят правильно. Ещё лет десять назад врали.

 Профиль  
                  
 
 Re: Машинный перевод без примеров
Сообщение06.03.2022, 16:22 
Заслуженный участник
Аватара пользователя


16/07/14
8346
Цюрих
iifat в сообщении #1549907 писал(а):
Ещё лет десять назад врали
Там было два существенных изменения: в 2016, когда наконец смогли заставить нейросети работать (до того они были хуже чем аккуратно настроенные пословные методы с правилами), и в 2018, когда стали использовать трансформеры.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 12 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group