Китайцы научили ИИ понимать язык лучше среднего человека. Под катом - подробности.
(Оффтоп)
В декабре ИТ-гигант Baidu, китайский эквивалент Google, без лишнего шума обошел западных конкурентов в гонке искусственного интеллекта. Точнее, в соревновании по пониманию языка GLUE (General Language Understanding Evaluation). Их новый алгоритм понимает естественный язык лучше, чем средний человек.
GLUE оценивает, насколько хорошо ИИ понимает человеческий язык. Состязание состоит из девяти различных тестов — надо выделить в предложении имена собственные или определить, на что указывает местоимение. Модель, заработавшая больше всего баллов, способна выполнять сложные задачи по пониманию текста. Средний человек тоже может пройти этот тест и обычно набирает 87 баллов из 100. ERNIE, модель Baidu получила 90.
Рейтинг чемпионов GLUE постоянно меняется, и в скором времени, скорее всего, другая команда потеснит Baidu. Однако достижение китайских разработчиков иллюстрирует то, как расширение географии участников идет на пользу исследованиям в области ИИ. Для того чтобы создать ERNIE, специалистам Baidu пришлось разработать языковую модель для китайского языка. Но оказалось, что она лучше понимает и английский.
Предшественником ERNIE был BERT, модель естественного языка, разработанная в Google в 2018. Она стала прорывом — ее предшественники учились предсказывать и интерпретировать значения слов, по контексту, расположенному либо до, либо после этого слова. BERT учитывал контекст в обоих направлениях, применяя метод наложения маски. В отрывке текста он случайным образом прятал 15% слов, а затем пытался предсказать их по оставшимся. Это позволяет делать более точные предсказания.
Специалисты Baidu тоже решили применить метод наложения маски, но им пришлось переработать его под китайский язык. В английском слово выступает семантической единицей: даже если лишить его контекста, оно сохранит свое значение. Но в китайском это не так. У некоторых иероглифов есть собственное значение, но у большинства — пока они не соединятся друг с другом — нет. Поэтому маска у ERNIE работала иначе — она прятала части иероглифов.
В результате ERNIE стал точнее предсказывать отсутствующие элементы. Такой подход оказался полезен при переводе текстов на другие языки и при восстановлении информации с бумажных носителей. Кроме того, исследователи быстро поняли, что метод лучше работает и для английского языка, в котором тоже бывают идиоматические выражения, которые отличаются по смыслу от суммы значений составляющих их слов.
В «обычной жизни» ERNIE помогает пользователям получить более точные результаты поисковых запросов и повышает способность виртуального помощника Сяо Ду точно отвечать за вопросы.
Источник: Хайтек+