Машинное обучение значительно повлияло на современный мир и наше представление о ближайшем будущем. Беспилотные автомобили, умные помощники на смартфонах и видеоаналитика – всё это примеры того, насколько далеко зашли технологии.
Однако из всех областей, где применяется машинное обучение, мало где есть такой потенциал для радикального реформирования мировой экономики, как у машинного перевода. Перевод с одного естественного языка на другой – это идеальная задача для машинного обучения, где качественные данные на входе в обучаемую систему играют важнейшую роль. Успеху проекта ImageNet по распознаванию объектов на фото и видео предшествовали долгие месяцы ручной подготовки данных для обучения, т.е. разметка фото и видеоматериалов. В случае с машинным переводом данные – оригинальные тексты и их переводы в цифровом формате – возникли ещё задолго до практического применения нейронных сетей. Сегодня благодаря объединению передовых технологий машинного обучения и качественных данных получается результат автоматического перевода, во многих случаях не уступающий по качеству переводу, выполненному человеком. Если учесть, что машины переводят с фантастической скоростью, превосходящей в сотни раз человеческие возможности, то можно утверждать, что преодоление языкового барьера из мечты и рекламного слогана превращается в реальность.
Стратегическая задача
Перевод можно назвать одной из важнейших стратегических задач в мире – на её решение власти и крупные компании всегда были вынуждены тратить значительные средства. Посмотрим на Европейский Союз. Единая валюта, общие границы, но разные языки. ЕС объединяет граждан из 28 стран и обязан обеспечить доступ к официальной информации на всех языках ЕС. Для решения этой задачи создано специальное ведомство – Генеральная дирекция Еврокомиссии по письменному переводу (Directorate-General Translation – DGT). Каждый год этой организации выделяется внушительный бюджет – в 2018 году только на письменный перевод он составил более 20 миллионов евро.
Ещё более серьезные бюджеты ЕС выделяет на программы по развитию научных исследований и технологий. Например, в 2016 году финансирование в рамках самой крупной рамочной программы EC для поддержки и поощрения исследований Horizon 2020 (общий бюджет программы на 7 лет составил 80 миллиардов евро) получил проект DANTE, объединивший 14 технологических компаний и представителей МВД ряда европейских стран. Цель проекта – создание платформы для поиска, сбора и анализа мультимедийных и мультиязычных данных из Интернета, включая Deep Web и Dark nets, направленных на пропаганду и финансирование террористической деятельности. Одним из важнейших компонентов платформы стал сервис машинного перевода текста и автоматически распознанной речи, работающий на технологиях российской компании PROMT. Благодаря Horizon 2020 многие IT-компании, работающие в области лингвистики – машинный перевод, распознавание речи, анализ неструктурированных данных – получили финансирование и поддержку для проведения исследований и разработки новых решений.
Коммерческие организации тоже активно вкладываются в индустрию перевода. Как следует из рейтинга исследовательской фирмы Nimdzi, выручка каждой из ста крупнейших переводческих компаний в мире составляет от 10 до 700 миллионов долларов, и по прогнозам аналитиков в будущем объёмы рынка услуг по переводу только вырастут. По данным Global Market Insights, Inc. к 2021 году объём мирового рынка лингвистических услуг составит 56 миллиардов долларов.
Business English, трудный китайский и другие языки
Запрос «Business English» встречается в поисковике Google более 8 миллиардов раз. Business English – это хороший товар, на котором многие зарабатывают, и, что важно, будут всегда зарабатывать – потому что торговля, сотрудничество между странами и регионами будет только расширяться, значит, потребность в знании английского будет только расти. Владение устным деловым английским – полезное и важное умение, но ещё чаще нужен письменный деловой английский для переписки, понимания технической и маркетинговой документации, локализации контента интернет-магазинов, товаров, сайтов и много другого. Именно здесь машинный перевод не просто помогает решать коммуникационные вопросы, налаживать документооборот и локализацию, но и обеспечивает конкурентное преимущество.
Английский также традиционно используется как язык-посредник, когда для обеих сторон деловых переговоров он не родной язык. Бюро переводов не только в Москве, Санкт-Петербурге, но и на Дальнем Востоке утверждают, что запросы к ним на перевод с и на китайский минимальны, основной иностранный язык – английский. И это несмотря на то, что в России Китай – абсолютный экономический лидер и в импорте, и в экспорте: по данным Российского экспортного центра (РЭЦ), товарооборот между нашей страной и Поднебесной в 2018 году составил 108 244,7 миллиона долларов, экспорт – 56 019,4 миллиона, а импорт – 52 225,4 миллиона.
Но в некоторых ситуациях язык-посредник не лучший вариант. Например, туризм. Китайский язык возглавляет топ-10 самых распространённых языков в мире – на нём говорит более миллиарда человек. Вместе с тем этот язык труден в изучении и даже занесён в Книгу рекордов Гиннесса как самый сложный с точки зрения европейцев. Значит, и здесь применение технологий – машинный перевод текста и речи на мобильных устройствах для обычных туристов, а также полиции, медиков, экстренных служб и любых других, связанных со сферой обслуживания – могло бы упростить взаимодействие и дать новые возможности для развития экономики.
Сейчас в мире насчитывается свыше 6500 живых языков. Треть всех языков составляют языки бедных или развивающихся регионов, которые находятся в стороне от глобального рынка. В 2012 году исследователи Boston Language Institute провели опрос предпринимателей и выяснили, что 64% респондентов считают языковой барьер серьёзным препятствием для доступа к иностранным рынкам. Большинство бизнесменов считают, что устранение языкового барьера способно увеличить доходы в несколько раз и значительно расширить клиентскую базу.
Нейросетевой машинный перевод
Машинный перевод стоит не так дорого, как работа профессиональных переводчиков, не говоря уже о том, что есть много задач по переводу, которые из-за объёмов контента и жестких сроков не могут быть решены с помощью человеческого труда. Но главное, что качество машинного перевода выходит на принципиально новый уровень – благодаря нейронным сетям.
Технологии перевода, которые использовались до нейронных сетей (RBMT, статистический машинный перевод) достигли достаточно высокого уровня преимущественно для gisting-задач (в лингвистике термин «gisting» означает перевод, достаточный для общего понимания текста). До появления нейросетевого перевода самый распространённый сценарий использования машинного перевода – это возможность быстро перевести текст, например, письмо, презентацию, новость, чтобы понять смысл или проверить, что смысл понят верно. Хотя и здесь были исключения – IT-компании, например, PayPal, PTC, «Лаборатория Касперского», CIsco, Adobe и другие давно и успешно используют машинный перевод для перевода документации. Процесс локализации в таком случае состоит из нескольких этапов: сначала машинный перевод, потом постредактирование и проверка переводчиком-редактором. Это помогает сократить сроки на подготовку документации и сэкономить от 15 до 30% на стоимости локализации документации к продуктам.
Но нейросетевые технологии помогают достичь ещё большего. С их помощью можно получить переводы так называемого publishing quality практически без участия человека, т.е. проверка результата человеком должна быть, но объём постредактирования существенно уменьшается или в нём вообще нет необходимости.
Нейронные сети, хотя и модная тема, но не такая уже новая – их разработкой специалисты занимаются более 70 лет. Однако первый переломный момент произошел действительно не так давно: в 2007 году в университете Торонто представили алгоритмы глубокого обучения многослойных нейронных сетей. Пять лет спустя исследователи того же университета научили глубинные нейронные сети распознавать объекты на фотографиях и видеозаписях с минимальным количеством ошибок. Так в мире начался бум нейросетей, новые технологии добрались и до машинного перевода. Важно отметить, что бум в исследованиях стал возможен в том числе и благодаря крупным международным опенсорсным проектам по машинному обучению, таким как, например, TensorFlow от компании Google. TensorFlow – программная библиотека для построения и тренировки нейросетей на данных разного типа – была изначально разработана для внутреннего использования, но в 2015 году была переведена в open source. TensorFlow, OpenNMT, Sockeye, Marian, Nematus и многие другие инструменты с открытой лицензией дали огромный толчок к развитию нейросетевого машинного перевода одновременно по всему миру.
Новый тренд подтверждается на практике. Каждый год Ассоциация компьютерной лингвистики (ACL) проводит семинар по машинному переводу, в рамках которого разработчики тренируют свои системы на предоставленных данных и демонстрируют результат. В основном разработчики представляли статистические системы машинного перевода, а в прошлом году большинство систем работало уже на нейронных сетях.
Нейросети позволили сделать колоссальный рывок в преодолении языковых барьеров. Уже сегодня машинный перевод без «машинного акцента» – реальность, благодаря возможностям обучения нейросетей можно переводить текст любой предметной области с высокой точностью, соблюдением терминологии и сохранением стилистики.
Обучение системы – один из важнейших этапов для получения качественного перевода сложных текстов. Для обучения нейронных моделей используют ранее сделанные переводы. Важно, чтобы данные для обучения соответствовали тематике тех текстов, которые впоследствии планируется переводить. Во время обучения система «запоминает» узкоспециализированную лексику и стиль – именно эта лексика и синтаксис будут в переводе.
Как измерить качество?
В индустрии перевода есть несколько общепринятых методов измерения качества машинного перевода. Первый метод называется BLEU, и основан он на автоматическом сравнении текста, переведённого машиной, с эталонным переводом, выполненным человеком. Чем ближе текст, переведённый машиной, к эталонному, тем выше показатели BLEU и тем лучше результат. Эксперты PROMT сделали более сотни таких сравнений для перевода с английского на русский на текстах заказчиков и получили такие данные: BLEU на переводах, основанных на классической технологии RBMT (Rule-Based Machine Translation) колеблется от 20 до 32 пунктов (bleuscores), а основанных на нейронных технологиях – от 30 до 58 пунктов.

Другой метод не просто оценивает качество перевода, но и одновременно оценивает объём работ, который должен выполнить специалист при редактировании результатов машинного перевода – так называемое «редакционное расстояние». Чем меньше это расстояние, тем ближе перевод к эталонному и тем меньше работы у редактора. По данным экспертов PROMT редакционное расстояние в машинном переводе на основе нейронных сетей уменьшается в полтора-два раза.
На практике это означает, что сроки подготовки перевода описаний продуктов, каталогов товаров, проектной и другой документации значительно сокращаются. При этом сокращаются и затраты на перевод в целом, потому что у редактора будет меньше работы по исправлению машинного перевода и подготовке финальных версий.
Для других задач, где достаточно перевода хорошего качества, но допустимы грамматические и стилистические неточности, труд редактора вообще не нужен. Пользователь машинного перевода – инженер, юрист, IT-специалист, аналитик, менеджер по продажам и любой другой сотрудник компании – может получить перевод действительно высокого качества и достаточный для его рабочих задач за считанные секунды или минуты, если речь идёт о многостраничных документах.
Новая экономика без языковых барьеров
Обмен документами и электронными сообщениями, обращения в государственные организации за разъяснениями или сопроводительными документами, юридическая помощь, локализация товаров и услуг, таможня – везде быстрый и точный перевод крайне важен. С учётом количества естественных языков в целом (английский, русский, французский, китайский…) и профессиональных вариантов в частности (язык юристов, маркетологов, финансистов, медиков…) мы получаем вавилонскую башню невиданных размеров.
Но у нейросетевого машинного перевода есть всё, чтобы уменьшить или даже разрушить эту башню и, в конечном итоге, устранить языковой барьер, как в свое время Интернету удалось устранить барьер географический.
Благодаря Интернету и всеобщей глобализации появились новые возможности для конкуренции – доступ к глобальному рынку получает всё больше компаний, независимо от капитала, ресурсов, политического влияния, географического положения. И, если сейчас этот доступ ограничен языковым барьером, то в самом ближайшем будущем – благодаря технологиям нейросетевого машинного перевода – и это ограничение исчезнет.
Об авторе: Юлия Епифанцева – директор по развитию бизнеса PROMT. Окончила филфак СПбГУ. Разработчик технологий машинного перевода.