Об оценке качества машинного перевода

2194

Вопросы качества машинного перевода всегда вызывали большой интерес как у обычных пользователей, так и у профессиональных переводчиков. Многие интернет-издания нет-нет да и выложат подборку смешных переводов, якобы сделанных с помощью того или иного онлайн-сервиса. Как правило, именно фразы с некорректным переводом пользуются большой популярностью в Рунете, как это, например, случилось со знаменитой фразой о котенке-афроамериканце в переводе сервиса translate.ru: Our cat gave birth to three kittens – two whites and one black – Наша кошка родила трех котят – двух белых и одного афроамериканца. Пользователи Рунета любят проверять качество автоматического переводчика через перевод текста с русского на английский и обратно, надеясь найти 100-процентное совпадение в стиле или смысле исходной русской фразы и ее переводе через иностранный.

Если говорить о более объективных оценках качества перевода, то, например, в связи с развитием статистического машинного перевода, для которого вместо словарей перевода использую корпуса (или базы) параллельных текстов, была разработана специальная метрика для оценки качества перевода – BLEU. Эту метрику создали сотрудники IBM, чтобы отслеживать на больших объемах результат изменений в переводе в процессе разработки системы (как меняется перевод при добавлении новых корпусов текстов для тренировки системы, при изменении программного кода и т.д.).

Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения человеческого перевода и машинного перевода и поиска общих фрагментов. Основная идея состоит в том, что чем больше совпадений, тем лучше перевод.

Не вдаваясь в технологические тонкости, можно сказать, что данная метрика на практике объективна только для статистических или гибридных систем и для языков с неразвитой морфологической структурой, поэтому для перевода на русский эта метрика всегда показывает не такой высокий результат перевода как, например, при переводе на английский или французский. Тем не менее, метрика очень популярна среди специалистов, так как все-таки позволяет хоть как-то сравнивать разные системы или разные версии систем.

Chinese_Language_Translator

У профессионалов перевода существуют свои технологии для измерения качества машинного перевода. Например, в локализационных компаниях или в бюро перевода, применяющих машинный перевод, используется технология post-editing distance. С помощью данной технологии измеряют посимвольно, сколько изменений было сделано редактором в машинном переводе, прежде чем этот перевод был отредактирован до фактически и стилистически верного. Таким образом, тестируют, например, целесообразность использования машинного перевода в переводческих проектах или сравнивают разные системы машинного перевода, чтобы выбрать лучшую. Чем меньше пришлось редактору исправлять текст, тем лучше система. А если все переводы пришлось переписывать, значит, машинный перевод на данных текстах неэффективен или он был недостаточно настроен.

Нужно, однако, отметить, что экспертная оценка качества перевода по-прежнему пользуется бОльшим доверием, хотя с ней же связана проблема субъективности в оценке качества. МП почти всегда не идеален, поэтому требуются определенные знания и здравый смысл, чтобы оценить результат работы компьютерной программы. И там, где один специалист скажет, что перевод понятен и приемлем, для другого он будет «невозможен» с точки зрения стиля и грамматики.

Один из способов борьбы с экспертной субъективностью –привлечение большого количества экспертов (или даже просто носителей языка), т.е. использование популярного сейчас краудсорсинга. Именно такой способ оценки качества автоматического перевода, полученного с помощью разных систем, используется в конкурсе, который проводится ежегодно в рамках Семинара по статистическому машинному переводу.

Конкурс организуется и проходит под эгидой Ассоциации компьютерной лингвистики (ACL), основанной еще в 1962 году. Она ведет большую научную и прикладную деятельность, в частности, проводит ежегодные конференции для специалистов в области компьютерной лингвистики и обработки информации на естественных языках, конкурсы систем машинного перевода и выпускает с 1974 года журнал Computational Linguistics.

Конкурс машинных переводчиков организован следующим образом: организаторы выкладывают в открытый доступ корпуса параллельных текстов и программные средства для создания систем статистического машинного перевода или тренировки на этих корпусах любых других систем машинного перевода.

Принять участие в конкурсе могут все желающие, количество участников доходит полутора сотен. Обычно участвуют лаборатории различных университетов (из Англии, Германии, Швеции, Австралии и других стран), занимающиеся исследованием и разработкой статистических систем перевода в научных целях, и разработчики коммерческих систем (SYSTRAN, PROMT).

Кроме того, организаторы используют переводы известных онлайн-сервисов. Языковые пары и их количество варьируется от года к году, но обычно это перевод с английского на французский, испанский, немецкий и наоборот. Также ежегодно добавляются некоторые «редкие» языки – чешский, хинди. В 2013 году в конкурсе впервые был представлен русский язык, и сразу стал лидером по числу представленных систем. А в 2011 году был, например, устроен специальный конкурс в рамках основного конкурса для перевода с гаитянского креольского на английский.

Введение специального конкурса было связано с землетрясением 2010 года на Гаити и нашумевшей статьей двух исследователей из Стэнфордского университета и из Microsoft о создании статистической системы машинного перевода на основе имеющихся разработок фактически за несколько дней.

Нужно было создать систему автоматического перевода для облегчения работы спасателей, на бесплатный номер которых гаитяне отправляли SMS-сообщения с просьбами о помощи. Сообщения были преимущественно на гаитянском креольском, а спасатели не владели этим языком. Так как основная проблема при создании статистического переводчика – это наличие больших объемов текстов на одном языке и их переводов для другой, а для гаитянского креольского такие данные практически отсутствуют, то разработчикам пришлось срочно решить эту задачу. Они привлекли добровольцев, некоторые переводческие агентства для перевода уже имеющихся SMS-сообщений с гаитянского креольского на английский. Сообщения и их переводы и послужили основой для настройки («тренировки») системы. Конечно, такая система не может переводить ничего, кроме коротких сообщений, так или иначе связанных с землетрясением, но задача стояла именно так.

Как понятно из этой истории, выбор языковых пар для конкурса обусловлен в первую очередь наличием параллельных текстов, необходимых для тренировки систем машинного перевода. Поэтому в первую очередь используются тексты стенограммы заседаний и тексты документов Европарламента, доступные как раз для основных европейских языков, а также новостные тексты.

В качестве русскоязычных источников использовались статьи из «Аргументов и фактов», «Известий», «Росбалта», «Вестей» и русской службы BBC. Новости в качестве объектов для тренировки систем имеют свою специфику, так как перевод может быть довольно вольным и больше походить нам пересказ, чем на перевод. Поэтому участники конкурса демонстрируют свое мастерство, придумывая и применяя алгоритмы для выделения именно параллельной (общей) части из текстов.

Надо сказать, что в этот период участники много общаются между собой и с организаторами по поводу исходных данных, так как, выражаясь на профессиональном сленге, они «грязные», т.е. могут содержать непереведенные сегменты, технические символы и другие особенности, которые отрицательно сказываются на качестве перевода.

В определенный момент организаторы публикуют тестовый корпус текстов для перевода. Участники конкурса должны подготовить автоматический перевод этого корпуса своими системами в течение недели и разместить на сайте организаторов.

Затем идет этап экспертной оценки, во время которого эксперты, среди которых могут быть и участники конкурса, добровольцы, сравнивают и оценивают переводы друг с другом. Оценка производится через веб-интерфейс специально разработанной системы для оценки переводов — Amazon Mechanichal Turk (краудсорсинговый сервис от компании Amazon) и представляет собой некоторый нормализованный коэффициент сравнения вариантов переводы, выполненных различными системами.

"Механический турок"
«Механический турок»

Переводы всех участников анонимны, поэтому эксперт не знает, с помощью какой системы получен перевод. Оценка производится таким образом: эксперт видит исходное предложение, несколько автоматических переводов и человеческий перевод исходного предложения. Задача состоит в том, чтобы ранжировать (разместить в порядке от лучшего к худшему) автоматические переводы. После этого организаторы обобщают результаты оценки по всем участникам, подводят итоги и публикуют их на своем сайте.

Первый раз российская компания PROMT оказалась участником конкурса в 2011 году. Компания представила настроенный перевод для англо-испанской системы и заняла четвертое место из 15. Организаторы также сделали переводы на сервисе компании online-translator.com (это интернациональная версия сервиса translate.ru, принадлежит PROMT) с английского на еще несколько языков. Онлайн-сервис, конечно, предварительно никак не был «натренирован», но взял первое место при переводе с английского на немецкий.

В 2013 году организаторы, как уже было сказано, выложили данные и для русского языка, и появилась возможность участвовать в конкурсе с переводом с английского на русский. По результатам конкурса в 2013 и в 2014 году у технологии PROMT первое место для перевода с английского на русский.

Русский и немецкий, конечно, не самые сложные языки для перевода с английского, перевод на арабский сложнее, но все же получить качественный перевод на эти языки труднее, чем, например, на французский. И в русском, и в немецком развитая падежная система, много окончаний, в немецком предложении строгий порядок слов – все это создает дополнительные трудности разработчикам.

Качество машинного перевода за последнее десятилетие заметно выросло. В первую очередь это связано с развитием технологий, с доступностью больших текстовых данных для анализа и тренировки систем, а также с тем, что накопленный опыт практического применения (в коммерческих компаниях, у частных пользователей, на онлайн-сервисах) позволяет разработчикам получать ценную информацию об использовании технологии для решения разных задач и использовать этот опыт в дальнейших разработках.

Об авторе:

Юлия Епифанцева, директор по развитию бизнеса PROMT.

Окончила филфак СПбГУ. Разработчик технологий машинного перевода.

Научная деятельность и участие в конференциях в последние годы:

  • 2010 г. — Берлин, конференция Translingual Europe 2010. Доклад: Flexible and efficient management of translation quality
  • 2011 г. — Москва, конференция «Российские интернет-технологии» (РИТ++/2011). Доклад: Гибридная технология перевода
  • 2011 г. — Москва, конференция Docflow. Доклад: Внедрение решений по машинному переводу на примере Adobe и ФГУ ФИПС
  • 2011 г. — Санкт-Петербург, конференция Translation Forum Russia. Доклад: Перевод с гибридным приводом
  • 2011 г. — Санта-Клара, Калифорния, TAUS User Conference 2011. Доклад: MT Use cases
  • 2012 г. — Сиэтл, США, TAUS User Conference 2012. Доклад: Machine Translation of User Generated Content