«Яндекс.Переводчик» встроили в «Википедию»

«Википедия» встроила машинный перевод от «Яндекса», доступный тем пользователям, кто зарегистрирован в русскоязычном сегменте онлайн-энциклопедии, сказано в сообщении «Яндекса».

Сейчас в «Википедии» 1,2 миллиона статей на русском языке. Теперь, при желании опубликовать интересную англоязычную статью на русском, черновой перевод может сделать машина, а вам «останется только довести текст до ума», говорится в сообщении. В интерфейсе «Википедии» перед глазами у пользователя сразу две статьи — оригинал и перевод. Кроме того, при переводе сохраняется форматирование текста и ссылки.

"Яндекс.Переводчик", встроенный в "Википедию"
“Яндекс.Переводчик”, встроенный в “Википедию”

Переводчик встроен в «Википедию» с помощью API. Это программный интерфейс, который дает доступ к сервису. «Яндекс» отдал «Википедии» API без ограничений по набору языков. Пока она использует его для перевода с английского на русский. Всего их более шестидесяти.

API перевода применяется в «Яндекс.Почте», «Яндекс.Браузере», а также в сервисах и приложениях сторонних разработчиков. В частности, его используют LinguaLeo и Массачусетский технологический институт, говорится в сообщении.

Читайте также «Об оценке качества машинного перевода» >>>

Справка

По информации «Яндекса», компания внедрила собственную систему машинного перевода в начале 2011 года. Сейчас сервис “Яндекс.Переводчик” работает с основными европейскими языками и умеет переводить, например, с английского на испанский и обратно.

Машинный перевод “Яндекса” — статистический. Такой перевод основывается не на правилах языка (системе эти правила даже не известны), а на статистике. Чтобы выучить язык, система сравнивает сотни тысяч параллельных текстов — содержащих одну и ту же информацию, но на разных языках. Это могут быть, например, большие тексты с разноязычных версий сайтов организаций. Изначально система находит параллельные тексты по адресам документов — чаще всего такие адреса различаются только пометками, например, «en» или «us» для английской версии и «ru» для русской.

Для каждого изученного текста система строит список уникальных признаков. Это могут быть редко используемые слова, числа, специальные знаки, находящиеся в тексте в определённой последовательности. Когда система набирает достаточное количество текстов с признаками, она начинает искать параллельные тексты и с их помощью — сравнивая признаки новых текстов и уже изученных.

Чтобы переводчик соответствовал современным стандартам качества, система должна изучить сотни миллионов фраз на разных языках. Это требует очень серьёзных ресурсов: много места на жёстких дисках, много оперативной памяти и так далее.