ABBYY наконец объявила о выходе на рынок технологии машинного перевода Compreno. Работали над ней 16 лет и вложили, считая вместе со сколковским грантом в 475 миллионов рублей, никак не менее 70 миллионов долларов. По калифорнийским меркам, может, и не так много, но в наших широтах инвестиции выдающиеся.
Технология тоже выдающаяся, такой нигде больше нет. Вспоминается цитата из «Понедельника…» Стругацких: «А вот попробуйте найти глубокую внутреннюю связь между сверлящим свойством взгляда и филологическими характеристиками слова «бетон», попробуйте решить эту маленькую частную проблемку…» Что-то подобное в ABBYY как раз и сделали.
Взгляните на образцы перевода, выполненного Compreno:
- To have another language is to possess a second soul.
Иметь другой язык – это владеть второй душой. - A sheep baas, but sheep baa.
Овца блеет, но овцы блеют. - The pools do not constitute separate entities and are not directly accessible to investors.
Пулы не составляют отдельные организации и не напрямую доступны для инвесторов. - The biggest drop in exports in more than two years is the main reason economists expect weaker second-quarter growth.
Самое большее снижение в экспорте более чем за два года является главной причиной, по которой экономисты ожидают более слабый рост на второй квартал. - The time it takes to develop a program depends upon the size (and the complexity) of the components
Время, которое требуется, чтобы разработать программу, зависит от размера (и сложности) компонентов.
Google Translate такое не под силу. Проэкспериментировал с ним специально для этого текста, и вот что вышло, см. скриншот. Честное слово, не нарочно. Конечно, пытался подловить Google Translate на обработке отрицаний (ахиллесова пята статистических систем машинного перевода), однако на столь наглядный пример не рассчитывал.
В ABBYY утверждают, что вплотную приблизились к машинному «пониманию» текста, написанного на естественном языке, причем непринципиально, на каком именно.
В основе Compreno – независимая от конкретного языка «универсальная семантическая иерархия» понятий. Пояснять придется на примере. Возьмем глагол «владеть». Он присутствует во всех языках и вполне определенным образом соотносится с другими универсальными смысловыми понятиями: временем, ситуацией, имуществом, знаниями etc. В одном контексте «владеть» означает обладание, в другом – контроль, в третьем – не имеет буквального смысла, или этот смысл зависит конкретного языка («владеть собой»). Однако «владеть» хранит свой универсальный смысл, единый для всех языков. Не будь этого, задача перевода была бы в принципе неразрешима – ни для машины, ни для человека.
Фонетики и лексики у универсальной семантической иерархии, разумеется, нет. Она лишь абстракция, математическая конструкция, которая позволяет машине добраться до смысла текста. Если на универсальном семантическом дереве развесить листочки – слова двух языков, появится возможность перевода с одного языка на другой с гарантированным сохранением смысла сказанного.
Конечно, много чего кроется в деталях. Например, «table» – и «таблица», и «стол». Если во фразе с «table» связан глагол «сидеть» – значит, «стол». «Заполнять» – таблица. Compreno цепляется за смысл каждого слова, и число вариантов разбора предложения становится обозримым. Получается универсальное, не зависящее от языка представление предложения, от которого можно переходить к синтезу текста на другом языке. Если же Compreno допускает два смысловых толкования фразы, она оказывается двусмысленной и для человека. Пример: «Мальчик положил книгу на стол, он подошел к этажерке». К этажерке мог подойти и мальчик (ногами), и стол (по стилю, внешнему виду).
Google Translate действует совершенно иначе. Он прибегает к статистическому анализу корпуса текстов, переведенных человеком, и выуживает оттуда шаблоны для будущих машинных переводов. Непреодолимые проблемы такого подхода – упомянутая уже работа с отрицаниями (поди пойми, тиран Обама или не тиран, проклятое «не» стоит где хочет, плевать ему на статистику) и, главное, невозможность обучить систему в тех случаях, когда нет достаточного материала для предварительной обработки (о переводе с языков малых народов можно сразу забыть).
Абстрактных сравнений моделей перевода в пользу отечественного разработчика, понятно, для счастья недостаточно – Compreno еще продать надо. Удачи ABBYY.