В России создан смысловой процессор

ABBYY наконец объявила о выходе на рынок технологии машинного перевода Compreno. Работали над ней 16 лет и вложили, считая вместе со сколковским грантом в 475 миллионов рублей, никак не менее 70 миллионов долларов. По калифорнийским меркам, может, и не так много, но в наших широтах инвестиции выдающиеся.

Технология тоже выдающаяся, такой нигде больше нет. Вспоминается цитата из «Понедельника…» Стругацких: «А вот попробуйте найти глубокую внутреннюю связь между сверлящим свойством взгляда и филологическими характеристиками слова «бетон», попробуйте решить эту маленькую частную проблемку…» Что-то подобное в ABBYY как раз и сделали.

Взгляните на образцы перевода, выполненного Compreno:

  1. To have another language is to possess a second soul.
    Иметь другой язык – это владеть второй душой.
  2. A sheep baas, but sheep baa.
    Овца блеет, но овцы блеют.
  3. The pools do not constitute separate entities and are not directly accessible to investors.
    Пулы не составляют отдельные организации и не напрямую доступны для инвесторов.
  4. The biggest drop in exports in more than two years is the main reason economists expect weaker second-quarter growth.
    Самое большее снижение в экспорте более чем за два года является главной причиной, по которой экономисты ожидают более слабый рост на второй квартал.
  5. The time it takes to develop a program depends upon the size (and the complexity) of the components
    Время, которое требуется, чтобы разработать программу, зависит от размера (и сложности) компонентов.

Google Translate такое не под силу. Проэкспериментировал с ним специально для этого текста, и вот что вышло, см. скриншот. Честное слово, не нарочно. Конечно, пытался подловить Google Translate на обработке отрицаний (ахиллесова пята статистических систем машинного перевода), однако на столь наглядный пример не рассчитывал.

google_trans

В ABBYY утверждают, что вплотную приблизились к машинному «пониманию» текста, написанного на естественном языке, причем непринципиально, на каком именно.

В основе Compreno – независимая от конкретного языка «универсальная семантическая иерархия» понятий. Пояснять придется на примере. Возьмем глагол «владеть». Он присутствует во всех языках и вполне определенным образом соотносится с другими универсальными смысловыми понятиями: временем, ситуацией, имуществом, знаниями etc. В одном контексте «владеть» означает обладание, в другом – контроль, в третьем – не имеет буквального смысла, или этот смысл зависит конкретного языка («владеть собой»). Однако «владеть» хранит свой универсальный смысл, единый для всех языков. Не будь этого, задача перевода была бы в принципе неразрешима – ни для машины, ни для человека.

Фонетики и лексики у универсальной семантической иерархии, разумеется, нет. Она лишь абстракция, математическая конструкция, которая позволяет машине добраться до смысла текста. Если на универсальном семантическом дереве развесить листочки – слова двух языков, появится возможность перевода с одного языка на другой с гарантированным сохранением смысла сказанного.

Конечно, много чего кроется в деталях. Например, «table» – и «таблица», и «стол». Если во фразе с «table» связан глагол «сидеть» – значит, «стол». «Заполнять» – таблица. Compreno цепляется за смысл каждого слова, и число вариантов разбора предложения становится обозримым. Получается универсальное, не зависящее от языка представление предложения, от которого можно переходить к синтезу текста на другом языке. Если же Compreno допускает два смысловых толкования фразы, она оказывается двусмысленной и для человека. Пример: «Мальчик положил книгу на стол, он подошел к этажерке». К этажерке мог подойти и мальчик (ногами), и стол (по стилю, внешнему виду).

Google Translate действует совершенно иначе. Он прибегает к статистическому анализу корпуса текстов, переведенных человеком, и выуживает оттуда шаблоны для будущих машинных переводов. Непреодолимые проблемы такого подхода – упомянутая уже работа с отрицаниями (поди пойми, тиран Обама или не тиран, проклятое «не» стоит где хочет, плевать ему на статистику) и, главное, невозможность обучить систему в тех случаях, когда нет достаточного материала для предварительной обработки (о переводе с языков малых народов можно сразу забыть).

Абстрактных сравнений моделей перевода в пользу отечественного разработчика, понятно, для счастья недостаточно – Compreno еще продать надо. Удачи ABBYY.

Следите за нашим Телеграм-каналом, чтобы не пропускать самое важное!

Поделиться: