Технология распознавания речи группы компаний ЦРТ победила на международном конкурсе CHiME

1352

Технология распознавания речи, созданная группой компаний ЦРТ (на 51% принадлежит Сбербанку), признана лучшей на международном конкурсе CHiME Speech Separation and Recognition Challenge (CHiME-6), сообщает Сбербанк.

Группа ЦРТ показала наилучшие результаты тестов в самой сложной задаче конкурса – на распознавание английской речи с нескольких микрофонов в условиях естественной обстановки (т.е. на фоне шумов), значительно превзойдя конкурентов, говорится в сообщении.

На CHiME-6 конкурсанты решали так называемую cocktail party problem — распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Распознавание осложняла одновременная речь 2–4 человек, реверберация и интенсивный шум: звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех.

Цель участников состояла в том, чтобы создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок. Команда группы ЦРТ заняла первое место.

Для этого был разработан уникальный алгоритм выделения речевых сегментов для каждого из дикторов, а также создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, реализующий бимформинг (эффект нацеливания микрофонов на конкретного диктора) и непосредственно распознающий речь.

Кроме группы ЦРТ в конкурсе участвовали научные команды со всего мира: известные IT-компании (в частности, Toshiba), крупные университеты – Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др.

Чтобы не пропустить самое интересное, читайте нас в Телеграм

Поделиться: