«Яндекс.Диск» обзавелся компьютерным зрением

    1423

    Технология компьютерного зрения заработала в «Яндекс.Диске» — благодаря ей пользователи смогут найти изображения форматов JPEG, GIF и PNG, содержащие текст поискового запроса, говорится в официальном блоге «Яндекса» в среду.

    Достаточно ввести в поисковую строку нужное слово, и система найдёт на «Диске» картинки, на которых оно встретится. В результатах поиска вы увидите изображения с этим словом, документы, в тексте которых оно содержится, а также файлы и папки, в названиях и описаниях которых есть это слово, утверждают разработчики.

    В основе поиска текстов на изображениях лежит технология оптического распознавания символов, разработанная сотрудниками «Яндекс.Диска».

    Система распознавания состоит из двух частей — классификатора картинок и модуля распознавания. Сначала классификатор, глубокая нейронная сеть, отбирает из всех картинок те, на которых изображён текст. Он учится отличать их от прочих на огромной базе изображений. Использование машинного обучения позволяет добиться высокого качества распознавания. Когда изображения с текстом отобраны, алгоритм находит на них линии, предположительно содержащие текст, — различать их помогает ещё одна нейронная сеть. На следующем этапе алгоритм оставляет только те линии текста, в которых он уверен.

    Затем модуль распознавания разбивает линии текста на отдельные символы. Для каждого символа алгоритм выбирает несколько наиболее вероятных вариантов распознавания среди известных ему. Например, это могут быть буквы «О», «о» и цифра «0», очень похожие друг на друга. После этого в дело вступает языковая модель — алгоритм принимает решение, какой из символов-кандидатов подходит лучше всего. Языковая модель опирается на словари и учитывает не только сходство символов с теми, что знает система, но и контекст, то есть соседние символы. Если из нескольких вероятных символов складывается известное системе слово, то она может принять решение, что на картинке написано именно оно.

    Как говорится в сообщении, для отсканированных документов точность распознавания текстов на русском языке составляет около 80%, для фотографий с надписями — 63,2%, а для скриншотов приближается к 100%.

    Помимо русского языка, система также распознаёт английский, украинский и турецкий. Точность распознавания текстов всего потока изображений более 70%.

    Технология компьютерного зрения также присутствует в «Яндекс.Картинках», где она помогает искать схожие изображения.

    disktext1

    Чтобы не пропустить самое интересное, читайте нас в Телеграм

    Поделиться: