Предлагаем вашему вниманию перевод (с незначительными сокращениями) статьи Masking the audio our devices hear is the best way to fight digital eavesdropping («Аудиомаскировка как лучший способ защиты от цифровой прослушки»), опубликованной 1 августа GCN.com.
Благодаря публикациям о шпионских программах, установленных в смартфонах, а также о ненадёжности мобильных устройств, растёт осознание того, что камеры и микрофоны в наших гаджетах стали инструментом удалённой слежки за пользователями.
Относительно просто предотвратить незаконный захват изображения – путём блокирования встроенных камер, которые можно просто заклеить. Столь же простого эквивалента защиты от микрофонов не существует. Сейчас начали появляться сложные решения, которые создают шумовую завесу вокруг микрофонов устройства, чтобы маскировать звук в непосредственной близости от них.
Прежде чем обсуждать предотвращение незаконного захвата аудиоданных, полезно выяснить, почему они представляют особый интерес для шпионов. Секретные и конфиденциальные разговоры особенно ценны в шпионаже, так как информацию, полученную из них, невозможно заменить другими источниками, даже аудиозаписями. Представьте, как служба внешней разведки заранее узнаёт о замыслах противника, или как корпоративный шпион узнает о разработке продукта конкурента – пока и то, и другое находятся на ранней стадии.
Но не только длинные, непрерывные диалоги ценны для подслушивающего. Случайные звуковые фрагменты могут быть сведены вместе и стать основой важных выводов, особенно когда аудиоданные дополняются другими данными. После того, как аудиозаписи пользователя, сделанные голосовым помощником Amazon Alexa, в Германии были по ошибке отправлены другому человека, нейтральная сторона (редакция СМИ, расследующая инцидент – ред.), слушающая аудиофайлы, смогла «скомпоновать подробную картину заинтересованного клиента и его личные привычки», сообщает Gizmodo.
Уже совсем скоро подслушивающие устройства смогут получать информацию только по голосовым характеристикам человека. Например, команда Университета Карнеги-Меллон разрабатывает технологию машинного обучения, которая может определить потенциальный возраст человека, рост, состояние здоровья и многое другое из образца голоса. Мы уже имеем дело с искусственный интеллектом, который воссоздает облик человека на основе одного звукового фрагмента. Такие возможности неоценимы для шпионов во всем мире.
Пользователи часто думают: «Я просто заклею микрофоны на своем смартфоне и ноутбуке, и плохие парни не смогут меня прослушивать». Гендиректор Facebook Марк Цукерберг, как известно (на одном из фото Цукерберга 2016 года видно, что камера и микрофон его ноутбука заклеены – ред.), думал так же. К сожалению, физический барьер над микрофоном может лишь приглушить звук, но не может заглушить его полностью. Кроме того, если у хакеров есть инструменты для удалённой установки на смартфон программ-шпионов или возможность подключения к интеллектуальному динамику, то они, скорее всего, имеют доступ и к технологии криминалистической экспертизы звука для расшифровки разговоров, искажённых заклеенным микрофоном.
Усугубляет проблему тот факт, что полностью отключать микрофоны в устройствах невозможно или нецелесообразно. На сегодняшних популярных моделях смартфонов пользователи могут запретить доступ микрофона к любому приложению, но нет никакого способа полностью отключить микрофоны от использования, за исключением физического их удаления. Да, некоторые умные динамики, такие, как Amazon Echo и Google Home, имеют кнопки для отключения своих микрофонов. Но потом их ручное включение требует прикосновения к устройству, что противоречит принципам использования голосовой технологии.
Выход – использовать аудиомаскировку. Подобно тому, как генераторы белого шума заглушают звук в комнате, аудиомаскировка, будь то чехол для смартфона с защитой от слежки или аналогичные приспособления для умных динамиков, создают шум в местах расположения микрофонов. При соответствующих уровнях громкости конечный результат заключается в том, что устройство, по существу, заглушено, ценное аудио закрыто шумом маскирующего сигнала – и запись становится бесполезной для подслушивающих.
Однако не любой шум способен маскировать. Чтобы предотвратить последующую расшифровку разговора или фрагмента аудиозаписи, шум, добавляемый в смесь звуков на входе в микрофон, должен соответствовать трём условиям.
Во-первых, он должен быть «случайным», в идеале – генерируемым с использованием генератора случайных чисел от источника с высокой энтропией. Если шум является повторяющимся или даже псевдослучайным, записанный аудиосигнал может быть обработан с использованием двухканальной адаптивной фильтрации для «вычитания» профиля шума, найденного в эталонном файле, из звука в целевом файле, обеспечивая воссоздание целевого файла со значительно улучшенной разборчивостью речи. Это чисто математическая задача.
Во-вторых, аудиомаскировка должна выполняться для каждого микрофона отдельно, будь то четыре микрофона в iPhone XR, или семь микрофонов в Amazon Echo второго поколения. Это извлечение звука из маскируемого источника.
В-третьих, адаптивность: уровень аудиомаскировки должен адаптироваться к громкости маскируемого звука во всем диапазоне человеческой речи, от шёпота до крика. Если бы уровень аудиомаскировки был на максимальной громкости все время, то шум был бы невыносимым для пользователя, а если бы он оставался в умеренным, то не смог бы адекватно маскировать громкую речь.
При соблюдении этих трех условий содержание разговора (произносимые слова) и контекст (акценты, тоны, количество участников и т.д.) будут неидентифицируемыми для подслушивающего, поскольку полученный в итоге звук будет неотличим от записи одного только шума.
Конечно, даже самая лучшая аудиомаскировка не имеет смысла, если она мешает пользователю. И даже если мы хотим, чтобы наши микрофоны активно слушали нас только часть времени, мы не хотим никаких сбоев, когда речь заходит о телефонных звонках, записи звуковых сообщений или использовании виртуального помощника устройства. Настройка аудиомаскировки в смартфонах и других портативных устройствах достаточно проста, поскольку физический механизм позволяет пользователю её контролировать. Но подобная надстройка для умных динамиков требует некоторой креативности. Например, одно новое решение позволяет пользователю временно отключать аудиомаскировку произнесением произвольного (кодового) слова.
Поскольку наши смартфоны, умные динамики и другие умные устройства являются свидетелями наших самых интимных разговоров и личной жизни, ограничение раскрытия этой информации при одновременном желании использовать современные технологии в полном объёме является сложной задачей. Маскировка звука, тем не менее, представляет собой многообещающий метод решения проблемы.