Современные проекты DARPA в области IT

4406

Агентство перспективных исследовательских проектов Минбороны США (Defense Advanced Research Projects Agency, DARPA) всегда занималось прикладными информационными технологиями, но никогда в таком объёме и в таком широком диапазоне исследований.

Публикуем по материалам НТЦ ФГУП «ГРЧЦ» перечень действующих IT-проектов DARPA с целью создать у читателя представление о наборе перспективных технологий обработки данных – которые, как свидетельствует предыдущий опыт внедрения разработок агентства, находят применение в промышленности вне зависимости от того, пригодились ли они военным.

О DARPA

DARPA было основано в 1958 году в ответ на запуск в СССР первого искусственного спутника Земли (1957) и первоначально называлось ARPA (Advanced Research Projects Agency). Затем к названию добавилось слово Defense – «оборона». ARPA спонсировала разработку сети ARPANET (прообраз Интернета), а также версии BSD (университета Беркли) системы UNIX и стека протоколов TCP/IP.

DARPA существует независимо от обычных военных научно-исследовательских учреждений и подчиняется непосредственно руководству министерства обороны. Постоянный штат DARPA невелик, более 200, но менее 300 сотрудников, половина из них — технические специалисты. Роль DARPA в исследованиях состоит в экспертизе проектов, обоснованном выборе подрядчиков и эффективном распределении средств между ними.

См. также: О действующих программах НАТО в сфере IT, связи и в киберпространстве >>>

Программа MediFor (Media Forensics)

Задача проекта MediFor состоит в экспертизе средств массовой коммуникации для выявления недостоверных видео, сопровождаемых ложной аудиозаписью.

В программе MediFor участвуют научно-исследовательские институты и самостоятельные группы исследователей, в частности, Техасский университет в Остине – главный центр научных исследований, Университет Пердьё (Индиана) и др.

Программа MediFor направлена на разработку модели целостности изображений и видео, позволяющей получить три вида индикаторов целостности: 1) цифровой; 2) физической и 3) семантической.

Решаются следующие прикладные задачи:

  • распознавание сгенерированных и реальных видео;
  • дополненная технология для распознавания сгенерированных видео с помощью нейросетей определённого типа, умеющих «проверять» соответствие мелких деталей в различных частях кадра на соответствие и непротиворечивость;
  • «анти-спуфинг» для биометрических данных («спуфинг» – попытка человека выдать себя за другого, специальным образом обманув систему распознавания) – система обнаружения атак на систему распознавания лиц.

Программа SemaFor (Semantic Forensics)

Программа экспертизы содержания мультимедийных материалов SemaFor разработана в целях автоматизации поиска фальсифицированных медиаматериалов (текстов, аудио, изображений, видео) и защиты от крупномасштабных дезинформационных атак в режиме реального времени.

Существующие алгоритмы автоматизированного создания и обработки мультимедиа могут допускать серьезные семантические ошибки. Например, лица, сгенерированные GAN, имеют такие семантические несоответствия, как разные детали аксессуаров, растрепанные волосы или необычный фон. Здесь необходимо создать набор детекторов семантической несогласованности, который позволит быстро выявлять несоответствия.

Анализ и классификация информационных материалов будет проводиться по определенным характеристикам: источнику, алгоритму создания, способу управления.

Изучение визуальных представлений методом подавления текстуры

Обученные нейросети в большей степени фиксируются на текстуре (визуальных свойствах поверхности), а не на форме объектов. Зависимость от текстуры влияет на результат и может ограничивать производительность нейросети при реальном использовании, например, при сдвигах в освещении, разрешении сенсора. Удаление текстуры невозможно, поскольку она необходима для анализа формы объекта.

В 2020 году учёные из Университета Мэриленда, Университета Дж. Хопкинса и Института науки и техники Кванджу (Южная Корея) провели исследование «подавления» текстуры, то есть сигналов низкого уровня, которые при самостоятельном обучении нейросети не позволяют изучать сигналы более высокого уровня (о форме объекта).

Биометрический подход к выявлению дипфейков

В Калифорнийском университете Беркли в 2019 году предложили биометрический подход для моделирования типичных выражений человеческого лица и мимики при речи. При создании дипфейков изображение не соответствует признакам естественного поведения и может быть обнаружено.

Например, видео, созданное искусственно, не изображает человека с закрытыми глазами, по этому признаку распознаётся подделка. Следующее поколение методов синтеза видео включает мигание в свои системы, что снижает эффективность распознавания.

Ещё один метод выявления дипфейков – на основе положения головы, снятой с разных ракурсов, её трёхмерной модели. Метод неэффективен для подделок видео с движением губ синхронно с речью.

Третий способ – экспертиза низкоуровневых пиксельных артефактов. Метод требует много времени и трудозатрат по «отмыванию» дополнительных шумов, повторного сжатия, изменения размера картинки.

Биометрический подход основан на идентификации различных моделей движений лица, головы и верхней части туловища. При создании фальшивого изображения любого типа синхронизация этих моделей нарушается.

Показано, что возможно создание биометрических моделей известных личностей для выявления дипфейков. На основе подлинного видео отслеживаются мимические движения, движения головы и верхней части туловища. Затем видео проверяется на соответствие этой – подлинной – модели.

Программа AIDA (Active Interpretation of Disparate Alternatives)

Цель проекта AIDA заключается в разработке семантического механизма, который генерирует явные альтернативные интерпретации событий, ситуаций и тенденций по данным из множества неструктурированных источников. Этот механизм должен преобразовывать элементы знаний, автоматически полученные из нескольких источников мультимедиа, в общее семантическое представление, агрегировать информацию из источников, генерировать и исследовать несколько гипотез о событиях, ситуациях и тенденциях.

Программа AIDA будет работать с непрерывным потоком информации; формировать структурированный набор представлений о событиях и/или действиях; генерировать все возможные гипотезы о реальной ситуации и/или событии на основе входной информации; обеспечивать экспертов сведениями для корректировки значимости гипотез; предлагать возможность автоматического или ручного анализа.

В рамках программы AIDA финансируются исследования в области применения языковых штампов, а также интонационных оборотов на примере текстов. Большинство исследований основано на нейросетях, подвергшихся глубокому обучению.

Сценарный анализ текста

Главная задача программы AIDA – определение сценария на базе противоречивых сообщений, содержащих текст.

Группой ученых в 2019 году разработана система базовых запросов, ориентированных на вариативность сценариев. Модель построена на кластерном анализе событий с выявлением сценариев по каждому выявленному классу (кластеру) событий. Она извлекает совместимые наборы событий из данных одного класса и оценивает совместимость каждого события с уже выбранными событиями, учитывая последовательность их наступления.

Оценка модели, обученной на искусственных наборах данных, происходит на новом наборе данных по реальным новостным текстам, собранным человеком. Например, событие «Исчезновение саудовского журналиста Джамаля Хашогги» можно сопроводить запросом «Джамаль Хашогги был убит» и получить сценарий (описание) трагедии из собранных в СМИ сообщений.

Гипотеза исследования состоит в возможности обучения модели соотносить морфологию и синтаксис предложений со сценарием. Для примера с Хашогги могут быть выбраны два варианта сообщений: 1) «Хашогги не выходил из консульства и там умер» и 2) «В Турцию прилетела команда из Саудовской Аравии, чтобы захватить Хашогги». Для гипотезы «Хашогги был убит» больше подходит первый вариант, и нейросеть должна отобрать именно его для построения сценария.

Анализ лингвистических категорий эмоциональных состояний

В целях обработки мультимодальной (для простоты описания термин «мультимодальный» можно заменить на «мультимедийный» – речь о разных формах представления данных) смысловой компоненты «сарказм» в 2019 году был проведён лингвистический анализ эмоциональных наполнений текста.

Исследование проводилось на основе текстовых данных. Был создан набор данных MUStARD (мультимодальный набор данных для обнаружения сарказма). В качестве дополнительных входных данных использовались сведения о говорящем и контекст.

Результаты исследования позволяют сделать обнадёживающие выводы о способности нейросети уловить сарказм за счёт, в частности, несоответствия между модальностями (текст, речь и визуальные сигналы) в одной и той же ситуации.

Графы знаний для понимания событий и тенденций

В программе AIDA будет использоваться инструментарий графов знаний (KG, Knowledge Graph). Типы и свойства сущностей и отношений графа знаний определены в онтологии, охватывающей различные темы. Факты для наполнения графа знаний извлекаются из баз данных DBpedia или NELL (Never-Ending Language Learning). Среди недостатков графа знаний можно выделить невозможность извлекать структурированную информацию из неструктурированных и зашумлённых данных.

Граф знаний может быть использован при обработке сообщений на естественном языке. Например, необработанные текстовые документы на нескольких языках переводятся на английский язык, затем расшифровываются и трансформируются в аудио- и видеофайлы. Из переведённых данных извлекаются соответствующие сущности, и из них отношения и события.

Иные исследования

Ниже представлен перечень исследований DARPA, по которым недостаточно информации в открытых источниках:

  • Модель неоднородности фотоотклика (Prevalent Model for the Photoresponse Nonuniformity, PRNU), позволяющая анализировать шум светочувствительных датчиков цифровых камер из-за заводских дефектов. Модель PRNU направлена на изучение различий между реальными и фальшивыми видео, так как подмена изображений изменяет оригинальные шаблоны PRNU. На сегодняшний день модель PRNU проходит доработку вследствие отрицательных результатов тестирования;
  • Модель состязательных возмущений (Adversarial Perturbations Fool Deepfake Detectors), повышает эффективность работы детекторов дипфейков. По мнению разработчиков, нейронные сети и другие технологии распознавания образов уязвимы для состязательных примеров (входных данных, которые были искажены, чтобы модель неправильно их классифицировала). Тестирование модели прошло успешно.
  • Метод аудиовизуального обнаружения дипфейков с использованием аффективных сигналов (A Deepfake Detection Method Using Audio-Visual Affective Cues). Метод основан на машинном обучении и базируется на анализе соответствия аудио- и визуальных модальностей в видеозаписи.

Другие программы DARPA

LORELEI (Low Resource Languages for Emergent Incidents)

Программа по глубокому лингвистическому анализу (далее – LORELEI) должна улучшить методы вычислительной лингвистики. Она направлена на обеспечение «ситуационной осведомлённости» об основных событиях, настроениях, отношениях. Программа LORELEI основана на алгоритме, который эффективно анализирует грамматику малых языков (языки компактно проживающих малых народов). С помощью LORELEI машина сможет изучать малые языки и составлять сообщения о ситуациях на территориях народов, не говорящих на других языках.

BOLT (Broad Operational Language Translation)

Финансируемая DARPA программа оценки технологий, которые переводят с языка на язык, извлекают информацию из текстов, а также облегчают двуязычную коммуникацию.

DEFT (Deep Exploration and Filtering of Text)

Технология автоматизированной глубокой обработки естественного языка (Natural Language Processing – NLP) служит для обработки текстовой информации и обеспечения понимания связей в тексте, которые не очевидны для человека. В DARPA разработана программа глубокого исследования и фильтрации текста (DEFT) с целью улучшения расследований в интересах правоохранительных органов, разведки, военных, информационной безопасности. Программа выявляет причинно-следственные связи и смысловые аномалии в больших текстах. Разработка DEFT завершена.

SocialSim (Computational Simulation of Online Social Behavior)

Государственные, негосударственные, коммерческие, международные и другие взаимодействующие субъекты используют глобальную информационную среду для продвижения своих убеждений и достижения целей. Моделирование эволюционного развития информационной среды позволяет анализировать поведение потенциальных противников и других акторов. Прогнозирование и детализация действий в киберпространстве, вариантов поведения субъектов, их взаимодействия направлены на предотвращение дезинформационных кампаний. Программа SocialSim осуществляет высокоточное компьютерное моделирование социального поведения в Интернете наблюдаемых субъектов.

Чтобы не пропустить самое интересное, читайте нас в Телеграм

Поделиться: