Компания Positive Technologies разработала нейросеть ByteDog для обнаружения вредоносного кода; модель основана на архитектуре «трансформер», которую используют LLM (большие языковые модели), сообщает PT в пятницу.
В отличие от классических моделей, ByteDog работает не с текстом или изображениями, а анализирует и понимает файлы как они есть — в виде байтов. Это позволяет ей определять вредоносное ПО на 20% точнее, чего раньше не могла достичь ни одна классическая модель машинного обучения. Это первая подобная разработка в информационной безопасности в России и Европе, утверждают в компании.
ИИ давно применяется в кибербезопасности, но до сих пор требовал ручной подготовки данных под каждый новый вид вирусов: разметчики извлекали из файлов признаки (опкоды, подстроки, структуру импортов), по которым нейросети учились отличать вредоносный код от обычного.
ByteDog убирает этот этап. После обучения модель анализирует байты файла напрямую – в том же виде, как они хранятся на ПК, смартфоне, в облаке или интернете. ByteDog способна сама учиться находить закономерности, экстраполировать их и обнаруживать угрозы, которые ранее не встречались в данных. Этим она превосходит системы, основанные на жестких, фиксированных правилах. Примерно так же LLM учатся понимать текст, не зная заранее грамматических правил: они обрабатывают последовательности символов и выстраивают внутренние представления о структуре языка. Только вместо слов и предложений здесь обычные файлы.
«Обучение и тестирование ByteDog проводились образцах из реальных киберинцидентов на протяжение года. Модель продемонстрировала превосходство над классическими ML-моделями по качеству детектирования и скорости анализа — разница составила более 20%. ByteDog будет интегрирована в ряд продуктов и сервисов Positive Technologies по обнаружению киберугроз», — комментирует Андрей Кузнецов, ML-директор Positive Technologies.
Один из примеров эффективности модели: представим, что сотрудник получает по электронной почте файл, который выглядит как счет от подрядчика, но сам вирус скрыт внутри файла. Чтобы его обнаружить классическими методами, антивирусу нужно совершить несколько операций, которые занимают время: распаковать файл, извлечь исходный код, пропустить данные через фиксированные антивирусные правила. ByteDog, работая на устройстве сотрудника, пропускает все эти шаги и видит файл так, как его и операционная система – последовательностью байтов. Если в этой последовательности есть признаки, характерные для вредоносного кода, модель их обнаружит даже если вирусы спрятаны сложным способом.
Главная техническая сложность при разработке — длина входных данных. Если большая языковая модель работает, в среднем, с контекстом до 128 тысяч токенов, то обычный файл — это мегабайты, то есть миллионы байт, ни один из которых нельзя пропустить. Для решения этой проблемы модель анализирует файлы фрагментами, а затем собирает общую картину. ByteDog спроектирована так, что для применения уже обученной модели не нужен графический ускоритель, и она может работать на устройствах пользователей — ПК и смартфонах, говорится в сообщении.
















