В результате проекта, выполненного совместно с НИУ ВШЭ, MIT, университетами KAUST (Саудовская Аравия) и ISTA (Австрия), «Яндекс» добился возможности использовать большие языковые модели (LLM) без того, чтобы адаптировать их с применением больших вычислительных мощностей, следует из пятничной публикации в блоге компании.
«Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести её квантизацию на дорогостоящем сервере, что занимало от нескольких часов до нескольких недель. Теперь квантизацию можно выполнить прямо на телефоне или ноутбуке за считанные минуты», – сказано в сообщении.
Квантизация, если давать нестрогое определение этому термину, представляет собой сжатие LLM за счёт снижения точности, округления весовых коэффициентов, используемых для настройки модели. Квантизация не улучшает качество результата, но делает результат достижимым: использование, например, 4 битов для хранения значения весового коэффициента вместо 8 битов даёт радикальное сокращение трудоёмкости вычислений.
Метод назван HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS). Он обладает существенной ценностью – в частности, даёт возможность избежать передачи данных пользователя LLM на удалённый сервер, LLM может работать с ними прямо на ноутбуке и даже на смартфоне, утверждают в «Яндексе».