AudioHijack: Недоступные для слуха команды перехватывают голосовые модели ИИ с 96% успешных атак

Исследователи из Чжэцзянского университета разработали AudioHijack — метод атаки, который встраивает незаметные команды в аудио, чтобы манипулировать крупными аудио-языковыми моделями с 79–96% уровнем успешности. Атака была представлена на 47-м Симпозиуме IEEE по безопасности и конфиденциальности в Сан-Франциско. AudioHijack работает за счёт изменения числовых значений внутри цифровых аудиоволн способами, которые неразличимы для человеческого слуха, но при этом влияют на то, как AI-модели интерпретируют сигнал. Манипулированное аудио может переопределять или перенаправлять поведение модели даже тогда, когда вместе с клипом включены легитимные пользовательские инструкции, говорится в исследовании.

«Обучить этот сигнал можно всего за полчаса, а затем, поскольку этот сигнал не зависит от контекста, вы можете использовать его для атаки целевой модели в любой момент, независимо от того, что говорит пользователь», — заявил Мэн Чэнь, ведущий автор и аспирант Чжэцзянского университета.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Ограничения защиты

Наиболее эффективной защитой, которую проверили исследователи, оказалось наблюдение за внутренними механизмами внимания модели. Однако они также выяснили, что злоумышленники, осведомлённые об этой защите, могут снизить силу манипуляции, сохраняя при этом большую часть эффективности атаки.

«Такие точечные защиты плохо противостоят нашей атаке, потому что мы обнаружили: этим моделям очень сложно отличить нормальное пользовательское намерение и атаку нашего противника», — сказал Чэнь.

Согласно исследованию, команда изучает, может ли эта техника приводить к компрометации закрытых моделей от OpenAI и Anthropic через общие открытые компоненты аудио.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев