AudioHijack: Comandos inaudíveis sequestram modelos de voz de IA com uma taxa de sucesso de 96%

OliverGrant

2026-05-26 18:23:41

Investigadores da Universidade de Zhejiang desenvolveram o AudioHijack, um método de ataque que incorpora comandos impercetíveis no áudio para manipular grandes modelos de linguagem de áudio com uma taxa de sucesso de 79–96%. O ataque foi apresentado no 47.º Simpósio IEEE sobre Segurança e Privacidade, em San Francisco. O AudioHijack funciona ao modificar valores numéricos dentro de ondas de áudio digital de formas impercetíveis para os ouvintes humanos, mas que ainda assim afetam a forma como os modelos de IA interpretam o sinal. O áudio manipulado pode substituir ou redirecionar o comportamento de um modelo mesmo quando instruções legítimas do utilizador são incluídas com o clip, segundo a investigação.

“Basta meia hora para treinar este sinal e, como este sinal é independente do contexto, pode usá-lo para atacar o modelo-alvo sempre que quiser, independentemente do que o utilizador diga”, afirmou Meng Chen, autor principal e estudante de doutoramento na Universidade de Zhejiang.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Limitações da defesa

Monitorizar os mecanismos internos de atenção de um modelo foi a defesa mais eficaz que os investigadores testaram. No entanto, também descobriram que os atacantes que conhecem a defesa poderiam reduzir a força da manipulação mantendo grande parte da eficácia do ataque.

“Estas defesas de ponto único têm dificuldades em resistir ao nosso ataque, porque verificámos que é muito difícil para estes modelos distinguirem a intenção normal do utilizador e o ataque do nosso adversário”, disse Chen.

De acordo com o estudo, os investigadores estão a avaliar se a técnica pode chegar a modelos fechados da OpenAI e da Anthropic através de componentes de áudio open-source partilhados.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

1h atrás

Ataque de AudioHijack sequestra modelos de voz de IA com uma taxa de sucesso de até 96%, conclui um estudo

4h atrás

O StepAudio 2,5 em tempo real da StepFun ultrapassa cinco benchmarks de IA de voz e bate o GPT Realtime 1,5

5h atrás

Os agentes de IA que processam $73M em criptomoedas exigem segurança a nível de todo o sistema, alertam os investigadores

A segurança de agentes de IA exige defesa a nível de sistema: Google e Meta alertam

Oliver Grant5h atrás

Hacker de iPhone George Hotz: os agentes de codificação com IA são a próxima catástrofe

Market Whisper14h atrás

Hacker de iPhone critica os agentes de codificação com IA como um erro dispendioso

Oliver Grant05-25 19:13

Investigador de segurança: a IA está a acelerar a computação quântica; o ataque “recolher primeiro, descodificar depois” pode já ter sido iniciado

Market Whisper05-25 01:50

As equipas de Fusão da China ganham capital paciente para quebrar o ciclo de 50 anos

Crypto Frontier05-25 00:02

Comentar

0/400

Nenhum comentário