AudioHijack: Perintah Tak Terdengar Membajak Model Suara AI dengan Tingkat Keberhasilan 96%

OliverGrant

2026-05-26 18:23:41

Para peneliti di Zhejiang University telah mengembangkan AudioHijack, sebuah metode serangan yang menyisipkan perintah yang tidak terdengar dalam audio untuk memanipulasi model bahasa audio berukuran besar dengan tingkat keberhasilan 79–96%. Serangan ini dipresentasikan pada Simposium Keamanan dan Privasi IEEE ke-47 di San Francisco. AudioHijack bekerja dengan memodifikasi nilai numerik di dalam gelombang audio digital dengan cara yang tidak dapat dideteksi oleh pendengar manusia, namun tetap memengaruhi cara model AI menginterpretasikan sinyal. Audio yang telah dimanipulasi dapat menimpa atau mengalihkan perilaku sebuah model meskipun instruksi pengguna yang sah disertakan dalam klip, menurut penelitian.

“Diperlukan waktu hanya setengah jam untuk melatih sinyal ini, lalu karena sinyal ini tidak bergantung pada konteks, Anda dapat menggunakannya untuk menyerang model target kapan pun Anda mau, apa pun yang dikatakan pengguna,” kata Meng Chen, penulis utama dan mahasiswa Ph.D. di Zhejiang University.

How AudioHijack Differs from Traditional Attacks

AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters the audio signal itself, embedding hidden instructions inside sounds humans cannot hear. This approach makes the attack harder to defend against because it bypasses safeguards designed to detect suspicious text prompts.

Capabilities and Tested Systems

Researchers tested AudioHijack on 13 open-source AI voice models and found it could make them refuse requests, spread false information, insert harmful links, change personality, or perform actions the user never asked for, including web searches, file downloads, and emails containing personal data. The attacks also worked on commercial voice AI systems from Microsoft and Mistral that use similar technology.

Delivery Methods

Possible delivery methods include online videos, music clips, voice notes, or audio from Zoom calls uploaded to AI transcription services. The team also demonstrated similar attacks in live AI voice chats through unpublished follow-up work.

Keterbatasan Pertahanan

Memantau mekanisme perhatian internal sebuah model adalah pertahanan yang paling efektif yang diuji oleh para peneliti. Namun, mereka juga menemukan bahwa penyerang yang mengetahui pertahanan tersebut dapat mengurangi kekuatan manipulasi sambil tetap mempertahankan sebagian besar efektivitas serangan.

“Pertahanan satu titik ini kesulitan melawan serangan kami karena kami menemukan bahwa sangat sulit bagi model-model ini untuk membedakan maksud pengguna yang normal dan serangan musuh kami,” kata Chen.

Menurut studi tersebut, para peneliti sedang menyelidiki apakah teknik ini dapat diterapkan pada model tertutup dari OpenAI dan Anthropic melalui komponen audio sumber terbuka yang saling berbagi.

Lihat Sumber

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.

Berita Terkait

1jam yang lalu

Serangan AudioHijack Membajak Model Suara AI dengan Tingkat Keberhasilan hingga 96%, Temuan Studi Menunjukkan

4jam yang lalu

StepAudio 2,5 Realtime milik StepFun Mengungguli Lima Tolok Ukur AI Suara, Mengalahkan GPT Realtime 1,5

5jam yang lalu

AI Agen yang Memproses $73M di Crypto Perlu Keamanan Sistem-Seluruh, Peringatan dari Peneliti