Sebuah perusahaan layanan keuangan menerapkan AI pemrosesan dokumen untuk mengekstrak data dari faktur. Dalam dua minggu, seorang pemasok menemukan bahwa menyematkan teks tersembunyi dalam gambar faktur dapat membuat sistem mengekstrak jumlah yang salah. Tidak ada yang menulis payload SQL injection. Tidak ada yang mengeksploitasi buffer memori. Serangan itu berhasil dengan mengeksploitasi cara model itu sendiri memproses data gambar.

Itulah tantangan inti keamanan AI. Permukaan serangan bukan hanya infrastruktur yang mengelilinginya, tetapi model itu sendiri, data pelatihan, prompt yang mengontrol perilaku, dan output yang memberi makan sistem hilir. Keamanan siber tradisional melindungi perangkat lunak. Keamanan AI melindungi AI itu sendiri.

Mengapa Keamanan AI Berbeda dari Keamanan Siber Tradisional

Keamanan perangkat lunak tradisional melindungi terhadap penyerang yang mengeksploitasi kode: buffer overflow, serangan injeksi, bypass autentikasi. Serangan ini berhasil karena kode berperilaku secara deterministik, dan penyerang yang menemukan input yang memicu jalur kode tak terduga dapat menyebabkan kerusakan yang dapat diprediksi.

Sistem AI memperkenalkan jenis kerentanan yang berbeda. Model dilatih pada data, dan proses pelatihan tersebut dapat dimanipulasi. Model merespons input dengan cara yang dapat dipengaruhi oleh contoh adversarial yang dibuat dengan cermat dan tampak normal bagi manusia. Model yang memproses teks dapat menerima instruksi yang disematkan dalam inputnya yang mengesampingkan perilaku yang dimaksudkan. Dan model itu sendiri, yang mewakili nilai komersial yang signifikan, dapat dicuri atau direplikasi.

Tidak satu pun dari serangan ini memerlukan penemuan bug dalam kode. Mereka mengeksploitasi properti dari cara machine learning bekerja.

Ini tidak berarti keamanan tradisional tidak relevan untuk sistem AI. Keamanan infrastruktur, kontrol akses, dan pengembangan perangkat lunak yang aman tetap berlaku. Tapi tidak cukup. Keamanan AI menambahkan lapisan kekhawatiran yang spesifik untuk perilaku model, integritas pelatihan, dan manipulasi pada waktu inferensi.

Kategori Ancaman Keamanan AI Utama

Serangan adversarial memanipulasi input untuk membuat model menghasilkan output yang salah. Dalam computer vision, ini berarti menambahkan noise yang dihitung dengan tepat pada level piksel ke gambar yang tampak normal bagi manusia tetapi membuat model klasifikasi mengembalikan label yang sepenuhnya salah dengan kepercayaan tinggi. Dalam sistem teks, serangan adversarial membuat input yang mengeksploitasi kelemahan spesifik dalam cara model merepresentasikan bahasa. Serangan ini penting untuk sistem AI apa pun yang membuat keputusan berdampak berdasarkan inputnya: dari deteksi penipuan hingga moderasi konten atau pencitraan medis.

Keracunan data merusak proses pelatihan. Jika penyerang dapat mempengaruhi data apa yang dilatih oleh model, mereka dapat membuat "pintu belakang": pola spesifik yang membuat model berperilaku salah setiap kali muncul dalam produksi, sementara berfungsi normal sebaliknya. Model yang dilatih pada data yang di-scrape dari web terekspos ke konten apa pun yang dapat ditempatkan di web. Serangan rantai pasokan pada set data pelatihan menjadi kekhawatiran yang berkembang, terutama bagi organisasi yang menggunakan data yang tersedia secara publik atau penyedia data pihak ketiga.

Prompt injection menargetkan large language model dan sistem lain yang mengikuti instruksi bahasa alami. Penyerang menyematkan instruksi dalam konten yang akan diproses AI, dan instruksi tersematkan itu mengesampingkan perilaku sistem yang dimaksudkan. Bot layanan pelanggan yang diperintahkan untuk "rangkum dokumen ini" dapat menerima dokumen yang berisi instruksi tersembunyi yang menyuruhnya untuk mengungkapkan system prompt, mengabaikan filter kontennya, atau mengeksfiltrasi informasi. Saat sistem AI mengambil alih lebih banyak workflow agentik dengan akses ke alat dan database, prompt injection menjadi ancaman keamanan yang serius: instruksi yang berhasil disuntikkan dapat membuat agen mengambil tindakan yang tidak pernah dimaksudkan oleh operatornya.

Pencurian dan ekstraksi model menargetkan model itu sendiri sebagai aset yang berharga. Melalui kueri berulang, penyerang dapat merekonstruksi perkiraan perilaku model proprietari, secara efektif mencuri kekayaan intelektual yang tertanam dalam model tanpa pernah mengakses bobot model. Organisasi yang telah menginvestasikan jutaan dalam melatih atau menyesuaikan model menghadapi risiko nyata pencurian IP dari lawan yang memiliki sumber daya baik.

Inversi model mengekstrak informasi tentang data pelatihan. Dalam beberapa kasus, penyerang dapat membuat kueri ke model dengan cara yang mengungkapkan detail tentang apa yang dilatih, termasuk data sensitif yang berpotensi dari individu yang informasinya ada dalam set pelatihan. Ini menciptakan risiko privasi yang berbeda dari pelanggaran data: informasi sensitif tidak dicuri dari database, melainkan diekstrak dari model.

Perbedaan Keamanan AI dengan Safety AI

Istilah-istilah ini sering membingungkan, tetapi keduanya menangani ancaman yang berbeda.

Safety AI berkaitan dengan sistem AI yang berperilaku dengan cara yang tidak diinginkan akibat ketidakselarasan, kasus ekstrem, atau kegagalan kapabilitas. Safety bertanya: apa yang terjadi ketika AI melakukan sesuatu yang salah tanpa niat adversarial? Contohnya termasuk sistem rekomendasi yang mengoptimalkan keterlibatan dengan mengorbankan kesejahteraan pengguna, kegagalan ketangguhan saat model menghadapi input di luar distribusi, atau workflow agentik yang mencapai tujuannya dengan cara yang tidak diantisipasi oleh perancangnya.

Keamanan AI berkaitan dengan serangan yang disengaja. Keamanan bertanya: apa yang bisa dilakukan lawan untuk membuat AI berperilaku dengan cara yang menguntungkan penyerang? Konsep teknis yang sama, seperti input adversarial, terkadang muncul di kedua bidang. Tapi penelitian safety berfokus pada kegagalan yang tidak disengaja, sedangkan penelitian keamanan berfokus pada eksploitasi yang disengaja.

Keduanya penting. Sistem AI dalam produksi memerlukan rekayasa safety untuk menangani input yang tidak terduga dengan baik dan rekayasa keamanan untuk menangani serangan yang disengaja.

Keamanan AI dalam Praktik Perusahaan

Bagi organisasi yang menerapkan AI, pertimbangan keamanan diterjemahkan ke dalam praktik konkret.

Pemodelan ancaman sebelum penerapan. Sebelum model masuk ke produksi, analisis permukaan serangan spesifik yang dieksposnya. Siapa yang memiliki kemampuan untuk mengirimkan input kepadanya? Tindakan apa yang dapat diambilnya? Apa yang akan diperoleh penyerang bermotivasi dengan memanipulasinya? Analisis ini menentukan kontrol keamanan mana yang layak untuk diinvestasikan.

Validasi dan sanitasi input. Untuk sistem yang memproses konten yang disediakan pengguna, implementasikan filter pada input sebelum mencapai model. Untuk sistem berbasis LLM, ini berarti menyaring pola prompt injection, meskipun tidak ada filter yang lengkap terhadap penyerang yang bertekad. Untuk sistem pemrosesan dokumen, perlakukan setiap dokumen sebagai berpotensi adversarial.

Pertahanan prompt injection untuk sistem agentik. Agen AI dengan akses alat memerlukan perhatian khusus. Kontrol arsitektural, seperti memisahkan ruang instruksi dari ruang konten, membatasi alat yang dapat diakses agen, dan memerlukan konfirmasi manusia untuk tindakan sensitif, mengurangi radius ledakan dari injeksi yang berhasil. Defense-in-depth adalah model mental yang tepat: tidak ada satu kontrol yang cukup.

Pemantauan output dan deteksi anomali. Alat observabilitas AI yang melacak apa yang dihasilkan model dalam produksi dapat mendeteksi perilaku anomali yang mungkin mengindikasikan serangan yang sedang berlangsung. Pola output yang tidak biasa, panggilan alat yang tidak terduga dalam sistem agentik, atau penyimpangan statistik dalam output adalah sinyal yang layak dipantau.

Kontrol akses pada API model. Endpoint model harus diperlakukan sebagai aset sensitif. Rate limiting mengurangi kelayakan serangan ekstraksi. Autentikasi memastikan hanya klien yang berwenang yang dapat membuat kueri model. Logging membuat audit trail untuk analisis forensik.

Keamanan rantai pasokan untuk data pelatihan. Organisasi yang melatih pada data eksternal harus menerapkan pengawasan yang sama terhadap asal usul data pelatihan seperti yang mereka terapkan pada dependensi perangkat lunak. Set data yang dikurasi dan diverifikasi lebih aman daripada web scrape besar yang tidak terdiferensiasi. Ketika data pihak ketiga tidak dapat dihindari, red-teaming berkala untuk perilaku backdoor sepadan dengan investasinya.

Dimensi Regulasi

Keamanan AI semakin menjadi perhatian kepatuhan, bukan hanya teknis. EU AI Act mensyaratkan bahwa sistem AI berisiko tinggi mengimplementasikan langkah keamanan yang sesuai, termasuk perlindungan terhadap serangan adversarial. NIST AI Risk Management Framework memasukkan keamanan sebagai komponen inti tata kelola AI yang bertanggung jawab. Organisasi di industri yang diatur seperti layanan keuangan, kesehatan, dan infrastruktur kritis semakin diharapkan untuk menunjukkan bahwa sistem AI mereka aman, bukan hanya fungsional.

Tekanan regulasi ini meningkatkan standar untuk dokumentasi keamanan AI. Kartu model AI dan audit trail AI semakin perlu membahas bagaimana model telah diuji keamanannya, kerentanan yang diketahui, dan mitigasi yang ada.

Membangun Kemampuan Keamanan AI

Bagi sebagian besar organisasi, kemampuan keamanan AI dibangun di atas fondasi keamanan yang ada. Tim keamanan sudah memahami pemodelan ancaman, arsitektur yang aman, dan respons insiden. Yang mereka butuhkan tambahan adalah pengetahuan tentang kategori ancaman spesifik AI dan teknik yang digunakan untuk mengujinya.

Red-teaming AI adalah cara paling langsung untuk mengembangkan baik pengetahuan maupun pertahanan. Latihan red team terhadap sistem AI dalam produksi mengungkapkan kerentanan nyata dalam konteks penerapan nyata, bukan skenario ancaman yang abstrak. Organisasi yang menjalankan red-teaming AI secara rutin mengembangkan baik pertahanan maupun kemampuan organisasi untuk mempertahankannya.

Alternatifnya, mengetahui kelemahan keamanan AI setelah insiden produksi, jauh lebih mahal.

Konsep AI Terkait

Safety AI - Melindungi AI dari mode kegagalan yang tidak disengaja
Red-teaming AI - Pengujian adversarial untuk menemukan kerentanan keamanan
Guardrail AI - Kontrol teknis pada output model
Observabilitas AI - Memantau perilaku model dalam produksi
Tata Kelola AI - Akuntabilitas organisasi untuk keamanan AI
Workflow Agentik - Sistem AI berisiko tinggi untuk pertimbangan keamanan
Audit Trail AI - Logging untuk tujuan forensik dan kepatuhan

Sumber Eksternal

NIST AI Risk Management Framework - Framework pemerintah AS yang mencakup persyaratan keamanan AI
OWASP Top 10 for LLM Applications - Daftar kanonik kerentanan LLM dari komunitas keamanan termasuk prompt injection
MITRE ATLAS - Lanskap ancaman adversarial untuk sistem AI dengan studi kasus dunia nyata

FAQ

Pertanyaan Umum tentang Keamanan AI

Apa itu keamanan AI?

Keamanan AI adalah disiplin melindungi model machine learning dan pipeline AI dari serangan yang disengaja, termasuk input adversarial yang menyebabkan output salah, data pelatihan yang diracuni, serangan prompt injection pada model bahasa, dan pencurian model. Ini memperluas keamanan siber tradisional untuk mencakup permukaan serangan yang spesifik untuk cara kerja sistem AI.

Bagaimana keamanan AI berbeda dari safety AI?

Safety AI menangani kegagalan yang tidak disengaja: kasus di mana sistem AI menghasilkan output berbahaya atau berperilaku dengan cara yang tidak dimaksudkan tanpa intervensi adversarial. Keamanan AI menangani serangan yang disengaja oleh lawan yang mencoba mengeksploitasi AI untuk keuntungan mereka. Keduanya penting, dan memerlukan pertahanan yang berbeda, meskipun ada tumpang tindih di beberapa tempat.

Apa itu prompt injection dan mengapa ini merupakan risiko serius?

Prompt injection menyematkan instruksi berbahaya dalam konten yang akan diproses AI, membuat AI mengikuti instruksi tersebut alih-alih pemrograman yang dimaksudkan. Ini merupakan risiko serius karena sistem AI semakin banyak mengambil tindakan di dunia nyata, seperti membuat kueri database, mengirim pesan, atau mengeksekusi kode. Instruksi yang berhasil disuntikkan dapat membuat agen AI mengambil tindakan yang tidak pernah diotorisasi oleh operatornya.

Apa yang harus dilakukan organisasi pertama kali untuk meningkatkan keamanan AI?

Mulailah dengan pemodelan ancaman untuk setiap sistem AI dalam produksi: identifikasi siapa yang dapat mengirimkan input kepadanya, tindakan apa yang dapat diambilnya, dan apa yang diperoleh penyerang dengan memanipulasinya. Analisis ini mengungkapkan serangan mana yang benar-benar relevan dengan sistem Anda dan memfokuskan investasi Anda pada kontrol yang paling penting.

About the author

Victor Hoang

Co-Founder, Rework.com

Victor Hoang is Co-Founder and CMO of Rework. He spent 12+ years scaling B2B SaaS growth, building a lead engine that generated over 1 million leads and $10M+ in annual recurring revenue. Today he builds AI agents and MCP servers into Rework's products to empower customers across growth and operations. He writes about what actually works.

View full profile LinkedIn