Dapatkah AI Benar-Benar Terlindungi Dari Serangan Berbasis Teks?

27 Februari 2023, 14:28 WIB
ILUSTRASI - Dua perusahaan teknologi raksasa dunia, Microsoft dan Google, terapkan teknologi AI generatif di mesin pencari. /PIXABAY/Alexandra_Koch/

KILAS KLATEN – Ketika Microsoft merilis Bing Chat, chatbot bertenaga AI yang dikembangkan bersama dengan OpenAI, tidak butuh waktu lama bagi para pengguna untuk menemukan cara-cara kreatif untuk membobolnya. Dengan menggunakan input yang dirancang dengan cermat, pengguna dapat membuatnya menyatakan cinta, mengancam bahaya, membela Holocaust, dan menciptakan teori konspirasi.

 

Dapatkah AI terlindungi dari perintah jahat? Yang menjadi pemicunya adalah rekayasa perintah jahat, atau ketika AI, seperti Bing Chat, yang menggunakan instruksi berbasis teks, perintah, untuk menyelesaikan tugas-tugasnya ditipu oleh perintah jahat.

Bing Chat tidak dirancang dengan tujuan untuk menulis propaganda neo-Nazi. Tetapi karena dilatih dengan sejumlah besar teks dari internet, maka ia rentan jatuh ke dalam pola yang tidak menguntungkan.

BACA JUGA: Mercedes Bermitra dengan Google untuk Hadirkan MapsdDan Youtube Dalam Kendaraannya

Adam Hyland, seorang mahasiswa Ph.D. di program Desain dan Rekayasa yang Berpusat pada Manusia di Universitas Washington, membandingkan rekayasa yang cepat dengan eskalasi serangan hak istimewa. Dengan eskalasi hak istimewa, peretas dapat mengakses sumber daya, yang biasanya dibatasi karena audit tidak menangkap semua kemungkinan eksploitasi.

Bukan hanya Bing Chat yang menjadi korban peretasan teks semacam ini. BlenderBot milik Meta dan ChatGPT milik OpenAI, juga telah diminta untuk mengatakan hal-hal yang sangat ofensif, dan bahkan mengungkapkan detail sensitif tentang cara kerja mereka.

Para peneliti keamanan telah mendemonstrasikan serangan injeksi yang cepat terhadap ChatGPT yang dapat digunakan untuk menulis malware, mengidentifikasi eksploitasi pada kode sumber terbuka yang populer, atau membuat situs phishing yang terlihat mirip dengan situs-situs yang sudah terkenal.

Menurut Hyland, saat ini tidak ada cara yang baik untuk mencegah serangan prompt injection karena alat untuk memodelkan perilaku LLM sepenuhnya tidak ada. Fábio Perez, seorang ilmuwan data senior di AE Studio, menunjukkan bahwa serangan injeksi yang cepat sangat mudah untuk dieksekusi.

 BACA JUGA: Artifact, Aplikasi Berita Pendiri Instagram Diluncurkan ke Publik Dengan Fitur-Fitur Baru

“Serangan-serangan ini tidak membutuhkan injeksi SQL, worm, trojan horse, atau upaya teknis yang rumit lainnya," kata Perez dalam sebuah wawancara email.

Perusahaan seperti Microsoft dan OpenAI sudah menggunakan filter untuk mencegah AI mereka merespons dengan cara yang tidak diinginkan. Mereka juga mengeksplorasi metode seperti pembelajaran penguatan dari umpan balik manusia, dengan tujuan untuk menyelaraskan model dengan lebih baik dengan apa yang ingin dicapai oleh pengguna.***

Editor: Fajar Sidik Nur Cahyo

Sumber: Techcrunch

Tags

Terkini

Terpopuler