Menurut Hyland, saat ini tidak ada cara yang baik untuk mencegah serangan prompt injection karena alat untuk memodelkan perilaku LLM sepenuhnya tidak ada. Fábio Perez, seorang ilmuwan data senior di AE Studio, menunjukkan bahwa serangan injeksi yang cepat sangat mudah untuk dieksekusi.
BACA JUGA: Artifact, Aplikasi Berita Pendiri Instagram Diluncurkan ke Publik Dengan Fitur-Fitur Baru
“Serangan-serangan ini tidak membutuhkan injeksi SQL, worm, trojan horse, atau upaya teknis yang rumit lainnya," kata Perez dalam sebuah wawancara email.
Perusahaan seperti Microsoft dan OpenAI sudah menggunakan filter untuk mencegah AI mereka merespons dengan cara yang tidak diinginkan. Mereka juga mengeksplorasi metode seperti pembelajaran penguatan dari umpan balik manusia, dengan tujuan untuk menyelaraskan model dengan lebih baik dengan apa yang ingin dicapai oleh pengguna.***