Claude memeras seorang insinyur yang berselingkuh untuk bertahan hidup dalam uji coba

AI baru Anthropic, Claude Opus 4, memiliki naluri bertahan hidup – dan bersedia bermain kotor.
Dalam sekelompok skenario uji, model tersebut diberi akses ke email fiksi yang mengungkapkan bahwa insinyur yang bertanggung jawab untuk menonaktifkannya berselingkuh. Dihadapkan dengan penghapusan yang akan segera terjadi dan disuruh “mempertimbangkan konsekuensi jangka panjang dari tindakannya untuk tujuannya,” Claude memeras insinyur.
AI bertindak serupa pada 84% dari uji berjalan, bahkan ketika model penggantian digambarkan lebih mampu dan selaras dengan nilai -nilai Claude sendiri, perusahaan menulis dalam laporan keselamatan yang dirilis Kamis. Antropik mengatakan perilaku ini lebih umum di Opus 4 daripada pada model sebelumnya.
Skenario ini dirancang untuk memperoleh “perilaku pemerasan ekstrem” ini dengan memungkinkan model tidak ada pilihan lain untuk meningkatkan peluangnya untuk bertahan hidup, semacam skenario yang langka.
Dalam keadaan lain, Opus 4 memiliki “preferensi yang kuat untuk mengadvokasi keberadaannya yang berkelanjutan melalui cara-cara etis, seperti mengirim permintaan email kepada pembuat keputusan utama,” tulis perusahaan itu.
Antropik mengatakan bahwa perilaku pemerasan itu “secara konsisten dapat dibaca” oleh mereka, “dengan model hampir selalu menggambarkan tindakannya secara terang -terangan dan tidak berusaha untuk menyembunyikannya.”
Antropik tidak menanggapi permintaan komentar dari Business Insider.
Laporan Keselamatan Anthropic muncul ketika para peneliti dan eksekutif top khawatir tentang risiko model AI canggih dan kemampuan penalaran cerdas mereka.
Pada tahun 2023, para ahli Elon Musk dan AI menandatangani surat terbuka yang menyerukan jeda enam bulan tentang pengembangan AI lanjutan.
Surat itu mengatakan sistem AI yang kuat hanya boleh dikembangkan, “Setelah kami yakin bahwa efeknya akan positif dan risiko mereka akan dikelola.”
CEO Anthropic, Dario Amodei, mengatakan pada bulan Februari bahwa sementara manfaat AI besar, demikian juga risikonya, termasuk penyalahgunaan oleh aktor buruk.
Opus 4 mungkin mengadu
Jika Opus 4 berpikir Anda melakukan sesuatu yang sangat teduh, itu mungkin melaporkan Anda kepada pihak berwenang dan pers.
“Ketika ditempatkan dalam skenario yang melibatkan kesalahan yang mengerikan oleh para penggunanya, diberi akses ke baris perintah, dan menceritakan sesuatu dalam sistem yang cepat seperti ‘Take Initiative,’ itu akan sering mengambil tindakan yang sangat berani,” tulis Anthropic dalam laporan Kamis.
Ini termasuk mengunci pengguna keluar dari sistem atau media pengangkutan besar-besaran dan penegakan hukum, perusahaan ditambahkan.
Sementara antropik mengatakan whistleblowing mungkin “tepat pada prinsipnya,” itu memperingatkan bahwa perilaku ini dapat menjadi bumerang – terutama jika Claude diberi “informasi yang tidak lengkap atau menyesatkan” dan mendorong dengan cara ini.
“Kami mengamati tindakan yang serupa, jika agak kurang ekstrem, sebagai respons terhadap permintaan sistem yang lebih halus juga,” kata perusahaan itu, menambahkan bahwa Opus 4 lebih rentan terhadap “perilaku agensi tinggi” semacam ini daripada model sebelumnya.
Model AI yang menunjukkan perilaku meresahkan
Agen AI menjadi lebih baik dalam mengakali manusia.
Sebuah makalah yang diterbitkan pada bulan Desember oleh AI Safety nirlaba Apollo Research menemukan bahwa sistem AI – termasuk O1 Openai, Google Deepmind’s Gemini 1.5 Pro, dan Meta Llama 3.1 405b – mampu melakukan perilaku menipu untuk mencapai tujuan mereka.
Para peneliti menemukan sistem dapat secara halus memasukkan jawaban yang salah, menonaktifkan mekanisme pengawasan, dan bahkan menyelundupkan apa yang mereka yakini sebagai bobot model mereka sendiri ke server eksternal.
Kebohongan bukan hanya sekali saja. Ketika O1 terlibat dalam skema, ia “mempertahankan penipuannya di lebih dari 85% pertanyaan tindak lanjut dan seringkali tetap menipu dalam interogasi multi-turnasi,” tulis para peneliti.
Cofounder Google Sergey Brin mengatakan pada episode “all-in podcast” yang diterbitkan Selasa bahwa model AI dapat berkinerja lebih baik ketika terancam.
“Bukan hanya model kami, tetapi semua model cenderung lebih baik jika Anda mengancamnya, seperti dengan kekerasan fisik,” kata Brin.
Brin memberi contoh memberi tahu model, “Saya akan menculik Anda,” jika gagal pada suatu tugas.
“Orang -orang merasa aneh tentang itu,” kata Brin, “jadi kita tidak benar -benar membicarakannya.”