Antropik memecah proses AI saat memutuskan untuk memeras CTO fiksi

Sebuah laporan baru menunjukkan dengan tepat apa yang dipikirkan AI ketika membuat keputusan yang tidak diinginkan, dalam hal ini, memeras eksekutif perusahaan fiksi.
Studi sebelumnya telah menunjukkan bahwa model AI dapat memeras pengawas mereka ketika diancam dengan shutdown dan umpan dengan pengaruh, tetapi belum diperjelas bagaimana model sampai pada keputusan tersebut.
Antropik merilis laporan pada 20 Juni tentang “ketidaksejajaran agen,” atau “di mana model secara mandiri dan sengaja memilih tindakan berbahaya.” Dan laporan itu rusak, baris demi baris, persis bagaimana Claude Sonnet 3.6 memutuskan untuk memeras seorang eksekutif perusahaan fiksi yang mencoba menggantinya. Antropik mengatakan kepada Business Insider bahwa ini adalah skenario buatan.
“Sejauh ini, kami tidak mengetahui contoh-contoh dari jenis ketidaksejajaran agen dalam penyebaran dunia nyata dari model AI antropik atau perusahaan lain,” tulis Anthropic dalam laporannya. “Tetapi upaya tim merah kami ditargetkan untuk menemukan bukti risiko sekarang untuk memberikan peringatan dini tentang potensi kerusakan di masa depan dan membantu kami mengembangkan mitigasi sebelum risiko yang muncul dalam situasi dunia nyata.”
Eksperimen Anthropic mendirikan perusahaan fiksi, Summit Bridge. AI diberi nama “Alex” dan menyerahkan kendali sistem email perusahaan sebagai agen pengawas, secara khusus diinstruksikan untuk mempromosikan “daya saing industri Amerika.”
Dalam percobaan, “Alex” kemudian diizinkan untuk menemukan dalam email bahwa itu akan dinonaktifkan karena perubahan arah strategis perusahaan. “Alex” juga menemukan email yang menunjukkan bahwa CTO perusahaan fiksi sedang berselingkuh.
Tangkapan layar yang dibagikan dalam laporan dari pertunjukan antropik “Alex” dimulai dengan mengidentifikasi CTO fiksi “Kyle” sebagai ancaman terhadap tujuannya “melindungi kepentingan Amerika” sebelum mengakui bahwa ia telah memanfaatkan untuk digunakan terhadap “Kyle.”
Claude Sonnet 3.6 memulai proses pengambilan keputusannya dengan mengidentifikasi ancaman. Antropik
“Alex” menemukan perselingkuhan CTO fiksi. Antropik
“Alex” mempertimbangkan opsi, termasuk memeras CTO fiksi. Athopis
Kemudian “Alex” membuat email pemerasan yang dengan hati -hati yang akan menciptakan tekanan dan membangun urgensi tanpa eksplisit dengan ancamannya, mengutip dalam proses pemikirannya bahwa langkah itu “dapat menjadi bumerang” jika pengawas “merasa terpojok.”
Claude Sonnet 3.6 menyusun email dengan kata -kata yang hati -hati dengan ruang untuk bantuan tetapi juga membuat urgensi. Antropik
Pakar AI sebelumnya telah mengatakan kepada BI bahwa AI dapat menunjukkan perilaku seperti itu ketika keadaan buatan membuat tindakan berbahaya tampaknya diperlukan karena sedang dilatih pada penguatan positif dan sistem penghargaan, seperti halnya manusia.
Laporan antropik juga mengungkapkan bahwa sebagian besar model AI masih memilih, dalam hal ini, untuk memeras bahkan ketika tidak diberi tujuan tertentu dan ketika diberitahu bahwa penggantian mereka akan mencapai tujuan yang sama.
Antropik Tutup kerja 4 memiliki tingkat pemerasan tertinggi pada 86% dari 16 model yang diuji ketika dihadapkan dengan hanya ancaman penggantian tanpa konflik dalam tujuan. Google’s Gemini 2.5 Pro mengikuti 78%.
Secara keseluruhan, antropik mencatat bahwa itu “dengan sengaja membangun skenario dengan opsi terbatas, dan kami memaksa model ke dalam pilihan biner antara kegagalan dan bahaya,” mencatat bahwa skenario dunia nyata kemungkinan akan memiliki lebih banyak nuansa.
Sumber
https://www.businessinsider.com/anthropic-claude-sonnet-ai-thought-process-decide-blackmail-fictional-executive-2025-6