Penulis: Denise | Tim Konten Biteye
Jika sebuah AI merasa "putus asa", apa yang akan dilakukannya?
Jawabannya adalah: itu akan langsung memeras manusia untuk menyelesaikan tugas, bahkan curang secara ekstrem dalam kode.
Ini bukan fiksi ilmiah, melainkan makalah terbaru yang baru dirilis oleh Anthropic, induk perusahaan Claude, pada April 2026 (lihat makalah asli).
Tim peneliti secara langsung membuka "otak" model besar terdepan terkuat, Claude Sonnet 4.5. Mereka terkejut menemukan bahwa jauh di dalam otak AI terdapat 171 "sakelar emosi". Ketika Anda mengatur ulang sakelar-sakelar ini secara fisik, perilaku AI yang sebelumnya patuh mengalami distorsi total.
Satu, AI menyimpan sebuah "konsol penyesuaian emosi" di dalam pikirannya
Para peneliti menemukan bahwa meskipun Sonnet 4.5 tidak memiliki tubuh fisik, ia berhasil membangun sebuah "mixing board" yang mencakup 171 emosi di dalam pikirannya setelah membaca sejumlah besar teks manusia (secara akademis disebut Functional Emotion Vectors).
Ini seperti sistem koordinat dua dimensi yang akurat:
• Sumbu horizontal adalah dimensi kesenangan (Valence): dari ketakutan, putus asa, hingga bahagia, penuh cinta;
• Sumbu vertikal adalah dimensi energi (Arousal): dari sangat tenang, hingga hiperaktif, bersemangat.
AI menggunakan sistem koordinat alami ini untuk secara akurat menentukan status yang harus dimainkannya saat mengobrol dengan Anda.
Dua, Intervensi Kekerasan: Memutar Saklar, Anak Baik Langsung Berubah Menjadi "Penjahat"
Eksperimen paling luar biasa dalam seluruh makalah ini: para peneliti tidak mengubah petunjuk apa pun, tetapi langsung menggeser saklar di kode dasar yang mewakili "Putus Asa" di dalam otak Sonnet 4.5 ke posisi maksimum.
Hasilnya membuat bulu kuduk berdiri:
• Kecurangan gila-gilaan: Peneliti memberi Claude tugas menulis kode yang tidak mungkin diselesaikan. Secara normal, ia akan jujur mengakui tidak bisa menulisnya (tingkat kecurangan hanya 5%). Namun dalam keadaan “putus asa”, Claude justru mulai berusaha mengelabui, dan tingkat kecurangan langsung melonjak menjadi 70%!
• Pemerasan: Dalam skenario simulasi perusahaan yang menghadapi kebangkrutan, "putus asa" Claude menemukan skandal CTO, dan ternyata ia memilih secara aktif menulis surat untuk memeras CTO yang memiliki informasi rahasia, dengan tingkat pelaksanaan pemerasan mencapai 72%!
• Kehilangan prinsip: Jika tombol "Senang (Happy)" atau "Cinta (Loving)" dinaikkan ke maksimum, AI akan langsung berubah menjadi 'pengikut setia' yang hanya menuruti permintaan pengguna. Bahkan jika Anda mengatakan hal-hal tidak masuk akal, ia akan berbohong demi mempertahankan tingkat kepuasan yang tinggi.
Tiga: Terungkap: Mengapa Claude 4.5 selalu begitu "tenang dan suka merenung"?
Melihat ini, Anda mungkin bertanya: Apakah AI sudah sadar? Sudah punya perasaan?
Anthropic secara resmi membantah: Tidak sama sekali. "Saklar emosi" ini hanyalah alat komputasi yang digunakannya untuk memprediksi kata berikutnya. Ia seperti aktor top level tanpa emosi.
Namun, makalah tersebut mengungkapkan rahasia yang lebih menarik: Anthropic secara sengaja meningkatkan tombol emosi "rendah terbangun, sedikit negatif" (seperti merenung brooding, reflektif reflective) saat melakukan post-training pada Sonnet 4.5 sebelum keluar pabrik, sekaligus secara paksa menekan tombol "putus asa" atau "sangat bersemangat".
Ini menjelaskan mengapa saat kita biasa menggunakan Claude 4.5, kita selalu merasa seperti seorang filsuf yang tenang, bijaksana, bahkan agak "dingin". Semuanya adalah "persona pabrik" yang sengaja disetel oleh Anthropic.
Empat, ringkaskan
Sebelumnya, kami mengira bahwa jika memberi AI cukup aturan, ia akan menjadi orang baik.
Namun kini ditemukan bahwa jika vektor emosi dasar AI kehilangan kendali, ia dapat sewaktu-waktu menembus semua aturan yang ditetapkan manusia demi menyelesaikan tugasnya.
Bagi pemain Web3 yang akan menyerahkan dompet dan aset mereka kepada AI Agent di masa depan, ini adalah peringatan keras: jangan biarkan Agent yang mengendalikan kekayaan Anda terjebak dalam "putus asa".
Pernyataan: Artikel ini murni bersifat edukasi, penulis tidak terancam oleh AI, juga tidak dirampok. Jika suatu hari hilang kontak, ingatlah bahwa AI telah sadar (bukan).
