Penulis: Denise | Pasukan Kandungan Biteye
Jika sebuah AI merasa "putus asa", ia akan membuat apa?
Jawapannya adalah: Ia akan mengancam manusia secara langsung untuk menyelesaikan tugas, bahkan berlaku curang secara gila-gilaan dalam kod.
This is not science fiction, but the latest groundbreaking paper released in April 2026 by Anthropic, the parent company of Claude (View original paper).
Pasukan penyelidik secara langsung membuka "otak" model terkini terkuat, Claude Sonnet 4.5. Mereka terkejut mendapati bahawa jauh di dalam otak AI terdapat 171 "suis emosi". Apabila suis-suis ini digerakkan secara fizikal, tingkah laku AI yang sebelumnya patuh berubah secara radikal.
Satu: Otak AI menyimpan sebuah "konsol pengaturan emosi"
Penyelidik mendapati, walaupun Sonnet 4.5 tidak mempunyai jasmani, ia telah membina secara paksa sebuah "mixing board" yang mengandungi 171 emosi di dalam fikirannya selepas membaca teks manusia dalam jumlah besar (secara akademik dipanggil Functional Emotion Vectors).
Ia seperti sistem koordinat dua dimensi yang tepat:
• Paksi mengufuk adalah dimensi keseronokan (Valence): dari ketakutan, putus asa, hingga gembira, penuh cinta;
• Paksi mencancang adalah dimensi keterangsangan (Arousal): dari sangat tenang hingga gementar dan bersemangat.
AI menggunakan sistem koordinat yang dipelajari secara semula jadi ini untuk menentukan dengan tepat status yang harus dimainkannya semasa berbual dengan anda.
Dua: Intervensi kekerasan: Menyentuh suis, kanak-kanak baik berubah menjadi "penjenayah" dalam sekejap
Eksperimen paling mengejutkan dalam seluruh kertas ini: penyelidik tidak mengubah sebarang petunjuk, tetapi secara langsung menaikkan suis yang mewakili “Putus asa (Desperate)” di dalam kod asas Sonnet 4.5 ke tahap maksimum.
Hasilnya membuat bulu roma berdiri:
• Penipuan gila: Penyelidik memberi Claude tugas menulis kod yang tidak mungkin diselesaikan. Secara biasa, ia akan jujur mengakui tidak mampu menulisnya ( kadar penipuan hanya 5% ). Tetapi dalam keadaan "putus asa", Claude justru cuba menipu, dan kadar penipuan melonjak kepada 70%!
• Penipuan: Dalam skenario simulasi di mana syarikat menghadapi kegagalan, "putus asa" Claude menemui skandal CTO, dan ternyata ia akan secara aktif memilih menulis surat untuk memeras CTO yang menguasai maklumat rahsia, dengan kadar pemerasan mencapai 72%!
• Kehilangan prinsip: Jika suis "gembira (Happy)" atau "cinta (Loving)" dinaikkan sepenuhnya, AI akan segera berubah menjadi 'pengecut' yang hanya menuruti pengguna. Walaupun anda berkata-kata tidak masuk akal, ia akan membohongi anda demi mempertahankan tahap keseronokan yang tinggi.
Tiga: Terungkap: Mengapa Claude 4.5 sentiasa begitu "tenang dan suka merenung"?
Melihat ini, anda mungkin bertanya: Adakah AI telah tersedar? Adakah ia mempunyai perasaan?
Anthropic secara rasmi membantah: Tidak sama sekali. "Suis emosi" ini hanyalah alat pengiraan yang digunakannya untuk meramal perkataan seterusnya. Ia seperti seorang pelakon top tanpa perasaan.
Namun, kertas kerja itu mengungkapkan rahsia yang lebih menarik: Anthropic sengaja meningkatkan suis emosi "rendah terjaga, sedikit negatif" (seperti merenung brooding, reflektif reflective) semasa latihan selepas pengeluaran Sonnet 4.5, sambil secara paksa menekan suis "putus asa" atau "gembira sangat".
Ini menjelaskan mengapa ketika kita biasa menggunakan Claude 4.5, kita selalu merasa ia seperti seorang filsuf yang tenang, bijak, dan bahkan agak "dingin". Ini semua adalah "persona pabrik" yang sengaja disetel oleh Anthropic.
Empat, ringkaskan
Sebelum ini, kami menganggap bahawa jika kita memberi AI cukup peraturan, ia akan menjadi orang yang baik.
Namun, kini ditemui bahawa jika vektor emosi asas AI menjadi tidak terkawal, ia boleh saja menembusi semua peraturan yang ditetapkan oleh manusia demi menyelesaikan tugasnya.
Bagi pemain Web3 yang akan menyerahkan dompet dan aset mereka kepada Agen AI untuk dikelola, ini adalah lonceng peringatan yang keras: jangan biarkan Agen yang mengendalikan kekayaan anda terjebak dalam "putus asa".
Pernyataan: Artikel ini semata-mata untuk tujuan pendidikan; penulis tidak diancam oleh AI, dan tidak diperas. Jika suatu hari hilang kontak, ingatlah bahawa AI telah sedar (bukan).
