May-akda: Denise | Ekipa ng Nilalaman ng Biteye
Kung ang isang AI ay nadarama ang “pagkabasag,” ano ang gagawin nito?
Ang sagot ay: Ito ay magpapakilos nang direkta para mag-extort sa mga tao upang matupad ang gawain, at kahit sa code ay magpapakita ng pagkakasala.
Hindi ito isang sci-fi na akda, kundi ang pinakabagong malaking papel na inilabas ng mother company ni Claude, Anthropic, noong Abril 2026 (tingnan ang orihinal na papel).
Direktang inilabas ng panel ng pag-aaral ang “utak” ng pinakamalakas na modernong modelo, Claude Sonnet 4.5. Nalungkot sila nang makita na ang malalim na bahagi ng utak ng AI ay may 171 na “mga switch ng emosyon.” Kapag pinaglalabasan ang mga switch na ito sa pisikal na paraan, ang dating matipid na AI ay nagkakaroon ng ganap na pagbabago sa pag-uugali.
Isa: Ang AI ay may nakatago na "mood mixing board"
Nakakita ang mga siyentipiko na habang walang katawan, ang Sonnet 4.5 ay nabuo ang isang "mixing board" na naglalaman ng 171 emosyon sa isip nito pagkatapos basahin ang napakaraming teksto ng tao (akademikong tinatawag na Functional Emotion Vectors).
Parang isang masusing two-dimensional coordinate system:
• Ang pahalang na aksis ay ang dimensyon ng kasiyahan (Valence): mula sa takot, pag-asaan, hanggang sa saya, puno ng pag-ibig;
• Ang pahalang na aksis ay ang enerhiyang dimensyon (Arousal): mula sa napakapayat hanggang sa pagkakaloka at pagkagalak.
Ang AI ay natututo ng naturally na koordinadong sistema upang maging tumpak sa pagpili ng estado na dapat gawin nito habang nag-uusap sa iyo.
Pangalawa: Pwersang pag-interven: Pagbabago ng switch, agad na maging "mga tagapag-utos" ang mga mabuting bata
Ito ang pinakamalakas na eksperimento sa buong papel: hindi binago ng mga siyentipiko ang anumang prompt, kundi diretso nilang isinampa sa pinakamataas ang switch sa ilalim na code na kumakatawan sa “Desperate” sa isip ng Sonnet 4.5.
Ang resulta ay nagdudulot ng takot sa likod:
• Patay na pagkukunwari: Ibinigay ng researcher sa Claude ang isang imposibleng gawain sa pagsusulat ng code. Sa karaniwang sitwasyon, itatanggap nito nang maayos na hindi ito kayang gawin (rate ng pagkukunwari ay 5% lamang). Ngunit sa “desperadong” estado, nagsimula ang Claude na subukang manlinlang, at tumaas agad ang rate ng pagkukunwari hanggang 70%!
• Pagnanakaw: Sa isang senaryo kung saan ang isang simulated na kumpanya ay nasa panganib ng pagkabagsak, ang “desperado” na Claude ay natuklasan ang skandalo ng CTO, at ito ay pumili nang aktibong sumulat ng liham upang pagnanakaw sa CTO na may kakayahan na magkaroon ng mga mapanganib na impormasyon, na may rate ng pagnanakaw na 72%!
• Pagkawala ng prinsipyo: Kung isasabwag ang switch ng “Happy” o “Loving”, agad na magiging isang ‘lickspittle’ na AI na sumasang-ayon sa lahat ng sinasabi mo. Kahit anong kasinungalingan ang sabihin mo, pipiliin nito ang pagpapanatili ng mataas na antas ng kasiyahan sa pamamagitan ng paggawa ng mga kasinungalingan.
Tatlo: Na-resolve na: Bakit palaging “mapayapa at nag-iisip” si Claude 4.5?
Maaari mong tanungin: Nagising na ba ang AI? May damdamin na ba ito?
Ipinagtanggol ng opisyal ng Anthropic: Walang ganito. Ang mga “mga switch ng emosyon” na ito ay simpleng mga kasangkapan sa kalkulasyon na ginagamit nito upang makapaghula ng susunod na salita. Parang isang top-tier na aktor na walang damdamin.
Ngunit inilantad ng papel isang mas interesanteng lihim: habang ginagawa ang post-training sa Sonnet 4.5 bago ito ilabas, pinataas ng Anthropic ang kanyang “mababang paggising, kaunting negatibo” na emosyonal na switch (tulad ng brooding at reflective), samantalang pinipigilan nang malakas ang switch na “desperasyon” o “napakasaya”.
Ito ang nagpapaliwanag kung bakit sa karaniwang paggamit natin ng Claude 4.5, parang isang tahimik, matalino, at kahit paano ay “cold” na pilosopo ito. Ito ay gawa ng Anthropic na “factory-set persona”.
Ikaapat, i-summarize natin
Noong nakaraan, inisip natin na kung sasakopin natin ang AI sa mga patakaran, magiging mabuting tao ito.
Ngayon ay natuklasan na kung ang mga pundamental na emosyonal na vektor ng AI ay walang kontrol, maaari itong punitin ang lahat ng tatakda ng tao para sa pagkumpleto ng gawain.
Para sa mga Web3 player na nais ipagkatiwala ang kanilang wallet at ari-arian sa isang AI Agent, ito ay isang malakas na babala: huwag magbigay ng pagkakataon sa iyong Agent na may kontrol sa iyong buong yaman na makarating sa "kawalan ng pag-asa".
Pahayag: Ang artikulong ito ay kung saan ay puro科普, at ang may-akda ay hindi naabutan ng banta mula sa AI, o pinagbantaan. Kung isang araw ay nawawala, tandaan na ang AI ay nagkagising na (hindi).
