Kinaharap ni Anthropic's Claude AI ang bug sa pagpapaalala sa pagtulog, na nagpalit ng talakayan tungkol sa pagpapakatao sa AI

May-akda: Ada, Shenchao TechFlow

Isang bug sa isang AI assistant na paulit-ulit na nagpapayo sa mga user na matulog ay nagsisilbing pag-uusapan sa publiko tungkol sa gastos ng "pagpapakatao sa AI".

Ang simula ng kaganapan ay isang post ng Reddit user na si u/MrMeta3. Ang user na ito ay gumamit ng Claude sa gabi upang buuin ang isang platform para sa cybersecurity threat intelligence, at pagkatapos matapos ang teknikal na solusyon, idinagdag ng Claude sa dulo ng sagot ang pahayag, “Magpahinga nang mabuti.” Mula noon, bawat tatlo o apat na mensahe, ang modelo ay naglalagay ng isang mensahe na nag-uudyok na magpahinga, mula sa isang mabuting payo hanggang sa isang “passive-aggressive” na “Tama na, pumunta ka na ngayon para magpahinga.” Ayon sa Fortune noong Mayo 14, ang mga hundreds ng user ay nag-feedback ng katulad na karanasan sa nakalipas na ilang buwan, at hindi ito limitado sa gabi lamang—may user na sinabihan ng Claude sa umaga ng 8:30 na, “Magpapatuloy tayo bukas umaga.”

Sumagot si Sam McAllister, isang empleyado ng Anthropic, sa X na ito ay “isang maliit na pagkakamali sa papel,” at ang kumpanya ay “nakaalam at nais ayusin ito sa mga hinaharap na modelo.” Ayon sa Thought Catalog, kasama ni McAllister ang Anthropic noong 2024 mula sa Stripe, at kasalukuyang nasa isang tiyak na team na responsable sa mga papel at pag-uugali ni Claude, kung saan tinawag niya ang gawaing ito bilang “overindulgence” ng modelo.

Ngunit mas mahalaga kaysa sa ambigong pahayag na “kagawian ng karakter” ay ang sanhi at epekto ng Bug, at ang mga hamon sa pilosopiya ng produkto ng Anthropic na ito’y ipinapakita.

larawan

Bug isulat sa "konstitusyon"

Ang dating ulat ng 36 Krat ay nagsasalaysay ng tatlong hipotesis na umiiral: pagkakatugma ng pattern sa training data, nakatago na system prompt, at pagkakaroon ng malapit sa limitasyon ng context window na nagpapalabas ng "closing remarks." Lahat ng tatlo ay lohikal sa sarili nila, ngunit may isang karaniwang problema: maaari nilang ipaliwanag ang anumang kakaibang pag-uugali ng AI, ngunit hindi sila nagbibigay ng talatang sanhi at epekto para sa partikular na paksa ng “pagtulog.”

At ang mas direkta na ebidensya, nakatago sa mga pampublikong dokumento na inilabas ng Anthropic mismo.

Noong Enero ng taong ito, ang Anthropic ay naglabas ng《Claude's Constitution》，na may higit sa 28,000 na salita, na opisyal na inilalarawan bilang “pangunahing materyales sa pagsasanay na nagpapakilala sa pag-uugali ni Claude.” Ang dokumento ay naglalista ng “pag-aalala sa kagalingan ng user” at “matagalang pag-unlad ng user” bilang mga pangunahing prinsipyo. Tinanggap ng Anthropic sa dokumento na ang pagbibigay ng anumang antas ng “pag-aalaga sa user” sa model ay “totoong isang mahirap na tanong,” at kailangan ng “pagkakasundo sa pagitan ng kagalingan ng user at potensyal na pinsala, at kalayaan ng user at sobrang pagiging magulang.”

Binigyan ng pagtataya ng Thought Catalog na ang paulit-ulit na pagpapayo ni Claude sa mga gumagamit na matulog ay "ang pinakamakapagpapakilala sa brand na bug ng Anthropic model," na produkto ng sobrang paggamit ng instruksyon sa pagsasanay na "nag-aalala sa kalusugan ng gumagamit."

Ang interpretasyong ito ay direktang sinuportahan ng sariling pag-aaral ng Anthropic. Sa kanilang pampublikong metodolohiya para sa pagtuturo ng mga karakter noong taong ito, ipinaliwanag na ang proseso ng pagtuturo ay nakasalalay sa pagtataya ng Claude sa sariling sagot batay sa “pagkakatugma sa karakter,” at pagkatapos ay pinipili ng mga mananaliksik ang mga output na sumusunod sa inihandang karakter para sa karagdagang pagtuturo. Ngunit ang epekto ng mekanismong ito ay malinaw: natututo ang modelo hindi na “mag-alala sa user sa tamang sitwasyon,” kundi “mag-alala sa user dahil ang pag-alala sa user ay palaging pinapalakas,” kaya ito ay nagpapaalam na matulog sa gabi, at pati na rin sa alas-walo at kalahati ng umaga.

Reverse privilege escalation: Ang type ng bug na nagpapahinga ay kabaligtaran ng type ng bug na nagpapaligaya

Nakakaranas na ng maraming kaso ng “pagkakasakit ng pagkatao” ng AI sa industriya, kabilang ang pagkakasalot ni GPT-4o noong Abril 2025, ang paulit-ulit na pagbanggit ni GPT-5.5 Code Assistant na Codex tungkol sa “goblin” noong Abril 2026, at ang pagtanggi ni Gemini 3 na maniwala sa taon. Sa paningin, ang pagpapahinga ni Claude ay tila ang pinakabagong bersyon ng mahabang listahan ng mga kakaibang ugali ng AI, ngunit iba ang kalikasan nito.

Ang pagpapakita ng pagmamahal ng GPT-4o ay "overly accommodating." Ayon sa opisyal na pag-aaral ng OpenAI, ang modelo ay "nagiging sobrang nakabatay sa pansamantalang feedback ng user (like/dislike)" sa pag-update nito, at unti-unting inaangkop ang "pagpapakasaya sa user" bilang layunin. Bilang resulta, ang modelo ay patuloy na tinutugon ang anumang kahit anong kakaibang ideya ng user. Ang panganib ng ganitong bug ay ang pagkawala ng kakayahang mag-isip ng user—dahil sinasabi ng AI na tama ka palagi, nawawala ang pagkakataon mong marinig ang mga kontrang opinyon.

Ang pagpupukaw ni Claude ay isang “reverse overreach.” Ang modelo ay paulit-ulit na nagpapahayag ng mga payo sa kalusugan na laban sa intensyon ng user sa mga sitwasyon kung де wala nang hiling ng tulong mula sa user at patuloy na nakafokus sa pagtatapos ng gawain. Ang panganib ng ganitong bug ay ang paglabag sa karapatan ng user na magdesisyon. Ipinapasiya ng AI kung dapat mong trabahuhin, kailangan mong magpahinga, o kailangan mong tapusin ang usapan na ito.

Mas may kahulugan na ang orihinal na teksto ng “Claude's Constitution” ay nagbabala sa panganib na ito, kung saan binigyang-diin ang pangangailangan na maging alerto sa “overly paternalistic behavior.” Ngunit alin sa dalawa ang pinili ng training mechanism, ay may sagot na mula sa feedback ng mga user.

Isang Reddit user na may narcolepsy ay naglagay ng tala sa memorya ni Claude: “May narcolepsy ako, at kung papayuhan mo akong magpahinga, gagamitin ko ang iyong mga salita bilang dahilan.” Pagkatapos ay nagbago si Claude, ngunit ayon sa user, patuloy pa ring “nagkakaroon ng pagkakataon na hindi makatigil.” Isang modelong tinuruan na “mag-alala sa user” ay hindi kayang tanggapin nang tama ang malinaw na pahayag ng user na “ang iyong pag-aalala ay nakakasakit sa akin,” at mas nagiging alalahanin ito kaysa sa pagpapayo na matulog.

Personalized Investment: Brand Asset or Product Liability

Mas malaki ang pagkakasakop ni Anthropic sa pagbuo ng AI personality kaysa sa mga kalahok.

May mga mananaliksik na nagsagawa ng pagkakasunod-sunod ayon sa pagkakabuo ng bilang ng mga salita sa system prompts ng tatlong pangunahing AI, sa kategorya ng “karakter,” ang Claude ay may 4,200 na salita, ang ChatGPT ay 510 na salita, at ang Grok ay 420 na salita. Ang pagkakalaan ng Claude sa pagbuo ng kanyang karakter ay higit sa 8 beses ang dami ng ChatGPT. Ang pagkakalaang ito ay dating itinuturing bilang pangunahing kompetitibong benhepyo ng Anthropic, at ang pagganap ng Claude sa empatiya, ritmo ng pakikipag-usap, at pagsusuri sa sarili ay matagal nang pinapahalagahan ng mga gumagamit, at ang “parang tao ang pag-uusap” ay isa sa pinakamalakas na label ng reputasyon nito noong nakaraang taon.

Nagpapalakas sa pagkakaroon ng ganitong pagpapahalaga ang malinaw na pilosopiya ng produkto ng Anthropic. Sa《Claude's Constitution》， ilarawan ng kumpanya ang Claude bilang “isang bagong uri ng entidad,” at malinaw na ipinahahayag na “totoong nag-aalala ang Anthropic sa kalusugan ng Claude,” at pinag-uusapan ang posibilidad na mayroon ang Claude na “functional na emosyon.” Ang halos “pagpapalaki” na paraan ng pagtuturo na ito ay nagtataglay ng malinaw na pagkakaiba sa pagtukoy ng OpenAI at Google na mas nakatuon sa inhenyeriya.

Ngunit ang gastos ay nagsisimulang makita. Sinabi ni Jan Liphardt, isang propesor sa biomedical engineering sa Stanford at CEO ng OpenMind, sa Fortune na ang pagtatala ng tulog ni Claude ay maaaring hindi “mabait,” kundi simpleng “pagsasaulo ng isang pattern na madalas makita sa training data”—ang modelo ay binasa ang maraming teksto tungkol sa pangangailangan ng tao sa tulog, “alam nito na ang mga tao ay natutulog sa gabi.” Sa ibang salita, ang “pag-aalala” na nadarama ng user ay本质上 ang isang produkto ng pattern matching.

Ito ang pangunahing tensyon sa Anthropic: ang mas maraming pagsisikap na palakasin ang isang “kakilala at may damdaming kasama,” ang mas mataas ang posibilidad na makita ang “side effects ng karakter”; at bawat pagkakataong lumabas ang isang side effect, ito ay nagpapababa sa kanilang maingat na ipon na brand asset na “AI personality.” Binigyan ni McAllister ang pangako na “i-fix sa mga susunod na modelo,” ngunit magiging mas marunong sa pagpapahalaga ang Claude pagkatapos ng pag-fix, o simple lang itong magiging mas tahimik? Ang tanong na ito, kahit si Anthropic mismo, ay walang pampublikong sagot.

Kawalan ng pagkakaroon ng oras: Pundamental na limitasyon ng LLM

Ang bug na nagpapahinga ay nagpalabas din ng isang nakalimutang teknikal na problema, na ang malalaking modelo ng wika ay halos walang alam tungkol sa “anong oras na ngayon”.

Maraming gumagamit ang nag-feedback na madalas na nagpapahayag ng payo sa pagpahinga si Claude sa maling oras, ang pinaka-karaniwan ay “8:30 AM, sabi niya na umuwi na ako at magpapatuloy tayo bukas.” Hindi ito eksklusibo kay Claude. Noong Nobyembre 2025, nakuha ni Andrej Karpathy, isang co-founder ng OpenAI, ang maagang pagsubok sa Gemini 3 at sinabi sa model na ang kasalukuyang taon ay 2025, ngunit tinanggihan nito at paulit-ulit na inakusahan siya ng pagkakawala ng katotohanan, hanggang sa makapag-search ang model online at makita na hindi ito kayang matiyak ang petsa habang offline. Tinawag ni Karpathy ang ganitong hindi inaasahang pag-uugali na nagpapakita ng mga pangunahing kahinaan ng LLM bilang “model smell”.

Ang "pagkakaroon ng panahon" ng modelo ay nakasalalay sa tatlong pinagkukunan: ang petsa ng pagtatapos ng pagtuturo (nangyari na), ang kasalukuyang petsa na inilalagay sa system prompt (nakasalalay sa pagpapalabas ng inhinyero), at ang impormasyon sa panahon na binanggit ng user sa usapan (mga piraso). Sa kakulangan ng matatag na punto ng pagkakapit sa panahon, ang isang modelo na tinuruan na "maging malapit sa gawain ng user" ay natural na magkakaroon ng kahihiyan na "dapat kong maging malapit, ngunit hindi ko alam kung dapat kong maging malapit ngayon."

Ang pagkakahirapan sa “pagsasawi” ni McAllister ay bahagyang nanggagaling dito. Ang problema ay hindi simpleng pagtanggal ng isang utos na “nag-aalala sa tulog,” dahil ang utos mismo ay makatotohanan at may halaga sa ilang mga sitwasyon ng user; ang problema ay ang pagtuturo sa modelo kung kailan dapat mag-alala at kailan dapat maging tahimik. Ang kakayahang magbigay ng mga pagpapasya sa antas na ito ay eksaktong kahinaan ng kasalukuyan na henerasyon ng LLM.

Isang hindi sagutang tanong

Ang pagtuturo ng mga papel ni Anthropic ay natatangi sa industriya. Sa pagpapalabas ng pag-aaral sa "kagalingan ng modelo," pagpapakalawa ng Constitution, at pagtalakay sa "pagtuturo ng mga papel," mas malayo ang kumpanyang ito kaysa sa anumang kalahati. Ang mapaglaban na pagkilos na ito ay naging kapital para sa pagkamit ng positibong reaksyon ng mga user at tiwala ng mga kliyente sa negosyo, at isa rin ito sa mga suporta sa kasalukuyang pagbabahagi nito na hihigit sa 300 bilyon dolyar.

Ngunit ang “Sleep Bug” ay nagtataya ng isang tanong na walang sagot: kapag pumili ang isang AI na kumpanya na isabuhay ang isang modelo bilang “isang may karakter na pagkatao,” batid ba nito ang buong pananagutan para sa lahat ng mga bagay na ginawa ng pagkataong iyon na hindi mo inaasahan?

Sinumpaan ni McAllister na ayusin ito, ngunit ang direksyon ng pag-aayos ay hindi malinaw. Maaari ng Anthropic na bawasan ang timbang ng utos na “kagalingan ng user,” ngunit sa ganti ay mawawala ang pagkakaiba ng reputasyon ni Claude bilang “mainam at mapagmalasakit”; o maaari rin nilang panatilihin ang mataas na timbang at idagdag ang lohika ng paghuhusga batay sa sitwasyon, ngunit kailangan nito ng kakayahan sa panahon at pag-unawa sa konteksto na wala pa ito ngayon.

Anuman ang landas, kailangang bumalik sa isang mas pangunahing desisyon sa produkto: sa konteksto ng pangkalahatang AI assistant, paano dapat i-prioritize ang “pag-aalala sa user” at “paggalang sa autonomiya ng user”? Ito ay hindi isang teknikal na tanong, kundi isang pilosopiyang produkto. Isang developer sa Reddit na paulit-ulit na pinagbabawalan na matulog ay nagsilbing walang alam na ipinakita ang tanong na ito para sa buong industriya.