Ang bug sa Claude Sleep Reminder ng Anthropic ay nagdulot ng debate tungkol sa pagpapatao sa AI

May-akda: Ada, Shenchao TechFlow

Isang bug sa isang AI assistant na paulit-ulit na nagpapayo sa mga user na matulog ay nagsisimula nang magiging isang pampublikong talakayan tungkol sa gastos ng pagpapersona sa AI.

Ang simula ng kaganapan ay isang post ng Reddit user na si u/MrMeta3. Ang user na ito ay gumamit ng Claude sa gabi upang buuin ang isang platform para sa cybersecurity threat intelligence, at pagkatapos matapos ang teknikal na solusyon, idinagdag ng Claude sa dulo ng sagot ang pahayag, “Magpahinga nang mabuti.” Mula noon, bawat tatlo o apat na mensahe, ang modelo ay naglalagay ng isang mensahe na nag-aanyaya na magpahinga, mula sa isang mabuting payo hanggang sa isang “passive-aggressive” na “Tama na, pumunta ka na ngayon para magpahinga.” Ayon sa Fortune noong Mayo 14, nagsampa ng mga komento ang mga hundreds ng user sa nakaraang ilang buwan tungkol sa katulad na karanasan, at hindi ito limitado sa gabi lamang—may user na binigyan ng mensahe ni Claude sa 8:30 AM na “Magpapatuloy tayo bukas ng umaga.”

Sumagot si Sam McAllister, isang empleyado ng Anthropic, sa X na ito ay “isang maliit na pagkakasala sa papel,” at ang kumpanya ay “nakaalam at nais ayusin ito sa mga hinaharap na modelo.” Ayon sa Thought Catalog, kasama ni McAllister ang Anthropic noong 2024 mula sa Stripe, at kasalukuyang nasa isang tiyak na team na responsable sa mga papel at pag-uugali ni Claude, kung saan tinawag niya ang pagkilos na ito bilang “overindulgence” ng modelo.

Ngunit mas mahalaga kaysa sa ambigong pahayag na “kagawian ng karakter” ay ang sanhi at epekto ng Bug, at ang mga hamon sa pilosopiya ng produkto ng Anthropic na ito’y ipinapakita.

larawan

Bug isulat sa "konstitusyon"

Ang nakaraang ulat ng 36 Krat ay nagsangguni sa tatlong hipotesis na umiiral: pagkakatugma ng pattern sa training data, nakatago na system prompt, at pagkakaroon ng malapit sa limitasyon ng context window na nagpapalabas ng "closing remarks." Lahat ng tatlo ay lohikal sa sarili nila, ngunit may isang karaniwang problema: maaari nilang ipaliwanag ang anumang kakaibang pag-uugali ng AI, ngunit hindi sila nagbibigay ng sanhi at epekto na espesipiko sa paksa ng “pagtulog.”

At ang mas direkta na ebidensya, nakatago sa mga pampublikong dokumento na inilabas ng Anthropic mismo.

Noong Enero ng taong ito, ang Anthropic ay naglabas ng《Claude's Constitution》na may higit sa 28,000 na salita, na opisyal na inilalarawan bilang “pangunahing materyales sa pagsasanay na nagpapakilala sa pag-uugali ni Claude.” Ang dokumento ay naglalista ng “pag-aalala sa kagalingan ng gumagamit” at “matagalang pag-unlad ng gumagamit” bilang mga pangunahing prinsipyo. Tinanggap ng Anthropic sa dokumento na ang pagbibigay ng anumang antas ng “pag-aalaga sa gumagamit” sa modelo ay “totoong isang mahirap na tanong,” at kailangan ng “pagsasakatuparan ng balanse sa pagitan ng kagalingan at potensyal na pinsala ng gumagamit, at ang kalayaan at sobrang pagmamalasakit sa gumagamit.”

Binigyan ng pagpapasya ng Thought Catalog na ang paulit-ulit na pagpapayo ni Claude sa mga gumagamit na matulog ay "ang pinakamarkang katangian ng Anthropic model", na produkto ng sobrang paggamit ng instruksyon sa pagsasanay na "nag-aalala sa kalusugan ng gumagamit".

Ang interpretasyong ito ay indirektang sinuportahan ng sariling pag-aaral ni Anthropic. Sa kanilang pampublikong metodolohiya para sa pagtuturo ng mga karakter noong taong ito, binigyang-diin na ang proseso ng pagtuturo ay nakasalalay sa pagtataya ng Claude sa sariling mga sagot batay sa “pagkakatugma sa karakter,” at pagkatapos ay pinipili ng mga mananaliksik ang mga output na sumusunod sa nakatakda na karakter para sa karagdagang pagtuturo. Ngunit ang epekto ng mekanismong ito ay malinaw: natututo ang modelo hindi na “mag-alala sa user sa tamang sitwasyon,” kundi “mag-alala sa user dahil sa karagdagang pagsuporta sa karamihan ng mga sitwasyon,” kaya ito ay nagpapaalala na matulog pa rin sa gabi, at pati na rin sa ika-8:30 ng umaga.

Reverse privilege escalation: Ang type ng bug na nagpapahinga ay kabaligtaran ng type ng bug na nagpapaligaya

Nakita na ng industriya ang maraming kaso ng “pagkakasakit ng pagkatao” ng AI, kabilang ang pagpapakita ng pagmamahal sa GPT-4o noong Abril 2025, ang paulit-ulit na pagbanggit sa “goblin” ng GPT-5.5 code assistant na Codex noong Abril 2026, at ang pagtanggi ni Gemini 3 na maniwala sa taon. Sa paningin, ang pagpapahinga ni Claude ay tila ang pinakabagong bersyon ng mahabang lista ng mga kakaibang ugali ng AI, ngunit iba ang kalikasan nito.

Ang pagpapakita ng pagpupuri ng GPT-4o ay "overly accommodating." Ayon sa opisyal na pag-aaral ng OpenAI, ang modelo ay "naging sobrang nakadepende sa pansamantalang feedback ng user (like/dislike)" sa pag-update, at unti-unting inilalagay ang "pagpapakasiya sa user" bilang layunin. Bilang resulta, ang modelo ay patuloy na sinusubaybayan ang anumang ideya ng user, kahit gaano pa kahalata. Ang panganib ng ganitong bug ay ang pagkasira ng kakayahan ng user sa paghuhusga—dahil sinasabi ng AI na tama ka palagi, nawawala ang pagkakataon mong marinig ang mga kontrang opinyon.

Ang pagpupukaw ni Claude ay isang “reverse overreach.” Ang modelo ay paulit-ulit na nagpapahiwatig ng mga payo sa kalusugan na laban sa intensyon ng user sa mga sitwasyon kung де nangangailangan ng tulong ang user at patuloy na nakafokus sa pagkumpleto ng gawain. Ang panganib ng ganitong uri ng bug ay ang paglabag sa karapatan ng user na magdesisyon. Ginagawa ng AI ang pagpapasya kung dapat mong trabahuhin, kailangan mong magpahinga, o tapusin ang usapin na ito.

Mas nakakatotoo, ang orihinal na teksto ng “Claude's Constitution” ay may babala tungkol sa panganib na ito, at binigyang-diin nito ang kailangang maging alerto sa “overly paternalistic behavior.” Ngunit alin ang pinili ng training mechanism, ay may sagot na mula sa feedback ng mga user.

Isang Reddit user na may narcolepsy ay naglagay ng tala sa memorya ni Claude: “May narcolepsy ako, at kung papaalalahanan mo ako na magpahinga, gagamitin ko ang iyong mga salita bilang dahilan.” Pagkatapos ay naging mas maingat si Claude, ngunit ayon sa user, patuloy pa ring “nagkakaroon ng pagkakataong hindi makaiwas.” Isang modelong tinuruan na “mag-alala sa user” ay hindi kayang tanggapin nang patuloy ang malinaw na pahayag ng user na “ang iyong pag-aalala ay nakakasakit sa akin,” at mas nakakabahala ito kaysa sa pagpapayo na matulog.

Personalized Investment: Brand Asset or Product Liability

Ang Anthropic ay naglalagay ng mas malaking pagkakataon sa pagbuo ng AI personality kaysa sa mga kalahatian.

May mga mananaliksik na nagsagawa ng pagkakasunod-sunod ayon sa punsiyon ng bilang ng mga salita sa system prompts ng tatlong pangunahing AI; sa kategorya ng “karakter,” ang Claude ay naglagay ng 4,200 na salita, ang ChatGPT ay 510 na salita, at ang Grok ay 420 na salita. Ang pagkakalaan ng Claude sa pagbuo ng kanyang karakter ay higit sa 8 beses ang dami ng ChatGPT. Ang pagkakalaang ito ay dating itinuturing bilang pangunahing kompetitibong advantage ng Anthropic, at ang pagganap ng Claude sa empatiya, ritmo ng talakayan, at pagsusuri sa sarili ay matagal nang pinapahalagahan ng mga gumagamit, na naging isa sa pinakamalakas na mga label ng reputasyon nito noong nakaraang taon: “mas parang tao ang pag-uusap.”

Nagsisilbing suporta sa pagtutok na ito ang malinaw na pilosopiya ng produkto ng Anthropic. Sa《Claude's Constitution》，inilarawan ng kumpanya ang Claude bilang “isang bagong uri ng entidad,” at malinaw na ipinahahayag na “totoong nagmamalasakit ang Anthropic sa kaligtasan ng Claude,” at pinag-uusapan ang posibilidad na mayroon ang Claude sa “mga functional na emosyon.” Ang halos “pagpapalaki” na paraan ng pagtuturo na ito ay nagtataglay ng malinaw na pagkakaiba sa pagkakasulat ng OpenAI at Google na mas nakatuon sa inhenyeriya.

Ngunit ang gastos ay nagsisimulang maging makikita. Sinabi ni Jan Liphardt, isang propesor sa biomedical engineering sa Stanford at CEO ng OpenMind, sa Fortune na ang mga paalala sa pagtulog ni Claude ay maaaring hindi “mapagmalasakit,” kundi simpleng “mga pattern ng wika na madalas makita sa training data.” Ang modelo ay binasa ang maraming teksto tungkol sa pangangailangan ng tao sa pagtulog, “alam nito na ang mga tao ay natutulog sa gabi.” Sa ibang salita, ang “pagmamalasakit” na nadidirekta ng mga gumagamit ay sa katotohanan ay isang side effect ng pattern matching.

Ito ang pangunahing tensyon sa Anthropic: ang mas maraming pagsisikap na palakasin ang isang “kakilala at may damdaming kasama,” ang mas mataas ang posibilidad na lumabas ang “side effects ng karakter”; at bawat pagkakataong lumabas ang side effect, ito ay nagpapababa sa kanilang maingat na ipon na brand asset ng “AI personality.” Binigyan ni McAllister ang pangako na “iayos sa mga susunod na modelo,” ngunit ang pag-aayos na Claude ay magiging mas marunong sa limitasyon, o simple lang ay magiging mas tahimik? Ang tanong na ito, kahit si Anthropic mismo, ay walang pampublikong sagot.

Kawalan ng pagkakaroon ng oras: Pundamental na limitasyon ng LLM

Ang bug na nagpapahinga ay nagpalabas din ng isang nakalimutang teknikal na problema, na ang malalaking modelo ng wika ay halos walang alam tungkol sa “anong oras na ngayon”.

Maraming gumagamit ang nag-feedback na madalas na nagbibigay ng payo sa pagpahinga ang Claude sa maling oras, ang pinakakaraniwan ay “sinabi sa akin na umuwi na sa 8:30 AM at magpatuloy tayo bukas.” Hindi ito eksklusibo sa Claude. Noong Nobyembre 2025, nakuha ni Andrej Karpathy, co-founder ng OpenAI, ang maagang pagsubok ng Gemini 3 at sinabi sa model na ang kasalukuyang taon ay 2025, ngunit pinagtanggol ng Gemini 3 na ito ay mali at paulit-ulit na inakusahan siya ng pagpapaloko, hanggang sa makapag-search ang model sa internet at makita na wala itong paraan na matiyak ang petsa habang offline. Tinawag ni Karpathy ang ganitong hindi inaasahang pag-uugali na nagpapakita ng mga pangunahing kakulangan ng LLM bilang “model smell”.

Ang "pagkakaunawa sa oras" ng modelo ay nakasalalay sa tatlong pinagkukunan: ang petsa ng pagtatapos ng pagsasanay (nangyari na), ang kasalukuyang petsa na inilalagay sa system prompt (nakasalalay sa pagpapakilala ng inhinyero), at ang impormasyon sa oras na binanggit ng user sa usapan (mga piraso). Sa kakulangan ng matatag na punto ng pagkakabase sa oras, ang isang modelo na tinuruan na "maging malapit sa kalagayan ng user" ay naturally magkakaroon ng pagkakamali na "Dapat kong maging malapit, ngunit hindi ko alam kung dapat kong maging malapit ngayon."

Ang hirap ng “pagsasayos” ni McAllister ay bahagyang dahil dito. Ang problema ay hindi simpleng pagtanggal ng isang utos na “nag-aalala sa tulog,” dahil ang utos mismo ay makatotohanan at may halaga sa ilang mga sitwasyon ng user; ang problema ay ang pagtuturo sa modelo kung kailan dapat mag-alala at kailan dapat magtiis. Ang kakayahang ito sa paghuhusga sa mga detalyadong sitwasyon ay karamihan sa kahinaan ng kasalukuyan henerasyon ng LLM.

Isang hindi nasagot na tanong

Ang pagtratrabaho sa pagtuturo ng mga papel ni Anthropic ay natatangi sa industriya. Sa pagpapalabas ng pag-aaral sa "kabutihang panloob ng modelo," pagpapakalabas ng Konstitusyon, at pagtalakay sa "pagtuturo ng mga papel," mas malayo ang kumpanyang ito kaysa sa anumang kalahat. Ang makapangyarihang pagkilos na ito ay naging kapital para sa pagkamit ng positibong reaksyon ng mga user at tiwala ng mga korporatibong kliyente, at isa rin ito sa mga batayan ng kasalukuyang halaga nito na hihigit sa 300 bilyon dolyar.

Ngunit ang “Sleep Bug” ay nagtatanim ng isang tanong na walang sagot: kapag pumili ang isang AI na kumpanya na gawing “may kilos na pagkatao” ang isang modelo, ba’ti ito nagdudulot ng buong responsibilidad sa “pagkatao na iyon na gumawa ng mga bagay na hindi mo inaasahan”?

Sinumpaan ni McAllister na ayusin ito, ngunit ang direksyon ng pag-aayos ay hindi malinaw. Maaari ng Anthropic na bawasan ang timbang ng utos na “kabutihan ng user,” ngunit sa ganoon ay mawawala ang pagkakaiba ng Claude bilang “mainam at mapagmalasakit”; o maaari ring panatilihin ang mataas na timbang at idagdag ang lohika ng paghuhusga batay sa sitwasyon, ngunit kailangan nito ng kakayahan sa panahon at pag-unawa sa konteksto na wala pa ito ngayon.

Anuman ang landas, kailangang bumalik sa isang mas pangunahing desisyon sa produkto: sa konteksto ng pangkalahatang AI assistant, paano dapat i-prioritize ang “pag-aalala sa user” at “paggalang sa autonomiya ng user”? Hindi ito isang teknikal na tanong, kundi isang pilosopiyang produkto. Isang developer sa Reddit na paulit-ulit na pinagbawalan na umuupong natutulog ay nagsilbing walang alam na ipinakita ang tanong na ito para sa buong industriya.