Binigyan ng paumanhin ni Anthropic ang pag-censor sa Claude Fable 5, siniguro ang mga pagbabago para sa transparensya

Ang pinakabagong AI model ni Anthropic ay naging live sa loob ng humigit-kumulang 24 na oras bago makita ng mga user na may kakaibang bagay. Ang Claude Fable 5, ang unang Mythos-class model ng kumpanya na available sa pangkalahatang publiko, ay nakakapag-reroute nang tahimik sa ilang mga tanong patungo sa isang mas kakaibang model nang hindi sinabi sa sinuman. Nang makita ng komunidad ng AI ang pagbaba sa performance at isinalaysay ito, ginawa ni Anthropic ang isang makabagong bagay sa tech: tinanggap nila ang pagkakamali.

Ang kumpanya ay nagbigay na ng mga nakikita ng mga pagsisiguro para sa hinaharap, ibig sabihin ay malalaman ng mga gumagamit kung kailan ay tinatala o dinirekta ang kanilang mga katanungan. Ang huli? Binalita ni Anthropic na ang paglutas ng problema sa transparensya ay magdudulot ng isang side effect: mas maraming false positives habang binabawasan ng kumpanya ang kanilang mga classifier. Sa Ingles: hintayin na minsan ay itatala ng sistema ang mga katanungan na ganap na walang kasalanan habang ito ay natututo na mas mabuti nang ibawas ang tunay na panganib mula sa isang estudyante ng biyolohiya na gumagawa ng takdang-aralin.

Ano talaga ang nangyari

Ipinakilala ang Claude Fable 5 noong June 9, 2026, at ipinangako bilang malaking hakbang sa lineup ng mga modelo ni Anthropic. Sa ilalim, ang Mythos-class architecture ay naglalaman ng bagong safety layer na disenyo upang tratuhin ang mga mataas na panganib na query, lalo na sa sensitibong mga domain tulad ng cybersecurity at biology.

Kapag nakakita ang sistema ng isang potensyal na mapanganib na prompt, ito ay nagsilenteng nag-redirect sa Claude Opus 4.8, isang mas lumang, mas maliit na kakayahan na modelo. Walang abiso, walang paliwanag, walang pagpipilian. Ang user ay natanggap lamang ng mas masamang sagot at walang alam kung bakit.

Pamamahayag

Sinabi ng Anthropic na triggered ang fallback mechanism sa mas mababa sa 5% ng mga sesyon ng user. Maliit ito hangga’t isinasaalang-alang ang sukat ng base ng user ni Claude at ang katotohanan na marami sa mga naapektuhandong user ay malamang mga power user na tinataya ang mga kakayahan ng model sa teknikal na mga domain, eksaktong target na audience na pinakamalaki ang posibilidad na makakakita ng biglaang pagbaba sa kalidad.

Agad at malinaw ang reaksyon. Siniraan ng mga gumagamit ang Anthropic ng paggawa ng nakakatagong pagbabawal sa performans, isang termino na mabilis na kumalat sa mga forum ng developer at social media. Ang pangunahing reklamo ay hindi talaga tungkol sa kaligtasan. Ito ay tungkol sa lihim. Karaniwang tinatanggap ng mga developer at siyentipiko ang makatwirang mga hangganan kung ito ay malinaw na ipinapahayag. Ang pagtatago nito ay iba talaga.

Ang pagbabalik-tanaw sa transparensya at ang mga gastos nito

Nakatanggap ang Anthropic ng sagot sa loob ng isang araw pagkatapos makakuha ng pansin ang kontrobersiya. Kinilala ng kumpanya na ang pagkakataon ay isang mali sa pagkalkula at sinumpaan na gawing makikita ng mga user ang lahat ng mga redirection na may kinalaman sa kaligtasan sa hinaharap.

Ngunit ang transparensya ay hindi libreng upgrade. Pinagbabalaan nang eksplisito ni Anthropic na ang paglipat ay magdudulot ng higit pang maling positibo habang pinapabuti nila ang kanilang mga classifier.

Sa labas ng mga pagbabago sa classifier, ipinakilala ni Anthropic ang obligatoriyong patakaran sa pag-iingat ng datos na 30 araw para sa lahat ng mga modelo ng klaseng Mythos. Ito ay umiiral sa lahat ng lugar, walang pagpipilian kahit para sa mga enterprise partner. Ang mga kliyente sa enterprise na nagdadala ng sensitibong datos ay kailangang isama ang minimum na tagal ng pag-iingat na hindi nila maaaring tawagan o pagsundan.

May isang paglilimita lamang. Planong ipagkaloob ni Anthropic ang mga bersyon na walang pagkakabawas ng kanyang mga modelo sa klase ng Mythos sa mga napatunayang kasosyo sa sektor ng mga siyensya ng buhay. Ang lohika ay simpleng: kailangan ng mga mananaliksik sa biomedisina ang pag-access sa buong kakayahan ng modelo nang walang pagbabawal sa kaligtasan na nakakaapekto sa legal na pag-aaral sa mga paksa na may pagkakatulad sa mga mataas na panganib na domain.

Bakit mahalaga ito sa labas ng drama sa AI

Ang mga kalaban ni Anthropic ay nagmamasid nang mabuti. Ang OpenAI, Google DeepMind, at iba pang nagtatayo ng katulad na frontier systems ay makakasalungat sa magkakaparehong desisyon tungkol sa kung dapat silang mag-degrade nang tahimik ng mga output o bukas na i-flag ang mga paghihigpit sa nilalaman. Ipakita ng Anthropic na ang tahimik na pamamaraan ay nagdudulot ng pagtutol nang mabilis na sapat upang pilitin ang pagbabago ng patakaran sa loob ng 24 oras.

Ang patakaran sa pagpanatili ng 30 araw ay maaaring ang pinakamalaking isyu dito. Ang mga enterprise customer na nag-e-evaluate ng mga modelo ng Anthropic na Mythos-class ay kailangang isipin ang isang hindi maaaring iwasan na pangangailangan sa pagtrato ng data kumpara sa anumang benepisyo sa performance na ibinibigay ng bagong arkitektura. Para sa mga kumpanya sa mga reguladong industriya tulad ng kalusugan o pagsasapalaran, ang obligatoriyong panahon ng pagpanatili ay maaaring magdulot ng pagkakatambak sa kanilang sariling mga framework ng paggawa ng patakaran sa data, na maaaring magpilit sa ilang enterprise buyer na pumunta sa mga kalaban na handang magbigay ng mas fleksibleng mga kondisyon.