Anthropic enfrenta oposición gubernamental por el modelo Fable AI

Autor: Ben Thompson

Compilado por Deep潮 TechFlow

Guía de Shenchao: El nuevo modelo Fable de Anthropic fue suspendido de emergencia por el gobierno estadounidense apenas dos meses después de su lanzamiento; aparentemente por una "fuga de seguridad", pero en realidad revela una doble guerra entre los laboratorios de IA y el gobierno, así como con la industria del software. Esta empresa, que vende la "seguridad" como su principal atributo, está transformando la narrativa de seguridad en una ventaja comercial, mientras que lo que realmente busca es obtener los datos de usuarios que poseen empresas como Microsoft.

Entiendo la postura de los burlones, quienes siempre creen que los anuncios públicos de Anthropic, especialmente los comentarios realizados al lanzar modelos, están diseñados para generar pánico con fines de marketing. Hace dos meses, Anthropic anunció el lanzamiento de Mythos Preview, afirmando que el modelo era demasiado peligroso para ser público, particularmente debido a sus poderosas capacidades de ciberseguridad. Luego, dos meses después, la empresa lanzó públicamente Fable, una versión de Mythos con múltiples barreras de seguridad.

Según mi experiencia limitada, Fable es realmente un modelo excepcional. Actualmente, más allá del rendimiento en programación, es difícil evaluar objetivamente los modelos, pero aún existen percepciones subjetivas; he encontrado que la experiencia de interacción con Fable es extremadamente excelente; hace que otros modelos, incluidos GPT 5.5 y Opus 4.8, parezcan pequeños e insignificantes. Solo había tenido esta sensación dos veces antes: una con GPT-4 y otra con Grok 4, ambos representaban una nueva generación en términos de escala y complejidad del modelo base; siento que Fable proviene de un nuevo preentrenamiento y es el primero de una nueva generación.

Por lo tanto, puedo aceptar perfectamente que Fable/Mythos es realmente más fuerte en la identificación y explotación de problemas de seguridad, y que Anthropic actuó con cautela al lanzarlo. Pero el problema con lanzar el modelo públicamente es que los controles pueden ser evadidos, y claramente esto ocurrió poco después del lanzamiento.

Anthropic vuelve a enfrentarse al gobierno de Estados Unidos

Lo que sucedió a continuación no está claro. Anthropic escribió en el blog:

El gobierno de Estados Unidos invocó poderes de seguridad nacional para emitir una orden de control de exportaciones, suspendiendo el acceso de todos los ciudadanos extranjeros a Fable 5 y Mythos 5, ya sea dentro o fuera de Estados Unidos, incluyendo a los empleados extranjeros de Anthropic. El efecto práctico de esta orden es que debemos deshabilitar de inmediato el acceso a Fable 5 y Mythos 5 para todos los clientes para garantizar el cumplimiento. El acceso a todos los demás modelos de Anthropic no se ve afectado.

Recibimos la orden del gobierno hoy a las 5:21 p.m. hora del Este. La carta no proporcionó detalles específicos sobre las preocupaciones de seguridad nacional. Comprendemos que el gobierno cree que se ha descubierto un método para eludir o "escapar" de Fable 5. Revisamos la demostración que utiliza esta técnica específica para identificar una pequeña cantidad de vulnerabilidades conocidas. Estas vulnerabilidades parecen ser relativamente simples, y descubrimos que otros modelos disponibles públicamente también pueden detectarlas sin necesidad de eludir.

Anthropic argumenta además que los jailbreaks no universales son inevitables y de alcance limitado, sin evidencia de la existencia de jailbreaks universales; los jailbreaks descubiertos parecen haber sido reportados por Amazon, lo cual es notable dado que Amazon es tanto inversora de Anthropic como proveedor principal de servicios de inferencia de la empresa. Mientras escribo este artículo, los ejecutivos de Anthropic están en Washington D.C., intentando abordar lo que ellos insisten es un malentendido, pero que los funcionarios de la Casa Blanca sugieren es una indiferencia por parte del liderazgo de la empresa hacia legítimas preocupaciones de seguridad nacional.

Dado que hay demasiados hechos en disputa, no tengo nada más que añadir sobre el conflicto actual; pero no me sorprende que el conflicto esté ocurriendo: ya expliqué en mi artículo “Anthropic y la alineación” que el conflicto entre el gobierno de EE.UU. y Anthropic era inevitable. En este sentido, quienes piensan que Mythos aún no es lo suficientemente poderoso como para merecer una acción gubernamental drástica han pasado por alto el punto clave: si ahora no es lo suficientemente poderoso, el siguiente lo será, o el siguiente después de ese, especialmente ahora que los modelos se vuelven cada vez más útiles para crear sus sucesores.

Sin embargo, esto plantea otra pregunta: una que parece confirmar la perspectiva de los burlones; si Mythos es tan peligroso, ¿por qué lanzar Fable en primer lugar y por qué desafiar al gobierno para hacer lo que dices querer hacer? De hecho, creo que el comportamiento de Anthropic es completamente comprensible; lo que distingue a la empresa es cómo justifica estos actos, y precisamente esas justificaciones proporcionan combustible a los burlones y también el magnetismo de Anthropic.

Necesidad económica

Durante los primeros años de la IA, el mayor valor económico fluyó hacia la capacidad de cómputo, por razones obvias: no había suficiente oferta para satisfacer la demanda, lo que significó un aumento drástico de los precios; los mayores beneficiarios fueron NVIDIA, TSMC y los fabricantes de memoria (SK Hynix, Samsung y Micron). Mientras tanto, Anthropic y OpenAI acumularon pérdidas de cientos de miles de millones de dólares para desarrollar modelos de vanguardia, que una vez lanzados, fueron distilados y comercializados por modelos de código abierto, principalmente provenientes de China.

Esto representa la situación pesimista del laboratorio: nunca podrán cubrir sus costos, ya que su diferenciación es temporal y las alternativas gratuitas se vuelven "suficientemente buenas"—creo que esto es razonable. En un mundo donde los modelos son intercambiables, los modelos se convierten en mercancías, y el mayor valor fluye hacia otros lugares. Ahora es la potencia de cálculo, pero con el tiempo, cuando tengamos suficiente potencia de cálculo, la posición más valiosa de la cadena de valor será siempre la más valiosa: poseer puntos de contacto con los usuarios.

Por lo tanto, siempre me ha sido claro que los laboratorios de vanguardia tienen una necesidad económica de acercarse más a los usuarios. Si posees puntos de contacto con los usuarios, entonces tienes un bloqueo significativo, y la mejor manera de poseer puntos de contacto con los usuarios es convertirte en el lienzo sobre el cual hacen todo lo que necesitan. Esto implica, a su vez, que los laboratorios de vanguardia están en conflicto con las empresas de software: el software posee los puntos de contacto con los usuarios, pero el interés a largo plazo de los laboratorios de vanguardia no es simplemente convertirse en una entrada comercial del software, sino reemplazar directamente al software.

Al mismo tiempo, las empresas de software están esforzándose por hacer lo contrario. Satya Nadella explicó en un artículo en X su visión sobre cómo las empresas deberían construir sobre modelos:

Cada empresa debe establecer lo que yo llamo capital humano y capital de token. El capital humano incluye el conocimiento, el juicio, las relaciones, la creatividad y la identificación de patrones de sus empleados, mientras que el capital de token es la capacidad de IA que la empresa construye y posee. Es importante que, a medida que crece el capital de token, el capital humano no se vuelva menos valioso. ¡Simplemente se volverá más valioso! Creo que la iniciativa humana será el motor del crecimiento del capital de token. Los humanos establecerán objetivos ambiciosos, conectarán puntos entre disciplinas, construirán relaciones e identificarán los patrones más importantes. Sin guía humana, tu capacidad de cómputo está inactiva.

Esto significa que la verdadera oportunidad no radica en elegir el mejor modelo, sino en construir ciclos de aprendizaje sobre los modelos, permitiendo que el capital humano y el capital de tokens se multipliquen exponencialmente. Puedes externalizar una tarea, incluso un trabajo, pero nunca puedes externalizar tu aprendizaje. El futuro de las empresas consiste en permitir que este aprendizaje se multiplique exponencialmente entre humanos e IA. Esto requiere un nuevo enfoque arquitectónico que permita a cada empresa construir sistemas de agentes que mejoren con el tiempo, manteniendo al mismo tiempo el control sobre su propiedad intelectual. Las empresas deben poder reemplazar modelos "genéricos" sin perder el conocimiento especializado de sus "veteranos" integrado en sus sistemas de aprendizaje. Esta es la clave "prueba" de tu control y soberanía en la era futura.

Nadella abrió esta visión con una advertencia:

Lo que no queremos ver es un mundo en el que cada empresa de cada industria ceda su valor a unos pocos modelos que lo consumen todo. Si todo el valor solo fuera capturado por unos pocos modelos, la economía política simplemente no lo toleraría. La sociedad no otorgaría permiso para un futuro de IA que vacíe por completo una industria.

Piensa en lo que sucedió en la primera fase de la globalización: toda la economía industrial fue desmantelada por la externalización. Aunque los números del PIB parecían buenos, el desplazamiento fue real y sus consecuencias aún se sienten hoy. No permitamos que esta dinámica se traslade a la era de la IA, donde unos pocos sistemas de IA capturan todos los retornos económicos, mientras que industrias enteras descubren que su conocimiento se ha mercantilizado justo bajo sus narices.

El problema con esta analogía es que la globalización realmente ocurrió y las economías industriales realmente se desindustrializaron. Esto podría no ser una advertencia, sino una profecía; no sorprende que Nadella esté lanzando la alarma, ya que Microsoft podría ser uno de los afectados. Del mismo modo, la necesidad económica de los fabricantes de modelos es precisamente lograr esto.

Necesidad de datos

Estos modelos—incluso Mythos—aún no han llegado a ese punto. Lo que necesitan, además de más potencia de cómputo, son más y mejores datos. Las mejoras en los modelos provienen cada vez más del aprendizaje por refuerzo; algunos de estos pueden generarse sintéticamente, pero la palanca más poderosa para los laboratorios de vanguardia es el uso en el mundo real.

Creo que esta es la razón principal por la que OpenAI y Anthropic ofrecen planes de suscripción con fuertes subsidios. SemiAnalysis estimó recientemente que un plan de 200 dólares te permite obtener tokens de Claude valorados en 8000 dólares y tokens de Codex valorados en 14000 dólares. Claro, ambos compiten por la cuota de atención de usuarios y desarrolladores, pero también compiten por el acceso a datos de uso real para mejorar los modelos.

Anthropic ha aumentado significativamente su compromiso en Fable, anunciando que retendrán todos los datos utilizados durante 30 días, incluso para los planes empresariales que anteriormente prometieron retención cero de datos. La empresa afirma que no utilizará estos datos para entrenar, pero no ha implementado ninguna medida de garantía para asegurar que no lo harán en el futuro (por ejemplo, almacenando los datos en un tercero). Si este cambio de política (cuando Fable se restablezca) no provoca una pérdida masiva de clientes, sospecho que solo es cuestión de tiempo antes de que comiencen a utilizar los datos: es demasiado valioso para su objetivo final.

También tenga en cuenta el ciclo virtuoso de moverse hacia arriba hacia los puntos de contacto del usuario: cuantos más flujos de trabajo se completen directamente con Claude o Codex, más datos obtendrá cada empresa para devolver al entrenamiento, lo que hace que sus productos sean más potentes y útiles, ampliando la cantidad de flujos de trabajo que pueden atender y su acceso a los datos.

Nadella enfatizó la importancia de estos datos en el artículo, pero Natural considera que debería ser independiente del modelo:

La empresa debe transformar sus flujos de trabajo, conocimientos del dominio y juicios acumulados en un sistema de IA que mejore con cada uso. Las evaluaciones privadas deben captar si el modelo realmente mejora en los resultados que son importantes para el negocio (¡no solo en benchmarks externos!). El entorno de aprendizaje por refuerzo privado debe fortalecer al modelo sobre trayectorias reales dentro de la organización. Su base de conocimientos hace que la memoria institucional sea consultable y utiliza tokens de manera más eficiente.

Este ciclo se convierte en nueva propiedad intelectual de la empresa. Lo veo como una máquina de escalada. A diferencia de la mayoría de los activos, es compuesto. Cada flujo de trabajo mejorado genera señales de entrenamiento superiores, lo que acelera la acumulación de conocimiento tácito exclusivo de la empresa. Las empresas que construyan esto desde temprano tendrán una ventaja difícil de replicar, independientemente de las nuevas capacidades individuales de cualquier modelo.

Este ciclo se convierte en la nueva propiedad intelectual de la empresa. Lo veo como una máquina de escalar montañas. A diferencia de la mayoría de los activos, puede crecer con capitalización compuesta. Cada mejora en los flujos de trabajo genera señales de entrenamiento más efectivas, acelerando la acumulación de conocimiento implícito exclusivo de la empresa. Las empresas que establezcan esta capacidad desde temprano tendrán una ventaja difícil de replicar, independientemente de cómo mejoren los modelos individuales en el futuro.

Sin embargo, ¿qué pasa si las empresas que cumplen con las políticas de datos de Anthropic ya pueden obtener mejores resultados? ¿O si las empresas existentes resisten, dejando una oportunidad para nuevas empresas—o incluso para los propios fabricantes de modelos—para superarlas en el mercado? Anthropic está realmente poniendo a prueba la determinación que Nadella ha llamado a manifestar.

Demandas de poder

En torno a la política de retención de datos de Fable/Mythos, incluso eso no es la parte más controvertida del lanzamiento. Por el contrario, Anthropic indicó en su lanzamiento que, si Fable se utiliza para el desarrollo de LLM, reducirá silenciosamente su rendimiento; el sistema de tarjetas establece:

También hemos implementado medidas de protección relacionadas con el desarrollo avanzado de LLM. Como se discutió en la sección 6.1 de nuestro informe de riesgos de febrero de 2026, estamos preocupados por el riesgo de acelerar el ritmo general del desarrollo de IA, aunque aún no estamos seguros de la gravedad de estos riesgos. En particular, nuestra preocupación es —como escribimos en ese momento— "acelerar la construcción por parte de otros desarrolladores de IA de sistemas de IA potentes con riesgos similares a los de nuestro sistema, sin necesariamente contar con las medidas de protección correspondientes."

Dado que los modelos recientes han adquirido la capacidad de acelerar su propio desarrollo, hemos implementado nuevas medidas de intervención para limitar la efectividad de Claude en respuestas a solicitudes relacionadas con el desarrollo de LLM de vanguardia (por ejemplo, construir tuberías de preentrenamiento, infraestructura de entrenamiento distribuido o diseño de aceleradores ML). Ya violaba nuestros términos de servicio utilizar Claude para desarrollar modelos competidores, pero al hacer cumplir esta restricción mediante medidas de protección, evitamos acelerar a aquellos más dispuestos a infringir estos términos.

A diferencia de nuestras intervenciones en ciberseguridad, bioquímica y destilación, estas medidas de protección son invisibles para los usuarios. Fable 5 no revertirá a otro modelo. En su lugar, las medidas de protección limitarán la efectividad mediante modificaciones de prompts, vectores de orientación o ajuste fino eficiente de parámetros (PEFT), entre otros métodos. Estas intervenciones no afectarán la gran mayoría del trabajo de programación. Estimamos que afectarán aproximadamente el 0,03% del tráfico, concentrado en menos del 0,1% de las organizaciones. Cuando estas intervenciones entren en vigor, esperamos que tengan un impacto mínimo en el comportamiento del modelo, además de limitar la efectividad de sus LLM de vanguardia en desarrollo. Claude seguirá proporcionando respuestas útiles a las solicitudes de los usuarios. Continuaremos mejorando la precisión de nuestros métodos de detección tras el lanzamiento de este modelo.

Anthropic retiró este cambio: Fable transferirá las solicitudes relacionadas con LLM a Opus 4.8 y revelará a los usuarios esta transferencia—pero considero que la política original fue muy iluminadora. Por un lado, realmente no le reprocho a Anthropic no querer ayudar a sus competidores; por otro lado, debería ser muy claro que Anthropic cree que nadie más que ellos debería desarrollar LLM de vanguardia.

Lo más llamativo de esta política es que se implementó apenas dos meses después de que Anthropic tuviera un desacuerdo con el Departamento de Guerra: este último deseaba utilizar Claude para cualquier propósito legal, mientras que Anthropic buscaba imponer controles más estrictos sobre armas de vigilancia y autónomas. Esta medida de degradación representa tanto la capacidad como la voluntad de Anthropic de modificar silenciosamente sus modelos para alinearse con sus preferencias políticas. En otras palabras, Anthropic validó activamente algunas de las principales preocupaciones de sus críticos sobre su riesgo como parte de la cadena de suministro.

Sin embargo, la conclusión más amplia extraída de ese evento es que Anthropic cree que deberían tener la última palabra sobre cómo se utiliza Anthropic; dado que consideran que solo ellos deberían desarrollar IA de vanguardia, en realidad creen que solo ellos deberían tener la última palabra sobre la IA en general. Cuando combinas este entendimiento con el reclamo de la empresa de que la IA puede realizar todas las actividades económicas, te das cuenta de que el liderazgo de Anthropic realmente desea tener poder sobre todo y sobre todos.

Narrativa de seguridad

Por supuesto, Anthropic nunca expresaría esto tan directamente; en cambio, la historia trata sobre la seguridad:

Espero que Anthropic cada vez más exponga las capacidades de sus modelos a los usuarios finales a través de puntos de acceso cada vez más personalizados para distintos flujos de trabajo, incluso mientras comienza a restringir la API. Esta sustitución del software y la limitación del acceso se realizarán en nombre de la seguridad, aunque Anthropic cumpla con sus intereses económicos de acercarse a los usuarios finales.

Anthropic explica que el cambio significativo en su política de retención de datos es por seguridad. Específicamente, la empresa afirma que retener todos los datos de los usuarios durante 30 días es necesario para prevenir comportamientos de escape que preocupan al gobierno de Estados Unidos. Ciertamente puedo imaginar un futuro en el que factores de seguridad los obliguen a entrenar también con estos datos para mejorar la prevención del uso malicioso.

La historia original de Anthropic se basa en la creencia de sus fundadores de que OpenAI no tomaba la seguridad lo suficientemente en serio; la empresa considera que solo ellos pueden controlar la IA, y como se preocupan de manera única por la seguridad, tienen motivos para intentar controlar a todos los demás, incluido el gobierno de Estados Unidos.

Sobre estos motivos de seguridad, el problema es que considero que son válidos porque, para Anthropic, no lo son. La empresa realmente cree que es la única que cree en la superinteligencia y, por lo tanto, la única que presta suficiente atención a los peligros. Esto justifica una y otra decisión, una y otra política, un y otro enfrentamiento, que para los externos parecen una extraña combinación de cinismo y ingenuidad.

La comparación con OpenAI es enorme: creo que una forma de entender cómo y por qué OpenAI perdió su liderazgo es que, en los años posteriores al lanzamiento de ChatGPT, la empresa estuvo en conflicto interno, y su antiguo laboratorio de investigación de repente se vio cargado con la responsabilidad de convertirse en una empresa de tecnología de consumo inesperada; durante el proceso de OpenAI para resolver este conflicto, perdió una gran cantidad de talento hacia empresas como Anthropic.

Por otro lado, Anthropic tiene una perfecta alineación entre el talento, la misión y los negocios. La empresa puede vender a los investigadores la visión de crear dioses artificiales, con el aura de personas que se preocupan por los peligros y son lo suficientemente inteligentes como para representar a la humanidad frente a ellos; y cada cambio de política resultante resulta convenientemente beneficioso para los negocios, lo que constituye la coincidencia más maravillosa del mundo.

Respeto esta coherencia, pero también la temo. La respeto porque es claramente muy efectiva; la analogía más cercana es Apple, que siempre disfraza cada acción egoísta bajo la excusa de hacer lo correcto para el usuario —y a menudo realmente lo hacen. Anthropic hace lo mismo. Sin embargo, lo que me inquieta es que permitir que quienes están convencidos de que saben mejor construyan un smartphone que yo pueda aceptar o rechazar es una cosa; pero que ellos construyan inteligencias superiores con el potencial de igualar o superar el poder de los estados nacionales, o incluso el de grandes corporaciones, es mucho más preocupante. La historia de personas inteligentes convencidas de saber qué necesita la humanidad es sucia, precisamente porque se convencieron a sí mismas de que sus intenciones eran buenas, justificando acciones que en realidad no lo eran.