Anthropic, la exitosa compañía de inteligencia artificial que se ha presentado como el más consciente de la seguridad entre los principales laboratorios de investigación, está abandonando la promesa central de su política de seguridad emblemática, dijeron funcionarios de la compañía a TIME.
En 2023, Anthropic se comprometió a nunca entrenar un sistema de IA a menos que pudiera garantizar de antemano que las medidas de seguridad de la empresa eran adecuadas. Durante años, sus líderes promocionaron esa promesa –el pilar central de su Política de Escalamiento Responsable (RSP)– como prueba de que son una empresa responsable que resistiría los incentivos del mercado para apresurarse a desarrollar una tecnología potencialmente peligrosa.
Pero en los últimos meses la empresa decidió reformar radicalmente el RSP. Esa decisión incluyó descartar la promesa de no lanzar modelos de IA si Anthropic no puede garantizar la mitigación de riesgos adecuada por adelantado.
«Sentimos que en realidad no ayudaría a nadie que dejáramos de entrenar modelos de IA», dijo a TIME el director científico de Anthropic, Jared Kaplan, en una entrevista exclusiva. «Realmente no sentimos, con el rápido avance de la IA, que tuviera sentido para nosotros asumir compromisos unilaterales… si los competidores están avanzando».
La nueva versión de la política, que revisó TIME, incluye compromisos para ser más transparentes sobre los riesgos de seguridad de la IA, incluida la divulgación adicional sobre cómo se desempeñan los propios modelos de Anthropic en las pruebas de seguridad. Se compromete a igualar o superar los esfuerzos de seguridad de los competidores. Y promete «retrasar» el desarrollo de la IA de Anthropic si los líderes consideran que Anthropic es el líder de la carrera de la IA y piensan que los riesgos de una catástrofe son significativos.
Pero en general, el cambio al RSP deja a Anthropic mucho menos limitado por sus propias políticas de seguridad, que anteriormente le prohibían categóricamente entrenar modelos por encima de cierto nivel si no existían ya las medidas de seguridad adecuadas.
El cambio se produce cuando Anthropic, anteriormente considerada detrás de OpenAI en la carrera de la IA, está en la cima de una serie de éxitos tecnológicos y comerciales. Sus modelos Claude, especialmente la herramienta de escritura de software Claude Code, han ganado legiones de devotos seguidores. En febrero, Anthropic recaudó 30 mil millones de dólares en nuevas inversiones, valorándolas en unos 380 mil millones de dólares, e informó que sus ingresos anualizados estaban creciendo a un ritmo de 10 veces por año. Muchos inversores consideran que el modelo de negocio principal de la compañía de vender directamente a las empresas es más creíble que la principal estrategia de OpenAI de monetizar una amplia base de usuarios consumidores.
Kaplan, el ejecutivo y cofundador de Anthropic, negó que la decisión de la compañía de cambiar de rumbo fuera una capitulación ante los incentivos del mercado a medida que se acelera la carrera por la superinteligencia. En cambio, lo formuló como una respuesta pragmática a las realidades políticas y científicas emergentes. «No creo que estemos dando ningún tipo de cambio de sentido», dice Kaplan.
Cuando se introdujo Anthropic El RSP en 2023, dice Kaplan, la compañía esperaba alentar a sus rivales a adoptar medidas similares. (Ningún rival hizo una promesa tan abierta de detener el desarrollo de la IA, pero muchos publicaron extensos informes detallando sus planes para mitigar el riesgo, lo que Kaplan califica como Anthropic ejerciendo una buena influencia en la industria). Los ejecutivos también esperaban que el enfoque pudiera eventualmente servir como un modelo para regulaciones nacionales vinculantes o incluso tratados internacionales, afirma Kaplan.
Pero esas regulaciones nunca se materializaron. En cambio, la Administración Trump ha respaldado una actitud de dejarse llevar por el desarrollo de la IA, llegando incluso a intentar anular las regulaciones estatales. No hay ninguna ley federal sobre IA en el horizonte. Y si bien un marco de gobernanza global podría haber parecido posible en 2023, tres años después ha quedado claro que la puerta se ha cerrado. Mientras tanto, la competencia por la supremacía de la IA (entre empresas pero también entre naciones) no ha hecho más que intensificarse.
Para empeorar las cosas, la ciencia de las evaluaciones de IA ha demostrado ser más complicada de lo que Anthropic esperaba cuando elaboró por primera vez el RSP. La llegada de nuevos modelos potentes hizo que, en 2025, Anthropic anunciara que no podía descartar la posibilidad de que estos modelos facilitaran un ataque bioterrorista. Pero aunque no podían descartarlo, también carecían de pruebas científicas sólidas de que los modelos hizo plantean ese tipo de peligro, lo que hizo difícil convencer a los gobiernos y rivales de lo que consideraban la necesidad de actuar con cuidado. Lo que la compañía había imaginado anteriormente que podría parecer una línea roja brillante, en cambio, se enfocó como un gradiente difuso.
Durante casi un año, los ejecutivos de Anthropic discutieron formas de remodelar su política de seguridad emblemática para adaptarla a este nuevo entorno, dice Kaplan. Un punto al que seguían volviendo era su premisa fundacional: la idea de que para realizar una investigación adecuada sobre la seguridad de la IA, tenían que construir modelos en la frontera de la capacidad, aunque hacerlo podría acelerar la llegada de los peligros que temían.
En febrero, según Kaplan, Amodei decidió que no sería útil para nadie impedir que la empresa entrenara nuevos modelos mientras los competidores avanzaban. «Si un desarrollador de IA detuviera el desarrollo para implementar medidas de seguridad mientras otros avanzaban entrenando e implementando sistemas de IA sin mitigaciones fuertes, eso podría resultar en un mundo menos seguro», afirma en su introducción la nueva versión del RSP, aprobada por unanimidad por la junta directiva de Amodei y Anthropic. «Los desarrolladores con las protecciones más débiles marcarían el ritmo y los desarrolladores responsables perderían su capacidad de realizar investigaciones de seguridad».
Chris Painter, el director de política de METR, una organización sin fines de lucro centrada en evaluar modelos de IA para detectar comportamientos riesgosos, revisó un borrador inicial de la política con el permiso de Anthropic. Dice que el cambio es comprensible, pero también es una señal bajista para la capacidad del mundo de afrontar posibles catástrofes de la IA. El cambio al RSP muestra que Anthropic “cree que necesita pasar al modo de clasificación con sus planes de seguridad, porque los métodos para evaluar y mitigar el riesgo no siguen el ritmo de las capacidades”, le dice Painter a TIME. «Esta es una prueba más de que la sociedad no está preparada para los posibles riesgos catastróficos que plantea la IA».
Anthropic sostiene que el RSP renovado está diseñado para conservar los mayores beneficios del anterior. Por ejemplo, al limitarse a lanzar nuevos modelos, el RSP original de Anthropic también lo incentivó a crear rápidamente mitigaciones de seguridad. (Porque de lo contrario la empresa no podría vender su IA a los clientes). Anthropic dice que cree que puede mantener ese incentivo. La nueva política compromete a la empresa a publicar periódicamente lo que llama “hojas de ruta de seguridad fronteriza”: documentos que establecen una lista de objetivos detallados para futuras medidas de seguridad que espera implementar.
«Esperamos crear una función de fuerza para un trabajo que, de otro modo, sería difícil priorizar y dotar de recursos adecuados, ya que requiere colaboración (y en algunos casos sacrificios) de múltiples partes de la empresa y puede tener propósitos contradictorios con prioridades competitivas y comerciales inmediatas», afirma el nuevo RSP.
Anthropic dice que también se comprometerá a publicar los llamados «Informes de Riesgo» cada tres a seis meses. Los informes, dice la compañía, «explicarán cómo encajan las capacidades, los modelos de amenazas (las formas específicas en que los modelos pueden plantear amenazas) y las mitigaciones activas de riesgos, y proporcionarán una evaluación del nivel general de riesgo». Estos documentos serán más profundos que los informes que la empresa ya publica, dice un portavoz a TIME.
«Me gusta el énfasis en la presentación de informes de riesgos transparentes y hojas de ruta de seguridad públicamente verificables», dice Painter, el funcionario de políticas de METR. Pero dijo que estaba «preocupado» de que alejarse de los umbrales binarios bajo el RSP anterior, mediante el cual la llegada de una determinada capacidad podría actuar como un cable trampa para detener temporalmente el desarrollo de la IA de Anthropic, podría permitir un efecto de «ebullición de rana», donde el peligro aumenta lentamente sin que un solo momento active las alarmas.
Cuando se le preguntó si Anthropic estaba cediendo a la presión del mercado, Kaplan argumentó que, de hecho, Anthropic estaba asumiendo un compromiso renovado para desarrollar la IA de forma segura. «Si todos nuestros competidores están haciendo lo correcto de manera transparente cuando se trata de riesgo catastrófico, estamos comprometidos a hacerlo tan bien o mejor», dijo. «Pero no creemos que tenga sentido para nosotros dejar de involucrarnos en la investigación y la seguridad de la IA y, muy probablemente, perder relevancia como innovadores que entienden la frontera de la tecnología, en un escenario en el que otros siguen adelante y en realidad no estamos aportando ningún riesgo adicional al ecosistema».









