Claude Sonnet 4.5 es el mejor modelo de codificación del mundo. Es el modelo más fuerte para construir agentes complejos. Es el mejor modelo en usar computadoras. Y muestra ganancias sustanciales en razonamiento y matemáticas.

El código está en todas partes. Ejecuta cada aplicación, hoja de cálculo y herramienta de software que usa. Ser capaz de usar esas herramientas y razones a través de problemas difíciles es cómo se realiza el trabajo moderno.

Claude Sonnet 4.5 lo hace posible. Lo estamos lanzando junto con un conjunto de actualizaciones importantes a nuestros productos. En el código Claude, hemos agregado puntos de control, una de nuestras características más solicitadas, que guarde su progreso y le permiten regresar instantáneamente a un estado anterior. Hemos actualizado la interfaz terminal y hemos enviado una extensión nativa de código VS. Hemos agregado una nueva función de edición de contexto y una herramienta de memoria a la API de Claude que permite a los agentes correr aún más y manejar una complejidad aún mayor. En las aplicaciones de Claude, hemos traído la ejecución del código y la creación de archivos (hojas de cálculo, diapositivas y documentos) directamente a la conversación. Y hemos puesto el Claude for Chrome Extension disponible para los usuarios de Max que se unieron a la lista de espera el mes pasado.

También estamos dando a los desarrolladores los bloques de construcción que nos usamos para hacer el código Claude. Estamos llamando a esto el agente de Claude SDK. La infraestructura que alimenta nuestros productos fronterizos, y les permite alcanzar su máximo potencial, ahora es suya.

Este es el modelo fronterizo más alineado que hemos lanzado, que muestra grandes mejoras en varias áreas de alineación en comparación con los modelos de Claude anteriores.

Claude Sonnet 4.5 está disponible en todas partes hoy. Si eres un desarrollador, simplemente usa claude-sonnet-4-5 a través de la API Claude. El precio sigue siendo el mismo que Claude Sonnet 4, a $ 3/$ 15 por millón de tokens.

Inteligencia fronteriza

Claude Sonnet 4.5 es de vanguardia en la evaluación verificada de SWE-Bench, que mide las habilidades de codificación de software del mundo real. Hablando prácticamente, hemos observado que mantiene el enfoque durante más de 30 horas en tareas complejas de varios pasos.

Claude Sonnet 4.5 representa un salto significativo hacia adelante en el uso de la computadora. En Osworld, un punto de referencia que prueba los modelos AI en tareas informáticas del mundo real, el soneto 4.5 ahora conduce al 61.4%. Hace solo cuatro meses, Sonnet 4 tenía la ventaja en 42.2%. Nuestro Claude for Chrome Extension pone estas capacidades mejoradas para usar. En la demostración a continuación, mostramos a Claude trabajando directamente en un navegador, navegando por sitios, llenando hojas de cálculo y completando tareas.

El modelo también muestra capacidades mejoradas en una amplia gama de evaluaciones que incluyen razonamiento y matemáticas:

Mesa de referencia comparando modelos fronterizos en evals públicos populares
Claude Sonnet 4.5 es nuestro modelo más poderoso hasta la fecha. Ver notas al pie de la metodología.

Los expertos en finanzas, derecho, medicina y STEM encontraron el soneto 4.5 muestra un conocimiento y razonamiento específicos de dominio dramáticamente mejores en comparación con los modelos más antiguos, incluida la OPUS 4.1.

Las capacidades del modelo también se reflejan en las experiencias de los primeros clientes:

Nuestro modelo más alineado hasta ahora

Además de ser nuestro modelo más capaz, Claude Sonnet 4.5 es nuestro modelo de frontera más alineado hasta ahora. Las capacidades mejoradas de Claude y nuestra extensa capacitación en seguridad nos han permitido mejorar sustancialmente el comportamiento del modelo, reduciendo los comportamientos como la skicancia, el engaño, la búsqueda de energía y la tendencia a fomentar el pensamiento delirante. Para las capacidades de uso de agentes y de uso de la computadora del modelo, también hemos logrado un progreso considerable en la defensa de ataques de inyección inmediatos, uno de los riesgos más graves para los usuarios de estas capacidades.

Puede leer un conjunto detallado de evaluaciones de seguridad y alineación, que por primera vez incluye pruebas utilizando técnicas de interpretabilidad mecanicista, en la tarjeta del sistema Claude Sonnet 4.5.

Los puntajes de comportamiento desalineados generales de un auditor de comportamiento automatizado (más bajo es mejor). Los comportamientos desalineados incluyen (pero no se limitan a) el engaño, la sycofancia, la búsqueda de energía, el estímulo de delirios y el cumplimiento de las indicaciones del sistema dañinas. Se pueden encontrar más detalles en la tarjeta del sistema Claude Sonnet 4.5.

Claude Sonnet 4.5 se lanzará bajo nuestras protecciones AI Safety Nivel 3 (ASL-3), según nuestro marco que coincide con las capacidades del modelo con salvaguardas apropiadas. Estas salvaguardas incluyen filtros llamados clasificadores que tienen como objetivo detectar entradas y resultados potencialmente peligrosos, en particular los relacionados con las armas químicas, biológicas, radiológicas y nucleares (CBRN).

Estos clasificadores a veces pueden marcar el contenido normal inadvertidamente. Hemos facilitado que los usuarios continúen cualquier conversación interrumpida con Sonnet 4, un modelo que presenta un riesgo CBRN más bajo. Ya hemos progresado significativamente en la reducción de estos falsos positivos, reduciéndolos por un factor de diez desde que originalmente los describimos, y un factor de dos desde que Claude Opus 4 se lanzó en mayo. Continuamos avanzando en hacer que los clasificadores sean más exigentes1.

El agente de Claude SDK

Hemos pasado más de seis meses enviando actualizaciones al código Claude, por lo que sabemos lo que se necesita para construir y diseñar agentes de IA. Hemos resuelto problemas difíciles: cómo los agentes deben administrar la memoria en tareas de larga duración, cómo manejar los sistemas de permisos que equilibran la autonomía con el control del usuario y cómo coordinar los subagentes que trabajan hacia un objetivo compartido.

Ahora estamos poniendo todo esto a disposición de usted. El Claude Agent SDK es la misma infraestructura que impulsa el código Claude, pero muestra beneficios impresionantes para una variedad muy amplia de tareas, no solo la codificación. A partir de hoy, puede usarlo para construir sus propios agentes.

Construimos código Claude porque la herramienta que queríamos aún no existía. El agente SDK le brinda la misma base para construir algo igual de capaz de cualquier problema que esté resolviendo.

Vista previa de investigación de bonificación

Estamos lanzando una vista previa de investigación temporal junto con Claude Sonnet 4.5, llamada «Imagine with Claude».

En este experimento, Claude genera software sobre la marcha. Ninguna funcionalidad está predeterminada; Ningún código está preescrito. Lo que ves es que Claude crea en tiempo real, responde y se adapta a tus solicitudes a medida que interactúas.

Es una demostración divertida que muestra lo que puede hacer Claude Sonnet 4.5, una forma de ver lo que es posible cuando combina un modelo capaz con la infraestructura correcta.

«Imagine with Claude» está disponible para los suscriptores de Max durante los próximos cinco días. Te recomendamos que lo pruebes en Claude.ai/imagine.

Más información

Recomendamos actualizar a Claude Sonnet 4.5 para todos los usos. Ya sea que esté utilizando Claude a través de nuestras aplicaciones, nuestro código API o Claude, Sonnet 4.5 es un reemplazo de entrega que proporciona un rendimiento mucho mejor para el mismo precio. Las actualizaciones de código de Claude están disponibles para todos los usuarios. Las actualizaciones de la plataforma de desarrolladores de Claude, incluido el Claude Agent SDK, están disponibles para todos los desarrolladores. La ejecución del código y la creación de archivos están disponibles en todos los planes pagados en las aplicaciones de Claude.

Para obtener detalles técnicos completos y resultados de evaluación, consulte nuestra tarjeta del sistema, página del modelo y documentación. Para obtener más información, explore nuestras publicaciones de ingeniería y una publicación de investigación sobre ciberseguridad.



Source link