Inicio Noticias Presentación de Claude Sonnet 4.5 Anthrope

Noticias

Presentación de Claude Sonnet 4.5 \ Anthrope

Por

septiembre 25, 2025

Claude Sonnet 4.5 es el mejor modelo de codificación del mundo. Es el modelo más fuerte para construir agentes complejos. Es el mejor modelo en usar computadoras. Y muestra ganancias sustanciales en razonamiento y matemáticas.

El código está en todas partes. Ejecuta cada aplicación, hoja de cálculo y herramienta de software que usa. Ser capaz de usar esas herramientas y razones a través de problemas difíciles es cómo se realiza el trabajo moderno.

Claude Sonnet 4.5 lo hace posible. Lo estamos lanzando junto con un conjunto de actualizaciones importantes a nuestros productos. En el código Claude, hemos agregado puntos de control, una de nuestras características más solicitadas, que guarde su progreso y le permiten regresar instantáneamente a un estado anterior. Hemos actualizado la interfaz terminal y hemos enviado una extensión nativa de código VS. Hemos agregado una nueva función de edición de contexto y una herramienta de memoria a la API de Claude que permite a los agentes correr aún más y manejar una complejidad aún mayor. En las aplicaciones de Claude, hemos traído la ejecución del código y la creación de archivos (hojas de cálculo, diapositivas y documentos) directamente a la conversación. Y hemos puesto el Claude for Chrome Extension disponible para los usuarios de Max que se unieron a la lista de espera el mes pasado.

También estamos dando a los desarrolladores los bloques de construcción que nos usamos para hacer el código Claude. Estamos llamando a esto el agente de Claude SDK. La infraestructura que alimenta nuestros productos fronterizos, y les permite alcanzar su máximo potencial, ahora es suya.

Este es el modelo fronterizo más alineado que hemos lanzado, que muestra grandes mejoras en varias áreas de alineación en comparación con los modelos de Claude anteriores.

Claude Sonnet 4.5 está disponible en todas partes hoy. Si eres un desarrollador, simplemente usa claude-sonnet-4-5 a través de la API Claude. El precio sigue siendo el mismo que Claude Sonnet 4, a $ 3/$ 15 por millón de tokens.

Inteligencia fronteriza

Claude Sonnet 4.5 es de vanguardia en la evaluación verificada de SWE-Bench, que mide las habilidades de codificación de software del mundo real. Hablando prácticamente, hemos observado que mantiene el enfoque durante más de 30 horas en tareas complejas de varios pasos.

Claude Sonnet 4.5 representa un salto significativo hacia adelante en el uso de la computadora. En Osworld, un punto de referencia que prueba los modelos AI en tareas informáticas del mundo real, el soneto 4.5 ahora conduce al 61.4%. Hace solo cuatro meses, Sonnet 4 tenía la ventaja en 42.2%. Nuestro Claude for Chrome Extension pone estas capacidades mejoradas para usar. En la demostración a continuación, mostramos a Claude trabajando directamente en un navegador, navegando por sitios, llenando hojas de cálculo y completando tareas.

El modelo también muestra capacidades mejoradas en una amplia gama de evaluaciones que incluyen razonamiento y matemáticas:

Mesa de referencia comparando modelos fronterizos en evals públicos populares — Claude Sonnet 4.5 es nuestro modelo más poderoso hasta la fecha. Ver notas al pie de la metodología.

Los expertos en finanzas, derecho, medicina y STEM encontraron el soneto 4.5 muestra un conocimiento y razonamiento específicos de dominio dramáticamente mejores en comparación con los modelos más antiguos, incluida la OPUS 4.1.

Las capacidades del modelo también se reflejan en las experiencias de los primeros clientes:

Estamos viendo un rendimiento de codificación de última generación de Claude Sonnet 4.5con mejoras significativas en tareas de horizonte más largas. Refuerza por qué muchos desarrolladores que usan cursor eligen Claude para resolver sus problemas más complejos.

Claude Sonnet 4.5 amplifica las fortalezas centrales de Github Copilot. Nuestras Evals iniciales muestran mejoras significativas en el razonamiento de múltiples pasos y la comprensión del código, que habilita las experiencias de agente de Copilot para manejar mejor las tareas complejas y que abarca la base de código.

Claude Sonnet 4.5 es excelente en tareas de desarrollo de softwareAprender nuestros patrones de base de código para ofrecer implementaciones precisas. Maneja todo, desde la depuración hasta la arquitectura con una comprensión contextual profunda, transformando nuestra velocidad de desarrollo.

Claude soneto 4.5 Tiempo de consumo de vulnerabilidad promedio reducido para nuestros agentes de seguridad de HAI en un 44% mientras mejora la precisión en un 25%ayudándonos a reducir el riesgo de empresas con confianza.

Claude Sonnet 4.5 es de última generación en las tareas de litigios más complejas. Por ejemplo, analizar los ciclos informativos completos y realizar investigaciones para sintetizar excelentes primeros borradores de una opinión para los jueces, o interrogar registros de litigios completos para crear un análisis detallado de juicio sumario.

Las capacidades de edición de Claude Sonnet 4.5 son excepcionales – Pasamos de una tasa de error del 9% en Sonnet 4 a 0% en nuestro punto de referencia de edición de código interno. El mayor éxito de la herramienta a menor costo es un salto importante para la codificación de agente. Claude Sonnet 4.5 equilibra la creatividad y el control perfectamente.

Claude Sonnet 4.5 ofrece ganancias impresionantes en nuestras tareas más complejas y de contexto largo, desde la ingeniería en nuestra base de código hasta las características e investigaciones en el producto. Es notablemente más inteligente y un gran salto hacia adelanteayudándonos a impulsar lo que los usuarios de 240m+ pueden diseñar con Canva.

Claude Sonnet 4.5 ha mejorado notablemente la fabricación de figma en las pruebas tempranashaciendo que sea más fácil indicar e iterar. Los equipos pueden explorar y validar sus ideas con prototipos más funcionales e interacciones más suaves, mientras que la calidad de diseño es conocida.

Sonnet 4.5 representa una nueva generación de modelos de codificación. Es sorprendentemente eficiente para maximizar las acciones por ventana de contexto a través de la ejecución de la herramienta paralela, por ejemplo, ejecutar múltiples comandos bash a la vez.

Para Devin, Claude Sonnet 4.5 aumentó el rendimiento de planificación en un 18% y los puntajes EVAL de extremo a extremo en un 12%-El salto más grande que hemos visto desde el lanzamiento de Claude Sonnet 3.6. Se destaca para probar su propio código, permitiendo que Devin ejecute más tiempo, maneje tareas más duras y entregue un código listo para la producción.

Claude Sonnet 4.5 muestra una fuerte promesa para el equipo rojoGenerando escenarios de ataque creativo que aceleran cómo estudiamos la Tradecraft del atacante. Estas ideas fortalecen nuestras defensas a través de puntos finales, identidad, nubes, datos, SaaS y cargas de trabajo de IA.

Claude sonnet 4.5 restablece nuestras expectativas—Maneja más de 30 horas de codificación autónomaliberando a nuestros ingenieros para abordar meses de trabajo arquitectónico complejo en dramáticamente menos tiempo mientras mantiene la coherencia a través de bases de código masivas.

Para análisis financiero complejo (riesgo, productos estructurados, detección de cartera), Claude Sonnet 4.5 con pensamiento ofrece ideas de grado de inversión que requieren menos revisión humana. Cuando la profundidad importa más que la velocidad, es un paso significativo para las finanzas institucionales.

Nuestro modelo más alineado hasta ahora

Además de ser nuestro modelo más capaz, Claude Sonnet 4.5 es nuestro modelo de frontera más alineado hasta ahora. Las capacidades mejoradas de Claude y nuestra extensa capacitación en seguridad nos han permitido mejorar sustancialmente el comportamiento del modelo, reduciendo los comportamientos como la skicancia, el engaño, la búsqueda de energía y la tendencia a fomentar el pensamiento delirante. Para las capacidades de uso de agentes y de uso de la computadora del modelo, también hemos logrado un progreso considerable en la defensa de ataques de inyección inmediatos, uno de los riesgos más graves para los usuarios de estas capacidades.

Puede leer un conjunto detallado de evaluaciones de seguridad y alineación, que por primera vez incluye pruebas utilizando técnicas de interpretabilidad mecanicista, en la tarjeta del sistema Claude Sonnet 4.5.

Los puntajes de comportamiento desalineados generales de un auditor de comportamiento automatizado (más bajo es mejor). Los comportamientos desalineados incluyen (pero no se limitan a) el engaño, la sycofancia, la búsqueda de energía, el estímulo de delirios y el cumplimiento de las indicaciones del sistema dañinas. Se pueden encontrar más detalles en la tarjeta del sistema Claude Sonnet 4.5.

Claude Sonnet 4.5 se lanzará bajo nuestras protecciones AI Safety Nivel 3 (ASL-3), según nuestro marco que coincide con las capacidades del modelo con salvaguardas apropiadas. Estas salvaguardas incluyen filtros llamados clasificadores que tienen como objetivo detectar entradas y resultados potencialmente peligrosos, en particular los relacionados con las armas químicas, biológicas, radiológicas y nucleares (CBRN).

Estos clasificadores a veces pueden marcar el contenido normal inadvertidamente. Hemos facilitado que los usuarios continúen cualquier conversación interrumpida con Sonnet 4, un modelo que presenta un riesgo CBRN más bajo. Ya hemos progresado significativamente en la reducción de estos falsos positivos, reduciéndolos por un factor de diez desde que originalmente los describimos, y un factor de dos desde que Claude Opus 4 se lanzó en mayo. Continuamos avanzando en hacer que los clasificadores sean más exigentes¹.

El agente de Claude SDK

Hemos pasado más de seis meses enviando actualizaciones al código Claude, por lo que sabemos lo que se necesita para construir y diseñar agentes de IA. Hemos resuelto problemas difíciles: cómo los agentes deben administrar la memoria en tareas de larga duración, cómo manejar los sistemas de permisos que equilibran la autonomía con el control del usuario y cómo coordinar los subagentes que trabajan hacia un objetivo compartido.

Ahora estamos poniendo todo esto a disposición de usted. El Claude Agent SDK es la misma infraestructura que impulsa el código Claude, pero muestra beneficios impresionantes para una variedad muy amplia de tareas, no solo la codificación. A partir de hoy, puede usarlo para construir sus propios agentes.

Construimos código Claude porque la herramienta que queríamos aún no existía. El agente SDK le brinda la misma base para construir algo igual de capaz de cualquier problema que esté resolviendo.

Vista previa de investigación de bonificación

Estamos lanzando una vista previa de investigación temporal junto con Claude Sonnet 4.5, llamada «Imagine with Claude».

En este experimento, Claude genera software sobre la marcha. Ninguna funcionalidad está predeterminada; Ningún código está preescrito. Lo que ves es que Claude crea en tiempo real, responde y se adapta a tus solicitudes a medida que interactúas.

Es una demostración divertida que muestra lo que puede hacer Claude Sonnet 4.5, una forma de ver lo que es posible cuando combina un modelo capaz con la infraestructura correcta.

«Imagine with Claude» está disponible para los suscriptores de Max durante los próximos cinco días. Te recomendamos que lo pruebes en Claude.ai/imagine.

Más información

Recomendamos actualizar a Claude Sonnet 4.5 para todos los usos. Ya sea que esté utilizando Claude a través de nuestras aplicaciones, nuestro código API o Claude, Sonnet 4.5 es un reemplazo de entrega que proporciona un rendimiento mucho mejor para el mismo precio. Las actualizaciones de código de Claude están disponibles para todos los usuarios. Las actualizaciones de la plataforma de desarrolladores de Claude, incluido el Claude Agent SDK, están disponibles para todos los desarrolladores. La ejecución del código y la creación de archivos están disponibles en todos los planes pagados en las aplicaciones de Claude.

Para obtener detalles técnicos completos y resultados de evaluación, consulte nuestra tarjeta del sistema, página del modelo y documentación. Para obtener más información, explore nuestras publicaciones de ingeniería y una publicación de investigación sobre ciberseguridad.

Source link

Presentación de Claude Sonnet 4.5 \ Anthrope

Inteligencia fronteriza

Nuestro modelo más alineado hasta ahora

El agente de Claude SDK

Vista previa de investigación de bonificación

Más información

Most Popular

Will Smith encabezará el entretenimiento en la final de la Liga...

Actualización sobre la explosión de Boston: ¿Qué pasó hoy en Massachusetts?...

La mejor acción de energía nuclear de IA para comprar no...

Canadá mantiene a Nathan MacKinnon fuera del hielo, y es difícil...

Michigan empuja a USC pero cae a Juju Watkins, Kiki Iriafen...