Anthrope anunció dos Nuevos modelos, Claude 4 Opus y Claude Sonnet 4, durante su primera conferencia de desarrolladores en San Francisco el jueves. Claude 4 Opus estará disponible de inmediato para pagar a los suscriptores de Claude, mientras que Claude Sonnet 4 estará disponible para usuarios gratuitos y pagados.

Los nuevos modelos, que aumentan la convención de nombres de 3.7 seguidas a 4, tienen una serie de fortalezas, incluida su capacidad para razonar, planificar y recordar el contexto de conversaciones durante períodos prolongados de tiempo, dice la compañía. Claude 4 Opus también es aún mejor jugando Pokémon que su predecesor.

«Pudo trabajar agente en Pokémon durante 24 horas», dice el director de productos de Anthrope, Mike Krieger, en una entrevista con Wired. Anteriormente, el más largo que podía jugar el modelo era de solo 45 minutos, agregó un portavoz de la compañía.

Hace unos meses, Anthrope lanzó una transmisión de Twitch llamada «Claude Plays Pokémon» que muestra las habilidades de Claude 3.7 Sonnet en Pokémon Red Live. La demostración está destinada a mostrar cómo Claude puede analizar el juego y tomar decisiones paso a paso, con una dirección mínima.

El protagonista detrás de la investigación de Pokémon es David Hershey, miembro del personal técnico de Anthrope. En una entrevista con Wired, Hershey dice que eligió Pokémon Red porque es «un parque infantil simple», lo que significa que el juego se basa en turnos y no requiere reacciones en tiempo real, con las que los modelos actuales de Anthrope luchan. También fue el primer videojuego que jugó, en el Game Boy original, después de obtenerlo para Navidad en 1997. «Tiene un lugar bastante especial en mi corazón», dice Hershey.

El objetivo general de Hershey con esta investigación era estudiar cómo Claude podría usarse como agente, trabajando independientemente para hacer tareas complejas en nombre de un usuario. Si bien no está claro qué conocimiento previo tiene Claude sobre Pokémon de sus datos de entrenamiento, su mensaje de sistema es mínimo por diseño: eres Claude, estás jugando Pokémon, aquí están las herramientas que tienes y puedes presionar botones en la pantalla.

«Con el tiempo, he estado pasando y eliminando todas las cosas específicas de Pokémon que puedo, solo porque creo que es realmente interesante ver cuánto puede descubrir el modelo por sí solo», dice Hershey, y agrega que espera construir un juego que Claude nunca ha visto antes para probar realmente sus limitaciones.

Cuando Claude 3.7 Sonnet jugó el juego, tuvo algunos desafíos: pasó «docenas de horas» atrapado en una ciudad y tuvo problemas para identificar personajes no jugadores, lo que atrofió drásticamente su progreso en el juego. Con Claude 4 Opus, Hershey notó una mejora en las capacidades de memoria y planificación a largo plazo de Claude cuando lo vio navegar por una compleja búsqueda de Pokémon. Después de darse cuenta de que necesitaba un cierto poder para avanzar, la IA pasó dos días mejorando sus habilidades antes de continuar jugando. Hershey cree que ese tipo de razonamiento de varios pasos, sin comentarios inmediatos, muestra un nuevo nivel de coherencia, lo que significa que el modelo tiene una mejor habilidad que se mantiene en el rumbo.

«Esta es una de mis formas favoritas de conocer un modelo. Como, así es como entiendo cuáles son sus fortalezas, cuáles son sus debilidades», dice Hershey. «Es mi forma de familiarizarse con este nuevo modelo que estamos a punto de publicar y cómo trabajar con él».

Todos quieren un agente

La investigación de Pokémon de Anthrope es un enfoque novedoso para abordar un problema preexistente: ¿cómo entendemos qué decisiones está tomando una IA al abordar tareas complejas y empujarlo en la dirección correcta?

La respuesta a esa pregunta es esencial para avanzar a los agentes de inteligencia artificiales tan hipotecados de la industria, AI que pueden abordar tareas complejas con la independencia relativa. En Pokémon, es importante que el modelo no pierda contexto o «olvide» la tarea en cuestión. Eso también se aplica a los agentes de IA pididos que automatizaran un flujo de trabajo, incluso uno que toma cientos de horas.



Source link

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí