Limpieza: Hoy no hay tiempo para una voz en off.

Primero, felicidades al equipo de Moonshot AI, uno de los 6”Tigres de IA” en China, sobre el impresionante lanzamiento de Kimi K2 Pensando. Una de las cosas que más me inspira y se pasa por alto en estos días es cuántas personas están aprendiendo muy rápidamente a entrenar excelentes modelos de IA. La capacidad de entrenar modelos líderes de IA y distribuirlos internacionalmente será generalizada a nivel mundial. A medida que la gente usa más la IA, aquellos que pueden acceder al suministro para realizar inferencias (y tal vez a la frontera absoluta en escala de entrenamiento, incluso si es costoso) será la función de activación.

K2 Thinking parece un placer utilizarlo debido a los primeros informes de que el estilo distintivo y calidad de escritura se han preservado a través del entrenamiento de RL de pensamiento extendido. Publicaron muchos puntajes de evaluación y, para destacar, están superando a los modelos cerrados líderes en algunos puntos de referencia, como Humanity’s Last Exam o BrowseComp. Todavía hay muchas evaluaciones en las que GPT 5 o Claude Sonnet 4.5 las superan. Los rumores dicen que Gemini 3 llegará pronto (al igual que el DeepSeek V4, constantemente pendiente), por lo que las expectativas en la industria son altas en este momento.

TLDR: modelo MoE de razonamiento con 1T en total, 32B de parámetros activos, 256K de longitud de contexto, pensamiento intercalado en el uso de herramientas agentes, sólidas puntuaciones de referencia y pruebas de vibración.

La reacción principal de este lanzamiento es que la gente dice que esto es lo más cerca que han estado los modelos abiertos de la frontera cerrada de rendimiento, similar a Búsqueda profunda R1Sigue rápidamente a o1. Esto es bastante cierto, pero nos dirigimos a un territorio turbio porque comparar modelos es más difícil. Para ser claros, todo esto beneficia a los modelos abiertos. Escuché que los servidores de Kimi ya están totalmente abrumados; pronto hablaremos más sobre esto.

Compartir

Lo que tengo en mente para esta versión:

Todavía hay un retraso entre el mejor cierre y la apertura en algunos aspectos, pero lo que está disponible para los usuarios es mucho más complicado y presenta un gran desafío para los laboratorios cerrados. Los laboratorios en China definitivamente lanzan sus modelos mucho más rápido. Cuando el ritmo de progreso es alto, poder lanzar un modelo antes hace que se vea mejor. Es un hecho simple, pero supongo que Anthropic es el que tarda más en sacar modelos (a veces meses) y OpenAI en algún punto intermedio. Esta es una gran ventaja, especialmente en las comunicaciones.

Yo pondría la brecha en el orden de meses en rendimiento bruto (diría que entre 4 y 6 meses o más si me pusieran una pistola en la cabeza y me hicieran elegir específicamente), pero el problema es que estos modelos no están disponibles públicamente, entonces, ¿importan?

Los laboratorios en China se están acercando y son muy fuertes en puntos de referencia clave. Estos modelos también pueden tener muy buen gusto (DeepSeek, Kimi), pero hay una larga lista de puntos de referencia internos que los laboratorios tienen para comportamientos comunes de los usuarios sobre los cuales los laboratorios chinos no tienen ciclos de retroalimentación. Las empresas chinas empezarán a adquirirlos, pero los intangibles son importantes para la retención de usuarios.

Durante el último año hemos visto a Qwen pasar por esta transición. Sus modelos eran originalmente conocidos por hacer benchmarking, pero ahora son modelos legítimamente fantásticos (que resultan tener puntajes de referencia increíbles).

En este sentido, el modelo K2 Thinking se entrenó posteriormente de forma nativa con una precisión de 4 bits para que esté mucho más preparado para tareas de servicio reales (probablemente hicieron esto para que el escalado de RL fuera más eficiente en el entrenamiento posterior en secuencias largas):

Para superar este desafío, adoptamos el entrenamiento consciente de la cuantificación (QAT) durante la fase posterior al entrenamiento, aplicando la cuantificación de solo peso INT4 a los componentes MoE. Permite que K2 Thinking admita la inferencia INT4 nativa con una mejora de velocidad de aproximadamente el doble de generación y, al mismo tiempo, logra un rendimiento de última generación. Todos los resultados de las pruebas comparativas se informan con precisión INT4.

Es asombroso que sus comparaciones de referencia estén en la forma en que se servirá. Ésa es la manera justa.

A principios de año, la mayoría de las personas que seguían vagamente la IA probablemente conocían ningún laboratorio de IA. Ahora, y hacia el final de 2025, diría que todos DeepSeek, Qwen y Kimi se están convirtiendo en nombres muy conocidos. Todos tienen temporadas de sus mejores lanzamientos y diferentes puntos fuertes. Lo importante es que esta será una lista creciente. Una proporción cada vez mayor de mentalidad vanguardista se está trasladando a China. Espero que algunos como Z.ai, Meituan o Ant Ling se unan potencialmente a esta lista el próximo año. Para algunos de estos laboratorios que lanzan modelos de referencia de primer nivel, literalmente comenzaron su esfuerzo de modelo básico después de DeepSeek. A muchas empresas chinas les tomó sólo 6 meses alcanzar la frontera abierta en términos de rendimiento, ahora la pregunta es si pueden ofrecer algo en un nicho de la frontera que tenga una demanda real para los usuarios.

Una de las cosas de las que habla la gente con esta versión es cómo Kimi K2 Thinking utilizará “cientos de llamadas de herramientas” al responder una consulta. De la publicación del blog:

Kimi K2 Thinking puede ejecutar hasta 200 – 300 llamadas de herramientas secuenciales sin interferencia humana, razonando coherentemente a través de cientos de pasos para resolver problemas complejos.

Este es quizás el primer modelo abierto que tiene esta capacidad de muchas, muchas llamadas a herramientas, pero es algo que se ha vuelto algo estándar con o3, Grok 4, etc. Este tipo de comportamiento surge naturalmente durante el entrenamiento de RL, particularmente para información, cuando el modelo necesita buscar para obtener la respuesta correcta. Así que técnicamente esto no es un gran problema, pero es muy divertido verlo en un modelo abierto, y los proveedores que lo albergan (donde el uso de herramientas ya ha sido un dolor de cabeza para las personas que albergan pesas abiertas) van a trabajar muy duro para respaldarlo con precisión. Espero que haya una demanda de los usuarios para ayudar a que la industria madure para ofrecer modelos abiertos de uso de herramientas.

El pensamiento entrelazado es ligeramente diferente, donde el modelo utiliza fichas de pensamiento entre el uso de herramientas. Claude es más conocido por esto. MiniMax M2 fue lanzado el 3 de noviembre con esto también.

Está claro que la oleada de modelos abiertos debería hacer sudar a los laboratorios cerrados. Hay una gran presión sobre los precios y expectativas que deben gestionar. La diferenciación y la historia que pueden contar acerca de por qué sus servicios son mejores deben evolucionar rápidamente y alejarse únicamente de las puntuaciones en el tipo de puntos de referencia que tenemos ahora. En mi publicación de principios de verano, Algunas reflexiones sobre lo que viene despuésinsinué esto:

Este es un camino diferente para la industria y adoptará una forma de mensajería diferente a la que estamos acostumbrados. Más lanzamientos se verán como Claude 4 de Anthropicdonde las ganancias de referencia son menores y las ganancias en el mundo real son un gran paso. Esto conlleva muchas más implicaciones para las políticas, la evaluación y la transparencia. Se necesitarán muchos más matices para comprender si el ritmo del progreso continúa, especialmente porque los críticos de la IA aprovecharán la oportunidad de que las evaluaciones se estabilicen para decir que la IA ya no funciona.

¿Son los canales de distribución, los productos y la capacidad de servicio existentes suficientes para mantener estable el valor de todas las empresas líderes de IA en los EE. UU.? Personalmente, creo que son seguros, pero estos modelos y empresas chinos se llevarán porciones más grandes del creciente pastel de la IA. Esto no será ni de lejos una mayoría en los ingresos, pero puede ser una mayoría en la mentalidad, especialmente en los mercados internacionales.

Esto nos prepara para un 2026 muy interesante. Espero tener tiempo para probar las vibraciones a fondo de Kimi K2 Thinking pronto.

Enlaces rápidos:



Source link