Bloomberg / Colaborador/Bloomberg vía Getty

Siga ZDNET: Agréganos como fuente preferida en Google.


Conclusiones clave de ZDNET

  • Moonshot presentó el martes su modelo Kimi K2.5 de código abierto.
  • Puede generar interfaces web basadas únicamente en imágenes o videos.
  • También viene con una función beta de «enjambre de agentes».

Moonshot, la startup china de inteligencia artificial respaldada por Alibaba, lanzó Kimi K2.5 el martes y lo describió en una publicación de blog como el «modelo de código abierto más poderoso del mundo hasta la fecha».

Construido sobre el Kimi K2 LLM, que debutó el verano pasado, el último modelo de Moonshot viene con capacidades de codificación que podrían convertirlo en un serio competidor de sus contrapartes patentadas. Kimi K2.5 obtuvo una puntuación comparable a los modelos de frontera de OpenAI, Google y Anthropic en los puntos de referencia de codificación SWE-Bench Verified y SWE-Bench Multilingual, según datos publicados por Moonshot.

captura de pantalla-2026-01-27-at-11-19-50am.png

Sin embargo, su capacidad para crear interfaces web front-end a partir de entradas visuales es lo que realmente podría diferenciarlo de la multitud.

Codificando con visión

Kimi K2.5 fue entrenado previamente con 15 billones de texto y tokens visuales, lo que lo convierte en «un modelo multimodal nativo», según Moonshot, que puede generar interfaces web a partir de imágenes o videos cargados, completo con elementos interactivos y efectos de desplazamiento.

En un vídeo de demostración de esta capacidad de «codificar con visión» incluido en la publicación del blog de Moonshot, Kimi K2.5 generó un borrador de un nuevo sitio web basado en un vídeo grabado de un sitio web preexistente, mostrado desde la perspectiva de la pantalla de un usuario mientras se desplaza. El modelo fue capaz de recrear la estética general, incluso si, en el estilo clásico de la IA, cometió algunos errores visuales leves en el camino, como representar continentes en un globo como manchas amorfas.

captura de pantalla-2026-01-27-at-11-25-27am.png

No está claro cuán práctica será este tipo de capacidad. (¿Por qué una empresa necesitaría crear una copia generada por IA un poco menos atractiva visualmente de un sitio web que ya es perfectamente razonable?) Aún así, generar maquetas de sitios web y aplicaciones exclusivamente a partir de imágenes o videos marcaría un importante paso adelante para las llamadas herramientas de «codificación de vibración», que se basan en métodos intuitivos que pueden implementar fácilmente los no expertos en lugar de la codificación tradicional.

ChatGPT, Claude y Gemini pueden generar código sin formato para nuevos recursos web basados ​​en capturas de pantalla u otras imágenes, pero eso aún deja al usuario con la necesidad de traducirlo en un producto terminado y utilizable. La novedad (y el valor potencial de mercado) del nuevo modelo de Moonshot es que elimina ese paso intermedio. «Al razonar sobre imágenes y videos, K2.5 mejora la generación de imágenes/videos a código y la depuración visual, reduciendo la barrera para que los usuarios expresen sus intenciones visualmente», escribió la compañía en su publicación de blog.

Además: utilicé Claude Code para codificar una aplicación de Mac en 8 horas, pero fue más trabajo que magia.

Si resulta útil en el mundo real, especialmente entre las empresas, otros desarrolladores probablemente harán lo mismo con capacidades similares para sus propios modelos.

Las capacidades de codificación de Kimi K2.5 están disponibles a través de una plataforma de código abierto llamada Kimi Code, a la que se puede acceder a través de entornos de desarrollo integrados (IDE) como Cursor, VSCode y Zed. El nuevo modelo también está disponible a través de Kimi.com, la aplicación Kimi y la API Kimi.

enjambre de agentes

Moonshot también dio a conocer una vista previa de la investigación llamada «enjambre de agentes», que organiza hasta cien «subagentes» para mejorar el rendimiento en ciertas tareas de varios pasos.

Al ejecutar varias tareas en paralelo entre sí, el enjambre de agentes también puede acelerar el proceso informático. «La ejecución de estas subtareas simultáneamente reduce significativamente la latencia de un extremo a otro en comparación con la ejecución secuencial del agente», escribió Moonshot en su publicación de blog, y agregó que las evaluaciones internas mostraron que el tiempo de ejecución de un extremo a otro (el proceso total desde la entrada hasta la finalización de la salida final) podría reducirse hasta en un 80%.

Además: utilicé Claude Code para codificar por vibración una aplicación Apple Watch en solo 12 horas, en lugar de 2 meses.

Los usuarios con una cuenta activa de Moonshot «Allegretto» o «Vivace» (que cuesta $31/mes y $159/mes, respectivamente) pueden probar Agent Swarm en el sitio web de Kimi haciendo clic en el menú desplegable del modelo en la parte inferior derecha del cuadro de aviso y seleccionando «K2.5 Agent Swarm (Beta)».





Source link