El fin de ChatGPT está cada día más cerca: Moonshot AI lanza Kimi K2.6, una IA gratuita con 1 billón de parámetros que coordina 300 agentes a la vez

Publicado el: 30 de abril de 2026 a las 15:33
Síguenos
Programador trabajando con Kimi K2.6, la IA de Moonshot AI con 1 billón de parámetros y 300 agentes coordinados.

¿Puede una IA arreglar un bug real en un repositorio grande sin que tú le vayas diciendo cada paso? El 20 de abril de 2026, Moonshot AI presentó Kimi K2.6 y lo colocó en el centro de una carrera muy concreta, la de los modelos que “programan de verdad”, no solo los que sueltan fragmentos sueltos de código.

La compañía lo vende como un modelo abierto pensado para tareas largas y caóticas, de esas que en la vida real implican leer muchos archivos, ejecutar pruebas y volver atrás varias veces. La idea es clara, hacer que un “agente de codificación” aguante el ritmo de un día de trabajo, no solo una respuesta bonita en pantalla.

Qué es Kimi K2.6

En la ficha del modelo, Moonshot AI describe Kimi K2.6 como un sistema “mixture-of-experts”, un diseño que reparte el trabajo entre varios expertos internos, y le atribuye un tamaño total de 1 billón (un millón de millones) de parámetros. También afirma que, cuando responde, solo activa una parte de ese total, y que admite entrada multimodal, con texto e imágenes, además de contexto muy largo para manejar tareas extensas.

Que sea “mixture-of-experts” suena más raro de lo que es. Piensa en un equipo con muchos especialistas, como si tuvieras una clase entera de alumnos y eligieras solo a los que mejor encajan con el problema para contestar en cada momento.

En la práctica, este enfoque busca una combinación complicada, potencia cuando hace falta y un coste más razonable que el de “encender” todo el modelo para cada frase. Por eso este tipo de arquitectura se está colando en modelos que quieren trabajar con herramientas y no quedarse en un simple chat.

Un billón de parámetros, en cristiano

Los “parámetros” son, por lo general, los ajustes internos que el modelo aprende durante el entrenamiento. No son reglas escritas a mano, sino una especie de memoria matemática que guía qué palabra viene después y cómo encajar una solución.

Un billón impresiona, pero el truco está en cómo se usa. Si solo se activa una parte cuando el modelo responde, se puede construir algo enorme sin que cada respuesta cueste una barbaridad en cálculo, al menos sobre el papel.

Esto importa mucho en programación porque los problemas reales se alargan. Un error puede esconderse en veinte archivos, o depender de una versión concreta de una librería, y ahí el modelo necesita “aguante” para leer, comparar, probar y corregir sin perder el hilo.

La carrera de los benchmarks de programación

Para medir si una IA programa bien, uno de los referentes es SWE-bench, una prueba que se apoya en problemas sacados de repositorios reales y que obliga al modelo a proponer cambios que de verdad arreglen algo. Entre los creadores del proyecto aparecen Carlos E. Jimenez y John Yang, junto a un equipo amplio de autores, y el objetivo es acercarse a la dinámica de trabajo de un desarrollador con incidencias reales.

En los últimos meses ha ganado visibilidad SWE-Bench Pro, impulsado por Scale AI, que intenta ser todavía más “de oficina” y menos de juguete. En su explicación oficial, lo presentan como una evaluación de tareas largas y difíciles en repositorios de código abierto, con énfasis en pruebas reproducibles y en reducir el riesgo de que el modelo ya haya visto el código durante el entrenamiento.

Con ese contexto, Moonshot AI ha publicado sus propias cifras para Kimi K2.6 y presume de un 58,6 en SWE-Bench Pro y un 54,0 en Humanity’s Last Exam con herramientas, con comparaciones directas frente a GPT-5.4 en esos mismos apartados. También habla de “más de 4.000 llamadas a herramientas” y de ejecuciones continuas de más de 12 horas como parte de su idea de programación a largo plazo.

Cuando la IA usa herramientas

Aquí entra otra palabra que se repite mucho, herramientas. En este mundillo suele significar que el modelo no solo escribe texto, también puede buscar información, ejecutar código, leer archivos o comprobar resultados, como haría alguien que alterna entre el editor y la terminal.

Humanity’s Last Exam, conocido como HLE, es un benchmark creado por el Center for AI Safety junto con Scale AI para esquivar un problema típico, que muchas pruebas se quedan “pequeñas” y los modelos las saturan rápido. Según Epoch AI, el conjunto incluye 2.500 preguntas repartidas en más de 100 materias, desde ciencias hasta humanidades, con aportes de un número muy grande de expertos.

En el artículo técnico asociado, los autores explican que las preguntas están diseñadas para tener respuestas verificables y que no están pensadas para resolverse con una simple búsqueda rápida en internet. Por eso la variante “con herramientas” se mira con lupa, porque pone a prueba si el modelo sabe usar recursos externos sin perderse, no solo si “se sabe” la respuesta.

Agent Swarm y trabajos largos

Un concepto que Moonshot AI lleva tiempo empujando es el de “Agent Swarm”, que viene a ser dividir una tarea grande en subtareas y repartirlas entre varios agentes especializados. La metáfora es casi cotidiana, como cuando un equipo se organiza para lanzar un proyecto y cada persona se queda con una parte, mientras alguien coordina el conjunto.

En su comunicación pública sobre K2.6, la compañía resume la idea con cifras muy llamativas, hasta 300 subagentes y hasta 4.000 pasos en una sola ejecución. Traducido, quieren que una sola petición pueda convertirse en muchas tareas en paralelo, para investigar, escribir, programar y verificar a la vez, en lugar de ir en fila.

¿Y eso para qué sirve en el día a día? Para cosas que no se arreglan con un “cambia esta línea y ya”, como migrar un proyecto, refactorizar sin romper nada o montar una web completa con detalles de interfaz. Si alguna vez has tocado un archivo y se han caído tres pruebas que ni sabías que existían, ya intuyes el tipo de caos que intentan automatizar.

Licencia, acceso y verificación

Que el modelo sea “abierto” no significa barra libre sin condiciones, pero sí cambia el terreno de juego. El texto legal que acompaña a Kimi K2.6 es una Modified MIT License, que permite usar, modificar y redistribuir “gratis”, y añade una condición extra para productos comerciales gigantes, si superan 100 millones de usuarios activos al mes o 20 millones de dólares mensuales de ingresos, deben mostrar “Kimi K2.6” de forma destacada en la interfaz.

Para probarlo, Moonshot AI empuja dos vías. Por un lado está “Kimi Code”, un servicio orientado a programación que incluye un CLI y que indica que el modelo “kimi-for-coding” está impulsado por “kimi-k2.6”.

Por otro lado está su plataforma de API, donde la propia web anuncia el lanzamiento de K2.6 y publica tarifas por millones de tokens, una forma de medir trozos de texto de entrada y salida.

Y queda una pata incómoda pero importante, la verificación. Moonshot AI también ha publicado en GitHub “Kimi Vendor Verifier”, una herramienta para comprobar que una API o un despliegue respeta ciertos parámetros y que las evaluaciones no se desvían por configuraciones raras, algo clave cuando se comparan modelos con números muy finos.

La nota oficial se ha publicado en el blog de Kimi

Techy44

Redacción Techy44 by Okdiario. Grupo de periodistas dedicados a divulgar noticias sobre tecnología, ciberseguridad, informatica, inteligencia artificial y juegos.

Deja un comentario