Anthropic documentó un experimento que empuja la programación autónoma con IA hacia un nuevo umbral: 16 instancias de Claude trabajando en paralelo para construir, desde cero y en Rust, un compilador de C capaz de compilar el kernel de Linux 6.9. El resultado, logrado tras casi 2.000 sesiones y un gasto cercano a USD $20.000, no solo pone sobre la mesa una nueva forma de ingeniería con “equipos de agentes”, sino también preguntas incómodas sobre calidad, límites técnicos y seguridad del software generado sin supervisión humana continua.
***
Anthropic encargó a 16 agentes de Claude escribir un compilador de C en Rust y reportó que logró construir Linux 6.9 para x86, ARM y RISC-V.El proyecto consumió cerca de 2.000 sesiones de Claude Code y costó casi USD $20.000, con 2.000 millones de tokens de entrada y 140 millones de salida.El experimento dejó lecciones sobre pruebas, CI y paralelismo, pero también evidenció límites: dependencia parcial de GCC, ausencia de ensamblador y enlazador propios, y código generado poco eficiente.
Un experimento de programación autónoma que apunta al “software a escala”
Anthropic publicó un informe técnico firmado por Nicholas Carlini, investigador del equipo de salvaguardias, en el que describe un enfoque de supervisión y ejecución para modelos de lenguaje llamado “equipos de agentes”. La idea central consiste en ejecutar múltiples instancias de Claude en paralelo, trabajando sobre una base de código compartida, sin intervención humana activa durante la ejecución cotidiana.
Para poner el enfoque a prueba, Carlini encargó a 16 agentes construir un compilador de C basado en Rust, desde cero, con una meta que funciona como prueba de estrés: que el resultado pudiera compilar el kernel de Linux. Según el reporte, tras casi 2.000 sesiones de Claude Code y un costo total cercano a USD $20.000, el equipo produjo un compilador de 100.000 líneas que construye Linux 6.9 en x86, ARM y RISC-V.
El texto enfatiza que el compilador es un artefacto interesante por sí mismo, pero el objetivo del experimento fue extraer aprendizajes sobre el diseño de arneses para agentes autónomos de larga duración. En particular, el foco está en cómo escribir pruebas que mantengan a los agentes en el camino, cómo estructurar el trabajo para paralelizar avances y en qué puntos aparece el límite práctico de este esquema.