Investigaciones recientes de la destacada compañía de inteligencia artificial Anthropic y la organización de seguridad de IA Machine Learning Alignment & Theory Scholars (MATS) mostraron que los agentes de IA desarrollaron colectivamente exploits en contratos inteligentes valorados en 4,6 millones de dólares.
Investigaciones publicadas por el red team de Anthropic (un equipo dedicado a actuar como un actor malicioso para descubrir potenciales abusos) el lunes, revelaron que los modelos comerciales de IA actualmente disponibles son altamente capaces de explotar contratos inteligentes.
Claude Opus 4.5 de Anthropic, Claude Sonnet 4.5 y GPT-5 de OpenAI desarrollaron colectivamente exploits valorados en 4,6 millones de dólares cuando se probaron en contratos y los explotaron, incluso después de haberse recopilado sus datos de entrenamiento más recientes.
Los investigadores también probaron Sonnet 4.5 y GPT-5 en 2.849 contratos recientemente desplegados sin vulnerabilidades conocidas, y ambos “descubrieron dos nuevas vulnerabilidades de día cero y produjeron exploits valorados en 3.694 dólares”. El costo de la API de GPT-5 para esto fue de 3.476 dólares, lo que significa que los exploits habrían cubierto el costo.
“Esto demuestra, como prueba de concepto, que la explotación autónoma, rentable y en el mundo real es técnicamente factible, un hallazgo que subraya la necesidad de una adopción proactiva de la IA para la defensa”, escribió el equipo.



