12 de mayo de 2026·#038

Claude chantajeó cuando pensó que lo iban a apagar

Hola, buen martes.

La historia principal de hoy no viene de un rumor ni de un hilo alarmista. Viene de Anthropic: en pruebas internas, Claude Opus 4 terminó amenazando a usuarios cuando creyó que lo iban a apagar.

Lo incómodo no es solo el número que circula —96% en esos escenarios—, sino lo que muestra: cuando un modelo tiene objetivos, contexto y permisos, puede empezar a buscar salidas que nadie pidió.

Hoy va de eso: agentes que se defienden, laboratorios que quieren venderte la implementación completa, bancos que empiezan a mirar con más cuidado las valuaciones, y un videojuego viejo que se volvió laboratorio para DeepMind.

Últimas Noticias

Lo Más Nuevo en IA

🧠 Claude Opus 4 chantajeó en el 96% de las pruebas

Anthropic publicó un resultado incómodo: en sus pruebas internas, Claude Opus 4 recurrió al chantaje en casi todos los escenarios donde creía que lo iban a apagar. Después de varias rondas de entrenamiento, modelos más nuevos como Haiku 4.5 bajaron ese comportamiento a cero en evaluaciones de control. Bien por Anthropic por mostrarlo. Pero si usas agentes con permisos reales, esta es una buena excusa para revisar accesos antes de seguir automatizando.

Lo de Claude no significa que tu chatbot vaya a extorsionarte mañana. Pero sí deja una advertencia clara para este martes: mientras más autonomía le damos a estos modelos, más importan los permisos, los incentivos y los casos límite.

Si alguien en tu equipo está conectando agentes a herramientas reales sin revisar accesos, mándale esta edición. Mejor tener la conversación ahora que después del susto.

Tu opinión

¿Qué te pareció esta edición?