GPT-5 sacó 0.26% en un examen donde los humanos sacan 100%
Hola, feliz viernes.
GPT-5 sacó 0.26% en un benchmark que mide razonamiento real. No es un typo: los mejores modelos del mundo fallan en 99% de esos problemas. Y mientras tanto, un juez frenó al Pentágono por su contrato con Anthropic.
Esto es lo que traemos:
- Los mejores modelos de IA fallan en 99% de los casos.
- Un juez paró el contrato del Pentágono con Anthropic.
- El 84% de las empresas tiene agentes que no controla.
- Siri abrirá la puerta a ChatGPT y sus rivales.
- Wispr Flow dicta a 220 palabras por minuto, sin muletillas.
- Cómo prepararte antes que lleguen los agentes.
Últimas Noticias
Lo Más Nuevo en IA
El 26 de marzo, ARC Prize Foundation publicó ARC-AGI-3, un benchmark donde los modelos deben explorar entornos desconocidos sin instrucciones. Gemini 3.1 Pro sacó 0.37%, GPT-5.4 un 0.26%, Claude Opus 4.6 un 0.25%, y Grok-4.20 un 0%. Los humanos: 100%. En contexto: los mismos labs pasaron de 3% a ~50% en ARC-AGI-2, así que no es que no mejoren — es que este test mide razonamiento sin mapa, y ahí todos se caen. Hay $2M en premios para quien iguale a los humanos.
El 26 de marzo, la jueza federal Rita Lin bloqueó temporalmente la decisión del Pentágono de clasificar a Anthropic como riesgo en su cadena de suministro. Su argumento: el gobierno podía simplemente dejar de usar Claude sin necesidad de un veto formal, lo que debilita la justificación de seguridad nacional. Lo bueno para Anthropic: gana tiempo legal y sus contratos con socios privados no se caen hoy. Lo malo: la pelea sigue en los tribunales y el gobierno Trump puede reformular el argumento. Prepárate para más rondas.
Según un reporte de Microsoft, el 62% de las empresas en Reino Unido ya usa agentes de IA autónomos, cuando hace un año eran solo el 22%. El problema: el 84% de los líderes admite que tienen agentes corriendo sin supervisión real, lo que Microsoft llama "shadow AI agents". Si tu empresa adoptó herramientas de IA este año sin política clara de acceso y permisos, probablemente ya tienes este problema sin saberlo, revisa qué agentes tienen acceso a tus datos antes de que lo haga alguien más.
Zoox, propiedad de Amazon, anunció que este año desplegará sus taxis sin volante en Austin y Miami para pruebas en vías públicas, con casi 2 millones de millas autónomas acumuladas y más de 350,000 pasajeros en San Francisco. Al principio solo subirán empleados y sus familias; luego abrirá un programa público llamado Explorer. Ojo: Waymo ya tiene servicio comercial abierto en varias ciudades, así que Zoox llega tarde pero con el respaldo financiero de Amazon. Míralo en los próximos meses para ver si escala más rápido que sus rivales.
Con iOS 27, Apple permitirá que Siri use servicios de IA de terceros como ChatGPT directamente, generando ingresos para Apple a través de suscripciones en el App Store. Eso importa porque Apple deja de apostar solo a su propio modelo y convierte a Siri en una puerta de entrada, no en el destino final. Si usas iPhone y pagas por ChatGPT Plus, esto podría simplificar tu flujo de trabajo, aunque Apple se lleva una tajada de cada suscripción que pase por ahí.
Lo Más Nuevo
Herramientas del Día
IA Interesante
Timekettle X1 traductor de bolsillo
El Timekettle X1 Ultra traduce en tiempo real entre 40 idiomas y 93 acentos, sin necesidad de abrir el celular. No es una app: es un dispositivo físico con audífonos inalámbricos que escucha a dos personas y traduce en ambas direcciones al mismo tiempo. La versión Ultra, lanzada en 2023, ya funciona sin conexión a internet en 24 idiomas.
Lo que lo separa de Google Translate en el celular es el contexto de uso real. El X1 Ultra tiene un arreglo de 8 micrófonos con cancelación de ruido, lo que lo hace funcional en aeropuertos o cafés ruidosos donde una app falla. La batería dura 5 horas en el dispositivo y el estuche cargador suma 12 horas más. Si viajas seguido o trabajas con clientes de otros países, eso cambia bastante la experiencia.
No reemplaza a un intérprete humano en conversaciones técnicas o legales, pero para viajes y reuniones cotidianas es un caso de uso real y concreto. Si el precio lo justifica (Timekettle no lo publica directamente), vale compararlo con lo que cobran los servicios de interpretación remota.
IAs Notables
Herramientas IA Notables
Lecturas IA
Más Allá del Feed
Leonardo Stern, de Agoda, cita datos de Faros AI: equipos con mucha IA completan 21% más tareas, pero el tiempo de revisión de código sube 91%. Lo bueno: escribes código más rápido. Lo malo: el cuello de botella se movió a especificación y revisión, donde la IA todavía no ayuda. Guárdalo.
Un tweet sobre Claude Code borró 5% del valor de acciones SaaS en dos semanas, golpeando a Salesforce y Workday. Reid Hoffman, cofundador de LinkedIn, argumenta que no es el fin del software, sino el fin de los modelos sin datos propios. Si tu empresa vende software genérico sin datos únicos de clientes, prepárate.
Xingli Fang, de NC State, descubrió que los parámetros que hacen vulnerable un modelo a ataques de privacidad son los mismos que lo hacen funcionar bien. Ojo: mejorar la privacidad sin degradar el rendimiento no es un problema de esfuerzo, es un conflicto estructural que su técnica de fine-tuning apenas empieza a resolver.
OpenClaw, Manus de Meta y Perplexity Computer ya operan como flujos autónomos persistentes, no como chats de ida y vuelta. Si hoy diseñas workflows para humanos, este análisis de simple.ai explica qué cambiar en tu stack antes de que los agentes lleguen a tu equipo. Guárdalo.
El argumento central: el valor se está moviendo de las bases de datos (sistemas de registro) a los agentes (sistemas de acción). Las empresas que cobran por acceso a datos van a quedar fuera cuando los agentes puedan ejecutar tareas directamente. Si vendes software cuyo valor principal es almacenar información, este análisis explica por qué ese modelo tiene fecha de caducidad.
Truco IA del Dia
Automatiza Resúmenes de Reuniones
Act as an experienced meeting assistant with 10 years of experience in corporate settings. You specialize in creating detailed summaries and extracting actionable items from weekly meetings, saving hours of manual note-taking and follow-up work.
CONTEXT: I need to generate a detailed summary of weekly meetings and extract key action items automatically. The goal is to streamline the process of...Ver prompt completo →1. Reemplaza los parámetros [MEETING_DATE], [MEETING_TRANSCRIPT], [MEETING_PARTICIPANTS], [MEETING_TOPIC], y [MEETING_TYPE] con los datos de tu reunión.
2. Copia el prompt completo en Gemini y ejecútalo.
3. Revisa el resumen y los elementos de acción generados para asegurarte de que todo está correcto y completo.
Resultado: Obtendrás un resumen detallado de la reunión y una lista de elementos de acción claros y estructurados.
Tweet del Día
Zach Griff hizo un rastreador de tiempos de espera de TSA en tiempo real. Míralo si viajas.
Zach Griff
@_ZachGriff
Construí un rastreador gratuito de tiempos de espera en vivo de TSA que muestra los tiempos de espera en tiempo real por punto de control, incluyendo Precheck, Clear y prioridad (donde esté disponible). Lo hice porque: - Las filas de TSA son locas - Las herramientas existentes ofrecen esperas estimadas - Probar el poder de las herramientas de IA

GPT-5 reprobó un examen, un juez frenó al Pentágono, y el 84% de las empresas tiene agentes sueltos que nadie controla. Lindo viernes para recalibrar expectativas. Si conoces a alguien que cree que la IA ya lo puede todo, mándale lo de los benchmarks.
Tu opinión