27 de marzo de 2026·#020

GPT-5 sacó 0.26% en un examen donde los humanos sacan 100%

Hola, feliz viernes.

GPT-5 sacó 0.26% en un benchmark que mide razonamiento real. No es un typo: los mejores modelos del mundo fallan en 99% de esos problemas. Y mientras tanto, un juez frenó al Pentágono por su contrato con Anthropic.

Esto es lo que traemos:

- Los mejores modelos de IA fallan en 99% de los casos.

- Un juez paró el contrato del Pentágono con Anthropic.

- El 84% de las empresas tiene agentes que no controla.

- Siri abrirá la puerta a ChatGPT y sus rivales.

- Wispr Flow dicta a 220 palabras por minuto, sin muletillas.

- Cómo prepararte antes que lleguen los agentes.

Últimas Noticias

Lo Más Nuevo en IA

🧠 GPT-5 Sacó 0.26% en el Nuevo Benchmark ARC-AGI-3

El 26 de marzo, ARC Prize Foundation publicó ARC-AGI-3, un benchmark donde los modelos deben explorar entornos desconocidos sin instrucciones. Gemini 3.1 Pro sacó 0.37%, GPT-5.4 un 0.26%, Claude Opus 4.6 un 0.25%, y Grok-4.20 un 0%. Los humanos: 100%. En contexto: los mismos labs pasaron de 3% a ~50% en ARC-AGI-2, así que no es que no mejoren — es que este test mide razonamiento sin mapa, y ahí todos se caen. Hay $2M en premios para quien iguale a los humanos.

⚖️ Un Juez Frenó al Pentágono por Anthropic

El 26 de marzo, la jueza federal Rita Lin bloqueó temporalmente la decisión del Pentágono de clasificar a Anthropic como riesgo en su cadena de suministro. Su argumento: el gobierno podía simplemente dejar de usar Claude sin necesidad de un veto formal, lo que debilita la justificación de seguridad nacional. Lo bueno para Anthropic: gana tiempo legal y sus contratos con socios privados no se caen hoy. Lo malo: la pelea sigue en los tribunales y el gobierno Trump puede reformular el argumento. Prepárate para más rondas.

🕵️ El 84% de las Empresas Tiene Agentes de IA que No Controla

Según un reporte de Microsoft, el 62% de las empresas en Reino Unido ya usa agentes de IA autónomos, cuando hace un año eran solo el 22%. El problema: el 84% de los líderes admite que tienen agentes corriendo sin supervisión real, lo que Microsoft llama "shadow AI agents". Si tu empresa adoptó herramientas de IA este año sin política clara de acceso y permisos, probablemente ya tienes este problema sin saberlo, revisa qué agentes tienen acceso a tus datos antes de que lo haga alguien más.

🚕 Zoox Lleva Sus Robotaxis a Austin y Miami

Zoox, propiedad de Amazon, anunció que este año desplegará sus taxis sin volante en Austin y Miami para pruebas en vías públicas, con casi 2 millones de millas autónomas acumuladas y más de 350,000 pasajeros en San Francisco. Al principio solo subirán empleados y sus familias; luego abrirá un programa público llamado Explorer. Ojo: Waymo ya tiene servicio comercial abierto en varias ciudades, así que Zoox llega tarde pero con el respaldo financiero de Amazon. Míralo en los próximos meses para ver si escala más rápido que sus rivales.

🍎 Siri Abrirá la Puerta a ChatGPT y Rivales

Con iOS 27, Apple permitirá que Siri use servicios de IA de terceros como ChatGPT directamente, generando ingresos para Apple a través de suscripciones en el App Store. Eso importa porque Apple deja de apostar solo a su propio modelo y convierte a Siri en una puerta de entrada, no en el destino final. Si usas iPhone y pagas por ChatGPT Plus, esto podría simplificar tu flujo de trabajo, aunque Apple se lleva una tajada de cada suscripción que pase por ahí.

Lo Más Nuevo

Herramientas del Día

🎙️
Wispr FlowDicta a 220 palabras por minuto en cualquier app, Mac o Windows, y el texto sale limpio sin muletillas. Si escribes mucho, pruébalo.
🛍️
Tinkerapp gratis de Shopify con más de 100 herramientas de IA para crear imágenes, videos y logos desde el celular, sin saber diseño. Si tienes un negocio chico, mírala.
🎮
PixelLabgenera sprites, animaciones y tilesets en pixel art desde texto o imagen, con rotación en 8 vistas y licencia comercial incluida. Si haces juegos indie, úsalo.
🤝
Accio Workagente de Alibaba que negocia con proveedores, procesa pedidos y gestiona logística solo, con plan gratis y Business desde $49 al mes. Si importas o exportas, compáralo.
📣
Pouncemonitorea X y Reddit en tiempo real y te manda borradores de respuesta listos para publicar, aprendiendo qué conversaciones te interesan. Si construyes audiencia, míralo.

IA Interesante

Timekettle X1 traductor de bolsillo

El Timekettle X1 Ultra traduce en tiempo real entre 40 idiomas y 93 acentos, sin necesidad de abrir el celular. No es una app: es un dispositivo físico con audífonos inalámbricos que escucha a dos personas y traduce en ambas direcciones al mismo tiempo. La versión Ultra, lanzada en 2023, ya funciona sin conexión a internet en 24 idiomas.

Lo que lo separa de Google Translate en el celular es el contexto de uso real. El X1 Ultra tiene un arreglo de 8 micrófonos con cancelación de ruido, lo que lo hace funcional en aeropuertos o cafés ruidosos donde una app falla. La batería dura 5 horas en el dispositivo y el estuche cargador suma 12 horas más. Si viajas seguido o trabajas con clientes de otros países, eso cambia bastante la experiencia.

No reemplaza a un intérprete humano en conversaciones técnicas o legales, pero para viajes y reuniones cotidianas es un caso de uso real y concreto. Si el precio lo justifica (Timekettle no lo publica directamente), vale compararlo con lo que cobran los servicios de interpretación remota.

Ver el dispositivo

IAs Notables

Herramientas IA Notables

🎵
Lyria 3 ProGoogle lanzó Lyria 3 Pro el 25 de marzo: genera canciones de hasta 3 minutos con estructura real (intro, verso, coro, puente), no solo clips de 30 segundos. En contexto: Suno y Udio llevan meses en ese rango, así que Google llega tarde, pero con integración directa en Gemini y Vertex AI que ninguno tiene.
🎙️
Spotify Artist Profile ProtectionSpotify lanzó el 24 de marzo una beta que permite a artistas aprobar o bloquear canciones antes de que aparezcan en su perfil, después de que Sony pidiera bajar 135,000 tracks falsos de IA. Lo bueno: los artistas recuperan control. Lo malo: es opt-in, así que quien no se entere sigue expuesto.
Cursor Composer 2Seis semanas después del 1.5, Cursor lanzó Composer 2 con RL en tiempo real y subió su score en CursorBench de 36.0 a 61.3, un 70% de mejora. En contexto: ningún modelo agentic de coding había saltado tanto en tan poco tiempo, y cuesta $0.50 por millón de tokens. Compáralo con lo que pagabas antes.
🖥️
ClaudeDesde el 24 de marzo, Claude controla el mouse, el teclado y las apps de tu Mac de forma remota, sin necesitar conectores para cada servicio. Lo bueno: funciona con casi cualquier app. Lo malo: es Mac-only, está en preview y tareas complejas pueden requerir varios intentos.

Lecturas IA

Más Allá del Feed

🔍 Por Qué Tu Agente Sigue Fallando en Entregas

Leonardo Stern, de Agoda, cita datos de Faros AI: equipos con mucha IA completan 21% más tareas, pero el tiempo de revisión de código sube 91%. Lo bueno: escribes código más rápido. Lo malo: el cuello de botella se movió a especificación y revisión, donde la IA todavía no ayuda. Guárdalo.

🏰 Reid Hoffman Dice Quién Sobrevive el Caos SaaS

Un tweet sobre Claude Code borró 5% del valor de acciones SaaS en dos semanas, golpeando a Salesforce y Workday. Reid Hoffman, cofundador de LinkedIn, argumenta que no es el fin del software, sino el fin de los modelos sin datos propios. Si tu empresa vende software genérico sin datos únicos de clientes, prepárate.

🔒 El Dilema que Hace Imposible Proteger tus Datos

Xingli Fang, de NC State, descubrió que los parámetros que hacen vulnerable un modelo a ataques de privacidad son los mismos que lo hacen funcionar bien. Ojo: mejorar la privacidad sin degradar el rendimiento no es un problema de esfuerzo, es un conflicto estructural que su técnica de fine-tuning apenas empieza a resolver.

🌊 Cómo Prepararte Antes que Lleguen los Agentes

OpenClaw, Manus de Meta y Perplexity Computer ya operan como flujos autónomos persistentes, no como chats de ida y vuelta. Si hoy diseñas workflows para humanos, este análisis de simple.ai explica qué cambiar en tu stack antes de que los agentes lleguen a tu equipo. Guárdalo.

🔗 El Negocio que Cobra por Datos Ya Perdió

El argumento central: el valor se está moviendo de las bases de datos (sistemas de registro) a los agentes (sistemas de acción). Las empresas que cobran por acceso a datos van a quedar fuera cuando los agentes puedan ejecutar tareas directamente. Si vendes software cuyo valor principal es almacenar información, este análisis explica por qué ese modelo tiene fecha de caducidad.

Truco IA del Dia

Automatiza Resúmenes de Reuniones

Gemini
Act as an experienced meeting assistant with 10 years of experience in corporate settings. You specialize in creating detailed summaries and extracting actionable items from weekly meetings, saving hours of manual note-taking and follow-up work.

CONTEXT: I need to generate a detailed summary of weekly meetings and extract key action items automatically. The goal is to streamline the process of...
Ver prompt completo →

1. Reemplaza los parámetros [MEETING_DATE], [MEETING_TRANSCRIPT], [MEETING_PARTICIPANTS], [MEETING_TOPIC], y [MEETING_TYPE] con los datos de tu reunión.

2. Copia el prompt completo en Gemini y ejecútalo.

3. Revisa el resumen y los elementos de acción generados para asegurarte de que todo está correcto y completo.

Resultado: Obtendrás un resumen detallado de la reunión y una lista de elementos de acción claros y estructurados.

Tweet del Día

Zach Griff hizo un rastreador de tiempos de espera de TSA en tiempo real. Míralo si viajas.

Z

Zach Griff

@_ZachGriff

Construí un rastreador gratuito de tiempos de espera en vivo de TSA que muestra los tiempos de espera en tiempo real por punto de control, incluyendo Precheck, Clear y prioridad (donde esté disponible). Lo hice porque: - Las filas de TSA son locas - Las herramientas existentes ofrecen esperas estimadas - Probar el poder de las herramientas de IA

❤️ 5.0K🔁 725
Ver en X →

GPT-5 reprobó un examen, un juez frenó al Pentágono, y el 84% de las empresas tiene agentes sueltos que nadie controla. Lindo viernes para recalibrar expectativas. Si conoces a alguien que cree que la IA ya lo puede todo, mándale lo de los benchmarks.

Tu opinión

¿Qué te pareció esta edición?