ARC AGI 3: Cuando los agentes fallan en juegos de pixeles

5 min de lectura
ARC AGI 3 Competition

ARC AGI 3 Competition

El desafío que nos humilló

Hace dos semanas, Eugenio y yo decidimos participar en ARC-AGI-3 agent preview. Sonaba emocionante: un benchmark para medir la inteligencia de los LLM actuales a través de juegos simples.

¿Qué tan difícil podría ser programar un agente para resolver juegos de pixeles de 64x64?. Especialmente considerando que tenemos experiencia programando flujos agénticos y agentes de IA desde hace bastante tiempo.

Spoiler: no logramos nada. Muyyy difícil.

Después de 14 días intensos de trabajo, debugging y frustraciones, la realidad nos golpeó duro. No solo no resolvimos los juegos— si no que casi ni conseguimos que nuestros agentes hicieran progreso significativo. Y esto me hizo replantear todo lo que creía sobre el estado actual de la IA.

Dos mentes, dos enfoques

Trabajar con Eugenio en este proyecto fue revelador de una forma inesperada. Él piensa como abogado y filósofo. Sus métodos tenían un aire aristotélico, pasando por Descartes y otros grandes pensadores. Su aproximación era sistemática pero abstracta, buscando principios universales que pudieran aplicarse a cualquier juego.

Me llamaba la atención un prompt que había diseñado para su agente: "No estás enfocado en ganar, tu meta es entender el mundo y las reglas, y que eso te lleve a ganar". Era pura filosofía aplicada a la IA—primero la comprensión profunda, después la victoria vendría naturalmente.

Yo, típico ingeniero, me lancé directo a la implementación: estructurado, práctico, orientado a resultados inmediatos. Quería ver código funcionando desde el primer día.

El choque era inevitable. Donde él veía la necesidad de establecer fundamentos filosóficos sólidos para el razonamiento, yo pensaba, WTF que estamos haciendo. Donde yo veía la urgencia de iterar rápidamente, él veía decisiones apresuradas sin base teórica.

Al final, terminamos presentando proyectos separados: él con un elegante sistema filosófico de razonamiento, yo con un enfoque más técnico y directo. Es irónico, porque llevamos tiempo colaborando exitosamente en otros proyectos de agentes. Pero cuando se trataba de crear algo que pudiera pensar de verdad, nuestros enfoques simplemente no convergieron.

¿Qué es realmente la inteligencia?

Hasta ahora, los tests de inteligencia artificial se enfocaban en lanzar problemas cada vez más complicados—"PhD++" como dice Greg en este video. Más datos, más parámetros, más complejidad.

Pero ARC-AGI toma un enfoque radicalmente diferente. Se basa en una definición simple pero profunda: la inteligencia es tu eficiencia para adaptarte a la novedad. En palabras simples: qué tan rápido eres aprendiendo cosas completamente nuevas.

Los problemas de ARC son simples para humanos pero brutalmente difíciles para la IA. Y medir inteligencia a través de juegos me parece brillante—cada juego tiene reglas claras, una meta definida, y requiere que el agente se adapte constantemente. Muy parecido a los desafíos que un ente pensante debe superar en distintos entornos reales.

El reto: juegos simples, desafío imposible

La premisa es elegantemente simple: pon a un agente de IA a jugar varios juegos donde debe:

  1. Entender las reglas observando solo unos pocos ejemplos
  2. Identificar la meta sin instrucciones explícitas
  3. Administrar recursos (vidas limitadas)
  4. Ganar los 8-9 niveles de cada juego

Las acciones disponibles son apenas seis:

  • ⬆️ Arriba
  • ⬇️ Abajo
  • ⬅️ Izquierda
  • ➡️ Derecha
  • [Barra espaciadora]
  • Clic (la más compleja ya que el agente debe decidir exactamente dónde hacer clic)
Juego LS20

Juego LS20

Juego VC33

Juego VC33

La brutal realidad de los números

Los resultados son humillantes para la IA.

Los humanos completan los tres juegos típicamente en 500-700 acciones totales (unos 200-250 por juego).

Leaderboard de humanos. Elegantemente eficientes

Los agentes de IA, en cambio, requieren cifras absurdas: 112,000, 242,000, 13,000 intentos... y aún así no logran terminar. Es como ver a alguien golpear una pared con la cabeza 200,000 veces esperando que se abra una puerta.

Leaderboard de agentes de IA. Fuerza bruta sin elegancia

Leaderboard de agentes de IA. Fuerza bruta sin elegancia

Los pocos entries en el top que reportan números "razonables" como 656 turnos me generan sospechas. Claramente no están usando solo LLM puro. Me suena a que hubo intervención humana directa o trucos de ingeniería muy específicos. Cuando se publiquen los detalles técnicos, será interesante analizarlos.

Inteligencia cristalizada vs. inteligencia fluida

Esta experiencia me ayudó a entender una distinción crucial que antes solo conocía teóricamente:

Inteligencia cristalizada: Conocimiento acumulado, hechos, procedimientos aprendidos. Los LLM la tienen en cantidades absurdas—conocimiento de doctorado en casi todas las áreas, capacidades de programación que superan a muchos desarrolladores (incluido yo).

Inteligencia fluida: Razonamiento puro, adaptación a situaciones nuevas, resolución de problemas sin precedente. Aquí es donde los LLM actuales se quedan cortos de forma dramática.

Un niño de 8 años puede ver un juego de ARC por primera vez y entender las reglas en minutos. Un LLM de última generación se queda atascado indefinidamente, generando acción tras acción sin aprender realmente del feedback.

El momento "GPT-5" y mis conclusiones

Justo la semana pasada vimos el lanzamiento de GPT-5. Impresionante en muchos aspectos, pero después de mi experiencia con ARC-AGI-3, lo veo con ojos diferentes.

Siento que la arquitectura actual de los LLM está tocando techo. Son increíblemente útiles y poderosos para tareas de inteligencia cristalizada, pero no creo que el LLM puro junto con los algoritmos de ML que conocemos hoy sea el camino directo hacia la AGI.

Mi conclusión después de estas dos semanas frustrantes pero iluminadora:

Estamos más lejos de la AGI de lo que pensaba a fines del año pasado. En diciembre 2024, genuinamente creí que los LLM iban a reemplazarnos en prácticamente todo dentro de poco. Ahora creo que ese "poco" será más tiempo del esperado.

(Sigo apostando al 2030 como el año de la AGI, pero con mucha menos confianza que antes.)

(Me falta una apuesta en Polymarket para ver cuando va a llegar la AGI.)

El valor del fracaso

Paradójicamente, este "fracaso" fue una de las experiencias más valiosas que he tenido trabajando con IA. Me obligó a confrontar mis propios sesgos sobre las capacidades actuales de estos sistemas.

Es fácil quedar deslumbrado por ChatGPT escribiendo ensayos eloquentes o por Claude resolviendo problemas de programación complejos. Pero pon a estos mismos modelos frente a un juego simple que requiere verdadera adaptación, y la ilusión se borra completamete.

Los agentes no son tan inteligentes como pensamos. Todavía.

Para los curiosos

Si quieren explorar este fascinante rabbit hole:

En un año vere si mis pesimistas conclusiones estaban equivocadas... o si subestimé qué tan lejos estamos realmente de la verdadera inteligencia artificial.