Resumen Semana 2: Primera versión del agente funcionando
Dias 8-15 / 60
Segunda semana completada. 25% del camino recorrido.
La semana dificil
Sere muy honesto: esta semana no fue para nada productiva. Fiestas de fin de ano, ~2,000 km de viaje, y poca oportunidad de sentarme a trabajar. Me desespera un poco porque el tiempo no para y quedan 45 dias. Me toca compensar con mas intensidad las proximas semanas.
El agente ya respira
A pesar del poco tiempo, logre algo importante: la primera version del agente esta funcionando y empieza a comportarse como esperaba.
La semana pasada mencione que se sentia "tosco". Esta semana hay un cambio notable, y no fue simplemente por tener un mejor prompt si no que cambie el modelo.
El salto de Gemini 2 a Gemini 3
Empece usando Gemini 2 Flash porque queria respuestas rapidas. El problema: fallaba constantemente con las herramientas. A veces no llamaba ninguna cuando claramente debia hacerlo. Otras veces alucinaba datos inventados sin siquiera intentar ejecutar una simulacion.
Como estoy participando en el Hackathon de Gemini 3, decidi probar gemini-3-flash-preview—la version mas rapida del modelo mas poderoso que tiene Google. La diferencia es brutal: el razonamiento es mas consistente y las llamadas a herramientas funcionan como deberian. El agente dejo de alucinar y empezo a llamar las herramientas como corresponde.

DN ejecutando un flujo de potencia en PowerFactory
La prueba de fuego: fallas comparadas
Le pedi al agente que ejecutara una falla monofasica al 50% de la linea 1 y luego una falla trifasica para comparar resultados. Funciono perfecto.

Comparacion de fallas: monofasica vs trifasica
Lo interesante no es solo que ejecuto las simulaciones, si no que entendio la secuencia sin que tuviera que explicarle cada paso. Uso 3 de las 10 iteraciones disponibles en el ciclo agentico:
- Entender el proyecto cargado
- Ejecutar falla monofasica al 50% de la linea
- Ejecutar falla trifasica al 50% de la linea y comparar
Con Gemini 2 Flash, este mismo prompt habia terminado con el agente inventandose corrientes de cortocircuito sin tocar simular nada.
Sobre el limite de 10 iteraciones
Por ahora configure un maximo de 10 llamadas a herramientas por consulta. Es un numero arbitrario que me permite experimentar sin que el agente entre en loops infinitos. Para tareas simples como la comparacion de fallas, 3 iteraciones son suficientes. Para un ECAP completo, probablemente necesite mas, pero eso es problema de mi yo del futuro.
La web app
Tambien tengo una aplicacion web funcionando. Por ahora es para pruebas internas, pero la idea es disponibilizarla pronto para que otros puedan interactuar con el agente.
Lo que viene
Proximos pasos:
- Benchmark de maquinas: Mis sistemas de prueba son tan pequenos que las simulaciones toman menos de 5 segundos. Necesito probar con casos reales para entender los limites.
- Mas herramientas: El agente solo sabe simular. Falta conectar el PGP del Coordinador y la Infotecnica para que pueda aprender de estudios reales.