Cristian Valdivia Ramirez

Dias 8-15 / 60

Segunda semana completada. 25% del camino recorrido.

La semana dificil

Sere muy honesto: esta semana no fue para nada productiva. Fiestas de fin de ano, ~2,000 km de viaje, y poca oportunidad de sentarme a trabajar. Me desespera un poco porque el tiempo no para y quedan 45 dias. Me toca compensar con mas intensidad las proximas semanas.

El agente ya respira

A pesar del poco tiempo, logre algo importante: la primera version del agente esta funcionando y empieza a comportarse como esperaba.

La semana pasada mencione que se sentia "tosco". Esta semana hay un cambio notable, y no fue simplemente por tener un mejor prompt si no que cambie el modelo.

El salto de Gemini 2 a Gemini 3

Empece usando Gemini 2 Flash porque queria respuestas rapidas. El problema: fallaba constantemente con las herramientas. A veces no llamaba ninguna cuando claramente debia hacerlo. Otras veces alucinaba datos inventados sin siquiera intentar ejecutar una simulacion.

Como estoy participando en el Hackathon de Gemini 3, decidi probar gemini-3-flash-preview—la version mas rapida del modelo mas poderoso que tiene Google. La diferencia es brutal: el razonamiento es mas consistente y las llamadas a herramientas funcionan como deberian. El agente dejo de alucinar y empezo a llamar las herramientas como corresponde.

DN ejecutando un flujo de potencia en PowerFactory

La prueba de fuego: fallas comparadas

Le pedi al agente que ejecutara una falla monofasica al 50% de la linea 1 y luego una falla trifasica para comparar resultados. Funciono perfecto.

Comparacion de fallas: monofasica vs trifasica

Lo interesante no es solo que ejecuto las simulaciones, si no que entendio la secuencia sin que tuviera que explicarle cada paso. Uso 3 de las 10 iteraciones disponibles en el ciclo agentico:

Entender el proyecto cargado
Ejecutar falla monofasica al 50% de la linea
Ejecutar falla trifasica al 50% de la linea y comparar

Con Gemini 2 Flash, este mismo prompt habia terminado con el agente inventandose corrientes de cortocircuito sin tocar simular nada.

Sobre el limite de 10 iteraciones

Por ahora configure un maximo de 10 llamadas a herramientas por consulta. Es un numero arbitrario que me permite experimentar sin que el agente entre en loops infinitos. Para tareas simples como la comparacion de fallas, 3 iteraciones son suficientes. Para un ECAP completo, probablemente necesite mas, pero eso es problema de mi yo del futuro.

La web app

Tambien tengo una aplicacion web funcionando. Por ahora es para pruebas internas, pero la idea es disponibilizarla pronto para que otros puedan interactuar con el agente.

Lo que viene

Proximos pasos:

Benchmark de maquinas: Mis sistemas de prueba son tan pequenos que las simulaciones toman menos de 5 segundos. Necesito probar con casos reales para entender los limites.
Mas herramientas: El agente solo sabe simular. Falta conectar el PGP del Coordinador y la Infotecnica para que pueda aprender de estudios reales.

Resumen Semana 2: Primera versión del agente funcionando