¿Cómo es?

En este enfoque, las imágenes se pasan al Agentes de Visión al inicio y se almacenan como task_images junto con el prompt de la tarea. El agente luego procesa estas imágenes durante su ejecución.