¿Qué son?

Son Agente IA con capacidades visuales que permiten resolver tareas que van más allá del procesamiento de texto. Para ello utilizan modelos de visión lenguaje (VLMs) que son los que permiten procesar e interpretar imagenes de manera efectiva.