¿Cómo es?

 Un LLM toma un texto de entrada y lo Tokeniza. Luego calcula una representación de la secuencia que captura información sobre el significado y la posición de cada token en la secuencia de entrada. Esta representación va al modelo, que produce puntuaciones que clasifican la probabilidad de cada token en su vocabulario de ser el siguiente en la secuencia. Basándonos en estas puntuaciones, tenemos múltiples estrategias para seleccionar los tokens para completar la oración.

La estrategia de decodificación más sencilla sería tomar siempre el token con la puntuación máxima.

Pero hay estrategias de decodificación más avanzadas. Por ejemplo, beam search explora múltiples secuencias candidatas para encontrar aquella con la puntuación total máxima–incluso si algunos tokens individuales tienen puntuaciones más bajas.

El proceso es un ciclo de naturaleza autoregressiva, es decir  la salida de un paso se convierte en la entrada para el siguiente. Este ciclo continúa hasta que el modelo predice que el siguiente token será el token EOS, momento en el cual el modelo puede detenerse: