¿Qué son?

Cada LLM tiene algunos Tokens especiales específicos del modelo. El LLM usa estos tokens Tokens abrir y cerrar los componentes estructurados de su generación. Por ejemplo, para indicar el inicio o fin de una secuencia, mensaje o respuesta. Además, los prompts de entrada que pasamos al modelo también están estructurados con tokens especiales. El más importante de ellos es el **Token de Fin de secuencia (EOS). Las formas de los Tokens especiales son muy diversas entre los proveedores de modelos.

La siguiente tabla ilustra la diversidad de tokens especiales.

ModeloProveedorToken EOSFuncionalidad
GPT4OpenAI<|endoftext|>Fin del texto del mensaje
Llama 3Meta (Facebook AI Research)<|eot_id|>Fin de secuencia
Deepseek-R1DeepSeek<|end_of_sentence|>Fin del texto del mensaje
SmolLM2Hugging Face<|im_end|>Fin de instrucción o mensaje
GemmaGoogle<end_of_turn>Fin de turno de conversación

No tiene sentido memorizar estos tokens especiales, pero es importante apreciar su diversidad y el papel que desempeñan en la generación de texto de los LLMs. Se suelen poder consultar como los compartidos en Hugging Face: por ejemplo, el modelo SmolLM2 en su tokenizer_config.json.