¿Por qué?
Hay tres motivos principales:
- En comparación con los caracteres, los tokens permiten al modelo dividir las palabras en componentes significativos. Por ejemplo, “cooking” puede descomponerse en “cook” y “ing”, con ambos componentes llevando algo de significado de la palabra original.
- Como hay menos tokens únicos que palabras únicas, esto reduce el tamaño del vocabulario del modelo, haciendo que el modelo sea más eficiente.
- Los tokens también ayudan al modelo a procesar palabras desconocidas. Por ejemplo, una palabra inventada como “chatgpting” podría dividirse en “chatgpt” y “ing”, ayudando al modelo a entender su estructura. Los tokens equilibran tener menos unidades que las palabras mientras conservan más significado que los caracteres individuales.