¿Qué son?

Un modelo de lenguaje enmascarado se entrena para predecir tokens ausentes en cualquier secuencia, utilizando el contexto tanto de los que preceden como de los que siguen a los tokens ausentes. En esencia, se entrenan para poder rellenar el hueco.

Los modelos de lenguaje enmascarado se usan comúnmente para tareas no generativas como el análisis de sentimientos y la clasificación de textos. También son útiles para tareas que requieren una comprensión del contexto general, como la depuración de código, donde un modelo necesita entender tanto el código que precede como el que sigue para identificar errores.