TOKENIZACIÓN
El primer paso: convertir documentos en datos
El texto se divide en pequeñas unidades llamadas tokens —letras, palabras, símbolos— y a cada token se le asigna un número único.
Tokenizar es convertir ideas en datos: reducir un documento, una solicitud o una certificación a una secuencia de códigos numéricos que las máquinas pueden procesar.
Es el primer paso para que una inteligencia artificial pueda "pensar" en términos matemáticos.
Ejemplo:
"Certificado laboral válido" → [42, 1523, 891]