Tokenización

Definición: ¿Qué significa Tokenización?

La tokenización es el acto de dividir una secuencia de cadenas en pedazos como palabras, palabras clave, frases, símbolos y otros elementos llamados tokens. Los tokens pueden ser palabras individuales, frases o incluso oraciones completas. En el proceso de tokenización, se descartan algunos caracteres como los signos de puntuación. Los tokens se convierten en la entrada para otro proceso como el análisis y la minería de texto.

La tokenización se utiliza en informática, donde juega un papel importante en el proceso de análisis léxico.

Techinfo explica la tokenización

La tokenización se basa principalmente en heurísticas simples para separar los tokens siguiendo algunos pasos:

  • Los símbolos o palabras están separados por espacios en blanco, signos de puntuación o saltos de línea.
  • Es posible que se incluyan o no espacios en blanco o signos de puntuación según la necesidad.
  • Todos los caracteres dentro de cadenas contiguas son parte del token. Los tokens pueden estar formados por todos los caracteres alfabéticos, alfanuméricos o solo caracteres numéricos.

Los propios tokens también pueden ser separadores. Por ejemplo, en la mayoría de los lenguajes de programación, los identificadores se pueden colocar junto con operadores aritméticos sin espacios en blanco. Aunque parece que esto aparecería como una sola palabra o token, la gramática del lenguaje en realidad considera al operador matemático (un token) como un separador, por lo que incluso cuando se agrupan varios tokens, aún se pueden separar mediante el método matemático operador.