N-grama (N-gram)
Es una secuencia contigua de N elementos de un texto o datos, que pueden ser palabras, caracteres o tokens, utilizada con frecuencia en el procesamiento del lenguaje natural (NLP).
Se emplea para modelar y analizar patrones en datos textuales, ayudando a capturar la forma en que las palabras o unidades se relacionan entre sí dentro de un contexto definido.
En machine learning, su principal utilidad radica en la representación de texto y como una técnica clave para crear características para modelos predictivos que trabajan con lenguaje humano.
La eficiencia y el rendimiento de un N-grama dependen del tamaño de N, ya que valores más pequeños captan relaciones locales, mientras que valores más grandes consideran dependencias más amplias en los datos.
Su implementación permite construir modelos probabilísticos como los modelos de lenguaje, que estiman la probabilidad de una secuencia dada en función de las ocurrencias previas en un corpus.
Entradas Relacionadas