lunes, 14 de febrero de 2022

TÉCNICAS BÁSICAS DE PROCESAMIENTO DEL LENGUAJE NATURAL

 

Un analizador morfológico debe constar por lo menos tres partes: un diccionario o lexicón con la lista de los lemas; una lista de afijos con sus reglas de orden, ya que los afijos no pueden aparecer en un orden arbitrario, y un conjunto de reglas ortográficas en el caso de que la adición de un afijo las requiera. Para que el procesamiento morfológico sea posible, cada lema debe ser previamente etiquetado. Se denomina `etiquetado', POS tagging (part-of-speech tagging) al procedimiento de asignar a cada una de las unidades léxicas presentes el conjunto de sus categorías gramaticales posibles.16 El objetivo de un etiquetador es el de asignar a cada palabra la categoría más `apropiada' dentro de un contexto. Existen tres grandes procedimiento de etiquetado:

·         Técnicas de etiquetado basadas en reglas. Los etiquetadores basados en reglas utilizan conocimiento lingüístico, generalmente expresado en forma de reglas o restricciones para establecer las combinaciones de etiquetas aceptables o prohibidas. Las reglas se escriben manualmente, responden a criterios lingüísticos y se representan en forma explícita. Otros métodos se enfrentan al problema de la variabilidad del lenguaje desde una aproximación lingüística, por medio de técnicas cuyo objetivo es la reducción de las variantes léxicas a lemas. En esta línea, una de las implementaciones computaciones más importantes la constituyen los analizadores basados en tecnología de estado-finito

·         Técnicas de etiquetado basadas en métodos estadísticos o probabilísticos. Estos etiquetadores se basan en la evidencia empírica obtenida de corpus lingüísticos voluminosos. El problema de estos sistemas reside en el aprendizaje del modelo estadístico utilizado. Se han utilizado técnicas de aprendizaje supervisado partiendo de corpus etiquetados manualmente y técnicas de aprendizaje no supervisado en las que no es precisa esa intervención manual. Un algoritmo clásico utilizado para el etiquetado estadístico es el de los Modelos Ocultos de Markov (Hidden Markov Models). Este enfoque se caracteriza por asumir que la probabilidad de una cadena de símbolos puede ser calculada en base a sus partes o n-gramas. El modelo de n-gramas más básico es el de los unigramas; es decir, la búsqueda de la etiqueta más probable para cada palabra o token. Para esto, es necesario entrenar el sistema con un corpus etiquetado previamente.19

·         Técnicas de etiquetado híbridas, que combinan tanto los métodos basados en reglas como los estadísticos para intentar recoger los aspectos positivos de cada una de ellas y evitar sus limitaciones. Un sistema de este tipo fue introducido por Brill y se basa en el aprendizaje automático. Cada palabra se rotula con la etiqueta más probable, luego se cambia la etiqueta aplicando reglas del tipo `si la palabra -1 es un determinante cambie la etiqueta a nombre' y se reetiqueta la palabra. Se obtiene de esta manera una secuencia de reglas de transformación de etiquetas.

Una vez analizado y etiquetado tal texto de forma total o parcial, puede realizarse el análisis sintáctico (parsing). Se trata de un proceso por medio del cual se convierte el texto de entrada en otras estructuras, comúnmente denominadas `árboles', que son más útiles para el posterior análisis y capturan la jerarquía implícita de la entrada. Durante el procesamiento se producen distintas estructuras intermedias o de trabajo, hasta producir un árbol de análisis estructural de la secuencia de entrada. Hay diferentes técnicas y algoritmos de parsing. Estas se pueden agrupar básicamente entre tres tipos diferentes:

·         Procesamiento paralelo o secuencial. Se refiere fundamentalmente a dos tipos de análisis de secuencias. La técnica de procesamiento en paralelo prueba diferentes posibilidades de combinación en paralelo y guarda la pista de los estados posibles. Frente a este, la estrategia de procesamiento secuencial prueba primero una posibilidad hasta el final, y si no tiene éxito, retrocede al punto de partida y prueba otra ruta hasta dar con la estructura que corresponde a la secuencia de la entrada.

·         Procesamiento descendente o ascendente. Se refiere al punto de partida del árbol estructural que el parser debe construir. Si se está procesando una oración, en la parte superior se representa a la oración en su totalidad y, en la parte inferior del árbol hay nodos que representan los elementos léxicos individuales o palabras. La dirección ascendente y la descendente dependen del punto de partida: si comienza el procesamiento en la parte superior de la oración y va dividiendo la entrada progresivamente en partes cada vez más pequeñas, hasta llegar a las palabras, será un parser descendente (top-down-parser). El parser será ascendente (bottom-up) si, por el contrario, el análisis comienza por los elementos léxicos individuales y culmina con la oración en su totalidad.

·         Procesamiento determinista/no-determinista. Se refiere al carácter guiado o no guiado del modelo. Es decir, si el modelo no permite decidir qué regla de la gramática se aplicará en un momento determinado, se tratará de un modelo no-determinista; en cambio, si se utilizan mecanismos que conducen a un resultado concreto sin vacilaciones, se hablará de un procesamiento determinista.

 


 


No hay comentarios.:

Publicar un comentario