Un analizador morfológico debe constar por lo menos tres
partes: un diccionario o lexicón con la lista de los lemas; una lista de afijos
con sus reglas de orden, ya que los afijos no pueden aparecer en un orden
arbitrario, y un conjunto de reglas ortográficas en el caso de que la adición
de un afijo las requiera. Para que el procesamiento morfológico sea posible,
cada lema debe ser previamente etiquetado. Se denomina `etiquetado', POS
tagging (part-of-speech tagging) al procedimiento de asignar a cada
una de las unidades léxicas presentes el conjunto de sus categorías
gramaticales posibles.16 El objetivo de un etiquetador es el de asignar a
cada palabra la categoría más `apropiada' dentro de un contexto. Existen tres
grandes procedimiento de etiquetado:
·
Técnicas
de etiquetado basadas en reglas. Los etiquetadores basados en reglas utilizan
conocimiento lingüístico, generalmente expresado en forma de reglas o
restricciones para establecer las combinaciones de etiquetas aceptables o
prohibidas. Las reglas se escriben manualmente, responden a criterios
lingüísticos y se representan en forma explícita. Otros métodos se enfrentan al
problema de la variabilidad del lenguaje desde una aproximación lingüística,
por medio de técnicas cuyo objetivo es la reducción de las variantes léxicas a
lemas. En esta línea, una de las implementaciones computaciones más importantes
la constituyen los analizadores basados en tecnología de estado-finito
·
Técnicas
de etiquetado basadas en métodos estadísticos o probabilísticos. Estos etiquetadores
se basan en la evidencia empírica obtenida de corpus lingüísticos voluminosos.
El problema de estos sistemas reside en el aprendizaje del modelo estadístico
utilizado. Se han utilizado técnicas de aprendizaje supervisado partiendo
de corpus etiquetados manualmente y técnicas de aprendizaje no
supervisado en las que no es precisa esa intervención manual. Un algoritmo
clásico utilizado para el etiquetado estadístico es el de los Modelos Ocultos
de Markov (Hidden Markov Models). Este enfoque se caracteriza por asumir que la
probabilidad de una cadena de símbolos puede ser calculada en base a sus partes
o n-gramas. El modelo de n-gramas más básico es el de
los unigramas; es decir, la búsqueda de la etiqueta más probable para cada
palabra o token. Para esto, es necesario entrenar el sistema con
un corpus etiquetado previamente.19
·
Técnicas
de etiquetado híbridas, que combinan tanto los métodos basados en reglas como
los estadísticos para intentar recoger los aspectos positivos de cada una de
ellas y evitar sus limitaciones. Un sistema de este tipo fue introducido
por Brill y se basa en el aprendizaje automático. Cada palabra se
rotula con la etiqueta más probable, luego se cambia la etiqueta aplicando
reglas del tipo `si la palabra -1 es un determinante cambie la etiqueta a
nombre' y se reetiqueta la palabra. Se obtiene de esta manera una secuencia de
reglas de transformación de etiquetas.
Una vez analizado y etiquetado tal texto de forma total o
parcial, puede realizarse el análisis sintáctico (parsing). Se trata de un
proceso por medio del cual se convierte el texto de entrada en otras
estructuras, comúnmente denominadas `árboles', que son más útiles para el
posterior análisis y capturan la jerarquía implícita de la entrada. Durante el
procesamiento se producen distintas estructuras intermedias o de trabajo, hasta
producir un árbol de análisis estructural de la secuencia de entrada. Hay
diferentes técnicas y algoritmos de parsing. Estas se pueden agrupar
básicamente entre tres tipos diferentes:
·
Procesamiento
paralelo o secuencial. Se refiere fundamentalmente a dos tipos de análisis de
secuencias. La técnica de procesamiento en paralelo prueba diferentes
posibilidades de combinación en paralelo y guarda la pista de los estados
posibles. Frente a este, la estrategia de procesamiento secuencial prueba
primero una posibilidad hasta el final, y si no tiene éxito, retrocede al punto
de partida y prueba otra ruta hasta dar con la estructura que corresponde a la
secuencia de la entrada.
·
Procesamiento
descendente o ascendente. Se refiere al punto de partida del árbol estructural
que el parser debe construir. Si se está procesando una oración, en
la parte superior se representa a la oración en su totalidad y, en la parte
inferior del árbol hay nodos que representan los elementos léxicos individuales
o palabras. La dirección ascendente y la descendente dependen del punto de
partida: si comienza el procesamiento en la parte superior de la oración y va
dividiendo la entrada progresivamente en partes cada vez más pequeñas, hasta
llegar a las palabras, será un parser descendente (top-down-parser). El parser será
ascendente (bottom-up) si, por el contrario, el análisis comienza por
los elementos léxicos individuales y culmina con la oración en su totalidad.
·
Procesamiento
determinista/no-determinista. Se refiere al carácter guiado o no guiado del
modelo. Es decir, si el modelo no permite decidir qué regla de la gramática se
aplicará en un momento determinado, se tratará de un modelo no-determinista; en
cambio, si se utilizan mecanismos que conducen a un resultado concreto sin
vacilaciones, se hablará de un procesamiento determinista.
No hay comentarios.:
Publicar un comentario