Páginas
lunes, 14 de febrero de 2022
EVALUACIÓN Y RESULTADOS
La
evaluación de los sistemas de detección y etiquetado de nombres de fármacos,
que se ha presentado en este trabajo, cuenta con dos dificultades añadidas. Por
un lado, la ausencia de planteamientos similares con los que comparar la
eficacia del sistema propuesto. La mayoría de los sistemas de reconocimiento de
entidades biomédicas se han centrado principalmente en los nombres de los genes
y proteínas. No obstante, también se han realizado trabajos sobre la detección
de otro tipo de entidades como sustancias químicas y fármacos. Estos
últimos trabajos, aunque utilizan herramientas del PLN, se basan
fundamentalmente en métodos que equiparan de forma automática los nombres de
fármacos a conceptos dentro de un sistema de codificación normalizado, como
Metatesauro UMLS® (Unified Medical Language System®). Por otra parte, otro
gran obstáculo en la evaluación del modelo de etiquetado propuesto reside en la
falta de corpus de evaluación. A pesar de que durante los últimos
años se han desarrollado varios corpus biomédicos para evaluar el
rendimiento de los sistemas que utilizan PLN, tales como TREC Genomics
Track, GENETAG, BioCreative (Critical Assessment of Information
Extraction systems in Biology), no disponemos de corpus etiquetados
en el dominio farmacológico.
Teniendo en
cuenta las limitaciones anteriores, la evaluación de nuestro sistema se realiza
sobre una colección de textos extraídos de la base de datos Medline, que
está compuesto por 259 resúmenes de artículos científicos. Por otra parte,
hemos utilizado los parámetros de precisión y exhaustividad (recall), que son
los que se emplean habitualmente en las herramientas basadas en PLN. El parámetro
de precisión se define aquí como la proporción de nombres de fármacos genéricos
identificados correctamente. La exhaustividad se define como la proporción de
nombres de fármacos genéricos que el sistema es capaz de identificar y anotar.
Incorporando estas dos métricas de evaluación, nuestro propósito es medir el
grado de corrección y eficacia con el que el sistema es capaz de reconocer y
etiquetar los nombres de fármacos genéricos en la literatura biomédica. Las dos
medidas se calculan con las siguientes ecuaciones:
Además, vamos a evaluar el sistema con la medida F (F-Measure)
que combina en un solo valor la exhaustividad y la precisión. Se trata de una
media ponderada y armónica que sirve para corregir el error de distancia en
los casos en los que la exhaustividad y la precisión se compensan, de tal forma
que a mayor valor de F-Mesaure mejor resultado. Su ecuación es:
Para poder aplicar los parámetros
anteriores, necesitaríamos adquirir los siguientes datos:
- Número
de nombres de fármacos identificados y anotados correctamente. Para adquirir
estos datos, contrastamos cada uno de lo nombres de fármacos genéricos
reconocidos por el método propuesto con la información que nos proporciona el
portal de nombres de fármacos, Drug Information Portal, producido
por U.S. National Library of Medicine (NLP). Además, los nombres de
fármacos reconocidos se han contrastado con la información que aporta la base
de datos de libre acceso ChemSynthesis.
- Número
total de nombres de fármacos genéricos identificados y anotados. Para obtener
estos datos aplicamos los analizadores léxicos y sintácticos, que se han
diseñado, al corpus extraído de la base de datos Medline.
- Número total de nombres de fármacos posibles existentes en el corpus. Estos datos se obtienen por un proceso manual realizado por un experto, lo que implica una gran cantidad de tiempo y de esfuerzo, por la falta de corpus etiquetados para el dominio farmacológico.
APROXIMACIÓN A LOS MODELOS DE ESTADO-FINITO
La teoría de los lenguajes formales se dirige a aquellas
expresiones que pueden ser descritas de forma muy precisa, como son los
lenguajes de programación. Los lenguajes naturales no son lenguajes formales,
y, por tanto, no hay un límite claramente definido entre una sentencia correcta
de otra que no lo es. Sin embargo, se pueden adoptar algunas aproximaciones
formales a ciertos fenómenos del lenguaje natural susceptibles de una
codificación similar a la realizada en los lenguajes de programación. Estas
descripciones formales se utilizan por los lingüistas computacionales para
expresar teorías sobre aspectos específicos de los lenguajes naturales, tales
como el análisis morfológico y el análisis y etiquetado de segmentos de texto.
Johnson fue el primero en observar que determinadas
morfológicas se podrían representar por mecanismos de estado-finito,
denominando a su formalismo `two level model'. La idea del modelo de
dos-niveles fue clave para el progreso del formalismo computacional sobre la
morfología propuesto por Koskenniemi. El modelo de Koskenniemi estableció
una correspondencia entre la forma canónica, o forma léxica, y la forma
superficial de las palabras. Esta relación la representó usando transductores
finitos.
De forma sintetizada, un transductor de estado-finito (FST,
siglas en inglés), es un sistema de representación computacional que comprende
un conjunto de estados y una función de transición, que define el cambio de
estado. La función de transición se etiqueta con un par de símbolos que
constituyen el alfabeto del input y el alfabeto de output. Este
mecanismo se puede representar en la forma de un diagrama o gráfico de
estado-finito. El transductor tomaría cadenas en el input y las
relacionaría con cadenas en el output. Formalmente un FST se define como
una tupla de cinco elementos que se expresa de la forma siguiente:
FST = (S, Q,
i, F, E)
donde:
Este
transductor podría establecer una relación entre el lenguaje superior y el
inferior. Así, este mecanismo podría reconocer la cadena representada por
"ac" y la podría transformar en la cadena "bd". La
equiparación es bidireccional, y una cadena de un lenguaje se podría
corresponder a una, o más cadenas de otro lenguaje. Las transducciones son
posibles si la cadena en la parte del input lleva al transductor a un
estado final.
La
aplicación del formalismo de estado-finito a la unificación y etiquetado de
términos parte básicamente de que se puede establecer una relación de
equivalencia entre las distintas formas superficiales y la raíz, o lema, a la
que se le puede añadir una etiqueta de la categoría gramatical correspondiente,
o etiqueta POS (part-of-speech). Esta correspondencia se puede implementar
computacionalmente por medio de transductores.26 Una analizador de dos-niveles o lematizador desarrollado
con tecnología de estado-finito se encargaría de equiparar formas variantes
léxicas, a formas unificadas.
De la misma
forma, se ha utilizado el formalismo de estado-finito para el análisis
superficial (shallow parsing), donde lo que se intenta es recuperar solo una
parte de la información sintáctica del texto. Estas aproximaciones se han
basado principalmente en realizar el análisis y etiquetado de segmentos de
texto a través de cascadas de transductores, donde cada transductor agrega
información sintáctica dependiendo del contexto.27 El etiquetado
gramatical consiste en asociar a cada palabra la categoría gramatical a la que
pertenece. Esta tarea suele ser una de las primeras etapas en cualquier sistema
de procesamiento de textos. La mayor dificultad de este problema viene
provocada por la ambigüedad que presentan numerosas palabras, que pueden tener
diferentes funciones gramaticales. Esta ambigüedad hace que la solución al
etiquetado gramatical sea compleja y que pase por el uso de la información que
proporciona el contexto de cada palabra.
El análisis
y etiquetado del texto se realiza a través de cascadas de transductores, donde
cada transductor agrega, o modifica, información previamente generada por los
transductores de la cascada. Esta técnica se desarrollaría básicamente en
cuatro fases:
- Cargar el texto original, representado como una secuencia de tokens.
- Reconocimiento y etiquetado de las raíces, y terminaciones, de las palabras en un grafo de texto.
- Realización de sucesivas pasadas sobre el grafo de texto, aplicando en cada una de ellas módulos de reglas. La aplicación de las reglas recorre el grafo de texto de izquierda a derecha, analizando cada una de las posiciones si el ítem coincide con la categoría, que toda regla según la implementación debe especificar.
TÉCNICAS BÁSICAS DE PROCESAMIENTO DEL LENGUAJE NATURAL
Un analizador morfológico debe constar por lo menos tres
partes: un diccionario o lexicón con la lista de los lemas; una lista de afijos
con sus reglas de orden, ya que los afijos no pueden aparecer en un orden
arbitrario, y un conjunto de reglas ortográficas en el caso de que la adición
de un afijo las requiera. Para que el procesamiento morfológico sea posible,
cada lema debe ser previamente etiquetado. Se denomina `etiquetado', POS
tagging (part-of-speech tagging) al procedimiento de asignar a cada
una de las unidades léxicas presentes el conjunto de sus categorías
gramaticales posibles.16 El objetivo de un etiquetador es el de asignar a
cada palabra la categoría más `apropiada' dentro de un contexto. Existen tres
grandes procedimiento de etiquetado:
·
Técnicas
de etiquetado basadas en reglas. Los etiquetadores basados en reglas utilizan
conocimiento lingüístico, generalmente expresado en forma de reglas o
restricciones para establecer las combinaciones de etiquetas aceptables o
prohibidas. Las reglas se escriben manualmente, responden a criterios
lingüísticos y se representan en forma explícita. Otros métodos se enfrentan al
problema de la variabilidad del lenguaje desde una aproximación lingüística,
por medio de técnicas cuyo objetivo es la reducción de las variantes léxicas a
lemas. En esta línea, una de las implementaciones computaciones más importantes
la constituyen los analizadores basados en tecnología de estado-finito
·
Técnicas
de etiquetado basadas en métodos estadísticos o probabilísticos. Estos etiquetadores
se basan en la evidencia empírica obtenida de corpus lingüísticos voluminosos.
El problema de estos sistemas reside en el aprendizaje del modelo estadístico
utilizado. Se han utilizado técnicas de aprendizaje supervisado partiendo
de corpus etiquetados manualmente y técnicas de aprendizaje no
supervisado en las que no es precisa esa intervención manual. Un algoritmo
clásico utilizado para el etiquetado estadístico es el de los Modelos Ocultos
de Markov (Hidden Markov Models). Este enfoque se caracteriza por asumir que la
probabilidad de una cadena de símbolos puede ser calculada en base a sus partes
o n-gramas. El modelo de n-gramas más básico es el de
los unigramas; es decir, la búsqueda de la etiqueta más probable para cada
palabra o token. Para esto, es necesario entrenar el sistema con
un corpus etiquetado previamente.19
·
Técnicas
de etiquetado híbridas, que combinan tanto los métodos basados en reglas como
los estadísticos para intentar recoger los aspectos positivos de cada una de
ellas y evitar sus limitaciones. Un sistema de este tipo fue introducido
por Brill y se basa en el aprendizaje automático. Cada palabra se
rotula con la etiqueta más probable, luego se cambia la etiqueta aplicando
reglas del tipo `si la palabra -1 es un determinante cambie la etiqueta a
nombre' y se reetiqueta la palabra. Se obtiene de esta manera una secuencia de
reglas de transformación de etiquetas.
Una vez analizado y etiquetado tal texto de forma total o
parcial, puede realizarse el análisis sintáctico (parsing). Se trata de un
proceso por medio del cual se convierte el texto de entrada en otras
estructuras, comúnmente denominadas `árboles', que son más útiles para el
posterior análisis y capturan la jerarquía implícita de la entrada. Durante el
procesamiento se producen distintas estructuras intermedias o de trabajo, hasta
producir un árbol de análisis estructural de la secuencia de entrada. Hay
diferentes técnicas y algoritmos de parsing. Estas se pueden agrupar
básicamente entre tres tipos diferentes:
·
Procesamiento
paralelo o secuencial. Se refiere fundamentalmente a dos tipos de análisis de
secuencias. La técnica de procesamiento en paralelo prueba diferentes
posibilidades de combinación en paralelo y guarda la pista de los estados
posibles. Frente a este, la estrategia de procesamiento secuencial prueba
primero una posibilidad hasta el final, y si no tiene éxito, retrocede al punto
de partida y prueba otra ruta hasta dar con la estructura que corresponde a la
secuencia de la entrada.
·
Procesamiento
descendente o ascendente. Se refiere al punto de partida del árbol estructural
que el parser debe construir. Si se está procesando una oración, en
la parte superior se representa a la oración en su totalidad y, en la parte
inferior del árbol hay nodos que representan los elementos léxicos individuales
o palabras. La dirección ascendente y la descendente dependen del punto de
partida: si comienza el procesamiento en la parte superior de la oración y va
dividiendo la entrada progresivamente en partes cada vez más pequeñas, hasta
llegar a las palabras, será un parser descendente (top-down-parser). El parser será
ascendente (bottom-up) si, por el contrario, el análisis comienza por
los elementos léxicos individuales y culmina con la oración en su totalidad.
·
Procesamiento
determinista/no-determinista. Se refiere al carácter guiado o no guiado del
modelo. Es decir, si el modelo no permite decidir qué regla de la gramática se
aplicará en un momento determinado, se tratará de un modelo no-determinista; en
cambio, si se utilizan mecanismos que conducen a un resultado concreto sin
vacilaciones, se hablará de un procesamiento determinista.
REGLAS DE NOMENCLATURA PARA FÁRMACOS
Los fármacos son sustancias químicas que presentan una acción
biológica, lo cual no significa que puedan ser siempre utilizadas con fines terapéuticos.
Mientras que los medicamentos son sustancias químicas que se utilizan con fines
terapéuticos, es decir, todos los medicamentos, son fármacos; pero no todos los
fármacos son medicamentos. Además, un medicamento puede estar constituido por
uno o varios fármacos. Un fármaco tiene tres nombres:
·
Nombre
químico, que se refiere a la composición molecular del fármaco y debe seguir
las reglas de la nomenclatura química.
·
Nombre
genérico o nombre oficial del fármaco durante su existencia, establecido
por organismos oficiales nacionales e internacionales. Se trata de un nombre de
titularidad pública y que no está protegido por patente.
·
Nombre
comercial o marca, que es el nombre dado por la compañía farmacéutica que
lo comercializa. Se trata del nombre registrado o de la patente y consiste en
la protección que se da oficialmente para explotar de modo industrial un
fármaco.
Para la denominación oficial de los fármacos genéricos,
contamos con la Denominación Común Internacional (DCI) de los
principios activos, establecida por la Organización Mundial de la Salud (OMS) a
nivel internacional. Cada DCI es un nombre único que es reconocido a nivel
mundial y es de propiedad pública. Son nombres independientes de los
laboratorios y no tienen propietario, de manera que pueden ser usados sin
restricción alguna. Se recomienda que sean nombres muy simples, debido a la
generalización de su uso internacional. Las DCI deben tender a mantener un
parentesco con otras sustancias que pertenezcan al mismo grupo farmacológico.
Sin embargo, la implantación de las DCI no es universal. Existen organismos que
regulan los nombres a nivel nacional. Estos organismos adoptan los nombres de
las DCI y los adaptan a la lengua de cada país.
La OMS ha
aprobado partículas, tanto prefijos como sufijos, específicas para los
distintos grupos farmacológicos. Las prácticas habituales para nombrar fármacos
recaen en el uso de afijos. Estos afijos permiten clasificar los fármacos en
familias farmacológicas según su estructura química. La lista recomendada por
el Consejo USAN representa los afijos comunes establecidos para cada parámetro
químico o farmacológico. Por ejemplo, los antiinflamatorios podrían contener
alguno de los siguientes afijos: -ac, -bufen, -butazone, -fenamic, -icam, -metacin,
-nidap, -nixin, -profen, sal-, -sal- y sal.
Estos
afijos, reglas de nomenclatura y sus definiciones aprobados por el Consejo USAN
se recomiendan para que se acuñen en los nuevos nombres de fármacos que
pertenezcan a una serie establecida de agentes relacionados. De este modo, se
proporciona un reconocimiento inmediato de los compuestos similares
pertenecientes a una misma familia farmacológica. La lista de afijos no es
exhaustiva, ya que no incluye todos los afijos utilizados por el Consejo USAN
ni otros grupos de nomenclaturas nacionales o internacionales. Además, hemos de
tener en cuenta que constantemente nuevos afijos se pueden crear y que otros
existentes se pueden modificar.
PAGINA PRINCIPAL
NOMENCLATURA DE LOS FÁRMACOS
Este
trabajo propone un sistema para la identificación y anotación de nombres de
fármacos genéricos en textos biomédicos basado en modelos de estado-finito. El
procedimiento presentado utiliza reglas de nomenclatura para fármacos
genéricos, recomendadas por el Consejo United States Adoptated Names (USAN),
que van a permitir la clasificación de los fármacos en familias farmacológicas,
y una herramienta de ingeniería lingüística basada en tecnología de
estado-finito. Por medio de una interfaz gráfica, se han construido
analizadores capaces de identificar, clasificar y etiquetar nombres de fármacos
genéricos, utilizando los afijos recomendados por USAN. El sistema consigue un
99,8 % de precisión y un 92 % de exhaustividad sobre una colección de 259
resúmenes de artículos científicos extraídos de la base de datos Medline. La
combinación de reglas USAN y tecnología de estado-finito constituye un
procedimiento eficaz para la detección, clasificación y etiquetado de nombres
de fármacos genéricos.
Palabras clave: fármacos genéricos, nombres de fármacos,
reconocimiento de entidades biomédicas, interacciones farmacológicas.
INTRODUCCIÓN
El reconocimiento y clasificación de
nombres de fármacos constituye la primera etapa en el desarrollo de los
sistemas dirigidos a la extracción automática de interacciones farmacológicas
de la literatura biomédica. Los últimos avances en biomedicina han provocado un
incremento vertiginoso del número de publicaciones científicas. Por este
motivo, es necesario el desarrollo de sistemas que faciliten la extracción de
conocimiento y un acceso eficiente a la información en el dominio de la
biomedicina. La identificación, clasificación y anotación de las entidades
biomédicas es el primer paso en progreso de tales sistemas. En este sentido, la
identificación de nombres de fármacos genéricos es una tarea compleja, teniendo
en cuenta los problemas que implica el procesamiento del texto farmacológico.
A continuación les dejo un link de vídeo para que puedan comprender un poquito mas este tema solo dale click.
https://www.youtube.com/watch?v=3-cloDDXcA4&t=8s
Duración: 2:49 minutos
-
NOMENCLATURA DE LOS FÁRMACOS Este trabajo propone un sistema para la identificación y anotación de nombres de fármacos genéricos en textos ...
-
La teoría de los lenguajes formales se dirige a aquellas expresiones que pueden ser descritas de forma muy precisa, como son los lenguajes...
-
Los fármacos son sustancias químicas que presentan una acción biológica, lo cual no significa que puedan ser siempre utilizadas con fines ...