lunes, 14 de febrero de 2022

CONTACTANOS

 

  • Gracias por visitar este Blog ❤




EVALUACIÓN Y RESULTADOS

 

La evaluación de los sistemas de detección y etiquetado de nombres de fármacos, que se ha presentado en este trabajo, cuenta con dos dificultades añadidas. Por un lado, la ausencia de planteamientos similares con los que comparar la eficacia del sistema propuesto. La mayoría de los sistemas de reconocimiento de entidades biomédicas se han centrado principalmente en los nombres de los genes y proteínas. No obstante, también se han realizado trabajos sobre la detección de otro tipo de entidades como sustancias químicas y fármacos. Estos últimos trabajos, aunque utilizan herramientas del PLN, se basan fundamentalmente en métodos que equiparan de forma automática los nombres de fármacos a conceptos dentro de un sistema de codificación normalizado, como Metatesauro UMLS® (Unified Medical Language System®). Por otra parte, otro gran obstáculo en la evaluación del modelo de etiquetado propuesto reside en la falta de corpus de evaluación. A pesar de que durante los últimos años se han desarrollado varios corpus biomédicos para evaluar el rendimiento de los sistemas que utilizan PLN, tales como TREC Genomics Track, GENETAG, BioCreative (Critical Assessment of Information Extraction systems in Biology), no disponemos de corpus etiquetados en el dominio farmacológico.

Teniendo en cuenta las limitaciones anteriores, la evaluación de nuestro sistema se realiza sobre una colección de textos extraídos de la base de datos Medline, que está compuesto por 259 resúmenes de artículos científicos. Por otra parte, hemos utilizado los parámetros de precisión y exhaustividad (recall), que son los que se emplean habitualmente en las herramientas basadas en PLN. El parámetro de precisión se define aquí como la proporción de nombres de fármacos genéricos identificados correctamente. La exhaustividad se define como la proporción de nombres de fármacos genéricos que el sistema es capaz de identificar y anotar. Incorporando estas dos métricas de evaluación, nuestro propósito es medir el grado de corrección y eficacia con el que el sistema es capaz de reconocer y etiquetar los nombres de fármacos genéricos en la literatura biomédica. Las dos medidas se calculan con las siguientes ecuaciones:


Además, vamos a evaluar el sistema con la medida F (F-Measure) que combina en un solo valor la exhaustividad y la precisión. Se trata de una media ponderada y armónica que sirve para corregir el error de distancia en los casos en los que la exhaustividad y la precisión se compensan, de tal forma que a mayor valor de F-Mesaure mejor resultado. Su ecuación es:

Para poder aplicar los parámetros anteriores, necesitaríamos adquirir los siguientes datos:

  •  Número de nombres de fármacos identificados y anotados correctamente. Para adquirir estos datos, contrastamos cada uno de lo nombres de fármacos genéricos reconocidos por el método propuesto con la información que nos proporciona el portal de nombres de fármacos, Drug Information Portal, producido por U.S. National Library of Medicine (NLP). Además, los nombres de fármacos reconocidos se han contrastado con la información que aporta la base de datos de libre acceso ChemSynthesis.
  • Número total de nombres de fármacos genéricos identificados y anotados. Para obtener estos datos aplicamos los analizadores léxicos y sintácticos, que se han diseñado, al corpus extraído de la base de datos Medline.
  • Número total de nombres de fármacos posibles existentes en el corpus. Estos datos se obtienen por un proceso manual realizado por un experto, lo que implica una gran cantidad de tiempo y de esfuerzo, por la falta de corpus etiquetados para el dominio farmacológico.




APROXIMACIÓN A LOS MODELOS DE ESTADO-FINITO

 

La teoría de los lenguajes formales se dirige a aquellas expresiones que pueden ser descritas de forma muy precisa, como son los lenguajes de programación. Los lenguajes naturales no son lenguajes formales, y, por tanto, no hay un límite claramente definido entre una sentencia correcta de otra que no lo es. Sin embargo, se pueden adoptar algunas aproximaciones formales a ciertos fenómenos del lenguaje natural susceptibles de una codificación similar a la realizada en los lenguajes de programación. Estas descripciones formales se utilizan por los lingüistas computacionales para expresar teorías sobre aspectos específicos de los lenguajes naturales, tales como el análisis morfológico y el análisis y etiquetado de segmentos de texto.

Johnson fue el primero en observar que determinadas morfológicas se podrían representar por mecanismos de estado-finito, denominando a su formalismo `two level model'. La idea del modelo de dos-niveles fue clave para el progreso del formalismo computacional sobre la morfología propuesto por Koskenniemi. El modelo de Koskenniemi estableció una correspondencia entre la forma canónica, o forma léxica, y la forma superficial de las palabras. Esta relación la representó usando transductores finitos.

De forma sintetizada, un transductor de estado-finito (FST, siglas en inglés), es un sistema de representación computacional que comprende un conjunto de estados y una función de transición, que define el cambio de estado. La función de transición se etiqueta con un par de símbolos que constituyen el alfabeto del input y el alfabeto de output. Este mecanismo se puede representar en la forma de un diagrama o gráfico de estado-finito. El transductor tomaría cadenas en el input y las relacionaría con cadenas en el output. Formalmente un FST se define como una tupla de cinco elementos que se expresa de la forma siguiente:

FST = (S, Q, i, F, E)

donde:

S = alfabeto de input y output
Q = número de estados
i = estado inicial
F = estado final
E = número de relaciones de transición

Este transductor podría establecer una relación entre el lenguaje superior y el inferior. Así, este mecanismo podría reconocer la cadena representada por "ac" y la podría transformar en la cadena "bd". La equiparación es bidireccional, y una cadena de un lenguaje se podría corresponder a una, o más cadenas de otro lenguaje. Las transducciones son posibles si la cadena en la parte del input lleva al transductor a un estado final.

La aplicación del formalismo de estado-finito a la unificación y etiquetado de términos parte básicamente de que se puede establecer una relación de equivalencia entre las distintas formas superficiales y la raíz, o lema, a la que se le puede añadir una etiqueta de la categoría gramatical correspondiente, o etiqueta POS (part-of-speech). Esta correspondencia se puede implementar computacionalmente por medio de transductores.26 Una analizador de dos-niveles o lematizador desarrollado con tecnología de estado-finito se encargaría de equiparar formas variantes léxicas, a formas unificadas.

De la misma forma, se ha utilizado el formalismo de estado-finito para el análisis superficial (shallow parsing), donde lo que se intenta es recuperar solo una parte de la información sintáctica del texto. Estas aproximaciones se han basado principalmente en realizar el análisis y etiquetado de segmentos de texto a través de cascadas de transductores, donde cada transductor agrega información sintáctica dependiendo del contexto.27 El etiquetado gramatical consiste en asociar a cada palabra la categoría gramatical a la que pertenece. Esta tarea suele ser una de las primeras etapas en cualquier sistema de procesamiento de textos. La mayor dificultad de este problema viene provocada por la ambigüedad que presentan numerosas palabras, que pueden tener diferentes funciones gramaticales. Esta ambigüedad hace que la solución al etiquetado gramatical sea compleja y que pase por el uso de la información que proporciona el contexto de cada palabra.

El análisis y etiquetado del texto se realiza a través de cascadas de transductores, donde cada transductor agrega, o modifica, información previamente generada por los transductores de la cascada. Esta técnica se desarrollaría básicamente en cuatro fases:

  • Cargar el texto original, representado como una secuencia de tokens.
  • Reconocimiento y etiquetado de las raíces, y terminaciones, de las palabras en un grafo de texto.
  • Realización de sucesivas pasadas sobre el grafo de texto, aplicando en cada una de ellas módulos de reglas. La aplicación de las reglas recorre el grafo de texto de izquierda a derecha, analizando cada una de las posiciones si el ítem coincide con la categoría, que toda regla según la implementación debe especificar.




TÉCNICAS BÁSICAS DE PROCESAMIENTO DEL LENGUAJE NATURAL

 

Un analizador morfológico debe constar por lo menos tres partes: un diccionario o lexicón con la lista de los lemas; una lista de afijos con sus reglas de orden, ya que los afijos no pueden aparecer en un orden arbitrario, y un conjunto de reglas ortográficas en el caso de que la adición de un afijo las requiera. Para que el procesamiento morfológico sea posible, cada lema debe ser previamente etiquetado. Se denomina `etiquetado', POS tagging (part-of-speech tagging) al procedimiento de asignar a cada una de las unidades léxicas presentes el conjunto de sus categorías gramaticales posibles.16 El objetivo de un etiquetador es el de asignar a cada palabra la categoría más `apropiada' dentro de un contexto. Existen tres grandes procedimiento de etiquetado:

·         Técnicas de etiquetado basadas en reglas. Los etiquetadores basados en reglas utilizan conocimiento lingüístico, generalmente expresado en forma de reglas o restricciones para establecer las combinaciones de etiquetas aceptables o prohibidas. Las reglas se escriben manualmente, responden a criterios lingüísticos y se representan en forma explícita. Otros métodos se enfrentan al problema de la variabilidad del lenguaje desde una aproximación lingüística, por medio de técnicas cuyo objetivo es la reducción de las variantes léxicas a lemas. En esta línea, una de las implementaciones computaciones más importantes la constituyen los analizadores basados en tecnología de estado-finito

·         Técnicas de etiquetado basadas en métodos estadísticos o probabilísticos. Estos etiquetadores se basan en la evidencia empírica obtenida de corpus lingüísticos voluminosos. El problema de estos sistemas reside en el aprendizaje del modelo estadístico utilizado. Se han utilizado técnicas de aprendizaje supervisado partiendo de corpus etiquetados manualmente y técnicas de aprendizaje no supervisado en las que no es precisa esa intervención manual. Un algoritmo clásico utilizado para el etiquetado estadístico es el de los Modelos Ocultos de Markov (Hidden Markov Models). Este enfoque se caracteriza por asumir que la probabilidad de una cadena de símbolos puede ser calculada en base a sus partes o n-gramas. El modelo de n-gramas más básico es el de los unigramas; es decir, la búsqueda de la etiqueta más probable para cada palabra o token. Para esto, es necesario entrenar el sistema con un corpus etiquetado previamente.19

·         Técnicas de etiquetado híbridas, que combinan tanto los métodos basados en reglas como los estadísticos para intentar recoger los aspectos positivos de cada una de ellas y evitar sus limitaciones. Un sistema de este tipo fue introducido por Brill y se basa en el aprendizaje automático. Cada palabra se rotula con la etiqueta más probable, luego se cambia la etiqueta aplicando reglas del tipo `si la palabra -1 es un determinante cambie la etiqueta a nombre' y se reetiqueta la palabra. Se obtiene de esta manera una secuencia de reglas de transformación de etiquetas.

Una vez analizado y etiquetado tal texto de forma total o parcial, puede realizarse el análisis sintáctico (parsing). Se trata de un proceso por medio del cual se convierte el texto de entrada en otras estructuras, comúnmente denominadas `árboles', que son más útiles para el posterior análisis y capturan la jerarquía implícita de la entrada. Durante el procesamiento se producen distintas estructuras intermedias o de trabajo, hasta producir un árbol de análisis estructural de la secuencia de entrada. Hay diferentes técnicas y algoritmos de parsing. Estas se pueden agrupar básicamente entre tres tipos diferentes:

·         Procesamiento paralelo o secuencial. Se refiere fundamentalmente a dos tipos de análisis de secuencias. La técnica de procesamiento en paralelo prueba diferentes posibilidades de combinación en paralelo y guarda la pista de los estados posibles. Frente a este, la estrategia de procesamiento secuencial prueba primero una posibilidad hasta el final, y si no tiene éxito, retrocede al punto de partida y prueba otra ruta hasta dar con la estructura que corresponde a la secuencia de la entrada.

·         Procesamiento descendente o ascendente. Se refiere al punto de partida del árbol estructural que el parser debe construir. Si se está procesando una oración, en la parte superior se representa a la oración en su totalidad y, en la parte inferior del árbol hay nodos que representan los elementos léxicos individuales o palabras. La dirección ascendente y la descendente dependen del punto de partida: si comienza el procesamiento en la parte superior de la oración y va dividiendo la entrada progresivamente en partes cada vez más pequeñas, hasta llegar a las palabras, será un parser descendente (top-down-parser). El parser será ascendente (bottom-up) si, por el contrario, el análisis comienza por los elementos léxicos individuales y culmina con la oración en su totalidad.

·         Procesamiento determinista/no-determinista. Se refiere al carácter guiado o no guiado del modelo. Es decir, si el modelo no permite decidir qué regla de la gramática se aplicará en un momento determinado, se tratará de un modelo no-determinista; en cambio, si se utilizan mecanismos que conducen a un resultado concreto sin vacilaciones, se hablará de un procesamiento determinista.

 


 


REGLAS DE NOMENCLATURA PARA FÁRMACOS

 

Los fármacos son sustancias químicas que presentan una acción biológica, lo cual no significa que puedan ser siempre utilizadas con fines terapéuticos. Mientras que los medicamentos son sustancias químicas que se utilizan con fines terapéuticos, es decir, todos los medicamentos, son fármacos; pero no todos los fármacos son medicamentos. Además, un medicamento puede estar constituido por uno o varios fármacos. Un fármaco tiene tres nombres:

·         Nombre químico, que se refiere a la composición molecular del fármaco y debe seguir las reglas de la nomenclatura química.

·         Nombre genérico o nombre oficial del fármaco durante su existencia, establecido por organismos oficiales nacionales e internacionales. Se trata de un nombre de titularidad pública y que no está protegido por patente.

·         Nombre comercial o marca, que es el nombre dado por la compañía farmacéutica que lo comercializa. Se trata del nombre registrado o de la patente y consiste en la protección que se da oficialmente para explotar de modo industrial un fármaco.

Para la denominación oficial de los fármacos genéricos, contamos con la Denominación Común Internacional (DCI) de los principios activos, establecida por la Organización Mundial de la Salud (OMS) a nivel internacional. Cada DCI es un nombre único que es reconocido a nivel mundial y es de propiedad pública. Son nombres independientes de los laboratorios y no tienen propietario, de manera que pueden ser usados sin restricción alguna. Se recomienda que sean nombres muy simples, debido a la generalización de su uso internacional. Las DCI deben tender a mantener un parentesco con otras sustancias que pertenezcan al mismo grupo farmacológico. Sin embargo, la implantación de las DCI no es universal. Existen organismos que regulan los nombres a nivel nacional. Estos organismos adoptan los nombres de las DCI y los adaptan a la lengua de cada país.

La OMS ha aprobado partículas, tanto prefijos como sufijos, específicas para los distintos grupos farmacológicos. Las prácticas habituales para nombrar fármacos recaen en el uso de afijos. Estos afijos permiten clasificar los fármacos en familias farmacológicas según su estructura química. La lista recomendada por el Consejo USAN representa los afijos comunes establecidos para cada parámetro químico o farmacológico. Por ejemplo, los antiinflamatorios podrían contener alguno de los siguientes afijos: -ac, -bufen, -butazone, -fenamic, -icam, -metacin, -nidap, -nixin, -profen, sal-, -sal- y sal.

Estos afijos, reglas de nomenclatura y sus definiciones aprobados por el Consejo USAN se recomiendan para que se acuñen en los nuevos nombres de fármacos que pertenezcan a una serie establecida de agentes relacionados. De este modo, se proporciona un reconocimiento inmediato de los compuestos similares pertenecientes a una misma familia farmacológica. La lista de afijos no es exhaustiva, ya que no incluye todos los afijos utilizados por el Consejo USAN ni otros grupos de nomenclaturas nacionales o internacionales. Además, hemos de tener en cuenta que constantemente nuevos afijos se pueden crear y que otros existentes se pueden modificar.

 







PAGINA PRINCIPAL

 NOMENCLATURA DE LOS FÁRMACOS

Este trabajo propone un sistema para la identificación y anotación de nombres de fármacos genéricos en textos biomédicos basado en modelos de estado-finito. El procedimiento presentado utiliza reglas de nomenclatura para fármacos genéricos, recomendadas por el Consejo United States Adoptated Names (USAN), que van a permitir la clasificación de los fármacos en familias farmacológicas, y una herramienta de ingeniería lingüística basada en tecnología de estado-finito. Por medio de una interfaz gráfica, se han construido analizadores capaces de identificar, clasificar y etiquetar nombres de fármacos genéricos, utilizando los afijos recomendados por USAN. El sistema consigue un 99,8 % de precisión y un 92 % de exhaustividad sobre una colección de 259 resúmenes de artículos científicos extraídos de la base de datos Medline. La combinación de reglas USAN y tecnología de estado-finito constituye un procedimiento eficaz para la detección, clasificación y etiquetado de nombres de fármacos genéricos.

Palabras clave: fármacos genéricos, nombres de fármacos, reconocimiento de entidades biomédicas, interacciones farmacológicas.

INTRODUCCIÓN

El reconocimiento y clasificación de nombres de fármacos constituye la primera etapa en el desarrollo de los sistemas dirigidos a la extracción automática de interacciones farmacológicas de la literatura biomédica. Los últimos avances en biomedicina han provocado un incremento vertiginoso del número de publicaciones científicas. Por este motivo, es necesario el desarrollo de sistemas que faciliten la extracción de conocimiento y un acceso eficiente a la información en el dominio de la biomedicina. La identificación, clasificación y anotación de las entidades biomédicas es el primer paso en progreso de tales sistemas. En este sentido, la identificación de nombres de fármacos genéricos es una tarea compleja, teniendo en cuenta los problemas que implica el procesamiento del texto farmacológico.

 A continuación les dejo un link de vídeo para que puedan comprender un poquito mas este tema solo dale click.

https://www.youtube.com/watch?v=3-cloDDXcA4&t=8s

Duración: 2:49 minutos