Methodology for the enrichment of biomedical knowledge resources= Metodología para el enriquecimiento de recursos de conocimiento biomédico

Quesada Martínez, Manuel

Methodology for the enrichment of biomedical knowledge resources= Metodología para el enriquecimiento de recursos de conocimiento biomédico

Quesada Martínez, Manuel

Dirigida por:

Robert David Stevens Director/a
Jesualdo Tomás Fernández Breis Director/a

Universidad de defensa: Universidad de Murcia

Fecha de defensa: 03 de diciembre de 2015

Tribunal:

Nathalie Aussenac-Gilles Presidente/a
Francisco Garcia Sanchez Secretario/a
Dagoberto Castellanos Nieves Vocal

Tipo: Tesis

Teseo: 121529 DIALNET DIGITUM editor

Resumen

Objetivos: El objetivo general de esta tesis es contribuir al análisis de repositorios de conocimiento biomédico ayudando a expertos del dominio a detectar semántica oculta mediante el uso de un método automático sistemáticamente aplicable. Esta metodología ayudará a detectar situaciones para enriquecer ontologías explotando la expresividad de los lenguajes formales en los que están definidas. Los objetivos son el desarrollo e implementación de: (1) una metodología para la caracterización automática de ontologías usando los identificadores de sus conceptos descritos en lenguaje natural (LN); (2) una metodología que permita descubrir semántica oculta transformable en axiomas lógicos contribuyendo al enriquecimiento de las ontologías biomédicas; (3) una plataforma integrada que ayude a expertos del dominio con pocos conocimientos técnicos u ontológicos. Metodología: Para conseguir estos objetivos se analiza el estado del arte de las áreas: web semántica, bioinformática, repositorios de conocimiento biomédico, enriquecimiento de ontologías. Después, se formaliza la metodología propuesta en los siguientes módulos: (1) procesamiento de la ontología, obtención de las regularidades léxicas (LRs) y su caracterización léxica; (2) procesamiento de LN; (3) métricas, incluyendo dos tipos: métricas de modularidad y localidad, y métrica cross-product extensión; (4) filtrado basado en las métricas; (5) definición de relaciones y patrones de enriquecimiento. La formalización del método se acompaña de su implementación, que permite aplicarlo sobre un conjunto de ontologías biomédicas disponibles en Internet. Finalmente, se analizan y validan los resultados. Debido a la ausencia de un gold standard se desarrollan estrategias de comparación del método con trabajo previo. Resultados: Como resultado se obtienen: - La metodologías para analizar ontologías a partir de las LRs en los identificadores. - Un método escalable debido a: (1) la organización de los identificadores como un grafo de tokens. Este grafo permite acelerar el proceso de búsqueda de las LRs y utiliza parámetros como el coverage threshold como mecanismo para optimizar y podar las búsquedas; (2) las métricas que permiten la priorización de LRs usando como base diferentes aspectos relacionados con propiedades semánticas de las ontologías como la distancia semántica (modularidad y localización), o alineamientos léxicos; (3) el grafo permite implementar un algoritmo de alineamiento parcial entre etiquetas de ontologías en lugar de la etiqueta completa. Para ello, se utilizan técnicas de pre-procesamiento de LN. - La aplicación del método sobre un conjunto de ontologías biomédicas disponibles en BioPortal para: (1) caracterizarlas léxicamente usando el contenido en LN de sus identificadores y alineamientos entre las LRs y otras ontologías. El método permite crear clusters de ontologías según su adecuación para ser usadas para su enriquecimiento; (2) aplicación del método sobre Gene Ontology (GO) y reconstrucción de los productos cruzados previamente usados por el GO Consortium para enriquecerlo con el objetivo de validar la metodología. Conclusiones Los métodos propuestos están disponibles en la aplicación web http://sele.inf.um.es/ontoenrich. La visualización de las LRs y métricas permite a los expertos en el dominio descubrir y analizar semántica oculta convertible en axiomas lógicos. El método contribuye al análisis automático y sistemático de ontologías biomédicas. Sin embargo, hasta ahora, la transformación automática de LRs en patrones de diseño ontológicos no ha sido posible más allá de la creación de relaciones taxonómicas. Aunque no se ha podido automatizar completamente la creación de las relaciones, hemos comparado las clases capturadas por las LRs con aquellas usadas por el GO Consortium para enriquecer GO usando productos cruzados. Se ha obtenido una exhaustividad y precisión media del 62% y 28% respectivamente. El análisis de los falsos positivos y negativos ayuda a explicar estos valores e identificar fortalezas y debilidades del método. Objectives: The general goal of this thesis is to contribute to the analysis of biomedical knowledge repositories by supporting domain experts in the detection of hidden semantics in an automatic way. The proposed methodology will help to systematically generate more complete ontologies, so that they exploit the expressivity behind the formal knowledge representation language in which they are defined The goals of this thesis are the development and implementation of: (1) a methodology for the lexical characterisation of ontologies using the analysis of identifiers codified in natural language; (2) a methodology that lets user elucidate hidden semantics that might be transformed in logical axioms; (3) an integrated platform that helps domain experts with low technical or ontological knowledge in the application of the method. Methodology: In order to achieve previous goals we study the state of the art in: semantic web, bioinformatics, biomedical knowledge repositories and ontology enrichment. After this, we formalised the proposed methodology being composed by the next modules: (1) ontology processing, calculation of the lexical regularities (LRs) and its lexical characterisation.; (2) natural language processing (NLP); (3) metrics that measure different semantic aspects including modularity and locality metrics and the cross-product extension (CPE) metric; (4) filtering based on the metrics values; and (5) extraction of relations and definition of enrichment patterns.. The formalization of the method is supported by its implementation, which let us its applicability to a set of biomedical ontologies available on the Internet. Finally, the analysis and validation of the results is addressed. Due to the absence of a gold standard we developed a comparison strategy between our method and others from the state of the art solutions. Results: The results obtained are: - The methodology for analysing ontologies based on LRs in class labels. - The scalable implementation of the method, due to the following features: (1) the graph organization for labels, which speeds up the process of searching LRs and used the coverage threshold as a mechanism for optimizing and pruning the search; (2) the metrics, which prioritize LRs according different aspects related to different ontology properties like semantic distance, modularity or alignments based on textual similarity; (3) the graph structure lets us to implement an ontology matching alignment algorithm based on partial alignments instead of the whole label and using NLP pre-processing techniques. - The application of the method to a number of biomedical ontologies available in biomedical repositories like BioPortal in order to: (1) characterise BioPortal ontologies based on the content codified in their labels and matches between LRs and other ontologies. We used the method to create clusters of ontologies according to their adequacy to be used in enrichment methods; (2) application of the method to the Gene Ontology (GO) and reconstruction of cross-products previously addressed by the GO Consortium. This helps us to validate the method against previous work where relations where created. Conclusions All the proposed methods are available at http://sele.inf.um.es/ontoenrich. The visualization of the LRs using different metrics, which measures different semantic relations. This helps domain experts to elucidate and analyse hidden semantics. The method contributes to the automatic and systematic analysis of biomedical ontologies from different semantic axes. However, so far the automatic transformation of LRs into ontology design patterns have not been addressed beyond taxonomical relations. Although we cannot automatically set the relations, we compare the classes captured by lexical regularities with those that were used to enrich the GO using cross-products. This is modelled using the CPE metric obtaining a mean recall and precision of 62% and 28%, respectively. The manual analysis of an automatic comparison let us detect strengths and downsides of the method.