Extracción semántica de información basada en evolución de ontologías

Rodríguez García, Miguel Ángel

Extracción semántica de información basada en evolución de ontologías

Rodríguez García, Miguel Ángel

Dirigida por:

Francisco García Sánchez Director/a
Rafael Valencia García Director/a

Universidad de defensa: Universidad de Murcia

Fecha de defensa: 27 de octubre de 2014

Tribunal:

Jesualdo Tomás Fernández Breis Presidente/a
Dagoberto Castellanos Nieves Secretario
Ricardo Colomo Palacios Vocal
Juan Miguel Gómez-Berbís Vocal
Alejandro Rodríguez González Vocal

Tipo: Tesis

Teseo: 117493 DIALNET DIGITUM editor

Resumen

En la actualidad, a pesar de la relevancia de las anotaciones dentro de la Web Semántica, éste es aún un campo sin estandarizar. Varios enfoques se han desarrollado a lo largo de los últimos años pero, debido a las carencias que algunos de estos enfoques presentan, aún no existe ninguna metodología estándar. La motivación que ha servido de guía en esta tesis doctoral ha sido, por tanto, proponer, en el ámbito de la Web Semántica, una nueva metodología de anotación semántica basada en ontologías que cubra todo el ciclo de vida de las anotaciones así como las posibles actualizaciones de los recursos. Esta metodología está constituida por una serie de fases entre la que se pueden destacar las siguientes: representación y anotación semántica, extracción de términos, indexación semántica y evolución de ontologías. Con objeto de analizar el rendimiento de la metodología desarrollada, se diseñó una estrategia de evaluación del sistema de anotación semántico basado en las métricas de "precisión", "exhaustividad" y "medida-F", métricas todas ellas extensamente empleadas en el ámbito científico para la validación de este tipo de sistemas. El experimento consistió en la selección de dos dominios de aplicación y en la utilización de estas métricas sobre algunos de los módulos que componían el sistema propuesto. Los índices obtenidos tras los experimentos en los diferentes módulos fueron muy prometedores y llevaron a conclusiones muy favorables acerca del rendimiento de la metodología y su aplicabilidad en diversos contextos. El desarrollo de esta metodología de anotación dio lugar a la concepción de varias aplicaciones que aprovechan su potencial. Entre las aplicaciones más destacables es posible resaltar la utilizacio?n de la metodologi?a de anotacio?n sema?ntica para el ca?lculo de la similitud entre entidades. La aplicacio?n de esta metodologi?a en el ca?lculo de la similitud supuso la definicio?n de un me?todo capaz de realizar comparaciones entre cualquier par de entidades almacenadas en un sistema de informacio?n. Este me?todo lleva a cabo la comparacio?n entre entidades al nivel de granularidad ma?s fino, esto es, los atributos que caracterizan cada una de las entidades comparadas. Por lo tanto, los atributos de las entidades constituyen la principal fuente de informacio?n para realizar tales comparativas. Al igual que ocurri?a en el caso de la metodologi?a de anotacio?n sema?ntica, la metodologi?a de ca?lculo de similitud sema?ntica tambie?n se encuentra dividida en una serie de fases, a saber, representacio?n y anotacio?n sema?ntica, indexacio?n sema?ntica, ca?lculo de similitud y motor de inferencia sema?ntica. La evaluacio?n de esta aplicacio?n de la metodologi?a de anotacio?n sema?ntica para el ca?lculo de la similitud entre entidades se llevo? a cabo a trave?s de la aplicacio?n de me?tricas que proporcionan i?ndices cuantitativos relacionados con la "precisio?n", la "exhaustividad" y la "medida-F". Los resultados obtenidos fueron muy favorables, proporcionando conclusiones muy prometedoras acerca de la aplicacio?n de la metodologi?a de anotacio?n sema?ntica en el ca?lculo de la similitud entre entidades. The semantic annotation and retrieval of text documents and Web resources is a challenging task and it addresses the general issue of making computers aware of the content of informational resources so as they can be of better assistance for users. In this thesis, a semantic platform for text resources annotation and retrieval from their source documents has been proposed. The system presented here automatically annotates natural language documents, which may be available in a number of formats such as XML, HTML or PDF. The proposed platform has additionally been implemented, considering multi-ontology environments (with OWL 2 ontologies) in order to be able to cope with several domains. It also supports the evolution of the source documents, thus maintaining the coherence between the natural language descriptions and the annotations, which are stored using a semantic Web-based model. A new methodology is presented that comprises three commonly used but enhanced stages in the scope of semantic search processes: information filtering, information retrieval, indexing and relevancy rankings. The proposed platform has been evaluated in two domains, namely, ICT-related cloud computing and R&D management, with very promising results. Using the semantic annotation methodology a new application of similarity calculation has been proposed. The platform keeps track of the semantic-based description of R&D projects, proposals, ideas and worker resumes. Natural language processing tools are used to facilitate the generation of such semantic profiles, annotations and indexes from natural language texts. Once the system has been fed up with the semantic content, the semantic inference engine module leverages such formal content to perform general queries from the available information, producing precise and accurate results that can help managers in the decision-making process.