Desarrollo de una metodología para la construcción automática de ontologías en español a partir de texto libre
- OCHOA HERNANDEZ, Jose Luis
- Rodrigo Martínez Béjar Zuzendaria
- Rafael Valencia García Zuzendaria
Defentsa unibertsitatea: Universidad de Murcia
Fecha de defensa: 2011(e)ko ekaina-(a)k 21
- Jesualdo Tomás Fernández Breis Presidentea
- Catalina Martínez Costa Idazkaria
- Juan Miguel Gómez-Berbís Kidea
- Dagoberto Castellanos Nieves Kidea
- Francisco Garcia Sanchez Kidea
Mota: Tesia
Laburpena
La creciente cantidad de información que se genera día a día, está haciendo que la información existente para consultar por las personas sea inmanejable. Con la llegada de las nuevas tecnologías, se ha facilitado la forma de publicar información. Uno de los medios más difundidos para ello es Internet y, dada la facilidad con la que se publica la información, es muy fácil transgiversarla y, en muchas ocasiones, publicarla con errores o, simplemente, sin verificar o comprobar su validez. Por tal razón, es necesario que exista una metodología que adquiera información a partir de textos y esta sea almacenada en una fuente segura y fiable de representación del conocimiento "las ontologías". Adicionalmente, las ontologías son la base para trabajar con la denominada Web Semántica, una de las características de esta Web es que posibilitará la interacción tanto entre ordenadores como entre usuarios, algo muy útil en estos tiempos. Actualmente las ontologías, se están aplicando en varios dominios como la población de ontologías, traducción automática, recuperación de información, sistemas pregunta-respuesta, información geográfica y librerías digitales, entre otros. Además, estas ontologías se desarrollan mayoritariamente para el idioma inglés, El principal objetivo que se propone en esta tesis doctoral es, desarrollar un nuevo método para la construcción automática de ontologías a partir de textos escritos en lenguaje natural, que tenga en cuenta un amplio conjunto de relaciones semánticas entre conceptos, de forma independiente del dominio y en el idioma español, es decir, una aplicación de Ontology Learning para el español. El sistema se divide en 3 módulos principales: Módulo de Búsqueda de Conceptos, Módulo de Extracción de Relaciones y Módulo de Construcción de la Ontología. El módulo de Búsqueda de Conceptos, tiene como objetivo extraer conceptos automáticamente de textos escritos en lenguaje natural y en español. Para ello, se ha hecho uso de métodos híbridos, combinando técnicas y aproximaciones de varias disciplinas, como son la ingeniería de conocimiento, la ingeniería lingüística y el aprendizaje computacional. El primer paso en dicha etapa, consiste en aplicar herramientas lingüísticas para obtener información morfológica del texto y el segundo, emplear el método TF-IDF para la extracción de conceptos sencillos, y el método C-value / NC-value para la extracción de conceptos compuestos. Con la combinación de estos métodos se obtienen los conceptos del dominio. El módulo de Extracción de Relaciones se encarga de obtener la totalidad de relaciones que contengan conocimiento explícito contenido en las expresiones verbales existentes en la totalidad del corpus, Esta etapa es indispensable para poder crear una ontología. Por tal razón, una buena metodología tiene que cumplir con todas las expectativas que nosotros nos planteemos. Sabemos que hay varios tipos de relaciones, por ejemplo, las taxonómicas, las partonómicas, etc. pero en las que menos se ha investigado son las no taxonómicas. Es por ello, que el esfuerzo en este sentido se ha dirigido, sobre todo, a descubrir estas relaciones para el idioma español. Sabemos que estas relaciones están ligadas a los verbos, así que el primer paso es identificarlos para, después, con ayuda de algunas bases de conocimiento como ADESSE, obtener el significado semántico que nos ayudará a obtener las relaciones no taxonómicas. El módulo de Creación de la Ontología se encarga de crear una ontología de forma automática y sin supervisión a partir del conocimiento previo adquirido, identificando clases, subclases, relaciones, dominios y rangos, apoyándose en la librería OWL API. Adicionalmente, se ha desarrollado un módulo que permite el aprendizaje automático de patrones lingüísticos, que se encuadra dentro del módulo de Búsqueda de Conceptos y fue desarrollado para trabajar en dos funcionalidades distintas, una, la de generar patrones automáticos desde cero, y la segunda, para generar patrones de forma incremental. La evaluación de esta metodología, se ha realizado con las medidas de evaluación estándar que fueron empleadas para comprobar el rendimiento de la metodología. Las métricas de evaluación son: la Precisión, el Recall y la Medida F. Esta evaluación, se ha realizado en dos dominios distintos: el dominio financiero y el dominio oncológico. El corpus utilizado en el experimento financiero está formado uno por 82 documentos y el utilizado en el experimento oncológico esta formado por 20 documentos (mas extensos), ambos han sido dividido en tres partes, con el objetivo de conocer el comportamiento de la metodología en tres tamaños de corpus distintos. Los resultados obtenidos para ambos dominios han sido bastante prometedores, ya que se ha obtenido un valor global del 83% en el dominio oncológico y un valor de casi 76% en el dominio financiero, ambos de Medida F. Con estos resultados, se prueba la utilidad de la metodología desarrollada en esta tesis doctoral. Para que cualquier investigador pueda poner en práctica esta metodología, se ha desarrollado un sistema de fácil utilización, este sistema permite la configuración de los parámetros iniciales necesarios por el sistema y la libre elección del modelo a implementar, ya sea, el modelo de conceptos sencillos, compuestos o combinados para generar ontologías de forma automática y sin supervisión en español. I.S.C José Luis Ochoa Hernández