Selección de atributos en aprendizaje automático basada en teoría de la información

Lorenzo Navarro, José Javier

Selección de atributos en aprendizaje automático basada en teoría de la información

Lorenzo Navarro, José Javier

Supervised by:

Francisco Mario Hernández Tejera Director

Defence university: Universidad de Las Palmas de Gran Canaria

Fecha de defensa: 10 July 2001

Committee:

Antonio Falcón Martel Chair
Juan A. Méndez Rodrígeuz Secretary
Antonio Bahamonde Rionda Committee member
José Andrés Moreno Pérez Committee member
Casiano Rodríguez León Committee member

Type: Thesis

Teseo: 85090 DIALNET

Abstract

El trabajo de esta tesis se enmarca en el campo del Aprendizaje Automático Supervisado, En este campo la calidad del conocimiento inducido depende fuertemente de la calidad de las medidas utilizadas en lo que se refiere a capacidad de representar conceptos. Por tanto una cuestión en estudio es la selección de los atributos más relevantes para la inducción del conocimiento, problema que se va a estudiar en esta tesis y para el cual se propondrá una solución. Para abordar el problema, se utilizarán conceptos que proceden de la Teoría de la información, estando basado el maraco formal desarrollado en el establecimiento de una analogía entre un canal de información, en el sentido que se estudia en Teoría de la Información, y un clasificador. En el marco formal se defiere la relevancia de los atributos en base al concepto de información mutua y de distancia basada en entropía, y se propone un método práctico, la medida GD, para realizar la selección de los atributos según su relevancia con respecto al concepto o clase estudiando. La medida GD presenta la ventaja frente a otras aproximaciones, de que recoge la dependencia existente atributos sin necesidad de estimar las funciones de distribución multivariantes que aparecen en las definiciones de relevancia. La calidad de la medida GD se evalúa en un maraco experimental que incluye el estudio del sesgo que introduce dicha medida en función del número de valores de los atributos y del comportamietno en la selección de atributos en problemas donde se conocen los resultados a priori. A continuación se evalúa en conjunto de problemas reales, para lo cual se contrastan los resultados con los que producen otros métodos bastante referenciados en la literatura. Por útlimo se propone una arquitectura para la inducción de clasificadores en problemas de visión Artificial, donde la medida GD es, junto al módulo encargado de la inducción del clasificador, un elemento imp