Selección de atributos en aprendizaje automático basada en teoría de la información
- Lorenzo Navarro, José Javier
- Francisco Mario Hernández Tejera Director/a
Universitat de defensa: Universidad de Las Palmas de Gran Canaria
Fecha de defensa: 10 de de juliol de 2001
- Antonio Falcón Martel President/a
- Juan A. Méndez Rodrígeuz Secretari/ària
- Antonio Bahamonde Rionda Vocal
- José Andrés Moreno Pérez Vocal
- Casiano Rodríguez León Vocal
Tipus: Tesi
Resum
El trabajo de esta tesis se enmarca en el campo del Aprendizaje Automático Supervisado, En este campo la calidad del conocimiento inducido depende fuertemente de la calidad de las medidas utilizadas en lo que se refiere a capacidad de representar conceptos. Por tanto una cuestión en estudio es la selección de los atributos más relevantes para la inducción del conocimiento, problema que se va a estudiar en esta tesis y para el cual se propondrá una solución. Para abordar el problema, se utilizarán conceptos que proceden de la Teoría de la información, estando basado el maraco formal desarrollado en el establecimiento de una analogía entre un canal de información, en el sentido que se estudia en Teoría de la Información, y un clasificador. En el marco formal se defiere la relevancia de los atributos en base al concepto de información mutua y de distancia basada en entropía, y se propone un método práctico, la medida GD, para realizar la selección de los atributos según su relevancia con respecto al concepto o clase estudiando. La medida GD presenta la ventaja frente a otras aproximaciones, de que recoge la dependencia existente atributos sin necesidad de estimar las funciones de distribución multivariantes que aparecen en las definiciones de relevancia. La calidad de la medida GD se evalúa en un maraco experimental que incluye el estudio del sesgo que introduce dicha medida en función del número de valores de los atributos y del comportamietno en la selección de atributos en problemas donde se conocen los resultados a priori. A continuación se evalúa en conjunto de problemas reales, para lo cual se contrastan los resultados con los que producen otros métodos bastante referenciados en la literatura. Por útlimo se propone una arquitectura para la inducción de clasificadores en problemas de visión Artificial, donde la medida GD es, junto al módulo encargado de la inducción del clasificador, un elemento imp