Versión inferencial de los métodos biplot basada en remuestreo bootstrap y su aplicación a tablas de tres vías

  1. Ana Belén Nieto Librero
Supervised by:
  1. Purificación Vicente Galindo Director
  2. Purificación Galindo-Villardón Director

Defence university: Universidad de Salamanca

Year of defence: 2015

Committee:
  1. José Luis Vicente Villardón Chair
  2. David Alcaide López de Pablo Secretary
  3. David Almorza Gomar Committee member

Type: Thesis

Abstract

[ES] Los métodos de ordenación y de reducción de la dimensión ofrecen diferentes parámetros para poder presentar los resultados obtenidos a partir de una muestra de datos multivariantes. Sin embargo, estos métodos únicamente nos muestran esos resultados de una manera incompleta ya que sólo se obtienen estimaciones de tales parámetros de una manera puntual, sin ninguna información acerca de la incertidumbre proporcionada por los mismos. Para proporcionar unos resultados completos es necesario mostrar una forma de decidir cómo de exactos son esos parámetros. El método más común para proporcionar una indicación de la cantidad de incertidumbre de un parámetro son los intervalos de confianza representados por los límites de confianza. Los métodos bootstrap tienen como principal objetivo la inferencia sobre una población a partir de una muestra. Dicho objetivo se puede obtener remuestreando dicha muestra y haciendo inferencia sobre esta nueva ¿muestra¿. Estos métodos proporcionan diferentes formas de calcular intervalos de confianza para los parámetros calculados a partir de una muestra de datos multivariantes. Tienen la ventaja además de que son métodos sencillos que no requieren del conocimiento de la distribución teórica de la población de partida y tampoco necesitan un tamaño de muestra muy elevado para realizar las estimaciones. Estos métodos han sido utilizados combinados con diversas técnicas multivariantes para proporcionar resultados más precisos. Siguiendo este procedimiento, se propone la combinación del remuestreo bootstrap con técnicas multivariantes para analizar datos de dos vías, pares de matrices que comparten una dimensión y tres vías. De esta manera, se ofrecen resultados completos mediante el cálculo de intervalos de confianza de los parámetros proporcionados por los diferentes análisis. Para facilitar el uso de esta combinación de análisis se desarrollarán interfaces gráficas en el entorno R. Por otro lado, el método HJ Biplot no tiene en cuenta si los datos de partida poseen una estructura de grupos y además al ser una técnica factorial tiene el inconveniente de que la interpretación de los ejes factoriales o componentes no es fácil al ser combinaciones lineales de las variables de partida. Para resolver estos problemas, se han desarrollado tres algoritmos iterativos como versiones del HJ Biplot. El primero de ellos tiene en cuenta una posible estructura de grupo en los datos. Esta versión se ha denominado Clustering Biplot. El segundo tiene en cuenta la problemática de la interpretación de los ejes extraídos en el HJ Biplot y se propone una nueva forma de extraer dichos ejes de manera que sean disjoint, es decir, cada variable solo contribuye a la conformación de un solo eje. Esta versión se llama Disjoint Biplot. El tercero combina ambas problemáticas de tal forma que busca ejes disjuntos que separen lo máximo posible los grupos presentes en los datos. Este algoritmo se ha denominado Clustering Disjoint Biplot. Para su puesta en práctica se ha desarrollado una interfaz gráfica en R.