Uso de información auxiliar en encuestas con diseños muestrales complejos

  1. José Miguel Contreras García
Supervised by:
  1. Antonio Arcos Cebrián Director

Defence university: Universidad de Granada

Year of defence: 2014

Committee:
  1. Rafael Pérez Ocón Chair
  2. María del Mar Rueda García Secretary
  3. Sergio Martínez Puertas Committee member
  4. José Rodríguez Avi Committee member
  5. Enrique Francisco González Dávila Committee member

Type: Thesis

Abstract

Gracias al gran número de investigaciones realizadas en los últimos años en muestreo en poblaciones finitas, podemos encontrar diferentes métodos de estimación que hacen uso de la información auxiliar para ganar precisión y eficacia en dichas estimaciones. Las encuestas no sólo recogen información relacionada con la variables objeto de estudio, sino que proporcionan gran información auxiliar (valores, totales, promedios, etc.) procedente de censos, proyecciones censales u otros estudios, que puede ser incluida en el proceso de estimación. Una de las metodologías que más auge ha experimentado en los últimos años, debido en gran medida al papel que las agencias de estadística, organismos oficiales y no oficiales le otorgan, ha sido la calibración que proporciona una manera sistemática de incorporar la información auxiliar al proceso de estimación mejorando la eficiencia de los resultados. Muchas encuestas, generalmente asumen que una muestra de unidades se observa por la selección en dos etapas a partir de una población finita, que se agrupan en grupos. Este diseño incluye muestras de dos poblaciones diferentes: la población de unidades primarias (familias, centros, hospitales, etc.) y la población de unidades secundarias (individuos). Los estimadores de calibración se pueden definir mediante el uso de la información combinada basada en los totales de las unidades primarias y secundarias. El objetivo principal de este trabajo es aportar nuevos recursos metodológicos para la mejora de la eficiencia de las estimaciones, reduciendo la variabilidad de éstas, a partir de la combinación de estimadores que calibran a distintos niveles. Para tal propósito, partiremos de la elección de las variables auxiliares pertinentemente elegidas según métodos que reducen los errores de estimación. Esta investigación se inscribe en un proyecto de investigación más general, actualmente en desarrollo en el Grupo de Investigación Diseño y Análisis Estadístico de Encuestas por Muestreo, en el cual se están abordando diferentes aplicaciones referentes al uso de la información auxiliar en el tratamiento de encuestas. Los objetivos específicos de este trabajo son: ¿ la construcción de estimadores, adaptables a la información auxiliar a dos niveles (unidades muestrales primarias y secundarias), que sean más precisos que los estimadores simples para todas las variables de interés; ¿ la selección de métodos de elección de las variables auxiliares óptimas, que reduzcan el sesgo de no respuesta, del conjunto de posibles; ¿ la aplicación de los distintos métodos a datos reales con el fin de comprobar la eficiencia de tales técnicas (estudios de simulación). En el primer capítulo se realiza una introducción al problema de investigación y a la notación que se va a utilizar en este trabajo. En términos generales, en este capítulo se realiza la descripción del estimador de Horvitz-Thompson, se especifica el uso de la información auxiliar mostrando algunos ejemplos de estimadores basados en su uso, y se describe la metodología de calibración, mostrando sus características principales, las distancias más utilizadas, ejemplos teóricos y prácticos y algunas extensiones de la calibración. En el segundo capítulo se revisa algunas perspectivas del uso de la calibración en presencia de información compuesta, tales como información proveniente de diseños de muestreo en dos fases o en dos etapas. Se describen dos casos particulares que combinan la información disponible en ambas etapas: la integración de pesos y el método de Lemaître y Dufour. Para finalizar este capítulo, se describe el estimador propuesto en este trabajo y se realiza un estudio de simulación, con datos reales provenientes del estudio PISA 2006 y de la encuesta de presupuestos familiares, que evalúa el comportamiento empírico del estimador propuesto para dos tipos distintos de muestreos (muestreo aleatorio simple y de Midzuno). Los resultados se compararán con el estimador descrito por Estevao y Sárndal. En el tercer capítulo se describe el uso de la calibración para el ajuste del sesgo de no respuesta y se definen cuatro indicadores que nos permitirán elegir que variables auxiliares son más eficaces para construir el vector auxiliar. El capítulo finaliza con un estudio de simulación con datos reales (PISA 2006) en el que implementamos, y mostramos, como la elección apropiada del vector auxiliar permite reducir el sesgo de no repuesta. En resumen, este capítulo muestra la posibilidad de tratar situaciones en las que podemos considerar muchos vectores auxiliares alternativos dentro de una encuesta para su uso en estimaciones a partir del estimador de calibración. La idea principal ha sido utilizar los indicadores descritos por Sárndal y Lundstrómm para realizar una elección apropiada del x-vector con el fin de reducir el sesgo lo máximo posible. Mostramos, a través de ejemplos, como se pone de manifiesto la importancia de considerar la información auxiliar y cómo hacerlo mediante calibración. Este trabajo finaliza con un apéndice donde se describen todas las poblaciones y programas implementados para los estudios de simulación, junto con las tablas no incluidas en el Capítulo 3.