Nuevas técnicas para la depuración y protección de datos estadísticos

  1. María Salomé Hernández García
Supervised by:
  1. Juan José Salazar González Director
  2. Jorge Riera Ledesma Director

Defence university: Universidad de La Laguna

Year of defence: 2015

Committee:
  1. Pedro Revilla Novella Chair
  2. Marcos Alejandro Colebrook Santamaría Secretary
  3. Vanessa del Pino González García Secretary
Department:
  1. Matemáticas, Estadística e Investigación Operativa

Type: Thesis

Teseo: 374152 DIALNET

Abstract

Esta tesis doctoral propone nuevas herramientas para afrontar dos grandes problemas en Estadística Pública. Los institutos de estadística recogen datos (a través de encuestas) y publican resultados (principalmente tablas). En ocasiones los datos recogidos traen ¿errores¿ o ¿datos incompletos¿ que conviene detectar (edición) y corregir (imputación), generando el llamado ¿problema de depuración¿ (data editing). Por su parte la Ley de Protección de Datos obliga a garantizar la privacidad de individuos y empresas en toda publicación, generando el llamado ¿problema del secreto estadístico¿ (data confidentiality). Esta tesis propone una nueva herramienta informática para afrontar el problema de depuración. Se llama TEIDE2 (Técnicas de Edición e Imputación de Datos Estadísticos, versión 2). Es una herramienta multi-plaforma y basada en software libre y abierto (https://code.google.com/p/teide2/). Trata variables cualitativas y cuantitativas almacenadas en bases de datos ficheros (formatos XML, Microsoft Access, Microsoft Excel y ORACLE). TEIDE2 imputa mediante la metodología de registros donantes según los paradigmas clásicos de Fellegi y Holt. La herramienta ha sido utilizada en los últimos años por varios institutos de estadística en España, como por ejemplo para depurar la encuesta de Encuesta del Gasto Turístico (EGT) realizada por el ISTAC. Para el problema del secreto estadístico se propone otra nueva herramienta, llamada ECTA (¿Enhanced Controleed Tabular Adjustment¿). Esta metodología se aplica sobre tablas (tanto donde la variable que se muestra es de magnitud como de frecuencia) y garantiza niveles preestablecidos de protección, a la vez que maximiza la utilidad de lo publicado para un usuario. La implementación realizada es multi-plataforma, de software libre y abierto, y se ha enviado a un grupo de trabajo en Holanda para su integración en el software tau-ARGUS que el proyecto europeo DwB desarrolla para EUROSTAT, la oficina de estadística de la Comisión Europea.