Nuevas técnicas para la depuración y protección de datos estadísticos

HERNÁNDEZ GARCÍA, Mª SALOMÉ

Nuevas técnicas para la depuración y protección de datos estadísticos

HERNÁNDEZ GARCÍA, Mª SALOMÉ

Dirigida por:

Juan José Salazar González Director
Jorge Riera Ledesma Codirector

Universidad de defensa: Universidad de La Laguna

Fecha de defensa: 13 de enero de 2015

Tribunal:

Pedro Revilla Novella Presidente/a
Marcos Alejandro Colebrook Santamaría Secretario
Vanesa del Pino González García Secretario/a

Departamento:

Matemáticas, Estadística e Investigación Operativa

Tipo: Tesis

Teseo: 374152 DIALNET

Resumen

Esta tesis doctoral propone nuevas herramientas para afrontar dos grandes problemas en Estadística Pública. Los institutos de estadística recogen datos (a través de encuestas) y publican resultados (principalmente tablas). En ocasiones los datos recogidos traen ¿errores¿ o ¿datos incompletos¿ que conviene detectar (edición) y corregir (imputación), generando el llamado ¿problema de depuración¿ (data editing). Por su parte la Ley de Protección de Datos obliga a garantizar la privacidad de individuos y empresas en toda publicación, generando el llamado ¿problema del secreto estadístico¿ (data confidentiality). Esta tesis propone una nueva herramienta informática para afrontar el problema de depuración. Se llama TEIDE2 (Técnicas de Edición e Imputación de Datos Estadísticos, versión 2). Es una herramienta multi-plaforma y basada en software libre y abierto (https://code.google.com/p/teide2/). Trata variables cualitativas y cuantitativas almacenadas en bases de datos ficheros (formatos XML, Microsoft Access, Microsoft Excel y ORACLE). TEIDE2 imputa mediante la metodología de registros donantes según los paradigmas clásicos de Fellegi y Holt. La herramienta ha sido utilizada en los últimos años por varios institutos de estadística en España, como por ejemplo para depurar la encuesta de Encuesta del Gasto Turístico (EGT) realizada por el ISTAC. Para el problema del secreto estadístico se propone otra nueva herramienta, llamada ECTA (¿Enhanced Controleed Tabular Adjustment¿). Esta metodología se aplica sobre tablas (tanto donde la variable que se muestra es de magnitud como de frecuencia) y garantiza niveles preestablecidos de protección, a la vez que maximiza la utilidad de lo publicado para un usuario. La implementación realizada es multi-plataforma, de software libre y abierto, y se ha enviado a un grupo de trabajo en Holanda para su integración en el software tau-ARGUS que el proyecto europeo DwB desarrolla para EUROSTAT, la oficina de estadística de la Comisión Europea.