Técnicas de difusión de grandes bases de datos

Anuncio
Instituto de
Estudios Fiscales
Técnicas de difusión de grandes bases de
datos
La difusión censal abre una nueva ventana en las bases de datos del sistema
estadístico público.
1
Instituto de
Estudios Fiscales
Índice
1. El Instituto Nacional de Estadística.
2. La estadística pública: una fuente de conocimiento en la sociedad
de la información
3.- Objetivos de la difusión de los Censos de Población y Viviendas
de 2001
4. Revisión de las tecnologías disponibles para la difusión de datos
estadísticos
5. La madurez tecnológica de los sistemas BI/DW
6. Contrucción de un sistema de consulta on-line basado en
tecnología BI/DW
7. El sistema de información construido
8. Que hemos aprendido
2
Instituto de
Estudios Fiscales
1
El Instituto Nacional de Estadística
3
Instituto de
Estudios Fiscales
El Instituto Nacional de Estadística. “INE”
•
El Instituto Nacional de Estadística es un organismo autónomo de la
Administración central del Estado adscrito al Ministerio de Economía.
• Realiza la parte mas significativa de la actividad estadística pública en
España, y en particular las operaciones estadísticas de gran envergadura
(censos demográficos y económicos, cuentas nacionales, estadísticas
demográficas y sociales, indicadores económicos y sociales, coordinación y
mantenimiento de los directorios de empresas, formación del Censo
Electoral...)
• Además, la ley atribuye al INE las siguientes funciones:
– La redacción del Plan Estadístico Nacional con la colaboración de los Departamentos Ministeriales y del Banco de España;
– La propuesta de normas comunes sobre conceptos, unidades estadísticas,
clasificaciones y códigos;
– Las relaciones en materia estadística con los Organismos Internacionales
especializados y, en particular, con la Oficina de Estadística de la Unión
Europea (EUROSTAT)
4
Instituto de
Estudios Fiscales
Instituto
Nacional
de de
Estadística.
“INE”
Instituto
Nacional
Estadística.
“INE”
• 3000 empleados (incluyendo su propia red de
trabajos de campo, -encuestadores-)
• 800 técnicos medios y superiores
• aprox. 150.000.000 euros de presupuesto
anual
• Oficinas centrales y en las 50 provincias
• Importante: las oficinas estadísticas de las
Comunidades Autonómas no forman parte
del INE, aunque el INE mantiene convenios
de colaboración con ellas
5
Instituto de
Estudios Fiscales
Instituto
Nacional
de de
Estadística.
“INE”
Instituto
Nacional
Estadística.
“INE”
• Goza de competencias y capacidad técnica
para:
– La preservación del secreto estadístico
– Garantizar su neutralidad operativa
_ Realizar la mayor parte de las tareas de campo
6
Instituto de
Estudios Fiscales
Instituto Nacional de Estadística. “INE”
La unidad de difusión estadística en el INE
Comisión Interministerial
de Estadística
Presidencia
Delegaciones Provinciales
y Delegaciones de
Ceuta y Melilla
Comité Interterritorial
de Estadística
D.G. De Procesos e
Infraestructura Estadística
DG de Productos Estadísticos
S.G. de Metodología
y Técnicas Estadísticas
S.G. de Cuentas
Nacionales
Gabinete de Coordinación
Y Planificación Estadística
S.G. de Recogida
de Datos
S.G. de Estadísticas
Industriales y Agrarias
S.G. de Gestión
Presupuestaria
S.G. de Censos y Padrón
S.G. de Estadísticas
de los Servicios
S.G. de Recursos Humanos
S.G. de Informática
Estadística
S.G. de Estadísticas de
Precios y Presupuestos
Familiares
Oficina del Censo Electoral
S.G. de Difusión
Estadística
S.G. de Estadísticas
Laborales y Sociales
7
Instituto de
Estudios Fiscales
2
La estadística pública
8
Instituto de
Estudios Fiscales
La estadística pública: una fuente de conocimiento
en la sociedad de la información
Intermediarios en la sociedad de la información: una
cuestión de confianza
– Los organismos estadísticos públicos (OEP) son
intermediarios naturales de la sociedad de la
información
– Como intermediarios han de generar confianza para
que ciudadanos, hogares, empresas e instituciones
les confien información, a veces sensible, y a veces
costosa de obtener
– Ciudadanos y empresas deben poder observar que
existe equilibrio entre la información que se les pide
y la que se difunde
9
Instituto de
Estudios Fiscales
La estadística pública: una fuente de conocimiento
en la sociedad de la información
• Se confian importantes recursos a los OEP para
obtener datos, tan numerosos y detallados como sea
posible
• El sistema de información a través del cual se
capturan, almacenan y difunden, se convierte en un
elemento crítico si se quiere facilitar que todos esos
datos puedan convertirse en conocimiento
• Tradicionalmente los OEP son organismos
avanzados en el uso de tecnologías de la
información
10
Instituto de
Estudios Fiscales
3
Objetivos de la difusión de los
Censos de Población y
Viviendas de 2001
11
Instituto de
Estudios Fiscales
Objetivos de la difusión de los Censos de
Población y Viviendas de 2001
– Si las encuestas ponen a prueba la confianza en
colectivos más o menos amplios...
– Los Censos, con cuestionarios recogidos en todos
los hogares, constituyen la mayor prueba de
confianza a la que se somete el sistema
estadístico.
– (Algo parecido puede ocurrir en los grandes registros
administrativos de interés estadístico).
• Devolver a tiempo y de modo eficaz la
información estadística elaborada es el mejor
pago a la confianza recibida
12
Instituto de
Estudios Fiscales
Objetivos de la difusión de los Censos de
Población y Viviendas de 2001
Consideraciones previas:
• Los Censos, sean de Edificios, Viviendas, Población,
de Establecimientos o Agrarios, son las operaciones
estadísticas que más masa de datos generan
• Múltiples variables o “dimensiones” de estudio, o de
clasificación
• Complejas jerarquias territoriales: país, región,
provincia, municipio, sección censal, manzana, vía
pública
13
Instituto de
Estudios Fiscales
Objetivos de la difusión de los Censos de
Población y Viviendas de 2001
– Reducir el plazo de difusión
– Flexibilidad para responder a necesidades diferentes
de diferentes usuarios
– Maximizar la cantidad de información censal difundida,
favoreciendo el incremento de la demanda, con acceso
abierto y gratuito
– Dar menos importancia de las tradicionales
publicaciones impresas
14
Instituto de
Estudios Fiscales
4
Revisión de las tecnologías
disponibles para la difusión de datos
estadísticos
15
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la
difusión de datos estadísticos
El papel del sistemas BI/DW: ¿La única tecnología de difusión
tecnológica recomendable?
• La respuesta del INE es NO, porque:
– Cada tipo de información estadística puede necesitar una
tecnología de difusión distinta.
– El INE bajo una única “marca y aspecto”, INEbase, engloba datos
de muy distintas operaciones estadísticas, aplicando distintas
técnologias de difusión aunque tratando de conseguir interfaces
muy similares.
• A continuación: revisar los medios disponibles y conocer el papel de
los sistemas BI/DW
16
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la
difusión de datos estadísticos
•
•
•
•
1, nada más que ficheros estructurados
2, bases de datos tradicionales
3, sistemas BI/DW
y más
17
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de
datos estadísticos: 1, nada más que ficheros
estructurados
• La mayor parte de las operaciones estadísticas (en
particular las realizadas por muestreo) dan lugar a un
conjunto moderado de ”tablas” a difundir
• Un sistema que defina y estructure claramente el
objeto “tabla”, su tema de referencia, las variables y
métricas con las que se estudia el fenómeno a medir,
y finalmente, sus datos, puede ser simplemente
definido como un archivo o tipo de documento XML.
• INEbase usa profusamente esta estrategia,
proporcionando una interfaz “pseudo-OLAP” de
acceso a decenas de miles de tablas de resultados.
18
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de
datos estadísticos: 1, nada más que ficheros
estructurados
• XML o ficheros “PC-Axis” e interfaces pseudo-OLAP:
- Es usado por el INE de España y un buen número de
organismos estadísticos publicos en el mundo.
19
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de
datos estadísticos: 1, nada más que ficheros
estructurados
• Una sencilla interfaz “pseudo OLAP” permite:
– Modelar la consulta
– Exportar los resultados a Microsoft Excel y a PC-Axis.
• El coste de desarrollo de la solución ha sido muy
bajo
- No se usa para tablas
mayores de 100.000
celdas, no hay “areas pequeñas”
20
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de
datos estadísticos: 2, bases de datos tradicionales
• Los sistemas de bases de datos relacionales también
son profusamente usados como herramientas de
difusión, el INE los usa:
- Como almacén mas compacto que los sistemas
de ficheros, replicando las características
estructurales de los archivos de “tabla” o “matriz”,
y permitiendo construirlos bajo demanda
- Como sistema de difusión de datos estadísticos
mas próximos al concepto de “listas” que al de
“tablas”
21
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de
datos estadísticos: 2, bases de datos tradicionales
• Ejemplos en INEbase: Nomenclator de entidades de
población
Listas
filtrables,
no cruces
de variables
22
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de
datos estadísticos: 2, bases de datos tradicionales
• Ejemplos en INEbase: Encuesta Industrial de
Productos...
Listas
filtrables,
no cruces
de variables
23
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de
datos estadísticos:
3, sistemas BI/DW
El papel de los sistemas BI/DW en una estratégia de difusión estadística
• Si en un objeto social o económico de estudio…
– El número variables o dimensiones a analizar es elevado
– La granularidad o nivel de detalle temático o territorial también es alto
– Es dificil prever muchos de los posibles cruces temáticos y territoriales, y
de los niveles jerárquicos de presentación convenientes para distintos
tipos de usuarios
• …Necesitaremos modelizar “cubos n-dimensionales” poblados por
volúmes de celdas muy superiores a 10 elevado a 5…
• Podemos seguir usando sistemas tradicionales de modelización
relacional, pero…
• Difundir un Censo: ! Es el momento de hablar con un
experto en análisis multidimensional ¡
24
Instituto de
Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos
estadísticos:
y más
•
•
•
¿ Y si los datos no están nada
estructurados, como es el caso de las
antiguas publicaciones en papel?
El INE no renuncia a usar Internet para
difundir estos valiosos fondos, el
proyecto INEbase Siglo XX
actualmente en desarrollo combinará
un tratamiento OCR masivo, un
sistema SGBDR y un servidor de
ficheros para proporcionar acceso
guiado y sistemas de búsqueda para
visualizar y descargar las páginas de
esas publicaciones, servidas en
formato PDF y Excel.
Pronto: Anuarios y Censos del Siglo
XX en INEbase...
25
Instituto de
Estudios Fiscales
5
La madurez tecnológica de los
sistemas BI/DW
26
Instituto de
Estudios Fiscales
La madurez tecnológica de los sistemas BI/DW
• El papel de los sistemas BI/DW en una estratégia de
difusión estadística
– Los sistemas de información orientados al almacenaje y consulta
analítica de grandes volúmenes de información se han llamado
tradicionalmente Data Warehouse
– El Data Warehouse es un elemento clave de la estrategia (más
amplia) del llamado comercialmente “Bussines Intelligence”
– Los sistemas DW/BI ocuparán un importante papel en el “negocio”
de la difusión estadística
27
Instituto de
Estudios Fiscales
La madurez tecnológica de los sistemas BI/DW
• En Internet, más de 5 segundos de respuesta se considera bajo rendimiento.
• En los últimos años se ha producido una convergencia
entre Internet y las soluciones de Business Intelligence
capaces de procesar grandes volúmenes de datos
• Las administraciones públicas, y en particular los organismos estadísticos pueden utilizarlas para – Sumarizaciones
– Difusión masiva, combinada o no con soluciones tradicionales de
tabulación y cálculo estadístico
• Existe una oferta variada de soluciones tecnológicas, propia
de un mercado maduro
28
Instituto de
Estudios Fiscales
6
Contrucción de un sistema de consulta
on-line basado en tecnología BI/DW
29
Instituto de
Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en
tecnología BI/DW: referencias previas
• El INE analizó varias experiencias previas de
comunicación de grandes masas de datos a través de
Internet, algunas realizadas con software tradicional
(SGBDR) y otras con bases de datos multidimensionales.
– El sistema holandés de difusión de datos estadísticos
StatLine
– Los sistemas italianos sobre información de Empresas
y Demografía Municipal (ISTAT)
– El sistema estadístico del Censo de Población de 2000
de Brasil (IBGE)
30
Instituto de
Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en
tecnología BI/DW: Referencias de excelencia
– El sistema holandés StatLine:
• Potente apoyo de metadatos, browser “pseudo OLAP”, base de datos
relacional de complejidad creciente.
31
Instituto de
Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en
tecnología BI/DW: Referencias de excelencia
– Los sistemas italianos sobre información de Empresas
y Demografía Municipal (ISTAT)
Http://cens.istat.it
Http://demo.istat.it
32
Instituto de
Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en
tecnología BI/DW: Referencias de excelencia
– El sistema estadístico del Censo de Población de 2000
de Brasil (IBGE)
33
Instituto de
Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en
tecnología BI/DW: Referencias de excelencia
– Tambien fueron referencias algunos sistemas usados
por grandes empresas privadas, en las que el tiempo
de carga y actualización se consideraba crítico.
– El tiempo de carga no parece crítico en un sistema
como el del Censo, donde aparentemente los datos
usados son fijos en el tiempo, pero…
– ¿cuántas veces hay que depurar y volver a cargar los
datos?
34
Instituto de
Estudios Fiscales
Contrucción de un sistema de consulta on-line basado
en tecnología BI/DW: Conceptos Básicos
• El modelo multidimensional lógico:
ty
Ci
B
C
Product,
Industry
Product
A
Juice
Coke
Milk
Cream
Beer
Ice
50
30
12
15
1
1
City,
Region
Product group
Province
Product
Municipality
•Dimensiones
•Jerarquias
• Métricas
Date
Year
Quarterly
10
2
3
Date
4
5
6
Data
cell
Month Week
Day
35
Instituto de
Estudios Fiscales
Contrucción de un sistema de consulta on-line basado
en tecnología BI/DW: Conceptos Básicos
• Sistema DW: Almacén de datos orientado a consulta dónde se realiza la carga de
datos desde los sistemas origen.
•
Niveles:
– Microbase: Datos a nivel atómico
– Macrobase: Estructura multidimensional. Procesos de agregación sobre la microbase
– Metabase: Información sobre los datos contenidos en el repositorio multidimensional
(descripciones de campos, formatos, relaciones atributo - dimensión, combinaciones
posibles)
• Dimensiones: Área de interés para estudio y análisis (D.Geográfíca)
• Atributos: Diferentes niveles de análisis posibles dentro de una dimensión (CCAA,
Provincia, Municipio, Comarca)
• Jerarquías: Organizan los atributos dentro de la dimensión. Orientan la navegación
OLAP.
36
Instituto de
Estudios Fiscales
Contrucción de un sistema de consulta on-line basado
en tecnología BI/DW: Conceptos Básicos
• El diseño del interfaz con este tipo de bases de datos multidimensionales
tan pesadas puede producir problemas:
- de velocidad
- de simplicidad
- como proponer las distintas posibilidades de consulta OLAP
- sin usar formularios complejos
- atendiendo tambíen a usuarios no expertos: ¿Cuánta gente conoce la
terminología OLAP?
37
Instituto de
Estudios Fiscales
7
El sistema de información construido
38
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos
de Población y Viviendas de 2001
• En tres grandes etapas
– El modelado multidimensional (en 6 pasos)
– El trabajo con datos (en 2 pasos)
– El diseño de la interfaz del usuario
39
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001.
El modelado multidimensional
• Primer Paso: Se identifican colectivos y subcolectivos de interés
en base a las variables o dimensiones que tienen en común:
• Colectivos: Personas, Edificios, Viviendas, Hogares
• Subcolectivos: ejemplo referido a las personas
-CP1: Todas las personas (40,8 mill)
-CP2: Residentes en viviendas familiares (40,6 mill)
-CP3: Extranjeros (1,5 mill)
-CP4: Mayores de 65 años (4,6 mill)
-CP5: Migrantes (4,9 mill)
-CP6: Mayores de 16 trabajando (16 mill)
-CP7: Mayores de 16 estudiando (2,8 mill)
40
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001, El modelado multidimensional
• Segundo paso: se evalua el impacto del amplio número de
dimensiones
Premisa: El interfaz proporciona igual probabilidad de consulta
para todos los atributos presentados.
Condicionante: Gran número de atributos a considerar en los
posibles cruces. Problema en la evaluación de combinaciones de estos
atributos.
Personas
200 variables
Viviendas
100 variables
Edificios
50 variables
Locales
40 variables
41
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población
y Viviendas de 2001, El modelado multidimensional
•Tercer paso: Se evalúan las restricciones que imponen el
almacenamiento físico y lógico usando modelos multidimensionales
Fichero
plano
SGBD
�
Tabla
detalle
(NWAY)
Fuentes
operacionales
Cubo lógico o
“proxy” de datos
Nivel atómico de la estructura
multidimensional: Nº de habitantes
por cada una de las
combinaciones existentes de los
valores de las dimensiones
42
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001, El modelado multidimensional
• Cuarto paso: Se usa el “Conocimiento del Negocio”: 1.- Las dimensiones “fijas” en casi cualquier consulta son el Territorio, la edad, y el sexo
Deben estar presentes en la mayoría de cruces
del resto de atributos
2.- Además existen conjuntos de interés para los
usuarios (extranjeros, migrantes, …) que tienen una
información particular y homogénea que resaltar
43
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001, El modelado multidimensional
Quinto paso: se trata de simplificar el problema
combinatorio agrupando variables con los criterios
habituales en modelización multidimensional:
• Por relaciones jerárquicas entre variables (Ej. Territorio)
• Por relaciones de dependencia entre variables: (Ej. Año
de nacimiento-edad)
• Por atributos de baja cardinalidad
44
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001, El modelado multidimensional
• Quinto paso: (continuación):
Estas consideraciones llevan a crear: Grupo
3
1 cubo por subcolectivo con dimensiones instrumentales (grupos de variables)
Colectivo P3
(Extranjeros)
Grupo 1
Gr
o
p
u
2
45
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001. El modelado multidimensional
COLECTIVO P3 - EXTRANJEROS
EDAD
GEOGRAFICA
GEOGRAFICA 1991
GEOGRAFICA 2 VIV
GEOGRAFICA
ANTERIOR
LUGAR NACIMIENTO
gran_grupo_edad
grupo_q_edad
edad
anyo_nacimiento
ccaa
provincia
comarca
municipio
tamanyo_lr
provincia_1991
comarca_1991
municipio_1991
tamanyo_1991
rel_lr_1991
provincia_2_viv
comarca_2_viv
municipio_2_viv
tamanyo_2_viv
rel_2_viv_lr
provincia_ant
comarca_ant
municipio_ant
tamanyo_ant
rel_lr_ant
ccaa_ln
provincia_ln
comarca_ln
municipio_ln
tamanyo_ln
rel_ln_lr
Quinto paso (continuación): ….:
Ejemplos de agrupación de variables
NACIONALIDAD
PAIS 1991
PAIS ANT
PAIS NACIMIENTO
RESTO
c ontinente
region
pais
ind_espanyol
continente_1991
region_1991
pais_1991
continente_ant
region_ant
pais_ant
c ontinente_ln
region_ln
pais_ln
grado_ne
detalle_ne
estudios_ne
anyo_llegada_espanya
anyo_llegada_ccaa
anyo_llegada_municipio
ra1
ra2
ra3
ra4
ra5
ra6
46
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001. El modelado multidimensional
• Sexto paso...: del modelo lógico al modelo físico
Cubo lógico por
subcolectivo
Tablas cruce de
variables
Conjuntos de
datos SPDS
Conjuntos de datos
SAS
47
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001. El trabajo con los datos
• 1.- El primer nivel de agregación es la tabla “N-Way”
– Esta tabla siempre se calcula, y se usa en determinadas consultas
pero:
• Resulta grande (…de los 40,8 millones de habitantes hay 26 millones
“distintos” según las combinaciones distintas existentes de valores de las
dimensiones estudiadas…)
• Su acceso puede ser lento. Se requieren normalmente múltiples
sumarizaciones sobre ella.
48
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001. El trabajo con los datos
• 2.- El segundo nivel de agregación: decidir cuantos y cuales son los
objetos presumarizados que conviene crear:
– Son tablas y cubos, ya que el sistema es OLAP híbrido (HOLAP).
– A todo el conjunto de objetos, incluyendo la propia tabla N-Way, (más la
“inteligencia” del software para navegar por ellos), se le llama en la jerga
multidimensional “proxy de datos”.
– Estos objetos contienen las agregaciones (cruces) más probables de modo
que tengamos una solución de compromiso entre espacio de
almacenamiento y rapidez en las consultas.
– Es un proceso contínuo, pero asistido por el propio software, en base al
seguimiento del éxito o las dificultades de las consultas reales que se van
recibiendo.
49
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001. El trabajo con los datos
Ejemplo: Lista de objetos calculados
Sexto paso...: algunas cifras sobre el número de tablas y
S ub Co le c tiv o N úme ro d e Ta b la
cubos
CE1
6
CE2
CP 1
CP 2
CP 3
CP 4
CP 5
CP 6
CP 7
CV1
CV2
CV3
CV4
CV5
CV6
19
108
190
313
181
467
128
103
35
1
243
13
12
25
50
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y
Viviendas de 2001. El trabajo con los datos
Esquema...
Microdata
N-Way
51
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y
Viviendas de 2001. Diseño de la interfaz
• No es una tarea facil diseñar una interfaz a un potente sistema para
usuarios de muy distinta habilidad…
• Pocas y sencillas cuestiones clave…, siempre en el mismo orden…
• Dos filtros iniciales: el territorio, y el “colectivo” a analizar
• Prototipos previos se sometieron a la opinión de un grupo de usuarios
52
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y
Viviendas de 2001. Diseño de la interfaz
Colectivo
Sub-Colectivo
• Las variables que se ofrecerán para diseñar la consulta dependen
del colectivo y subcolectivo elegidos
• Un subcolectivo es un conjunto de personas, edificios, viviendas, u hogares
en el que tiene sentido usar una lista específica de variables… (Por ejemplo:
no tiene sentido analizar el nivel de estudios de los menores de 4 años…)
53
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y
Viviendas de 2001. Diseño de la interfaz
Selecting
variable
position
Showing
variables
• Las variables se presentan ordenadas en grupos de afinidad
• Desde el principio el usuario decide el reparto de datos en la tabla
• Se renuncia conscientemente a funciones “drag and drop” buscando la
accesibilidad
54
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y
Viviendas de 2001. Diseño de la interfaz
Selecting
filtering
values
Showing
filtering
variables
• Las variables también se pueden usar como filtros
• La actual versión de la interfaz solo permite valores de las variables
como criterios de filtro, pero no hay un “álgebra” de filtrado
•Se está construyendo una versión para usuarios avanzados
55
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y
Viviendas de 2001. Diseño de la interfaz
A simple toolbar
with most
common functions
Result
tables
have
OLAP
navigation
• Las tablas tienen potentes posibilidades OLAP
•Girar, ordenar, cambiar referencias geográficas,
cambiar unidades de medida, incluir sub-totales..
•Exportación a Excel y PC-Axis
• Gráficos, mapas
56
Instituto de
Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y
Viviendas de 2001. Diseño de la interfaz
• Charts, maps
57
Instituto de
Estudios Fiscales
8
Aprendizajes
58
Instituto de
Estudios Fiscales
Aprendizajes
• Seleccionar decuadamente el 1º proyecto (un censo
de población puede no ser el más adecuado)
• Contar con una dirección y un grupo de promotores
entusiastas
• Aceptar que en algún momento hay que parar el
proceso de depuración e imputación automática
• Gestionar el requerimiento de secreto estadístico de
una manera clara
59
Instituto de
Estudios Fiscales
Aprendizajes
• Seleccionar un proyecto adecuado :
– Muchas necesidades de difusión de datos quedan
suficientemente cubiertas con sistemas on-line
pseudo-OLAP
– Censos, grandes registros administrativos y
estadísticas no realizadas por muestreo son
candidatos naturales
– El nivel de detalle deseado es clave: una
tecnología al servicio de las estadísticas de areas
pequeñas.
60
Instituto de
Estudios Fiscales
Aprendizajes
• Contar con una dirección y un grupo de estadísticos
promotores entusiastas
– Se dice siempre en relación a los proyectos DW/BI: No es un
tópico
61
Instituto de
Estudios Fiscales
Aprendizajes
• Aceptar que en algún momento hay que
parar el proceso de depuración e imputación
automática
– Un sistema DW/BI es una “alarma” que detecta
los errores acumulados de toda operación
estadística o registro administrativo
62
Instituto de
Estudios Fiscales
Aprendizajes
• Gestionar el requerimiento de secreto estadístico de una manera clara:
– El uso de esta técnica de difusión de datos estadísticos puede provocar
problemas de confidencialidad: los procedimientos de seguridad tienen que
proteger frente a consultas repetitivas y recombinación de datos.
•
Se han seguido dos niveles de acción, entre varios posibles:
63
Instituto de
Estudios Fiscales
Aprendizajes
•
Gestionar el requerimiento de secreto estadístico de una manera clara:
• 1.- Controlar el número de variables asociables a una consulta
dependiendo de lo pequeña que pueda resultar la unidad geográfica
a que se refiera
Population
Up to 100 inhab.
Between 101 and 5000
inhab.
Between 5001 and 20000
inhab.
More than 20000 inhab.
Maximum number of variables in
a query
1 variable
2 variables
3 variables
There is no limit
64
Instituto de
Estudios Fiscales
Aprendizajes
•
Gestionar el requerimiento de secreto estadístico de una manera clara:
• 2.- Evitar el uso de clasificaciones muy detalladas en algunas
variables agrupandolas en grupos mas simples, menos
informativos
Variable
Age in five year groups
Country of previous
residence
Occupation code 2 digits
Occupation code 3 digits
Population scope for those offered
All
More than 100 inhab.
All
More than 20000 inhab.
65
Instituto de
Estudios Fiscales
Técnicas de difusión de grandes bases de
datos
La difusión censal abre una nueva ventana en las bases de datos del sistema estadístico público.
Armando de la Torre
Gracias por su atención
Jefe de Área Editorial
Instituto Nacional de
Estadística
España
[email protected]
66
Descargar