ESTADÍSTICA ESPAÑOLA Vol. 51, núm. 172, 2009, págs. 487 a 504 Integración de información administrativa y muestral en estadísticas económicas estructurales. La Encuesta Anual de Estructura Salarial por IGNACIO MORAL-ARCE Subdirección General de Estudios Presupuestarios y Gasto Público Instituto de Estudios Fiscales y ELISA MARTÍN Subdirección General de Estadísticas del Mercado Laboral Instituto Nacional de Estadística RESUMEN Este artículo presenta la Encuesta Anual de Estructura Salarial realizada por el INE que tiene como principal característica la utilización de registros administrativos y fiscales. Esta operación estadística combina la información de los ficheros de la Seguridad Social, los datos de la Encuesta Trimestral de Coste Laboral, una pequeña encuesta realizada por el INE y la información sobre las percepciones del trabajo del modelo 190: Resumen anual de Retenciones e Ingresos a Cuenta del IRPF de la Agencia Tributaria. En este trabajo mostramos los distintos cruces realizados con los ficheros administrativos, las características de los enlaces de ficheros y los identificadores utilizados. Palabras clave: Encuesta, Registro administrativo, enlace de ficheros, identificador Clasificación AMS: 91B40, 62P20 488 ESTADÍSTICA ESPAÑOLA 1. INTRODUCCIÓN A lo largo de las últimas décadas se han desarrollado numerosas iniciativas encaminadas a una mayor utilización de información administrativa con fines estadísticos (el Directorio Central de Empresas en los 90, entre otras propuestas), debido a que, durante este periodo, el número de operaciones estadísticas realizadas en España ha aumentado considerablemente, y muy especialmente las relacionadas con el ámbito de la empresa, lo que supone un alarmante aumento de carga al informante (para más detalles consultar los trabajos de Saralegui-Gil, 2003, 2006 y Frutos, 2006). La Encuesta Anual de Estructura Salarial (EAES) surge como respuesta a esta doble necesidad de utilizar ficheros administrativos con fines estadísticos reduciendo la carga informativa a las empresas. El origen de la EAES se encuentra en la Encuesta de Estructura Salarial (EES). En el año 1995 se realizó por primera vez la EES. Esta operación estadística presentaba una novedad principal frente a otras encuestas sobre materia salarial, que consistía en la captura de los salarios en el cuestionario de forma individual y, junto a ellos, de una gran cantidad de variables relacionadas con el trabajador. Gracias a esto era posible establecer relaciones entre el salario y algunas variables que pueden contribuir a determinar su cuantía como son el nivel de estudios alcanzado, la antigüedad, el tipo de contrato o la ocupación, entre otras. Tras los buenos resultados obtenidos, Eurostat consideró la necesidad de realizar este tipo de encuestas de forma periódica y para todos sus estados miembros, con objeto de salvar la enorme laguna en la información estadística disponible en materia salarial, debido a que, excepto por la encuesta realizada en 1995, se disponía casi exclusivamente de salarios agregados por empresa, establecimiento, o a lo sumo por colectivos más o menos homogéneos dentro de un establecimiento, pero nunca de información individual. Teniendo esto presente, Eurostat promovió la creación de un reglamento que regulase la realización de la EES de forma cuatrienal, siendo el primer año el 2002. La aportación más novedosa de la EES es que no sólo proporciona información de la ganancia media sino también la distribución de los salarios, y en consecuencia, una medida de su desigualdad. Los objetivos de la encuesta pueden así resumirse, fundamentalmente, en el conocimiento de los niveles salariales, no sólo de los niveles medios, sino también de su distribución, así como la determinación de la estructura del salario, tanto desde el punto de vista de la composición como de las variables que influyen en él, y la cuantía en que lo hacen(1). (1) Entre las múltiples aplicaciones que posee esta encuesta una de la más importante es el estudio de la brecha salarial entre hombre – mujer. INTEGRACIÓN DE INFORMACIÓN ADMINISTRATIVA Y MUESTRAL EN ESTADÍSTICAS… 489 Sin embargo esta operación estadística tiene una limitación importante debida a la longitud y complejidad del cuestionario, que da lugar a una carga elevada para el informante que tiene que recavar información individualizada de carácter muy heterogéneo (características personales del trabajador, de su puesto de trabajo, de la empresa, datos salariales mensuales, anuales, etc.).Como consecuencia de ello su periodicidad se limita, teniendo carácter cuatrienal, lo que a su vez origina que en los años entre encuestas se carezca de información oficial de los salarios clasificados por sexo y ocupación. Aparte de lo anteriormente mencionado, otro hecho de gran relevancia que es necesario tener presente, es la cantidad de información que se puede obtener de los ficheros administrativos. En España existen dos organismos (entre muchos otros), que son la Seguridad Social y la Agencia Tributaria, que poseen unas bases de datos con buena parte de la información que se pregunta en las encuestas de salarios, como es el sexo del trabajador, fecha de nacimiento, nacionalidad o ganancia anual entre otras variables. Teniendo presente por una parte los límites de la EES y por otra la existencia de ficheros administrativos, el objetivo de la Encuesta Anual de Estructura Salarial (EAES) es superar las limitaciones que tiene la EES, de tal forma que, mediante la utilización de ficheros administrativos y fiscales permita la obtención, con una periodicidad anual, de resultados sobre ganancia clasificada por edad, nacionalidad, tipo de contrato, etc. Todo ello evitando el aumento de la carga informativa a las empresas. Finalmente, otro de los objetivos planteados en la EAES consiste en que dado que las metodologías de la EES y de la EAES son muy similares es posible obtener una serie temporal que nos permita estudiar evoluciones y cambios en el tiempo(2). En este trabajo se describe la forma en que la EAES alcanza dichos objetivos. En la siguiente sección se muestra el ámbito de la encuesta así como el proceso de generación de la muestra. En la sección 3 se analizan las distintas bases de datos disponibles. El proceso de enlace de ficheros (“record linkage” en inglés) se describe en la sección 4. La sección 5 muestra los principales resultados. Finalmente, las conclusiones se presentan en la sección 6. (2) los años en que se realiza la EES no se realiza la EAES, por lo tanto la EES tiene años de referencia 2002, 2006, 2010, mientras que la EAES comienza en 2004, continuando en 2005,2007,etc. ESTADÍSTICA ESPAÑOLA 490 2. ÁMBITO DE LA ENCUESTA Y PROCESO DE SELECCIÓN MUESTRAL 2.1 Ámbito de la Encuesta El ámbito poblacional está formado por todos los trabajadores por cuenta ajena que prestan sus servicios en centros de cotización(3) (también llamados unidades locales) y que hayan estado de alta en la Seguridad Social al menos 2 meses durante un determinado año. Se excluyen los presidentes, miembros de consejos de administración y en, general, todo aquel personal cuya remuneración no sea principalmente en forma de salario, sino por comisiones o beneficios. El ámbito geográfico abarca todo el territorio nacional, con resultados desagregados por Comunidades Autónomas. En cuanto a la cobertura sectorial, se investigan los centros de cotización cuya actividad económica esté encuadrada en los tres grandes sectores: la Industria, la Construcción y los Servicios. Quedan excluidas de la encuesta las actividades agrícolas, ganaderas y pesqueras, la Administración Pública, Defensa, personal doméstico y organismos extraterritoriales. Finalmente, en el ámbito temporal, el periodo de referencia es el año natural (2004, 2005, 2007,....) 2.2 Proceso de Selección Muestral El procedimiento de selección aleatoria de unidades corresponde a un muestreo bietápico estratificado, donde las unidades de primera etapa son las unidades locales (centros de cotización), mientras que las de segunda etapa son los trabajadores. Los criterios de estratificación de la primera etapa son región, actividad económica y tamaño del centro de cotización. De la muestra de unidades primarias obtenida previamente se ha seleccionado aleatoriamente una relación nominal y representativa de asalariados, que depende del tamaño que tiene ese centro de cotización. La figura 1 muestra un esquema del proceso de selección muestral. (3) La Cuenta de Cotización es un código numérico que la Tesorería General de la Seguridad Social asigna a los empresarios y demás sujetos responsables del pago de cuotas al Sistema de la Seguridad Social. Se corresponde con los antiguos números patronales y de inscripción. INTEGRACIÓN DE INFORMACIÓN ADMINISTRATIVA Y MUESTRAL EN ESTADÍSTICAS… 491 Figura 1 PROCESO DE SELECCIÓN MUESTRAL Diseño de la Selección Muestral 1ª Etapa: Unidad local Población de unidades locales 2ª Etapa: Trabajadores En cada unidad local Población de trabajadores Muestra de trabajadores Muestra de Unid. Loc. en ETCL Para simplificar el proceso de muestreo y utilizar la información disponible en otras encuestas, la muestra a investigar en la primera etapa de la EAES es la misma que la de Encuesta Trimestral de Coste Laboral (ETCL), operación estadística que analizamos con más atención en la siguiente sección, por lo que se demandará información de aproximadamente 20.000 centros de cotización que constituyen la muestra trimestral de dicha encuesta. En referencia a los trabajadores, la muestra de trabajadores que se obtiene es de 170.000 asalariados. En la siguiente sección vamos a presentar las distintas fuentes de información utilizadas para realizar esta operación estadística. 3. FUENTES DE INFORMACIÓN Uno de los objetivos fundamentales de la EAES es la obtención de resultados de la ganancia anual, pero que esto no suponga una carga al informante. Por esta razón es necesario utilizar complementariamente diferentes fuentes de información. En esta encuesta se utilizan tres fuentes distintas: 492 ESTADÍSTICA ESPAÑOLA 3.1 INE - Encuesta Trimestral de Coste Laboral La Encuesta Trimestral de Coste Laboral (ETCL) es una operación estadística continua, de carácter coyuntural y periodicidad trimestral elaborada por el INE, que forma parte de los euroindicadores que Eurostat ha pedido a los países del área euro con el objeto de medir la convergencia de los costes laborales en los estados miembros de la UE. El ámbito poblacional de la ETCL son todos los centros de cotización cuya actividad económica se desarrolle en la industria, construcción o servicios. El tamaño muestral de la encuesta es de 20.000 establecimientos aproximadamente. La ETCL proporciona niveles e indicadores sobre el coste laboral medio por trabajador y mes, el coste laboral medio por hora efectiva de trabajo y el tiempo trabajado y no trabajado. La ETCL nos ofrece toda la información asociada con los centros de cotización (NIF de empresa, comunidad autónoma, rama de actividad, tamaño de empresa,…) 3.2 Seguridad Social - Fichero General de Afiliación El Fichero General de Afiliaciones de la Tesorería General de la Seguridad Social contiene la lista de trabajadores en alta en diferentes centros de cotización durante el año de referencia. La identificación de los distintos trabajadores se realiza mediante el número de Seguridad Social, que es único para cada trabajador. Este número de Seguridad Social funciona como un “identificador”. A partir de estas listas de trabajadores, y después de una serie de controles y criterios de depuración, se obtendrá el marco (o población) del que se seleccionará la muestra de trabajadores que formarán parte de esta investigación. Además, la información que ofrece el Fichero General de Afiliación es de gran relevancia, ya que suministra para cada trabajador el NIF, fecha de nacimiento, nacionalidad, sexo, fecha de alta y de baja, el tipo de relación y contrato laboral así como el grupo de cotización entre otra mucha información. 3.3 Agencia Tributaria(4) - Modelo 190: Resumen anual de Retenciones e Ingresos a Cuenta del IRPF. El modelo 190 está previsto en el Reglamento del Impuesto sobre la Renta de las Personas Físicas, que establece en el apartado 2 del artículo 101 que todo retenedor u obligado a ingresar a cuenta deberá presentar un resumen anual de las retenciones e ingresos a cuenta efectuados, en el que además de constar sus (4) Las retenciones e Ingresos a Cuenta del IRPF provienen de la Agencia Estatal de la Administración Tributaria (AEAT) para el territorio fiscal común y de la Hacienda Foral de Navarra. INTEGRACIÓN DE INFORMACIÓN ADMINISTRATIVA Y MUESTRAL EN ESTADÍSTICAS… 493 datos de identificación, se incluirá una lista de los perceptores en la que figuren para cada uno de ellos los datos que se hayan tenido en cuenta para determinar el tipo de retención o ingresos a cuenta. Los datos que se incluyen en el modelo 190 son la identificación del declarante o pagador así como la del perceptor, que se identifican por el NIF. Además, del perceptor se tiene información del nombre y apellidos y provincia del domicilio. Sobre las percepciones, el fichero 190 tiene información de la clave (sólo nos interesa la clave A: empleados por cuenta ajena en general), percepción íntegra (importe total anual de las percepciones dinerarias efectivamente satisfechas), retención practicada (total anual retenido), valoración de los pagos en especie (suma de las valoraciones correspondientes a las percepciones en especie efectivamente satisfechas en el año), ingresos a cuenta efectuados (ingreso efectivamente realizado por el pagador), y los ingresos a cuenta repercutidos (los realmente repercutidos al perceptor). Es necesario resaltar que la AEAT exclusivamente gestiona el IRPF del territorio fiscal común, mientras que las Haciendas Forales regulan este impuesto en las Comunidades Autónomas de Navarra y País Vasco. Por tanto, para obtener datos tributarios de la totalidad del territorio español es necesario disponer de la información descrita en este apartado procedente tanto de la AEAT como de las diferentes Haciendas Forales de Navarra y el País Vasco. Sin embargo, cabe destacar que hasta la fecha no se ha podido contar con la colaboración de las Haciendas Forales del País Vasco (cuestión aún en trámite), por lo que para estos territorios se envía un cuestionario más amplio solicitando a los informantes las variables fiscales que se obtienen de las agencias para el resto del territorio español. Una vez vistos los distintos registros que se van a utilizar, así como las variables más importantes que ofrece cada uno de ellos, en la siguiente sección se presenta como es el proceso de enlace de registros, y la obtención de las distintas variables objeto de estudio en la EAES. 4. PROCEDIMIENTO DE ENLACE DE REGISTROS La construcción de la EAES se realiza en 4 etapas, como se muestra en la Figura 2. Se observa que inicialmente se parte de la información suministrada por la ETCL, que es una muestra representativa del universo de Centros de Cotización existente en España en los sectores de la industria, construcción y servicios. ESTADÍSTICA ESPAÑOLA 494 Con esos Centros de cotización se solicita información a la Seguridad Social sobre los trabajadores pertenecientes a esas unidades locales durante el año de referencia. Mediante el Fichero General de Afiliaciones de la Seguridad Social se obtiene el directorio de trabajadores en ese centro y se realiza un muestreo sistemático para cada uno de los centros. Se envía un cuestionario a los centros de cotización para contestar preguntas sobre ocupación y funciones de los individuos seleccionados. Finalmente, con aquellos trabajadores de los cuales se tenga toda la información anterior, se solicita a la Agencia Tributaria información sobre las ganancias que ha tenido ese asalariado seleccionado en el centro de cotización también seleccionado durante el año de estudio. Figura 2 ETAPAS DE LA EAES Muestra de unidades primarias: unidades locales en ETCL - INE Fichero General de afiliaciones – Seguridad Social – (trabajadores asociados a unidades locales) Cuestionario enviado a muestra de trabajadores de unidades locales Modelo 190 – Resumen anual de Retenciones a Ingresos a cuenta de IRPF – Agencia Tributaria (AEAT) Los elementos fundamentales para realizar todo este procedimiento son los identificadores, que van a permitir el enlace de registros en cada una de las etapas. Como ya se ha mencionado en la sección anterior, en la EAES existen dos unidades estadísticas básicas – la unidad local en primera etapa y los trabajadores en segunda etapa. Como se puede observar en la figura 3, las unidades estadísticas (ya sean de primera o segunda etapa) no presentan el mismo identificador en el fichero de la Seguridad Social y en el de la Agencia Tributaria. Por lo tanto, existe el problema de ausencia de identificador único para las unidades de la encuesta, ya que el primero de los identificadores (número de Seguridad Social) es exclusivo del fichero de la Seguridad Social, mientras que el NIF es el que se utiliza para identificar en el fichero de la Agencia Tributaria. INTEGRACIÓN DE INFORMACIÓN ADMINISTRATIVA Y MUESTRAL EN ESTADÍSTICAS… 495 Figura 3 IDENTIFICADORES Unidades locales Cuentas de Cotización Identificador de Seguridad Social: 11 dígitos Trabajadores Identificador de Agencia Tributaria: 9 dígitos (NIF) Identificador de Seguridad Social: 12 dígitos Identificador de Agencia Tributaria: 9 dígitos (NIF) 4.1 Primera Etapa: Muestra de Unidades Locales (Centros de Cotización) La ETCL además de proporcionar las unidades muestrales de primera etapa, ofrece información sobre la rama de actividad, el tamaño y región donde se encuentra localizado el centro de cotización entre otras variables. En la figura 4 se observa un resumen de la información que vamos a utilizar de esta fuente de información. Figura 4 PRIMERA ETAPAFICHERO DE ETCL Región – CCAA CNAE Ident. SS unidad loc. (NSS: 11 dígitos) Ident. AEAT unidad loc. (NIF: 9 dígitos) Horas trabajadas Encuesta Trimestral de Coste Laboral - INE 496 ESTADÍSTICA ESPAÑOLA 4.2 Segunda Etapa: Universo de Trabajadores asociados a los Centros de Cotización Partiendo de la información ofrecida en la etapa anterior, se solicita a la Seguridad Social información sobre los trabajadores pertenecientes a esos Centros de Cotización durante el año de referencia. Para ello utilizamos como identificador de la unidad local los 11 dígitos del número de la Seguridad Social. Mediante el enlace exacto de registros (“exact record linkage” en inglés) la Seguridad Social proporciona las siguientes variables Unidad Local – Identificador de la SS: 11 dígitos Trabajador – Identificador de la SS: 12 dígitos Fecha de nacimiento Sexo Nacionalidad Información de cada una de las relaciones laborales de cada trabajador en cada centro de trabajo (tipo de contrato, fecha de alta y fecha de baja). La figura 5 muestra la información que se obtiene en esta etapa, que hace referencia al trabajador (unidad secundaria), junto con la que se obtiene en la etapa previa referida fundamentalmente a la unidad primaria (centro de cotización). Con la información recibida de la Seguridad Social ya se dispone del directorio de trabajadores en cada uno de los Centros de Cotización(5). (5) Este fichero ofrece la vida laboral del trabajador suministrando información de todos los contratos que ha tenido un determinado asalariado. Previo a la depuración de los trabajadores, es necesario agregar todos los contratos que ha tenido un trabajador en un determinado centro de cotización. INTEGRACIÓN DE INFORMACIÓN ADMINISTRATIVA Y MUESTRAL EN ESTADÍSTICAS… 497 Figura 5 SEGUNDA ETAPA – FICHERO GENERAL DE AFILIACIÓN DE LA SS Ident. SS trabajador (NSS: 12 dígitos) Ident. AEAT trabajador (NIF: 9 dígitos) Nacionalidad Edad Sexo Tipo de contrato Tipo de jornada Días trabajados Población trabaj. en unidad local Muestra trabaj. en unidad local Estrato unidad local Región – CCAA CNAE Ident. SS unidad local (NSS: 11 dígitos) Ident. AEAT unidad local (NIF: 9 dígitos) Horas trabajadas Encuesta Trimestral de Coste Laboral - INE SS – Fichero General de Afiliaciones Inicialmente se realiza un proceso de depuración de la población de los trabajadores en cada unidad local, eliminando aquellos que no cumplan las siguientes condiciones: completitud de la información, es decir, que se tenga información de todas las variables el trabajador debe estar de alta en ese centro de cotización al menos durante 2 meses, con el objeto de obtener un valor significativo de las ganancias anuales en una de las etapas posteriores. El trabajador debe tener contrato durante el mes de octubre, aquellos trabajadores que no tienen relación laboral en este mes son eliminados. Este criterio es necesario para mantener la “coherencia” con los trabajadores seleccionados en la EES cuatrienal (uno de los objetivos de la EES es obtener la ganancia mensual de octubre de los trabajadores seleccionados). Una vez realizada la depuración del directorio, la muestra final de trabajadores se obtiene mediante un muestreo sistemático (por las variables grupo de cotización y sexo). Con esta muestra de unidades secundarias ya se puede pasar a la tercera etapa. ESTADÍSTICA ESPAÑOLA 498 4.3 Tercera Etapa: Envío de cuestionario a los centros de cotización seleccionados Una de las características más importantes que presentan las encuestas de salarios es la relación existente entre el salario y la ocupación del trabajador(6). Sin embargo, los ficheros administrativos no ofrecen información fiable sobre esta variable, así que es necesario preguntárselo de forma directa al informante. Para ello se envía un cuestionario a las unidades locales solicitando información sobre la ocupación y funciones que desempeña el trabajador seleccionado en la encuesta. Las respuestas obtenidas sobre estas dos preguntas se utilizan para codificar a 2 dígitos de la Clasificación Nacional de Ocupaciones de 1994 (C.N.O.-94). La figura 6 muestra la relación de variables disponibles tras la realización de esta etapa(7). Figura 6 CUARTA ETAPA – MODELO 190 DE AGENCIA TRIBUTARIA Ident. SS trabajador (NSS: 12 dígitos) Ident. AEAT trabajador (NIF: 9 dígitos) Nacionalidad Edad Sexo Tipo de contrato Tipo de jornada Días trabajados Población trabaj. en unidad local Muestra trabaj. en unidad local Estrato unidad local Región – CCAA CNAE Ident. SS unidad loc. Ocupación (NSS: 11 dígitos) Funciones Ident. AEAT unidad loc. (NIF: 9 dígitos) Horas trabajadas CNO – 2 dígitos Cuestionario Encuesta Trimestral de Coste Laboral - INE SS – Fichero General de Afiliaciones (6) Otra variable de gran importancia es la educación, que tampoco se obtiene de forma adecuada en los ficheros administrativos. Sin embargo, en el cuestionario no se solicita información sobre educación ya que se ha considerado que es mucho más importante no aumentar la carga al informante que obtener información de esta variable. (7) Como se ha indicado previamente para los centros de cotización en País Vasco se amplía el cuestionario, solicitando información referente a variables fiscales. INTEGRACIÓN DE INFORMACIÓN ADMINISTRATIVA Y MUESTRAL EN ESTADÍSTICAS… 4.4 499 Cuarta Etapa: Ganancias del Trabajador Una vez recibida la respuesta de las unidades informantes sobre ocupación y realizada la codificación de C.N.O.-94, en la última etapa se solicita a la Agencia Tributaria información de las ganancias que los trabajadores seleccionados han tenido en ese centro de cotización. Para realizar este cruce entre trabajador y empresa utilizamos como identificador de ambos los 9 dígitos del NIF. Mediante un enlace exacto de registros la Agencia Tributaria obtiene información de las siguientes variables Unidad Local – Identificador de la Agencia Tributaria (NIF): 9 dígitos Trabajador – Identificador de la Agencia Tributaria (NIF): 9 dígitos Ganancia anual (Retribuciones dinerarias y valoraciones en especie). Finalizado todo el proceso de selección de variables, la Figura 7 muestra como queda la matriz final de datos y cual es la fuente de cada uno de ellos. Figura 7 CUARTA ETAPA – MODELO 190 DE LA AGENCIA TRIBUTARIA Ident. SS trabajador (NSS: 12 dígitos) Ident. AEAT trabajador (NIF: 9 dígitos) Nacionalidad Edad Sexo Tipo de contrato Tipo de jornada Días trabajados Población trabaj. en unidad local Muestra trabaj. en unidad local Estrato unidad local Región – CCAA CNAE Ident. SS unidad loc. (NSS: 11 dígitos) Ident. AEAT unidad loc. (NIF: 9 dígitos) Horas trabajadas Ocupación Ganancia anual Funciones CNO– 2 dígitos Retenciones IRPF Modelo 190 Cuestionario Encuesta Trimestral de Coste Laboral - INE SS – Fichero General de Afiliaciones ESTADÍSTICA ESPAÑOLA 500 Teniendo presente las múltiples etapas en la generación de la base de datos, y que esta operación estadística utiliza distintas fuentes de datos (información de ficheros administrativos, fiscales y del propio INE), empleando para ello diferentes identificadores es necesario analizar la evolución de la pérdida de unidades estadísticas (de primera y segunda etapa) en las distintas etapas. La figura 8 muestra la cobertura de la encuesta para el primer año de referencia (2004). Figura 8 EVOLUCIÓN DE LA COBERTURA Tasa de cobertura (19.920 unidades locales) ETCL Tasa de cobertura (166.248 (trabajadores) 100,00 Fichero General de Afiliaciones de la S. Social y depuración 96,82 100,00 Cuestionario 87,87 89,44 Agencia Tributaria 85,22 87,55 La cobertura final de muestra alcanza a más del 85% de las unidades estadísticas, ya sean éstas primarias o secundarias. Como se observa en la tabla el proceso de depuración de los datos implica la perdida del 4% de unidades locales, ya que es posible que todos los trabajadores asociados a un determinado centro de cotización no verifiquen las condiciones impuestas inicialmente, como, por ejemplo, estar de alta al menos dos meses en el año. 5. PRINCIPALES RESULTADOS Un elemento particular de esta operación estadística, a diferencia de la EES, es que no existe la posibilidad de disponer de un fichero de microdatos debido al uso de información procedente de registros fiscales. Los acuerdos existentes entre el INE y la AEAT y entre el INE y el Instituto de Estadística de Navarra (este último afecta a los datos suministrados por la Agencia Foral de dicha Comunidad) establecen que los ficheros de microdatos permanecen en poder de las agencias tributarias, de forma que el INE recibe un fichero con los datos ya elevados a la población que es el que se usa para realizar el plan de tabulación. INTEGRACIÓN DE INFORMACIÓN ADMINISTRATIVA Y MUESTRAL EN ESTADÍSTICAS… 501 La publicación de resultados de la EAES presenta como característica fundamental el hecho de incluir la variable sexo como variable de clasificación. La información que esta encuesta suministra se puede clasificar en tres categorías principales: Información de la distribución salarial Porcentaje de trabajadores en función de su ganancia con respecto al Salario Mínimo Interprofesional (SMI) por tipo de jornada y sexo, así como los principales percentiles y cuantiles de la ganancia anual para el total nacional y las comunidades autónomas. Información sobre ganancia anual según las variables actividad económica, ocupación, tipo de contrato, tipo de jornada, nacionalidad y edad. Este apartado se divide a su vez, según se refieran al total nacional o a las comunidades autónomas (CC.AA) debido a que, bien por el diseño muestral, bien por limitaciones del tamaño muestral, el detalle de las variables varía. Así, por ejemplo, mientras que para el total nacional la variable actividad económica desciende a sección de actividad de la CNAE-93, por CC.AA sólo puede obtenerse por sectores de actividad (industria, construcción y servicios) debido al diseño muestral. En el caso de la variable ocupación, para el total nacional se ha podido obtener por grupos principales de la C.N.O-94, sin embargo, por CC.AA ha sido necesario agrupar las ocupaciones en tres grandes categorías, debido a la falta de observaciones muestrales en muchas celdas si se usaban los grandes grupos de ocupación. La variable tipo de jornada ha tenido que suprimirse en la explotación de las tablas por CC.AA debido a la falta de representatividad de los resultados por escasez muestral. Información de ganancia hora Se obtienen tablas de ganancia por hora normal de trabajo clasificadas por las variables actividad económica, ocupación y tipo de contrato. En la siguiente sección se presentan las conclusiones de este trabajo. ESTADÍSTICA ESPAÑOLA CONCLUSIONES Este artículo describe la utilización de ficheros administrativos y fiscales para la realización de una nueva encuesta estructural. En especial estudiamos una nueva operación estadística, la Encuesta Anual de Estructura Salarial, que utiliza varias fuentes de información. La conclusión más importante que se puede obtener de este trabajo es que es indispensable explotar la gran riqueza informativa disponible en los ficheros administrativos de la Seguridad Social y la Agencia Tributaria antes de establecer nuevas encuestas. La mayoría de la información utilizada en la EAES se obtiene a partir de los ficheros de la Seguridad Social y de la Agencia Tributaria. Como además se utiliza la muestra de centros de cotización de la ETCL, sólo es necesario obtener mediante encuesta adicional la ocupación del trabajador, por lo que la carga informativa de esta operación estadística se ve extraordinariamente reducida. De esta forma, dado que la Encuesta de Estructura Salarial –cuatrienal a partir del año 2002- se ve complementada en los años entre encuestas con la EAES, mediante la explotación de los ficheros descrita en este documento, es posible obtener una serie temporal homogénea ya que las dos encuestas se realizan con metodologías muy similares, permitiendo disponer de datos salariales por ocupación y sexo de forma anual. Una característica de la EAES, que la diferencia notablemente de la EES, es la imposibilidad de difusión de los microdatos, que limita el uso de esta operación estadística por parte de los usuarios de este tipo de información. Finalmente, la no disponibilidad de la información de las Haciendas Forales del País Vasco es un aspecto que se espera se resuelva en breve. Mientras tanto, la realización de la EAES da lugar a un agravio comparativo de los informantes vascos respecto al resto del territorio de España ya que deben cumplimentar un cuestionario más amplio. Además, los costes de recogida se verían reducidos si se dispusiera de la información fiscal para esta Comunidad Autónoma. INTEGRACIÓN DE INFORMACIÓN ADMINISTRATIVA Y MUESTRAL EN ESTADÍSTICAS… REFERENCIAS DENK, M. AND HACKL, P. (2003) «Data integration and record matching and Austrian contribution to research in official statistics» Austrian Journal of Statistics, 32, 305-321. FRUTOS, R. (2006) «La estadística económica de base administrativa: ¿Para cuando el gran salto adelante?». El papel de los registros administrativos en el análisis social y económico y el desarrollo del sistema estadístico nacional. Seminario Internacional. Instituto de Estudios Fiscales, Madrid. HASLINGER, A. (1997) «Data matching for the maintenance of the bussines register of statistics Austria». Methods and Techniques, 199-209. LEY ORGÁNICA 15/1999, de 13 de diciembre, de Protección de Datos de Carácter Personal. LEY ORGÁNICA 5/1992, de 29 de octubre, de Regulacion del tratamiento Automatizado de Datos de Carácter Personal MORAL-ARCE, I. AND MARTÍN, E. (2006) «Aprovechamiento de los registros administrativos en las encuestas: La encuesta Anual de Estructura Salarial». IV Congreso de Metodología en Encuestas. Pamplona. SARALEGUI-GIL, J. (2003) «Integration of external data from Tax and Public accounts in the Central Business Register». J.ISI, Berlín. SARALEGUI-GIL, J. (2006) «El uso estadístico de las fuentes administrativas como factor de cohesión territorial». El papel de los registros administrativos en el análisis social y económico y el desarrollo del sistema estadístico nacional. Seminario Internacional. Instituto de Estudios Fiscales, Madrid. ESTADÍSTICA ESPAÑOLA COMBINATION OF ADMINISTRATIVE AND SURVEY DATA FOR STRUCTURAL BUSINESS STATISTICS: ANNUAL STRUCTURE OF EARNINGS SURVEY ABSTRACT This work presents the Annual Structure of Earnings Survey, carried out by INE (Spain), which has as its main feature the use of administrative and tax records for obtaining results. For this purpose this survey combines information from Social Security files, data from the Quarterly Labour Cost Survey, a small survey conducted by the INE, and the information on income from form 190: Annual Summary of the Tax Agency Personal Income Tax (IRPF) Withholdings and Advance Payments on Account. The different cross-checks run with the administrative files, the features of the statistical matching and the identifier keys used for this purpose are all shown. Key words: Survey, administrative record, record linkage, identifier key AMS Classification: 91B40, 62P20