MÉTODOS NO-PARAMÉTRICOS EN EL ANÁLISIS DE LAS DESIGUALDADES SALARIALES. Catalina Bolancé Departamento de Econometría, Estadística y Economía Española Universitat de Barcelona C/. Teniente Coronel Valenzuela, 1-11 08034 Barcelona Telf: 934021010 - Fax: 934021821 E-mail: [email protected] Montserrat Guillén Departamento de Econometría, Estadística y Economía Española Universitat de Barcelona C/. Teniente Coronel Valenzuela, 1-11 08034 Barcelona Telf: 934021834 - Fax: 934021821 E-mail: [email protected] RESUMEN El trabajo se centra en el análisis de las desigualdades de los salarios en España, y para ello utiliza la información estadística de la Encuesta de Presupuestos Familiares de 1990. La metodología empleada se basa en procedimientos no-paramétricos recientes y permite: a) comparar globalmente la forma de la distribución para distintas subpoblaciones, b) estudiar las diferencias entre cuantilas para diferentes grupos y evaluar su progresión atendiendo a factores como la edad o el nivel de educación, c) valorar dichas diferencias según la interacción entre los factores y, finalmente, d) poder inferir resultados sobre la distribución de salarios elevados, superiores al rango observado en la muestra. La organización del trabajo es la siguiente. El primer apartado resume la literatura sobre el estudio de salarios y concretamente, destaca los inconvenientes que los supuestos paramétricos ocasionan en el análisis. El segundo apartado describe brevemente la información estadística y la metodología utilizada. El tercer apartado presenta los resultados de la estimación de las curvas de salarios para el total de la población, para hombres y mujeres, para tres grupos de edades y en cuatro categorías de nivel educativo. Se analizan también las diferencias entre la distribución de los salarios asociada a las subpoblaciones resultantes de las interacciones dos a dos y tres a tres entre las categorías de la variables sexo, edad y nivel de educación. Una de las principales aportaciones consiste en analizar los resultados extremos que van más allá de la información muestral, es decir, poder concluir cuál es el comportamiento en el rango de los salarios más elevados. La metodología utilizada permite calcular los denominados “tail index”, los cuales sintetizan el comportamiento de los salarios más elevados y para los cuales la información estadística usualmente disponible es más escasa. Palabras clave: salarios, función de densidad, estimación no-paramétrica, tail index. 2 1. INTRODUCCIÓN El análisis de la distribución de la renta y de los ingresos por distintos conceptos posee un importante papel debido principalmente a tres motivos: 1) El primero y más general es la influencia que la distribución de las rentas puede tener a la hora de definir las políticas económicas, dirigidas al mejor reparto de la riqueza de un país. 2) El segundo es el estudio del efecto que estas políticas poseen en la propia distribución de la renta. 3) El tercero es el análisis de las diferencias existentes entre las rentas de determinados subgrupos de población, atendiendo a sus características socioeconómicas Este último estudio define el principal objetivo de este trabajo. Los métodos no paramétricos permiten estudiar la estrutura probabilística de la población a partir de información muestral (ver Silvernan, 1986, Delgado y Robinson, 1992 y Cao et al., 1997). En el contexto del análisis de la distribución de la renta, a partir de los resultados de la estimación núcleo de la función de densidad, Cao et al. (1997) concluyen que la distribución lognormal "is not suitable for representing the income family distribution". En este trabajo se analizan las rentas laborales que se recogen en la Encuesta de Presupuestos Familiares Española para el año 1990 (EPF90) y se utiliza la estimación núcleo de la función de densidad para el análisis de su distribución. Los resultados que aquí se presentan muestran cómo la función de densidad se aleja de las que comúnmente se han utilizado en este contexto (lognormal, gamma, etc.). Para superar la dificultad de estimación de densidades muy asimétricas, utilizamos un procedimiento de transformación que permite mejores ajustes globales (ver, Wand et al., 1991; Bolancé, Guillén, Nielsen , 2000). Para seleccionar la transformación adecuada se implementa la metodología que con este propósito se describe en Bolancé (1999), con la que se obtienen resultados más eficientes. Los trabajos en los que se ha utilizado la estimación núcleo de la función de densidad con ventana fija para el análisis de la distribución de la renta reflejan la problemática de esta aproximación. Por ejemplo, Marron y Schmitz (1992) utilizan la estimación núcleo de la función de densidad con ventana fija para estudiar la distribución de la renta en el Reino Unido en todos los años que comprenden el período del 1968 al 1983. Estos autores observan una forma bimodal en la distribución de la renta asociada a cada año, y comprueban cómo dicha forma se debe a las diferencias existentes entre la renta de los pensionistas, que en su mayoría se sitúan en la primera moda, y las rentas de los que no son pensionistas, que en su mayoría se sitúan en la segunda moda. Independiente Wand et al. (1991), utilizando los mismos datos que los anteriores autores, obtienen la estimación núcleo transformada de la función de densidad asociada a la renta en 1975, detectando cómo la estimación núcleo con ventana fija tiende a subestimar la importancia de la primera moda. Al reducir el valor del parámetro de alisamiento en dicha aproximación el resultado subalisa la densidad en la segunda moda de la distribución. En cambio, utilizando la estimación núcleo transformada no se presentan estas dificultades. Otro ejemplo en el que se utiliza la estimación núcleo de la función de densidad con ventana fija es el trabajo de Gerfin (1994). Con el objetivo de corregir el sesgo asociado a la estimación núcleo con ventana fija, la estimación núcleo transformada ya se ha utilizado en diversos trabajos de economía aplicada. En todos los casos se realiza una transformación logarítmica de los datos Deaton (1988), Gouveia y Tavares (1995) y DiNardo et al. (1996). En este sentido el trabajo presentado contiene dos innovaciones: en primer lugar el estudio de la distribución de los salarios en España mediante técnicas no-paramétricas que superan a las presentadas por Cao et al (1997) y, en segundo lugar, se establecen comparaciones por segmentos de la población y se analiza el comportamiento en la zona de salarios más elevados, en los que la información estadística es más escasa. 3 2. DATOS Y METODOLOGÍA La variable de interés mide el salario neto anual para un individuo. Los datos se han tomado de la EPF90 elaborada por el INE (Instituto Nacional de Estadística), cuyo principal objetivo es recoger información estadística sobre las rentas y los gastos en los hogares, acompañada de otras variable socio-demográficas. Las unidades muestrales principales son los hogares, siendo la unidad muestral final los individuos que residen en dichos hogares. Para minimizar los efectos de factores exógenos relacionados con el tiempo trabajado durante el año, se han seleccionado únicamente individuos mayores de 25 años que no trabajen en el sector agrícola, que no sean trabajadores por cuenta propia y que perciban un salario. Finalmente, la muestra contiene 13.784 individuos. Para describir el comportamiento se distingue entre hombres y mujeres, nivel de estudios y años de experiencia. Los niveles de experiencia se han construido teniendo en cuenta la relación existente entre esta variable y la edad de los asalariados. El primer nivel se corresponde con aquellos individuos con edades comprendidas entre 25 y 39 años, el segundo nivel con aquellos cuya edad se sitúa entre 40 y 54 años y en el tercer nivel se sitúan los asalariados con 55 años o más. En las tablas 1, 2 y 3, se presentan respectivamente el análisis descriptivo de las rentas laborales para el total de la muestra y para cada una de las categorías de las variables exógenas consideradas. Posteriormente, en las tablas 4, 5 y 6 se apuntan los principales estadísticos descriptivos asociados a los subgrupos de asalariados resultantes de interaccionar el nivel de estudios con el sexo, el nivel de estudios con la experiencia y el sexo con la experiencia. Posteriormente, en la cuarta sección, se compararán las distribuciones de probabilidades asociadas a las rentas laborales según las características de los individuos. Tabla 1 Salario neto según datos de la EPF90. Estadísticos descriptivos por nivel de educación. N Media Mediana Desv. Estand. Asimetría Total 13.784 1.316.081 1.219.000 825.184 10,54 Sin estudios 1.228 907.363 954.307 551.960 5,07 Primarios 7.080 1.123.530 1.120.000 595.035 4,11 Secundarios 2.963 1.408.834 1.330.000 999.601 22,94 Superiores 2.513 1.948.928 1.832.000 902.440 1,82 Tabla 2 Salario neto según datos de la EPF90. Estadísticos descriptivos por sexos. N Media Mediana Desv. Estand. Asimetría Total 13.784 1.316.081 1.219.000 825.184 10,54 4 Hombres 9.692 1.440.746 1.296.000 866.741,3 12,56 Mujeres 4.092 1.020.810 945.031 624.909 1,19 Tabla 3. Salario neto según datos de la EPF90. Estadísticos descriptivos por edad. N Media Mediana Desv. Estand. Asimetría Total 13.784 1.316.081 1.219.000 825.184 10,54 25-39 7.296 1.197.032 1.128.707 654.073,3 2,31 40-54 4.781 1.475.298 1.340.383 1.015.235 14,62 ≥55 1.707 1.378.981 1.260.112 805.257,5 2,67 Tabla 4. Salario neto según datos de la EPF90. Estadísticos descriptivos por niveles de educación y sexo. N Media Mediana Desv. Estand. Asimetría Sin Estudios Primarios Secundarios Hombres Mujeres Hombres Mujeres Hombres Mujeres 886 342 5.330 1.750 2.005 958 1.044.706 551.556,8 1.250.200 737.727,2 1.575.198 1.060.651 1.092.681 530.200 1.200.000 648.644 1.540.000 1.030.000 552.978,6 355.881,1 583.555,9 444.596,2 1.127.724 500.155,4 6,57 0,75 5,12 3,28 23,24 0,79 Superiores Hombres Mujeres 1.471 1.042 2.186.443 1.613.624 2.100.000 1.678.500 996.461,4 608.948,6 1,83 0,33 Tabla 5. Salario neto según datos de la EPF90. Estadísticos descriptivos por niveles de educación y edad. N Media Mediana Desv. Estand. Asimetría 25-39 247 804.145,9 837.499 427.817,2 0,12 Sin Estudios 40-54 611 948.937,6 980.000 639.886,9 6,45 ≥55 370 907.614,8 968.000 451.847,8 -0,07 25-39 3.412 976.631 960.000 540.387,9 5,76 Primarios 40-54 2.719 1.266.269 1.247.000 607.398,4 3,04 ≥55 949 1.242.720 1.209.125 620.582,1 4,68 Tabla 5. (Continuación) N Media Mediana Desv. Estand. Asimetría 25-39 2.106 1.237.998 1.180.000 559.536,7 0,81 Secundarios 40-54 704 1.824.657 1.689.709 1.687.057 19,35 ≥55 153 1.847.024 1.694.000 757.350,5 1,10 5 25-39 1.531 1.695.252 1.680.000 738.004,9 0,91 Superiores 40-54 747 2.337.426 2.145.000 998.760,9 2,32 ≥55 235 3.068.225 2.838.366 1.515.086 3,33 Tabla 6. Salario neto según datos de la EPF90. Estadísticos descriptivos por sexo y edad. N Media Mediana Desv. Estand. Asimetría 25-39 4.669 1.299.081 1.200.000 665.491 2,81 Hombres 40-54 3.688 1.601.892 1.421.595 1.061.045 16,34 ≥55 1.335 1.491.027 1.309.514 807.195,3 3,12 25-39 2.627 1.015.658 960.000 591.411,5 1,32 Mujeres 40-54 1.093 1.048.146 916.000 688.300,2 0,98 ≥55 372 976.880 872.500 657.005,7 1,12 La estimación núcleo de la función de densidad fue propuesta independientemente por Rosenblatt (1956) y Parzen (1962). Sea X1, ..., Xn una muestra de observaciones independiente de la variable aleatoria x con función de densidad fx desconocida, la estimación núcleo de dicha función de densidad viene dada por: f̂ x (x ) = 1 nh n n x − Xi hn ∑ K i =1 , [1] donde K es la función núcleo, n es el tamaño de la muestra y hn es la amplitud de ventana o parámetro de alisamiento de la estimación. Normalmente, K es una función de densidad simétrica y definida paramétricamente. La selección de K afecta a la estimación al transferirle sus propiedades de continuidad y derivabilidad. El valor de hn tiene un gran impacto sobre la forma de la estimación, cuanto mayor sea hn más alisada será la estimación y viceversa. Cuando hn es el mismo en todo el dominio de fx la estimación se denomina estimador núcleo con ventana fija. La selección de hn ha sido estudiada por varios autores. Tradicionalmente, se han utilizado algunos errores de medida para obtener el valor de hn. Un análisis completo de los métodos de alisamiento puede encontrarse en Silverman (1986) y en Wand y Jones (1995). El estimador núcleo mostrado en [1] conduce a resultados asintóticamente óptimos, siendo consistente si nhn→+` y hn→0 cuando n→+∞. La estimación núcleo de la función de densidad con ventana fija tiene varios inconvenientes. Cuando la densidad posee forma asimétrica, dicho estimador sobrealisa la zona donde hay mayor masa de probabilidad y subalisa la cola. Desafortunadamente, los datos económicos suelen mostrar fuerte asimetría, ejemplo de ello son los salarios, costes y gastos. Las soluciones alternativas propuestas en la literatura se basan en la estimación núcleo variable (ver Silverman, 1986 y Terrell y Scott, 1992). Dichas propuestas no garantizan las propiedades básicas de la función de densidad en la estimación, es decir, que sea positiva en todo su dominio y que integre uno (ver también Hall, 1992, Hall et al., 1995 y Sain y Scott, 1996). Diversos autores han estudiado los errores de la estimación núcleo con ventana fija cuando los datos son asimétricos. Se parte del trabajo de Wand et al. (1991), ellos proponen transformar los datos originales utilizando la familia de transformaciones de potencias con una traslación (shifted power transformation family), estimar la función de densidad de los datos transformados y, finalmente, mediante el apropiado cambio de variable, obtener la función de densidad estimada para los datos originales. A esta aproximación se le denomina estimación núcleo transformada y equivale a: 6 f̂ x (x, g ë )= g ë ' (x)f̂ y (y ) = g ë ' (x ) n g ë (x ) − g ë (X i ) . ∑ K nh n i =1 hn [2] La familia de transformaciones de potencias con una traslación se denota por gλ(x) y se expresa del siguiente modo: (x + ë 1 )ë 2 g ë (x )= ln (x +ë 1 ) sign (ë 2 ) if ë 2 ≠0 if ë 2 =0 [3] donde λ=(λ1,λ2). Esta familia depende de dos parámetros λ1>−min(X1, X2, ..., Xn) que es la traslación y λ2 que es la potencia. El par λ=(λ1,λ2) determina la concavidad-convexidad de la transformación. Sin pérdida de generalidad consideramos el caso en el que λ2<1, dado que se corresponde con la transformación cóncava adecuada cuando los datos poseen asimetría positiva o hacia la derecha. Para obtener la estimación núcleo transformada adecuada, además de calcular el valor del parámetro de alisamiento, es necesario obtener la transformación más adecuada (óptima). Wand et al. (1991) advierten que la transformación a utilizar ha de coincidir con aquella que facilite una nueva variable, cuya estimación núcleo de la función de densidad minimice asintóticamente el error al cuadrado medio integrado: +∞ 2 MISE y = E ∫ f̂ y (y )−f y (y ) dy . −∞ [ ] [4] Dicha minimización equivale a encontrar aquella variable transformada que sea la más sencilla de aproximar con una estimación núcleo con ventana fija. Wand et al. (1991) demuestran que las densidades de la lognormal y la gamma pueden aproximarse de un modo acertado a partir de la estimación núcleo transformada mediante la familia definida en [3]. Estas dos distribuciones han sido muy utilizadas para el análisis de la distribución de la renta. Por tanto, intuitivamente, puede deducirse que la familia de transformaciones de potencias con una traslación es adecuada para analizar este tipo de variables, dado que, por un lado, incluye aquellos casos particulares que ya han sido aceptados como premisa en muchos análisis económicos. Por otro lado, el conjunto de pares de parámetros que definen la familia de transformaciones proporciona la suficiente flexibilidad, de modo que permite tener en cuenta las posibles desviaciones de la variable con respecto a las distribuciones lognormal y gamma. Bolancé et al. (2000) proponen un modo alternativo al de Wand et al. (1991) para la selección de la transformación y analizan las propiedades estadísticas de la estimación núcleo transformada. Además se establece cómo puede realizarse la estimación del tail index. El llamado también índice de Pareto no es más que la estimación del parámetro α de la distribución del valor extremo que más ajusta el comportamiento de la cola. El estimador de dicho índice más usual es el estimador de Hill (1975), aunque recientemente se han estudiado sus propiedades y se han propuesto alternativas para paliar su inestabilidad (Guillou, 2000; Drees et al., 2000). 7 3. RESULTADOS En este apartado estimamos la densidad del salario neto individual en España. Primero se analiza el total de la muestra y a continuación se estudia el efecto del sexo, la experiencia y el nivel de estudios (así como de sus interacciones) en la forma de la distribución de los salarios netos. Se calculan también los índices de Pareto que permiten comparar los comportamientos en los salarios más elevados. La estimación núcleo transformada para toda la muestra se presenta en la figura 1. El par de parámetros que definen la transformación óptima es λ=(3.539.202,4;−1,58). En el procedimiento de estimación, se utiliza el grado de alisamiento propuesto por Silverman1 (1986). Es decir, se ha calculado: hn=0,9sxn-1/5, donde sx es la desviación estándar muestral de la variable original. Para los datos analizados, se ha obtenido la siguiente ventana: hn=110.387,09. En todas las estimaciones se ha utilizado un núcleo gausiano. Figura 1: Estimación núcleo transformada del salario neto según la EPF90. f· 106 0.9 0.8 0.7 0.6 0.5 f 0.4 0.3 0.2 0.1 0.0 0 1 2 3 x 4 5 x· 10-6 A partir de la figura 1 se pueden apreciar algunos patrones interesantes. La moda principal se sitúa entorno a 1,2 millones de pesetas, que es un valor muy cercano a la mediana. Existe un clúster localizado cerca de 0,6 millones de pesetas. El resto de características estructurales son: 1) La importancia de la proporción de la población con un nivel inferior al salario mínimo. 2) Se observa un suave escalón cercano a 0.9 millones de pesetas. 3) Finalmente, se distingue un último escalón en la parte descendiente situado entre 1,6 y 1,7 millones de pesetas. Como se analizará a continuación, estas características están relacionadas con la forma de las densidades en algunas subpoblaciones. Con objeto de realizar una descripción más precisa de cómo los grupos de población con distintos niveles de escolarización poseen diferente patrón, se han considerado cuatro submuestras. La figura 2 presenta la estimación núcleo transformada de la función de densidad del salario para cada subgrupo. Cabe decir que la primera submuestra está compuesta por los analfabetos y por los individuos que no han completado los estudios primarios. Aquellos que han completado los estudios primarios, los secundarios y los superiores forman los otros tres grupos, respectivamente. Junto a las funciones de densidad estimadas para cada subgrupo se dibuja la presentada en la figura 1 para el total de la muestra. En la tabla 7 se apunta el par 1 Podría haberse utilizado algún método automático de selección del parámetro de alisamiento, tales como el método plug-in de Sheather y Jones (1991) o algún método basado en el bootstrap alisado como el de Jones, Marron y Park (1991), entre otros. Con el método plug-in se obtienen resultados algo menos alisados que los aquí presentados, con un método basado en el bootstrap alisado los resultados son similares a los que se presentan en el trabajo. A grandes rasgos, la forma que toma la función de densidad es muy similar con uno u otro parámetro de alisamiento. 8 óptimo λ=(λ1,λ2) para cada submuestra y la estimación correspondiente al parámetro de alisamiento en cada caso. En la figura 2 a) se observa cómo la densidad del grupo de individuos del nivel educacional más bajo se sitúa por encima de la densidad asociada a toda la muestra cuando el salario neto es inferior a 1,32 millones aproximadamente. La densidad estimada para el grupo no escolarizado tiene tres modas. La primera se sitúa alrededor de los 0,22 millones de pesetas anuales, pensamos que este pico corresponde a los trabajos a media jornada o aquellos individuos que no sólo han trabajado parte del año. La segunda moda está cerca de los 0,6 millones y la tercera moda se sitúa sensiblemente a la izquierda de la moda principal para el total de la muestra. Tabla 7. Parámetros de alisamiento y pares óptimos λ=(λ1,λ2) para cada nivel de educación según la EPF90. λ1 4.997.401,10 4.710.549,70 3.389.166,30 6.097.776,20 hn=0,9sxn-1/5 119.759,60 90.944,95 181.854,13 169.676,90 Sin estudios Primarios Secundarios Superiores λ2 -1,38 -1,42 -1,56 -1,38 Figura 2: Estimación núcleo transformada de la densidad del salario neto por cada nivel de educación y para la totalidad de la muestra (línea continua). En a) sin estudios (línea discontinua de puntos) y primarios (línea discontinua), en b) secundarios (línea discontinua de puntos) y superiores (línea discontinua). a) f· 106 b) f· 106 1.0 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 f 0.5 f 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 x 4 5 x· 10-6 0 1 2 3 x 4 5 x· 10 La función de densidad estimada correspondiente al grupo que ha completado los estudios primarios también se muestra en la figura 2 a). Si se compara con el grupo con nivel de estudios más bajo, dicha densidad se desplaza hacia la derecha. En este caso la curva está por encima de la densidad para la totalidad de la muestra en aquellos salarios inferiores a 1,5 millones de pesetas, aproximadamente. Para los salarios más altos (cola derecha de la distribución) la función de densidad asociada a los individuos con estudios primarios se sitúa por encima de la obtenida para los que no tienen estudios. En este caso se detectan dos modas importantes en la función de densidad estimada. La primera se encuentra sobre los 0,6 millones y la segunda moda se localiza, aproximadamente, en el mismo lugar que se sitúa la moda principal para el total de la muestra. Cabe destacar que el nivel de estudios primarios es el más frecuente. 9 En la figura 2 b) se presenta la estimación de las funciones de densidad asociadas al salario neto de los individuos con estudios secundarios y superiores. De nuevo, cuando se compara con las densidades obtenidas para grupos con menos años de escolarización, la densidad estimada se desplaza hacia la derecha. La densidad de los individuos con estudios secundarios cercana al origen (aproximadamente para salarios por debajo de los 0,74 millones de pesetas) ya se sitúa por debajo de la estimada para el total de la muestra. Cerca de los 0,9 millones de pesetas, se observa que hay una moda muy importante, parece que haya una concentración de valores alrededor de este punto. La porción de individuos que tienen un salario sobre los 0,9 millones de pesetas es mayor que la de la totalidad de la muestra. El segundo pico se localiza entorno a los 1,6 millones de pesetas. Se hace notar que los individuos con estudios secundarios tienen una distribución salarial dispersa. Algunos autores indican que el patrón en forma de U puede deberse a la inflexibilidad del mercado laboral. Abadie (1997) utiliza un razonamiento oferta-demanda para justificar los cambios en el rendimiento de la escolarización en términos de salarios, este autor deduce que el exceso de población especializada provoca la necesidad de tener que aceptar trabajos peor pagados. De hecho, el mayor grupo de población desempleada estaba formado por analfabetos e individuos con estudios primarios antes de 1980, pero al final de esta década estaba formado por individuos con estudios secundarios. Cabe decir que se cree que los años de experiencia laboral pueden influir en los rendimientos de la escolarización. En un mercado saturado, para los individuos que poseen estudios secundarios, puede ser difícil tener mayores salarios si no tienen experiencia. Éstos pueden incluso ser reacios a aceptar trabajos que requieren un menor grado académico con mayores aptitudes específicas, incluso estando mejor pagados. La densidad estimada para los individuos con estudios superiores tiene una importante moda situada en los 1,7 millones de pesetas. Por debajo de los 1,5 millones de pesetas, aproximadamente, la densidad de los salarios netos de los universitarios es mucho menor que la asociada a toda la población. Además, cabe destacar que la cola derecha es mucho más ancha que en los grupos anteriores. El desplazamiento hacia la derecha de la curva para el grupo con estudios superiores es más evidente que en las anteriores submuestras. Este hallazgo es consistente con los resultados dados por Oliver et al. (1998) cuando consideran, además, la probabilidad de permanecer desempleado. Abadie (1997) utiliza un conjunto de datos similar a los utilizados en el presente trabajo. Dicho autor analiza los cambios en la estructura del salario en España durante la pasada década empleando la técnica de regresión cuantílica. Sus resultados son similares a los mostrados anteriormente. El nivel de educación tiene un efecto positivo en el salario. Cuando se comparan nuestros resultados con los obtenidos por Abadie (1997) se observan conclusiones similares, el grupo de individuos con estudios secundarios es el más inestable. También se deduce que el efecto en el grupo con estudios superiores es mayor en la primera decila. De acuerdo con ello, se ha observado que la estimación de la densidad de este grupo tiene un mayor desplazamiento hacia la derecha, más acusado en la parte correspondiente a los salarios más bajos. A continuación se analizan las diferencias entre los hombres y las mujeres. La tabla 8 presenta los parámetros de transformación óptimos y el valor de la amplitud de ventana para cada submuestra. Tabla 8. Parámetros de alisamiento y pares óptimos λ=(λ1,λ2) para hombres y mujeres según la EPF90. Hombres Mujeres hn=0,9sxn-1/5 124.408,29 106.579,12 10 λ1 2.131.288,40 -9.458,90 λ2 -1,66 0,53 En la figura 3 se muestra la estimación núcleo transformada de la densidad para hombres, mujeres y para toda la muestra. Se puede observar la existencia de una remarcada desigualdad entre los salarios de los hombres y de las mujeres. La densidad estimada para los hombres tiene una forma que es muy parecida a la estimada para toda la muestra. En cambio, la curva estimada para las mujeres está mucho más desplazada hacia la izquierda. La moda principal en la estimación de la densidad del salario de las mujeres se sitúa sobre los 0,6 millones de pesetas; la porción de mujeres que tienen un salario inferior a este nivel es grande. La segunda moda se localiza alrededor de los 0,9 millones de pesetas. La forma y la localización de la densidad estimada para las mujeres puede deberse a diferentes razones, como que la proporción respecto al total de mujeres que trabajan a tiempo parcial es mayor que la de los hombres y, también, que el mercado laboral de la mujer suele presentar mayor inestabilidad. Según estos resultados, creemos que tanto el nivel de educación como el sexo parecen explicar bastante la estructura de la densidad del salario en España, pero cabe sugerir la consideración de los años de experiencia en el mercado laboral, dicha variable se ha relacionado directamente con la edad. En ese caso, la tabla 9 presenta los parámetros de transformación óptima y el parámetro de alisamiento para las submuestras obtenidas según grupos de edad. En la figura 4 se representan las funciones de densidad asociadas a tres niveles de experiencia, definidos según tres grupos de edades. Se observa cómo las diferencias existentes entre las densidades para los distintos grupos de edades son menos acusadas que las encontradas entre los distintos niveles de educación y sexo. Ello se debe a que estos resultados podrían estar influenciados por el peso de los distintos niveles de educación en cada subgrupo. Como se verá posteriormente, si se diferencia según el sexo de los individuos los resultados, sobre todo para las mujeres, reflejan el efecto del nivel de educación, más que la experiencia laboral. Por lo tanto, para analizar la influencia de la experiencia laboral es conveniente diferenciar según niveles de educación. De todos modos, en la figura 4 se observa cómo las diferencias más importantes se encuentran en las rentas inferiores al millón de pesetas y entre los individuos con edades comprendidas entre 25 y 39 años respecto a los otros dos grupos de edad. Este resultado coincide con el presentado en Abadie (1997), donde se obtiene que el efecto de la edad es mayor en los percentiles extremos y, de forma análoga a los resultados presentados en la figura 4, las mayores diferencias se detectan entre los individuos con 25 años y los que tienen 40 o más años. Figura 3: Estimación núcleo transformada de la densidad del salario neto para los hombres (línea discontinua de puntos), mujeres (línea discontinua) y el total de la muestra (línea continua). f· 106 1.0 0.9 0.8 0.7 0.6 f 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 x 11 4 5 x· 10-6 Tabla 9. Parámetros de alisamiento y pares óptimos λ=(λ1,λ2) para cada nivel de experiencia según la EPF90. λ1 4.234.487,80 3.118.965,00 2.764.359,10 hn=0.9sxn-1/5 99.369,24 167.843,83 163.580,15 25-39 40-54 ≥55 λ2 -1,30 -1,58 -1,58 Figura 4: Estimación núcleo transformada de la densidad del salario neto para cada nivel de experiencia y para toda la muestra (línea sólida). Edad entre 25-39 años (línea discontinua de puntos), edad entre 40-54 años (línea discontinua) y edad ≥55 años (línea discontinua alternada). f· 106 0.9 0.8 0.7 0.6 0.5 f 0.4 0.3 0.2 0.1 0.0 0 1 2 3 x 4 5 x· 10-6 Con el objetivo de interpretar con más detalle los resultados presentados anteriormente, se analizan las funciones de densidades estimadas tras interaccionar las distintas variables exógenas consideradas (nivel de estudios, sexo y experiencia laboral). Los parámetros de alisamiento y los parámetros de transformación para cada una de las ocho estimaciones resultantes de interaccionar el nivel de estudios con el sexo se presentan en la tabla 10. Las estimaciones obtenidas con cada una de las ocho submuestras consideradas se presentan en la figura 5. La función de densidad asociada a los hombres se sitúa a la derecha de la asociada a las mujeres, ello para cada uno de los niveles de estudios. Dichas diferencias se reducen a medida que aumenta los años de escolarización. Se observa cómo en las figuras 5 c) y 5 d) las funciones de densidad asociadas a los hombres y a las mujeres tienden a estar más próximas. Aunque la moda principal en la distribución de los hombres siempre se sitúa a la derecha de la moda principal en la distribución de las mujeres. Estos resultados reflejan mayores diferencias salariales en los trabajos menos cualificados. Por el contrario, en los trabajos más cualificados las diferencias salariales podrían justificarse por la menor presencia de mujeres en altos cargos. Por lo tanto, el mercado laboral parece comportarse de modo diferente en términos del rendimiento salariales de la escolarización de los hombres y de las mujeres. 12 Tabla 10. Parámetros de alisamiento y pares óptimos λ=(λ1,λ2) para cada nivel de educación por sexos según la EPF90. Sin estudios Hombres Mujeres Hombres Mujeres Hombres Mujeres Hombres Mujeres Primarios Secundarios Superiores λ1 5.509.861,80 -4.732,01 4.004.361,20 -9.998,96 4.241.568,70 4.964.595,00 6.004.351,70 22.432.668,00 hn=0.9sxn-1/5 128.074,92 99.710,79 94.401,64 89.867,08 221.831,11 114.044,50 208.535,67 136.536,77 λ2 -1,40 0,55 -1,52 0,49 -1,48 -1,45 -1,36 -1,12 Figura 5: Estimación núcleo transformada de la densidad del salario neto para cada nivel educacional (línea continua) por sexo, hombres (línea discontinua de puntos) y mujeres (línea discontina) a)sin estudios, b) primarios, c) secundarios y d) superiores a) f·106 b) f·106 1.2 1.2 1.1 1.1 1.0 1.0 0.9 0.9 0.8 0.8 0.7 0.7 f 0.6 f 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 4 x 5 x·10-6 0 1 2 3 4 x c) f·106 1.1 5 x·10-6 d) f·106 0.9 1.0 0.8 0.9 0.7 0.8 0.6 0.7 0.5 0.6 f f 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 x 4 5 x·10-6 0 1 2 3 x 4 5 x·10-6 Seguidamente se estima la función de densidad con cada una de las doce submuestras resultantes de interaccionar los cuatro niveles de estudio con los tres grupos de edad considerados. En la tabla 11 se apuntan el valor del parámetro de alisamiento y de los parámetros de transformación utilizados en cada caso. Con estos se obtienen las estimaciones presentadas en la figura 6. Dentro de cada nivel de estudios, las mayores diferencias se observan entre los individuos con edades comprendidas entre 25 y 39 años y el resto. A medida que aumenta el nivel de estudios dichas diferencias tienden a reflejarse más claramente, sobre todo en lo que respecta a las rentas laborales más elevadas. Ello refleja el hecho de que para los individuos mayor cualificados es más fácil ascender en su puesto de trabajo. 13 Las diferencias existentes entre los distintos grupos de edad para los individuos con estudios secundarios -figura 6 c)- son algo mayores que las detectadas para los asalariados con estudios universitarios -figura 6d). Ello podría indicar un mayor rendimiento de la experiencia para los primeros. Aunque, hay que tener en cuenta que, para dos individuos con la misma edad, si uno de ellos posee estudios secundarios y el otro universitarios, los años de experiencia laboral del primero seguramente serán mayores, dependiendo del tiempo que pase hasta encontrar el primer trabajo. Tabla 11. Parámetros de alisamiento y pares óptimos2 λ=(λ1,λ2) para cada nivel educacional por experiencia según Sin estudios 25-39 40-54 ≥55 25-39 40-54 ≥55 25-39 40-54 ≥55 25-39 40-54 ≥55 Primarios Secundarios Superiores λ1 0,00 3.803.057,70 0,00 4.108.300,60 5.417.617,40 4.397.690,20 2.746.934,10 4.210.362,70 3.472.167,60 7.666.508,40 3.709.154,60 3.018.056,90 hn=0,9sxn-1/5 127.926,75 159.638,44 124.621,89 95.575,44 90.944,95 141.771,36 108.988,19 409.126,64 249.230,48 153.216,92 239.353,59 290.183,71 λ2 1,00 -1,27 1,00 -1,40 -1,45 -1,45 -1,58 -1,45 -1,50 -1,40 -1,50 -1,50 Figura 6: Estimación núcleo transformada de la densidad del salario neto para cada nivel de educación (línea continua) por experiencia. En a), b), c) y d) edad entre 25-39 años (línea discontinua de puntos), edad entre 40-54 años (línea discontinua) y edad ≥55 años (línea de discontinua combinada). a) f·106 b) f·106 1.2 0.9 1.1 0.8 1.0 0.7 0.9 0.6 0.8 0.7 0.5 f f 0.6 0.4 0.5 0.3 0.4 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 4 5 x x·10-6 c) f·106 0 1 2 3 4 5 x·10-6 3 4 5 x·10-6 x d) f·106 1.0 0.8 0.9 0.7 0.8 0.6 0.7 0.5 0.6 f 0.5 f 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 x 2 4 5 x·10-6 0 1 2 x La transformación definida por el par de parámetros λ=(0,1) corresponde a la identidad. 14 Por último, en la tabla 12 se presentan los parámetros de alisamiento y de transformación, obtenidos para realizar las estimaciones núcleo transformadas con cada una de las submuestras resultantes de interaccionar el sexo con cada uno de los grupos de edad considerados. Las estimaciones obtenidas se presentan en la figura 7. Tabla 12. Parámetros de alisamiento y pares óptimos λ=(λ1,λ2) por sexo y experiencia según la EPF90. Hombres 25-39 40-54 ≥55 25-39 40-54 ≥55 Mujeres λ1 3.260.375,40 1.991.667,40 1.823.484,70 -7.489,22 -6.936,23 -12.500,49 Hn=0,9sxn-1/5 110.545,20 184.764,25 172.236,37 110.214,89 152.860,89 181.010,21 λ2 -1,55 -1,64 -1,62 0,55 0,48 0,47 Figura 7: Estimación núcleo transformada de la densidad del salario neto por sexo (línea continua) y por experiencia. En a) y b) edad entre 25-39 años (línea discontinua de puntos), edad entre 40-54 años (línea discontinua) y edad ≥55 años (línea discontinua combinada). a) 6 f·10 1.0 b) 6 f·10 0.7 0.9 0.6 0.8 0.5 0.7 0.6 0.4 f 0.5 f 0.3 0.4 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 x 4 5 x·10-6 0 1 2 3 x 4 5 x·10-6 En la figura 7 a) se observa cómo para los hombres los resultados son muy similares a sus análogos obtenidos con el total de la muestra (figura 4). Sin embargo, para las mujeres, cuyas funciones de densidad se presentan en la figura 7 b), los resultados son totalmente contrarios. En este último caso, para las rentas laborales más bajas el peso de las mujeres con 40 años o más es mayor que el de las que no alcanzan los 40 años. Para las rentas laborales situadas, aproximadamente, entre 1 y 1,9 millones de pesetas ocurre lo mismo, el comportamiento esperado no se produce hasta que no se supera este último valor. Ante este resultado se realizó un análisis más detallado de la submuestra de mujeres. Se observó que la frecuencia de mujeres con edades entre 25 y 39 años y con estudios universitarios es más de tres veces superior a la de las mujeres con 40 o más años y estudios universitarios. Además, únicamente se observan 67 mujeres sin estudios y con edades comprendidas entre 25 y 39 años. Por tanto, los resultados en la figura 7 b), más que reflejar el efecto de la experiencia, reflejan la influencia de la educación en la mujer. Quizás, el efecto de la experiencia únicamente se refleje en los salarios más elevados, donde el comportamiento es similar al de los hombres, dichos salarios suelen corresponderse con los mayores niveles de educación. Interaccionando las tres variables -nivel de estudios, sexo y experiencia- y estimando la función de densidad en cada subgrupo podremos diferenciar más detalladamente el efecto de la 15 experiencia en los hombres y en las mujeres. Los valores de los parámetros de alisamiento y de transformación3 en cada submuestra se presentan en la tabla 13. Las estimaciones se muestran en la figura 8. Tabla 13. Parámetros de alisamiento y pares óptimos λ=(λ1,λ2) para cada nivel educacional por experiencia según la EPF90. Sin Estudios Hombres Mujeres Primarios Hombres Mujeres Secundarios Hombres Mujeres Superiores Hombres Mujeres hn=0.9sxn-1/5 130.598,32 174.207,07 122.022,79 124.478,58 118.272,56 127.419,20 101.696,40 111.976,69 122.022,79 101.184,42 111.057,57 136.055,34 121.649,86 469.110,57 252.209,38 109.346,31 192.510,57 193.458,07 280.959,57 329.147,29 139.587,08 173.662,07 25-39 40-54 ≥55 25-39 40-54 ≥55 25-39 40-54 ≥55 25-39 40-54 ≥55 25-39 40-54 ≥55 25-39 40-54 25-39 40-54 ≥55 25-39 40-54 λ1 0,00 4.379.363,80 0,00 -12.588,69 -9.709,68 1.401,32 4.434.721,40 2.601.320,60 2.602.375,80 2.511.059,65 -9.989,66 0,00 3.655.173,64 3.278.972,10 2.417.256,10 7.852.020,75 5.551.197,67 7.855.394,60 3.235.105,99 2.814.613,53 55.819.001,20 8.937.736,34 λ2 1,00 -1,43 1,00 0,75 0,50 0,54 -1,42 -1,58 -1,56 -1,38 0,59 1,00 -1,52 -1,30 -1,52 -1,36 -1,32 -1,36 -1,52 -1,50 -1,00 -1,28 En las figuras 8 a), c), d) y f) se observa cómo para el sexo masculino los resultados en función del nivel de estudios y la edad son muy similares a los obtenidos para el total de la muestra. El interés de estas últimas estimaciones radica en observar cómo varían las rentas laborales en los distintos grupos de edad diferenciando según el nivel de estudios. Para los niveles inferiores de estudios los desplazamientos de las funciones de densidad asociadas a las rentas laborales a medida que aumenta la edad son mucho más reducidos, en concreto para las mujeres. A medida que aumenta el nivel de estudios dichos desplazamientos tienden a hacerse más visible. Éstos siguen siendo mucho menores en las mujeres que en los que se producen para los hombres. Es decir se observa como el efecto de la experiencia suele agotarse antes para las mujeres que para los hombres. Estos resultados también podrían estar reflejando la mayor inestabilidad del mercado laboral para la mujer. 3 No se obtienen las estimaciones para las submuestras de mujeres con estudios secundarios y universitarios y con 55 años o más. Dichos subgrupos poseen un peso insignificante en la submuestra de mujeres con el nivel de estudios correspondiente. 16 Figura 8: Estimación núcleo transformada de la densidad del salario neto para cada nivel educacional por sexo (línea continua) y por experiencia. En a), b), c), d), e), f), g) y h) edad entre 25-39 años (línea discontinua de puntos), edad entre 40-54 años (línea discontinua) y edad ≥55 años (línea de discontinua combinada). a) f· 106 b) f· 106 1.2 1.2 1.1 1.1 1.0 1.0 0.9 0.9 0.8 0.8 0.7 0.7 f 0.6 f 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 4 5 x x· 10 -6 c) f· 106 0 1 2 3 4 5 x· 10-6 3 4 5 x· 10-6 3 4 5 x· 10-6 3 4 5 x· 10-6 x d) f· 106 1.4 1.3 1.3 1.2 1.2 1.1 1.1 1.0 1.0 0.9 0.9 0.8 0.8 0.7 f 0.7 f 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 4 5 x x· 10 -6 e) f· 106 0 1 2 x f) f· 106 0.9 1.0 0.8 0.9 0.8 0.7 0.7 0.6 0.6 0.5 f f 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 4 5 x x· 10-6 g) f· 106 0 1 2 x h) f· 106 0.7 1.0 0.9 0.6 0.8 0.5 0.7 0.6 0.4 f f 0.5 0.3 0.4 0.3 0.2 0.2 0.1 0.1 0.0 0.0 0 1 2 3 x 4 5 x· 10-6 17 0 1 2 x Por último, en esta sección se utilizan algunas de las densidades presentadas anteriormente para estimar los índices de Pareto (tail index). Dicha estimación se basa en encontrar aquella distribución de Pareto que minimice cierta distancia ponderada respecto a la estimación núcleo transformada, de manera que se le otorgue mayor peso a los salarios más elevados. El índice de Pareto equivale al parámetro de forma de la distribución de Pareto. Sea: k P ( X ≥ x) = x α k > 0, α > 0, x > k , [5] donde el parámetro α es el índice de Pareto. El valor de k se ha seleccionado igual al salario mínimo en las distintas submuestras y en el total. Para simplificar la exposición únicamente se han cálculado los índices de Pareto para el total de la muestra, según el sexo y para cada nivel de estudios. Estas dos últimas variables son las que muestran mayores diferencias en las distribuciones estimadas para cada submuestra. Los resultados se presentan en la tabla 14. El cálculo de dichos índices de Pareto se basa en el supuesto de que la distribución de los salarios se aproxima a la mixtura entre una distribución lognormal (o similar) y una distribución de Pareto. El valor de α está inversamente relacionado con la importancia de la cola derecha de la distribución con respecto al total. Por tanto, podría interpretarse como una medida de desigualdad. Los resultados obtenidos muestran cómo. En general, el valor del índice se sitúa entorno a 0,2. Pero hay que tener en cuenta que las diferencias encontradas en el segundo decimal son relevantes. Para los hombres y las mujeres el valor del índice es similar. Las mayores diferencias se encuentran entre los distintos niveles de estudio, donde las mayores desigualdades están ligadas a los individuos con estudios primarios. El grupo con estudios universitarios es el que presenta un índice de Pareto mayor, lo que indica unas menores diferencias salariales. Tabla 14. Índices de Pareto para el total de la muestra, diferenciando por nivel de estudios y por sexo según la EPF90. Muestras Total Sexo Nivel de estudios Indice de Pareto 0,204 0,214 0,212 0,222 0,210 0,225 0.243 Hombres Mujeres Sin estudios Primarios Secundarios Universitarios 4. CONCLUSIONES El trabajo presenta un estudio detallado de la distribución de los salarios netos en España, con datos de la EPF90. La forma de dicha distribución se asocia a características sociodemográficas como el nivel de estudios, el sexo y la edad, está última como indicador de la experiencia laboral. Los resultados calculados a partir de las submuestras obtenidas interaccionando estas tres variables son de gran utilidad para detectar donde se sitúan las mayores diferencias salariales. También se han calculado algunos índices de Pareto (tal index), los cuales pueden interpretarse como una medida de desigualdad salarial. La ventaja de este índice con respecto a otros, tales como el índice de Gini, es que se ha calculado teniendo en cuenta el valor de la distribución en todos los puntos, no reduciéndose a la información muestral. 18 5. BIBLIOGRAFÍA Abadie, A. (1997) "Changes in Spanish labor income structure during the 1980’s: a quantile regression approach", Investigaciones Económicas 21, pp. 253-272; Bolancé, C,, M. Guillén y J.P. Nielsen (2000) “Kernel Density Estimation of Aactuarial Loss Functiions” Working paper Aarhus University; Cao, R., M.A. Delgado y W. González-Manteiga (1997) “Nomparametric curve estimation: an overview”, Investigaciones Económicas 21, pp. 209-252; Cowling, A. and P. Hall (1996) “On pseudodata methods for removing boundary effects in kernel density estimation”, Journal of the Royal Statistical Society 58 Serie B, pp. 551-563; Deaton, A. (1988) “Rice price and income distribution in Thailand: a non-parametric analysis”, Conference papers, Royal Economic Society, Oxford; Delgado, M.A. y P.M. Robinson (1992) “Nonparametric and semiparametric methods for economic research”, Journal of Economic Surveys 6, pp. 201-249; DiNardo, J., N.M. Fortin y T. Lemieux (1996) “Labor market institutions and the distribution of wages, 1973-1992: a semiparametric approach”, Econometrica 64, pp. 1001-1044; Drees, H., de Haan, L., and S. Resnick (2000) “'How to make a Hill plot”' The Annals of Statistics, forthcomming Gerfin, M. (1994) “Income distribution, income inequality and life cycle effects-a nonparametric analysis for Switzerland”, Diskussionsbeiträge des Volkswirtschaftlichen Instituts, pp. 94103; Gouveia, M. and J. Tavares (1995) “The distribution of household income an expenditure in Portugal: 1980 and 1990”, Review of Income and Wealth 41, pp. 1-17; Guillou, A (2000) “Bootstrap Confidence Intervals for the Pareto Index” Communications in Statistics, Theory and Methods, 29,1, pp. 211-226. Hall, P. (1992) “On global properties of variable bandwidth density estimators”, The Annals of Statistics 20, pp. 762-778; Hall, P., T.C. Hu and J.S. Marron (1995) “Improved variable window kernel estimates of probability densities”, The Annals of Statistics 23, pp. 1-10; Hall, P. and J.S. Marron (1987) “Estimation of integrated squared density derivatives”, Statistics & Probability Letters 6, pp. 109-115; Hill, B. M. (1975), "A simple general approach to inference about the tail of the distribution", The Annals of Statistics, 3, pp. 1163-1174. Jenkins, S.P. (1995) “Did the middle class shrink during the 1980s? UK evidence from kernel density estimates”, Economics Letters 49, pp. 407-413; Jones, M.C. and S.J. Sheather (1991) “Using non-stochastic terms to advantage in kernel-based estimation squared density derivatives”, Statistics & Probability Letters 11, pp. 511-514; 19 Marron, J.S. and M.P. Wand (1992) “Exact mean integrated squared error”, The Annals of Statistics 20, pp. 712-736; Melis, F. (1995) “La distribución personal del salario anual en 1992”, Documento de Trabajo Mayo 1995, Instituto de Estudios Fiscales; Müller, H.-G. and H. Zhou (1991) “Transformation in density estimation. Comment”, Journal of the American Statistical Association 86, pp. 356-358; Oliver J., J.L. Raymond, J.L. Roig and A. Roca (1998) “Función de ingresos y rendimientos de la educación en España 1990”, 1er Encuentro de Economía Aplicada, Palau de les Heures, Barcelona Junio de 1998; Park, U.B. and J.S. Marron (1990) “Comparison of data-driven bandwidth selectors”, Journal of the American Statistical Association 85, pp. 66-72; Parzen, E. (1962) “On estimation of a probability density function and mode”. The Annals of Statistics 33, pp. 1065-1076; Rosenblatt, M. (1956) “Remarks on some nonparametric estimates of a density function”, The Annals of Statistics 27, pp. 832-837; Ruppert, D. and D.B.H. Cline (1994) “Bias reduction in kernel density estimation by smoothed empirical transformation”, The Annals of Statistics 22, pp. 185-210; Ruppert, D. and M.P. Wand (1992) “Correcting for kurtosis in density estimation”, Australiam Journal of Statistics 34, pp. 19-29; Sain, S.R. and D.W. Scott (1996) “On locally adaptive density estimation”, Journal of the American Statistical Association 91, pp. 1525-1533; Sheather, S.J. and M.C. Jones (1991) “A reliable data-based bandwidth selection method form kernel density estimacion”, Journal of the Royal Statistical Society 53 Serie B, pp. 683690; Silverman, B.W. (1986) Density Estimation for Statistics and Data Analysis, Chapman and Hall, London; Terrell, G.R. (1990) “The maximal smoothing principle in density estimation”, Journal of the American Statistical Association 85, pp. 270-277; Terrell, G.R. and D.W. Scott (1985) “Oversmoothed nonparametric density estimates”, Journal of the American Statistical Association 80, pp. 209-214; Terrell, G.R. and D.W. Scott (1992) “Variable kernel density estimation”, The Annals of Statistics 20, pp. 1236-1265; Wand, M.P. and M.C. Jones (1995) Kernel Smoothing, Chapman and Hall, London; Wand, M.P., J.S. Marron and D. Ruppert (1991) “Transformations in density estimation”, Journal of the American Statistical Association 86, 343-353; 20