ESTADÍSTICA ESPAÑOLA Vol. 51, núm. 170, 2009, págs. 33 a 62 La distribución beta generalizada de segunda especie como modelo de la distribución personal de la renta en España(*) por MERCEDES PRIETO ALAIZ Universidad de Valladolid y CARMELO GARCÍA PÉREZ Universidad de Alcalá RESUMEN El objetivo de este trabajo es estudiar la adecuación de distintos modelos paramétricos para la descripción de la distribución personal de la renta en España. Para realizar este estudio, se parte de la distribución beta generalizada de segunda especie, que anida, entre otros, los modelos que tradicionalmente se han utilizado para describir la distribución personal de la renta en España. Tras un proceso de estimación y validación de las distintas funciones de distribución propuestas, se seleccionan las que presentan mejores ajustes en el caso español, que resultan ser las distribuciones beta generalizada de segunda especie, Dagum y Singh- (*) Trabajo financiado por el Instituto de Estudios Fiscales del Ministerio de Economía y Hacienda. Los autores agradecen los comentarios y sugerencias de dos evaluadores anónimos que han contribuido a mejorar este trabajo. ESTADÍSTICA ESPAÑOLA 34 Maddala. Los ajustes se llevan a cabo con los datos de renta pertenecientes a la Encuesta de Condiciones de Vida de los años 2004 y 2005. Palabras clave: Distribución personal de la renta, Beta generalizada de segunda especie, Modelo Dagum, Modelo SinghMaddala. Clasificación AMS: 62E17, 60E05, 62P20. 1. INTRODUCCIÓN La modelización paramétrica de la distribución personal de la renta (DPR) permite su caracterización mediante un número escaso de parámetros, sin que ello suponga una pérdida de información importante (Dagum, 1977). De este modo, se puede simplificar cualquier estudio que tenga como objetivo el análisis económico de los distintos aspectos distributivos. Así pues, la comparación entre dos distribuciones, a través del tiempo o del espacio, se puede realizar analizando la evolución de los parámetros estimados (Bandourian, McDonald y Turley, 2003, García, Callealta y Núñez, 2006). Otro ejemplo de aplicación se localiza en el campo de la medición de la desigualdad y la pobreza: los índices de desigualdad y de pobreza, generalmente, se pueden expresar como una función de los parámetros, de tal forma que la estimación de aquéllos y el análisis de sus propiedades estadísticas se pueden realizar de forma sencilla. De igual forma, se puede analizar el impacto de ciertas acciones del Estado sobre la DPR estudiando la repercusión que tienen sobre el valor de las estimaciones de los parámetros de los modelos paramétricos (Dastrup, Hartshorn y McDonald, 2007). Desde que Pareto (1896) propusiera y estimara la primera ley para la DPR, muchos han sido los modelos que se han empleado(1). Algunos han sido formulados específicamente para la renta, otros han sido trasladados desde otros campos debido a que proporcionaban un buen ajuste. Los trabajos sobre la modelización paramétrica de la DPR, a partir de la década de los 90, tienen objetivos diversos, abandonando así la casi exclusiva sucesión de propuestas de nuevos modelos de las décadas de los 70 y los 80. (1) Una relación exhaustiva de estos modelos puede verse en Kleiber y Kotz (2003). LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 35 Así pues, entre estos trabajos, además de propuestas de modelos(2), podemos encontrar desarrollos de modelos económicos que generan distribuciones paramétricas (Creedy, Lye y Martin, 1996; Parker, 1996; 1999), aplicaciones de la modelización paramétrica a estudios macroeconómicos (Jäntti y Jenkins, 2001) o detalladas comparaciones de modelos (Bandourian, McDonald y Turley, 2002). En un campo más interdisciplinar, también se desarrolla una línea de trabajos basados en distribuciones multivariantes y sus condicionadas. En esta línea, Arnold, Castillo y Sarabia (2007) proponen varias familias paramétricas a partir de la construcción de Rosenblatt. Este tipo de trabajos, con elevado rigor y complejidad matemática, contienen propuestas teóricas interesantes que, en el futuro, deberán incorporarse al estudio conjunto de distribuciones condicionadas de renta en diferentes momentos del tiempo, diferentes tipos de ingresos, etc. Esta es la idea que sugieren Arnold, Castillo y Sarabia (2007), que aplican su propuesta teórica a los datos del Panel de Hogares de la Unión Europea. Las aplicaciones empíricas, los desarrollos y las generalizaciones de familias de modelos siguen siendo también objeto de trabajos, como los de Dastrup, Hartshorn y McDonald (2007) y Jenkins (2007), basados ambos en la distribución beta generalizada de segunda especie (GBII). Este modelo es muy utilizado en la actualidad por sus buenos ajustes y porque incluye muchos otros modelos como casos anidados o límites(3). Siguiendo esta línea de investigación, en este estudio se desarrollará un análisis a partir de la estimación de la distribución GBII y de los distintos modelos que anida, entre ellos, la distribución de Dagum y la Singh-Maddala que según diferentes trabajos presentan los mejores ajustes al caso español (Callealta, Casas y Núñez, 1996; Prieto-Alaiz y Victoria-Feser, 1996; García, Callealta y Núñez, 2006). No obstante, a pesar de lo atractiva que pueda resultar la modelización paramétrica de la DPR, hay que ser conscientes de que la validez de todos los análisis derivados a partir de ella dependerá, en última instancia, de si el modelo estimado describe bien la DPR. Para conseguir tal objetivo, en este trabajo, se llevará a cabo un proceso de especificación, estimación y validación de cada uno de los modelos que se consideran. (2) Por ejemplo, la distribución de elasticidad cuadrática propuesta por Bordley, McDonald y Mantrala (1996). (3) Véanse, entre otros, Bordley, Mcdonald y Mantrala, 1996; Brachmann, Stich y Trede, 1999; Butler y McDonald 1989; McDonald, 1984 y McDonald y Xu, 1995. 36 ESTADÍSTICA ESPAÑOLA La estructura del trabajo es la siguiente. En primer lugar, en el marco de los aspectos generales de la modelización paramétrica, se presentan las características de la distribución beta generalizada de segunda especie. En la sección 3, se describe el procedimiento de estimación, la selección de modelos y las medidas de bondad del ajuste utilizadas. En la siguiente sección se presentan los datos utilizados y las opciones metodológicas en relación con el concepto de renta cuya distribución se modeliza. Finalmente, se muestran los resultados del estudio y las conclusiones del mismo. 2. MODELOS PARAMÉTRICOS PARA LA DISTRIBUCIÓN PERSONAL DE LA RENTA: LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE. El punto de partida de la modelización paramétrica de la distribución personal de la renta (DPR) es un modelo de probabilidad definido por una familia de funciones de distribución {F(x; θ), θ ∈ Θ} donde θ es un vector de parámetros desconocidos de orden (px1) y Θ ⊂ Rp es el espacio paramétrico, o por su correspondiente familia de funciones de densidad, {f(x; θ), θ ∈ Θ} . La elección de una determinada forma funcional, en general, queda determinada por las características específicas del fenómeno que tratemos de analizar. En principio, cualquier familia de funciones de distribución podría servir para modelizar la DPR, por lo que parece necesario restringir este numeroso conjunto a un subconjunto de funciones que posean una serie de propiedades(4). Estas propiedades pueden estar basadas en características regulares de las distribuciones de renta observadas (por ejemplo, la asimetría positiva); en características matemáticas deseables (por ejemplo, que sea dos veces diferenciable); o en propiedades económicas (por ejemplo, que se genere como resultado de un modelo económico subyacente). En este artículo, el punto de partida es la distribución tetraparamétrica propuesta por McDonald (1984), es decir, la distribución beta generalizada de segunda especie (GBII(5). La elección de esta forma funcional está motivada, (4) Autores, como Aitchinson y Brown (1957), Dagum (1977), Dagum (1990), Majunder y Chakravarty (1990) y Callealta, Casas y Núñez (1996) han propuesto diferentes listas de propiedades exigibles a un modelo de la DPR. (5) Kleiber y Kotz (2003) presentan un estudio muy completo sobre las distribuciones utilizadas en la modelización paramétrica de la distribución de la renta que se derivan de la GBII. LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 37 por una parte, por los buenos ajustes que proporciona para distribuciones de renta de numerosos países (véase Brachmann, Stich y Trede, 1996; Dastrup, Hartshorn y McDonald, 2007 y Jenkins, 2007). Por otra parte, esta función anida, tal y como mostraremos posteriormente, diferentes modelos de distribuciones de la renta, por ejemplo las distribuciones Dagum(6) (Dagum, 1977) y Singh-Maddala (Singh y Maddala, 1976) que se han mostrado especialmente adecuadas para el caso español en periodos precedentes al que se analiza en este artículo. La expresión de la función de densidad de la distribución beta generalizada de segunda especie es la siguiente: f(x) = ax ap −1 a b B(p,q)(1 + ( x b ) )p + q ap , x≥0 donde a,b,p,q > 0 y B( p, q ) es la función beta. Las distribuciones triparamétricas Dagum y Singh-Maddala corresponden a casos particulares de la distribución GBII cuando q = 1 y p = 1, respectivamente. El gráfico 1 muestra la riqueza de modelos relacionados con la distribución GBII, que incluye, además de los mencionados, los modelos triparamétricos beta de segunda especie y gamma generalizada, y los modelos de dos parámetros lognormal, gamma, Weibull y Fisk. (6) El modelo Dagum anidado por la GBII es la distribución Dagum triparamética o de tipo I. De aquí en adelante, lo denominaremos simplemente modelo Dagum. ESTADÍSTICA ESPAÑOLA 38 Grafico 1 DISTRIBUCIONES RELACIONADAS CON LA GBII GBII q→∞ q=1 a=1 Gamma G p=1 Beta II S-M Dagum q→∞ a→ 0 Lognor a=1 Gamma p=1 q→∞ q=1 Weibull p=1 Fisk Fuente: McDonald (1984) 3. ESTIMACIÓN, SELECCIÓN DE MODELOS Y ANÁLISIS DE LA BONDAD DEL AJUSTE Una vez seleccionado un modelo de probabilidad para la DPR, el siguiente paso es estimar el vector de parámetros desconocidos, θ = θ1 ,, θ p ' . La variedad de estimadores que se pueden obtener es muy amplia; por tanto, es preciso fijar unos criterios para poder discernir entre ellos. Dado que las propiedades finitas de los estimadores de los parámetros de la DPR son difícilmente conocidas, ya que son funciones no lineales de la muestra, nos centraremos en los procedimientos de estimación que proporcionan estimadores que son eficientes asintóticamente (véase Rao 1973, p. 351 y Ghosh, 1994, p.4). Entre este tipo de estimadores se encuentran los obtenidos por el método de máxima verosimilitud, que es el utilizado en este trabajo. Se ha aplicado el principio de máxima verosimilitud sobre los datos de rentas individuales ponderadas por los pesos debidos al diseño muestral y al tamaño de cada hogar, según los ficheros correspondientes de la Encuesta de Condiciones de Vida (ECV)(7). ( ) (7) Otras formas de estimar los parámetros de los modelos de probabilidad que se han empleado en el caso de la DPR son el método de mínimos cuadrados no lineales (véase Dagum, 1980) y los métodos robustos basados en la obtención de estimadores con la función de influencia acotada (véase Victoria-Feser, 2000). LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 39 En nuestro caso, las estimaciones máximo verosímiles son la solución de un sistema de ecuaciones no lineales que se ha resuelto aplicando el algoritmo de Newton-Raphson implementado en lenguaje C. Los valores iniciales de los parámetros se han elegido a partir de las estimaciones por mínimos cuadrados no lineales y a través de una búsqueda reticular con una precisión de una décima. Siguiendo el esquema del gráfico 1, en primer lugar, se han estimado los parámetros de las distintas distribuciones y, a continuación, se han realizado sucesivamente los contrastes anidados para seleccionar el mejor modelo, partiendo de aquéllos con mayor número de parámetros y comparando, mediante ratios de logaritmos de la función de verosimilitud, si son significativas las mejoras que introducen los modelos no restringidos sobre los anidados. Es decir, se ha utilizado el siguiente estadístico de razón de verosimilitudes: 2 [LnL − LnL * ] ⎯⎯⎯→ χr2 n →∞ donde LnL y LnL* son, respectivamente, los logaritmos neperianos de las funciones de verosimilitud de la muestra para el modelo sin restricciones y para el modelo anidado. Bajo muestreo aleatorio simple y si el modelo restringido es el verdadero, dicho estadístico se distribuye asintóticamente como una distribución χ 2r , donde los grados de libertad (r) son la diferencia entre el número de parámetros del modelo sin restricciones y el número de parámetros del modelo anidado (véase, por ejemplo Cox y Hinkley, 1974)(8). Para las comparaciones entre modelos no anidados se han utilizado diferentes criterios de bondad de ajuste. En primer lugar, se han analizado los gráficos que muestran las discrepancias entre la función de distribución empírica y la función de distribución estimada, los conocidos como gráficos de probabilidad (PP-plots). Otra manera de analizar la adecuación de un modelo a los datos se basa en la realización de contrastes de bondad del ajuste(9). La hipótesis nula de este tipo de contrastes consiste en suponer que una determinada función de distribu- (8) Aunque la distribución del estadístico de contraste se deduce bajo muestreo aleatorio simple, es frecuente la utilización de este tipo de contrastes con datos procedentes de un diseño muestral semejante al que se emplea en la Encuesta de Condiciones de Vida (Bandourian, McDonald y Turley, 2002; McDonald, Dastrup y Hartshorn, 2006). (9) En el libro de D’Agostino y Stephens (1986) se puede encontrar una recopilación de las técnicas para analizar la bondad de los ajustes. ESTADÍSTICA ESPAÑOLA 40 ción es la que genera los datos. La mayoría de los estadísticos de contraste utilizados se basan en las diferencias entre el modelo asumido bajo la hipótesis nula y la función de distribución empírica. Podemos diferenciar dos tipos de contrastes de bondad de ajuste dependiendo de que los estadísticos de prueba se calculen para datos individuales o agrupados. Así, los estadísticos de Kolmogorov-Smirnov, Cramer-Mises o Anderson-Darling son ejemplos del primer tipo y las pruebas estadísticas basadas en la distribución χ2 son adecuadas para el caso de datos agrupados. En este trabajo, se obtendrán los estadísticos indicados para el caso de datos individuales, por ser éste el tipo de datos utilizado para realizar los ajustes. Los estadísticos de bondad de ajuste serán empleados únicamente como medidas descriptivas de la aproximación de las dos distribuciones comparadas, ya que, para la realización de los contrastes se requiere una función de distribución totalmente especificada, por lo que los parámetros no pueden ser sustituidos por estimaciones máximo verosímiles obtenidas con la misma muestra, sin alterarse las distribuciones asintóticas de dichos estadísticos. Así, en el caso de que la hipótesis nula sea simple, tanto la distribución finita como la asintótica de estos estadísticos es conocida y está tabulada (véase, por ejemplo, Stephens, 1986). Sin embargo, en el caso de que la hipótesis nula sea compuesta, la distribución de los estadísticos de contraste es, en general, desconocida(10). Stephens (1986) indica que esta distribución depende de la distribución que se asume bajo H0, de los parámetros estimados, del método de estimación y del tamaño muestral. Por tanto, como Stephens (1986) y Gibbons y Chakrabarty (1992) advierten, los valores críticos obtenidos considerando que la hipótesis nula es simple, pueden llevar a obtener conclusiones falsas. Los estadísticos que se han calculado para cada ajuste son los siguientes: • El estadístico de Kolmogorov-Smirnov: D = sup Fn ( x ) − F x; θ ( ) • El estadístico de Cramer-von Mises: ∞ 2 W =n (F ( x ) − F ( x; θˆ )) n 2 dF( x; θˆ ) 0 (10) Una forma de aproximar la distribución de estos estadísticos es mediante técnicas bootstrap. LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 41 • El estadístico de Anderson-Darling: ∞ 2 A =n (F ( x ) − F ( x; θˆ )) 2 n 0 ( )( ( )) −1 F X; θˆ 1 − F X; θˆ dF( x; θˆ ) Cada uno de estos estadísticos tiene sus particularidades. Por ejemplo, el estadístico de Anderson-Darling pondera fuertemente las desviaciones existentes en las colas, mientras que el estadístico de Cramer-von Mises aplica una menor ponderación a este tipo de rentas. El estadístico de Kolmogorov-Smirnov se centra, sin embargo, en la distancia máxima entre las dos funciones de distribución comparadas. Finalmente, también se utilizará, siguiendo a Brachmann, Stich y Trede (1996), un estadístico que permite comparar la función de densidad teórica y una aproximación no paramétrica a la función de densidad empírica que definiría el histograma originado por la muestra. Pasamos, a continuación, a detallar el planteamiento subyacente a este estadístico. Si disponemos de una muestra aleatoria simple de tamaño n, (X1,X2,...,Xn), obtenida de una población con función de densidad continua f(x), el estimador no parámetrico de la función de densidad propuesto por Parzen (1962) sería: 1 f (x) = nh n K i =1 donde K ( u ) es una función Kernel tal que x − Xi h K (u) du = 1 y h>0 es la amplitud (tamaño) de la ventana o parámetro de suavizado. Para que este estimador sea consistente debe cumplirse que h → 0 y nh → ∞ cuando n → ∞ (Silverman, 1986). Si queremos contrastar la hipótesis: Ho :f ( x ) = f0 ( x, θ ) donde los parámetros pueden estar especificados o ser las estimaciones máximo verosímiles(11), entonces, como estadístico de contraste podría utilizarse la siguiente distancia cuadrática: (11) Bajo determinados supuestos adicionales (Bickel y Rosenblatt, 1973). 42 ESTADÍSTICA ESPAÑOLA H= ( f ( x ) − f ( x, θ)) 0 2 dx Sin entrar en los aspectos inferenciales sobre la distribución asintótica de este estadístico (Bickel y Rosenblatt, 1973), en este trabajo se utilizará H como medida descriptiva para comparar distribuciones, dado que proporciona una interpretación intuitiva asociada a la cuantificación de las distancias observadas entre el histograma y la función de densidad. 4. DATOS UTILIZADOS Los datos de renta utilizados en este estudio proceden de la Encuesta de Condiciones de Vida (ECV), traducción castellana de la terminología European Statistics on Income and Living Conditions (EU-SILC). Esta fuente estadística de ámbito comunitario proporciona información sobre la distribución de ingresos en Europa y fue creada para que sirviera de ayuda en la formulación de políticas sociales y en el estudio de sus efectos, permitiendo además la comparabilidad entre los Estados miembros de la Unión Europea. La ECV sustituye al Panel de Hogares de la Unión Europea que desempeñó la misma función entre 1994 y 2001. Desde el año 2004, se generan ficheros de microdatos, con una periodicidad anual, relativos a características de los hogares privados y de las personas que viven en ellos(12). El diseño de la muestra es de un panel rotatorio donde una cuarta parte de la muestra es sustituida cada cuatro años. La ECV suministra datos del hogar y de las personas que lo forman (renta desagregada en sus componentes, sexo, edad de los miembros, etc.), así como ciertos indicadores de privación de los hogares. Para reflejar la posición económica de los individuos, tradicionalmente, se han utilizado tres variables: el ingreso, el gasto y la riqueza. Quizás la menos utilizada haya sido la riqueza por las dificultades que entraña su valoración13. Generalmente, la controversia se ha establecido en la elección de los ingresos o los gastos en consumo, sin llegarse, en la actualidad, al consenso. Los que consideran los ingresos como variable más adecuada en los estudios distributivos sostienen que, entre otras ventajas, los ingresos reflejan la capacidad de los (12) Una información ampliada sobre éstas y otras cuestiones relacionadas con la metodología de la ECV se pueden encontrar en INE (2005). (13) El trabajo de Naredo (1993) es uno de los escasos estudios realizados basados en la valoración de la riqueza. LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 43 individuos para satisfacer sus necesidades (independientemente si se materializan o no). Otros autores señalan que el gasto es la variable idónea en el análisis de la desigualdad, puesto que está más relacionada con la renta permanente y menos influenciada por las variaciones transitorias de los ingresos. Quizás los argumentos que más peso han tenido para elegir una variable en lugar de la otra han sido los de índole práctico, y relacionados con la fiabilidad de los datos. En nuestro caso, a diferencia de otras encuestas, la ECV está diseñada para recoger los datos de ingresos siguiendo las recomendaciones del International Expert Group on Household Income Statistics(14). Dichas recomendaciones constituyen una guía para reconciliar la definición teórica de la renta con las dificultades prácticas que surgen en la recopilación de los datos de ingresos. Así pues, partiendo de los datos de ingresos de la ECV, el concepto de renta que será objeto del estudio es el de renta disponible equivalente per capita, que incluye los ingresos totales del hogar (monetarios y no monetarios) después de sumar transferencias y deducir los impuestos y contribuciones a la seguridad social. La segunda opción que se plantea tiene que ver con la unidad de análisis. La alternativa del hogar es la opción natural, ya que es la unidad de recogida de datos de la ECV. Sin embargo, se considera que la unidad elemental en los análisis del bienestar económico es el individuo, en lugar del hogar(15). En esta investigación, se adopta la solución más habitual que es analizar la distribución de renta entre personas, donde cada hogar recibe una ponderación igual al número de sus miembros. Esto implica que se asume que todos los miembros de un hogar comparten la misma posición económica(16). Por tanto, cada hogar recibe una ponderación proporcional al número de sus miembros y al peso que le asigna el diseño muestral. La última cuestión metodológica surge al comparar rentas de hogares con diferente tamaño y composición. La forma más sencilla de tener en cuenta el tamaño y la composición es asignando a cada individuo la renta total del hogar en el que vive divida entre el número de miembros, es decir, la renta per cápita. (14) El International Expert Group on Household Income Statistics (‘el grupo de Canberra’) desarrolló desde 1996 a 2001 una guía sobre cómo preparar estadísticos armonizados y comparables sobre la distribución de la renta (International Expert Group on Household Income Statistics, 2001). (15) Danzinger y Taussing (1979) y Cowell (1984) discuten en profundidad todos los aspectos relacionados con unidad receptora de renta. (16) Esta hipótesis ha sido criticada, porque conlleva una subestimación del nivel de desigualdad (se puede ver, por ejemplo, Haddard y Kanbur, 1990 y Kanbur, 2003). ESTADÍSTICA ESPAÑOLA 44 Según Coulter et al. (1992), el inconveniente de usar la renta per cápita es que no tiene en cuenta que el coste marginal de una persona más en el hogar puede cambiar cuando el tamaño del hogar cambia y que los miembros del hogar tienen diferentes necesidades. En consonancia con los trabajos de EUROSTAT para elaborar los indicadores Laeken y para facilitar la comparabilidad de los resultados con otros trabajos, se utilizará la escala de la OCDE modificada, que asigna un peso de 1 al primer adulto, 0,5 al resto de los adultos y 0,3 a los menores de 14 años. La tabla 1 muestra los diferentes tamaños muestrales y algunas de las medidas más representativas de la distribución de la renta en España, en los años 2003 y 2004, obtenidas a partir de la ECV. Tabla 1 PRINCIPALES RESULTADOS SOBRE LA DISTRIBUCIÓN DE LA RENTA EN ESPAÑA A PARTIR DE LA ENCUESTA DE CONDICIONES DE VIDA (MILES DE EUROS) 2003 2004 Media muestral 11,732 12,201 Primer cuartil 7,026 7,134 Mediana muestral 10,460 10,616 Tercer Cuartil 14,786 15,476 Desviación típica 7,110 7,780 Índice de Gini 0,3031 0,3152 n (hogares) 14.545 12.867 n (personas) 41.029 37.110 5. RESULTADOS Los resultados obtenidos en el proceso de estimación descrito en la sección 3 se presentan en las tablas 2 y 3. En estas dos últimas tablas, se recogen las estimaciones de cada parámetro acompañadas de su error estándar y del logaritmo neperiano de la función de verosimilitud (LnL), que es, además de una medida de la bondad del ajuste, la función objeto de optimización en la estimación de cada modelo. Según esta medida, el modelo GBII sería el más adecuado en los dos años analizados, seguido de la distribución de Dagum y la SinghMaddala. Entre las distribuciones biparamétricas, la distribución Fisk es la que LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 45 produce mejores resultados superando incluso a las distribuciones triparamétricas beta de segunda especie y gamma generalizada, que la siguen por este orden. Los peores ajustes se producen con las distribuciones gamma, Weibull y lognormal. Estos rasgos básicos de la ordenación permanecen inalterables en los dos años analizados, lo que indica la estabilidad de la forma de la distribución personal de la renta en España entre 2003 y 2004. Tabla 2 RESULTADOS DE LA ESTIMACIÓN. AÑO 2003 GBII Dagum SM a i 3,8580 (0,0549) 2,5385 (0,0292) b (β) 1,3556 (0,0275) 1,3065 (0,01434) 1,4612 (0,0357) p 0,6761 (0,0493) 0,5736 (0,0149) q 1,2453 (0,1126) LnL -34458224 Orden 1 GG Fisk a 0,8331 (0,0370) 3,0262 (0,0210) b (β) 0,1942 (0,0358) 1,0211 (0,0049) p 4,3771 (0,3650) B2 6,0556 (0,8685) 3,6807 (0,0850) 1,9683 (0,0829) 20,0091 (2,3592) -34468644 -34504880 -35021556 2 3 5 Gamma 0,3757 (0,0046) LN Weibull μ=0,0088 (0,0052) 1,7667 (0,0114) σ2 =0,3868 (0,0045) 1,3220 (0,0065) 3,1231 (0,0348) q LnL Orden -35164944 6 -35011464 4 -35215112 -36847136 -36675032 7 8 9 ESTADÍSTICA ESPAÑOLA 46 Tabla 3 RESULTADOS DE LA ESTIMACIÓN. AÑO 2004 GBII Dagum SM B2 a 3,0865 (0,1847) 3,6673 (0,0555) 2,3816 (0,0290) b (β) 1,4457 (0,0357 1,3583 (0,0167) 1,5855 (0,0453) p 0,7028 (0,0549) 0,571526 (0,0157) q 1,3488 (0,1336) LnL -40267004 Orden 1 6,3510 (0,9347) 3,3312 (0,0783) 2,0959 (0,0975) 18,3332 (2,2162) -40288432 -40315176 -40917148 2 3 5 GG Fisk Gamma a 0,9039 (0,0388) 2,8792 (0,0212) b (β) 0,2209 (0,0204) 1,0471 (0,0056) 0,4285 (0,0055) p 3,4218 (0,2709) 0,571526 (0,0157) 2,8475 (0,0336) LnL -41063588 -40914756 Orden 6 4 LN Weibull μ=0,0132 (0,0059) 1,6898 (0,0116) σ2 =0,4541 (0,0057) 1,3707 (0,0075) q -41084832 7 -44078156 8 -42451024 9 Por otra parte, con el fin de relacionar la bondad del ajuste con la parsimonia de los modelos, se han realizado varios contrastes anidados para verificar si los modelos generales, con más parámetros, eran mejores que los restringidos. Los resultados de estos contrastes (tablas A.1 y A.2) permiten concluir que las LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 47 mejoras en la medida de bondad LnL son todas significativas, por lo que, tras realizar estas pruebas, la mejor distribución sigue siendo la GBII, que presenta una mejora significativa sobre las distribuciones Dagum y Singh-Maddala, las siguientes en la ordenación en cuanto a bondad de ajuste. Las conclusiones obtenidas a partir de la medida LnL quedan, en general, refrendadas por los resultados de las restantes medidas de bondad de ajuste presentadas en las tablas 4 y 5. De acuerdo con estas tablas, las mejores distribuciones siguen siendo la GBII, Dagum y Singh-Maddala, aunque ésta última produce los mejores resultados para las medidas de bondad de ajuste Anderson-Darling, Kramer von-Mises y Kolmogorov-Smirnov en los dos años considerados. La distribución Fisk sigue siendo la mejor distribución biparamétrica superando a las triparaméticas beta de segunda especie y gamma generalizada. En la última posición se alternan la distribución logarítmico normal y la Weibull. Tabla 4 MEDIDAS DE BONDAD DE AJUSTE. AÑO 2003 LnL A2 CR KS H GBII -34458224 14793 1799 0,0122 0,0548 Dagum -34468644 20997 2999 0,0127 0,0562 SM -34504880 9548 1040 0,0096 0,0595 B2 -35021556 85261 13593 0,0237 0,1199 GG -35164944 98408 14889 0,0276 0,1225 Fisk -35011464 66268 11251 0,0232 0,1055 Gamma -35215112 106081 15944 0,0294 0,1163 LN -36675032 411543 80534 0,0468 0,2868 Weibull -36675032 553122 87915 0,0559 0,2969 ESTADÍSTICA ESPAÑOLA 48 Tabla 5 MEDIDAS DE BONDAD DE AJUSTE. AÑO 2004 LnL A2 CR KS H GBII -40267004 23325 3222 0,0163 0,0597 Dagum -40288432 27249 4167 0,0167 0,0569 SM -40315176 17639 2100 0,0146 0,0667 B2 -40917148 77986 11258 0,0274 0,1156 GG -41063588 92849 13609 0,0291 0,1121 Fisk -40914756 21816 3088 0,0201 0,0864 Gamma -41084832 99491 15003 0,0291 0,1086 LN -44078156 386150 70423 0,0532 0,2516 Weibull -42451024 401263 64227 0,0583 0,1890 Las medias y los índices de Gini obtenidos con cada modelo (Tabla 6) revelan también la adecuación de las distribuciones mencionadas hasta el momento. Todas las distribuciones generan estimaciones del índice de Gini menores que la estimación puntual no paramétrica, aunque la distribución Singh-Maddala es la que produce valores más próximos, seguida por la GBII y la distribución de Dagum. La distribución Fisk, en este caso, genera valores alejados de la estimación muestral del índice de Gini, mientras que la gamma biparamétrica produce valores más aproximados que la gamma generalizada y la beta de segunda especie. Los resultados obtenidos para la renta media revelan la adecuación de algunos estimadores máximo verosímiles, como los de la distribución gamma, para la estimación de la media de la distribución. La distribución gamma generalizada también produce una buena estimación, mientras que las distribuciones lognormal y Fisk generan resultados muy alejados de la estimación muestral de la media. LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 49 Tabla 6 RENTAS MEDIAS E ÍNDICES DE GINI MUESTRALES Y ESTIMADOS A PARTIR DE LOS MODELOS 2003 GBII 2004 Media Gini Media Gini 1,1721 0,3042 1,2184 0,3180 Dagum 1,1760 0,3059 1,2248 0,3210 SM 1,1707 0,3036 1,2168 0,3168 B2 1,1725 0,3103 1,2206 0,3248 GG 1,1730 0,3089 1,2200 0,3215 Fisk 1,2305 0,3304 1,2878 0,3473 Gamma 1,1732 0,3068 1,2201 0,3201 LN 1,2027 0,3399 1,2716 0,3663 Weibull 1,1767 0,3245 1,2235 0,3365 Muestral 1,1732 0,3031 1,2201 0,3152 Nota: Las rentas medias en unidades de diez mil euros Para introducir más detalle en el análisis de la adecuación de los modelos, vamos a tratar a continuación la información que nos proporcionan los gráficos de probabilidad (PP-plots), que permiten detectar los percentiles de la distribución empírica donde se producen las mayores o menores desviaciones respecto al modelo teórico. El rasgo más sobresaliente de las comparaciones entre gráficos es la estabilidad en los comportamientos de los ajustes entre los años 2003 y 2004, de forma que se obtienen conclusiones similares para ambos cortes temporales. Así pues, por simplicidad, en el Anexo, sólo se presentan los gráficos correspondientes al año 2004. Para el caso de las distribuciones GBII, Dagum y Singh-Maddala, se observa una gran aproximación entre la función de distribución empírica y teórica (gráficos A.1 y A.2). El tramo en el que se producen las mayores distancias entre funciones teóricas y empíricas es el primer cuartil de la distribución, donde la desviación en forma curva de la función de distribución empírica es muy semejante en los tres modelos. Este hecho revela la similitud del comportamiento de las tres funciones teóricas en la modelización de la cola inferior de la distribución, que es donde se presentan las mayores desviaciones. 50 ESTADÍSTICA ESPAÑOLA La distribución beta de segunda especie y gamma generalizada (gráfico A.2) presentan mayores desviaciones entre la función teórica y la empírica a lo largo de todos los percentiles. Ambas distribuciones muestran el mismo patrón de comportamiento por tramos en cuanto a estimaciones y sobreestimaciones de la función de distribución teórica. La mejora de la distribución Fisk (gráfico A.3) sobre las dos últimas distribuciones comentadas es patente, sobre todo en el tramo del 25% inferior de la distribución, donde, en 2004, la distribución Fisk presenta incluso un mejor ajuste que las distribuciones GBII, Dagum y Singh-Maddala. Este buen comportamiento podría sugerir la adecuación de una mixtura compuesta por la distribución Fisk para las rentas más bajas y la distribución GBII para las restantes rentas, en el año 2004. Las distribuciones logarítmico normal y Weibull (gráfico A.3) presentan las mayores desviaciones, manteniéndose su comportamiento en cada tramo de la distribución, en los dos años considerados. Finalmente, en el campo de la aplicación de los ajustes realizados, destacamos el hecho de que todos los modelos recogen el incremento de la desigualdad observado entre los dos períodos analizados, 2003 y 2004, a partir del índice de Gini muestral, que pasa de 0,3031 a 0,3152 según la tabla 1. De forma más aproximada a la variación de los valores muestrales lo hacen los modelos GBII, Dagum y Singh-Maddala. Este hecho da pie al análisis de la evolución de los parámetros estimados, de acuerdo a la interpretación que tiene cada uno de ellos. En el caso de la distribución GBII, Kleiber (1999) y Sarabia, Castillo y Slottje (2002) presentan resultados sobre la dominancia en sentido de la curva de Lorenz para la GBII y las distribuciones derivadas de esta última. Así, dadas dos distribuciones GBII, con parámetros (a1,b1, p1, q1 ) y (a2, b2, p2, q2) respectivamente, la primera distribución domina, en sentido de la curva de Lorenz a la según da, si a1 ≥ a2 , a1 p1 ≥ a2 p2 y a1 q1 ≥ a2 q2 . La dominancia en sentido de la curva de Lorenz de estas dos distribuciones implica que la primera distribución exhibe menor desigualdad(17) que la segunda. Por tanto, los parámetros directamente relacionados con la desigualdad son a, p y q, siendo b un parámetro de escala(18). En nuestro caso, entre los dos años considerados, la disminución de (17) El tipo de desigualdad que muestra la curva de Lorenz es invariante ante cambios de escala y cumple el principio de transferencias. (18) La expresión del índice de Gini indica también que los parámetros que determinan el nivel de desigualdad son a, p y q (Kleiber y Kotz, 2003). LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 51 a y el ligero aumento de los parámetros p y q -que no compensa la reducción en el parámetro a- provocan que la distribución de la renta del año 2003 domine en sentido de la curva de Lorenz a la de 2004, presentando la primera un menor nivel de desigualdad. Los resultados de Kleiber (1996) contribuyen también a entender el significado de los parámetros del modelo Dagum. Este autor establece las condiciones necesarias y suficientes para la dominancia en sentido de la curva de Lorenz de dos distribuciones Dagum. Así, dadas dos distribuciones Dagum, con parámetros (a1,b1, p1) y (a2, b2, p2), la primera distribución domina, en sentido de la curva de Lorenz, a la segunda, si y solo si a1 ≥ a2 y a1 p1 ≥ a2 p2 . La disminución de los parámetros a y p entre 2003 y 2004 parece confirmar lo ya apuntado en el caso de la GBII, es decir, la distribución de la renta del año 2003 domina en sentido de la curva de Lorenz a la de 2004. Sobre los parámetros de la distribución Singh-Maddala, se han presentado diferentes análisis en Jäntti y Jenkins (2001) y en Wilfling y Krämer (1993) donde se establecen las condiciones necesarias y suficientes para la dominancia en sentido de la curva de Lorenz. Así, dadas dos distribuciones SinghMaddala, con parámetros (a1,b1, q1) y (a2, b2, q2), la primera distribución domina en sentido de la curva de Lorenz a la segunda, si y solo si a1 ≥ a2 y a1 q1 ≥ a2 q2 . En nuestro caso el movimiento de los dos parámetros no se produce en el mismo sentido: mientras que el parámetro a disminuye, el parámetro q aumenta. Sin embargo, este ligero incremento no sirve para compensar la disminución del parámetro a, que provoca que a2003q2003 > a2004q2004 , por lo que se vuelve a constatar un incremento de la desigualdad entre los años 2003 y 2004. 52 ESTADÍSTICA ESPAÑOLA CONCLUSIONES La distribución GBII anida como casos particulares los principales modelos que tradicionalmente se ajustan mejor a los datos de la DPR en España. En este trabajo, se parte de la distribución GBII para seleccionar los mejores modelos mediante contrates anidados y comparaciones de los estadísticos de bondad de ajuste LnL, Anderson-Darling, Kramer-Von Mises, Kolmogorov-Smirnov y el estadístico H, construido para comparar la función de densidad y una estimación no paramétrica del histograma de frecuencias. El proceso de estimación se ha realizado con los datos de rentas correspondientes a la ECV de los años 2003 y 2004. La escala de equivalencia utilizada ha sido la OCDE modificada por sus posibilidades de comparación, al ser de uso frecuente, sobre todo en el ámbito europeo. El método de estimación utilizado ha sido el de máxima verosimilitud, aplicado a los datos convenientemente ponderados. En el caso español, utilizando los datos de la ECV, se obtiene que la distribución GBII produce los mejores ajustes según la medida LnL y los contrastes anidados, aunque la distribuciones Dagum y Singh-Maddala presentan una notable capacidad para modelizar la DPR en España en los dos años considerados. Tres de los estadísticos de bondad de ajuste utilizados indican que la distribución Singh-Maddala es la más adecuada. Por otra parte, también produce las estimaciones del índice de Gini más próximas a la estimación muestral. Aún así, las diferencias entre los tres modelos, que se muestran claramente en los gráficos PP-plots, son pequeñas, y en todos ellos se detecta una especial dificultad para modelizar la cola inferior de la distribución empírica. Entre las distribuciones biparamétricas comparadas, la distribución Fisk presenta los mejores ajustes, con un excelente comportamiento en el primer cuartil de la distribución. Todas las distribuciones recogen el aumento de la desigualdad indicado por la estimación muestral del índice de Gini, y las estimaciones de los parámetros varían, en este sentido, de acuerdo a la interpretación económica de los mismos obtenida en otros trabajos. LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 53 ANEXO Tabla A.1 RESULTADOS DE LOS CONTRASTES EN MODELOS ANIDADOS (P-VALORES). AÑO 2003 GBII GBII Dagum SM B2 GG Fisk Gamma LN Weibull • Dagum 0,00 SM 0,00 B2 0,00 GG 0,00 Fisk 0,00 Gamma 0,00 LN 0,00 Weibull 0,00 • • • • 0,00 0,00 • 0,00 0,00 • 0,00 0,00 • 0,00 • Tabla A.2 RESULTADOS DE LOS CONTRASTES EN MODELOS ANIDADOS (P-VALORES). AÑO 2004 GBII GBII Dagum SM B2 GG Fisk Gamma LN Weibull • Dagum 0,00 SM 0,00 B2 0,00 GG 0,00 Fisk 0,00 Gamma 0,00 LN 0,00 Weibull 0,00 • • • • 0,00 0,00 • 0,00 0,00 0,00 0,00 0,00 • • • ESTADÍSTICA ESPAÑOLA 54 Gráfico A.1 PROBABILIDAD POR CUARTILES (DISTRIBUCIÓN GBII, 2004) 0 .4 5 0 .1 5 0 .1 0 0 .1 5 0 .2 5 0 .0 5 0 .3 5 F d e .G B II 0 .0 50 .0 F d e .G B II 0 .0 0 .2 0 0 .2 5 0 .3 0 0 .3 5 F d e 0 .4 0 0 .4 5 0 .5 0 F d e 1 .0 0 0 .5 0 0 .6 0 0 .6 5 F d e . 0 .7 0 0 .7 5 0 .8 0 F d e .G B II 0 .6 0 F d e .G B II 0 .5 5 0 .9 0 0 .7 0 0 .5 0 0 .8 0 0 .8 5 0 .9 0 F d e 0 .9 5 1 .0 0 LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 55 Gráfico A.2 PROBABILIDAD DE LAS DISTRIBUCIONES TRIPARAMÉTRICAS POR CUARTILES. AÑO 2004 0.35 Fde.D agum 0.15 0.0 0.25 0.05 Fde.D agum 0.45 Distribución Dagum 0.0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 Fde 0.90 Fde.D agum 0.80 0.60 0.50 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 Fde 0.90 0.95 1.00 Fde 0 .4 5 0 .2 5 0 .3 5 F d e .S in g h -M a d d a la 0 .1 5 0 .0 5 0 .0 F d e .S in g h -M a d d a la 0 .2 5 Distribución Singh-Maddala 0.0 0.05 0.10 0.15 0.20 0.25 0.25 0.30 0.35 0.40 0.45 0.50 Fde 0 .9 0 0 .5 0 0 .8 0 0 .6 0 F d e .S in g h -M a d d a la 0 .7 0 1 .0 0 Fde F d e .S in g h -M a d d a la Fde.D agum 0.70 1.00 Fde 0.50 0.55 0.60 0.65 Fde 0.70 0.75 0.80 0.85 0.90 Fde 0.95 1.00 ESTADÍSTICA ESPAÑOLA 56 Gráfico A.2 PROBABILIDAD DE LAS DISTRIBUCIONES TRIPARAMÉTRICAS POR CUARTILES. AÑO 2004 F d e .B e ta 2 0 .3 5 0 .1 5 0 .0 0 .2 5 0 .0 5 F d e .B e ta 2 0 .4 5 0 .2 5 Distribución Beta II 0.0 0.05 0.10 0.15 0.20 0.25 0.25 0.30 0.35 0.45 0.50 F d e .B e ta 2 0 .7 5 0 .8 5 0 .7 0 0 .6 0 0 .5 0 F d e .B e ta 2 0.40 Fde 0 .9 5 Fde 0.50 0.55 0.60 0.65 0.70 0.75 0.75 0.80 0.85 Fde 0.90 0.95 1.00 Fde F de.G G 0.35 0.15 0.0 0.25 0.05 F de.G G 0.45 0.25 Distribución Gamma generalizada 0.0 0.05 0.10 0.15 0.20 0.25 0.25 0.30 0.40 0.45 0.90 0.95 0.50 Fde F de.G G 0.75 0.85 0.70 0.60 0.50 F de.G G 0.35 0.95 Fde 0.50 0.55 0.60 0.65 Fde 0.70 0.75 0.75 0.80 0.85 Fde 1.00 LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 57 Gráfico A.3 PROBABILIDAD DE LAS DISTRIBUCIONES BIPARAMÉTRICAS POR CUARTILES. AÑO 2004 Fde.Fisk 0.35 0.15 0.0 0.25 0.05 Fde.Fisk 0.45 Distribución Fisk 0.0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 Fde 0.90 Fde.Fisk 0.50 0.80 0.60 Fde.Fisk 0.70 1.00 Fde 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 Fde 0.90 0.95 1.00 Fde 0.35 F de.G am m a 0.15 0.0 0.25 0.05 F de.G am m a 0.45 0.25 Distribución Gamma 0.0 0.05 0.10 0.15 0.20 0.25 0.25 0.30 0.40 0.45 0.90 0.95 0.50 Fde 0.75 0.85 F de.G am m a 0.70 0.60 0.50 F de.G am m a 0.35 0.95 Fde 0.50 0.55 0.60 0.65 Fde 0.70 0.75 0.75 0.80 0.85 Fde 1.00 ESTADÍSTICA ESPAÑOLA 58 Gráfico A.3 PROBABILIDAD DE LAS DISTRIBUCIONES BIPARAMÉTRICAS POR CUARTILES. AÑO 2004 0.45 0.25 0.35 Fde.Lognorm al 0.20 0.10 0.0 Fde.Lognorm al 0.30 Distribución Lognormal 0.0 0.05 0.10 0.15 0.20 0.25 0.30 0.25 0.30 0.35 0.45 0.50 0.75 0.85 Fde.Lognorm al 0.70 0.60 0.50 Fde.Lognorm al 0.40 Fde 0.95 Fde 0.50 0.55 0.60 0.65 0.70 0.75 0.75 0.80 0.85 Fde 0.90 0.95 1.00 Fde 0.35 Fde.W eibull 0.25 0.10 0.0 Fde.W eibull 0.20 0.45 Distribución WeibulI 0.0 0.05 0.10 0.15 0.20 0.25 0.25 0.30 0.40 0.45 0.50 Fde 0.75 0.85 Fde.W eibull 0.70 0.60 0.50 Fde.W eibull 0.35 0.95 Fde 0.50 0.55 0.60 Fde 0.65 0.70 0.75 0.75 0.80 0.85 Fde 0.90 0.95 1.00 LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 59 REFERENCIAS AITCHINSON, J. Y BROWN, J.A.C. (1957). «The Lognormal Distribution», Cambridge University Press. ARNOLD, B. C., CASTILLO, E. Y SARABIA, J. M. (2007). «Families of multivariate distributions involving the Rosenblatt construction», Journal of the American Statistical Association, 101 (476), pp. 1652–1662. BANDOURIAN, R., MCDONALD, J. B. Y TURLEY, R. S. (2003). «Income Distributions: An Inter-temporal Comparison over Countries», Estadistica, 55, pp. 135-152. BICKEL, P. J. Y ROSEMBLATT, M. (1973). «On Some Global Measures of the Deviations of Density Function Estimates», Annals of Statistics, 1, pp. 10711095. BORDLEY, R. F., MCDONALD, J. B. Y MANTRALA, A. (1996). «Something New, Something Old: Parametric Models for the Size Distribution of Income», Journal of Income Distribution, 6 (1), pp. 91-104. BRACHMANN, K., STICH, A. Y TREDE, M. (1996). «Evaluating Parametric Income Distributions Models», Allgemeines Statistisches Archiv, 80, pp. 285-298. BUTLER, M.J. Y MCDONALD, J.B. (1989). «Using Incomplete Moments to Measure Inequality», Journal of Econometrics, 42, pp. 109-119. CALLEALTA, J., CASAS, J.M. Y NÚÑEZ, J. J. (1996). «Distribución de la renta per capita disponible en España: descripción, desigualdad y modelización» en Pena B., J. Callealta, J.M. Casas, A. Merediz y J. J. Núñez (eds.), Capítulo 5. Editorial Pirámide. COULTER, F., COWELL, F. Y JENKINS, S. (1992). «Differences in needs and assessment of income distributions» Bulletin of Economic Research, 44, pp. 77-124. COX, D. R. Y HINKLEY, D. V. (1974). «Theoretical Statistics, Chapman and Hall». CREEDY, J., LYE, J. N. Y MARTIN, V.L. (1996). «A Labor Market Equilibrium Model of the Personal Distributions of Earnings», Journal of Income Distribution, 6(1), pp. 127-144. D'AGOSTINO, R. B. Y STEPHENS, M. A. (1986). «Goodness-of-Fit Techniques», Marcel Dekker, Nueva York. DAGUM, C. (1977). «A New Model of Personal Income Distribution: Specification and Estimation», Economie Appliqueé, 30, pp. 413-436. 60 ESTADÍSTICA ESPAÑOLA DAGUM, C. (1980). «Sistemas Generadores de la Distribución del Ingreso y la Ley de Pareto», El Trimestre Económico, 188, pp. 877-917. DAGUM, C. (1990). «Generation and Properties of Income Distribution Functions», Studies in Contemporary Economics, University of Otawa. DANZINGER, S. Y TAUSSING, M. K. (1979). «The income unit and the anatomy of income distribution», Review of Income and Wealth, 25, pp. 365-75. DASTRUP, S. R., HARTSHORN, R. Y MCDONALD, J. B. (2007). «The impact of taxes and transfer payments on the distribution of income: A parametric comparison» Journal of Economic Inequality (aceptado para su publicación y disponible en la web de la revista). GARCÍA, C., CALLEALTA, F. J. Y NÚÑEZ, J. J. (2006). «La Evolución de la Distribución Personal de la Renta en España (1973-2001) a través de los Parámetros del Modelo de Dagum», El Trimestre Económico, 292, pp. 783-808. GHOSH, J. K. (1994). «Higher Order Asymptotics», Institute of Mathematical Statistics. GIBBONS, J. Y CHAKRABARTY, S. (1992). «Nonparametric Statistical Inference», Marcel Dekker. HADDARD, L. Y KANBUR, R. (1990). «How serious is the neglect of intra-household inequality?» Economic Journal, 100, pp. 866-881. INE (2005). «Metodología de la Encuesta de Condiciones de Vida». Versión electrónica http://www.ine.es/daco/daco42/ condivi/ecv_metodo.pdf. International Expert Group on Household Income Statistics (2001). «Final Report and Recommendations», Ottawa, Ontario: Statistics Canada. JÄNTTI, M. Y JENKINS, S.P. (2001). «Examining the Impact of Macro-economic Conditions on Income Inequality», ISER, Working Paper 2001-17, Universidad de Essex. JENKINS, S.P. (2007). «Inequality and the GB2 Income Distribution», IZA Discussion Papers 2831, Institute for the Study of Labor (IZA). KANBUR, R. (2003). «Education, Empowerment and Gender Inequalities», en N. Stern y B. Pleskovic (eds). The New Reform Agenda: The World Bank. Washington, DC. KLEIBER, C. (1996). «Dagum vs. Singh-Maddala expenditure distributions», Economics Letters, 53, pp. 265-268. LA DISTRIBUCIÓN BETA GENERALIZADA DE SEGUNDA ESPECIE COMO MODELO … 61 KLEIBER, C. (1999). «On the Lorenz order within parametric families of income distributions», Sankhya, B 61, pp. 514-517. KLEIBER, C. Y KOTZ. S. (2003), «Statistical Size Distributions in Economics and Actuarial Sciences», Wiley Series in Probability and Statistics. MAJUMDER, A. Y CHAKRAVARTY, S. R. (1990). «Distribution of Personal Income: Development of a New Model and its Application to US Income Data», Journal of Applied Econometrics, 5, pp. 189-96. MCDONALD, J. B. (1984). «Some Generalized Function for the Size Distribution of Income». Econometrica, 52, pp. 647-64. MCDONALD, J. B. Y XU, Y. J. (1995). «A Generalization of the Beta Distribution with Applications», Journal of Econometrics, 66, pp. 133-152. NAREDO, J. M. (1993). «Composición y distribución de la riqueza en los hogares españoles» en I Simposio sobre Igualdad y Distribución de la Renta y la Riqueza, Fundación Argentaria, Madrid. PARETO, V. (1896). «Ecrits sur la courbe de la répartition de la richesse», en Oeuvres complètes de Vilfredo Pareto, Libraire Droz, Ginebra, 1965. PARKER, S.C. (1996). «A Labor Market Theory of the Earnings Distribution», Journal of Income Distribution, 6(1), pp. 33-52. (1999). «The Generalised Beta as a Model of the Earnings Distribution». Economics Letters, 62(2), pp. 197-200. PARZEN, E. (1962). «On Estimation of a Probability Density and Mode», Annals of Mathematical Statistics, 35, pp. 1065-1076. PRIETO-ALAIZ, M. Y VICTORIA-FESER, M. P. (1996). «Modelling Income Distribution in Spain: A Robust Parametric Approach”, DARP discussion paper, número 20. RAO, C. (1973), «Linear Statistical Inference and its Applications», John Wiley & Sons. SARABIA, J. M., CASTILLO, E. Y SLOTTJE, D. J. (2002). «Lorenz Ordering Between McDonald’s Generalized Functions of the Income Size Distribution», Economics Letters, 75, pp. 265-270. SILVERMAN, B.W. (1986). «Density Estimation for Statistics and Data Analysis», Chapman and Hall, Londres. SINGH, S. K. Y MADDALA, G. S. (1976). «A Function for the Size Distribution of Income», Econometrica, 44, pp. 963-970. 62 ESTADÍSTICA ESPAÑOLA STEPHENS, M.A. (1986). «Test Based on EDF Statistics» en D’Agostino, R.B. y Stephens, M.A. Goodness of Fit Techniques, capítulo 4, Marcel Dekker. VICTORIA-FESER, M.P. (2000). «A General Robust Approach to the Analysis of Income Distribution, Inequality and Poverty», International Statistical Review, 68, pp. 277-293. WILFLING, B. Y KRAMER, W. (1993). «The Lorenz-Ordering of Singh-Maddala Income Distributions», Economics Letters, 43, pp. 53-57. THE GENERALIZED BETA OF SECOND KIND AS A MODEL FOR THE SPANISH PERSONAL INCOME DISTRIBUTION ABSTRACT The aim of this paper is to study the best fitting parametric models to describe the personal income distribution in Spain. To carry out this study, we use, as starting point, the generalized beta distribution of second kind because it nests the main models that traditionally have been utilized to describe the personal income distribution in Spain. After an estimation and validation process of the different distributions proposed, the most adequate models for the Spanish case are selected. These models are generalized beta of second kind, Dagum and Singh-Maddala distributions. To fit the models we use income data from two waves of the EU-SILC for the years 2004 and 2005. Key words: Personal Income Distribution, Generalized Beta of Second Kind. Dagum Model, Singh-Maddala Model. AMS Classification: 62E17, 60E05, 62P20.