Material Docente - del Departamento de Economía Aplicada III

Estadı́stica Actuarial y Análisis de Regresión Autor: M. Victoria Esteban González Departamento de Economı́a Aplicada III. Econometrı́a y Estadı́stica Facultad de Ciencias Económicas y Empresariales Universidad del Paı́s Vasco/Euskal Herriko Unibertsitatea Queda terminantemente prohibida la reproducción no autorizada de este material docente, y la distribución no autorizada de copias de la misma, ası́ como cualquier otra infracción de los derechos que sobre esta recopilación corresponden a la Profesora Ma Victoria Esteban junto con el Departamento de Econometrı́a y Estadı́stica de la Facultad de Ciencias Económicas y Empresariales de la UPV/EHU. c °UPV/EHU 2012. Estadı́stica Actuarial: Análisis de Regresión ii Presentación El objetivo de este documento es introducir un conjunto de técnicas estadı́sticas y econométricas para la estimación de modelos lineales en situaciones donde se cumplen las hipótesis estadı́sticas de comportamiento habituales. Se pretende introducir al alumno en el análisis de regresión, por lo que previo a un repaso de aspectos fundamentales de la estimación de parámetros y sus propiedades y de la inferencia estadı́stica se estudia en detalle el Modelo de Regresión Lineal General. El objetivo fundamental del curso es que, al final del mismo, los estudiantes sean capaces de utilizar el modelo de regresión para resolver un problema sencillo que se les plantee: desde la especificación, estimación y validación del modelo hasta contrastar hipótesis de relevancia económica y predecir. Este objetivo se ha de satisfacer tanto desde un punto de vista teórico, resolver cuestiones y explicar resultados ya obtenidos, como práctico: estimar un modelo con una base de datos concreta y realizar los contrastes pertinentes. Estas notas incluyen seis temas más un tema inicial que aborda la descripción gráfica y numérica de una variable más un tema final con orientaciones dirigidas al desarrollo por parte de los alumnos de un proyecto final donde se muestre la evolución de un caso práctico de interés. Los contenidos se estructuran entorno a dos núcleos centrales, el análisis de la información que podemos extraer de una única variable y el estudio de cómo se relacionan las variable entre sı́. El análisis de una única variable ocupa los contenidos de los tres primeros temas. En el tema uno se estudian los conceptos de variable aleatoria, discreta y continua, junto con sus distribuciones de probabilidad. Se estudian las distribuciones, normal, chi-cuadrado, t-student y F-Snedecor ası́ como los conceptos de población y muestra. El tema 2 introduce la estimación por punto y por intervalo. El tema 3 aborda el diseño de pruebas estadı́sticas y el contraste de hipótesis. Cómo se relaciona una variable con otras ocupa el contenido de los temas cuatro a seis. El tema cuatro introduce la nomenclatura y conceptos más habituales a manejar en el contexto del análisis de regresión. El tema cinco aborda el análisis de regresión a través del modelo de regresión lineal general. Su especificación, estimación y el contraste de hipótesis ocupan este tema. El estimador de referencia es el estimador de Mı́nimos Cuadrádos Ordinarios. Se estudiaran sus propiedades y cómo compararlo con otros estimadores de interés. El último tema muestra cómo analizar si alguna de las hipótesis estadı́sticas de comportamiento habituales no se cumplen y cuáles son las consecuencias de su incumplimiento para finalizar abordando la predicción de la variable de interés. A lo largo de los temas se va mostrando cómo utilizar un software libre, el programa gretl, especialmente indicado para el análisis econométrico y que permite un afianzamiento de los contenidos teóricos. Por ello, al final de los temas tres, cinco y seis se incluye una sección que muestra cómo utilizar este programa en relación a los contenidos vistos. En cada tema se muestran ejemplos que iii Estadı́stica Actuarial: Análisis de Regresión ilustran los diferentes escenarios de trabajo ası́ como se recomienda la realización de los ejercicios propuestos. Al término de cada tema se muestra la bibliografı́a correspondiente. Al final del documento aparece la bibliografı́a completa. Las notas tienen como objetivo servir de apoyo al proceso de aprendizaje de los estudiantes de la asignatura Estadı́stica Actuarial: Regresión del Grado en Finanzas y Seguros. Sin embargo, dada su temática básica de estadı́stica y análisis de regresión pueden ser útiles en asignaturas afines de los Grados en Economı́a, Administración y Dirección de Empresas, Marketing y Fiscalidad y Administración Pública. Ası́ mismo sirven de apoyo a estudiantes de master por ejemplo el Master Universitario en Economı́a: Instrumentos del Análisis económico o el Máster Universitario en Banca y Finanzas Cuantitativas. Las competencias especı́ficas de la asignatura y la evaluación La asignatura de Estadı́stica Actuarial: Regresión es una asignatura de 6 créditos ECTS que conlleva 60 horas de trabajo presencial en el aula y 90 horas de trabajo no presencial. La metodologı́a y modalidades docentes a utilizar están sujetas al criterio del docente y pueden variar cada curso académico. Hay que tener en cuenta que la organización de la metodologı́a docente junto con el diseño de los contenidos de los temas del curso van dirigidos a que los alumnos alcancen las siguientes competencias especı́ficas de la asignatura: 1. Conocer distintos procedimientos de estimación de parámetros, ası́ como sus propiedades para poder seleccionar adecuadamente la mejor alternativa de análisis. 2. Aplicar la metodologı́a estadı́stica adecuada para el diseño de contrastes de hipótesis para la toma de decisiones en el ámbito profesional. 3. Analizar de forma crı́tica los elementos básicos de los modelos econométricos para comprender la lógica de la modelización econométrica y poder especificar relaciones causales entre variables económicas. 4. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en base a la información estadı́stica disponible sobre variables económicas y utilizando los instrumentos informáticos apropiados. 5. Obtener e interpretar los resultados de un análisis estadı́stico de datos económicos haciendo uso de las fuentes de información apropiadas y de los instrumentos informáticos necesarios. 6. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obtenidas en un caso de estudio particular. El sistema actual de docencia dentro del EEES tiene como ejes fundamentales el proceso de enseñanza-aprendizaje y la adquisición no sólo de conocimientos, sino también, y fundamentalmente, de destrezas implica directamente la valoración del trabajo diario del alumno y su evolución en la adquisición de las competencias. La utilización de la evaluación continua en la evaluación de los alumnos implica la realización, junto con otras pruebas y tareas que el docente crea de interés, de iv Estadı́stica Actuarial: Análisis de Regresión test rápidos o de preguntas cortas en relación a todo lo visto en las clases, conceptos teóricos y ejercicios prácticos incluido el software gretl que permitan evaluar al alumno y saber si han adquirido los resultados del aprendizaje alcanzando ası́ las competencias especı́ficas. Parte de las pruebas tendrán componente de sorpresa, es decir sin previo aviso, y parte serán pactadas en cuanto a fecha. Como se indicaba anteriormente estas notas sirven de apoyo al estudio. Analizan los problemas en profundidad y permiten al alumno profundizar en los temas que conforman el contenido del curso. Ası́ mismo tienen una fuerte vertiente práctica que permitirá al alumno no solo saber sino también saber hacer. En ningún caso deben utilizarse como sustituto de los libros incluidos en la bibliografı́a. De igual manera se recomienda la realización de ejercicios tanto los recomendados en clase como los que aparecen en la bibliografı́a. La unión del estudio de los conceptos y la utilización de los mismos en los ejercicios permite adquirir la agilidad necesaria para el dominio de la asignatura y alcanzar las competencias especı́ficas de la misma. Sobre el software gretl A lo largo del curso se muestra cómo utilizar un software gretl que permite al alumno un afianzamiento de los contenidos teóricos del curso de Econometrı́a como la puesta en práctica de casos reales con la utilización del software gretl1 . gretl es software libre especialmente dirigido hacia la práctica de la econometrı́a y la estadı́stica, muy fácil de utilizar. Ha sido elaborado por Allin Cottrell (Universidad Wake Forest) y existen versiones en inglés, castellano y euskera, además de en otros idiomas. Junto con el programa se pueden cargar los datos utilizados como ejemplos de aplicaciones econométricas en los siguientes libros de texto Davidson y Mackinnon (2004), Greene (2008), Gujarati (1997), Ramanathan (2002), Stock y Watson (2003), Verbeek (2004), Wooldridge (2003). Al instalar gretl automáticamente se cargan los datos utilizados en Ramanathan (2002) y Greene (2008). El resto se pueden descargar de la página: http : //gretl.sourcef orge.net/gretl− data.html en la opción textbook datasets. Este curso se estructura sobre casos prácticos presentados en Ramanathan (2002) y en Wooldridge (2003) y ejercicios a resolver con ayuda de gretl. También da acceso a bases de datos muy amplias, tanto de organismos públicos, como el Banco de España, como de ejemplos recogidos en textos de Econometrı́a. En la página http : //gretl.sourcef orge.net/gretl− espanol.html se encuentra la información en castellano relativa a la instalación y manejo del programa. También hay versiones de esta ayuda en euskera y en inglés. Una página web interesante sobre las posibilidades del programa para el aprendizaje de Econometrı́a es: http://www.learneconometrics.com/gretl.html 1 Acrónimo de Gnu Regression, Econometric and Time Series (Biblioteca Gnu de Regresión Econometrı́a y Series Temporales) v Estadı́stica Actuarial: Análisis de Regresión vi Contenido 0. Introducción 1 0.1. La naturaleza de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 0.2. Clasificación de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 0.3. Representación gráfica de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . 5 0.4. Descripción numérica de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 0.5. Tratamiento de la información con gretl : inclusión de datos en gretl y análisis descriptivo básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 0.6. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1. Variables Aleatorias. Población y muestra 19 1.1. Variables aleatorias y distribuciones de probabilidad. Ejemplos . . . . . . . . . . . . 1.1.1. Variables aleatorias discretas y distribuciones de probabilidad 21 . . . . . . . . 21 1.1.2. Variables aleatorias continuas y distribuciones de probabilidad . . . . . . . . 22 1.1.3. Esperanzas y variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 24 1.1.4. Dos variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.1.5. Más de dos variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 1.2. La distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.2.1. La distribución normal estandarizada . . . . . . . . . . . . . . . . . . . . . . 36 1.2.2. La distribución chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 1.2.3. La distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 1.2.4. La distribución F-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1.3. Muestreo de una población. Muestras aleatorias . . . . . . . . . . . . . . . . . . . . . 41 1.4. Estadı́sticos y distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . . . 42 1.5. La distribución de la media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 1.6. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 vii Estadı́stica Actuarial: Análisis de Regresión 2. Estimación por punto y por intervalo 47 2.1. Introducción a la inferencia estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.2. Estimadores puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.2.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2.2. Estimadores de la media y la varianza . . . . . . . . . . . . . . . . . . . . . . 52 2.3. Estimación por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.3.1. Intervalos de confianza y nivel de confianza . . . . . . . . . . . . . . . . . . . 54 2.3.2. Intervalos de confianza para la media de una población normal con varianza conocida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.3.3. Intervalos de confianza para la media de una población normal con varianza desconocida. La distribución t de Student . . . . . . . . . . . . . . . . . . . . 55 2.3.4. Otros ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.4. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3. Contraste de hipótesis 61 3.1. Concepto de hipótesis nula e hipótesis alternativa . . . . . . . . . . . . . . . . . . . . 63 3.2. Tipos de error en el contraste y potencia de un contraste . . . . . . . . . . . . . . . . 64 3.3. El p-valor y conclusiones del contraste . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4. Pasos en la realización de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.5. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 3.5.1. Contrastes de la media de una distribución normal . . . . . . . . . . . . . . . 66 3.5.2. Otros ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.6. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4. Modelo econométrico: introducción 73 4.1. Modelo económico y modelo econométrico . . . . . . . . . . . . . . . . . . . . . . . . 75 4.2. Etapas en la elaboración de un modelo econométrico . . . . . . . . . . . . . . . . . . 77 4.3. Tipologı́a de datos y variables en Econometrı́a . . . . . . . . . . . . . . . . . . . . . 78 4.3.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.3.2. Fuentes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 4.4. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5. Modelo de Regresión Lineal General 85 5.1. Especificación del Modelo de Regresión Lineal General (MRLG): supuestos básicos . viii 88 Estadı́stica Actuarial: Análisis de Regresión 5.1.1. Hipótesis básicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2. Forma funcional. Interpretación de los coeficientes. . . . . . . . . . . . . . . . . . . . 93 5.3. Estimación por Mı́nimos Cuadrados Ordinarios (MCO) . . . . . . . . . . . . . . . . 100 5.3.1. Método de estimación de Mı́nimos Cuadrados Ordinarios (MCO) . . . . . . . 101 5.3.2. Propiedades de la Función de Regresión Muestral, FRM . . . . . . . . . . . . 107 5.3.3. Medidas de bondad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.4. Propiedades de los estimadores MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.4.1. Propiedades de los estimadores MCO . . . . . . . . . . . . . . . . . . . . . . 112 5.4.2. Estimación de la varianza de las perturbaciones . . . . . . . . . . . . . . . . . 114 5.4.3. Consecuencias del incumplimiento de algunos supuestos: colinealidad . . . . . 116 5.4.4. Consecuencias del incumplimiento de algunos supuestos: omisión de variables relevantes e inclusión de variables irrelevantes . . . . . . . . . . . . . . . . . . 120 5.5. Utilización de variables explicativas cualitativas . . . . . . . . . . . . . . . . . . . . . 122 5.5.1. Modelo que recoge sólo efectos cualitativos: comparando medias. Sólo un conjunto de variables ficticias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 5.5.2. Dos o más conjuntos de variables ficticias . . . . . . . . . . . . . . . . . . . . 126 5.5.3. Inclusión de variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . 127 5.5.4. Comportamiento estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.5.5. Efectos de interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.6. Distribución del estimador MCO. Estimación por intervalo . . . . . . . . . . . . . . . 130 5.6.1. Distribución del estimador de MCO bajo Normalidad . . . . . . . . . . . . . 130 5.6.2. Estimación por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 5.7. Contraste de hipótesis sobre los coeficientes de la regresión . . . . . . . . . . . . . . . 131 5.7.1. Contraste de restricciones sobre los coeficientes de regresión individuales . . . 131 5.7.2. Contraste de restricciones sobre los coeficientes de regresión . . . . . . . . . . 133 5.7.3. Contrastes basados en sumas de cuadrados de residuos . . . . . . . . . . . . . 137 5.8. Estimación del MRLG con gretl : principales resultados, contraste de hipótesis . . . . 154 5.8.1. Tratamiento de las variables ficticias en gretl. . . . . . . . . . . . . . . . . . . 157 5.9. Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 5.9.1. Anexo 1. Distintas expresiones de SCT, SCE y SCR . . . . . . . . . . . . . . 163 5.9.2. Anexo 2. Demostración de la insesgadez de σ̂ 2 . . . . . . . . . . . . . . . . . . 163 5.9.3. Anexo 3. Distribuciones que nos interesan . . . . . . . . . . . . . . . . . . . . 165 ix Estadı́stica Actuarial: Análisis de Regresión 5.10. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 6. Validación 6.1. Forma funcional 167 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 6.2. Sobre constancia de los coeficientes: contraste de cambio estructural . . . . . . . . . 171 6.3. Sobre las perturbaciones: contrastes de heterocedasticidad y ausencia de correlación 172 6.3.1. Contraste de heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . 172 6.3.2. Detección gráfica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 6.3.3. Contraste de White . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 6.3.4. Contraste de ausencia de correlación temporal . . . . . . . . . . . . . . . . . 180 6.4. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 6.5. Validación en gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 6.5.1. Contraste de Ramsey con gretl . . . . . . . . . . . . . . . . . . . . . . . . . . 191 6.5.2. Contraste de cambio estructural o Chow con gretl . . . . . . . . . . . . . . . 193 6.5.3. Contraste de heterocedasticidad con gretl . . . . . . . . . . . . . . . . . . . . 196 6.5.4. Contraste de ausencia de correlación con gretl . . . . . . . . . . . . . . . . . . 198 6.5.5. Predicción en gretl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 6.6. Bibliografı́a del tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 7. Guı́a para el desarrollo de un proyecto empı́rico 205 7.1. Caracterı́sticas básicas del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 Bibliografı́a 209 x Figuras 1. No de aprobados en tres asignaturas de la Licenciatura en Economı́a. . . . . . . . . . 6 2. Distribución de frecuencias del gasto en sanidad . . . . . . . . . . . . . . . . . . . . 7 3. Distribución de frecuencias relativas y evolución temporal del la demanda doméstica de electricidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 4. Evolución temporal del consumo y renta per cápita junto a la nube de puntos . . . . 10 5. Gráficos de las observaciones para las variables price y sqf t . . . . . . . . . . . . . . 16 1.1. Distribución normal bivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 1.2. Ejemplos de función de densidad de la distribución normal . . . . . . . . . . . . . . 35 1.3. Función de distribución acumulada de la distribución normal . . . . . . . . . . . . . 35 1.4. Probabilidades correspondientes a Z = 1, 65 y Z = −1, 65 en la distribución normal estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 1.5. Función de densidad de la distribución Chi-cuadrado . . . . . . . . . . . . . . . . . . 40 1.6. Función de densidad de la distribución t-Student . . . . . . . . . . . . . . . . . . . . 40 1.7. Función de densidad de la distribución F-Snedecor . . . . . . . . . . . . . . . . . . . 41 2.1. Sesgo y varianza de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2. Ejemplos de distribución de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.1. Perturbaciones homocedásticas versus heterocedásticas . . . . . . . . . . . . . . . . . 91 5.2. Función de regresión poblacional y función de regresión muestral . . . . . . . . . . . 101 6.1. Relaciones económicas no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 6.2. Perturbaciones homocedásticas versus heterocedásticas . . . . . . . . . . . . . . . . . 173 6.3. Residuos MCO versus P OP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 6.4. Residuos MCO versus P OP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 6.5. Residuos MCO y sus cuadrados versus SEN . . . . . . . . . . . . . . . . . . . . . . . 178 xi Estadı́stica Actuarial: Análisis de Regresión 6.6. Perturbaciones homocedásticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 6.7. Residuos MCO frente a una variable ficticia . . . . . . . . . . . . . . . . . . . . . . . 179 6.8. Proceso autorregresivo de orden uno . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 6.9. Perturbaciones AR(1) positivo versus AR(1) negativo . . . . . . . . . . . . . . . . . 185 6.10. Variable endógena versus exógena . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 6.11. Gasto sanitario real y ajustado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 6.12. Residuos MCO versus RENTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 6.13. Residuos versus tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 6.14. Residuos en t versus residuos en t-1 6.15. Variable endógena versus exógena . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.16. Residuos modelo (6.20) versus tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . 202 xii Tablas 1. No de aprobados en tres asignaturas de la Licenciatura en Economı́a. . . . . . . . . . 6 2. Gasto sanitario por estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3. Distribución de frecuencias para el gasto en sanidad . . . . . . . . . . . . . . . . . . 7 4. Demanda doméstica de electricidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 5. Distribución de frecuencias para la demanda doméstica de electricidad . . . . . . . . 9 1.1. Función de densidad de probabilidad conjunta f (x, y) . . . . . . . . . . . . . . . . . 29 1.2. Distribuciones marginales para X e Y . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1. Datos sobre salario medio por hora . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.2. Tamaño de la cadera para 50 individuos. . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.1. Datos de caracterı́sticas de viviendas. Fichero 4-1.gdt. . . . . . . . . . . . . . . . . . 106 5.2. observaciones muestrales de la prima pagada y renta . . . . . . . . . . . . . . . . . . 147 6.1. Observaciones sobre rendimiento y t/i por paı́s . . . . . . . . . . . . . . . . . . . . . 191 7.1. Modelos estimados para el precio de la vivienda P RICE . . . . . . . . . . . . . . . 208 7.2. Función de Salarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 xiii Tema 0 Introducción La Estadı́stica, la Econometrı́a y muchas otras materias se alimentan de datos. En ocasiones el número de datos u observaciones recogidas es tan grande que no es fácil obtener unos resultados interpretables con claridad. En este tema vamos a dedicar las clases a resumir de forma clara y precisa la información que nos transmiten los datos sin ocultar caracterı́sticas importantes. No hay una estrategia correcta para ello en general depende del tipo de datos y del fin del estudio. En este tema vamos a introducir gráficos y tablas que resuman la información de los datos, por ejemplo gráficos de barra, tarta, gráficos de series temporales. Los gráficos, diagramas y tablas pueden mejorar la comunicación de los datos a los clientes u proveedores. A lo largo del tema se han introducido ejemplos ilustrativos de los conceptos a aprender. Competencias a trabajar en estas sesiones: 5. Obtener e interpretar los resultados de un análisis estadı́stico de datos económicos haciendo uso de las fuentes de información apropiadas y de los instrumentos informáticos necesarios. Al final de este tema deberı́ais ser capaces de: 1. Representar gráficamente variables. 2. Describir numéricamente los datos observados. 3. Incluir datos en gretl y obtener su análisis descriptivo básico. Bibliografı́a Recomendada: Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación: 1 Estadı́stica Actuarial: Análisis de Regresión • Gujarati, D. y Porter, D.C. (2010). Apéndice A. • Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 1, Cap. 2 y Cap. 3. • Ramanathan, R. (2002). Cap. 2. • Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Cap. 1 • Wooldridge, J.M. (2006). Apéndice B. 2 Estadı́stica Actuarial: Análisis de Regresión 0.1. La naturaleza de los datos En la actualidad el individuo tiene a su disposición datos de casi todo aquello que desee conocer. La Administraciones públicas, los entes privados y los investigadores cientı́ficos publican y recogen datos. Es muy importante saber resumir e interpretar la información que proporcionan. Pensemos en el lanzamiento de un nuevo producto al mercado. El productor necesitará conocer su nivel de demanda potencial, todos sus posibles compradores. A este conjunto de todos sus posibles compradores se le denomina población. En ocasiones el tamaño de la población puede ser muy grande e incluso infinito por lo que debemos limitarnos a estudiar una parte más reducida de la misma, que denominamos muestra. La población es el conjunto de todos los objetos que interesan al investigador. Al número de observaciones u objetos que conforman la población se le denomina tamaño de la población y se denota por N . La muestra es un subconjunto observado de valores poblacionales. El número de observaciones que conforman la muestra se denomina tamaño de la muestra y se denota por n. El muestreo aleatorio simple o muestreo aleatorio es el procedimiento que se utiliza para seleccionar una muestra de n observaciones de una población en el que cada miembro de la población se elige estrictamente al azar. Cada miembro de la población se elige con la misma probabilidad y todas las muestras posibles de un tamaño dado, n, tienen la misma probabilidad de ser seleccionadas. Tomar una muestra y estudiar sus caracterı́sticas es un medio para extraer conclusiones sobre la población. Por ejemplo si estamos interesados en conocer la renta media de las familias de un paı́s, el tamaño de la población es tan grande que solo podrı́amos tomar una muestra aleatoria de por ejemplo 1000 familias y calcular su renta media. Esta media basada en datos muestrales se llama estadı́stico. Si pudiéramos calcular la renta media de todas las familias la media resultante se llamarı́a parámetro. En este curso estudiaremos cómo se toman decisiones sobre un parámetro basándonos en un estadı́stico. Trabajaremos en un entorno de incertidumbre ya que el valor exacto del parámetro es desconocido. Un parámetro es una caracterı́stica especı́fica de la población. Un estadı́stico es una caracterı́stica especı́fica de la muestra. Una vez que tenemos definido un problema y recolectados los datos objeto de interés, estos se analizan utilizando métodos estadı́sticos. La estadı́stica descriptiva y la estadı́stica inferencial permiten convertir los datos en conocimiento útil para la toma de decisiones. La estadı́stica descriptiva está formada por métodos gráficos y numéricos que permiten resumir y procesar los datos convirtiéndolos en información. La estadı́stica inferencial permite hacer estimaciones, contraste de hipótesis, predicciones y previsiones. Una vez que tenemos recolectados los datos debemos transformarlos en información. Para ello podemos llevar a cabo un análisis gráfico de los mismos y también un análisis descriptivo. 0.2. Clasificación de las variables Antes de abordar el estudio gráfico y el estudio descriptivo de los datos vamos a hablar de las variables. Una variable es una caracterı́stica que al ser medida en diferentes individuos es susceptible de adoptar diferentes valores. Las variables pueden clasificarse de varias formas, por ahora lo haremos 3 Estadı́stica Actuarial: Análisis de Regresión en dos. Cuando las clasificamos según el tipo y la cantidad de información que contienen podemos distinguir entre variables categóricas y numéricas. Cuando las clasificamos por nivel de medición podemos distinguir entre variables cualitativas y cuantitativas. Una primera clasificación divide los datos en variables categóricas y variables numéricas. Las variables categóricas son aquellas que generan respuestas que pertenecen a categorı́as o grupos. Por ejemplo ¿tiene coche? ¿utiliza tarjeta de crédito? También son variables categóricas las respuesta a preguntas sobre sexo, estado civil, nivel de educación y también lo son las respuestas con diferentes grados de intensidad como las que van de totalmente de acuerdo a totalmente en desacuerdo. Una variable numérica es aquella que toma valores. Una variable numérica discreta puede tener un número infinito de valores, pero en general proviene de un proceso de recuento, por ejemplo número de aprobados en Matemáticas II o el número de matriculados en una asignatura. Una variable numérica continua puede tomar cualquier valor en un intervalo dado de números reales y normalmente proviene de un proceso de medición. Por ejemplo la altura y el peso, la temperatura, el tiempo, la distancia entre dos puntos, etc. También podemos clasificar los datos por su nivel de medición en variables cualitativas y cuantitativas. Variables cuantitativas son aquellas que podemos valorar numéricamente. Por ejemplo, la renta disponible de una familia, el precio de un bien, la renta per cápita. Variables cualitativas son aquellas que miden cualidades y que por lo tanto no se miden con un valor numérico y será el investigador el que se lo asigne según un criterio. Por ejemplo, si un individuo es hombre o mujer, si está o no casado, si trabaja en turno de noche o no, si tiene estudios superiores o no. En las variables cualitativas es el investigador el que establece el valor de la variable para cada caracterı́stica. Las variables cualitativas pueden tener niveles de medición nominales y ordinales mientras que los datos cuantitativos pueden tener niveles de medición basados en intervalos y en razones. Son datos nominales los que responden a preguntas categóricas, el sexo, el lugar de nacimiento, el estado civil. Por ejemplo, la respuesta a la pregunta sexo del individuo son palabras que describen la categorı́a: hombre, mujer y se ha de asignarlas un código de manera arbitraria, por ejemplo: hombre = 1, mujer = 0, este valor solo se emplea para clasificar a los individuos, la diferencia entre ellos no tienen ningún valor. Los datos ordinales indican el orden que ocupa el objeto, por ejemplo en una encuesta pueden preguntar sobre el grado de dificultad de un determinado procedimiento y las respuestas pueden ser: alto=1, medio=2, bajo=3. Las respuestas siguen un orden, son ordinales, pero la diferencia entre ellas no tiene significado mensurable. Los niveles de medición basados en intervalos y razones se refieren a datos en una escala ordenada en los que la diferencia entre las mediciones tiene un significado. Una escala de intervalos indica el orden y la distancia con respecto a un cero arbitrario medidos en intervalos unitarios, por ejemplo el año es un dato de este tipo donde el nivel de referencia es el calendario gregoriano. Otro ejemplo serı́a la temperatura. Los datos basados en una escala de razones indican el orden y la diferencia con respecto a un cero natural y los cocientes entre dos medidas tienen un significado. Por ejemplo una persona que tiene 90 años tiene el doble de años que una persona de 45 años. El peso, la altura son variables de este tipo. Con respecto a la unidad de medida los podemos clasificar en: 4 Estadı́stica Actuarial: Análisis de Regresión 1. Datos de serie temporal: Reflejan la evolución de una variable a lo largo del tiempo, según esto la variable estará ordenada cronológicamente con un orden lógico. Las variables medidas en series temporales se denotan con el subı́ndice t y este puede referirse a observaciones temporales mensuales, trimestrales, diarias, cuatrimestrales, anuales, etc. Ejemplo: la demanda doméstica de electricidad (DDE) del segundo trimestre de 1972 al cuarto trimestre de 1993. En este caso la población serı́an todos los posibles valores de dicha demanda DDE a lo largo del tiempo y la muestra el perı́odo que vamos a estudiar, 1972:2-1993:4, el tamaño de la muestra es de 87 observaciones. 2. Datos de sección cruzada o corte transversal: Son datos atemporales dado que miden el comportamiento de una variable en diferentes unidades y en el mismo momento del tiempo. Ejemplo: el salario de los trabajadores del sector de educación en las diferentes comunidades autónomas españolas en el año 2011. 3. Datos de panel : es la unión de datos de serie temporal y datos de sección cruzada. Están fuera del objetivo del curso. Hay que notar que una variable puede ser clasificada en varias de las categorı́as anteriores, una variable cualitativa puede ser categórica nominal u ordinal. Una variable numérica discreta como la edad, variable cuantitativa en su naturaleza puede ser convertida en una variable cualitativa cuando por ejemplo en el estudio no nos interese más que conocer en que tramo de edad se encuentre el individuo y por ejemplo lo clasifiquemos en menores de 25 años, entre 25 y 45 años y mayores de 45 años. Son tres tramos de edad y a cada uno de ellos le asignaremos un valor arbitrario. Además serán datos de serie temporal o de sección cruzada. Una vez recogidos los datos de interés y asignados los arbitrarios si es necesario podemos proceder a analizarlos gráficamente. 0.3. Representación gráfica de las variables Las variables categóricas suelen representarse utilizando tablas de distribución de frecuencias y gráficos como los de barras, de Pareto o de tarta. Las variables numéricas se describen por histogramas, ojivas y diagramas de tallo y hojas. La distribución de frecuencias o tabla de frecuencias es una ordenación en forma de tabla de los datos estadı́sticos, asignando a cada dato su frecuencia correspondiente. En principio, en la tabla de frecuencias se detalla cada uno de los valores diferentes en el conjunto de datos junto con el número de veces que aparece, es decir, su frecuencia. Se puede complementar la frecuencia absoluta con la denominada frecuencia relativa, que indica la frecuencia en porcentaje sobre el total de datos. La tabla de frecuencias puede representarse gráficamente en un histograma o diagrama de barras. Normalmente en el eje vertical se colocan las frecuencias y en el horizontal los intervalos de valores. Ejemplo 0.1 La Tabla 1 muestra el número de aprobados en tres asignaturas de la Licenciatura en Economı́a en los cursos 2009-2010 y 2010-2011. Las clases que muestra la tabla son las 5 Estadı́stica Actuarial: Análisis de Regresión respuestas posibles a la variable categórica. La pregunta realizada es ¿Cuántos alumnos han aprobado la asignatura XX en el curso Y Y ? Asignatura Microeconomı́a Estadı́stica para economistas Econometrı́a 2009-2010 60 89 85 2010-2011 76 98 105 Tabla 1: No de aprobados en tres asignaturas de la Licenciatura en Economı́a. La misma información muestra el gráfico de barras recogido en la Figura 1: Figura 1: No de aprobados en tres asignaturas de la Licenciatura en Economı́a. Ejemplo 0.2 La Tabla 2 muestra el gasto en sanidad, GS, en billones de dólares en el año 1993 para los 50 estados de Estados Unidos junto con Washington DC: Estado WY VT DC AK ND DE SD MT RI ID CA GS 0,998 1,499 4,285 1,573 2,021 2,260 1,953 2,103 3,428 2,277 94,178 Estado NH HI ME NV NE NM WV UT AR KS GS 3,452 3,485 3,433 3,747 4,400 3,878 5,197 4,118 6,111 6,903 Estado MS IA OR OK CT CO SC KY AZ AL GS 6,187 7,341 7,999 8,041 12,216 10,066 9,029 10,384 10,635 12,060 Estado LA MN MD WI TN MO WA IN MA VA GS 13,014 14,194 15,154 14,502 16,203 15,949 15,129 16,401 23,421 16,682 Tabla 2: Gasto sanitario por estado 6 Estado GA NC NJ MI OH IL PA FL TX NY GS 20,104 18,241 25,741 27,136 33,456 34,747 41,521 44,811 49,816 67,033 Estadı́stica Actuarial: Análisis de Regresión Con los datos se ha construido la Tabla 3 de frecuencias. Se han construido cinco intervalos para los posibles valores de la variable. Para cada uno de ellos se ha calculado su punto medio y el número de observaciones que caen dentro del intervalo y que aparecen en la columna frecuencia. La columna relativa muestra la frecuencia relativa es decir el porcentaje sobre el total de observaciones del número de observaciones que caen dentro del intervalo. La columna acumulada agrega la frecuencia relativa del intervalo a la del anterior. Observaciones 1-51, número de cajas = 7, media = 15,2649, desv.tı́p.=17,8877 intervalo < 15,530 15,530 - 31,060 31,060 - 46,590 46,590 - 62,120 62,120 - 77,650 77,650 - 93,180 >= 93,180 punto medio 7,7650 23,295 38,825 54,355 69,885 85,415 100,94 frecuencia 35 9 4 1 1 0 1 relativa 68,63 % 17,65 % 7,84 % 1,96 % 1,96 % 0,00 % 1,96 % acumulada 68,63 % 86,27 % 94,12 % 96,08 % 98,04 % 98,04 % 100,00 % Tabla 3: Distribución de frecuencias para el gasto en sanidad A partir de la tabla de frecuencias se pueden dibujar los siguientes gráficos de las distribuciones, a la izquierda de frecuencia y a la derecha de frecuencia acumulada: Figura 2: Distribución de frecuencias del gasto en sanidad El gráfico de la izquierda es un histograma cuyos intervalos se corresponden con los de la tabla de distribución de frecuencias. La altura de la barra es proporcional al número de observaciones del intervalo. El gráfico de la derecha es una ojiva, muestra una lı́nea que conecta los puntos que son el porcentaje acumulado de observaciones situadas por debajo del lı́mite superior de cada intervalo en una distribución de frecuencias acumuladas. En el histograma encontramos información sobre la muestra. Si la muestra está equilibrada, es decir si las observaciones se distribuyen de forma uniforme a ambos lados del punto medio, la forma del 7 Estadı́stica Actuarial: Análisis de Regresión histograma será simétrica. En el ejemplo la muestra claramente no está equilibrada, esta sesgada positivamente ya que se extiende hacia la derecha donde los valores son positivos. Si se extiende hacia los valores negativos se dice que está sesgada negativamente. Gráficas para datos de serie temporal En el caso de disponer de datos de serie temporal además de analizar su distribución de frecuencias nos interesará su evolución temporal. Ejemplo 0.3 Se dispone de una muestra de observaciones sobre la demanda doméstica de electricidad para el periodo de 1972:2 a 1993:4 en San Diego en millones de kilowatios/hora. Las observaciones se recogen en la Tabla 4: t 1972:2 1972:3 1972:4 1973:1 1973:2 1973:3 1973:4 1974:1 1974:2 1974:3 1974:4 1975:1 1975:2 1975:3 1975:4 1976:1 1976:2 1976:3 DDE 586,608 625,797 704,154 817,206 667,642 661,827 732,839 796,876 655,335 692,599 768,172 877,881 722,124 697,671 804,178 880,008 763,618 790,428 t 1976:4 1977:1 1977:2 1977:3 1977:4 1978:1 1978:2 1978:3 1978:4 1979:1 1979:2 1979:3 1979:4 1980:1 1980:2 1980:3 1980:4 1981:1 DDE 860,741 946,673 793,593 820,803 876,286 993,199 842,539 893,369 998,721 1135,091 901,289 942,471 1024,852 1068,690 914,884 930,812 969,382 1028,968 t 1981:2 1981:3 1981:4 1982:1 1982:2 1982:3 1982:4 1983:1 1983:2 1983:3 1983:4 1984:1 1984:2 1984:3 1984:4 1985:1 1985:2 DDE 883,718 958,449 980,453 1062,744 887,136 933,269 978,160 1020,435 917,487 975,387 998,109 1015,545 919,639 1040,188 1082,732 1164,663 945,277 t 1985:3 1985:4 1986:1 1986:2 1986:3 1986:4 1987:1 1987:2 1987:3 1987:4 1988:1 1988:2 1988:3 1988:4 1989:1 1989:2 1989:3 DDE 1062,046 1079,565 1137,534 992,370 1087,314 1107,644 1263,671 1054,402 1107,669 1214,441 1335,147 1122,214 1238,305 1233,677 1432,962 1156,211 1276,944 Tabla 4: Demanda doméstica de electricidad La distribución de frecuencias correspondiente se muestra en la Tabla 5. 8 t 1989:4 1990:1 1990:2 1990:3 1990:4 1991:1 1991:2 1991:3 1991:4 1992:1 1992:2 1992:3 1992:4 1993:1 1993:2 1993:3 1993:4 DDE 1279,626 1485,453 1206,455 1394,055 1336,979 1455,121 1210,595 1261,056 1407,925 1446,215 1255,008 1504,511 1405,336 1512,306 1241,345 1405,036 1392,183 Estadı́stica Actuarial: Análisis de Regresión Observaciones 1-87, número de cajas = 9, media = 1035,08, desv.tı́p.=233,605 intervalo < 644,46 644,46 - 760,18 760,18 - 875,89 875,89 - 991,60 991,60 - 1107,3 1107,3 - 1223,0 1223,0 - 1338,7 1338,7 - 1454,4 >= 1454,4 punto medio 586,61 702,32 818,03 933,74 1049,5 1165,2 1280,9 1396,6 1512,3 frecuencia 2 8 10 20 16 10 10 7 4 relativa 2,30 % 9,20 % 11,49 % 22,99 % 18,39 % 11,49 % 11,49 % 8,05 % 4,60 % acumulada 2,30 % 11,49 % 22,99 % 45,98 % 64,37 % 75,86 % 87,36 % 95,40 % 100,00 % Tabla 5: Distribución de frecuencias para la demanda doméstica de electricidad A continuación se muestra la gráfica de la distribución de frecuencias relativas, a la izquierda, y a la derecha la evolución temporal de la variable. El gráfico de frecuencias muestra una distribución moderadamente asimétrica positiva. El gráfico de serie temporal mostrado a la derecha indica una tendencia creciente en la variable y un patrón de comportamiento anual que se repite. 1600 0,25 1500 1400 0,2 1200 DDE Frecuencia relativa 1300 0,15 1100 1000 0,1 900 800 0,05 700 600 0 600 800 1000 1200 1400 1600 500 1975 DDE 1980 1985 1990 Figura 3: Distribución de frecuencias relativas y evolución temporal del la demanda doméstica de electricidad Gráficas para describir relaciones entre variables En muchas ocasiones los estudios se centran en las relaciones entre dos variables. En este caso la gráfica de la nube de puntos informa tanto del rango como de la relación entre las variables. El gráfico muestra la nube de puntos o pares de observaciones de las variables. Por ejemplo podemos estudiar la relación entre el salario de un individuo y su antigüedad en la empresa, la dependencia del precio de una vivienda con respecto a la superficie da la misma, la relación entre consumo y renta, etc. En todos estos ejemplos una variable depende de la otra, el consumo depende de la renta, el salario depende de la antigüedad en el puesto, el precio depende de la superficie de la vivienda. A las variables consumo, precio de la vivienda y salario se les llama 9 Estadı́stica Actuarial: Análisis de Regresión variables dependientes porque depende de la renta, la superficie de la vivienda y la antigüedad mientras que estas se denominan variables independientes ya que no dependen de otra. La variable independiente (denotada habitualmente por X) se muestra en el eje de abscisas mientras que la variable dependiente (denotada habitualmente por Y) se muestra en el eje de ordenadas. Ejemplo 0.4 Supongamos que disponemos datos sobre consumo per cápita y renta per cápita en dólares de 1987 para Estados Unidos en el periodo de 1970-1991. En el gráfico de la izquierda se muestra la evolución temporal de ambas variables. A la derecha se muestra la nube de puntos de ambas variables. La muestra consta de 22 observaciones luego la nube está constituida por 22 puntos, para cada año un punto recoge el valor de la variable consumo y el valor de la variable renta (P P CEt , P DP It ). PPCE con respecto a PDPI (con ajuste mínimo−cuadrático) 15000 13500 PPCE PDPI Y = −1,22e+003 + 1,01X 13000 14000 12500 13000 12000 11500 PPCE 12000 11000 11000 10500 10000 10000 9500 9000 9000 8500 8000 10000 1970 1975 1980 1985 1990 10500 11000 11500 12000 12500 13000 13500 14000 PDPI Figura 4: Evolución temporal del consumo y renta per cápita junto a la nube de puntos El gráfico de serie temporal muestra que ambas variables evolucionan de forma pareja y son crecientes con t. La nube de puntos muestra la misma relación creciente y lineal entre las variables. La recta que aparece en la nube de puntos muestra esta relación lineal. A esta recta se le llama función de regresión muestral y nos ocuparemos de ella en el tema 5. 0.4. Descripción numérica de los datos En la sección anterior se han descrito los datos de una muestra gráficamente. En esta sección vamos a describirlos numéricamente con medidas de tendencia central, medidas de variabilidad y medidas del sentido y del grado de relación entre dos variables. Medidas de la tendencia central: Las medidas de tendencia central dan información numérica sobre una observación “tı́pica”de los datos. • Media aritmética o media muestral: La media aritmética de un conjunto de datos es la suma de los valores de los datos dividida por el número de observaciones. Pn Xi X1 + X2 + . . . + Xn X̄ = 1 = n n 10 Estadı́stica Actuarial: Análisis de Regresión • Mediana: es la observación que ocupa el lugar central de un conjunto de observaciones ordenadas en sentido ascendente o descendente. Si el tamaño de muestra n es impar la mediana es el valor que se encuentra en medio. Si el tamaño muestral es par la mediana es la media de las dos observaciones que se encuentran en el medio. La mediana se encuentra en la posición 0, 50(n + 1). • Moda, es el valor que aparece con más frecuencia. Puede no existir. ¿Cuál de las tres es la mejor medida para describir la tendencia central de los datos, la media, la mediana o la moda? Depende de los datos. Si los datos son numéricos en general será útil la media, pero si son categóricos será más útil la mediana o la moda. Por ejemplo imaginemos que tenemos cinco individuos dos hombres y tres mujeres y que el investigador asocia el valor 1 a los hombres y el valor cero a las mujeres. La media muestral de la variable“sexo” es 2/5 lo que no tine sentido, sin embargo la moda es el valor 0 que indica que hay más mujeres que hombres en la muestra. Imaginemos que la variable objeto de estudio es la renta. La media se verá incrementada por aquellos valores muy altos y no describirá bien la variable sin embargo la mediana es el nivel de renta por encima del cual están la mitad de los hogares de la muestra. Medidas de la variabilidad: Junto a la media es necesario presentar estadı́sticos descriptivos que midan la variabilidad o dispersión de los datos u observaciones con respecto a la media. • Rango: es la diferencia entre los valores mayor y menor de la muestra. • Varianza muestral: la varianza muestral es la suma de los cuadrados de las diferencias entre cada observación y la media muestral dividida por el tamaño de la muestra menos 1: Pn (Xi − X̄)2 2 S = 1 n−1 • Desviación tı́pica muestral: Es la raı́z de la varianza muestral: sP n 2 √ 1 (Xi − X̄) S = S2 = n−1 • Coeficiente de variación: es una medida de la dispersión relativa que expresa la desviación tı́pica en porcentaje de la media (siempre que esta sea positiva). El coeficiente de variación muestral se define: S × 100 % si X̄ > 0 CV = X̄ Medidas de las relaciones entre las variables • Covarianza: es una medida de la relación entre dos variables. Un valor positivo indica una relación lineal directa o creciente y un valor negativo una relación lineal inversa o decreciente. La covarianza muestral se define: Pn Cov(X, Y ) = SXY = 1 (Xi − X̄)(Yj − Ȳ ) n−1 donde Xi e Yj son los valores observados de las variables X e Y , X̄ e Ȳ son, respectivamente, sus medias muestrales y n es el tamaño de muestra. El coeficiente de correlación da una medida estandarizada de la relación lineal entre dos variables. Indica el sentido y el grado de la relación. 11 Estadı́stica Actuarial: Análisis de Regresión • Coeficiente de correlación: es el cociente entre la covarianza y el producto de las desviaciones tı́picas entre las variables: Cov(X, Y ) rXY = SX SY El coeficiente de correlación está comprendido entre −1 y 1, −1 ≤ rXY ≤ 1. Cuanto más cerca se encuentra de 1 más cerca se encuentran los datos de puntos de una lı́nea recta ascendente que indica una relación lineal positiva. Cuanto más cerca de −1 más cerca se encuentran los datos de puntos de una lı́nea recta descendente que indica una relación lineal negativa. Cuando r = 0 no existe ninguna relación lineal entre las variables. 0.5. Tratamiento de la información con gretl : inclusión de datos en gretl y análisis descriptivo básico gretl es un programa que permite obtener de manera sencilla mediante ventana resultados estadı́sticos y econométricos. Una vez ejecutado el programa gretl en la ventana principal aparece un menú de ventanas que nos permite diferentes posibilidades. En la pantalla principal, una vez abierto gretl nos aparecen las siguientes pestañas: Archivo Herramientas Datos Ver Añadir Muestra Variable Modelo Ayuda Pero solo tres de ellas están activas, las distinguimos porque las no activas aparecen en gris mientras que las activas están en negrita. Las activas son Archivo, Herramientas y Ayuda. En la primera leemos datos. Empezaremos viendo como leer datos. Dependiendo del origen de éstos si están en una archivo de muestra incluido en gretl , si están disponibles en papel, en la web o en un archivo propio procederemos de una manera u otra. • Para leer datos incluidos en la base del programa gretl : Pinchar Archivo → Abrir archivo de datos → Archivo de muestra → Aquı́ seleccionamos la base de datos que necesitemos, por ejemplo ETM → y ahora seleccionamos el archivo, por ejemplo monthly-crsp.gdt Aparecerán las variables de la muestra y en la barra superior se habrán activado las etiquetas mencionadas anteriormente. Por ejemplo en Datos podremos ver las observaciones y sus caracterı́sticas. Algunas de las opciones que contiene la etiqueta Datos son las siguientes: Mostrar valores Editar los valores Información del conjunto de datos Estructura del conjunto de datos Para obtener lo que necesitamos sólo tenemos que pinchar la etiqueta correspondiente y la variable o variables a estudiar. Por ejemplo para ver la estructura del conjunto de datos pinchamos en esta etiqueta y obtendremos una pantalla en la que aparecerá seleccionado el tipo de datos con el que estamos trabajando, en este caso Serie temporal. Pinchamos adelante y veremos la frecuencia, mensual, y el inicio y final de la muestra 1968:1 a 1998:12. La etiqueta estructura del conjunto 12 Estadı́stica Actuarial: Análisis de Regresión de datos es muy útil cuando necesitamos cambiar alguno de ellos por ejemplo si añadimos nuevas observaciones. En el menú inicial aparece también la etiqueta Ver con, entre otras, las siguientes opciones: Gráficos Gráficos múltiples Estadı́sticos principales Matriz de correlación • Para hacer Gráficos: Pinchar Ver → Gráficos → Gráficos de series temporales. Seleccionar las variables que se quieren incluir en el gráfico y pinchar Aceptar. Para guardar el gráfico: situar el ratón sobre el gráfico y pinchar con el botón derecho. Elegir opción. Podemos guardarlos en postcript (.eps) o .png, etc. En la ventana que aparece para guardarlo escribir la dirección de la carpeta donde queremos guardar el gráfico y ponerle un nombre por ejemplo CRSPVW. Dentro de las opciones que aparecen al pinchar con el botón derecho está la opción Editar. En esta opción se pueden modificar los ejes, los nombres de las variables, incluso el tipo de lı́nea y color utilizada para representar la serie de observaciones, entre otras posibilidades. • Para obtener los Estadı́sticos principales de las variables de la muestra: Pinchar en Ver → Estadı́sticos principales. La ventana de output mostrará la media, moda, valor máximo y mı́nimo de la serie, desviación tı́pica, coeficiente de variación, curtosis y asimetrı́a. Podemos obtener los estadı́sticos para una única serie o para el conjunto de ellas seleccionándolo previamente. Si queremos guardar el output pinchamos en el icono del diskette arriba a la izquierda y seleccionamos cómo queremos que lo guarde, texto plano, Word o Latex y en la ventana damos el nombre que deseemos al fichero de resultados, por ejemplo estadVW para la serie CRSP o estadmuestra para el conjunto y a continuación damos la dirección de la carpeta donde queremos que nos guarde el fichero de resultados. En el menú inicial también aparece la etiqueta Variable para trabajar con una única serie de la muestra. Algunas de las opciones que incluye esta etiqueta son: Buscar Mostrar valores Estadı́sticos principales Contraste de Normalidad Distribución de frecuencias Gráfico de frecuencias (simple, contra la normal, contra la gamma) Gráfico de series temporales Editar atributos etc. 13 Estadı́stica Actuarial: Análisis de Regresión • Obtener datos que están en el servidor: Queremos estudiar una serie que se encuentra en el servidor, Crédito más de 5 años a hogares. Esta serie aparece publicada en la base de datos del Banco de España con el código BE182704. Pinchar Archivo → Bases de datos → Sobre servidor En el listado de bases de datos que aparece vamos a bde18 Banco de España (Tipo de interés) y pinchamos en Obtener listado de series comprobando que contienen la serie que queremos. Series → Mostrar Para representarla gráficamente: Series → Representar Para importar los datos a gretl situamos el cursor sobre la serie de interés, BE182704, y vamos a Series → Importar Además tenemos opción de hacer lo siguiente: • Añadir o cambiar información sobre la variable: en menú Variable → Editar atributos. En esta ventana podremos cambiar también el nombre de la serie utilizado en los gráficos. • Añadir notas explicativas: en menú Datos → Editar información • Consultar las notas informativas: en menú Datos → Leer información o en Datos → Descripción • Para crear un conjunto de datos: Pinchar Archivo → Nuevo conjunto de datos y completar la información que pide sobre: número de observaciones estructura del conjunto de datos (serie temporal o sección cruzada) frecuencia A la pregunta ¿Desea empezar a introducir los valores de los datos usando la hoja de cálculo de gretl ? contestar Sı́ • Introducir el nombre de la variable. El máximo de caracteres que acepta es 15, no usar acentos ni la letra ñ. Pinchar Aceptar. • En la hoja de cálculo situarnos en la primera celda y teclear la observación correspondiente, a continuación pinchar intro. Si nos saltamos alguna observación podemos insertar una fila en el lugar correspondiente con solo situarnos en la celda posterior e ir a observación → insertar obs. Una vez introducidas todas las variables pinchar Aplicar. • Para guardar los datos: en menú Archivo → Guardar datos. Dar nombre al conjunto de datos, por ejemplo Azar y se grabará automáticamente con la extensión gdt. Si en otro momento queremos usar este conjunto de datos solo habrá que clickear en él dos veces para que se active. 14 Estadı́stica Actuarial: Análisis de Regresión • Si queremos añadir variables en menú: Pinchar en la etiqueta Añadir tenemos las siguientes posibilidades: • Logaritmos de las variables seleccionadas • Cuadrados de las variables seleccionadas • Retardos de las variables seleccionadas • Primeras diferencias de las variables seleccionadas • Diferencias del logaritmo las variables seleccionadas • Diferencias estacionales de las variables seleccionadas • Variable ı́ndice • Tendencia temporal • Variable aleatoria (uniforme, normal, chi cuadrado y t-Student) Por ejemplo para crear una variable normal de media 0 y desviación 1 haremos nombre de la variable 0 1 • Variables ficticias, etc. • Definir una nueva variable. Esta opción podemos utilizarla para crear combinaciones de variables por ejemplo Zt = 4 + ²t ²t ∼ N (0, 1). Permite los operadores, +, -, *, /, ^ (suma, resta, producto, potencia) entre otros. • Para obtener información sobre la muestra pinchar en la etiqueta Muestra. En ella encontraremos, entre otras, las siguientes opciones: Establecer rango Recuperar rango completo Restringir, a partir de un criterio etc. Ejemplo 0.1 Vamos a trabajar con el archivo de datos data4 − 1.gdt ya que en los temas siguientes va a ser uno de los ejemplos que seguiremos. Está incluido como archivo de muestra en la pestaña Ramanathan. Una vez abierto podemos buscar información sobre sus variables tal y como se ha indicado. Siguiendo la ruta indicada encontramos la siguiente Información del conjunto de datos DATA4-1: Data on single family homes in University City community of San Diego, in 1990. price = sale price in thousands of dollars (Range 199.9 - 505) sqft = square feet of living area (Range 1065 - 3000) bedrms = number of bedrooms (Range 3 - 4) baths = number of bathrooms (Range 1.75 - 3) 15 Estadı́stica Actuarial: Análisis de Regresión Donde aparece una somera descripción de los datos disponibles y su fuente y/o origen. En este caso nos dicen que son datos de hogares de la comunidad universitaria de San Diego en 1990, de lo que deducimos que son datos de sección cruzada ya que se refieren a un único año. También aparecen los nombres de las variables y su descripción ası́ como el rango de cada una (la amplitud del intervalo de valores que toma la variable en la muestra) y la fuente de los datos. Los estadı́sticos principales son los siguientes: Estadı́sticos principales, usando las observaciones 1 - 14 Variable Media Mediana Mı́nimo Máximo price sqft bedrms baths 317,493 1910,93 3,64286 2,35714 291,500 1835,00 4,00000 2,25000 199,900 1065,00 3,00000 1,75000 Variable Desv. Tı́p. C.V. Asimetrı́a price sqft bedrms baths 88,4982 577,757 0,497245 0,446291 0,278741 0,302344 0,136499 0,189336 0,653457 0,485258 −0,596285 0,331609 505,000 3000,00 4,00000 3,00000 Exc. de curtosis −0,529833 −0,672125 −1,64444 −1,39015 Donde se nos muestra, para cada variable, su media, mediana, valores mı́nimo y máximo, desviación tı́pica, coeficiente de variación (C.V.), coeficiente de asimetrı́a y coeficiente de exceso de curtosis. Los gráficos de las variables price y sqft son: 550 3000 2800 500 2600 450 2400 2200 sqft price 400 350 2000 1800 300 1600 250 1400 200 1200 150 1000 2 4 6 8 10 12 14 2 index 4 6 8 10 12 14 index Figura 5: Gráficos de las observaciones para las variables price y sqf t Volviendo a la pantalla de inicio. También estaban disponibles al iniciar el programa las etiquetas Herramientas y Ayuda. En Herramientas disponemos de instrumentos de análisis muy útiles como: - En Tablas estadı́sticas los valores crı́ticos de las distribuciones Normal Tipificada, t-Student y F-Snedecor entre otras distribuciones. 16 Estadı́stica Actuarial: Análisis de Regresión - Un buscador de valores p. - Un calculadora de estadı́sticos de contraste como la igualdad de medias o varianzas. - La posibilidad de dibujar distribuciones o curvas. - Hacer contrastes no paramétricos. - Generar numeros aleatorios. En Ayuda encontramos al Guı́a del usuario y la Guı́a de instrucciones. 17 Estadı́stica Actuarial: Análisis de Regresión 0.6. Bibliografı́a del tema Referencias bibliográficas básicas: • Teórica: [1] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición. [2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadı́stica para administración y economı́a. Prentice Hall. Madrid. [3] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición. [4] Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Fundamentos de inferencia estadı́stica, 3a edición, Editorial AC, Madrid. • Ejercicios con gretl: [1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics with applications, ed. South-Western, 5th edition, Harcourt College Publishers. [2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A modern Approach, ed. South-Western, 2nd edition. Referencias Bibliográficas Complementarias: [1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de regresión con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y − juridicas/analisis − de − regresion − con − greti/Coursel isting). [2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación online de la Facultad de C.C. Económicas y Empresariales. [3] Esteban, M.V. (2007). Estadı́stica Actuarial y Análisis de Regresión. Material docente. Servicio de Publicaciones. [4] Esteban, MV (2008). Estadı́stica Actuarial: Regresión Lineal, Sarriko On Line 3/08. Publicación on-line de la Facultad de CC. Económicas y Empresariales, UPV/EHU. http://www.sarrikoonline.com. [5] Esteban, M.V. (2007). Colección de ejercicios y exámenes. Material docente. Servicio de Publicaciones. [6] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a. Editorial McGraw-Hill. [7] Greene, W. (1998), Análisis Econométrico, Ed. Prentice Hall, 3a edición. [8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th. edition. [9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley. 18 Tema 1 Variables Aleatorias. Población y muestra En las clases del tema de Variables Aleatorias vamos a revisar y/o introducir los principales conceptos de probabilidad. Comenzaremos definiendo el concepto de variable aleatoria discreta y continua ası́ como sus funciones de distribución de probabilidad. Revisaremos las propiedades de las funciones de distribución de probabilidad prestando especial atención al concepto de valor esperado y al concepto de varianza. En general, no estudiaremos el comportamiento de una única variable por lo que necesitaremos introducir el concepto de distribución de probabilidad conjunta, probabilidad condicionada e independencia estadı́stica. Dentro de las muchas distribuciones de probabilidad especı́ficas de que disponemos mostraremos las principales funciones de distribución de probabilidad utilizadas en Econometrı́a: la normal, la normal estándar, la chi-cuadrado, la t-Student y la F-Snedecor. Los métodos estadı́sticos centran la atención en la realización de inferencias sobre grandes poblaciones de objetos utilizando una pequeña muestra de los mismos. Por ello para finalizar el tema introduciremos el concepto de muestreo aleatorio, estadı́sticos muestrales y distribuciones en el muestreo para finalizar mostrando la distribución del estadı́stico media muestral. A lo largo del tema se han introducido ejemplos ilustrativos de los conceptos a aprender ası́ como ejercicios básicos que han de ser resueltos por el alumno. Competencias a trabajar en estas sesiones: 5. Obtener e interpretar los resultados de un análisis estadı́stico de datos económicos haciendo uso de las fuentes de información apropiadas y de los instrumentos informáticos necesarios. Al final de este tema deberı́ais ser capaces de: 1. Explicar la diferencia entre una variable aleatoria discreta y una variable aleatoria continua proporcionando ejemplos de cada una de ellas. 2. Explicar la diferencia entre la función de densidad de probabilidad de una variable aleatoria discreta y a función de densidad de probabilidad de una variable aleatoria continua. 19 Estadı́stica Actuarial: Análisis de Regresión 3. Explicar el concepto de media o valor esperado de una variable aleatoria. 4. Calcular la media y varianza de funciones de variables aleatorias. 5. Calcular probabilidades utilizando la distribución normal. 6. Definir los principales estadı́sticos muestrales. 7. Obtener la distribución de la media muestral. Bibliografı́a Recomendada: Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación: • Gujarati, D. y Porter, D.C. (2010). Apéndice A. • Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 5 sec. 5.1; 5.2; 5.3 y 5.7; Cap. 6 salvo la sec. 6.5 y Cap. 7 sec. 7.1 y 7.2. • Ramanathan, R. (2002). Cap. 2. • Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Cap. 1 • Wooldridge, J.M. (2006). Apéndice B. 20 Estadı́stica Actuarial: Análisis de Regresión 1.1. Variables aleatorias y distribuciones de probabilidad. Ejemplos Una variable aleatoria es una variable que toma valores numéricos determinados por el azar. Desde el punto de vista de la notación es importante distinguir entre una variable aleatoria y los valores posibles que ésta puede tomar. Denotamos en mayúscula, X a la variable aleatoria y con su correspondiente minúscula un valor posible de la misma. Ejemplo 1.1 Se mide la altura de un individuo y el peso corporal, dos variables aleatorias son, X = altura, Y = peso y sus valores posibles por ejemplo serı́an: x = 156 cm, x = 179 cm, . . .; y = 60 kg, y = 87 kg, . . . Ejemplo 1.2 Consideremos el lanzamiento de un dado. Sea el espacio muestral Ω = {1, 2, 3, 4, 5, 6} la variable X = No de puntos, puede tomar los valores: x = {1, 2, 3, 4, 5, 6} cada uno con probabilidad P (x = 1) = P (x = 2) = . . . = P (x = 6) = 61 . Hay que distinguir entre variables aleatorias discretas y variables aleatorias continuas. Una variable aleatoria es discreta si no puede tomar más que una cantidad numerable de valores. El conjunto de realizaciones es finito o infinito pero numerable. Por ejemplo el número de hijos de una familia, el número de clientes de un bar en un dı́a, el número de veces que sale cara al lanzar diez veces una moneda al aire. En el Ejemplo 1.2 X es una variable discreta. Una variable aleatoria es continua si puede tomar cualquier valor de un intervalo. El conjunto de realizaciones es infinitamente divisible y por tanto no numerable. Por ejemplo la renta anual de una familia, la temperatura, la variación en el precio de las acciones ordinarias de IBM en un dı́a. En el Ejemplo 1.1 las variables peso y altura son variables continuas. En la práctica se consideran variables discretas cuando tiene sentido asignar probabilidades a los resultados individuales posibles. La contabilidad de los sucesos genera observaciones de variables aleatorias discretas mientras que mediciones como tiempo, renta, generan observaciones sobre variables aleatorias continuas. Muchos indicadores económicos y empresariales como las ventas, la inversión, el consumo, los ingresos, etc. pueden representarse como variables aleatorias continuas. 1.1.1. Variables aleatorias discretas y distribuciones de probabilidad Sea X una variable aleatoria discreta y x uno de sus posibles valores. La probabilidad de que la variable aleatoria X tome el valor especı́fico x se denota por P (X = x). El conjunto de probabilidades se denomina función de cuantı́a o función de densidad de probabilidad, fdp y se denota P (x). Función de cuantı́a de una variable aleatoria discreta. La función de cuantı́a, P (x), de una variable aleatoria discreta X expresa la probabilidad de que X tome el valor x, como una función 21 Estadı́stica Actuarial: Análisis de Regresión de x: P (x) = P (X = x), para todos los valores de x. Dado que la función de cuantı́a solo toma valores distintos de 0 en puntos discretos x, a veces se la llama función de masa de probabilidad. Se puede representar gráficamente. A la derecha se muestra la función de densidad de una variable discreta que toma valores 1, 2 y 3 con probabilidad 0,2; 0,3 y 0,5 respectivamente. Además se debe cumplir 0 ≤ P (x) ≤ 1 para cualquier valor de x, es decir las probabilidades no pueden P ser negativas ni superiores a la unidad y x P (x) = 1, las probabilidades individuales suman 1. 0,8 0,7 0,6 f(x) 0,5 0,4 0,3 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 3,5 4 X Función de distribución o función de probabilidad acumulada. La función de probabilidad acumulada F (a) de una variable aleatoria X expresa la probabilidad de que X no tenga un valor superior a a, como una función de a. Es decir, F (a) = P (X ≤ a) donde la función se evalúa en todos los valores de a. Relación entre la función de cuantı́a y la función de distribución. Sea X una variable aleatoria con función de cuantı́a P (x) y función de distribución F (a). Se puede demostrar que X F (a) = P (x) = P (x0 ) + P (x1 ) + . . . + P (a). x≤a 1.1.2. Variables aleatorias continuas y distribuciones de probabilidad Muchos indicadores económicos y empresariales como las ventas, la inversión, el consumo, los ingresos, etc. pueden representarse como variables aleatorias continuas, por ello vamos a dedicar este punto a su estudio. Sea X una variable aleatoria y x un valor determinado de la misma. Podemos definir una función de densidad de probabilidad para variables aleatorias continuas de manera análoga a la función de cuantı́a para las variables aleatorias discretas. La fdp nos informa de la probabilidad asociada a los resultados posibles de la variable aleatoria. Sin embargo no tiene sentido hablar de la probabilidad de que una variable aleatoria continua tome un valor determinado, usaremos la fdp de la variable aleatoria continua solo para calcular la probabilidad de los sucesos referidos a un intervalo de valores. Si X es continua la probabilidad asociada a cualquier punto en particular es cero por lo que nos referimos a la probabilidad de que X tome valores en un intervalo. Para calcular probabilidades para variables aleatorias continuas es más sencillo trabajar con la función de distribución fd ó función de probabilidad acumulada. 22 Estadı́stica Actuarial: Análisis de Regresión Función de distribución. La función de distribución F (x) de una variable aleatoria continua X expresa la probabilidad de que X no sea mayor que el valor x, en función de x: F (x) = P (X ≤ x). Para entender el concepto de función de distribución, se suele recurrir a un sı́mil fı́sico: una masa igual a la unidad, distribuida a lo largo del campo de variación de la variable. En esta situación, la función de distribución F (x) = P (X ≤ x) proporciona la cantidad de masa que hay en el punto x y a su izquierda hasta el extremo inferior del campo de variación de la variable. La función de distribución, por su definición no puede ser negativa, al ser una probabilidad, ni decreciente, pues es acumulativa. Además por ser una probabilidad está acotada: 0 ≤ F (x) ≤ 1. Probabilidad de un intervalo utilizando la función de distribución. Sea X una variable aleatoria continua que tiene una función de distribución F (x) y sean a y b dos valores posibles de X, siendo a < b. La probabilidad de que X se encuentre entre a y b es P (a < X ≤ b) = F (b) − F (a) Una variable aleatoria es continua si su función de distribución, F (x) es continua. Su dominio de definición es todo R y no existe ningún punto de la recta con probabilidad no nula. Suponemos, por simplicidad, que en las variables aleatorias continuas la función de distribución es derivable en el interior del dominio. En este caso, a su derivada le llamamos función de densidad de probabilidad y la denotamos por f (x). La relación existente entre la función de densidad y la de distribución es: Z ∞ F (x) = f (x)dx, f (x) = F 0 (x) −∞ La función de densidad de probabilidad, f (x), de la variable aleatoria es una función que tiene las siguientes propiedades: 1. f (x) ≥ 0 para todos los valores de x. 2. El área situada debajo de la función de densidad de probabilidad f (x), cuando se abarcan todos los valores de la variable aleatoria, X, es igual a la unidad. Z P (a ≤ X ≤ b) = b f (x)dx a 23 0,35 0,3 0,25 f(X) 3. El gráfico de la derecha representa gráficamente la función de densidad de cierta variable aleatoria continua. Sean a y b dos valores posibles de la variable aleatoria X, siendo a < b. En este caso la probabilidad de que X se encuentre entre a y b es el área situada debajo de la función de densidad entre estos puntos. N(0, 1) 0,4 0,2 P(a<X<b) 0,15 0,1 0,05 0 -5 -4 -3 -2 -1 0 X a1 2b 3 4 5 Estadı́stica Actuarial: Análisis de Regresión 1.1.3. Esperanzas y variables aleatorias La distribución de probabilidad de una variable aleatoria contiene toda la información sobre propiedades probabilı́sticas de una variable aleatoria. Su examen gráfico puede servir para describirla, sin embargo, es necesario establecer medidas estadı́sticas que sirvan para caracterizar la distribución. Las medidas más importantes son la media o valor esperado y la varianza. Media de una variable aleatoria. La media o valor esperado de una variable aleatoria se denota como E(X) y se define como:  P si X es discreta  x xP (x) E(X) = µX = (1.1)  R xf (x)dx si X es continua x donde E se conoce como el operador de esperanza matemática. La media es un promedio ponderado de los valores x que toma la variable donde las ponderaciones son las probabilidades respectivas. La media recoge el centro de gravedad sobre el que se distribuye la variable. Cuanto mayor es la media, mayor es el valor que se espera que tomen las realizaciones de la variable. En la práctica la media no tiene porqué coincidir con un valor que tome la variable. Ejemplo 1.3 • Sea X variable aleatoria discreta que puede tomar los valores 1, 2 y 3 con probabilidades 0,20; 0,30 y 0,50 respectivamente. Su esperanza matemática es: E(X) = X xP (x) = 1 · 0, 20 + 2 · 0, 3 + 3 · 0, 50 = 2, 30. x • Consideremos la variable continua definida por: f (x) = 4x3 esperanza matemática es: Z E(X) = Z xf (x)dx = x Varianza de una variable aleatoria. 2 y se define como: V ar(X) = σX 0 1 · x5 x4x dx = 4 5 ¸1 3 0 ∀ 0 ≤ x ≤ 1. Su 4 = . 5 La varianza de una variable aleatoria se denota como 2 V ar(X) = σX = E[(X − µX )2 ] =  P 2  x (x − µX ) P (x)  R si X es discreta. (1.2) 2 x (x − µX ) f (x)dx si X es continua. La varianza es una medida de dispersión de la distribución, siendo la dispersión la mayor o menor variabilidad de los valores de la variable aleatoria alrededor de su valor medio. 24 Estadı́stica Actuarial: Análisis de Regresión La varianza también puede expresarse como: 2 σX = E(X 2 ) − µ2X . (1.3) 2 + µ2 . De donde trabajando la expresión anterior obtenemos un resultado útil: E(X 2 ) = σX X La desviación tı́pica o estándar es la raı́z cuadrada positiva de la varianza y se denota por q 2 σX = σX . La varianza es una medida de dispersión, siendo la dispersión la mayor o menor variabilidad de los valores de la variable aleatoria alrededor de su valor medio. Si la varianza es pequeña será porque las desviaciones de la variable aleatoria en torno a su valor medio son pequeñas, con lo que la media será representativa del conjunto de valores de la distribución y por consiguiente, la dispersión será pequeña. Si la varianza es grande, la dispersión será grande y la media de la variable aleatoria no será representativa. Cuanto mayor sea la varianza mayor es la probabilidad de obtener valores alejados de µX . Ejemplo 1.4 Supongamos que X es la variable rendimiento de una cartera de valores. µX mide el 2 nos da la dispersión rendimiento, en media, que esperamos obtener de esa cartera y σX 2 es grande entonces tendremos una gran probabilidad de los posibles rendimientos. Si σX de obtener rendimientos mucho mayores o mucho menores de lo esperado µX . Por lo 2 mide el riesgo de la cartera. Cuanto mayor es σ 2 más arriesgada es la cartera. tanto σX X La media y la varianza constituyen dos importantes indicadores sintéticos de una distribución de probabilidad. La media es una medida del centro de la distribución mientras que la varianza es una medida de su dispersión. Otras dos medidas que también se utilizan habitualmente para describir una distribución de probabilidad desde el punto de vista de su forma son el coeficiente de asimetrı́a y el coeficiente de curtosis. Asimetrı́a. El coeficiente de asimetrı́a es: γ1 = µ3 E[(X − µX )3 ] = 3 3 σ σ (1.4) donde µ3 es el momento de orden 3 respecto a la media. Si γ1 = 0 la distribución es simétrica y por tanto las desviaciones por la derecha tienen el mismo peso que las desviaciones por la izquierda. Si γ1 > 0 la distribución es asimétrica (+). Si γ1 < 0 la distribución es asimétrica (−). Curtosis. La curtosis hace referencia al apuntamiento o achatamiento de una distribución de probabilidad cuando se compara con la normal. El coeficiente de curtosis se define: E[(X − µX )4 ] µ4 = 4. 4 σ σ 25 Estadı́stica Actuarial: Análisis de Regresión El coeficiente de curtosis es un indicativo del peso que en la distribución tienen los valores más alejados del centro, tiene que ver con el grosor de las colas. Para evaluar la curtosis es necesario que la distribución tenga perfil campaniforme y sea simétrica o moderadamente asimétrica ya que la curtosis trata de analizar la zona central de la distribución simétrica o no; la mayor o menor presencia de valores de la variable aleatoria alrededor de su valor medio, es decir en su zona central, dará lugar a una distribución más o menos apuntada. En general se evalúa el exceso de curtosis: µ4 γ2 = 4 − 3. (1.5) σ Esta medida está basada en la distribución normal, de su misma varianza, cuyo exceso de curtosis es cero. Si γ2 = 0 la distribución tendrá el perfil de la distribución normal y se le dice mesocúrtica. Esto quiere decir que tiene las colas igual de gruesas que la distribución normal, la cual veremos más adelante. Más concentración en las colas indica colas más densas que la normal de su misma varianza. Si γ2 > 0 la distribución es más apuntada que la distribución normal y se le denomina leptocúrtica. Si γ2 < 0 la distribución es más achatada que la distribución normal y se le denomina platicúrtica. Coeficiente de variación. El coeficiente de variación es útil para comparar la volatilidad de variables que tienen una esperanza matemática diferente como por ejemplo, al comparar la volatilidad de dos ı́ndices bursátiles distintos. Considera la desviación tı́pica como porcentaje del nivel alrededor del cual fluctúa la variable σX . (1.6) Coeficiente de variación = 100 µX Ejercicio 1.1 Calcular media, varianza y desviación tı́pica de la variable aleatoria discreta X cuya función de probabilidad es: x P(x) 1.1.4. 0 0,1 1 0,3 2 0,4 3 0,2 Dos variables aleatorias Para responder a preguntas relativas a dos o más variables aleatorias debemos conocer su función de densidad conjunta o función de cuantı́a conjunta, según sean discretas o continuas. La función de densidad conjunta describe las probabilidades de que se puedan producir combinaciones de valores de ambas variables. Si las variables aleatorias X e Y son discretas, a cada posible par de resultados (xi , yj ) podemos asignar una probabilidad P (xi , yj ). El conjunto de probabilidades es la función de P P cuantı́a conjunta, cumpliéndose que 0 ≤ p(xi , yj ) ≤ 1 y i j p(xi , yj ) = 1. Si las variables aleatorias son continuas, su distribución conjunta se recoge mediante la función de densidad conjunta f (x, y). Si las dos variables siguen una distribución normal, la forma tı́pica de su función de densidad conjunta se encuentra en la Figura 1.1. 26 Estadı́stica Actuarial: Análisis de Regresión Figura 1.1: Distribución normal bivariante El volumen totalRrecogido bajo esta superficie es la masa de probabilidad total que es igual a la R unidad, es decir, x y f (x, y) dx dy = 1. Además, la función no toma valores negativos, f (x, y) ≥ 0. Ası́, el volumen debajo del rectángulo definido por dos puntos (a, b) mide la probabilidad de que X tome valores menores o iguales que a e Y menores o iguales que b. Es decir, Z Z a b f (x, y) dx dy P (X ≤ a, Y ≤ b) = −∞ −∞ Por ejemplo, el volumen recogido bajo la superficie marcada en la Figura 1.1 es la probabilidad de que X ≤ −2 e Y ≤ 5. La función de densidad marginal de cada variable puede obtenerse mediante integración. Ası́: Z ∞ Marginal de X: fX (x) = f (x, y) dy Z −∞ ∞ Marginal de Y: fY (y) = f (x, y) dx (1.7) −∞ La distribución conjunta de dos variables aleatorias se puede resumir mediante: • El centro de gravedad de cada variable, es decir, las medias (µX , µY ), que se obtienen de las distribuciones marginales recogidas en (1.7). • Medidas de dispersión de cada variable alrededor de su media, por ejemplo, las varianzas de 2 y σ 2 , que se derivan de las distribuciones marginales recogidas en (1.7). X e Y , σX Y • Medida de la relación lineal entre las dos variables aleatorias, para lo que se utiliza la covarianza σXY . La covarianza entre dos variables mide el signo de la asociación entre las fluctuaciones que experimentan ambas. Nos dice si cuando una de ellas está por encima de su valor de referencia, por ejemplo, su media, la otra variable tiende a estar por encima o por debajo de su respectiva media: Cov(X, Y ) = σXY = E[(X − µX )(Y − µY )] = E(XY ) − µX µY . 27 Estadı́stica Actuarial: Análisis de Regresión o bien el coeficiente de correlación entre las variables, corr(X, Y ) = ρXY = Cov(X, Y ) σXY = ∈ [−1, 1]. desv(X)desv(Y ) σX σY La covarianza nos da el tipo de relación lineal existente entre dos variables + ó −. Ası́, si σXY = ρXY = 0 se dice que las variables X e Y están incorrelacionadas. El coeficiente de correlación mide el grado de asociación lineal entre dos variables. Su valor se encuentra entre −1 y 1, un valor de −1 indica asociación perfecta negativa y un valor de 1 asociación perfecta positiva. El vector de medias µ y la matriz de varianzas y covarianzas denotada por Σ ó V , son dos importantes estadı́sticos de la variable aleatoria (X, Y ): ! Ã ! Ã µ ¶ 2 V (X) Cov(X, Y ) σX σXY µX µ= = Σ= µY Cov(X, Y ) V (Y ) σXY σY2 Distribución condicionada. Al estudiar un conjunto de variables, interesa evaluar la posibilidad de que un suceso ocurra dado que otro suceso ha tenido lugar. Por ejemplo, ¿cuál es la probabilidad de que una mujer casada y con hijos en edad escolar participe en el mercado de trabajo? La probabilidad condicionada permite responder este tipo de preguntas. Si las variables son discretas, se define la función de cuantı́a condicional de Y dado que la variable aleatoria X toma el valor xi como: p(xi , yj ) P (Y = yj , X = xi ) =P . P (Y = yj |X = xi ) = P (X = xi ) j p(xi , yj ) para P (X = xi ) > 0. Si las variables son continuas, se define la función de densidad de Y condicionada a que la variable aleatoria X tome el valor x (para f (x) > 0): f (y|X = x) = f (x, y) . f (x) De esta forma se obtiene una nueva distribución, con las propiedades ya vistas. Dos momentos de interés de esta distribución se denominan media y varianza condicionada de Y para el valor dado de X = x, y se denotan E(Y |X = x) y V ar(Y |X = x). Independencia. Dos variables aleatorias X y Y son independientes o están independientemente distribuidas, si conocido el valor que toma una de ellas, no aporta ninguna información sobre el valor que puede tomar la segunda. Si X e Y son independientes si y solo si su función de densidad conjunta es igual al producto de sus funciones de densidad marginales f (x, y) = f (x) × f (y) − ∞ < x, y < ∞. Además, se tiene que f (y|X = x) = fY (y). Se demuestra que si X e Y son independientes, entonces Cov(X, Y ) = 0. También se demuestra que, si las variables X e Y se distribuyen conjuntamente según una normal y Cov(X, Y ) = 0, entonces X e Y son independientes. 28 Estadı́stica Actuarial: Análisis de Regresión En el caso de distribuciones discretas las variables son independientes si P (X = x, Y = y) = P (X = x) × P (Y = y). Ejemplo 1.5 Distribución de probabilidad conjunta de dos variables aleatorias discretas: Supongamos que queremos conocer la probabilidad de que un individuo seleccionado aleatoriamente de una población posea una licenciatura y haya tenido rentas salariales en el año 2003. La Tabla 5.2 recoge la función de probabilidad conjunta de dos variables. La variable X caracteriza los niveles de educación que pueden alcanzar los individuos. Toma los valores 1, 2, 3, 4 según el grado de estudios alcanzado por el individuo. El valor 1 indica alcanzar educación secundaria obligatoria, 2 indica alcanzar bachiller, 3 indica poseer educación superior y 4 tener un master. La variable Y es una variable dicotómica que toma valor 1 si el individuo ha tenido rentas salariales en el año 2003 y 0 en caso contrario. Esta tabla permite obtener los siguientes resultados: x y 1 2 3 4 0 1 0,19 0,28 0,06 0,19 0,04 0,14 0,02 0,08 Tabla 1.1: Función de densidad de probabilidad conjunta f (x, y) • Probabilidad conjunta: La probabilidad de que una persona seleccionada al azar tenga estudios superiores y haya obtenido rentas salariales en el año 2003 es P (X = 3, Y = 1) = f (3, 1) = 0, 14. • Distribuciones marginales: P La distribución marginal de X se define: fX (x) = y f (x, y) para cada valor que X P puede tomar. La distribución marginal de Y se define: fY (y) = x f (x, y) para cada valor que Y puede tomar. P P Por tanto fY (y) = 4x=1 f (x, y) y = 0, 1 luego fY (0) = 4x=1 f (x, y) = 0, 19 + 0, 06 + 0, 04 + 0, 02 = 0, 31. En general las funciones de distribución conjunta y marginales se suelen mostrar como a continuación: x y 1 2 3 4 fY (y) 0 1 0,19 0,28 0,06 0,19 0,04 0,14 0,02 0,08 0,31 0,69 fX (x) 0,47 0,25 0,18 0,10 1 Tabla 1.2: Distribuciones marginales para X e Y 29 Estadı́stica Actuarial: Análisis de Regresión • Probabilidad condicionada: Podemos contestar a preguntas como ¿cuál es la probabilidad de que un individuo tenga renta salarial en el año 2003 dado que tiene estudios superiores? En este caso debemos de utilizar la función de densidad de Y condicionada a X: f (y|x) = P (Y = y|X = x), en realidad el efecto de condicionar es reducir el conjunto de posibles resultados. Dada la Tabla 1.2 consideramos solo el 18 % de la población con tı́tulo superior. La tabla siguiente recoge la probabilidad condicionada de Y dado X = 3. Dada la tabla la probabilidad de seleccionar a un individuo con renta salariales dado que tenga estudios superiores es de 0,78. Notar sin embargo que la probabilidad de seleccionar a un individuo, de entre toda la población, que tenga rentas salariales es de 0,69. y f (y|X = 3) 0 1 0,04/0,18=0,22 0,14/0,18=0,78 Ejercicio 1.2 En la tabla se recoge la función de densidad conjunta de dos variables aleatorias discretas X e Y . Se pide: 1. La función de densidad de probabilidad marginal de Y . 2. La función de densidad de probabilidad conjunta de Y dado que X = 2. 3. La covarianza de X e Y . 4. ¿Son las variables independientes? Y X 1.1.5. 2 4 6 1 3 9 1/8 1/4 1/8 1/24 1/4 1/24 1/12 0 1/12 Más de dos variables Los resultados anteriores se pueden generalizar a un conjunto de n variables, X1 , X2 , . . . , Xn , que se recogen en un vector   X1  X2    X= .   ..  Xn La distribución conjunta de estas variables se resume en el vector de medias E(X) ó µ ~ y la matriz de varianzas y covarianzas V (X) ó ΣX . Ası́: 30 Estadı́stica Actuarial: Análisis de Regresión    E(X) = µ ~ =  E(X1 ) E(X2 ) .. . E(Xn )  ΣX   =   V (X1 ) Cov(X1 , X2 ) .. . Cov(X1 , Xn )       =   µ1 µ2 .. .      y µn Cov(X1 , X2 ) V (X2 ) .. . Cov(X2 , Xn ) ... ... .. . ... Cov(X1 , Xn ) Cov(X2 , Xn ) .. . V (Xn )       =   σ12 σ1,2 .. . σ1,n σ1,2 σ22 .. . σ2,n . . . σ1,n . . . σ2,n .. .. . . . . . σn2      donde ΣX es una matriz cuadrada de orden n, simétrica y definida no negativa. Esto implica que los elementos de la diagonal principal son no negativos, σi2 ≥ 0, ∀i. Si las variables son independientes entre sı́, entonces están incorrelacionadas, es decir, σi,j = 0, ∀i 6= j, por lo que la matriz ΣX es diagonal:  2  σ1 0 . . . 0    0 σ22 . . . 0    ΣX =  . .. . . ..   .. . .  . 0 0 . . . σn2 Si, además, X1 , . . . , Xn siguen la misma distribución, con la  2   σ 0 µ   µ   0 σ2   E(X) =  .  ΣX =   .. ..  ..   . . µ 0 0 misma media y la misma varianza:  ... 0  ... 0  2  ..  = σ I .. . .  . . . σ2 entonces se dice que son variables aleatorias idéntica e independientemente distribuidas con media µ y varianza σ 2 y se denota Xi ∼ iid(µ, σ 2 ), ∀i = 1, . . . , n. Si X1 , . . . , Xn son variables aleatorias normales, se dice que el vector X sigue una distribución normal multivariante, y queda caracterizada por su vector de medias µ ~ y su matriz de varianzas y covarianzas ΣX . Se denota X ∼ N (~ µ, ΣX ). Si además las variables son independientes, con media y varianza común, se denota Xi ∼ N ID(µ, σ 2 ), i = 1, . . . , n. Propiedades de la esperanza matemática • La esperanza matemática de una constante es igual a la misma constante: E(c) = c • La esperanza matemática de una suma de variables aleatorias es igual a la suma de las esperanzas matemáticas de cada una de las variables aleatorias: E(X1 ± X2 ± . . . ± Xn ) = E(X1 ) ± E(X2 ) ± . . . ± E(Xn ) = µ1 ± µ2 ± . . . ± µn . 31 Estadı́stica Actuarial: Análisis de Regresión • La esperanza matemática de un producto de variables aleatorias es igual al producto de las esperanzas de cada una de las variables aleatorias, si y sólo si son independientes: E(X1 · X2 · X3 · . . . · Xn ) = E(X1 ) · E(X2 ) · E(X3 ) · . . . · E(Xn ) = µ1 · µ2 · µ3 · . . . · µn . • Notar que si X e Y son independientes E(XY ) = E(X) · E(Y ) pero E(X|Y ) 6= X e Y lo sean. E(X) E(Y ) aunque • El valor medio, o esperanza matemática, de las desviaciones de los valores de la variable aleatoria respecto a su media es cero. Sea E(X) = µ entonces E(X − µ) = 0. • Si a una variable aleatoria se le suma una constante su esperanza matemática queda modificada en esa misma constante: E(X + c) = E(X) + c = µ + c. • Si una variable aleatoria se multiplica por una constante su esperanza matemática queda multiplicada por esa misma constante, E(X · c) = c · E(X) = c · µ. Propiedades de la varianza • La varianza es siempre no negativa. • Varianza de una suma de variables aleatorias: 2 V ar(X ± Y ) = V ar(X) + V ar(Y ) ± 2Cov(X, Y ) = σX + σY2 ± 2 σXY . • Generalizando: V ar(X1 + X2 + . . . + Xn ) = V ar(X1 ) + V ar(X2 ) + . . . + V ar(Xn ) + 2 n−1 X n X Cov(Xi , Xj ) = i=1 j=i+1 = σ12 + σ22 + ... + σn2 +2 n−1 X n X σXi Xj . i=1 j=i+1 • Si X1 , X2 , . . . , Xn son independientes: V ar(X1 + X2 + . . . + Xn ) = V ar(X1 ) + V ar(X2 ) + . . . + V ar(Xn ) = σ12 + σ22 + . . . + σn2 . • Si a una variable aleatoria se le suma una constante, su varianza no varı́a: V ar(X + c) = V ar(X) ya que V ar(c) = 0. • V ar(cX) = c2 V ar(X). • V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2 ab Cov(X, Y ). 32 Estadı́stica Actuarial: Análisis de Regresión Ejemplo 1.6 2 y sean a y b dos Sea X una variable aleatoria continua de media µX y varianza σX constantes cualesquiera. La media y varianza de la transformación lineal W = a + bX son: E(W ) = µW = E(a + bX) = a + bE(X) = a + b µX . 2 2 V ar(W ) = σW = V ar(a + bX) = b2 σX . Ejercicio 1.3 2 y sean a y b dos Sea X una variable aleatoria continua de media µX y varianza σX constantes cualesquiera. Calcular la media y varianza de las siguientes funciones: • Y = a. • Z = bX. • W = X−µX σX . Ejercicio 1.4 Sea X una variable aleatoria discreta que toma valores 0, 1, 2 con probabilidad P (X = 0) = 0, 30; P (X = 1) = 0, 60; P (X = 2) = 0, 10 respectivamente. Se pide: 1. Buscar E(X), E(X 2 ), V (X). 2. El valor esperado y varianza de g(X) = 3X + 2. Ejercicio 1.5 Sea la variable aleatoria X el precio de las acciones de la empresa Biltox y sea la variable aleatoria Y el precio de las acciones de la empresa Baltat. El Sr. Martı́nez ha comprado 50 y 80 acciones de cada empresa respectivamente. El valor de mercado de la cartera del Sr. Martı́nez es W = 50X + 80Y . Calcular el valor medio y varianza de la cartera 2 ) , Y ∼ (µ , σ 2 ) y σ siendo X ∼ (µX , σX XY = cov(X, Y ). Y Y Ejemplo 1.7 Supongamos que el Sr. Alonso quiere crear una cartera de valores con acciones de dos empresas. Dispone de un capital de 3000 e para invertir en acciones de las dos empresas cuyos rendimientos por e invertido son las variables aleatorias X e Y , independientes entre sı́ y con igual media, µ, y varianza, σ 2 . ¿Cómo deberı́a construir el Sr. Alonso la cartera para minimizar el riesgo de pérdida? 33 Estadı́stica Actuarial: Análisis de Regresión Supongamos que asignamos α euros a la inversión en una de las empresas y (3000 − α) a la otra. El rendimiento total de la inversión es: r = α X + (3000 − α) Y. El rendimiento esperado de la inversión es: E(r) = α E(X) + (3000 − α) E(Y ) = αµ + (3000 − α)µ = 3000µ luego el rendimiento esperado de la inversión no depende de cómo éste esté asignado sino exclusivamente de la media de los rendimientos µ. Calculamos ahora la varianza esperada de la inversión: V (r) = α2 V (X)+(3000−α)2 V (Y ) = α2 σ 2 +(3000−α)2 σ 2 = (2α2 −6000α+9000000)σ 2 . Si se asigna α = 0 o α = 3000, asignando toda la inversión a acciones en una de las dos empresas la varianza de la inversión es 9000000σ 2 . Si se asigna la mitad del dinero, 1500 e , a invertir en cada empresa, la varianza del rendimiento es la más pequeña posible 4500000 σ 2 . Luego repartiendo la inversión entre las dos empresas reduce la varianza del rendimiento de la inversión y por lo tanto puede reducir los efectos de que los rendimientos de las acciones de una de las empresas sean muy bajos o muy altos. Si el Sr. Alonso solo está interesado en el rendimiento esperado qué cantidad de dinero invierte en cada empresa no es relevante, pero si además de estar interesado en el rendimiento esperado también le preocupa el riesgo de la inversión puede minimizarlo dividiendo su inversión a partes iguales en acciones de las dos empresas. Cualquier otra combinación aumenta el riesgo de la inversión. 1.2. La distribución normal Algunas situaciones experimentales dan lugar a distribuciones de probabilidad especı́ficas. Sin embargo, en economı́a, en la mayorı́a de los casos, las distribuciones utilizadas son simplemente modelos de los fenómenos observados. Una de las distribuciones más utilizadas en economı́a y en las aplicaciones empresariales es la distribución normal ya que se adecúa a una gran variedad de variables aleatorias, por ejemplo: las ventas de una empresa, la producción, los precios de las acciones y bonos, los precios de viviendas, la renta, etc. La función de densidad de una variable aleatoria X con distribución normal de media µ y desviación tı́pica σ es: 1 2 2 f (x) = √ e−(x−µ) /2σ 2 2πσ para − ∞ < x < ∞. (1.8) La distribución normal representa una gran familia de distribuciones, cada una con una especificación única de los parámetros µ y σ 2 . La media de la variable aleatoria es: E(X) = µ. La varianza de la variable aleatoria es: V (X) = E[(X − µ)2 ] = σ 2 . La forma de la función de densidad es una curva simétrica en forma de campana centrada en su media µ y exceso de curtosis cero. Habitualmente se denota X ∼ N (µ, σ 2 ). 34 Estadı́stica Actuarial: Análisis de Regresión Igual varianza y distinta media Igual media y distinta varianza N(0, 1) N(6, 1) 0,4 N(3, 81) N(3, 16) 0,1 0,35 0,08 0,06 0,25 f(X) f(X) 0,3 0,2 0,04 0,15 0,1 0,02 0,05 0 -6 -4 -2 0 2 4 6 8 10 0 -40 12 -30 -20 -10 X 0 10 20 30 40 X Figura 1.2: Ejemplos de función de densidad de la distribución normal La Figura 1.2 muestra ejemplos de la función de densidad de la distribución normal. A la izquierda se muestran dos funciones de densidad normal con igual varianza, σ 2 = 1, y distinta media. Notar que cuanto mayor es la media, mayor es el valor que se espera que tomen las realizaciones del experimento. En la derecha se muestran dos distribuciones con igual media y distinta varianza. Notar que cuanto menor es la varianza de la variable, mayor es la probabilidad concentrada alrededor de la media. Función de distribución acumulada de la distribución normal. Supongamos que X ∼ N (µ, σ 2 ). La función de distribución acumulada es F (x0 ) = P (X ≤ x0 ) (1.9) y se representa por el área debajo de la función de densidad normal a la izquierda de x0 en el gráfico de la izquierda en la Figura 1.3. A la derecha se muestra la la forma general de la función de distribución acumulada. 1 N(0, 1) 0,4 0,9 0,35 0,8 0,3 0,7 0,6 f(X) 0,25 f(X) FDA normal 0,2 0,5 0,4 0,15 0,3 0,1 0,2 0,05 0,1 0 0 -5 -4 -3 -2 -1 0 X 1 Xo 2 3 4 5 -4 -3 -2 -1 0 X 1 2 Figura 1.3: Función de distribución acumulada de la distribución normal 35 3 4 50 Estadı́stica Actuarial: Análisis de Regresión P (a < X < b) = F (b) − F (a) N(0, 25) 0,08 0,07 0,06 0,05 f(X) Probabilidades de intervalos de variables aleatorias normales. Sea X una variable aleatoria con función de distribución F (x0 ) y a y b son dos posibles valores de la misma tal que a < b.. Entonces: (1.10) 0,04 0,03 0,02 La probabilidad es el área situada debajo de la correspondiente función de densidad entre a y b como muestra la Figura de la derecha. 0,01 0 -25 -20 -15 -10 a -5 0 X 5 b10 15 20 25 Ejercicio 1.6 Sea X ∼ N (µ, σ 2 ) se pide obtener la distribución de la variable Y = a + bX siendo a y b dos constantes cualesquiera. Ejercicio 1.7 Sean X ∼ N (50, 10) e Y ∼ N (20, 40). La covarianza entre ambas es 0,5. Calcula la media y varianza de la variable aleatoria Z = 5X − 4Y . 1.2.1. La distribución normal estandarizada El cálculo de la probabilidad de cualquier distribución normal de media y varianza determinadas es engorroso. Sin embargo es más sencillo si la convertimos en una variable normal estandarizada, es decir de media cero y varianza 1. Para ello debemos utilizar la transformación Z= X −µ σ donde X ∼ N (µ, σ 2 ). Habitualmente la función de densidad de la variable Z normal estandarizada se denota por φ(Z): 1 2 φ(Z) = √ e−Z /2 . 2π (1.11) Una vez realizada la transformación podemos utilizar la tabla normal estándar para calcular las probabilidades de cualquier variable aleatoria distribuida normalmente. Como la forma de la distribución no varı́a bajo transformaciones lineales, no es necesario tabular la distribución para otros valores de µ y σ. Para cualquier variable normalmente distribuida se cumple: µ ¶ a−µ X −µ b−µ P (a < X < b) = P < < . σ σ σ 36 Estadı́stica Actuarial: Análisis de Regresión Además dado que la distribución es simétrica Φ(−Z) = 1 − Φ(Z) donde Φ(Z) denota función de distribución de la variable Z normal estandarizada. Por tanto las tablas de la distribución mostraran únicamente la cola positiva de la distribución. A continuación mostraremos como utilizar las tablas de la normal estándar para el cálculo de probabilidades. La tabla da los valores de Φ(Z) = P (Z ≤ z) (1.12) correspondientes a valores no negativos de z. Ver la Figura 1.4 para los ejemplos siguientes: • La probabilidad acumulada de un valor de Z = 1, 65 es Φ(1, 65) = P (Z ≤ 1, 65) = 0, 9505. • Dado que la distribución es simétrica la probabilidad de que Z > −1, 65 es también 0, 9505; P (Z > −1, 65) = P (Z ≤ −1, 65) = 0, 9505. • La probabilidad acumulada de un valor Z = −1, 65 es Φ(−1, 65) = 1−Φ(1, 65) = 1−0, 9505 = 0, 0495. N(0, 1) 0,4 0,35 0,35 0,3 0,3 0,25 0,25 f(X) f(X) N(0, 1) 0,4 0,2 0,9505 0,15 0,2 1-F(1,65)=1-0,0495=0,9505 0,15 F(-1,65)=0,0495 0,1 0,1 0,05 0,05 0 0 -5 -4 -3 -2 -1 0 X 11,65 2 3 4 5 -5 -4 -3 -2 -1 0 X 1 2 3 4 5 Figura 1.4: Probabilidades correspondientes a Z = 1, 65 y Z = −1, 65 en la distribución normal estándar Ejemplo 1.8 Suponiendo X ∼ N (8, 4) ¿Cuál es la probabilidad de que X tome un valor entre X1 = 4 y X2 = 12? ¿Cuál es la probabilidad de que exceda de 12? Para calcular la probabilidad obtenemos los valores de Z tal que: Z1 = X1 − µ 4−8 = = −2 σ 2 Z2 = X2 − µ 12 − 8 = = +2. σ 2 Luego P (4 < X < 12) = P (−2 < Z < 2) = Φ(2) − Φ(−2) = Φ(2) − (1 − Φ(2)) = 0, 9772 − (1 − 0, 9772) = 0, 9544. La probabilidad de que X exceda el valor 12 es la misma que la probabilidad de que Z exceda de 2, luego (P (X > 12) = P (Z > 2) = P (Z < −2) = 1 − 0, 9772 = 0, 0228. 37 Estadı́stica Actuarial: Análisis de Regresión Ejemplo 1.9 Un inversor tiene una cartera cuyo valor medio es de 650.000e y su desviación tı́pica es 18.000e. ¿Cuál es la probabilidad de que el valor de la cartera esté entre 632.000e y 686.000e? Para calcular la probabilidad de que el valor de su cartera esté entre 632.000e y 686.000e utilizaremos el resultado: µ ¶ a−µ X −µ b−µ P (a < X < b) = P < < = σ σ σ ¶ µ ¶ µ ¶ µ b−µ b−µ b−µ a−µ =F −F . <Z< =P σ σ σ σ Tenemos que calcular primero probabilidad de la cartera tenga una valor de 632.000 y 686.000e respectivamente. 632000 − 650000 Z(632000) = = −1. 18000 686000 − 650000 Z(686000) = = 2. 18000 Luego la probabilidad de que el valor de la cartera esté entre 632.000e y 686.000e es igual a la probabilidad de que Z esté entre −1 y 2. ³ ´ − 650000 < Z < 686000 − 650000 = P (632000 ≤ X ≤ 686000) = P 632000 18000 18000 = P (−1 ≤ Z ≤ 2) = Φ(2) − Φ(−1) = = Φ(2) − (1 − Φ(1)) = = 0, 9772 − (1 − 0, 8413) = 0, 8185. luego la probabilidad de que el valor de la cartera esté entre 632.000e y 686.000e es del 81, 85 %. Ejemplo 1.10 Supongamos dos inversiones cuya función de incertidumbre es una distribución normal. La inversión A ∼ N (10,4, (1,2)2 ) y la inversión B ∼ N (11, (4)2 ), ¿cuál se debe elegir para maximizar la probabilidad de generar un rendimiento de al menos un 10 %? En la inversión A la probabilidad de que el rendimiento sea más del 10 % es: µ ¶ 10 − 10, 4 P Z> = P (Z > −0, 33) = P (Z < 0,33) = Φ(0, 33) = 0, 6293. 1, 2 En la inversión B la probabilidad de que el rendimiento sea más del 10 % es: µ ¶ 10 − 11 P Z> = P (Z > −0, 25) = P (Z < 0, 25) = Φ(0, 25) = 0, 5987. 4 La inversión A maximiza la probabilidad, luego es más interesante que la B. 38 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 1.8 La sociedad MaxBolsa gestiona una cartera con 20 acciones de la empresa A y 30 acciones de la empresa B. Denotamos por X al precio de las acciones de la empresa A tal que X ∼ N (25, 81). Denotamos por Y al precio de las acciones de la empresa A tal que Y ∼ N (40, 121). La correlación entre los precios de las acciones de -0,40. ¿Cuál es la probabilidad de que el valor de la cartera sea más de 2000 e ? Si la correlación entre los precios es de 0,40, ¿cuál es la probabilidad de que el valor de la cartera sea más de 2000 e ? ¿Cuál es la relación entre el riesgo de una cartera y la correlación de los activos que la componen? Derivadas de la distribución normal existen otras muchas distribuciones. Tres de ellas, las distribuciones chi-cuadrado, t-Student y F-Snedecor, son muy útiles en econometrı́a. Surgen como sumas de n variables adicionales. Estas tres distribuciones tienen asociados uno o dos parámetros de nominados grados de libertad que en nuestros términos serán el número de variables en la suma relevante. 1.2.2. La distribución chi-cuadrado • Si Z ∼ N (0, 1), entonces X = Z 2 ∼ χ2(1) y se lee X sigue una distribución chi-cuadrado con un grado de libertad. Esta es una distribución asimétrica, solo tiene cola positiva, con media 1 y varianza 2. • Sea Zi ∼ N ID(0, 1) i = 1, . . . , n variables aleatorias independientes con distribución normal estándar, entonces: n X X= Zi2 ∼ χ2(n) (1.13) i=1 y se dice que X es una variable aleatoria chi-cuadrado con n grados de libertad. Es una distribución asimétrica, con media igual a n y varianza 2n. Para valores negativos de X, f (x) = 0 y la forma general de su función de densidad se muestra en la Figura 1.5. Existen tablas que proporcionan la probabilidad acumulada hasta un punto P (X ≤ x) en función de los grados de libertad. A la hora de buscar en las tablas es necesario una tabla distinta de la distribución chi-cuadrado para cada n. En la tabla correspondiente aparecen los valores de la distribución correspondientes a diferentes puntos de corte especı́ficos en la única cola de la distribución para distintos valores de los grados de libertad. 1.2.3. La distribución t-Student Sean Z ∼ N (0, 1) y X ∼ χ2(n) independientes entonces: Z p X/n ∼ t(n) 39 (1.14) Estadı́stica Actuarial: Análisis de Regresión 0,25 Chi-cuadrado(3) Chi-cuadrado(6) 0,2 n=3 f(X) 0,15 n=6 0,1 0,05 0 0 2 4 6 8 10 X 12 14 16 18 20 Figura 1.5: Función de densidad de la distribución Chi-cuadrado y se lee distribución t-Student con n grados de libertad. La Figura 1.6 incluye ejemplos de la función de densidad de la t-Student comparándolas con la distribución normal estándar: 0,5 t(2) t(4) t(25) N(0, 1) 0,45 0,4 0,35 f(X) 0,3 0,25 0,2 0,15 0,1 0,05 0 -5 -4 -3 -2 -1 0 X 1 2 3 4 5 Figura 1.6: Función de densidad de la distribución t-Student La distribución t-Student tiene la misma forma que la distribución normal, es campaniforme y simétrica pero las colas son más anchas, el exceso de curtosis es positivo. A medida que aumentan los grados de libertad la distribución t converge a la normal estándar. En su tabla correspondiente aparecen los valores de la distribución correspondientes a diferentes puntos de corte especı́ficos en las colas para distintos valores de los grados de libertad. 1.2.4. La distribución F-Snedecor Sean X1 ∼ χ2(n1 ) y X2 ∼ χ2(n2 ) independientes, entonces X1 /n1 ∼ F(n1 , n2 ) X2 /n2 (1.15) y se lee distribución F-Snedecor con n1 y n2 grados de libertad. La Figura 1.7 muestra su función de densidad para distintos grados de libertad. Las tablas de la distribución F-Snedecor se computan para cada par de valores (n1 , n2 ), donde n1 son los grados de libertad del numerador y n2 son 40 Estadı́stica Actuarial: Análisis de Regresión los grados de libertad del denominador. En general solo se tabulan para valores especı́ficos como 95 % y 99 % de la cola superior. A medida que aumentan los grados de libertad del denominador la distribución n1 F(n1 ,n2 ) converge a la una χ2(n1 ) . 1,2 F(15, 15) F(15, 100) F(100, 15) 1 f(X) 0,8 0,6 0,4 0,2 0 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 X Figura 1.7: Función de densidad de la distribución F-Snedecor Hay que notar la relación entre la distribución t y la distribución F : Si t ∼ t(n) entonces t2 ∼ F(1, n) (1.16) Ejercicio 1.9 Suponiendo X ∼ N (3, 9) ¿Cuál es la probabilidad de que X tome un valor entre X1 = 4 y X2 = 6? 1.3. Muestreo de una población. Muestras aleatorias En este punto vamos a construir modelos de probabilidad para distintos estadı́sticos calculados a partir de datos muestrales. Estos modelos de probabilidad se llaman distribuciones en el muestreo y se utilizan para desarrollar diversos métodos de inferencia estadı́stica. Los métodos estadı́sticos se centran en la realización de inferencia sobre grandes poblaciones de objetos utilizando una pequeña muestra de objetos. En general el análisis estadı́stico y el análisis econométrico se basan en el estudio de una muestra. Medir una variable para la población en ocasiones es imposible y en otras ocasiones muy costoso. Pensemos que ejemplos de una población son todas las familias que viven en un paı́s, región o ciudad; el número de hogares de una autonomı́a, todas las empresas que declaran su actividad en el sector servicios, etc. Luego la población son todos los elementos objeto de estudio. Medir por ejemplo la renta en todas las familias de un paı́s resulta excesivamente costoso en términos de tiempo y coste. Sin embargo, quizá no lo sea tanto hacerlo en una muestra aleatoria extraı́da de dicha población. Luego muestra serı́a la parte de la población que vamos a utilizar en el estudio para extraer conclusiones. Por tanto la muestra está contenida en la población y nosotros la utilizaremos para establecer conclusiones que puedan extrapolarse a la población. Para ello la muestra extraı́da debe ser representativa de la población. Una forma de conseguirlo es usando una muestra aleatoria simple. Para ello seleccionamos una muestra de n objetos de una población de N objetos. En el 41 Estadı́stica Actuarial: Análisis de Regresión supuesto de las familias la población son todas las familias, que supongamos son N , y la muestra un subconjunto de las misma de tamaño n. En la muestra seleccionada todos los objetos tienen la misma probabilidad de ser seleccionados y se seleccionan independientemente, luego la selección de uno de ellos no altera la probabilidad de que sean seleccionados otros objetos. Definición. Muestra aleatoria simple: Una muestra de n observaciones de una o más variables, designadas por X1 , X2 , . . . , Xn es una muestra aleatoria si las n observaciones son extraı́das independientemente de la misma población o distribución de probabilidad. La muestra puede ser univariante si Xi es la única variable aleatoria o multivariante si cada observación contiene varias variables. La muestra, designada como (X1 , X2 , . . . , Xn ) o {Xi }i=1,...,n se dice que está independientemente e idénticamente distribuida, se denota iid. Dada una población podemos muestrearla repetidamente mediante un muestreo aleatorio. El muestreo aleatorio protege de que una parte de la población esté subrepresentada o sobrerepresentada en la muestra. Por otra parte cada muestra obtenida de una población con el mismo número de observaciones tendrá una media muestral X̄ distinta, luego X̄ es una variable aleatoria con una distribución de probabilidad. La distribución en el muestreo de este estadı́stico, X̄, es la distribución de probabilidad de las medias muestrales obtenidas de estas muestras posibles extraı́das de la población con el mismo número de observaciones. La distribución en el muestreo de las medias muestrales posibles es la base para realizar inferencia sobre la población. Utilizamos la información muestral para hacer inferencia sobre la población. Por ejemplo, utilizando la media y la varianza muestral podemos hacer inferencia sobre la media y varianza poblacional, que son desconocidas y caracterizan la distribución poblacional. 1.4. Estadı́sticos y distribuciones en el muestreo Antes de intentar estimar los parámetros de una población se examinan los datos. Visualizarlos gráficamente es útil pero si la muestra es de tamaño grande debemos usar estadı́sticos para describirla. Los más interesantes son las medidas de posición, es decir el valor central de los datos, y de escala o dispersión de los datos. • Medidas de tendencia central o posición: 1 n Pn Media muestral: X̄ = i=1 Xi Mediana: m = valor de posición central Amplitud muestral: amm = Máximo-Mı́nimo 2 • Medidas de dispersión o escala: Varianza muestral: 2 = SX Desviación estándar: SX = 42 Pn 2 i=1 (Xi −X̄) n−1 h Pn 2 i=1 (Xi −X̄) n−1 i1/2 Estadı́stica Actuarial: Análisis de Regresión • En muestras multivariantes, por ejemplo con dos variables X e Y , además pueden resultar interesantes las siguientes medidas: Covarianza: SXY = Correlación: rXY = Pn i=1 (Xi −X̄)(Yi −Ȳ ) n−1 SXY SX SY La covarianza mide la variación conjunta de dos variables, y su signo indica la dirección de la variación, depende de las escalas de medida. El coeficiente de correlación mide al grado de asociación lineal y no se ve afectado por la escala de las variables, siempre está comprendido entre −1 y 1. Cuando hay más de dos variables es más útil ordenar estas covarianzas y correlaciones en las matrices correspondientes como se verá más adelante. Cada una de las medidas anteriores tienen su correspondiente medida poblacional basada en la distribución a partir de la cual han sido generados los datos. Los valores muestrales se corresponden con esperanzas poblacionales y esperamos que los valores de estos estadı́sticos tiendan a parecerse a los valores de los parámetros poblacionales. La manera en que se aproximan a los valores poblacionales viene dada por la distribución muestral del estadı́stico. Un estadı́stico es una función que se calcula a partir de los datos contenidos en una muestra. La media muestral es un estadı́stico, la varianza muestral es otro estadı́stico. Como ya se ha indicado cuando hacemos un muestreo aleatorio simple repetido cada muestra obtenida de una población con el mismo número de observaciones tendrá una media muestral X̄ distinta, luego el estadı́stico X̄ es una variable aleatoria con una distribución de probabilidad a la que se llama distribución en el muestreo o distribución muestral. La distribución muestral es la base para realizar inferencia sobre la población. Los parámetros que caracterizan a la distribución de la población, la media y varianza poblacionales son desconocidos. Podemos decir algo de ellos utilizando los estadı́sticos muestrales homónimos mediante la inferencia estadı́stica. Los momentos muestrales por ser función de la muestra recogida son variables aleatorias y su valor cambia de una muestra a otra. La media muestral, X̄ como variable aleatoria que es tiene una esperanza matemática que coincide con la de la distribución de que se obtuvo la muestra, es decir E(X̄) = µX . Además si las observaciones muestrales son independientes la varianza de la media muestral es igual a la varianza de la variable aleatoria de la que se obtuvo la muestra dividida por σ2 el tamaño muestral, es decir V (X̄) = nX Tanto la media poblacional como la muestral son medidas de localización. µX refleja el valor alrededor del cual se van a situar todas las posibles observaciones que podamos obtener de la variable aleatoria X. La media muestral X̄ refleja lo mismo pero relativo a los valores de la muestra. Con respecto a la varianza, debemos recordar que es una medida de dispersión, siendo la dispersión la mayor o menor variabilidad de los valores de la variable aleatoria alrededor de su valor medio. Si la varianza es pequeña será porque las desviaciones de la variable aleatoria en torno a su valor medio son pequeñas, con lo que la media será representativa del conjunto de valores de la distribución y por consiguiente, la dispersión será pequeña. Si la varianza es grande, la dispersión será grande y la media de la variable aleatoria no será representativa. Cuanto mayor sea la varianza mayor es la probabilidad de obtener valores alejados de µX . 43 Estadı́stica Actuarial: Análisis de Regresión 1.5. La distribución de la media muestral Sean X1 , X2 , . . . , Xn observaciones de una muestra aleatoria extraı́da de una población de media µ 2 y varianza σ 2 . La media muestral X̄ es una variable aleatoria de media µ y varianza σn . Prueba1 : P X̄ = n1 ni=1 Xi E(X̄) = E ¡ 1 Pn ¢ V (X̄) = V ¡ 1 Pn ¢ n n i=1 Xi i=1 Xi Pn = E( n1 (X1 + X2 + . . . + Xn )) = 1 n = V ( n1 (X1 + X2 + . . . + Xn )) = 1 n2 i=1 E(Xi ) Pn i=1 V = 1 n (Xi ) = Pn 1 n2 i=1 µ Pn nµ = n =µ i=1 σ 2 2 2 = nσ2 = σn n Por tanto la media de la distribución de la media muestral es la media poblacional y la varianza de la distribución de la media muestral es la varianza poblacional dividida por el número de observaciones o tamaño de la muestra, n. Si Xi ∼ N ID(µ, σ 2 ) i = 1, . . . , n entonces X̄ es una combinación lineal de n variables aleatorias independientes, por lo que su distribución muestral es: ¶ µ σ2 X̄ ∼ N µ, (1.17) n Analicemos el significado del resultado sobre la media de la distribución. Que la media de la distribución de la media muestral sea la media poblacional indica que a medida que aumenta el número de muestras la media de las medias muestrales se aproxima a la verdadera media poblacional. Una única media muestral puede ser mayor o menor que la poblacional pero en promedio no hay razones para esperar que una media muestral sea mayor o menor que la poblacional. Con respecto a la varianza de la distribución de la media muestral vemos que esta disminuye a medida que aumenta el tamaño muestral. Luego más concentrada está la distribución en el muestreo. En resumen cuanto mayor es el tamaño muestral más seguros estamos de la inferencia sobre la media poblacional. 2 a la varianza de la media muestral podemos definir la desviación tı́pica de • Si denotamos por σX̄ la misma como σX̄ = √σn . • Si el tamaño de la muestra no es pequeño en relación al de la población los miembros de la muestra no se distribuyen independientemente. En este caso la varianza de la media muestral es 2 −n N −n V (X̄) = σn N N −1 donde N es el tamaño de la población y el término N −1 se denomina factor de corrección en el caso de una población finita. La distribución muestral se utiliza para hacer inferencia sobre la población. Para ello se utilizan estimadores. Un estimador es un estadı́stico calculado a partir de la muestra que pretende ser una aproximación a un parámetro desconocido. Obviamente del ejemplo anterior podemos deducir que un estimador de la media poblacional es la media muestral dado que la distribución muestral de la media de un conjunto de observaciones de variables normales tine media µ. La inferencia estadı́stica nos permitirá obtener conclusiones sobre la media poblacional desconocida utilizando la distribución de la media muestral. 1 Para calcular el resultado sobre la varianza de la distribución se ha utilizado el hecho de que las distribuciones de los miembros de muestras aleatorias son aproximadamente independientes cuando la población es muy grande en relación al tamaño de la muestra. 44 Estadı́stica Actuarial: Análisis de Regresión 1.6. Bibliografı́a del tema Referencias bibliográficas básicas: • Teórica: [1] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición. [2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadı́stica para administración y economı́a. Prentice Hall. Madrid. [3] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición. [4] Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Fundamentos de inferencia estadı́stica, 3a edición, Editorial AC, Madrid. • Ejercicios con gretl: [1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics with applications, ed. South-Western, 5th edition, Harcourt College Publishers. [2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A modern Approach, ed. South-Western, 2nd edition. Referencias Bibliográficas Complementarias: [1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de regresión con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y − juridicas/analisis − de − regresion − con − greti/Coursel isting). [2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación online de la Facultad de C.C. Económicas y Empresariales. [3] Esteban, M.V. (2007). Estadı́stica Actuarial y Análisis de Regresión. Material docente. Servicio de Publicaciones. [4] Esteban, MV (2008). Estadı́stica Actuarial: Regresión Lineal, Sarriko On Line 3/08. Publicación on-line de la Facultad de CC. Económicas y Empresariales, UPV/EHU. http://www.sarrikoonline.com. [5] Esteban, M.V. (2007). Colección de ejercicios y exámenes. Material docente. Servicio de Publicaciones. [6] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a. Editorial McGraw-Hill. [7] Greene, W. (1998), Análisis Econométrico, Ed. Prentice Hall, 3a edición. [8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th. edition. [9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley. 45 Estadı́stica Actuarial: Análisis de Regresión 46 Tema 2 Estimación por punto y por intervalo Los economistas en general estamos interesados en las relaciones entre las variables económicas. Por ejemplo ¿cómo variará el consumo de las familias si sus ingresos se ven incrementados en 100e al mes? o ¿cómo influirá en el consumo un incremento del impuesto del valor añadido de un 1 %? ¿cómo variaran las ventas de un modelo de automóvil si se reduce su precio en 1500 e ? Sin embargo, muchas cuestiones de intere se centran en el comportamiento de una única variable. Por ejemplo, un diseñador de espacios públicos para ver espectáculos sentado estará interesado en ver cual es el tamaño adecuado de la butaca y cuál debe ser su distancia con respecto a la butaca inmediatamente delante y detrás de ella. Quizá su pregunta relevante sea ¿cuál es el tamaño medio de los futuros espectadores? Imaginemos que diseña una butaca de 45 cm de ancho situada a 86 cm de la butaca anterior ¿qué porcentaje de espectadores no pueden sentarse en estas condiciones? Para contestar a estas preguntas deberı́amos medir a cada miembro de la población, cosa que no podemos hacer. Sin embargo, la estadı́stica tiene instrumentos que pueden ayudarnos a contestar estas preguntas. En este tema nos introduciremos en el conocimiento de la inferencia estadı́stica para establecer conclusiones sobre una población basándonos en la muestra. Introduciremos el concepto de estimador y estimación. Presentaremos dos métodos de estimación, la estimación por punto y la estimación por intervalo. Veremos qué propiedades debe tener un estimador y como construir intervalos de confianza. Aplicaremos los resultados a la media de una población normal. Competencias a trabajar en estas sesiones: 1. Conocer distintos procedimientos de estimación de parámetros, ası́ como sus propiedades para poder seleccionar adecuadamente la mejor alternativa de análisis. 5. Obtener e interpretar los resultados de un análisis estadı́stico de datos económicos haciendo uso de las fuentes de información apropiadas y de los instrumentos informáticos necesarios. 47 Estadı́stica Actuarial: Análisis de Regresión Al final de este tema deberı́ais ser capaces de: 1. Diferenciar entre población y muestra. 2. Relacionar los conceptos de población y variable aleatoria y conocer qué información sobre la población proporcionan la función de densidad de probabilidad de una variable aleatoria, el valor esperado y la varianza. 3. Explicar la diferencia entre media poblacional y media muestral. 4. Conocer la diferencia entre parámetro, estimador y estimación. Entender la razón de que un estimador sea una variable aleatoria con distribución asociada. 5. Definir los conceptos de insesgadez y eficiencia. 6. Elegir entre estimadores con un criterio estadı́stico. 7. Conocer la diferencia entre estimación por punto y por intervalo. 8. Interpretar un intervalo de confianza. 9. Construir un intervalo de confianza para la media de una población normal con varianza conocida y con varianza desconocida. Bibliografı́a Recomendada: Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular os recomendamos leer los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación: • Gujarati, D. y Porter, D.C. (2010). Apéndice A. • Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 8 salvo la sección 8.5 y Cap. 9 salvo la sección 9.3. • Ramanathan, R. (2002). Cap. 2. • Wooldridge, J.M. (2006). Apéndice C. 48 Estadı́stica Actuarial: Análisis de Regresión 2.1. Introducción a la inferencia estadı́stica En el tema anterior vimos la diferencia entre población y muestra. La población es el conjunto de todos los elementos objeto de estudio mientras que la muestra es un subconjunto representativo de la población. Para decir algo de las caracterı́sticas de la población a partir del estudio de la muestra utilizamos la inferencia estadı́stica. Cualquier inferencia extraı́da de la población se basa en estadı́sticos muestrales. Una vez definida la población, hay que especificar un modelo para los datos que recoja las caracterı́sticas poblacionales que interesan. En Econometrı́a suponemos que los datos X1 , X2 , . . . , Xn son realizaciones de n variables aleatorias cuya distribución conjunta depende de varios parámetros desconocidos Θ. Un modelo para los datos especifica las caracterı́sticas generales de la distribución junto con el vector de parámetros desconocidos Θ. Por ejemplo, supongamos que nos interesa conocer las ventas medias de un determinado modelo de automóvil y la muestra está formada por 30 empresas concesionarias. Suponemos que los valores recogidos de las ventas de los 30 concesionarios, X1 , . . . , X30 , son realizaciones de variables normales idéntica e independientemente distribuidas, N ID. Por tanto, el modelo especificado para los datos es: 2 Xi ∼ N ID(µX , σX ) (2.1) Los parámetros que determinan la distribución son la media y la varianza de las ventas, que son desconocidos, es decir, Θ = (µ, σ 2 ). Además, la media es el parámetro de interés en el estudio y queremos aprender sobre ella a partir de los datos. Para poder decir algo de la población a partir de la muestra disponemos de dos herramientas de la estadı́stica, la estimación y el contraste de hipótesis. En la estimación se trata de calcular posibles valores para parámetros de interés, por ejemplo, el salario medio de los graduados en Finanzas y Seguros o el salario medio de las mujeres casadas con carga familiar y estudios superiores. En el contraste de hipótesis hay que establecer una hipótesis o conjetura especı́fica sobre la población, por ejemplo, que no hay discriminación salarial por sexo o que la renta disponible determina el consumo de las familias, y analizar los datos para decidir si la hipótesis es correcta. En este tema veremos una introducción al problema de la estimación y en el tema siguiente introduciremos el contraste de hipótesis. 2.2. Estimadores puntuales Los parámetros son desconocidos pero pueden estimarse. El objetivo de la estimación es aproximar el valor de un conjunto de parámetros desconocidos de una distribución a partir de las observaciones muestrales de la misma. Denotaremos como θ a un parámetro desconocido y Θ = (θ1 , θ2 , . . . , θK )0 a un vector de K parámetros desconocidos. Un estadı́stico es una función, o fórmula, que se calcula a partir de los datos contenidos en una muestra. La media muestral es un estadı́stico, la varianza muestral es otro estadı́stico. Un estimador de un parámetro poblacional es una variable aleatoria que depende de la información de la muestra. Su valor proporciona aproximaciones al parámetro desconocido. Notacionalmente un estimador del parámetro desconocido θ es un estadı́stico que pretende ser un aproximación a dicho parámetro desconocido y se denota por θ̂. Una vez se aplica 49 Estadı́stica Actuarial: Análisis de Regresión un estimador a la muestra se obtiene un valor numérico que se denomina estimación. Un estimador que genera un único valor de estimación se denomina estimador por punto. 2.2.1. Propiedades Sin embargo, no existe un único estimador. En el caso anterior hemos propuesto como estimador de la media poblacional a la media muestral pero igualmente podı́amos haber propuesto como estimador a la mediana muestral. ¿Cuál elegir entonces? Para elegir entre estimadores podemos basarnos en las propiedades de la distribución muestral del estimador. En general exigimos a los estimadores que se aproximen al verdadero valor de los parámetros, vamos a fijarnos en tres propiedades en concreto: insesgadez, eficiencia y error cuadrático medio. Insesgadez. Un estimador es insesgado si la media de su distribución empı́rica coincide con el verdadero valor del parámetro, es decir, E(θ̂) = θ Si se pudieran obtener todas las posibles realizaciones muestrales de θ̂, el promedio de todas estas estimaciones serı́a el verdadero valor del parámetro. Es una propiedad deseable porque indica que si un estimador es insesgado, el error de estimación, θ̂ − θ, se anula en promedio. Cuando E(θ̂) 6= θ se dice que el estimador es sesgado. Se define el sesgo de un estimador como Sesgo(θ̂) = E(θ̂) − θ La parte izquierda de la Figura 2.1 representa las distribuciones de tres estimadores de un mismo parámetro, θ: el estimador θ̂1 es insesgado; θ̂2 , tiene sesgo negativo, es decir, en promedio subestima (subvalora) el valor del parámetro; finalmente el sesgo de θ̂3 es positivo, es decir, este estimador en promedio sobrestima (sobrevalora) el valor del parámetro. Figura 2.1: Sesgo y varianza de estimadores Un ejemplo de estimador insesgado de la media poblacional, µ, de una distribución normal es la media muestral µ̂ = X̄, ya que como se demostró en el Tema 1, E(X̄) = µ. Un estimador insesgado de la varianza de una distribución es la varianza muestral, σ̂ 2 = S 2 tal que E(σ̂ 2 ) = σ 2 . 50 Estadı́stica Actuarial: Análisis de Regresión Eficiencia. Si nos fijamos únicamente en los estimadores insesgados, nos interesa establecer un criterio para elegir un estimador dentro de esta clase de estimadores. En la parte derecha de la Figura 2.1 se representa la distribución de dos estimadores, ambos insesgados. Claramente, el estimador con menor varianza, θ̂1 , tiene una probabilidad menor de obtener realizaciones alejadas del verdadero valor del parámetro. Por tanto, se considera que θ̂1 supera al estimador θ̂2 y se dice que θ̂1 es más eficiente que θ̂2 ya que V (θ̂1 ) < V (θ̂2 ). En general, si un estimador es el que tiene menor varianza dentro de una clase de estimadores se dice que es el estimador eficiente dentro de esa clase. Ası́, se dice que un estimador θ̂ es eficiente dentro de la clase de estimadores insesgados si no hay otro estimador insesgado θ̃ con una varianza menor: V (θ̂) ≤ V (θ̃) ∀θ̃ insesgado Por ejemplo, la media de los datos es un estimador eficiente dentro de la clase de estimadores insesgados de la media poblacional µ de una variable normal. Es decir, se demuestra que, si Xi ∼ N ID(µ, σ 2 ), i = 1, . . . , n, entonces para todo estimador insesgado de µ, µ̃ con E(µ̃) = µ: V (X̄) = σ2 ≤ V (µ̃) n b Si se trata de estimar un conjunto de K parámetros Θ, se dice que un estimador insesgado Θ b es una matriz es más eficiente que otro estimador insesgado Θ̃ si la diferencia [V (Θ̃) − V (Θ)] b semidefinida positiva. Esto implica que cada elemento de Θ tiene una varianza menor o igual que el correspondiente elemento de Θ̃. Error cuadrático medio. Aunque la insesgadez es una propiedad deseable, esto no implica que un estimador insesgado siempre sea preferible a uno sesgado. La Figura 2.2 ilustra una situación en la que un estimador insesgado θ̂1 puede descartarse frente a otro sesgado, θ̂2 . El estimador θ̂1 tiene mucha varianza, por lo que tiene una probabilidad mayor de obtener errores de estimación más grandes que el estimador con menor varianza, θ̂2 , aunque este sea sesgado. Figura 2.2: Ejemplos de distribución de estimadores Esto sugiere utilizar como criterio de elección de estimadores una medida del error del estimador. Se define el error cuadrático medio de un estimador: ECM (θ̂) = E[(θ̂ − θ)2 ] = V (θ̂) + [sesgo(θ̂)]2 51 Estadı́stica Actuarial: Análisis de Regresión que se descompone en un término de varianza y otro de sesgo. Ası́, entre un conjunto de estimadores se elige aquel que tiene menor error cuadrático medio. Ejercicio 2.1 Sea X ∼ N (µ, σ 2 ). Como estimador de la media poblacional se ha utilizado la media muestral de una muestra aleatoria simple. El valor estimado es 5. Di si son ciertas o falsas las siguientes afirmaciones: 1. Tomando muestras distintas pueden obtenerse otras estimaciones. 2. La distribución de estas estimaciones debe estar centrada entorno al verdadero valor 5. Ejercicio 2.2 Un profesor de Econometrı́a encarga a sus estudiantes que elijan la mejor estimación posible de un parámetro de entre las alternativas disponibles en los libros de Econometrı́a. El estudiante A propone un estimador insesgado tal que θ̂ = 5 V (θ̂) = 8. El estudiante B propone un estimador insesgado tal que θ̂? = 6 V (θ̂? ) = 4. El estudiante C propone utilizar la media de las dos estimaciones θ̂?? = 5, 5. ¿Cuál de las tres estimaciones es más adecuada? ¿ Por qué? 2.2.2. Estimadores de la media y la varianza La media muestral de los datos, X̄ puede ser un estimador de la media poblacional µX de una va2 de los datos es un estimador de su varianza poblacional riable aleatoria X. La varianza muestral SX 2 . Es decir, σX n µ̂X = X̄ = 1X Xi n n 2 2 σ̂X = SX = i=1 1 X (Xi − X̄)2 n−1 i=1 Ejemplo 2.1 Supongamos que se dispone del salario medio por hora percibido 30 individuos. En la Tabla 2.1 se recoge dicha información: La estimación de la media del salario medio por hora es: µ̂X = X̄ = 3, 10 + 3, 24 + 3 + 6 + . . . + 7, 78 + 12, 5 + 12, 5 + 3, 25 = 7, 8547 30 La estimación de la varianza es: 2 2 σ̂X = SX = (3, 10 − 7, 8547)2 + (3, 24 − 7, 8547)2 + . . . + (3, 25 − 7, 8547)2 = 23, 8778 30 − 1 52 (2.2) Estadı́stica Actuarial: Análisis de Regresión Individuo Salario Individuo Salario Individuo Salario 1 2 3 4 5 6 7 8 9 10 3,10 3,24 3,00 6,00 5,30 8,75 11,25 5,00 3,60 18,18 11 12 13 14 15 16 17 18 19 20 6,25 8,13 8,77 5,5 22,2 17,33 7,5 10,63 3,6 4,5 21 22 23 24 25 26 27 28 29 30 6,88 8,48 6,33 0,53 6 9,56 7,78 12,5 12,5 3,25 Tabla 2.1: Datos sobre salario medio por hora σ̂X = 2.3. p 23, 8778 = 4, 8865 Estimación por intervalo En la Tabla 2.1 anterior se estima que el salario medio por hora oscila alrededor de 7,8547 euros. Sin embargo, ¿qué confianza podemos tener en este resultado? Por ejemplo, ¿valorarı́amos igual esta cantidad si se hubiera calculado con una muestra de 5 observaciones? La respuesta obvia es NO, sino que consideramos más fiables los resultados con 30 datos que con 5. Por tanto, un estimador debe complementarse con una medida de su fiabilidad o precisión. Un estimador es una variable aleatoria que depende de las variables Xi , i = 1, . . . , n. Su distribución de probabilidad se denomina distribución muestral o distribución empı́rica del estimador. En el ejemplo anterior, si Xi ∼ N ID(µ, σ 2 ), entonces el estimador µ̂ = X̄ es una combinación lineal de n variables normales independientes. En el Tema 1 se demostró que su distribución muestral es: µ̂ = X̄ ∼ N (µ, σ 2 /n) De la distribución de la media muestral se deduce que la media muestral se distribuye alrededor de la media poblacional y se concentra con más probabilidad alrededor de µ cuanto mayor es el tamaño muestral n, es decir cuanto menor es la varianza. Por tanto, hay mayor probabilidad de obtener una estimación cercana a µ con 30 datos que con 5. En este caso, es sensato utilizar como indicador de √ la precisión a la desviación tı́pica σ/ n , menor desviación tı́pica, o lo que es igual menor varianza, indica mayor precisión. Normalmente, σ 2 es desconocido, por lo que sustituimos su valor poblacional 2 . La estimación de la desviación tı́pica de la distribución por el correspondiente q muestral, σ̂ 2 = SX muestral de X̄, σ̂X̄ = 2 = σ̂X̄ σ̂ √X̄ n se conoce como error tı́pico de X̄. En el ejemplo del salario √ medio por hora obtenemos que el error tı́pico de estimación es 4, 8865/ 30 = 0, 8921. Es fácil comprobar que si obtuviéramos los mismos valores de X̄ y SX con una muestra de 5 observaciones, √ el error tı́pico casi se multiplicarı́a por dos veces y media, SX̄ = 4, 8865/ 5 = 2, 185. 53 Estadı́stica Actuarial: Análisis de Regresión Una forma de tener una mayor confianza en la estimación es obtener una estimación por intervalo. Un estimador por intervalo o estimador de un intervalo de confianza de un parámetro poblacional es una regla que utiliza la información muestral para hallar un intervalo que es probable que incluya ese parámetro. 2.3.1. Intervalos de confianza y nivel de confianza Sea θ un parámetro desconocido. Supongamos que utilizando la información muestral se hallan dos variables aleatorias A y B tales que P (A < θ < B) = 1 − α, donde α es cualquier número comprendido entre 0 y 1. Si los valores muestrales especı́ficos A y B son a y b, entonces el intervalo de a a b se llama intervalo de confianza de θ al 100(1 − α) %. La cantidad 100(1 − α) % se llama nivel de confianza del intervalo. Interpretación: Si se extraen repetidamente muestras aleatorias de la población, el verdadero valor del parámetro θ se encontrará en el 100(1 − α) % de los intervalos calculados de esta forma. El intervalo de confianza calculado de esta forma se expresa de la manera siguiente: a < θ < b a un nivel de confianza del 100(1 − α) %. 2.3.2. Intervalos de confianza para la media de una población normal con varianza conocida Sea X1 , X2 , . . . , Xn una muestra de n observaciones extraı́das de una población que sigue una distribución normal de media µ desconocida y varianza conocida σ 2 . Vamos a calcular un intervalo de confianza para la media poblacional al 100(1 − α) %. Sea ¶ µ X̄ − µ σ2 √ ∼ N (0, 1) −→ Z= X̄ ∼ N µ, n σ/ n Sea zα/2 el valor de la distribución normal estándar tal que la probabilidad de la cola superior es α/2. A continuación construimos el intervalo de confianza: P (−zα/2 < Z < zα/2 ) = 1 − α P (−zα/2 < X̄−µ √ σ/ n < zα/2 ) = 1 − α P (−zα/2 √σn < X̄ − µ < zα/2 √σn ) = 1 − α ´ ³ P X̄ − zα/2 √σn < µ < X̄ + zα/2 √σn = 1 − α Interpretación: Si se extraen repetida e independientemente muestras aleatorias de n observaciones de la población y se calculan intervalos de confianza al 100(1 − α) %, entonces el 100(1 − α) % contendrá el verdadero valor de la media poblacional. Por ejemplo, fijado α = 5 %, zα/2 = 1, 96, el nivel de confianza es del 95 % y tenemos: µ ¶ σ σ P X̄ − 1, 96 √ < µ < X̄ + 1, 96 √ = 0, 95 n n 54 (2.3) Estadı́stica Actuarial: Análisis de Regresión La ecuación (2.3) es un intervalo de confianza al 95 por ciento para µ, luego el intervalo aleatorio contiene a µ con probabilidad 0, 95. Es decir antes de obtener nuestra muestra aleatoria particular hay una probabilidad del 95 por ciento de que (2.3) contenga a µ. La ecuación (2.3) es un ejemplo de estimador por intervalo. El intervalo es aleatorio ya que los lı́mites inferior y superior cambian con las diferentes muestras. N(0, 1) Interpretación: Si se extraen repetida e independientemente 100 muestras aleatorias de n observaciones de la población y se calculan 100 intervalos de confianza, entonces 95 de ellos contendrán el verdadero valor de la media poblacional. El gráfico muestra que la probabilidad de que una variable aleatoria normal estándar se encuentre entre −1, 96 y 1, 96 es 0, 95. 0,4 0,35 0,3 0,25 0,2 0,15 Región de Aceptación 0,95 0,1 Región Crítica 0,025 0,05 Región Crítica 0,025 0 −5 2.3.3. −4 −3 −2 −1 0 1 2 3 4 5 Intervalos de confianza para la media de una población normal con varianza desconocida. La distribución t de Student Sea X1 , X2 , . . . , Xn una muestra de n observaciones extraı́das de una población que sigue una distribución normal de media µ desconocida y varianza desconocida σ 2 . Vamos a calcular un intervalo de confianza para la media poblacional al 100(1 − α) %. Sea ¶ µ σ2 X̄ ∼ N µ, n −→ Z= X̄ − µ √ ∼ N (0, 1) σ/ n En el caso de que la varianza σ 2 sea conocida, vimos en el apartado anterior que el intervalo de confianza 100(1 − α) % es: ¶ µ σ σ =1−α P X̄ − zα/2 √ < µ < X̄ + zα/2 √ n n Sin embargo si σ 2 es desconocida el resultado no puede ser utilizado directamente. También hemos visto que la varianza muestral S 2 es un estimador de σ 2 por lo que para construir el intervalo de confianza podemos utilizar el siguiente estadı́stico y distribución asociada: t= X̄ − µ √ ∼ t(n−1) σ̂/ n siendo σ̂ 2 = S 2 . Sea t(v) α/2 el valor de la distribución t-Student con v grados de libertad tal que la probabilidad de la cola superior es α/2. El intervalo de confianza 100(1 − α) % para la media poblacional cuando la varianza es desconocida es: µ ¶ σ̂ σ̂ P X̄ − t(n−1) α/2 √ < µ < X̄ + t(n−1) α/2 √ =1−α n n 55 Estadı́stica Actuarial: Análisis de Regresión con la misma interpretación que en el apartado anterior. Por ejemplo, para α = 5 % y n = 49 tenemos t(n−1)α/2 = t(48)0,025 = 2, luego: µ ¶ σ̂ σ̂ P X̄ − 2 × √ < µ < X̄ + 2 × √ = 0, 95 n n Ejemplo 2.2 Utilizando los datos de la Tabla 2.1 vamos a construir un intervalo de confianza al 95 % para la media del salario medio por hora. Para la variable X = Salario tenemos: 2 = S 2 = 23, 8778 ; µ̂X = X̄ = 7, 8547 ; σ̂X X σ̂ = 4, 8865 ; t(n−1)α/2 = t(30−1)0,025 = 2, 045 µ ¶ σ̂ σ̂ P X̄ − t(n−1)α/2 × √ < µ < X̄ + t(n−1)α/2 × √ = 0, 95 n n P (7, 8547 − 2 × 0, 8921 < µ < 7, 8547 + 2 × 0, 8921) = 0, 95 P (6, 070 < µ < 9, 6389) = 0, 95 Concluimos que con confianza del 95 % la media poblacional estará entre los valores 6, 070 y 9, 6389. 2.3.4. Otros ejemplos Además de construir intervalos de confianza para los parámetros de una población, como es la media o la varianza también podemos construir intervalos de confianza para estimar algunos parámetros de dos poblaciones. Por ejemplo un empresario puede estar interesado en comparar la productividad media de sus trabajadores en dos plantas distintas, o podemos estar interesados en comparar la media del salario medio por hora de hombres y mujeres. Para ello podemos construir un intervalo de confianza para la diferencia de las medias. Veamos algunos ejemplos. Intervalos de confianza de la diferencia entre dos medias: muestras independientes Supongamos que extraemos una muestra de nX observaciones de una población normal de media µX 2 y una muestra independiente de n observaciones de una población normal de media y varianza σX Y µY y varianza σY2 . Denotamos las medias muestrales respectivas por X̄ y Ȳ . Estamos interesados en la diferencia de ambas medias, luego basamos la inferencia en dicha diferencia: X̄ − Ȳ . La media y varianza de la variable aleatoria diferencia de medias es: E(X̄ − Ȳ ) = E(X̄) − E(Ȳ ) = µX − µY V (X̄ − Ȳ ) = V (X̄) − V (Ȳ ) = 56 2 σX σ2 + Y nX nY Estadı́stica Actuarial: Análisis de Regresión La distribución de la variable aleatoria Z = X̄ − Ȳ combinación lineal de variables normales es una normal: (X̄ − Ȳ ) − (µx − µy ) q 2 Z= ∼ N (0, 1) 2 σX σY + nX nY suponiendo que las varianzas son conocidas podemos escribir el siguiente intervalo de confianza:   s s 2 2 2 2 σX σX σ σ P (X̄ − Ȳ ) − zα/2 + Y < µX − µY < (X̄ − Ȳ ) + zα/2 + Y  = 0, 95 nX nY nX nY Si las varianzas son desconocidas se han de estimar con lo que la variable aleatoria Z ya no sigue una distribución estándar sino una t-Student con v = nX + nY − 2 grados de libertad donde estamos suponiendo que las varianzas poblacionales aunque desconocidas son iguales1 .   s s 2 2 2 2 σ̂ σ̂ σ̂ σ̂ X X P (X̄ − Ȳ ) − t(nX +nY −2)α/2 + Y < µX − µY < (X̄ − Ȳ ) + t(nX +nY −2)α/2 + Y  = 0, 95 nX nY nX nY Ejemplo 2.3 Supongamos que disponemos de una muestra sobre salario medio por hora para 252 2 ) y una muestra de salario medio mujeres proveniente de una población X ∼ N (µX , σX por hora para 274 hombres proveniente de una población Y ∼ N (µY , σY2 ) tal que: X̄ = 4, 5877 σ̂X = 2, 5294 Ȳ = 7, 0995 σ̂Y = 4, 1609 Suponiendo que ambas muestras tienen varianza poblacional desconocida pero igual, el intervalo de confianza al 100(1 − α) % para la diferencia de las medias es: r (4, 5877 − 7, 0995) ± t(524)α/2 1 2, 52942 4, 16092 + 252 274 Los grados de libertad v dependen del supuesto que se realice sobre las varianzas de ambas poblaciones. • Si suponemos que las varianzas poblacionales son desconocidas pero iguales: v = nX + nY − 2. Este es el supuesto más habitual. • Si suponemos que"las varianzas poblacionales son desconocidas y no son iguales y las muestras son de distinto # tamaño: v = 2 σ̂X nX 2 σ̂ 2 + nY (σ̂ 2 /nX )2 X (nX −1) Y 2 (σ̂ /nY ) Y + (n Y −1) 2 • Si suponemosque las varianzas  poblacionales son desconocidas y no son iguales y las muestras son del mismo tamaño: v = 1 + σ̂ 2 X σ̂ 2 Y 2 2 σ̂ Y + 2 σ̂  × (n − 1) X 57 Estadı́stica Actuarial: Análisis de Regresión Intervalos de confianza de la diferencia entre dos medias: muestras dependientes Dos muestras son dependientes si en los valores de una muestra influyen los de la otra. Los miembros de la muestra se eligen por pares, uno de cada población. Supongamos que se eligen n pares alea2 ) y Y ∼ N (µ , σ 2 ) torios (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) extraı́dos de dos poblaciones X ∼ N (µX , σX Y Y dependientes. Denotamos por d y Sd a la media y desviación tı́picas muestrales observadas de las n diferencias di = xi − yi . Si suponemos que la distribución poblacional de las diferencias es normal, entonces tenemos el siguiente intervalo de confianza 100(1 − α) % de la diferencia entre las medias: Sd Sd d¯ − t(n−1)α/2 √ < µd < d¯ − t(n−1)α/2 √ n n Ejercicio 2.3 Supongamos que Y1 , Y2 , . . . , Yn constituyen una muestra aleatoria simple de una población con media µ y varianza σ 2 . Consideramos el siguiente estimador de µ: Y? = Y1 + Y2 2 1. Demostrar que Y ? es un estimador insesgado. 2. Obtener V (Y ? ). 3. Consideramos ahora Ȳ = Pn i=1 n Yi . ¿Cuál de los dos estimadores es mejor? Ejercicio 2.4 Supongamos que Y1 , Y2 , Y3 constituyen una muestra aleatoria simple de una población N (µ, σ 2 ). Consideramos el siguiente estimador de µ: 1 1 1 Ỹ = Y1 + Y2 + Y3 2 3 6 1. Demostrar que Ỹ es un estimador insesgado. 2. Obtener V (Ỹ ). 3. Consideramos ahora como estimador de µ a Ȳ , ¿cuál de los dos estimadores es mejor? Ejercicio 2.5 Un diseñador de aviones en el proceso de diseño del interior de un avión está interesado en conocer el tamaño estándar de un asiento de forma que se maximice el espacio utilizable en el avión y que el mayor número de viajeros viaje cómodamente. Supongamos que la variable Y , medida de la cadera, es tal que Y ∼ N (µ, σ 2 ). La Tabla 2.2 recoge una muestra de la medida de la cadera, en pulgadas, para 50 individuos adultos que vuelan habitualmente. 58 Estadı́stica Actuarial: Análisis de Regresión Indv. Medida Indv. Medida Indv. Medida Indv. Medida Indv. Medida 1 2 3 4 5 6 7 8 9 10 14,96 17,34 16,40 19,33 17,69 17,50 15,84 18,69 18,63 18,55 11 12 13 14 15 16 17 18 19 20 14,76 17,89 18,36 17,59 16,64 20,23 16,98 16,23 14,21 20,33 21 22 23 24 25 26 27 28 29 30 15,97 17,19 16,87 15,26 13,90 16,40 20,40 15,94 19,08 19,40 31 32 33 34 35 36 37 38 39 40 15,71 13,53 17,89 17,31 13,71 17,92 14,91 20,00 19,22 16,48 41 42 43 44 45 46 47 48 49 50 17,77 17,81 16,90 19,26 16,03 15,86 16,56 16,71 20,23 15,54 Tabla 2.2: Tamaño de la cadera para 50 individuos. 1. Realizar un análisis descriptivo de los datos de la tabla. Calcular media, varianza y desviación tı́pica muestrales de la variable junto con el coeficiente de asimetrı́a y curtosis. 2. Supongamos que se diseña una butaca de 18 pulgadas de ancho, ¿qué porcentaje de clientes no podrán volar? 3. ¿Cuánto deberı́a medir la butaca para que pudiera volar el 95 % de la población? Ejercicio 2.6 Para evaluar diferentes planes de jubilación para los trabajadores de una multinacional con una plantilla de miles de trabajadores la empresa debe determinar la edad media de sus trabajadores. Asumiendo que la edad de los trabajadores sigue una distribución normal y que la desviación estandar es conocida e igual a 21 años, ¿cuál debe ser el tamaño de la muestra de trabajadores que se debe muestrear si queremos que el intervalo de confianza del 95 % de la edad media no sean más ancho de 4 años? 59 Estadı́stica Actuarial: Análisis de Regresión 2.4. Bibliografı́a del tema Referencias bibliográficas básicas: • Teórica: [1] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición. [2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadı́stica para administración y economı́a. Prentice Hall. Madrid. [3] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición. [4] Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Fundamentos de inferencia estadı́stica, 3a edición, Editorial AC, Madrid. • Ejercicios con gretl: [1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics with applications, ed. South-Western, 5th edition, Harcourt College Publishers. [2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A modern Approach, ed. South-Western, 2nd edition. Referencias Bibliográficas Complementarias: [1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de regresión con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y − juridicas/analisis − de − regresion − con − greti/Coursel isting). [2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación online de la Facultad de C.C. Económicas y Empresariales. [3] Esteban, M.V. (2007). Estadı́stica Actuarial: Regresión. Material docente. Servicio de Publicaciones. [4] Esteban, MV (2008). Estadı́stica Actuarial: Regresión Lineal, Sarriko On Line 3/08.Publicación on-line de la Facultad de CC. Económicas y Empresariales, UPV/EHU. http://www.sarrikoonline.com. [5] Esteban, M.V. (2007). Colección de ejercicios y exámenes. Material docente. Servicio de Publicaciones. [6] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a. Editorial McGraw-Hill. [7] Greene, W. (1998), Análisis Econométrico, Ed. Prentice Hall, 3a edición. [8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th. edition. [9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley. 60 Tema 3 Contraste de hipótesis En el tema anterior vimos algunos conceptos de la inferencia estadı́stica para establecer conclusiones sobre una población basándonos en la muestra y nos centramos en la estimación. En este tema nos vamos a centrar en la inferencia o contrate de hipótesis. Aprenderemos a realizar contraste de hipótesis para poder realizar afirmaciones sobre la población a partir de la información contenida en una muestra. Para ello utilizaremos estadı́sticos calculados a partir de muestras aleatorias y vistos en los temas anteriores. Introduciremos los conceptos de hipótesis nula y alternativa ası́ como el concepto de estadı́stico y distribución muestral. Desarrollaremos el proceso de tomar decisiones para rechazar o no la hipótesis nula y analizaremos los errores que podemos cometer en el proceso de contrastar hipótesis. Finalmente aplicaremos los resultados a la media de una población normal. Competencias a trabajar en estas sesiones: 1. Conocer distintos procedimientos de estimación de parámetros, ası́ como sus propiedades para poder seleccionar adecuadamente la mejor alternativa de análisis. 2. Aplicar la metodologı́a estadı́stica adecuada para el diseño de contrastes de hipótesis para la toma de decisiones en el ámbito profesional. 5. Obtener e interpretar los resultados de un análisis estadı́stico de datos económicos haciendo uso de las fuentes de información apropiadas y de los instrumentos informáticos necesarios. Al final de este tema deberı́ais ser capaces de: 1. Conocer los elementos y etapas de un contraste de hipótesis. 2. Formalizar la hipótesis nula y alternativa de un contraste. 3. Conocer la diferencia entre nivel de significatividad y valor-p de un contraste. 4. Definir el error tipo I y el error tipo II de una prueba. 61 Estadı́stica Actuarial: Análisis de Regresión 5. Conocer la diferencia entre un contraste a una cola y un contraste a dos colas. Bibliografı́a Recomendada: Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular os recomendamos leer los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación: • Gujarati, D. y Porter, D.C. (2010). Apéndice A. • Newbold, P., Carlson, W.L. y Thorne, B. (2008). Caps 10 y 11. • Ramanathan, R. (2002). Cap. 2. • Wooldridge, J.M. (2006). Apéndice C. 62 Estadı́stica Actuarial: Análisis de Regresión 3.1. Concepto de hipótesis nula e hipótesis alternativa Uno de los objetivos de la Estadı́stica y de la Econometrı́a es el contraste de hipótesis. La distribución de probabilidad de una v.a., f (X; θ) discreta o continua, depende de un parámetro θ que toma valores en el espacio paramétrico Θ , θ ∈ Θ tal que, para cada valor que toma θ en Θ la función f (X; θ) es distinta. Una hipótesis estadı́stica sobre el parámetro es una conjetura sobre el valor concreto que tenga en la realidad. Para contrastar dicha hipótesis, o lo que es lo mismo, para aceptarla o rechazarla, se diseñan pruebas estadı́sticas es decir, se establece un criterio de contraste para ver si podemos considerar la hipótesis cierta o no. Un contraste de hipótesis tiene tres etapas: formulación de dos hipótesis opuestas; derivación de un estadı́stico de contraste y su distribución muestral y determinación de un criterio de decisión para elegir una de las dos hipótesis planteadas. Una hipótesis estadı́stica es una afirmación sobre la distribución de una o varias variables aleatorias. En un contraste se trata de decidir cuál, entre dos hipótesis planteadas, es la que mejor se adecúa a los datos1 . La hipótesis de interés se denomina hipótesis nula, H0 , y la supondremos cierta mientras no haya evidencia en contra. La hipótesis frente a la que se contrasta la nula se llama hipótesis alternativa, H1 . Tanto las hipótesis nulas como alternativas pueden ser simples o compuestas. Las hipótesis simples especifican un único valor para el parámetro poblacional y por tanto en ellas la distribución de probabilidad queda perfectamente definida. En general especificaremos hipótesis nulas simples. En la hipótesis compuesta se especifica un rango de valores para el parámetro poblacional. La hipótesis alternativa puede ser a una cola o a dos colas. La hipótesis alternativa a una cola envuelve todos los posibles valores del parámetro poblacional a un lado o a otro del valor especificado en la H0 . La hipótesis alternativa a dos colas envuelve todos los valores posibles del parámetro poblacional excepto el especificado por la H0 . La elección entre las hipótesis se basa en un estadı́stico de contraste, que es una función de los datos que mide la discrepancia entre estos y H0 . Por ejemplo, si consideramos que el salario medio por hora es una variable aleatoria normal podemos plantearnos si los datos del salario medio por hora es compatible con una distribución con media 5 euros de salario medio por hora. En el contraste sobre la media trataremos de establecer si la diferencia entre la hipotética media poblacional 5 e y la media muestral 7,8547 e se debe únicamente a la naturaleza aleatoria de los datos. Para ello contrastaremos el supuesto de que la media poblacional es 5 frente a la alternativa de que no lo sea contrastamos: H0 : µ = 5 frente a H1 : µ 6= 5 A partir de la distribución muestral de X̄, X̄ ∼ N (µ, σ 2 /n) podemos definir el siguiente estadı́stico de contraste: X̄ − µ X̄ − 5 √ = σX̄ σ/ n 1 El establecimiento de una hipótesis sobre el parámetro desconocido θ divide su espacio paramétrico en dos partes, una integrada por los valores que cumplan la hipótesis, le llamaremos Θ0 y otra formada por el conjunto de valores que no la cumplen y que llamaremos Θ1 . Θ0 y Θ1 son disjuntos por definición, Θ0 ∪ Θ1 = Θ. 63 Estadı́stica Actuarial: Análisis de Regresión Esta discrepancia, que utilizaremos como estadı́stico de contraste, no depende de las unidades de medida y tiene en cuenta la diferencia entre los datos (resumidos en X̄) y el valor establecido en H0 . Además, debe conocerse la distribución de esta variable aleatoria cuando la hipótesis nula es correcta. En el ejemplo, se demuestra que si los datos X1 , X2 , . . . , Xn son una muestra aleatoria de un conjunto de variables Xi ∼ N ID(µ, σ 2 ) ∀i, con µ y σ 2 desconocidas, entonces: X̄ − µ ∼ t(n − 1) σ̂X̄ y sustituyendo µ = 5, tenemos la distribución muestral del estadı́stico bajo H0 : t= X̄ − 5 H0 ∼ t(n − 1) σ̂X̄ −→ X̄ − 5 H0 √ ∼ t(n − 1) σ̂/ n (3.1) Este estadı́stico se aplica mucho en la práctica y se denomina estadı́stico t de la media. De forma general podemos escribirlo: √ X̄ − µ n(X̄ − µ) ∼ t(n − 1) o lo que es igual ∼ t(n − 1) σ̂X̄ σ̂ Un contraste o test de hipótesis es una regla de decisión mediante la cual optamos por una u otra hipótesis. La cuestión es por cuál de las dos hipótesis nos inclinamos dada la información proporcionada por una muestra aleatoria simple. Para ello se establece la regla o criterio de decisión que determina la región crı́tica, subconjunto para el que se rechaza la H0 . Para determinar el criterio de decisión del contraste se divide el conjunto de posibles resultados del estadı́stico de contraste en dos zonas, la región crı́tica y su complementaria. Se rechaza H0 cuando el valor del estadı́stico obtenido con la muestra, tm , pertenece a la región crı́tica. El punto de partida para establecer la región crı́tica es que se rechaza H0 si la discrepancia entre datos y H0 es grande. En el contraste bilateral, se rechazarı́a H0 si X̄ se alejara mucho del valor establecido en H0 , lo que para el estadı́stico implica que: ¯ ¯ ¯ X̄ − 5 ¯ ¯>c ¯ (3.2) |tm | = ¯ S ¯ X̄ donde c es la discrepancia máxima que estamos dispuestos a asumir y se denomina valor crı́tico. En caso contrario, si |tm | ≤ c, no se rechaza la hipótesis nula. El valor de c depende de la distribución del estadı́stico de contraste cuando H0 es cierta y del error que estemos dispuestos a aceptar. Por ejemplo para una muestra de tamaño n = 30 y α = 5 % tenemos un valor c = t(n−1)| α2 = t(30−1)| 0,025 = 2, 045. En el ejemplo que venimos siguiendo tendremos: tm = 7, 8547 − 5 √ = 3, 199 > 2, 045 4, 8865/ 30 luego rechazamos la hipótesis nula para un nivel de significación del 5 %. 3.2. Tipos de error en el contraste y potencia de un contraste El rechazo de la H0 equivale a la aceptación de H1 y viceversa. Se entiende la aceptación o rechazo de una hipótesis en el sentido de que la muestra ha proporcionado evidencia suficiente, aunque no absoluta, para que sea razonable aceptar o rechazar la H0 . Este proceso conlleva cometer errores, las posibilidades son: 64 Estadı́stica Actuarial: Análisis de Regresión • La probabilidad de cometer el error Tipo I, rechazar cuando es cierta, se denomina nivel de significación del contraste o tamaño de la región crı́tica y se denota por α. • La probabilidad de cometer el error tipo II, no rechazar la hipótesis nula cuando ésta es falsa, se denota por β y generalmente se utiliza su complementario a la unidad (1 − β) llamada potencia del contraste (probabilidad de aceptar la hipótesis alternativa cuando es cierta) cuando las hipótesis son simples y función de potencia cuando son compuestas. Deseamos cometer el menor error, pero no es posible eliminar los dos errores simultáneamente, es decir, que el tamaño sea 0 y la potencia igual a 1. En general, disminuir el error tipo I lleva consigo un aumento del error tipo II. Por ejemplo, no cometemos error tipo I si decidimos no rechazar nunca la hipótesis nula; pero la potencia del contraste serı́a 0 porque tampoco rechazaremos H0 cuando sea falsa. Daremos más importancia al error tipo I, por lo que elegiremos el tamaño del contraste; los niveles más habituales son 10 %, 5 % y 1 %. Para el tamaño elegido, trataremos de utilizar el contraste con mayor potencia. Diseño de pruebas estadı́sticas. Para diseñar una prueba debemos elegir una muestra, un estadı́stico, un nivel de significación y una región crı́tica. Normalmente se comienza eligiendo el nivel de significación α, es decir acotando la probabilidad de cometer error Tipo I y para ello se fija la región crı́tica adecuada. • Fijamos la región crı́tica de forma que α sea pequeño, es decir que el error sea pequeño, queremos que la probabilidad de rechazar H0 cuando es cierta sea pequeña. • También trataremos de que sea pequeño el error Tipo II es decir que la potencia del contraste sea máxima. En la práctica se acota la probabilidad de cometer error Tipo I, α y después se trata de minimizar la probabilidad de cometer error Tipo II, β. Cuando minimizamos la P (I) aumenta P (II) por tanto cuando aceptamos H0 debemos tener en cuenta que la potencia del contraste sea suficiente. 3.3. El p-valor y conclusiones del contraste Otra forma de llevar a cabo el contraste es utilizar el valor-p. Este valor es una probabilidad e indica cuál serı́a el menor nivel de significación que se tendrı́a que elegir para rechazar la hipótesis nula, dada la realización muestral del estadı́stico. Si el contraste es a dos colas, el valor-p es dos veces el área a la derecha de la realización muestral del estadı́stico en valor absoluto, en la distribución de éste bajo la hipótesis nula, esto es valor-p = 2 P(tj > tm j |H0 ) Si el contraste es a una cola, el valor-p serı́a el área a la derecha de la realización muestral del estadı́stico en valor absoluto, en la distribución de éste bajo la hipótesis nula, esto es valor-p = 65 Estadı́stica Actuarial: Análisis de Regresión P(tj > tm j |H0 ). A mayor valor-p, mayor serı́a la probabilidad de error de tipo I si elegimos rechazar la hipótesis nula. Luego a mayor valor-p menor evidencia contra la hipótesis nula y por el contrario a menor valor-p mayor evidencia contra la hipótesis nula. El cálculo del valor-p es más complicado que elegir el nivel de significatividad a priori por lo que generalmente se realiza en el ordenador. 3.4. Pasos en la realización de un contraste Resumiendo un contraste de hipótesis tiene las siguientes etapas: 1) Formulación de dos hipótesis opuestas, hipótesis nula, H0 e hipótesis alternativa H1 . 2) Derivación del estadı́stico de contraste correspondiente y su distribución. 3) Seleccionar el nivel de significatividad α o probabilidad de cometer error tipo I. 4) Cálculo muestral del estadı́stico y aplicación del criterio de decisión para elegir una de las dos hipótesis. El criterio de decisión es: si el valor muestral del estadı́stico es mayor que el valor c, el valor en tablas de la distribución para el nivel de significatividad elegido, se rechaza la hipótesis nula. En caso contrario se acepta. Si alternativamente utilizamos el valor-p, una vez calculado éste la regla de decisión es si valor-p < α se rechaza H0 . Si valor-p > α no se rechaza H0 El contraste de hipótesis también puede realizarse mediante un intervalo de confianza. En ese caso los pasos 1), 2) y 3) no cambian. En el paso 4) se calcula el intervalo de confianza a 100(1 − α) % y se comprueba si el valor del parámetro según la hipótesis nula pertenece al intervalo, en cuyo caso se acepta la hipótesis nula. En caso contrario se rechaza. Notar que la región de aceptación es la comprendida dentro del intervalo de confianza. 3.5. Aplicaciones 3.5.1. Contrastes de la media de una distribución normal Ejemplo: zona crı́tica en un contraste bilateral sobre la media de una distribución normal. Veamos cómo se determina el valor crı́tico c en el ejemplo sobre la media del precio. El tamaño α es la probabilidad de rechazar H0 cuando ésta es cierta. Como (3.2) es la condición para rechazar y (3.1) es la distribución del estadı́stico cuando H0 es cierta, esto implica que: α = P rob(|t| > c) cuando el estadı́stico t ∼ t(n − 1) En este caso, rechazaremos H0 si el valor del estadı́stico t obtenido con los datos es un valor poco probable en la distribución del estadı́stico bajo H0 . 66 Estadı́stica Actuarial: Análisis de Regresión Este gráfico muestra la distribución del estadı́stico si H0 : µ = 5 es cierta. La región crı́tica es la zona punteada en las dos colas de la distribución, de modo que en cada cola se acumula una probabilidad α/2. Ası́, c es la ordenada de la distribución t(n − 1) que deja en la cola derecha una probabilidad α/2. Por ejemplo, para α = 0, 05 y n = 30, entonces, c = 2, 045 y se rechaza H0 al nivel de significación del 5 % si |tm | > 2, 01. Ejemplo 3.2 Con los datos de la Tabla 2.1 contrastamos: H0 : µ = 0 estadı́stico: X̄ − 0 H0 √ ∼ t(n − 1) t= σ̂/ n frente a H1 : µ 6= 0 con el que aplicado a la muestra: tm = 7, 8547 √ = 8, 804 > 2, 045 = t(30−1)| 0,05 = t(30−1)| 0,025 2 4, 8865/ 30 luego rechazamos H0 para α = 5 %. Ejemplo 3.3 Con los datos de la Tabla 2.1 contrastamos: H0 : µ = 8 estadı́stico: X̄ − 8 H0 √ ∼ t(n − 1) t= σ̂/ n frente a H1 : µ 6= 8 con el que aplicado a la muestra: ¯ ¯ ¯ 7, 8547 − 8 ¯ √ ¯ = | − 0, 1628| < 2, 045 = t(30−1)| 0,05 = t(30−1)| 0,025 tm = ¯¯ 2 4, 8865/ 30 ¯ luego no rechazamos H0 para α = 5 %. Ejemplo: región crı́tica en el contraste unilateral sobre la media de una distribución normal. En los estudios econométricos a veces se plantean contrastes a una cola. En el estudio sobre el salario medio por hora supongamos que interesa contrastar si la media es cinco o mayor que cinco, por lo que planteamos las hipótesis: H0 : µ = 5 frente a H1 : µ > 5 Al mantenerse la misma hipótesis nula, el estadı́stico de contraste es (3.1), que bajo H0 sigue una distribución t(n − 1). La hipótesis alternativa determina el criterio de decisión. Rechazaremos H0 cuando la discrepancia tome valores alejados de H0 y compatibles con H1 , es decir, cuando t tome valores positivos grandes. La región crı́tica está definida por la condición t > c. El valor crı́tico c se determina por: α = P (t > c) cuando el estadı́stico t ∼ t(n − 1) 67 Estadı́stica Actuarial: Análisis de Regresión La región crı́tica del contraste es la zona punteada en una cola de la distribución, la derecha. Ası́, c es la ordenada de la distribución t(n − 1) que acumula en la cola derecha una probabilidad α. Por ejemplo, si α = 0, 05 y n = 30, entonces el nivel crı́tico es c = 1, 699 y no se rechaza H0 al nivel de significación del 5 % si tm < 1, 699. En general, se usan las expresiones rechazar o no rechazar H0 . Esto es ası́ porque en un contraste mantenemos la H0 mientras no haya suficiente evidencia en contra. Los datos pueden rechazar la hipótesis, pero no pueden probar que H0 sea correcta, por lo que no se dice que se acepta H0 . No rechazar H0 significa que los datos no son capaces de mostrar su falsedad. Ejemplo 3.4 Con los datos de la Tabla 2.1 contrastamos: H0 : µ = 8 estadı́stico: X̄ − 8 H0 √ ∼ t(n − 1) t= σ̂/ n frente a H1 : µ > 8 con el que aplicado a la muestra: tm = | − 0, 1628| < 1, 699 = t(30−1)| 0,05 luego no rechazamos H0 para α = 5 %. Ejemplo: utilización de los intervalos de confianza para la realización de contrastes. En el Tema 2 se construyó, utilizando los datos de la Tabla 2.1, un intervalo de confianza al 95 % para la media del salario medio por hora. El intervalo construido es el siguiente: P (6, 070 < µ < 9, 6389) = 0, 95 Este intervalo puede utilizarse para realizar contraste de hipótesis, por ejemplo si queremos contrastar: H0 : µ = 8 frente a H1 : µ 6= 8 basta con que comprobemos si el valor 8 está o no dentro del intervalo; 8 ∈ IC0,95 (µ) luego no rechazamos la hipótesis nula. Para el contraste: H0 : µ = 0 frente a H1 : µ 6= 0 obtendrı́amos con el mismo intervalo de confianza 0 6∈ IC0,95 (µ) luego rechazamos la hipótesis nula. Lo cual es lógico ya que del propio intervalo de confianza concluimos que con confianza del 95 % la media poblacional estará entre los valores 6, 070 y 9, 6389. 3.5.2. Otros ejemplos Ejemplo: contrate de igualdad de medias Este es un contraste muy habitual, por ejemplo, en estudios sociales interesa analizar si hay discriminación salarial, de modo que las mujeres perciben 68 Estadı́stica Actuarial: Análisis de Regresión salarios más bajos que los hombres. Habitualmente, se contrasta la hipótesis nula de que la media del salario que perciben las mujeres es igual al salario medio de los hombres frente a la hipótesis alternativa de que la media del salario es mayor en el grupo de hombres. Para ejemplarizar este contraste vamos a retomar el Ejemplo 2.3 del Tema 2. En este ejemplo disponı́amos de dos muestras normales independientes, con varianzas poblacionales iguales pero desconocidas. Una muestra sobre salario medio por hora para 252 mujeres proveniente de una 2 ) y una muestra de salario medio por hora para 274 hombres proveniente población X ∼ N (µX , σX de una población Y ∼ N (µY , σY2 ) tal que: X̄ = 4, 5877 σ̂X = 2, 5294 Ȳ = 7, 0995 σ̂Y = 4, 1609 Con estos datos construı́amos el siguiente intervalo de confianza al 100(1 − α) % para la diferencia de las medias: r 2, 52942 4, 16092 (4, 5877 − 7, 0995) ± t(524)α/2 + 252 274 Para contrastar la hipótesis de que la media del salario medio por hora que perciben las mujeres es igual la media del salario medio por hora de los hombres frente a la hipótesis alternativa de que la media es mayor en el grupo de hombres, planteamos H0: µY = µX frente a H1: µY > µX . El procedimiento de contraste se basa en la comparación de las dos medias muestrales, Ȳ y X̄. Pequeñas diferencias entre ellas apoyan la H0 . El estadı́stico de contraste y su distribución bajo H0 son: (Ȳ − X̄) H0 ∼ t(nX +nY −2) t= q S n1X + n1Y donde S 2 es el estimador de la varianza común utilizando todos los datos: S2 = 2 + (n − 1)σ̂ 2 (nX − 1)σ̂X Y Y nX + nY − 2 El valor muestral del estadı́stico es: tm = r 7, 0995 − 4, 5877 (252 − 1) 2, 52942 + (274 − 1) 4, 16092 252 + 274 − 2 r 1 1 + 252 274 = 8, 278523 Dada H1 , rechazamos H0 si la diferencia (Ȳ − X̄) es grande. La región crı́tica, por tanto, está definida por t > c, siendo c el valor crı́tico. El contrate es a una cola, 8, 278523 > 1, 64 = t(524)| 0,05 luego rechazamos la hipótesis nula para α = 5 %. Ejemplo: contraste de igualdad de varianzas. En el contraste anterior hemos supuesto que las varianzas de ambas distribuciones normales aunque desconocidas, eran iguales. Este supuesto se puede contrastar. Vamos a contrastar si la varianza es la misma en ambas distribuciones frente a 69 Estadı́stica Actuarial: Análisis de Regresión que sea menor para la muestra que recoge los salarios medios por hora en las mujeres. Por tanto, planteamos el contraste de hipótesis: 2 H0 : σY2 = σX frente a 2 H1 : σY2 > σX 2 y σ̂ 2 , que son El procedimiento de contraste consiste en comparar las dos varianzas muestrales, σ̂X Y 2 y σ̂ 2 , o estimadores insesgados de las respectivas varianzas poblacionales. Valores cercanos de σ̂X Y 2 ' 1, apoyan H . El estadı́stico de contraste y su distribución bajo H son: ratios σ̂Y2 /σ̂X 0 0 F = σ̂Y2 H0 2 ∼ F(nY − 1, nX − 1) σ̂X 2 está muy por encima de 1. La región crı́tica, por Dada H1 , rechazamos H0 si el ratio σ̂Y2 /σ̂X 2 > c, siendo c el valor crı́tico. El valor muestral del estadı́stico es: tanto, está definida por σ̂Y2 /σ̂X 4,160862 Fm = 2,529362 = 2, 7061 > 1 = F(273, 251)| 0,05 luego rechazamos H0 para α = 5 %. Ejercicio 3.1 Utilizando los datos de la Tabla 2.2: 1. Calcular un intervalo de confianza 95 % para la media de la distribución. 2. Contrastar H0 : µ = 16, 5 H1 : µ > 16, 5. 3. Contrastar H0 : µ = 17 H1 : µ 6= 17. 70 Estadı́stica Actuarial: Análisis de Regresión 3.6. Bibliografı́a del tema Referencias bibliográficas básicas: • Teórica: [1] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición. [2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadı́stica para administración y economı́a. Prentice Hall. Madrid. [3] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición. [4] Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Fundamentos de inferencia estadı́stica, 3a edición, Editoral AC, Madrid. • Ejercicios con gretl: [1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics with applications, ed. South-Western, 5th edition, Harcourt College Publishers. [2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A modern Approach, ed. South-Western, 2nd edition. Referencias Bibliográficas Complementarias: [1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de regresión con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y − juridicas/analisis − de − regresion − con − greti/Coursel isting). [2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación online de la Facultad de C.C. Económicas y Empresariales. [3] Esteban, M.V. (2007). Estadı́stica Actuarial: Regresión. Material docente. Servicio de Publicaciones. [4] Esteban, MV (2008). Estadı́stica Actuarial: Regresión Lineal, Sarriko On Line 3/08. Publicación on-line de la Facultad de CC. Económicas y Empresariales, UPV/EHU. http://www.sarrikoonline.com. [5] Esteban, M.V. (2007). Colección de ejercicios y exámenes. Material docente. Servicio de Publicaciones. [6] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a. Editorial McGraw-Hill. [7] Greene, W. (1998), Análisis Econométrico, Ed. Prentice Hall, 3a edición. [8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th. edition. [9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley. 71 Estadı́stica Actuarial: Análisis de Regresión 72 Tema 4 Modelo econométrico: introducción En los temas anteriores se ha analizado el comportamiento de una variable, sin relacionarla con otras. En este tema y los dos siguientes vamos a abordar cómo se relacionan las variables entre sı́. De ello se ocupa la Econometrı́a. Ası́, en estos temas aprenderemos a interpretar la información estadı́stica sobre la realidad económica. La importancia de la Econometrı́a va más allá de la disciplina de la economı́a. La Econometrı́a es un conjunto de instrumentos de investigación empleados en finanzas, marketing, dirección de empresas, negocios, historia, sociologı́a incluso agronomı́a. La herramienta básica es un modelo econométrico que conjuga los esquemas teóricos sobre el funcionamiento de la Economı́a con las técnicas estadı́sticas de análisis de datos. Un modelo puede tener una estructura muy compleja, pero nos centramos en el modelo más sencillo, y que da contenido a buena parte de la asignatura, el modelo de regresión lineal general. Este modelo explica el comportamiento de una única variable económica mediante un conjunto de variables. En este tema definiremos la disciplina de la Econometrı́a e introduciremos conceptos relacionados con un modelo econométrico: los datos, las variables, los parámetros, entre otros elementos de un modelo. El desarrollo de la Econometrı́a ha sido enormemente facilitado por el avance en la informática. El curso, con gran componente aplicado necesita complementarse con el aprendizaje de un software econométrico. El paquete econométrico a utilizar es gretl; se trata de software de libre uso, fácil de manejar y que tiene acceso a las bases de datos que se estudian en muchos libros de análisis econométrico. El alumno deberá aprender su manejo, en paralelo con los conceptos estadı́sticos y econométricos, y a interpretar adecuadamente los resultados obtenidos. Competencias a trabajar en estas sesiones: 4. Analizar de forma crı́tica los elementos básicos de los modelos econométricos para comprender la lógica de la modelización econométrica y poder especificar relaciones causales entre variables económicas. Al final de este tema deberı́ais ser capaces de: 1. Distinguir entre un modelo económico y un modelo econométrico. 73 Estadı́stica Actuarial: Análisis de Regresión 2. Conocer las etapas en la realización de un trabajo aplicado. 3. Distinguir los diferentes tipos de datos empleados en el análisis econométrico. 4. Distinguir las diferentes variables implicadas en un modelo econométrico. 5. Distinguir entre parámetros de la relación económica y parámetros de la relación probabilı́stica. 6. Distinguir entre estimador y estimación. 7. En gretl : Leer datos en gretl , tanto archivos de muestra como archivos propios. Introducir datos en gretl y realizar un análisis descriptivo básico. Bibliografı́a Recomendada: Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación: • Gujarati, D. y Porter, D.C. (2010). Introducción. • Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 1. • Ramanathan, R. (2002). Cap. 1. • Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Introducción. • Wooldridge, J.M. (2006). Cap. 1. 74 Estadı́stica Actuarial: Análisis de Regresión ¿Qué es la Econometrı́a? Econometrı́a en sentido estricto significa medida de la economı́a. La Econometrı́a se ocupa de formular, cuantificar y valorar las relaciones entre variables económicas, para ello necesita de otras materias como son la Teorı́a Económica, la Estadı́stica y las Matemáticas. La Econometrı́a se ocupa del estudio de estructuras que permitan analizar caracterı́sticas o propiedades de una variable económica utilizando como causas explicativas otras variables económicas. (Novales, 1993) 4.1. Modelo económico y modelo econométrico Como es sabido la Teorı́a Económica se ocupa del análisis de la economı́a, como consecuencia del mismo formula las relaciones existentes entre las variables económicas objeto de estudio. Sin embargo la teorı́a Económica no se ocupa de cuantificarlas, éste es un cometido especı́fico de la Econometrı́a, que sı́ tiene como objetivo cuantificar las relaciones entre variables. Unido a este objetivo aparece un pilar clave para la Econometrı́a que es la disponibilidad de información cuantificada sobre las variables que son objeto de estudio, en definitiva lo que llamamos datos. Las Matemáticas nos servirán para escribir en términos de ecuaciones las teorı́as económicas objeto de estudio y la Estadı́stica nos proporciona instrumentos para el tratamiento de datos que nos permiten cuantificar las relaciones y valorar los resultados de acuerdo a criterios establecidos. En ocasiones nos encontraremos con problemas especı́ficos para los que la estadı́stica no tiene solución y por ello necesitaremos desarrollar los instrumentos y métodos apropiados para llevar a cabo los objetivos. Resumiendo, podrı́amos decir que los objetivos de la Econometrı́a son: verificación de una teorı́a, estudio del pasado, descripción del presente, predicción del futuro y orientación de la acción polı́tica. Para tratar de entender las relaciones entre la Econometrı́a y las otras materias mencionadas en el apartado anterior vamos a desarrollar un ejemplo. Supongamos que somos el gerente de una empresa y que estamos interesados en la relación existente entre las ventas de un producto de la empresa y su precio, las condiciones de la competencia y el ciclo económico. Un modelo que tiene en cuenta estos supuestos podrı́a ser el siguiente: Vt = f (pt , pct , ct ) (4.1) Siendo V las ventas de la empresa y p el precio del producto, la variable pc es el precio de la competencia y nos sirve para aproximar las condiciones de la competencia. La variable c recoge el momento del ciclo económico y sirve para aproximar las condiciones de mercado. El subı́ndice t denota el tiempo o momento en el que se considera la relación. La ecuación anterior postula que las ventas son función del precio del producto, el precio de la competencia y del ciclo económico. Además la Teorı́a Económica nos dice que la relación entre ventas y precio es inversa, es decir, a mayor precio menores ventas. Sin embargo será positiva con respecto al precio de la competencia ya que si el precio de la competencia sube y el propio se mantiene es lógico que se espere vender más. De igual manera se venderá más en momentos de auge económico que en momentos de depresión por lo que la relación entre las ventas y el ciclo económico también se esperará que sea positiva. 75 Estadı́stica Actuarial: Análisis de Regresión El gerente también dispondrá de información en forma de cifras o datos sobre cuales eran las ventas correspondientes a los diferentes precios que ha podido alcanzar su producto, el precio de la competencia y el momento del ciclo económico, variable que puede aproximarse a una variable cuantitativa que se mueva con el ciclo económico, por ejemplo el Índice de Producción Industrial. Por ahora como gerentes de la empresa disponemos de dos informaciones distintas. Por un lado disponemos de un modelo económico que nos relaciona un conjunto de variables y por otro disponemos de observaciones o datos sobre las mismas para un periodo de tiempo dado. El gerente también dispone de un objetivo que es saber como responden las ventas de su producto a cambios en su precio. Para unir ambos conjuntos de información podemos empezar por dar forma a la función. La elección más sencilla serı́a tomar una relación lineal, que para la ecuación (4.1) determinarı́a el siguiente modelo: Vt = β1 + β2 pt + β3 pct + β4 ct (4.2) Los parámetros o coeficientes de cada variable se representan por β1 , β2 y β3 . El coeficiente β2 le indica al gerente cuanto cambian las ventas si el precio de su producto cambia en una unidad, permaneciendo el resto de variables constantes. Con los datos disponibles, que supongamos son: fecha t enero 80 febrero 80 ventas V 1725 1314 precio p 12,37 11,25 p. competencia pc 11,23 10,75 IPI c 101,7 97,3 podemos relacionar las variables con los valores que han tomado en cada momento siguiendo la ecuación (4.2). Ası́ en enero de 1980 la relación entre las ventas y el resto de variables ha sido: 1725 = β1 + 12, 37β2 + 11, 23β3 + 101, 7β4 Mientras que en febrero de 1980 fue: 1314 = β1 + 11, 25β2 + 10, 75β3 + 97, 3β4 Estas relaciones se repetirı́an para cada mes del que tengamos datos. Como el valor de las variables cambia de un mes a otro, para que las igualdades se cumplan también deben cambiar los valores de los parámetros. Este no es el objetivo del gerente, quién necesita la mejor aproximación posible del valor de las ventas al precio, que resuma toda la información disponible del periodo considerado. Para ello consideraremos que el modelo debe reflejar el comportamiento medio de la relación entre variables manteniéndose la relación entre las variables estable. Para que esto se cumpla y podamos recoger el comportamiento medio incluiremos en el modelo un nuevo elemento al que llamaremos ut . Ası́ el modelo especificado será: Vt = β1 + β2 pt + β3 cpt + β4 ct + ut (4.3) El nuevo elemento deberá ser capaz de mantener la igualdad de la relación para cualquier conjunto de datos, tomando por tanto a veces valores positivos y en otras ocasiones valores negativos; a veces grandes, a veces pequeños. La interpretación del mismo resulta bastante intuitiva: recoge 76 Estadı́stica Actuarial: Análisis de Regresión todos los efectos que afectan a las ventas en cada perı́odo muestral y que no están explı́citamente recogidos en las variables que el modelo contiene. Si el modelo ha recogido todas las influencias “importantes y sistemáticas” que existen sobre las ventas, el nuevo elemento, que en adelante llamaremos perturbación recogerá los efectos no sistemáticos que serán, en general, más erráticos. Por tanto es factible considerar su comportamiento como aleatorio. Ası́ a la perturbación ut se le trata como una variable aleatoria cuya distribución de probabilidad es preciso especificar al mismo tiempo que el resto del modelo. Dado que el modelo recogido por la ecuación (4.3) contiene una variable aleatoria para obtener resultados a partir del mismo necesitaremos de la Estadı́stica. Mediante procedimientos estadı́sticos podremos cuantificar la relación entre las variables, obteniendo valores numéricos para los coeficientes β1 , β2 , β3 y β4 que reflejen la información que contienen los datos. De esta forma el modelo general representado por la ecuación (4.3) que en principio puede servir para analizar el comportamiento de cualquier empresa servirá para contestar a las preguntas que el gerente se hace sobre su propia empresa convirtiéndose en un modelo especı́fico válido para la toma de decisiones. El ejemplo anterior describe una situación muy concreta pero la Econometrı́a es útil en otras muchas situaciones, por ejemplo: • Para analizar el efecto del impacto de cambios en la polı́tica fiscal sobre los indicadores económicos de un paı́s, la demanda interna, los tipos de interés, exportaciones e importaciones, desempleo, grado de morosidad. • Los directivos de la empresa Mercedes pueden estar interesados en los factores que determinan la demanda de automóviles. • Para analizar los efectos de la publicidad en las ventas de una empresa. • Para analizar el impacto en la función de producción de cambios en los factores de producción. • Analizar si la demanda de tabaco se ve afectada por las campañas anti tabaco. • Analizar si las campañas publicitarias contra el consumo de alcohol cuando se conduce reduce el número de siniestros. • Estudiar como afecta el tabaquismo al peso de nacimiento y posterior crecimiento de un bebe. 4.2. Etapas en la elaboración de un modelo econométrico Un estudio econométrico consta de las siguientes etapas, Heij , de Boer, Franses, Kloer y Dijk (2004): • Formulación del problema. Se trata de determinar la cuestión de interés. Debemos plantear de forma precisa las preguntas que nos interesa responder. La teorı́a económica puede ayudarnos a enfocar el problema, a determinar qué variables están involucradas y cuál puede ser la relación entre ellas. 77 Estadı́stica Actuarial: Análisis de Regresión • Recolección de datos estadı́sticos relevantes para el análisis. En el caso del gerente los datos están disponibles en los balances de la propia empresa. Los resultados del análisis van a depender en gran medida de la calidad de los datos. Sin embargo, no siempre es sencillo obtener los datos relevantes para el análisis. Podemos encontrar problemas como la ausencia de algún dato, cambios en la definición de una variable, fallos en el método de recogida, tener una cantidad insuficiente de datos o no disponer de información relativa a una variable. • Formulación y estimación del modelo. En esta fase hay que dar forma al problema inicial en términos de un modelo. Determinar la variable a explicar, en el ejemplo las ventas, y las variables explicativas, en el ejemplo el precio, el precio de la competencia y el ciclo económico; la forma funcional del modelo y la distribución probabilı́stica de la perturbación aleatoria. El siguiente paso es la estimación de los parámetros desconocidos de la distribución y que son de interés para el análisis. La estimación consiste en utilizar los datos y toda la información relevante para aprender algo sobre los parámetros desconocidos. En la interpretación de los resultados de estimación es importante tener en cuenta que no conocemos el valor de los parámetros, por lo que únicamente vamos a hacer afirmaciones del tipo “con un 95 % de confianza, el aumento del impuesto sobre carburantes no afecta al consumo de gasolina”. Existen muchos métodos de estimación. La elección entre uno u otro depende de las propiedades del modelo econométrico seleccionado. Es decir, una mala selección del modelo también influye en la validez de las estimaciones. Un curso introductorio de Econometrı́a, como este, se suele centrar en el estudio del modelo de regresión lineal y su estimación mediante mı́nimos cuadrados ordinarios, que son instrumentos sencillos y muy útiles en la práctica. • Análisis del modelo. Se trata de estudiar si el modelo elegido es adecuado para recoger el comportamiento de los datos. Consiste en una serie de contrastes diagnósticos que valoran si el modelo está correctamente especificado, es decir, si los supuestos realizados son válidos. Si es necesario, se modifica el modelo en base a los resultados obtenidos en los contrastes. • Aplicación del modelo. Una vez obtenido un modelo correcto, se utiliza para responder a las cuestiones de interés y para la predicción. Un modelo correctamente especificado y estimado ha de ser utilizado para predecir. Este concepto implica tanto determinar los valores futuros de la variable endógena como contestar a preguntas del tipo ¿qué pasarı́a sı́...?, en definitiva debe servirnos para dar consejos de polı́tica económica. 4.3. Tipologı́a de datos y variables en Econometrı́a El modelo econométrico genérico completamente especificado tiene la siguiente forma: Yt = β1 + β2 X2t + β3 X3t + . . . + βK XKt + ut t = 1, 2, . . . , T (4.4) Donde Y es la variable a explicar o variable endógena, X2 , X3 , . . ., XK son las variables explicativas, o regresores, del modelo. El subı́ndice que las acompaña indica el número de variables explicativas del modelo, el modelo anterior tiene K-variables explicativas. Los coeficientes βk k = 1, 2, . . . , K son los parámetros a estimar, que se suponen constantes. Además es de interés notar que el parámetro β1 acompaña a la variable explicativa X1 constante e igual a la unidad en todo momento del 78 Estadı́stica Actuarial: Análisis de Regresión tiempo. El subı́ndice t hace referencia al tiempo y por tanto T indica el tamaño de la muestra de observaciones disponible. La diferencia entre un modelo económico y un modelo econométrico es la perturbación aleatoria que incluimos en el modelo econométrico. A partir de este elemento en el modelo econométrico podemos distinguir dos partes la parte sistemática del modelo y la parte aleatoria. La primera corresponde al comportamiento medio o estable de la relación y la segunda se corresponde con la perturbación aleatoria, ut . El objetivo sobre el modelo genérico representado por la ecuación (4.4) es conocer los valores de los parámetros desconocidos βk k = 1, 2, . . . , K. Para llevar a cabo este objetivo utilizaremos métodos estadı́sticos. Para ello al modelo especificado deberemos de añadir hipótesis sobre el comportamiento probabilı́stico de la perturbación aleatoria que caractericen su distribución. En general, supondremos que dicha perturbación tiene una distribución centrada en cero, o sea media cero, lo que implica que el comportamiento medio de la variable a explicar está recogido en su totalidad por la parte sistemática del modelo: E(Yt ) = β1 + β2 X2t + β3 X3t + . . . + βK XKt t = 1, 2, . . . , T (4.5) Además de la media debemos caracterizar también la varianza, covarianzas y distribución de la perturbación. 4.3.1. Conceptos básicos En los puntos anteriores han surgido algunos conceptos que deberı́an quedar claros para poder referirnos a ellos con propiedad. Revisaremos algunos de ellos. • Población y muestra: Población son todos los posibles valores que toma la variable objeto de estudio. La muestra serı́a la parte de la población que vamos a utilizar en el estudio para extraer conclusiones. Por tanto la muestra está contenida en la población y nosotros la utilizaremos para establecer conclusiones que puedan extrapolarse a la población. • Datos: Los datos son los valores numéricos que toman tanto la variable a explicar como las variables explicativas. Generalmente los obtenemos de series estadı́sticas cuyas fuentes pueden ser oficiales o privadas. La importancia de los datos está determinada por la unidad de medida. Los podemos clasificar en: 1. Datos de serie temporal: Reflejan la evolución de una variable a lo largo del tiempo, según esto la variable estará ordenada cronológicamente con un orden lógico. Las variables medidas en series temporales se denotan con el subı́ndice t y este puede referirse a observaciones temporales mensuales, trimestrales, diarias cuatrimestrales, anuales, etc. Ejemplo: el Producto Nacional Bruto (PNB) de 1965-2000. En este caso la población serı́an todos los posibles valores del PNB a lo largo del tiempo y la muestra el perı́odo que vamos a estudiar, de 1965 al 2000. 79 Estadı́stica Actuarial: Análisis de Regresión 2. Datos de sección cruzada o corte transversal: Son datos atemporales dado que miden el comportamiento de una variable en diferentes unidades y en el mismo momento del tiempo. Ejemplo: ventas de las empresas metalúrgicas en el Paı́s Vasco en el año 1999. Esta serı́a la muestra a utilizar y la población estarı́a constituida por todas las unidades. 3. Datos de panel : es la unión de datos de serie temporal y datos de sección cruzada. Están fuera del objetivo del curso. • Variables: Una variable es un ente económico que toma diferentes valores. Podemos distinguir entre variables exógenas, aquellas que inciden en el modelo desde el exterior y variables endógenas, aquellas que queremos explicar con el modelo. A las variables exógenas también se las denomina variables explicativas o independientes y a la variable endógena también se le puede denominar como variable a explicar o dependiente. Además debemos tener en cuenta que podemos encontrarnos con relaciones simultáneas como: Yt = β1 + β2 Yt−1 + ut o como Ct = β1 + β2 Yt + ut Yt = Ct + It donde las variables cambian su papel según miremos a una ecuación u otra. Podemos distinguir, entre otros, los siguientes tipos de variables: 1. - Fijas: aquellas que toman valores que el investigador puede controlar. - Estocásticas: aquellas cuyo valor cambia según una ley de probabilidad. 2. - Cuantitativas: aquellas que podemos valorar numéricamente. Por ejemplo, la renta disponible de una familia, el precio de un bien, la renta per cápita. - Cualitativas: aquellas que miden cualidades y que por lo tanto no se miden con un valor numérico y será el investigador el que se lo asigne según un criterio. Por ejemplo, si un individuo está o no casado, si trabaja en turno de noche o no, si tiene estudios superiores o no. En las variables cualitativas es el investigador el que establece el valor de la variable para cada caracterı́stica. Por ejemplo: ½ 1 si el individuo i es hombre S1i = 0 en caso contrario ½ S2i = 1 si el individuo i es mujer 0 en caso contrario definen dos variables cualitativas S1i y S2i que permiten recoger el sexo del individuo y ver por ejemplo si existe discriminación salarial por sexo en un estudio sobre la función de salario. • Los parámetros: Los parámetros son los valores que permanecen desconocidos del modelo. En un modelo econométrico podemos distinguir dos tipos de parámetros: 80 Estadı́stica Actuarial: Análisis de Regresión 1. Los parámetros de la relación económica: Son las ponderaciones que aplicadas a las variables exógenas nos permiten calcular la endógena. Vt = β1 + β2 pt + β3 cpt + β4 ct + ut (4.6) En el modelo anterior β1 , β2 , β3 y β4 . 2. Los parámetros de la estructura probabilı́stica: son los parámetros que determinan la estructura de la parte aleatoria del modelo, media y varianza de la perturbación aleatoria y de la variable endógena. • Modelo: Hemos visto que un modelo no es más que un conjunto de relaciones entre variables económicas y que representamos mediante relaciones matemáticas. Clasificación de los modelos: 1. - Modelos exactos: aquellos que determinan exactamente el valor de una variable conocido el valor de otra-s: Y = β1 + β2 X - Modelos estocásticos: aquellos que incluyen alguna variable aleatoria: Yt = β1 + β2 Xt + ut u ∼ (m(u), V (u)) 2. - Modelos uniecuacionales: aquellos que se componen de una única ecuación: Ct = β1 + β2 Yt + ut - Modelos multiecuacionales: aquellos que se componen de más de una ecuación. Por ejemplo cuando una variable influye en otra-s y a la vez es influida por éstas: Ct = β1 + β2 Yt + ut Yt = Ct + It 3. - Modelos estáticos: Cuando el tiempo no aparece de forma explı́cita en la ecuación y todas las variables se miden en el mismo momento. - Modelos dinámicos: Aquellos que tienen variables definidas en diferentes momentos del tiempo o el tiempo aparece como variable explı́cita en la ecuación. Un ejemplo de los primeros serı́a: Ct = β1 + β2 Yt + β3 Ct−1 + ut mientras que un ejemplo de los segundos serı́a el siguiente modelo no explı́citamente dinámico, generalmente llamado estático histórico Ct = β1 + β2 Yt + β3 t + ut donde el parámetro c recoge la tendencia de la variable endógena a lo largo del tiempo. 4. - Modelos basados en series temporales: pueden ser dinámicos u estáticos. - Modelos basado en datos de corte transversal: son siempre estáticos. 81 Estadı́stica Actuarial: Análisis de Regresión • Parámetro, estimador y estimación: En el modelo: Yt = β1 + β2 Xt + ut t = 1, 2, . . . , T tenemos diferentes parámetros desconocidos. En la parte aleatoria aparecerı́an los que caracterizan a la distribución probabilı́stica de la perturbación aleatoria y en la parte sistemática aparecen β1 y β2 . Todos son parámetros desconocidos. Los llamaremos parámetros poblacionales ya que lo que nosotros hemos especificado es un modelo general que deberı́a recoger el comportamiento medio de las variables en la población. Para obtener resultados del modelo anterior nosotros lo aplicamos a la muestra, de tamaño T. Nuestro objetivo es determinar el valor de estos parámetros poblacionales desconocidos de la muestra. Para aproximarnos a ese valor utilizamos técnicas estadı́sticas, en concreto estimadores. Un estimador no es más que una fórmula que nos dice como debemos obtener los valores numéricos de β1 y β2 mediante la muestra. Al valor finalmente obtenido en la muestra le llamamos estimación. En concreto la notación matemática para estos conceptos, aplicada al parámetro β2 serı́a: β2 β̂2 0,5 donde por ejemplo: parámetro poblacional estimador estimación PT β̂2 = t=1 (Yt − Ȳ )(Xt − PT 2 t=1 (Xt − X̄) X̄) = 0, 5 Los estimadores van a ser variables aleatorias con distribución a determinar ya los que exigiremos ciertas propiedades que van a determinar esta distribución. • Estructura: Cuando estudiamos la relación entre las variables económicas especificamos un modelo econométrico. En la especificación elegimos la forma funcional del modelo y las variables explicativas a incluir ası́ como las propiedades de la perturbación. Una vez que el modelo está totalmente especificado le estimaremos y tendremos unos valores para los parámetros. A la relación resultante le llamamos estructura. Un modelo especificado serı́a: Yt = β1 + β2 Xt + ut t = 1, 2, . . . , T mientras que una estructura para ese modelo dada una muestra de tamaño T podrı́a ser: Ŷt = 20 + 5Xt Notar que un modelo puede tener diferentes estructuras según los valores que las variables exógena y endógena tomen en la muestra. 4.3.2. Fuentes de datos Encontrar y recopilar datos no es siempre sencillo. En ocasiones es muy costoso coleccionar los datos adecuados a la situación y manejarlos. Sin embargo, esta tarea se ha visto favorecida en los últimos 82 Estadı́stica Actuarial: Análisis de Regresión años por la mejora en la recogida de datos y el hecho de que muchos organismos permiten acceder a sus bases de datos en la World Wide Web. Algunos organismos que publican datos macroeconómicos son: • Instituto Vasco de Estadı́stica (EUSTAT): http://www.eustat.es. • Banco de España: http://www.bde.es → Estadı́sticas. También publica el Boletı́n estadı́stico mensual y el Boletı́n de coyuntura mensual. • Instituto Nacional de Estadı́stica (INE): http://www.ine.es → Inebase o Banco tempus. Están disponibles, por ejemplo, los resultados de la encuesta de población activa, la Contabilidad Nacional o el boletı́n estadı́stico mensual. Además, en enlaces se encuentran otras páginas web de servicios estadı́sticos. • EUROSTAT: Es la Oficina Estadı́stica de la Unión Europea, se encarga de verificar y analizar los datos nacionales recogidos por los Estados Miembros. El papel de Eurostat es consolidar los datos y asegurarse de que son comparables utilizando una metodologı́a homogénea. La información en términos de tablas estadı́sticas, boletines estadı́sticos e informativos, incluso documentos de trabajo papers se puede encontrar en la dirección: http://europa.eu.int/comm/eurostat. • Organización para la Cooperación y Desarrollo Económico (OCDE): http://www.oecd.org, Statistical portal, statistics. Están disponibles algunas series de las publicaciones Main Economic Indicators (mensual) o Comercio internacional. • Fondo Monetario Internacional (FMI): http://www.imf.org. Para obtener datos sobre un amplio conjunto de paı́ses también se puede consultar su publicación Estadı́sticas Financieras Internacionales (mensual y anual). Muchos manuales de Econometrı́a incluyen una base de datos que se analizan en el texto como ilustración a la materia. En este curso utilizaremos principalmente los datos incluidos en Ramanathan (2002) y Wooldridge (2006) que están accesibles como archivos de muestra en gretl. 83 Estadı́stica Actuarial: Análisis de Regresión 4.4. Bibliografı́a del tema Referencias bibliográficas básicas: • Teórica: [1] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición. [2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadı́stica para administración y economı́a. Prentice Hall. Madrid. [3] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición. [4] Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Fundamentos de inferencia estadı́stica, 3a edición, Editorial AC, Madrid. • Ejercicios con gretl: [1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics with applications, ed. South-Western, 5th edition, Harcourt College Publishers. [2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A modern Approach, ed. South-Western, 2nd edition. Referencias Bibliográficas Complementarias: [1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de regresión con gretl. OpenCourseWare. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y − juridicas/analisis − de − regresion − con − greti/Coursel isting). [2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación online de la Facultad de C.C. Económicas y Empresariales. [3] Esteban, M.V. (2007). Estadı́stica Actuarial: Regresión. Material docente. Servicio de Publicaciones. [4] Esteban, MV (2008). Estadı́stica Actuarial: Regresión Lineal, Sarriko On Line 3/08.Publicación on-line de la Facultad de CC. Económicas y Empresariales, UPV/EHU. http://www.sarrikoonline.com. [5] Esteban, M.V. (2007). Colección de ejercicios y exámenes. Material docente. Servicio de Publicaciones. [6] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a. Editorial McGraw-Hill. [7] Greene, W. (1998), Análisis Econométrico, Ed. Prentice Hall, 3a edición. [8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th. edition. [9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley. 84 Tema 5 Modelo de Regresión Lineal General: especificación, estimación y contraste de hipótesis Este es el tema central de la signatura. En él nos ocuparemos de analizar las relaciones entre variables y nuestro objetivo fundamental será explicar el comportamiento de una variable, que llamaremos variable a explicar, mediante un conjunto de variables económicas, que llamaremos explicativas. Modelizaremos la relación entre las variables mediante una ecuación matemática y daremos entrada en la misma a una variable aleatoria que nos permita recoger la aleatoriedad del fenómeno económico. Ası́, aprenderemos a especificar y estimar el Modelo de Regresión Lineal General. El método de estimación que desarrollaremos son los Mı́nimos Cuadrados Ordinarios, MCO, que bajo ciertas hipótesis de comportamiento sobre los distintos elementos del modelo nos proporcionará estimadores con buenas propiedades, lineales, insesgados y de mı́nima varianza. Propiedades que desarrollamos en el Tema 2 y que en este tema buscaremos no solo para el estimador mı́nimo cuadrático sino también para otros estimadores alternativos. Nos ocuparemos en profundidad de que el modelo esté correctamente especificado, es decir de que incluyamos todas las variables necesarias para explicar el comportamiento de la variable objetivo y no incluyamos ninguna innecesaria. Veremos que consecuencias tiene en las propiedades de los estimadores y en la inferencia la omisión de variables relevantes y la inclusión de variables irrelevantes. También analizaremos que problemas nos crea la existencia de combinaciones lineales exactas y/o aproximadas entre las variables a incluir como explicativas en el modelo. Una vez el modelo esté correctamente especificado podremos realizar inferencia. Con los conceptos aprendidos en el Tema 3 desarrollaremos el contraste de restricciones lineales que recojan hipótesis relevantes desde el punto de vista económico dentro del Modelo de Regresión Lineal General. Aprenderemos a contrastar si las variables son relevantes individual y conjuntamente para explicar el comportamiento de la variable objetivo y a hacer contraste de combinaciones lineales, entre otros contrastes de interés. Para finalizar el tema veremos como realizar análisis de regresión y contraste de hipótesis mediante el software gretl. 85 Estadı́stica Actuarial: Análisis de Regresión Competencias a trabajar en estas sesiones: 1. Conocer distintos procedimientos de estimación de parámetros, ası́ como sus propiedades para poder seleccionar adecuadamente la mejor alternativa de análisis. 2. Aplicar la metodologı́a estadı́stica adecuada para el diseño de contrastes de hipótesis para la toma de decisiones en el ámbito profesional. 3. Analizar de forma crı́tica los elementos básicos de los modelos econométricos para comprender la lógica de la modelización econométrica y poder especificar relaciones causales entre variables económicas. 4. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en base a la información estadı́stica disponible sobre variables económicas y utilizando los instrumentos informáticos apropiados. 5. Obtener e interpretar los resultados de un análisis estadı́stico de datos económicos haciendo uso de las fuentes de información apropiadas y de los instrumentos informáticos necesarios. 6. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obtenidas en un caso de estudio particular. Al final de este tema deberı́ais ser capaces de: 1. Explicar y entender el alcance de las hipótesis básicas sobre el comportamiento del modelo de regresión lineal general. 2. Interpretar los parámetros de un modelo. 3. Aplicar el estimador de Mı́nimos Cuadrados Ordinarios, MCO. 4. Distinguir entre la perturbación y el residuo u error de estimación. Conocer las distribuciones respectivas. 5. Conocer y saber demostrar las propiedades del estimador de MCO. 6. Conocer las implicaciones de tener combinaciones lineales exactas entre las variables explicativas del modelo. 7. Conocer las implicaciones de tener combinaciones lineales aproximadas entre las variables explicativas del modelo. 8. Conocer las consecuencias de una mala especificación del modelo omitiendo variables explicativas relevantes. 9. Conocer las consecuencias de una mala especificación del modelo incluyendo variables explicativas irrelevantes. 10. Saber especificar correctamente modelos que incluyan variables cualitativas. 86 Estadı́stica Actuarial: Análisis de Regresión 11. Saber derivar la distribución del estimador de MCO. 12. Saber contrastar hipótesis relevantes para la relación económica de las variables. Bibliografı́a Recomendada: Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación: • Gujarati, D. y Porter, D.C. (2010). En Parte I: Caps. 1, 2, 3, 4, 5, 7, 8 y 9. Parte II: Cap. 10. • Newbold, P., Carlson, W.L. y Thorne, B. (2008). Caps. 12, 13 y 14. • Ramanathan, R. (2002). Caps. 3, 4, 5 y 7. • Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Caps. 4, 5, 6, y 7. • Wooldridge, J.M. (2006). Caps. 2, 3, 4 y 7 87 Estadı́stica Actuarial: Análisis de Regresión 5.1. Especificación del Modelo de Regresión Lineal General (MRLG): supuestos básicos En Economı́a, en muchas situaciones, varias variables independientes influyen conjuntamente en una variable dependiente. El modelo de regresión múltiple permite averiguar el efecto simultáneo de varias variables independientes en una variable dependiente. Por ejemplo: • El salario es una función del nivel de estudios, la experiencia, la edad y el puesto de trabajo. • El precio de un piso es función, entre otras caracterı́sticas, de su superficie, número de habitaciones y baños, localización y la existencia o no de ascensor. • La cantidad vendida de un bien depende de su precio, del precio de la competencia y del ciclo económico entre otras variables. • La producción de una empresa depende de los factores de producción, capital y fuerza de trabajo. La especificación de un modelo consiste en seleccionar las variables independientes que explican a la variable objeto de estudio y determinar la forma funcional del mismo. Vamos a comenzar el análisis de regresión determinando nuestro objetivo y los recursos disponibles para lograrlo. Objetivo: Cuantificar la relación existente entre una variable dependiente a la que denotaremos por Y , y un conjunto de K variables independientes, X1 , X2 , . . . , XK mediante la especificación de un modelo lineal. Recursos disponibles: Se dispone de una muestra de observaciones de las variables Y, X1 , X2 , . . . , XK de tamaño N , que es el número de observaciones disponibles sobre todas las variables. Se denota: Yi = observación i-ésima de Y Xki = observación i-ésima de Xk ∀k = 1, . . . , K donde Xki es una observación de las disponibles en la muestra i = 1, 2, . . . , N . Modelo de Regresión lineal General (MRLG). Modelización El Modelo de Regresión Lineal General se escribe: Yi = β1 X1i + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N donde habitualmente X1i = 1 ∀i, de forma que β1 es un término independiente y entonces, Yi = β1 + β2 X2i + . . . + βK XKi + ui 88 i = 1, 2, . . . , N. Estadı́stica Actuarial: Análisis de Regresión Elementos del MRLG • Y es la variable a explicar, variable dependiente o endógena. • Xk k = 1, . . . , K son las K variables explicativas, variables independientes o exógenas. • βk k = 1, . . . , K son los coeficientes de la regresión o parámetros (desconocidos). • u es la perturbación aleatoria o término de error. • el subı́ndice i denota la observación correspondiente. El subı́ndice i se utiliza cuando tenemos observaciones de sección cruzada y el subı́ndice t cuando tenemos observaciones de serie temporal. • N es el tamaño muestral, el número de observaciones disponibles de las variables objeto de estudio. Cuando trabajamos con datos de serie temporal el tamaño muestral se denota por T . La perturbación aleatoria ui es una variable aleatoria no observable que pretende recoger: • Variables no incluidas en el modelo. • Comportamiento aleatorio de los agentes económicos. • Errores de medida. Representación del MRLG en forma matricial El modelo Yi = β1 + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N (5.1) puede escribirse para todas las observaciones disponibles como el siguiente sistema de N ecuaciones:                    Y1 Y2 .. . = = β1 + β2 X21 + β3 X31 + . . . + βK XK1 + u1 β1 + β2 X22 + β3 X32 + . . . + βK XK2 + u2 .. . i=1 i=2 Yi .. . = β1 + β2 X2i + β3 X3i + . . . + βK XKi + ui .. . i=i YN = β1 + β2 X2N + β3 X3N + . . . + βK XKN + uN i=N o bien en forma matricial como = Y (N × 1) donde      = Y   (N × 1)   Y1 Y2 .. . Yi .. . YN                = X   (N × K)   1 1 .. . 1 .. . 1 X21 X22 .. . X2i .. . X2N X β + (N × K) (K × 1) X31 X32 .. . X3i .. . X3N ··· ··· ··· ··· 89 XK1 XK2 .. . XKi .. . XKN u (N × 1)           = β    (K × 1)    β1 β2 β3 .. . βK             = u   (N × 1)   u1 u2 .. . ui .. . uN           Estadı́stica Actuarial: Análisis de Regresión 5.1.1. Hipótesis básicas. El modelo debe completarse con la especificación de las propiedades estocásticas de la variable de interés Y . A partir de las propiedades de Y es posible conocer las propiedades de los distintos métodos de estimación, elegir el mejor estimador en el modelo, realizar contrastes, etc. Las condiciones bajo las cuales vamos a trabajar en un principio se denominan hipótesis básicas. Bajo estas hipótesis estimaremos y analizaremos el modelo para, finalmente, predecir Y . En una segunda etapa, podemos considerar otras situaciones, relajando algunas de estas hipótesis, analizando si los procedimientos de estimación y contraste anteriores siguen siendo válidos. Las hipótesis básicas se refieren a los distintos elementos de la regresión. 1. Hipótesis sobre la perturbación aleatoria • La perturbación ui tiene media cero para todo i, E(ui ) = 0 ∀i. La perturbación mide las diferencias con respecto a un promedio, ui = Yi − E(Yi ) y a priori no tenemos razones para suponer que todas las desviaciones están por encima o por debajo de ese promedio, por ello parece lógico pensar que en media las desviaciones son cero. Para la perturbación en i lo escribimos como E(ui ) = 0 ∀i, cuando miramos al modelo en forma matricial escribimos esta hipótesis como E(u) = ~0:    E(u) = E   u1 u2 .. .       =   uN E(u1 ) E(u2 ) .. . E(uN )       =   0 0 .. .    ~ =0  0 • E(u2i ) = σu2 ∀i es decir la varianza de la perturbación es desconocida e igual a σ 2 para todas las observaciones. Estamos suponiendo igual dispersión o variabilidad. A esta hipótesis se le conoce con el nombre de Homocedasticidad : V (ui ) = E(ui − E(ui ))2 = E(u2i ) = σ 2 E(u21 ) = E(u22 ) = E(u23 ) = . . . = E(u2N ) = σ 2 El caso contrario, cuando la dispersión varı́a a lo largo de la muestra se denomina Heterocedasticidad : E(u2i ) = σi2 . La Figura 5.1 ilustra ambas situaciones: Hay que notar que generalmente σ 2 será desconocida y por tanto en el modelo tendremos que estimar (K + 1) incógnitas, los k-coeficientes poblacionales desconocidos más la varianza poblacional de la perturbación σ 2 . • E(ui uj ) = 0 es cero. ∀i, j i 6= j. La covarianza entre perturbaciones de distintas observaciones Cov(ui , uj ) = E(ui − E(ui ))(uj − E(uj )) = E(ui uj ) = 0 ∀i, j 90 i 6= j Estadı́stica Actuarial: Análisis de Regresión f f ( u ( u ) ) Y Y X X α +β X 1 X X 6 α+β 6 1 2 X 2 X X 6 6 X X Figura 5.1: Perturbaciones homocedásticas versus heterocedásticas E(u1 u2 ) = E(u1 u3 ) = E(u4 u20 ) = 0 A esta hipótesis también se la llama hipótesis de No Autocorrelación. Uniendo la hipótesis de homocedasticidad y la hipótesis de no autocorrelación podemos describir la matriz de varianzas y covarianzas de la perturbación. E(uu0 ) = σ 2 IN    E(uu ) = E   0 u1 u2 .. .   £  ¤ 0 0 0    u1 u2 . . . uN = E      =E  u21 u2 u01 .. . u1 u02 u22 ... uN u01 uN u02    =  u1 u02 u2 u02 .. . ... ... .. . u1 u0N u2 u0N .. .    =  uN u01 uN u02 . . . uN u0N uN  u1 u01 u2 u01 .. . . . . u1 u0N . . . u2 u0N .. .. . . . . . u2N       =   σ2 0 0 . . . 0 0 σ2 0 . . . 0 .. .. .. . . . . .. . . . 0 0 0 . . . σ2  E(u21 ) E(u2 u01 ) .. . . . . E(u1 u0N ) . . . E(u2 u0N ) .. .. . . E(uN u01 ) E(uN u02 ) . . . E(u2N )       = σ2    E(u1 u02 ) E(u22 ) .. .    =   1 0 0 ... 0 0 1 0 ... 0   2 .. .. .. . . ..  = σ IN . .  . . . 0 0 0 ... 1 A la hipótesis que reconoce que las varianzas de la perturbación no son constantes en el tiempo o las observaciones se le conoce como hipótesis de Heterocedasticidad. A la hipótesis que reconoce que las covarianzas entre perturbaciones de distinto momento del tiempo, o entre distintas observaciones, son distintas de cero se le conoce con el nombre de Autocorrelación. 91 Estadı́stica Actuarial: Análisis de Regresión • Las perturbaciones siguen una distribución normal. Si definimos la perturbación aleatoria como la suma de errores independientes entre sı́, a través del Teorema Central del Lı́mite podremos suponer una distribución normal y escribir esta hipótesis junto con las anteriores como: u ∼ N ID(0, σ 2 IN ) donde estamos escribiendo la distribución del vector de perturbaciones u y decimos que las perturbaciones siguen una distribución normal, idéntica e independientemente distribuidas, de media cero y varianza constante igual a σ 2 . Son independientes dado que su covarianza es cero y dado que todas tienen igual varianza y covarianza su distribución es idéntica, por ello para una perturbación en i escribimos su distribución como ui ∼ N (0, σ 2 ). Estas propiedades pueden también escribirse conjuntamente como ui ∼ N ID(0, σu2 ) ∀i = 1, . . . , N ó en forma matricial, ∼ N ( 0N u (N × 1) , σu2 IN ) (N × 1) (N × N ) 2. Hipótesis sobre las variables exógenas X. • Las variables explicativas son variables no aleatorias (no estocásticas o fijas). Esto quiere decir que cuando digamos que cambiamos la muestra los valores de las variables exógenas no cambian y sólo cambian los valores de la variable endógena Yi . Como consecuencia de que las variables exógenas sean fijas tendremos que son incorrelacionadas con las perturbaciones: E(X 0 u) = X 0 E(u) = 0 • La matriz X es de rango completo e igual a K con K < N , rg(X) = K, es decir no hay ninguna combinación lineal exacta entre las columnas de X, son todas linealmente independientes con lo que el rango de la matriz es igual al número de coeficientes desconocido ya que en X tenemos una columna por parámetro. A esta hipótesis se le conoce con el nombre de No Multicolinealidad. El que además exijamos que K < N es porque necesitamos tener más observaciones que coeficientes a estimar en el modelo. 3. Hipótesis sobre la forma funcional. • Linealidad en los coeficientes. • Modelo correctamente especificado. Todas las variables X1 , X2 , . . . , XK explican Y y no hay ninguna otra de fuera del modelo que explique a Y . 4. Los coeficientes permanecen constantes a lo largo de toda la muestra. 92 Estadı́stica Actuarial: Análisis de Regresión 5.2. Forma funcional. Interpretación de los coeficientes. Dados los supuestos básicos del MRLG, E(Yi ) = E(β1 + β2 X2i + . . . + βK XKi + ui ) = β1 + β2 X2i + . . . + βK XKi + E(ui ) = | {z } =0 = β1 + β2 X2i + . . . + βK XKi . A E(Yi ) se la denomina Función de Regresión Poblacional (FRP) y sus coeficientes, pueden interpretarse como: • β1 = E(Yi |X2i = . . . = XKi = 0). Valor medio o esperado de Yi cuando las variables explicativas son todas cero. ∂E(Yi ) ∆E(Y ) • βk = = ∆X i ∀k = 2, . . . , K. Incremento (o decremento) en el valor esperado de ∂Xki ki Yi cuando la variable explicativa Xk se incrementa en una unidad, manteniéndose constantes el resto de las variables. Un aumento unitario en la variable explicativa Xk conlleva un aumento medio de βk unidades en la variable endógena, ceteris paribus. Ejemplo 5.1 Se propone la siguiente especificación de la función de consumo agregada para estudiar la relación en Estados Unidos en el periodo 1960-2005 entre el consumo personal, GCP, y el ingreso, PIB, ambos en miles de millones de dólares: GCPt = β1 + β2 P IBt + ut β2 recoge el incremento esperado en el consumo personal por unidad de incremento en el P IB. Además tiene interpretación económica ya que es la propensión marginal a consumir que según la teorı́a keynesiana esta limitada entre 0 y 1. β1 es el valor esperado del consumo cuando el valor del P IB es cero. Ejemplo 5.2 Se dispone de una base de datos para 51 estados de E.E.U.U. sobre el gasto agregado en transporte urbano (EXP T RAV ) y la renta disponible agregada (IN COM E) correspondientes al año 19931 . Las variables que se consideran son: 1 Fuente: Statistical Abstract of U.S. (1995), recogida en Ramanthan, Ramu (2002) Introductory econometrics with applications. Fichero de datos data8-2.gdt. 93 Estadı́stica Actuarial: Análisis de Regresión EXPTRAV = Gasto agregado en transporte urbano, en billones de dólares, (Rango 0,708 - 42,48). INCOME = Renta disponible agregada, en billones de dólares, (Rango 9,3 - 683,5). Un modelo para analizar si la renta disponible agregada explica el gasto agregado en transporte urbano es el siguiente2 : EXP T RAVi = β1 + β2 IN COM Ei + ui i = 1, . . . , 51 (5.2) El parámetro β1 recoge el valor esperado del gasto en transporte cuando la renta es cero, β1 = E(EXP T RAV |IN COM E = 0). La pendiente β2 recoge el incremento en el valor esperado del gasto en transporte cuando la renta se incrementa en una unidad, es este T RAV ) caso cuando se incrementa en un billón de dólares, β2 = ∂E(EXP ∂IN COM E . Esperarı́amos signo positivo. Ejemplo 5.3 Estamos interesados en explicar el precio de una vivienda, en miles de dólares (PRICE), mediante las variables explicativas: el tamaño de la casa o el número de pies cuadrados del área habitable (SQFT), el número de habitaciones (BEDRMS) y el número de baños (BATHS). Formulamos el modelo de regresión lineal múltiple: P RICEi = β1 + β2 SQF Ti + β3 BEDRM Si + β4 BAT HSi + ui i = 1, 2, . . . , N (5.3) Interpretación de los coeficientes: • El coeficiente β1 = E(P RICEi |SQF Ti = BEDRM Si = BAT HSi = 0) es el valor medio esperado de aquellas viviendas que no tienen ningún pie cuadrado de área habitable, ni habitaciones ni baños. RICEi ) • El coeficiente β2 = ∂E(P ∂SQF Ti , mide el incremento en el valor esperado del precio de una vivienda cuando su superficie se incrementa en un pie cuadrado, manteniéndose el resto de variables constante. Luego, considerando dos casas con el mismo número de habitaciones y de baños, para aquella casa que tenga un pie cuadrado más de área habitable se espera que cambie en media su precio de venta en β2 miles de dólares. RICEi ) • El coeficiente β3 = ∂E(P ∂BEDRM Si , mide el incremento en el valor esperado del precio de una vivienda cuando el número de habitaciones de la misma se incrementa en una unidad, manteniéndose el resto de variables constante. Considerando dos casas con el mismo número de pies cuadrados de área habitable y número de baños, para aquella casa que tenga una habitación más se espera que cambie en media su precio de venta en β3 miles de dólares. RICEi ) • El coeficiente β4 = ∂E(P ∂BAT HSi , mide el incremento en el valor esperado del precio de una vivienda cuando el número de habitaciones de la misma se incrementa en 2 Son datos de sección cruzada luego utilizamos el subı́ndice i = 1, . . . , N . 94 Estadı́stica Actuarial: Análisis de Regresión una unidad, manteniéndose el resto de variables constante. Considerando dos casas con el mismo número de pies cuadrados de área habitable y número de habitaciones, para aquella casa que tenga un baño más se espera que cambie en media su precio de venta en β4 miles de dólares. Ejemplo 5.4 Se especifica la siguiente función de salarios en el año 2002: Wi = β1 + β2 S2i + ui i = 1, 2, . . . N donde Wi es el salario anual del individuo i y S2i es una variable ficticia que se define: ½ S2i = 1 si el individuo i es mujer 0 en caso contrario La interpretación de los coeficientes de regresión del modelo es la siguiente: • β1 = E(Wi |S2i = 0) luego es el salario esperado cuando el individuo es hombre. Esperarı́amos signo positivo. • E(Wi |S2i = 1) = β1 + β2 es el salario esperado de una mujer. Luego β2 es el incremento o decremento en el salario esperado para un individuo por el hecho de ser mujer. Por tanto β2 recoge el efecto diferencial en el salario esperado entre hombres y mujeres. Si es cierto que existe discriminación salarial por sexo esperarı́amos que tuviera signo negativo. De la misma forma si no existiera discriminación salarial por sexo, es decir si hombres y mujeres tuvieran el mismo salario, su valor serı́a cero. Ejemplo 5.5 Se especifica la siguiente función de salarios en el año 2002: Wi = β1 + β2 S2i + β3 Xi + ui i = 1, 2, . . . N donde Wi es el salario anual del individuo i, Xi son los años de experiencia del individuo i y S2i es una variable ficticia que se define: ½ S2i = 1 si el individuo i es mujer 0 en caso contrario La interpretación de los coeficientes de regresión del modelo es la siguiente: • β1 = E(Wi |S2i = Xi = 0) luego es el salario esperado cuando el individuo es hombre y no tiene experiencia. Esperarı́amos signo positivo. 95 Estadı́stica Actuarial: Análisis de Regresión • E(Wi |S2i = 1, Xi = 0) = β1 +β2 luego β2 es el incremento o decremento en el salario esperado para un individuo cuando no tiene experiencia por el hecho de ser mujer. Por tanto β2 recoge el efecto diferencial en el salario esperado entre hombres y mujeres con igual experiencia laboral. Si es cierto que existe discriminación salarial por sexo esperarı́amos que tuviera signo negativo. De la misma forma, si no existiera discriminación salarial por sexo su valor serı́a cero. i) • β3 = ∂E(W es el incremento en el salario esperado del individuo i cuando la ∂Xi experiencia se incrementa en un año. Es independiente del sexo del individuo i luego es el mismo para hombres y mujeres. Esperarı́amos signo positivo, a mayor experiencia mayor remuneración. Ejemplo 5.6 Se especifica la siguiente función de ventas de una empresa para el perı́odo de Enero de 1978 a Diciembre de 2002: Vt = β1 + β2 D2t + β3 D3t + β4 D4t + ut t = 1, 2, . . . T donde Vt son las ventas de la empresa en el momento t y las variables Djt son variables ficticias que se definen: ½ 1 si la observación t pertenece al trimestre j j = 2, 3, 4 Djt = 0 en caso contrario La interpretación de los coeficientes de regresión del modelo es la siguiente: • E(Vt |D2t = D3t = D4t = 0) = β1 es el valor esperado de las ventas en el primer trimestre. • E(Vt |D2t = 1; D3t = D4t = 0) = β1 + β2 es el valor esperado de las ventas en el segundo trimestre. Luego β2 es el diferencial entre las ventas esperadas en el segundo trimestre y el primer trimestre. • E(Vt |D3t = 1; D2t = D4t = 0) = β1 + β3 es el valor esperado de las ventas en el tercer trimestre. Luego β3 es el diferencial entre las ventas esperadas en el tercer trimestre y el primer trimestre. • E(Vt |D2t = D3t = 0; D4t = 1) = β1 + β4 es el valor esperado de las ventas en el segundo trimestre. Luego β4 es el diferencial entre las ventas esperadas en el cuarto trimestre y el primer trimestre. Ejemplo 5.7 En este ejemplo vamos a analizar los determinantes de la oferta laboral de las mujeres casadas3 . Para ello vamos a utilizar el archivo mroz87.gdt incluido en el programa gretl, 3 Fichero mrox87.gdt, disponible en gretl pestaña Gretl. Fuente:“The Sensitivity of an Empirical Model of Married Women’s Hours of Work to Economic and Statistical Assumptions”, Econometrica 55, 765-799. 96 Estadı́stica Actuarial: Análisis de Regresión en la carpeta de archivos de muestra “Gretl”. En él se dispone de observaciones de las siguientes variables, entre otras4 : • LF P : Variable ficticia que toma valor 1 si la mujer ha trabajado en 1975 y cero en otro caso • HOU RS: Número de horas trabajadas por la esposa en 1975, (W HRS). • KL6: Número de hijos menores de seis años, en la familia. • K618: Número de hijos entre seis y dieciocho años, en la familia. • AGE: Edad de la esposa, (W A). • EDU C: Años de educación recibidos por la esposa, (W E). • W AGE: Salario de la esposa en el momento de la encuesta, 1976, (RP W G). • F AM IN C: Renta familiar en dólares de 1975. • EXP ER: Años de experiencia en la actualidad, (AX). Se trata de una muestra de sección cruzada con 428 observaciones de mujeres trabajadoras donde el término trabajadoras implica que tienen un salario monetario. Con la muestra anterior creamos las siguientes variables: l W AGEi = ln(W AGE)i , sq EXP ERi = EXP ERi2 , N W IF EIN Ci = F AM IN Ci − (W AGEi × HOU RSi ) Dado nuestro objetivo de estudiar los determinantes de la oferta laboral de la población femenina casada, la variable a estudiar es HOU RS. Como determinantes de la misma podemos pensar en incluir en el modelo el salario en logaritmos, l W AGE, los años de educación recibidos, EDU C, la edad, AGE, el número de hijos de la familia, KL6 y K618, y la variable N W IF EIN C, que de alguna manera mide la importancia de las rentas familiares que no dependen de los ingresos de la esposa. Ası́, el modelo a estimar serı́a: HOU RSi = β1 + β2 l W AGEi + β3 EDU Ci + β4 AGEi + β5 KL6i + β6 K618i + β7 N W IF EIN Ci + ui (5.4) A priori esperarı́amos que los coeficientes de las variables l W AGE, EDU C y K618 fuesen positivos, ceteris paribus. Es de esperar que si se tiene un sueldo alto la estimulación a seguir trabajando sea mayor. También es lógico pensar que cuando la preparación (estudios) es mayor, se tenga un empleo mejor y mejor remunerado, luego es más probable que la mujer trabaje fuera de casa. Familias con mayor número de hijos necesitan de una mayor renta, por lo que es probable que la esposa decida trabajar. Por otro lado, cuando hay niños pequeños podemos pensar que la esposa se retire del mercado de trabajo para 4 Algunas de las variables han sido renombradas para que el ejercicio resulte más cómodo. Entre paréntesis aparece el nombre original utilizado en el fichero para que las podáis reconocer fácilmente. 97 Estadı́stica Actuarial: Análisis de Regresión cuidarlos, por lo que esperarı́amos un signo negativo en el coeficiente que acompaña a KL6 manteniendo el resto de factores constante. A mayor edad, también es posible que no se quiera trabajar fuera de casa, por lo que, esperamos signo negativo para la variable AGE ceteris paribus. Finalmente, manteniendo el resto de factores constantes también esperarı́amos signo negativo para el coeficiente de la variable N W IF EIN C ya que, si la renta disponible que no depende de la remuneración de la mujer es alta, es probable que eso desincentive a trabajar fuera de casa a la esposa. Es importante tener en cuenta la fecha de la recogida de datos, 1975, cuando todavı́a la participación en el mercado de trabajo de la mujer no estaba consolidada. Algunas consideraciones sobre la linealidad en parámetros Cuando decimos que el MRLG es un modelo lineal queremos decir que Y o alguna transformación de Y es lineal en las X o en alguna transformación lineal de las X. Hay dos tipos de linealidad, linealidad en variables y linealidad en parámetros. Nosotros estamos interesados en la linealidad en parámetros: es decir las derivadas con respecto a los coeficientes desconocidos son una función lineal sólo de las X. βk = ∂E(Yi ) ∂Xki k = 1, 2, . . . , K El modelo lineal más sencillo es el Modelo de Regresión Lineal Simple donde la variable endógena Y queda explicada por una única variable exógena X Yi = β1 + β2 Xi + ui i = 1, 2, . . . , N De igual forma es lineal el Modelo de Regresión Lineal General donde la variable endógena Y se explica con un conjunto de k-variables explicativas (X1i , X2i , . . . , XKi ) Yi = β1 + β2 X2i + β3 X3i + . . . + βK XKi + ui i = 1, 2, . . . , N Dado que estamos interesados sólo en la linealidad en parámetros también serán considerados lineales los siguientes modelos: 1 + u −→ Y = β + β Z + u Yi = β1 + β2 X i i 1 2 i i i con Zi = 1/Xi Yi = β1 + β2 Xi2 + ui −→ Yi = β1 + β2 Wi + ui con Wi = Xi2 que son lineales en parámetros según lo dicho anteriormente aunque no lo sean en variables. Ahora bien, existen otras relaciones que aunque en principio no son lineales pueden transformarse en lineales y por tanto son perfectamente estimables en nuestros términos. Por ejemplo: 1. Sea el siguiente modelo: Xi = AB Yi ui podemos transformar el modelo en lineal en parámetros tomado logaritmos y obtener: Yi = β1 + β2 LnXi + ui donde β2 = (LnB)−1 LnA y β1 = ( LnB ) (5.5) a esta transformación se le llama semilogarı́tmica. 98 Estadı́stica Actuarial: Análisis de Regresión 2. Sea el modelo: Yi = AXiB ui −→ LnYi = β1 + β2 LnXi + ui (5.6) donde β1 = LnA, a esta transformación se le llama doblemente logarı́tmica. Ejemplo 5.8 Un ejemplo especı́fico de esta última transformación es la función Cobb-Douglas de la teorı́a de producción. La función de producción Cobb-Douglas, en su forma estocástica, se expresa como: Qt = A Lβt 2 Ktβ3 eut De la ecuación anterior se deduce que la relación entre la producción y los factores capital y trabajo es claramente no lineal. Sin embargo, podemos transformar el modelo tomando logaritmos y obtener la siguiente relación lineal en los parámetros β1 , β2 y β3 : Qt = ALtβ2 Ktβ3 eut −→ LnQt = β1 + β2 LnLt + β3 LnKt + ut (5.7) siendo β1 = LnA. Una ventaja de este tipo de modelos como el recogido en la ecuación (5.7), en los que todas las variables están medidas en logaritmos, es que los parámetros de pendiente además de recibir la interpretación habitual pueden interpretarse en términos de elasticidades: β2 = ∂E(Qt ) Lt ∂E(LnQt ) = ∂LnLt ∂Lt Qt β3 = ∂E(LnQt ) ∂E(Qt ) Kt = ∂LnKt ∂Kt Qt Es decir βk k = 2, 3, miden el cambio porcentual o elasticidad (parcial) generado en la variable endógena como consecuencia de un cambio porcentual (un 1 %) en la variable exógena correspondiente, ceteris paribus. En el ejemplo anterior β2 y β3 representan las elasticidades de la función de producción con respecto a los factores de producción trabajo y capital respectivamente. Por otro lado la suma (β2 + β3 ) da información sobre los rendimientos a escala , es decir, la respuesta de la producción a un cambio proporcional en los factores de producción. Si la suma es 1 existen rendimientos constantes a escala, al duplicar los factores de producción se duplica la producción. Si la suma es menor que 1 existen rendimientos decrecientes a escala, al duplicar los factores de producción ésta crece menos del doble. Si la suma es mayor que 1 existen rendimientos crecientes a escala, al duplicar los factores de producción ésta crece más del doble. Es importante notar que para la ecuación (5.5) la interpretación de los parámetros como elasticidades no es posible ya que al no estar la variable Yi en logaritmos: β= ∂E(Yi ) ∂E(Yi ) = Xi ∂LnXi ∂Xi 99 Estadı́stica Actuarial: Análisis de Regresión 5.3. Estimación por Mı́nimos Cuadrados Ordinarios (MCO) • Nuestro objetivo es estimar los parámetros desconocidos βk , Yi = β1 + β2 X2i + . . . + βK XKi + ui Y = Xβ + u k = 1, . . . , K de i = 1, 2, . . . , N en forma matricial. A los parámetros estimados los denotamos β̂k y la estimación del modelo es Ŷt = β̂1 + β̂2 X2i + . . . + β̂K XKi Ŷ = X β̂ i = 1, 2, . . . , N en forma matricial, a la cual denominamos Función de Regresión Muestral (FRM). • Elementos adicionales • La perturbación del modelo recoge todo aquello que no ha sido explicado por la parte sistemática del modelo y se obtiene como la diferencia entre la variable a explicar y la recta de regresión poblacional: ui = Yi − E(Yi ) i = 1, 2, . . . , N u = Y − Xβ en forma matricial. • El residuo mide el error cometido al estimar la variable endógena y se define como la diferencia entre la variable a explicar y la recta de regresión muestral5 : ûi = Yi − Ŷi = Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi û = Y − Ŷ = Y − X β̂ i = 1, 2, . . . , N en forma matricial. Este error proviene de dos fuentes: la primera, por el hecho de no poder obtener los valores de la perturbación (ui ) y la segunda se debe a que la estimación de los coeficientes desconocidos βk k = 1, . . . , K introduce un error adicional. Es importante, por tanto, diferenciar y no confundir el residuo con la perturbación. • Representación gráfica: Cuando K = 2 el modelo se escribe Yi = β1 + β2 Xi + ui y se denomina Modelo de Regresión Lineal Simple (MRLS). Entonces, la relación entre la FRM, FRP, residuos y perturbaciones puede visualizarse en la Figura 5.2. En el Gráfico 5.2 la función de regresión poblacional está trazada en color negro ası́ como los coeficientes poblacionales, la ordenada (β1 ) y la pendiente (β2 ). Podemos ver que el valor Yi se 5 Los residuos son a la FRM lo que las perturbaciones a la FRP. Sin embargo, no son buenos estimadores de las mismas (al menos, no si la muestra es pequeña) porque no tienen las mismas propiedades, se puede ver en el Anexo 3 incluido en el Apéndice del Tema. 100 Estadı́stica Actuarial: Análisis de Regresión Yi 6 (Y1 , X1 ) Y1 6 û β̂1 + β̂2 X1 = Ŷ1 ? 1 β1 β̂1 Ŷi = β̂1 + β̂2 Xi 6 ?u1 6 β1 + β2 X1 E(Yi ) = β1 + β2 Xi ? - β2 β̂2 X1 Xi Figura 5.2: Función de regresión poblacional y función de regresión muestral obtiene como la suma del valor que toma la parte sistemática β1 + β2 Xi (situada sobre la FRP) y del valor que toma la perturbación ui , esto es, Yi = β1 + β2 Xi + ui . La función de regresión muestral y los coeficientes estimados (β̂1 y β̂2 ) están representados en color rojo. La diferencia entre la FRP y la FRM se debe a los errores que se cometen en la estimación de los coeficientes de la regresión (β̂1 6= β1 , β̂2 6= β2 ). Basándonos en la FRM podemos obtener el valor del punto Yi como la suma del valor estimado de la parte sistemática Ŷi = β̂1 + β̂2 Xi (situado sobre la FRM) y del valor que toma el residuo ûi , esto es, Yi = Ŷi + ûi . 5.3.1. Método de estimación de Mı́nimos Cuadrados Ordinarios (MCO) El objetivo es obtener un vector de estimadores de los parámetros ó coeficientes β1 , . . . , βK , para el cual buscamos K estimadores respectivamente. Un estimador es una fórmula que, aplicada a los datos, da como resultado un valor numérico. Al valor numérico calculado a partir de un estimador y de una muestra dada, lo denominamos estimación. A ambos los denotamos β̂, el cual puede ser, consecuentemente, un vector de estimadores o de estimaciones, según nos estemos refiriendo a la fórmula o a los valores numéricos resultantes. Pero no son lo mismo. Necesitamos un criterio de estimación, que dados el modelo y la muestra nos permita obtener la función de regresión muestral. Proponemos el criterio de estimación mı́nimo cuadrático ordinario por su sencillez y buenas propiedades, que demostraremos más adelante. El criterio de estimación Mı́nimo Cuadrático Ordinario (MCO) se expresa: mı́n β̂ N X i=1 û2i = mı́n β̂ N X (Yi − Ŷi )2 i=1 A continuación buscaremos la expresión de los estimadores mı́nimo cuadráticos obtenidos como resultado de aplicar el criterio MCO al modelo de regresión lineal general. 101 Estadı́stica Actuarial: Análisis de Regresión • Estimador MCO del MRLG Criterio: N X mı́n β̂1 ,...,β̂K i=1 û2i N X = mı́n (Yi − Ŷi )2 = β̂1 ,...,β̂K i=1 N X (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi )2 mı́n (5.8) β̂1 ,...,β̂K i=1 Las K Condiciones de Primer Orden (C.P.O.) de mı́nimo son ∂ ∂ ∂ ∂ PN 2 i=1 ûi = 0 ∂ β̂1 PN 2 i=1 ûi = 0 ∂ β̂2 PN 2 i=1 ûi = 0 ∂ β̂3 .. . PN .. . 2 i=1 ûi = 0 ∂ β̂K de donde se obtienen las ecuaciones normales: N X −2 (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi ) = 0 i=1 −2 N X (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi )X2i = 0 i=1 .. . −2 N X .. . (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi )XKi = 0 i=1 que pueden escribirse como: X X X En forma matricial, PN Yi = X2i Yi = P P N β̂1 + β̂2 X2i + . . . + β̂K XKi P P 2 P β̂1 X2i + β̂2 X2i + . . . + β̂K X2i XKi .. . XKi Yi = 2 i=1 ûi β̂1 P = û0 û XKi + β̂2 P .. . XKi X2i + . . . + β̂K 2 XKi donde û es un vector N × 1 y el criterio puede escribirse (1 × 1) mı́n û0 û = mı́n(Y − X β̂)0 (Y − X β̂). β̂ P β̂ 102 Estadı́stica Actuarial: Análisis de Regresión Las K Condiciones de Primer Orden (C.P.O.) de mı́nimo son ∂ û0 û ∂ β̂ = 0 ⇒ −2X 0 (Y − X β̂) = 0. Despejando, obtenemos las ecuaciones normales en forma matricial: X 0 Y = X 0 X β̂M CO . (5.9) de donde el estimador MCO (en forma matricial) es: β̂M CO = (X 0 X)−1 X 0 Y (5.10) en el que X 0 X es una matriz de orden K × K, X 0 Y un vector de orden K × 1 y β̂ un vector de orden K × 1, tales que     0 =  XX  (K × K)  P P X3i PN P X2i P 2 X X X 3i 2i P 2i P P 2i X 2 X3i X3i X2i X3i .. .. .. P. P . P . XKi XKi X2i XKi X3i     X 0Y =   (K × 1)  P P Yi P X2i Yi X3i Yi .. P . XKi Yi P · · · P XKi · · · P X2i XKi ··· X3i XKi .. .. . P. 2 ··· XKi            = β̂   (K × 1)  β̂1 β̂2 β̂3 .. .            .    β̂K El estimador MCO cumple también las condiciones de segundo orden de mı́nimo, con lo cual es, efectivamente, la solución al problema de minimización de la suma de los residuos al cuadrado. Ejercicio 5.1 Sea el modelo de regresión lineal simple donde se regresa Yt sobre Xt , incluyendo un término independiente. Yt = β1 + β2 Xt + ut t = 1, . . . , T Sin utilizar notación matricial: 1. Escribe el sistema de ecuaciones correspondiente al modelo propuesto. 2. Escribe la función objetivo correspondiente a la estimación por MCO de los parámetros desconocidos. Deriva las condiciones de primer orden. 103 Estadı́stica Actuarial: Análisis de Regresión 3. Obtén las ecuaciones normales correspondientes al modelo. 4. Obtén la expresión de β̂1 y β̂2 . Utilizando notación matricial: 1. Escribe la expresión matricial del modelo. 2. Escribe la función objetivo correspondiente a la estimación por MCO de los parámetros desconocidos. Deriva las condiciones de primer orden. 3. Obtén las ecuaciones normales correspondientes al modelo. 4. Obtén la expresión del estimador del vector de parámetros desconocidos β̂. Ejercicio 5.2 Sea el siguiente modelo de regresión lineal simple donde se regresa Yt sobre Xt . Yt = βXt + ut t = 1, . . . , T Sin utilizar notación matricial: 1. Escribe el sistema de ecuaciones correspondiente al modelo propuesto. 2. Escribe la función objetivo correspondiente a la estimación por MCO del parámetro desconocido. Deriva la condición de primer orden. 3. Obtén la ecuación normal del modelo. 4. Obtén la expresión de β̂. Utilizando matrices escribe la expresión matricial del modelo y obtén la expresión de β̂. Algunas equivalencias de notación Yi = β1 + β2 X2i + . . . + βK XKi + ui i = 1, 2, . . . , N ⇔ Y = Xβ + u E(Yi ) = β1 + β2 X2i + . . . + βK XKi i = 1, 2, . . . , N ⇔ E(Y ) = Xβ Ŷi = β̂1 + β̂2 X2i + . . . + β̂K XKi i = 1, 2, . . . , N Yi = β̂1 + β̂2 X2i + . . . + β̂K XKi + ûi ûi = Yi − Ŷi i = 1, 2, . . . , N i = 1, 2, . . . , N 104 ⇔ Ŷ = X β̂ ⇔ Y = X β̂ + û ⇔ û = Y − Ŷ Estadı́stica Actuarial: Análisis de Regresión Interpretación de los coeficientes estimados por MCO b i |Xki = 0, ∀k = 2, . . . , K). Valor esperado estimado de Yi cuando las variables • β̂1 = E(Y explicativas son todas cero. di ) d) ∂ E(Y ∆E(Y = ∆X i ∀k = 2, . . . , K. Incremento esperado estimado (ó decremento es∂Xki ki perado estimado) en Yi cuando la variable Xk se incrementa en una unidad, manteniéndose constantes el resto de las variables explicativas. • β̂k = Ejemplo 5.9 Supongamos que se dispone de datos para estimar la relación en Estados Unidos para el periodo 1960-2005 entre el consumo personal, GCP, y el ingreso, PIB, propuesta en el Ejemplo 5.1 y que la regresión estimada es la siguiente: d t = −299, 5913 + 0, 721P IBt GCP La propensión marginal a consumir es 0, 72 lo que indica que cuando el ingreso real se incrementa en un dólar el consumo personal aumenta en 72 centavos. La ordenada es −299, 5913 lo que indica que si el ingreso es cero el nivel promedio del consumo es negativo e igual a 299, 59 dólares. No tiene interpretación económica. Si las unidades de ambas variables fuese billones de $: por cada billón de dólares de incremento en el PIB el consumo se incrementarı́a en 0,721 billones, Luego por cada 100 billones de incremento en PIB el consumo se incrementa en 72,1 billones de dólares. Cuando el PIB es cero el consumo es negativo e igual a 299591,3 billones de dólares. Ejemplo 5.10 Vamos a retomar ahora el Ejemplo 5.3 donde se analizaban los determinantes del precio de la vivienda. Se dispone de una base de datos sobre el precio de una vivienda y distintas caracterı́sticas de la misma para 14 viviendas vendidas en la comunidad universitaria de San Diego en 1980. Son datos de sección cruzada y la descripción de las variables disponibles es6 : PRICE = precio de venta de la vivienda en miles de dólares (Rango 199,9 - 505) SQFT = pies cuadrados de área habitable (Rango 1065 - 3000) BEDRMS= número de dormitorios (Rango 3 - 4) BATHS = número de baños (Rango 1,74 - 3) Para analizar si el tamaño, el número de habitaciones y el número de baños son factores que explican o no el precio de la vivienda se especifica el siguiente modelo: P RICEi = β1 + β2 SQF Ti + β3 BEDRM Si + β4 BAT HS + ui 6 i = 1, . . . , 14 (5.11) Fuente: Ramanathan, Ramu (2002) Introductory econometrics with applications. Conjunto de datos data4-1.gdt 105 Estadı́stica Actuarial: Análisis de Regresión Para estimar el modelo se utilizan las observaciones disponibles en el fichero data4-1.gdt y que son las siguientes7 : Obsv. P RICE SQF T BEDRM S BAT HS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 199,9 228,0 235,0 285,0 239,0 293,0 285,0 365,0 295,0 290,0 385,0 505,0 425,0 415,0 1065 1254 1300 1577 1600 1750 1800 1870 1935 1948 2254 2600 2800 3000 3 3 3 4 3 4 4 4 4 4 4 3 4 4 1,75 2,00 2,00 2,50 2,00 2,00 2,75 2,00 2,50 2,00 3,00 2,50 3,00 3,00 Tabla 5.1: Datos de caracterı́sticas de viviendas. Fichero 4-1.gdt. Las estimaciones obtenidas resultan de aplicar el criterio MCO β̂ = (X 0 X)−1 X 0 Y :    β̂1 14 P  β̂2     =  P SQF Ti  β̂3   P BEDRM Si BAT HSi β̂4  P P P RICEi   P SQF Ti P RICEi  P BEDRM Si P RICEi BAT HSi P RICEi  P P SQF Ti2 P SQF Ti P BEDRM Si SQF Ti BAT HSi SQF Ti  14   26753 =   51 33 26753 55462515 99193 65699, 75 P P BEDRM Si Si P SQF Ti BEDRM 2 BEDRM S i P BAT HSi BEDRM Si 51 99193 189 121, 75 P P BAT HSi P SQF Ti BAT HSi P BEDRM2 Si BAT HSi BAT HSi −1  4444, 9 33  65699, 75    9095985, 5 16372, 7 121, 75   10821, 075 80, 375 −1     129, 062   0, 1548   =   −21, 5875  −12, 1928   • La función de regresión muestral obtenida es: d i = 129, 062 + 0, 1548 SQF Ti − 21, 5875 BEDRM Si − 12, 1928 BAT HSi P RICE • Interpretación de los signos obtenidos: Los signos obtenidos son los adecuados. Para la variable SQF T el signo es positivo ya que manteniendo el resto de variables constantes lógicamente si aumenta el área habitable aumentará el precio del piso. Si manteniendo el resto de variables constante la superficie habitada aumenta en un pie cuadrado el precio medio estimado de una vivienda aumentará en 154,8 dólares. También son adecuados los signos para BEDRM S y BAT HS ya que en ambos casos se mantiene constante la superficie habitable por lo que se aumenta el número de habitaciones (o baños) a costa de una menor superficie 7 Puedes acceder a estos datos ejecutando gretl → En Archivo → Abrir datos → Archivo de muestra → Elige Ramanathan, el fichero data4-1.gdt. 106 × Estadı́stica Actuarial: Análisis de Regresión de éstas, lo cual es lógico que se valore negativamente por el comprador medio. Ası́, si se aumenta el número de habitaciones, manteniendo constante el número de baños y la superficie de la vivienda, el precio medio se estima disminuirá en 21.588 dólares. Manteniéndose constante la superficie habitable y el número de habitaciones el hecho de tener un baño más redunda en habitaciones más pequeñas por lo que se estima que el precio medio se reducirá en 12.193 dólares. Mediante las estimaciones obtenidas podemos estimar el incremento medio en el precio de la vivienda ante cambios en las variables explicativas. Por ejemplo, si mantenemos el número de baños, tenemos una habitación más y aumenta el área habitable en 500 pies cuadrados, el cambio en el precio medio estimado de una vivienda será de 55,812 dólares: 4 Pd RICEi = 0, 15484 SQF Ti − 21, 5884 BEDRM Si − 12, 1924 BAT HSi = = (0, 1548 × 500) − 21, 588 × 1 − 12, 192 × 0) = 77, 4000 − 21, 588 = 55, 812 5.3.2. Propiedades de la Función de Regresión Muestral, FRM 1. Los residuos son ortogonales a las variables explicativas: X 0 û = 0 (û0 X = 0). X 0 û = X 0 (Y − Ŷ ) = X 0 (Y − X β̂) = 0 por las ecuaciones normales. 2. Los residuos son ortogonales a las estimaciones de la variable endógena: Ŷ 0 û = 0 (û0 Ŷ = 0). Ŷ 0 û = (X β̂)0 û = β̂ 0 |{z} X 0 û = 0 =0 Si el modelo tiene término independiente, es decir, si X1i = 1, entonces la primera fila de X 0 û es P igual a ûi y tenemos que 3. La suma de los residuos es cero: PN i=1 ûi = 0.  P N ûi  P1N X2i ûi   P1N 0  X û = 0 ⇔  1 X3i ûi ..  .  PN 1 XKi ûi         =      0 0 0 .. .   N  X  ûi = 0 ⇒  i=1  0 ¯ 4. La media muestral de Y es igual a la media muestral de las estimaciones de Y : Ȳ = Ŷ . ûi = Yi − Ŷi ⇐⇒ Yi = Ŷt + ûi X X X Yi = Ŷi + ûi | {z } 1 X Yi = N 107 =0 1 X ¯ Ŷi =⇒ Ȳ = Ŷ N Estadı́stica Actuarial: Análisis de Regresión 5. La FRM pasa por el vector de medias: Ȳ = β̂1 + β̂2 X̄2 + . . . + β̂K X̄K . N X i=1 ûi = 0 ⇔ X X X (Yi − β̂1 − β̂2 X2i − . . . − β̂K XKi ) = 0 Yi − N β̂1 − β̂2 X X2i − . . . − β̂K X XKi = 0 X X X2i + . . . + β̂K XKi X X 1 1 = β̂1 + β̂2 X2i + . . . + β̂K XKi N N = β̂1 + β̂2 X̄2 + . . . + β̂K X̄K Yi = N β̂1 + β̂2 1 X Yi N Ȳ Nota: Las propiedades 1 y 2 se cumplen siempre, mientras que las 3, 4 y 5 se cumplen sólo si el modelo tiene un término independiente. 5.3.3. Medidas de bondad del ajuste Definimos la variación de la variable Y como la distancia de los valores observados de la variable a su media muestral. La suma de esas variaciones al cuadrado es la variación que se quiere explicar con la variación de las variables explicativas. Se le denota como SCT y se lee Suma de Cuadrados Total. Lógicamente, el ajuste realizado será mejor cuanto mayor sea la proporción explicada de esa variación. SCT = X (Yi − Ȳ )2 = X Yi2 − N Ȳ 2 = Y 0 Y − N Ȳ 2 Cuando el modelo tenga término independiente podremos dividir la variación total en dos partes, variación explicada y variación sin explicar. Dado que Y = Ŷ + û, tenemos: Y 0Y = (Ŷ + û)0 (Ŷ + û) = = Ŷ 0 Ŷ + |{z} Ŷ 0 û + |{z} û0 Ŷ +û0 û = Ŷ 0 Ŷ + û0 û =0 =0 Restando en ambos lados N Ȳ 2 , Y 0 Y − N Ȳ 2 = Ŷ 0 Ŷ − N Ȳ 2 + û0 û ¯ Si el modelo tiene término independiente, Ȳ = Ŷ de donde, ¯ Y 0 Y − N Ȳ 2 = Ŷ 0 Ŷ − N Ŷ 2 + û0 û X X X ¯ Yi 2 − N Ȳ 2 = Ŷi2 − N Ŷ 2 + û2i X X X ¯ (Yi − Ȳ )2 = (Ŷi − Ŷ )2 + û2i | {z } | {z } | {z } SCT SCE 108 SCR Estadı́stica Actuarial: Análisis de Regresión SCT = SCE + SCR siendo8 : SCT: Suma de Cuadrados Total, mide la variación total. SCE: Suma de Cuadrados Explicada, mide la variación explicada. SCR: Suma de Cuadrados Residual, mide la variación sin explicar. X (Yi − Ȳ )2 = Y 0 Y − N Ȳ 2 X ¯ SCE = (Ŷi − Ŷ )2 = Ŷ 0 Ŷ − N Ȳ 2 X SCR = û2i = Y 0 Y − Ŷ 0 Ŷ = Y 0 Y − β̂ 0 X 0 Y SCT = Coeficiente de determinación, R2 R2 = SCR SCE =1− SCT SCT • Si existe término independiente en el modelo el R2 estará entre los valores 0 y 1. Por la misma razón si no existe término independiente el R2 no tiene sentido. • El coeficiente de determinación mide la bondad del ajuste o lo que es lo mismo la variabilidad de la variable endógena explicada con la variabilidad de las variables exógenas. Es un porcentaje. • A mayor R2 mejor ajuste. Podemos tener la tentación de mejorar el ajuste incluyendo variables exógenas y este proceder es un error. El problema que presenta el coeficiente de determinación es que aumenta o se mantiene constante con la inclusión de nuevas variables explicativas en el modelo, aunque éstas no contribuyan a explicar la variable endógena. Debido a este problema, se define otra medida de bondad de ajuste, el coeficiente de determinación corregido, R̄2 . Coeficiente de determinación corregido, R̄2 R̄2 = 1 − SCR (N −K) SCT (N −1) . = 1− (N − 1) SCR (N − K) SCT = 1− (N − 1) (1 − R2 ) (N − K) 8 En el Anexo 1 incluido en el Apéndice del tema aparecen distintas expresiones de la SCT, SCE y SCR que pueden resultar útiles. 109 Estadı́stica Actuarial: Análisis de Regresión • Cualquiera que sea el número de variables incluidas en un modelo la SCT será constante y por tanto si incluimos una nueva variable la SCR será menor y la SCE será mayor. • Dado que R̄2 se define como una ponderación del R2 por los grados de libertad tendrá en cuenta estos últimos. • Este coeficiente, penaliza la inclusión de nuevas variables explicativas. Si la nueva variable incluida explica a la variable endógena compensando la pérdida de grados de libertad, es decir compensando el hecho de estimar un coeficiente más, el R̄2 aumenta. Sin embargo si la nueva variable incluida no explica a la variable endógena compensando la pérdida de grados de libertad el R̄2 disminuye. • Si K = 1, R2 = R̄2 . • Si K > 1, R̄2 ≤ R2 . El R2 y el R̄2 son sólo dos estadı́sticos y no deben ser utilizados para comparar la especificación de modelos entre sı́, sólo los contrastes de hipótesis que se verán más adelante son la herramienta adecuada. Existen otros criterios de selección de modelos: el criterio de información de Akaike (AIC) o los criterios Bayesiano de Schwarz (BIC) y de Hannan-Quinn (HQC). Estos criterios se calculan en función de la suma de cuadrados residual y de algún factor que penalice por la pérdida de grados de libertad. Un modelo más complejo, con más variables explicativas, reducirá la suma de cuadrados residual pero aumentará el factor de penalización. Utilizando estos criterios se escogerı́a aquel modelo con un menor valor de AIC, BIC o HQC. Normalmente no suelen dar la misma elección, siendo el criterio AIC el que elige un modelo con mayor número de parámetros. El cálculo de estos criterios es algo complejo sin embargo el programa gretl los muestra automáticamente en el output de regresión. Únicamente los veremos con dicho programa. Coeficientes de correlación El coeficiente de correlación lineal simple mide el grado de asociación lineal entre dos variables. Para X e Y se define P P (Xi −X̄)(Yi −Ȳ ) Xi Yi − N X̄ Ȳ N qP qP rxy = q P = qP 2 2 (Xi −X̄) (Yi −Ȳ ) 2 − N X̄ 2 X Yi2 − N Ȳ 2 i N N El coeficiente de correlación simple toma valores entre -1 y 1 y su interpretación podéis recordarla revisando el Tema 1. En el MRLG tendremos una matriz de coeficientes de correlación habitualmente denotada por R:   r11 r12 . . . r1K  r21 r22 . . . r2K    R= . .. ..  . . .  . . . .  rK1 rK2 . . . rKK La matriz de correlación R se define como aquella matriz cuyos elementos son el coeficiente de correlación simple entre dos variables i y j, tal que: 110 Estadı́stica Actuarial: Análisis de Regresión • r1k representa la correlación entre Y y Xk k = 1, 2, . . . K • rkk = 1, los elementos de la diagonal principal son todos unos. Muestran la correlación de una variable consigo misma. • rkh , muestran la correlación de la variable exógena k con la variable exógena h. • Además es una matriz simétrica. En el modelo lineal general la correlación entre Y y X2 no está adecuadamente recogida por el coeficiente de correlación simple ya que parte de la variación de Y será debida al resto de variables exógenas. Será necesario descontar este efecto tanto de Y como de X2 . Por ejemplo, en el modelo Yi = β1 + β2 X2i + β3 X3i + ui para estudiar la influencia de X2 en Y utilizaremos el coeficiente de correlación parcial entre Y y X2 que mide la correlación que queda entre estas dos variables después de eliminar el efecto de X3 sobre Y y sobre X2 . r12 − r13 r23 p r12·3 = p 2 2 1 − r13 1 − r23 Ejemplo 5.11 Con los datos de la Tabla 5.1 y los resultados de la estimación del modelo (5.11) calculamos el coeficiente de determinación y el coeficiente de determinación corregido: SCT = Y 0 Y − N Ȳ 2 = 1512980 − 14 × 317, 4932 = 101754, 7293 SCR = Y 0 Y − β̂X 0 Y = 1512980 − 1496279, 9 = 16700, 1 SCR 16700, 1 =1− = 0, 835976 SCT 101754, 7293 (N − 1) 14 − 1 = 1− (1 − R2 ) = 1 − (1 − 0, 835976) = 0, 786769 (N − K) 14 − 4 R2 = 1 − R̄2 Luego el 83, 59 % de la variabilidad en el precio de la vivienda queda explicada por la variabilidad del tamaño de la vivienda, el número de dormitorios y el número de baños. Es un ajuste bastante alto. El R̄2 se interpreta de igual manera. También podemos calcular la matriz de correlaciones entre SQF T, BEDRM S y BAT HS:   1, 0 0, 4647 0, 7873 1, 0 0, 5323  R= 1, 0 Luego las variables exógenas están correlacionadas positivamente entre sı́. El coeficiente más alto es el coeficiente de correlación simple entre SQF T y BAT HS. 111 Estadı́stica Actuarial: Análisis de Regresión 5.4. Propiedades de los estimadores MCO El método de MCO es sólo uno de los posibles métodos de estimación, la pregunta es ¿cómo podemos elegir entre estimadores? obviamente en base a sus propiedades sobre su comportamiento en muestras repetidas. Estas propiedades son insesgadez, varianza pequeña y error cuadrático medio y ya se trataron en el Tema 2. Insesgadez Un estimador es insesgado si su valor esperado coincide con el verdadero valor del parámetro. Sea θ̂ un estimador del parámetro θ, será insesgado si E(θ̂) = θ. Varianza mı́nima Desearemos que la varianza de un estimador sea lo más pequeña posible ya que cuanto menor sea la varianza muestral mayor es la precisión del estimador. Si estamos comparando dos estimadores insesgados elegiremos aquel que tenga la menor varianza. Pero si estamos comparando dos estimadores sesgados o un estimador sesgado y uno insesgado este criterio no nos sirve y debemos introducir uno nuevo, el concepto de error cuadrático medio. Error cuadrático Medio (ECM) ECM (θ̂) = E(θ̂ − θ)2 = V (θ̂) + Sesgo(θ̂)2 E(θ̂) − θ. En base a este criterio elegimos el estimador con menor ECM. 5.4.1. donde Sesgo(θ̂) = Propiedades de los estimadores MCO Sea el modelo de regresión lineal general Y = Xβ + u u ∼ N ID(0, σ 2 IN ) donde se cumplen todas las hipótesis básicas. El estimador MCO de los coeficientes β̂ = (X 0 X)−1 X 0 Y tiene las siguientes propiedades: • Es lineal en las perturbaciones. • Es insesgado. • Tiene varianza mı́nima entre todos los estimadores lineales e insesgados Demostración: • Linealidad. Como las variables explicativas son no aleatorias, la única variable aleatoria de su expresión es la perturbación, luego el estimador MCO es una combinación lineal de las perturbaciones. β̂ = (X 0 X)−1 X 0 Y = = (X 0 X)−1 X 0 (Xβ + u) = = β + (X 0 X)−1 X 0 u 112 Estadı́stica Actuarial: Análisis de Regresión • Insesgadez. Dado que: E(u) = 0 y la matriz X es no aleatoria, β̂M CO es insesgado, es decir, su valor esperado es igual al vector de coeficientes del modelo. E(β̂) = E(β + (X 0 X)−1 X 0 u) = = E(β) + (X 0 X)−1 X 0 E(u) = β | {z } =0 • Varianza mı́nima. Dado que: E(u) = 0 E(uu0 ) = σ 2 IN y la matriz X es no aleatoria, V (β̂) = E[(β̂ − E(β̂))(β̂ − E(β̂))0 ] = = E[(β̂ − β)(β̂ − β)0 ] = h£ ¤£ ¤0 i = E (X 0 X)−1 X 0 u (X 0 X)−1 X 0 u = = E[(X 0 X)−1 X 0 uu0 X(X 0 X)−1 ] = = (X 0 X)−1 X 0 E[uu0 ] X(X 0 X)−1 = = (X 0 X)−1 X 0 σ 2 IN X(X 0 X)−1 = = σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 = = σ 2 (X 0 X)−1 Esta matriz de varianzas y covarianzas es mı́nima y nos lo garantiza el Teorema de Gauss-Markov.   V (β̂1 )  Cov(β̂2 , β̂1 )  Cov(β̂3 , β̂1 ) V (β̂) =   .. (K × K)  . Cov(β̂K , β̂1 )     = σ2    a11 a21 a31 .. . Cov(β̂1 , β̂2 ) V (β̂2 ) Cov(β̂3 , β̂2 ) .. . Cov(β̂K , β̂2 ) a12 a22 a32 .. . a13 a23 a33 .. . ··· ··· ··· .. . Cov(β̂1 , β̂3 ) Cov(β̂2 , β̂3 ) V (β̂3 ) .. . Cov(β̂K , β̂3 ) a1K a2K a3K .. . ··· ··· ··· .. . ··· Cov(β̂1 , β̂K ) Cov(β̂2 , β̂K ) Cov(β̂3 , β̂K ) .. . V (β̂K )   =        = σ 2 (X 0 X)−1   aK1 aK2 aK3 · · · aKK donde akk es el elemento (k, k) de (X 0 X)−1 . Como toda matriz de varianzas y covarianzas, es simétrica. 113 Estadı́stica Actuarial: Análisis de Regresión Teorema de Gauss-Markov: Dados los supuestos básicos del modelo de regresión lineal general, “dentro de la clase de estimadores lineales e insesgados, β̂ es el estimador eficiente, es decir, β̂ tiene mı́nima varianza”. 5.4.2. Estimación de la varianza de las perturbaciones En la matriz de varianzas y covarianzas del estimador MCO aparece la varianza de las perturbaciones, lo habitual es que sea desconocida y haya de ser estimada. Habitualmente se utiliza el siguiente estimador insesgado9 de σ 2 : P 2 û0 û SCR ûi 2 σ̂ = = = y E(σ̂ 2 ) = σ 2 N −K N −K N −K Por tanto podremos utilizarlo como el estimador apropiado de la varianza de la perturbación. Para trabajar con él es útil escribirlo en términos de las variables observables mediante las matrices Y , X, ası́: σ̂ 2 = û0 û Y 0 Y − β̂ 0 X 0 Y Y 0 Y − β̂X 0 X β̂ = = N −K N −K N −K Bajo las hipótesis básicas, un estimador insesgado de la matriz de varianzas y covarianzas, de β̂M CO es Vb (β̂M CO ) = σ̂ 2 (X 0 X)−1 Ejemplo 5.12 Con los datos de la Tabla 5.1 y los resultados de la estimación del modelo (5.11) se calcula la siguiente matriz de varianzas y covarianzas estimada: σ̂ 2 = Y 0 Y − β̂ 0 X 0 Y 1513039, 0100 − 1496338, 9414 = = 1670, 0069 N −K 14 − 4  −1 14 26753 51 33  26753 55462515 99193 65699, 75   = Vb (β̂M CO ) = 1670, 0069 ×   51 99193 189 121, 75  33 65699, 75 121, 75 80, 375   7797, 47 0, 670891 −1677, 13 −1209, 37  0, 670891 0, 00102019 −0, 0754606 −0, 995066   =   −1677, 13 −0, 0754606 730, 585 −356, 4  −1209, 37 −0, 995066 −356, 4 1870, 56 9 En el Anexo 2 incluido en el Apéndice del Tema aparece demostrada la insesgadez de σ̂ 2 . 114 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 5.3 Supongamos que en la regresión mı́nimo cuadrática ordinaria de Y sobre X el coeficiente estimado de X es 1.2. Di si son ciertas o falsas las siguientes afirmaciones, razonando las respuestas: 1. Tomando distintas muestras para la variable Y pueden obtenerse otras estimaciones. 2. La distribución de estas estimaciones debe estar centrada en torno al verdadero valor 1.2. Ejercicio 5.4 Obtener la esperanza matemática y varianza del siguiente estimador del parámetro de pendiente en el MLS cuando se cumplen todas las hipótesis básicas: c β̃ = β̂M CO + N donde c es una constante arbitraria. Ejercicio 5.5 Se quiere estimar un modelo que explique el ahorro generado, S, en función del tipo de interés, r, de la forma: St = α + βrt + ut 1. Para estimar con mayor precisión β, si pudieras elegir la muestra en diferentes perı́odos, ¿la elegirı́as durante un perı́odo de tiempo en el cual los tipos de interés fueran fluctuantes o durante un perı́odo en el cual los tipos de interés fueran relativamente constantes? 2. ¿Qué ocurrirı́a con los estimadores MCO de los coeficientes de la regresión si el ahorro ha fluctuado muy poco en torno a un valor constante durante el perı́odo muestral? Ejercicio 5.6 Supongamos que la relación entre las variables X e Y es la siguiente Yt = βXt + ut donde X es una variable no estocástica y ut ∼ N ID(0, σ 2 ). Se definen dos estimadores para el parámetro desconocido β: β∗ = P P Yt Xt β̂ = P t PXt Y Xt2 1. Demuestra que ambos estimadores son insesgados. 2. ¿Cuál de los dos estimadores elegirı́as? ¿Por qué? 115 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 5.7 Para el vector de perturbaciones u de orden (T × 1), indica el significado de cada una de las siguientes expresiones y establece su relación con σ 2 : 1. 2. 3. 1 0 Tuu 1 0 T û û E(û0 û) 4. E(ûû0 ) 5.4.3. Consecuencias del incumplimiento de algunos supuestos: colinealidad A la hora de estimar un modelo económico, los datos disponibles sobre las variables explicativas o regresores pueden presentar un alto grado de correlación, especialmente en un contexto de series temporales y con series macroeconómicas. Cuando dos o más variables explicativas de un modelo están altamente correlacionadas en la muestra, es muy difı́cil separar el efecto parcial de cada una de estas variables sobre la variable dependiente. La información muestral que incorpora una de estas variables es casi la misma que el resto de las correlacionadas con ella. En este tema analizaremos las implicaciones que este fenómeno muestral tiene en la estimación por el método de Mı́nimos Cuadrados Ordinarios. • El problema de multicolinealidad es un problema relacionado con la matriz de variables exógenas X . • Se refiere no tanto a si existe o no relación lineal entre las variables exógenas del modelo de regresión, que existirá, como al grado de correlación lineal entre las variables explicativas del modelo de regresión lineal. • En todo momento nosotros vamos a suponer que tenemos un modelo correctamente especificado y que al estimarlo detectamos los problemas en la matriz de datos X. Ası́, estamos enfocando el problema como un problema muestral. • Podemos distinguir dos casos: • Multicolinealidad exacta: se produce cuando existe una relación lineal exacta. • Alta colinealidad: cuando la correlación entre las variables exógenas es muy alta pero no exacta. Multicolinealidad exacta Para verlo más claramente vamos a seguir un ejemplo. Sea el modelo: Yi = β1 + β2 X2i + β3 X3i + ui 116 i = 1, . . . , N (5.12) Estadı́stica Actuarial: Análisis de Regresión y supongamos que X3i = 2X2i . Las ecuaciones normales que se obtienen del criterio de estimación MCO forman un sistema de tres ecuaciones pero solo dos son linealmente independientes: P P P Yi = N β̂1 + β̂2 Yi X2i = β̂1 Yi X3i = β̂1 P P P X2i + β̂3 X2i + β̂2 X3i + β̂2 P P P X3i 2 X2i + β̂3 P X3i X2i X2i X3i + β̂3 P 2 X3i ya que si sustituimos en estas ecuaciones la relación lineal exacta X3i = 2X2i y reorganizamos, obtenemos: P = N β̂1 + (β̂2 + 2β̂3 ) Yi X2i = β̂1 Yi X2i ) = ³ P P 2´ 2 β̂1 X2i + (β̂2 + 2β̂3 ) X2i P 2( P P Yi P X2i X2i + (β̂2 + 2β̂3 ) P 2 X2i Se puede observar que la tercera ecuación es la misma que la segunda excepto por un factor de escala igual a 2. Por lo tanto, hay tres incógnitas β̂1 , β̂2 y β̂3 pero solamente dos ecuaciones linealmente independientes. Dado que X3i y X2i son combinación lineal exacta rg(X) = K − 1 = 3 − 1 = 2, luego X no es de rango completo y no se cumple una de las hipótesis básicas, la hipótesis de No Multicolinealidad. Consecuentemente, no es posible estimar de forma única todos los coeficientes del modelo. Ahora bien, las dos primeras ecuaciones si podemos resolverlas para β̂1 y la combinación lineal (β̂2 + 2β̂3 ). Esto mismo se puede comprobar sustituyendo X3i = 2X2i en el modelo (5.12). Yi = β1 + (β2 + 2β3 )X2i + ui i = 1, 2, . . . , N (5.13) donde podemos estimar de forma separada y única el coeficiente β1 y la combinación lineal (β̂2 +2β̂3 ) pero no cada uno de sus parámetros de forma individual. Además no importa la solución arbitraria de las ecuaciones normales, esta combinación lineal tiene siempre un único valor y siempre el mismo. • Consecuencias de la multicolinealidad exacta: • Los efectos directos de la correlación exacta entre regresores es que el valor del determinante |X 0 X| = 0, por tanto no podemos encontrar (X 0 X)−1 y por tanto, no podemos estimar el modelo por MCO ya que el estimador se define como β̂M CO = (X 0 X)−1 X 0 Y . • En este caso lo que ocurre es que tenemos combinaciones lineales en las columnas de la matriz X con lo que rg(X) 6= K por lo que (X 0 X) es una matriz singular. • Relajamos la hipótesis básica: rg(X) 6= K tal que rg(X) 6= K ⇒ |X 0 X| = 0 ⇒6 ∃(X 0 X)−1 117 Estadı́stica Actuarial: Análisis de Regresión • Cuando la correlación entre regresores es perfecta el problema de multicolinealidad exacta se convierte en un problema de especificación ya que no podemos estimar todos los parámetros del modelo de forma individual. Podremos estimar: • individualmente: aquellos parámetros cuyas variables exógenas no están afectadas de correlación exacta con otras variables exógenas del modelo y • combinaciones lineales de los parámetros cuyas variables exógenas están implicadas en las relaciones lineales exactas. • Detección: basta con ver que |X 0 X| = 0. Alta colinealidad En este caso el valor del |X 0 X| está muy próximo a cero, pero será distinto de cero, por tanto ∃(X 0 X)−1 y podremos calcular los estimadores MCO. Además estos estimadores serán lineales, insesgados y de varianza mı́nima. Sin embargo la existencia de alta colinealidad entre variables produce efectos importantes que deben ser tenidos en cuenta y que son los siguientes: • Varianzas y covarianzas cuantitativamente muy grandes: Dado que (X 0 X) es casi singular, el valor de |X 0 X| será muy pequeño, por lo que, (X 0 X)−1 tendrá elementos muy grandes. Ası́, encontraremos varianzas y covarianzas muy grandes, pero estos valores serán los más pequeños que podemos encontrar en estas circunstancias. Cualquier otro estimador tendrá varianza mayor y por tanto el estimador MCO seguirá siendo de varianza mı́nima. Aunque como consecuencia del tamaño de (X 0 X)−1 , las estimaciones sean muy imprecisas10 . • Como consecuencia de lo anterior, podremos encontrar R2 grandes, que indican que las variables exógenas conjuntamente explican mucho de la variabilidad de la variable endógena, unidos a variables explicativas que aportan poco a explicar esta variabilidad. • Pequeños cambios en los datos producen cambios importantes en las estimaciones de los parámetros. ¿Cómo podemos analizar si existe un problema de alta colinealidad? • Una primera aproximación consiste en obtener los coeficientes de correlación muestral simples para cada par de variables explicativas y ver si el grado de correlación entre estas variables es alto. • El valor del determinante decrece cuando aumenta la colinealidad, tendiendo a cero cuando esta se hace exacta. Este hecho podemos interpretarlo como un aviso pero no tenemos una medida que nos permita afirmar cuando es grave o muy grave. 10 Como veremos en la sección de Contraste de hipótesis el mayor tamaño de las varianzas hará que aumente la probabilidad de no rechazar la hipótesis nula de significatividad individual, cuando en realidad la variable sea significativa, sólo que los datos no permiten detectar esta significatividad. 118 Estadı́stica Actuarial: Análisis de Regresión • Valores altos del R2 y en (X 0 X)−1 , especialmente en su diagonal. • Otra forma de detectar la multicolinealidad consiste en realizar la regresión de cada una de las variables explicativas sobre el resto11 y analizar los coeficientes de determinación de cada regresión. Si alguno o algunos de estos coeficientes de determinación (Rj2 ) son altos, estarı́a señalando la posible existencia de un problema de multicolinealidad. • Belsley, Kuh y Welsch (1980) consideran una serie de indicadores para analizar el grado de multicolinealidad entre los regresores de un modelo, como por ejemplo los llamados Tolerancia (TOL) y Factor de Inflación de la Varianza (VIF) que se definen: 1 ´ V IFj = ³ 1 − Rj2 T OLj = 1 V IFj siendo Rj2 el coeficiente de determinación de la regresión auxiliar de la variable Xj sobre el resto de las variables explicativas y 1 ≤ V IFj ≤ ∞. La varianza de cada uno de los coeficientes de la regresión MCO (βˆj ) de un modelo de regresión lineal general se puede expresar como: σ2 1 σ2 ´ = P¡ var(βˆj ) = P ¡ ¢2 ³ ¢2 V IFj Xji − X̄j Xji − X̄j 1 − Rj2 donde βj , es el coeficiente que acompaña a la variable Xj y Rj2 es el coeficiente de determinación de la regresión auxiliar de la variable Xj en función del resto de las variables explicativas. Como vemos existe una relación inmediata entre el valor V IFj y la varianza del coeficiente estimado. Cuanto más se acerque Rj2 a la unidad, es decir, cuanto mayor sea la colinealidad de la variable Xj con el resto, mayor es el valor de V IFj y mayor es la varianza del coeficiente estimado, porque tal y como hemos dicho, la multicolinealidad “infla” la varianza. Según estos autores, si V IFj > 10, entonces concluiremos que la colinealidad de Xj con las demás variables es alta. La utilización de los coeficientes T OL y V IF para detectar la presencia de la multicolinealidad ha recibido múltiples crı́ticas, porque la conclusión obtenida con estos valores no siempre recoge adecuadamente la información y problema de los datos. Tal y como hemos ¢2visto anteriormente, P¡ las varianzas de los estimadores dependen del V IFj , σ 2 y Xji − X̄j , por lo que un alto V IFj no es condición suficiente ni necesaria para que dichas varianzas sean elevadas ya que ¢2 P¡ Xji − X̄j grande y se compensen. es posible que σ 2 sea pequeño o En la literatura se han propuesto muchas soluciones al posible problema de alta colinealidad y ninguna de ellas es totalmente satisfactoria, por ello parece sensato aprender a convivir con el problema y tener cuidado de no omitir aquellas variables que esconden su significatividad bajo un problema de colinealidad y no incurrir ası́ en un problema de mala especificación. Aunque no es fácil, se pueden considerar las siguientes “soluciones” para intentar resolver el problema: • Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede ser que con nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea 11 En cada regresión se incluye el término constante como regresor pero no como variable dependiente. 119 Estadı́stica Actuarial: Análisis de Regresión consiste en conseguir datos menos correlacionados que los anteriores, bien cambiando toda la muestra o simplemente incorporando más datos en la muestra inicial. De todas formas, no siempre resulta fácil obtener mejores datos por lo que muy probablemente debamos convivir con el problema teniendo cuidado con la inferencia realizada y las conclusiones de la misma. • En ocasiones, si se incorpora información a priori sobre los coeficientes del modelo desaparece el problema. Aún ası́, serı́a conveniente tener en cuenta dicha información antes de la detección del problema de multicolinealidad y no posteriormente, ya que ası́ estimaremos el modelo más eficientemente. Ejercicio 5.8 Comenta la siguiente afirmación: “Si al estimar un modelo de regresión lineal la matriz de datos presenta un alto grado de multicolinealidad, la varianza de los estimadores MCO será muy grande y, por tanto, serán ineficientes.” Ejercicio 5.9 Supón que se formula el siguiente modelo: 2 Yt = β1 X1t + β2 X2t + β3 (X1t + X2t ) + β4 X1t + ut ut ∼ N (0, σ 2 ) (5.14) 1. Indica qué parámetros son estimables y cuáles no. 2. Supón que conocemos el valor que toma el parámetro β3 , por ejemplo β3 = β30 . Indica si esta información adicional varı́a la conclusión anterior. Ejercicio 5.10 Supón que se formula el siguiente modelo: 2 Yt = α0 + α1 X1t + α2 (7X1t ) + α3 X1t + ut (5.15) 1. Indica qué parámetros son estimables y cuáles no. 2. Explica intuitivamente porqué no podemos estimar todos los coeficientes. 5.4.4. Consecuencias del incumplimiento de algunos supuestos: omisión de variables relevantes e inclusión de variables irrelevantes Dentro de las hipótesis básicas hemos supuesto que el modelo estaba correctamente especificado, esto en ocasiones no es ası́ bien porque faltan variables (omisión de variables relevantes) o porque hay más de las necesarias (inclusión de variables irrelevantes). Estas situaciones influyen en las propiedades del estimador MCO y es necesario tenerlo en cuenta. 120 Estadı́stica Actuarial: Análisis de Regresión Omisión de variables relevantes Suponemos que el modelo correctamente especificado es: · ¸ β1 Y = Xβ + u = [ X1 X2 ] + u = X1 β1 + X2 β2 + u β2 (5.16) donde X1 es una submatriz de orden (N × K1 ) y X2 es una submatriz de orden (N × K2 ) y por tanto β1 es un subvector de orden (K1 × 1) y β2 es un subvector de orden (K2 × 1). Pero nosotros estimamos el siguiente modelo incorrectamente especificado: Y = X1 β1 + v donde v = X2 β2 + u (5.17) El modelo (5.17) incurre en un error de especificación ya que se omiten las variables relevantes recogidas en X2 . Esto es lo mismo que imponer la restricción vectorial β2 = 0 cuando no es cierta. El estimador MCO de β1 es β̂1 = (X10 X1 )−1 X10 Y , y v̂ = Y − X1 β̂1 . Consecuencias: • En general los estimadores son sesgados: E(β̂1 ) = E((X10 X1 )−1 X10 Y ) = β1 + (X10 X1 )−1 X10 X2 β2 Sesgo(β̂1 ) = (X10 X1 )−1 X10 X2 β2 y se anulara si X10 X2 = 0, es decir, si las variables omitidas son ortogonales a las no omitidas. Notar que el sesgo se anula también para β2 = 0 pero esta es una solución trivial dado que al ser X2 regresores relevantes necesariamente β2 6= 0. • Las matriz de varianzas y covarianzas es V (β̂1 ) = σ 2 (X10 X1 )−1 • El estimador de la varianza de la perturbación es sesgado, y lo es siempre incluso cuando los regresores son ortogonales: σ̂ 2 = v̂ 0 v̂ E(v̂ 0 v̂) −→ E(σ̂ 2 ) = 6= σ 2 N − K1 N − K1 Inclusión de variables irrelevantes Este caso formalmente es justo el inverso del anterior. El modelo correctamente especificado es: u ∼ N (0, σ 2 I) Y = X1 β1 + u (5.18) y el modelo estimado es: Y = X1 β1 + X2 β2 + v (5.19) donde aparecen las variables irrelevantes en la matriz X2 de orden (N × K2 ) con unos coeficientes, β2 , de orden (K2 × 1), que son cero, poblacionalmente. Consecuencias: • Los estimadores de los coeficientes son insesgados. Podemos escribir el modelo correcto como: Y = X1 β1 + X2 0 + u 121 (5.20) Estadı́stica Actuarial: Análisis de Regresión · E β̂1 β̂2 ¸ ¸ · 0 ¸−1 · 0 ¸! β1 X1 X1 X10 X2 X1 u = = E + 0 0 X2 X1 X2 X2 X20 u 0 ¸−1 · 0 ¸ · · ¸ · 0 ¸ β1 X1 X1 X10 X2 X1 E(u) β1 + = = X20 X1 X20 X2 X20 E(u) 0 0 | {z } Ã· 0 ya que X es fija y E(u) = 0. Por lo tanto, el estimador de (5.19) sigue siendo insesgado aunque se incluyan variables irrelevantes. • Las matriz de varianzas y covarianzas es V(β̂) = σ 2 (X 0 X)−1 • El estimador de la varianza de las perturbaciones del modelo (5.19) es un estimador insesgado de σ 2 v̂ 0 v̂ σ̂ 2 = N − (K1 + K2 ) 5.5. Utilización de variables explicativas cualitativas A lo largo del curso se han especificado mayoritariamente modelos con variables de naturaleza cuantitativa, es decir, aquéllas que toman valores numéricos. Sin embargo, las variables también pueden ser cualitativas, es decir, pueden tomar valores no numéricos como categorı́as, clases o atributos. Por ejemplo, son variables cualitativas el género de las personas, el estado civil, la raza, el pertenecer a diferentes zonas geográficas, momentos históricos, estaciones del año, etc. De esta forma, el salario de los trabajadores puede depender del género de los mismos; la tasa de criminalidad puede venir determinada por la zona geográfica de residencia de los individuos; el PIB de los paı́ses puede estar influenciado por determinados acontecimientos históricos como las guerras; las ventas de un determinado producto pueden ser significativamente distintas en función de la época del año, etc. En esta sección, aunque seguimos manteniendo que la variable dependiente es cuantitativa, vamos a considerar que ésta puede venir explicada por variables cualitativas y/o cuantitativas y veremos como trabajar con ellas incluyéndolas como regresores en el MRLG. Dado que las categorı́as de las variables no son directamente cuantificables, las vamos a cuantificar construyendo unas variables artificiales llamadas ficticias, binarias o dummies, que son numéricas. Estas variables toman arbitrariamente el valor 1 si la categorı́a está presente en el individuo y 0 en caso contrario12 . ½ Di = 1 si la categorı́a está presente 0 en caso contrario Por ejemplo si queremos estudiar la dependencia del salario (Wi ) con respecto al sexo del individuo definiremos dos variables ficticias: 12 Las variables ficticias pueden tomar dos valores cualesquiera, sin embargo, la interpretación de los coeficientes es más sencilla si se consideran los valores 0 y 1. 122 Estadı́stica Actuarial: Análisis de Regresión ½ S1i = ½ S2i = 1 si el individuo i es hombre 0 en caso contrario 1 si el individuo i es mujer 0 en caso contrario la variable sexo tiene dos categorı́as o estados de la naturaleza: hombre y mujer, para recogerlos utilizamos dos variables ficticias que dividen la muestra en dos clases hombres y mujeres, y asignamos un valor arbitrario a cada clase13 . En este tema ya hemos trabajado con ellas, el Ejemplo 5.4 especificamos la función de salario en función del regresor cualitativo sexo e interpretamos sus parámetros. En el Ejemplo 5.5 además se añadió un regresor cuantitativo, la experiencia y se interpretaron los parámetros. Si se retoman dichos ejercicios se puede ver que trabajar con variables cualitativas o con variables cuantitativas a la hora de interpretar los coeficientes de la regresión y estimarlos es indiferente sin embargo hay que tener en cuenta algunas reglas a la hora de especificar el modelo. A conocer éstas vamos a dedicar las secciones siguientes. 5.5.1. Modelo que recoge sólo efectos cualitativos: comparando medias. Sólo un conjunto de variables ficticias. Supongamos que tenemos datos de salarios de hombres y mujeres, Wi y creemos que, en media, existen diferencias salariales entre estos dos grupos. Para contrastar que esto es cierto podemos recoger el efecto cualitativo sexo sobre el salario utilizando las variables ficticias: ½ S1i = ½ 1 si el individuo i es hombre 0 en caso contrario S2i = 1 si el individuo i es mujer 0 en caso contrario y podemos especificar el siguiente modelo como ya se hizo en el Ejemplo 5.4: Wi = β1 + β2 S2i + ui i = 1, . . . , NH + NM ui ∼ N ID(0, σ 2 ) W β1 es el salario esperado cuando el individuo es hombre, β1 +β2 es el salario esperado de una mujer y β2 recoge el efecto diferencial en el salario esperado entre hombres y mujeres. Si no existiera discriminación salarial por sexo, es decir si hombres y mujeres tuvieran el mismo salario, su valor serı́a cero. En el gráfico podemos observar estos efectos donde se supone que β2 es positivo por razones didácticas. β1 β1 + β2 i • Estimación del modelo (5.21): Wi = β1 + β2 S2i + ui i = 1, . . . , NH + NM 13 S1i (5.21) Elegir podrı́amos elegir otros, por ejemplo: ½ los valores (0,1) es muy cómodo pero ½ 1 si el individuo i es hombre 2 si el individuo i es mujer = S2i = 0 en caso contrario 0 en caso contrario 123 Estadı́stica Actuarial: Análisis de Regresión · ¸ WH WM · = iH iM 0 iM ¸· β1 β2 ¸ · + uH uM ¸ ⇒ Y = Xβ + u Notación utilizada: NH es el número de individuos varones y NM el número de mujeres. WH , WM son vectores columna que recogen los salarios de hombres y mujeres, por tanto de orden NH × 1 y NM × 1, respectivamente. iH , iM son vectores de unos de tamaño NH × 1 y NM × 1 respectivamente. β̂M CO = (X 0 X)−1 X 0 Y · ¸ β̂1 β̂2 ·· = · = i0H 0 i0M i0M NH + NM NM ¸· ¸¸−1 · 0 ¸· ¸ iH 0 iH i0M WH = iM iM 0 i0M WM ¸−1 · P ¸ · ¸ P NM P WH + WM = W̄H W̄M − W̄H NM WM que serı́a el equivalente a estimar cada ecuación por separado, en las dos ecuaciones a las que da lugar el modelo (5.21): Wi = β1 + ui i = 1, . . . , NH para los hombres Wi = β1 + β2 + ui i = 1, . . . , NM para las mujeres • Alternativa de especificación del modelo (5.21): Wi = α1 S1i + α2 S2i + ui i = 1, . . . , NH + NM (5.22) de donde suponiendo ui ∼ N ID(0, σ 2 ) α1 = E(Wi |S1i = 1; S2i = 0) es el salario esperado de un hombre α2 = E(Wi |S1i = 0; S2i = 1) es el salario esperado de una mujer por tanto estos coeficientes recogen el salario medio dentro del grupo. • Estimación del modelo (5.22): Wi = α1 S1i + α2 S2i + ui · WH WM ¸ · = iH 0 0 iM ¸· α1 α2 i = 1, . . . , NH + NM ¸ · + ¸ uH uM ⇒ Y = Xβ + u β̂M CO = (X 0 X)−1 X 0 Y · α̂1 α̂2 ¸ ·· = i0H 0 0 i0M ¸· iH 0 0 iM 124 ¸¸−1 · i0H 0 0 i0M ¸· WH WM ¸ = Estadı́stica Actuarial: Análisis de Regresión · = NH 0 0 NM ¸−1 · P ¸ · P ¸ · ¸ W̄H P WH = P WH /NH = WM WM /NM W̄M Ŵi = α̂1 S1i + α̂2 S2i = W̄H S1i + W̄M S2i Los mismos resultados se obtendrı́an si hubiésemos estimados las ecuaciones por separado en las dos ecuaciones a que da lugar el modelo (5.22): Wi = α1 + ui i = 1, . . . , NH y Wi = α2 + ui i = 1, . . . , NH Además la relación entre los parámetros del modelo (5.21) y los del modelo (5.22) es la siguiente: β1 = α1 β1 + β2 = α2 luego β2 = α2 − α1 Ejercicio 5.11 Interpreta los coeficientes de la siguiente regresión: Wi = β1 S1i + β2 + ui i = 1, . . . , NH + NM ui ∼ N ID(0, σ 2 ) donde Wi es el salario del individuo i y ½ S1i = ½ 1 si el individuo i es hombre 0 en caso contrario S2i = 1 si el individuo i es mujer 0 en caso contrario ¿Qué diferencia hay entre ésta especificación y la especificación del modelo (5.21)? Ejercicio 5.12 Interpreta los coeficientes de la regresión: Wi = α0 + α1 S1i + α2 S2i + ui i = 1, . . . , NH + NM donde Wi es el salario del individuo i y ½ S1i = ½ 1 si el individuo i es hombre 0 en caso contrario S2i = 1 si el individuo i es mujer 0 en caso contrario ¿Puedes estimarlos todos? ¿Qué problema existe en el modelo anterior? ¿Se cumplen todas las hipótesis básicas? 125 Estadı́stica Actuarial: Análisis de Regresión 5.5.2. Dos o más conjuntos de variables ficticias Supongamos que pensamos que en el nivel de salarios influye además del sexo el nivel de educación. Para recoger estos efectos podemos definir dos conjuntos de variables ficticias, sexo y educación, la primera con dos categorı́as o estados de la naturaleza y la segunda con tres, y recoger cada categorı́a o estado de la naturaleza con un variable ficticia. Ası́, definimos: ½ 1 S1i = ½ 0 1 S2i = 0 si el individuo i es hombre en caso contrario si el individuo i es mujer en caso contrario ½ 1 ½ 0 1 E2i = ½ 0 1 E3i = 0 E1i = si i tiene hasta estudios primarios en caso contrario si i tiene hasta estudios secundarios en caso contrario si i tiene hasta estudios universitarios en caso contrario siendo Eij sucesos excluyentes. La especificación correspondiente es: Wi = µ + α2 S2i + β2 E2i + β3 E3i + ui i = 1, . . . , NH + NM (5.23) donde para evitar problemas de multicolinealidad exacta hemos excluido una categorı́a de cada factor cualitativo. Podemos obtener el salario esperado de los diferentes individuos de la muestra: E(Wi /S2i = E2i = E3i = 0) = µ, salario esperado de un hombre con estudios primarios. E(Wi /E2i = 1; S2i = E3i = 0) = µ + β2 , salario esperado de un hombre con estudios secundarios. E(Wi /E3i = 1; S2i = E2i = 0) = µ + β3 , salario esperado de un hombre con estudios universitarios. E(Wi /S2i = 1; E2i = E3i = 0) = µ + α2 , salario esperado de una mujer con estudios primarios E(Wi /S2i = E2i = 1; E3i = 0) = µ + α2 + β2 , salario esperado de una mujer con estudios secundarios. E(Wi /S2i = E3i = 1; E2i = 0) = µ + α2 + β3 , salario esperado de una mujer con estudios universitarios. Esta información podemos resumirla en la siguiente tabla: E(Wi ) S1i S2i E1i µ µ + α2 E2i µ + β2 µ + α2 + β2 E3i µ + β3 µ + α2 + β3 y podemos interpretar los parámetros como sigue: µ α2 β2 β3 Base de comparación. Efecto diferencial en el salario medio debido al factor sexo. Por tanto es el diferencial en el salario medio entre hombres y mujeres independientemente de su nivel de educación. Efecto diferencial en el salario medio debido a tener un nivel de estudios secundarios. Por tanto es el diferencial en el salario medio, para hombres y mujeres, entre tener un nivel de estudios primarios y tener secundaria. Efecto diferencial en el salario medio debido a tener un nivel de estudios universitarios. Por tanto es el diferencial en el salario medio, para hombres y mujeres, entre tener un nivel de estudios primarios y tener estudios universitarios. 126 Estadı́stica Actuarial: Análisis de Regresión La matriz de regresores del modelo serı́a:     X=    iN1 iN2 iN3 iN4 iN5 iN6 0 0 0 iN4 iN5 iN6 0 iN2 0 0 iN5 iN6 0 0 iN3 0 0 iN6         donde iNj es un vector de unos de tamaño el número de individuos que cumplen las condiciones, por ejemplo iN6 es un vector de unos de tamaño el número de mujeres con estudios universitarios. Cuando existen dos o más conjuntos de variables ficticias lo que no debemos hacer es incluir todas las variables ficticias y un término independiente. En el caso anterior tenemos dos conjuntos con dos y tres estados de la naturaleza respectivamente, si proponemos la especificación: Wi = µ∗ + α1∗ S1i + α2∗ S2i + β1∗ E1i + β2∗ E2i + β3∗ E3i + ui i = 1, . . . , NH + NM (5.24) existirı́a multicolinealidad exacta en la matriz de regresores y no podrı́amos estimar separadamente ninguno de los coeficientes. La matriz de regresores del modelo (5.24) es:     X=    5.5.3. iN1 iN2 iN3 iN4 iN5 iN6 iN1 iN2 iN3 0 0 0 0 0 0 iN4 iN5 iN6 iN1 0 0 iN4 0 0 0 iN2 0 0 iN5 0 0 0 iN3 0 0 iN6      ⇒ rg(X) < K    Inclusión de variables cuantitativas En cualquiera de los modelos anteriores puede incluirse una-s variable-s cuantitativas, por ejemplo si creemos que el salario depende no solo de sexo sino también del número de horas trabajadas, variable que denotamos como Xi propondremos: Wi = α1 S1i + α2 S2i + βXi + ui i = 1, . . . , NH + NM (5.25) i) Donde el coeficiente β se interpreta de la forma habitual, β = E(W ∂Xi . En forma matricial el modelo serı́a:   · ¸ · · ¸ α1 ¸ WH iH 0 XH  uH α2  + = ⇒ Y = Xβ + u WM 0 i M XM uM β 127 Estadı́stica Actuarial: Análisis de Regresión La especificación alternativa correspondiente serı́a: α1∗ + α2∗ + βXM W Wi = α1∗ + α2∗ S2i + βXi + ui (5.26) α1∗ + βXH i = 1, . . . , NH + NM α1∗ + α2∗ Donde el coeficiente β se interpreta de la forma habitual. En forma matricial el modelo serı́a: · WH WM ¸ · = iH iM 0 iM XH XM ¸ α1∗  · ¸ α1∗ u H ∗  α2  + uM β  X ⇒ Y = Xβ + u 5.5.4. Comportamiento estacional Las variables ficticias permiten recoger fácilmente comportamientos estacionales, como se hizo en el Ejemplo 5.6. Por ejemplo, que las ventas de una empresa sean sistemáticamente superiores en alguno de los trimestres del año y que ese comportamiento se repita sistemáticamente año tras año es un clásico patrón de comportamiento sistemático estacional. Este comportamiento se produce en datos de series temporales de periodo inferior al anual y puede ser estudiado fácilmente mediante variables ficticias. Por ejemplo para recoger el comportamiento estacional de una variable Yt muestreada trimestralmente podemos proponer el modelo: Yt = β1 + β2 D2t + β3 D3t + β4 D4t + ut t = 1, 2, . . . T donde t es el tiempo y las variables Djt son variables ficticias estacionales que se definen: ½ Djt = 1 si la observación t pertenece al trimestre j 0 en caso contrario j = 2, 3, 4 La especificación alternativa serı́a: Yt = β1 D1t + β2 D2t + β3 D3t + β4 D4t + ut 5.5.5. t = 1, 2, . . . T Efectos de interacción Entre factores cualitativos y cuantitativos En las ecuaciones (5.25) y (5.26) se recogen cambios en ordenada pero no en pendiente, sin embargo podemos pensar que el número de horas trabajadas cambia según el sexo del individuo con lo cual debemos recoger cambios en pendiente. Este efecto podemos analizarlo asociando las variables ficticias a la variable cuantitativa. Ası́ proponemos el siguiente modelo: Wi = α1 S1i + α2 S2i + β1 (S1i × Xi ) + β2 (S2i × Xi ) + ui 128 i = 1, . . . , NH + NM (5.27) Estadı́stica Actuarial: Análisis de Regresión E(Wi /S1i = 1; S2i = 0) = α1 + β1 Xi E(Wi /S1i = 0; S2i = 1) = α2 + β2 Xi donde β1 y β2 recogen el incremento en el salario medio ante un aumento unitario en las horas trabajadas, para los hombres y para las mujeres respectivamente. Una especificación alternativa serı́a: α1∗ + α2∗ + (β1∗ + β2∗ )XM W Wi = α1∗ + α2∗ S2i + β1∗ Xi + β2∗ (S2i × Xi ) + ui i = 1, . . . , NH + NM α1∗ + β1∗ XH (5.28) α1∗ + α2∗ siendo α2∗ el incremento salarial en media por el hecho de ser mujer y β2∗ el incremento en el salario medio de una mujer con respecto a un hombre ante un aumento de una hora en el número de horas trabajado. α1∗ X Entre factores cualitativos En el modelo (5.23) se supone que el efecto de cada factor es constante para todos los niveles de los demás factores. Sin embargo si suponemos que el efecto diferencial del sexo variase con el nivel de educación existirı́a un efecto interacción entre las variables ficticias sexo y educación, que podemos recoger ası́: Wi = µ + α2 S2i + β2 E2i + β3 E3i + γ2 (S2i × E2i ) + γ3 (S2i × E3i ) + ui i = 1, . . . , NH + NM (5.29) donde la tabla que resume el comportamiento de la recta de regresión poblacional serı́a: E(Wi ) S1i S2i E1i µ µ + α2 E2i µ + β2 µ + α2 + β2 + γ2 E3i µ + β3 µ + α2 + β3 + γ3 y podemos interpretar los parámetros como sigue: µ β2 β3 α2 α2 + γ 2 α2 + γ 3 β2 + γ2 β3 + γ3 base de comparación. Efecto diferencial en el salario medio debido a tener un nivel de estudios secundarios, con respecto a tener estudios primarios, para los hombres. Efecto diferencial en el salario medio debido a tener un nivel de estudios universitarios, con respecto a tener estudios primarios, para los hombres. Efecto diferencial en el salario medio entre los hombres y las mujeres para un nivel de educación primaria. Efecto diferencial en el salario medio, entre hombres y mujeres, para un nivel de educación secundaria. Efecto diferencial en el salario medio, entre hombres y mujeres, para un nivel de educación universitaria. Efecto diferencial en el salario medio debido a tener un nivel de estudios secundarios, con respecto a tener estudios primarios, para las mujeres. Efecto diferencial en el salario medio debido a tener un nivel de estudios universitarios, con respecto a tener estudios primarios, para las mujeres. 129 Estadı́stica Actuarial: Análisis de Regresión 5.6. Distribución del estimador MCO. Estimación por intervalo 5.6.1. Distribución del estimador de MCO bajo Normalidad Si Y = Xβ + u, donde u ∼ N (0, σ 2 IN ), el estimador MCO, dado que es lineal en las perturbaciones, también seguirá una distribución Normal Multivariante, con vector de medias E(β̂) = β y matriz de varianzas y covarianzas V (β̂) = σ 2 (X 0 X)−1 . Es decir, β̂ ∼ N (β, σ 2 (X 0 X)−1 ) Para el k-ésimo coeficiente, β̂k ∼ N (βk , σ 2 akk ) donde akk es el elemento (k, k) de la matriz (X 0 X)−1 . 5.6.2. Estimación por intervalo Para el k-ésimo coeficiente, β̂k ∼ N (βk , σ 2 akk ) Una vez estimada la varianza de la perturbación con el estimador insesgado σ̂ 2 se puede demostrar que: β̂k − βk ∼t(N −K) √ σ̂ akk √ donde t(N −K) denota la distribución t-Student con (N − K) grados de libertad, y σ̂ akk es la des√ viación estimada del coeficiente estimado. (Notación σ̂ akk = σ̂β̂k ). El intervalo de confianza asociado es14 : h i P r β̂k − t α2 (N −K) σ̂β̂k < βk < β̂k + t α2 (N −K) σ̂β̂k = 1 − α Con lo que podemos escribir el intervalo de confianza del (1 − α) por ciento para un coeficiente cualquiera βk como: ³ ´ IC(βk )1−α = β̂k ± t α2 (N −K) σ̂β̂k Este es un estimador por intervalo porque en los extremos inferior y superior del intervalo aparecen β̂k y σ̂β̂k , que son estimadores. Este intervalo es aleatorio, porque para cada muestra se obtiene un valor numérico distinto de β̂k y σ̂β̂k . Cuando usamos una muestra para obtener las estimaciones, tendremos [un número ≤ βk ≤ otro número] y se denomina estimación por intervalo de βk ó intervalo de confianza (1 − α) para βk . Un intervalo de confianza nos dice que, con probabilidad (1 − α) se estima que el parámetro βk estará dentro de ese rango de valores. 14 Ver el Tema 2 para recordar cómo construir intervalos de confianza. 130 Estadı́stica Actuarial: Análisis de Regresión Las propiedades de la variable aleatoria IC(βk ) se basan en la noción del muestreo repetido: si obtuviéramos infinitas muestras de tamaño N de una misma población, y para cada una de ellas construyésemos el intervalo, entonces (1−α)×100 % de todos los intervalos construidos contendrı́an el verdadero valor (desconocido) de βk . ¿Para qué sirven las estimaciones por intervalo? La respuesta es que nos dan una información muy valiosa sobre la precisión de las estimaciones por punto, esto es, nos dicen hasta qué punto nos podemos fiar de ellas. Si un intervalo de confianza es ancho (debido a una Vb (β̂k ) grande) nos está diciendo que no hay mucha información en la muestra sobre βk . Además, como veremos más adelante, los intervalos sirven para realizar contraste de hipótesis. 5.7. Contraste de hipótesis sobre los coeficientes de la regresión Un problema fundamental de la Econometrı́a es aportar un conocimiento descriptivo de una economı́a real, los economistas desarrollan teorı́as sobre el comportamiento económico y las evalúan. Los contrastes de hipótesis son los procedimientos que se usan para evaluar estas teorı́as. Para ello vamos a utilizar el modelo Y = Xβ + u donde consideramos que se cumplen las hipótesis básicas y además la perturbación es normal. La normalidad no es necesaria para estimar por MCO ni para determinar las propiedades del estimador pero si lo es para realizar inferencia dado que al ser β̂M CO lineal en u tendrá su misma distribución y podremos derivar estadı́sticos de contraste basándonos en ella. Por ejemplo, dado que ui ∼ N (0, σ 2 ) −→ β̂k ∼ N (βk , σ 2 akk ) si conocemos todos los elementos incluido σ 2 podrı́amos contrastar hipótesis de la forma H0 : βk = c con el siguiente estadı́stico: β̂k − c H0 ∼ N (0, 1) √ σ akk En general nosotros lo que queremos es contrastar conjuntos lineales de hipótesis. Podemos realizar contrastes sobre los coeficientes individuales y sobre conjuntos de coeficientes, incluso sobre todos los coeficientes a la vez. Los contrastes más importantes en Econometrı́a son los contrastes de significatividad de los regresores individuales y el contraste de significatividad conjunta. En ellos tratamos de analizar si cada uno de los regresores del modelo de forma individual o conjuntamente son útiles para explicar el comportamiento de la variable endógena. Los veremos a continuación junto con otros de interés. 5.7.1. Contraste de restricciones sobre los coeficientes de regresión individuales En los contrastes sobre los coeficientes individuales se contrasta la hipótesis nula H0 : βk = c, donde la constante c puede tomar diversos valores. Contrastamos una única restricción. La hipótesis alternativa puede ser a una cola por ejemplo Ha : βk > 0 o a dos colas Ha : βk 6= c. Para realizar el contraste hemos de derivar el estadı́stico de contraste y su distribución bajo la hipótesis nula, 131 Estadı́stica Actuarial: Análisis de Regresión evaluar el estadı́stico en la muestra y aplicar la regla de decisión15 . Para contrastar: H0 : βk = c frente a Ha : βk 6= c Bajo las hipótesis básicas y normalidad de las perturbaciones la distribución del estimador β̂k es la siguiente: β̂k ∼ N (βk , σ 2 akk ) Si σ 2 es conocida todo es conocido en la distribución de βk y el estadı́stico de contraste serı́a: β̂k − c H0 ∼ N (0, 1) σβ̂k En el resto de ejemplos consideramos el caso más habitual σ 2 desconocida, para el cual podemos derivar el siguiente estadı́stico de contraste16 y distribución asociada cuando σ 2 es estimada con el 0 û estimador insesgado σ̂ 2 = Nû−K : β̂k − c H0 ∼ t(N −K) σ̂β̂k La regla de decisión es rechazar H0 si β̂k −c σ̂β̂ k > t(N −K)| α2 . En este caso contrario no se rechaza. Si la alternativa es a una cola, por ejemplo: H0 : βk = c frente a Ha : βk > c La regla de decisión es rechazar H0 si β̂k −c σ̂β̂ k > t(N −K)| α . Contraste de significatividad individual Cuando c = 0 al contraste se le denomina de significatividad individual. En este caso: H0 : βk = 0 Ha : βk 6= 0 15 16 Ver Tema 3 para recordar el mecanismo de contraste. Si σ 2 es desconocida habrı́a de ser estimada, bajo la normalidad de las perturbaciones ui ∼ N (0, σ 2 ) −→ (N − K)σ̂ 2 ∼ χ2(N −K) σ2 y derivar el correspondiente estadı́stico de contraste, que serı́a: β̂k −c √ σ akk qP 2 û2 i /σ N −K H0 ∼ t(N −K) si simplificamos 132 β̂k − c H0 ∼ t(N −K) √ σ̂ akk Estadı́stica Actuarial: Análisis de Regresión Podemos derivar el siguiente estadı́stico de contraste y distribución: β̂k H0 ∼ t(N −K) σ̂β̂k Si el estadı́stico calculado para la muestra es mayor que el estadı́stico en tablas, β̂k σ̂β̂ k > t(N −K)| α2 para un α dado, se rechaza la hipótesis nula. En este caso βk 6= 0 y la variable explicativa asociada Xk es significativa para explicar el comportamiento de la variable endógena. Por tanto este contraste sirve para decidir si la variable Xk debe mantenerse en el modelo. Si el estadı́stico calculado para la muestra es menor que el estadı́stico en tablas, σ̂β̂k < t(N −K)| α2 para un α dado, no se rechaza β̂k la hipótesis nula. En este caso βk = 0 y la variable explicativa asociada Xk no es significativa para explicar el comportamiento de la variable endógena. Utilización del intervalo de confianza para hacer contraste de hipótesis En secciones anteriores hablamos de la estimación por intervalo y se mencionó que también podı́amos realizar inferencia utilizando intervalos de confianza. Pues bien si recordamos el intervalo de confianza asociado a βk : h i P r β̂k − t α2 (N −K) σ̂β̂k < βk < β̂k + t α2 (N −K) σ̂β̂k = 1 − α IC(βk )1−α : ³ ´ β̂k ± t α2 (N −K) σ̂β̂k y la regla de decisión es que si la constante c (en este caso c = 0) pertenece al intervalo, no rechazamos H0 con un nivel de significación α y si no pertenece al intervalo, rechazamos H0 con un nivel de significación α. Claramente se obtienen exactamente los mismos resultados utilizando los estadı́sticos de contraste individuales que utilizando los intervalos de confianza. 5.7.2. Contraste de restricciones sobre los coeficientes de regresión En ocasiones interesa averiguar cuál es el efecto de la combinación de varias variables, por ejemplo nos interesará saber si la combinación de todas las variables es un útil predictor de la variable dependiente. Contraste de significatividad conjunto H0 : β2 = β3 = · · · = βK = 0 Ha : alguna igualdad no se da En este caso podemos derivar el siguiente estadı́stico de contraste y distribución asociada: R2 /K − 1 H0 ∼ F(K−1,N −K) 1 − R2 /N − K 133 Estadı́stica Actuarial: Análisis de Regresión 2 R /K−1 Si 1−R 2 /N −K > F(q,N −K)|α el estadı́stico calculado para la muestra es mayor que el estadı́stico en tablas, para un α dado, se rechaza la hipótesis nula y se concluye que las variables son conjuntamente significativas para explicar el comportamiento de la variable endógena. Ejemplo 5.13 Vamos a mostrar un ejemplo sobre los contrastes de significatividad individual y conjunto con los resultados de la estimación del modelo (5.11). Primero vamos a escribir los resultados de la estimación de la forma habitual en que se muestran en la literatura: d = 129, 062 + 0, 154800 SQF T − 21, 5875 BEDRM S − 12, 1928 BAT HS P RICE (σ̂β̂k ) (88,30) (0,03) (27,02) (43,25) N = 14 R2 = 0, 8359 R̄2 = 0, 7868 Como puede apreciarse en la ecuación anterior, se indica que bajo cada coeficiente estimado aparece su correspondiente desviación tı́pica estimada17 . Contrastes de significatividad individual, contrastamos: H0 : βk = 0 Ha : βk 6= 0 ¾ con el estadı́stico y distribución β̂k H0 ∼ t(14−4) σ̂β̂k • Para la variable SQF T obtenemos: 0, 1548 = 4, 8465 > 2, 22814 = t(10) |0,025 0, 0319 luego rechazamos H0 para α = 5 % y la variable SQF T es significativa. • Para la variable BEDRM S obtenemos: ¯ ¯ ¯ −21, 587 ¯ ¯ ¯ ¯ 27, 0293 ¯ = | − 0, 7987| < 2, 22814 = t(10) |0,025 luego no rechazamos H0 para α = 5 % y la variable BEDRM S no es significativa. • Para la variable BAT HS obtenemos: ¯ ¯ ¯ −12, 192 ¯ ¯ ¯ ¯ 43, 25 ¯ = | − 0, 2819| < 2, 22814 = t(10) |0,025 luego no rechazamos H0 para α = 5 % y la variable BAT HS no es significativa. En el contraste de significatividad conjunta, contrastamos: ¾ R2 /K − 1 H0 H0 : β2 = β3 = β4 = 0 con ∼ F(K−1,N −K) Ha : alguna igualdad no se da 1 − R2 /N − K 17 Una alternativa a presentar las desviaciones tı́picas estimadas de los coeficientes es presentar el valor muestral del estadı́stico de significatividad individual para el coeficiente de regresión correspondiente o los valores p. 134 Estadı́stica Actuarial: Análisis de Regresión Evaluado el estadı́stico en la muestra obtenemos: 0, 8359/3 = 16, 989 > 3, 70826 = F(3,10) |0,05 (1 − 0, 8359)/10 rechazamos H0 para α = 5 %. Concluimos que las variables exógenas SQF T, BEDRM S y BAT HS son conjuntamente significativas. Ejemplo 5.14 Utilizamos la función de salarios especificada para el año 2002 que se propuso en el Ejemplo 5.5: Wi = β1 + β2 S2i + β3 Xi + ui i = 1, 2, . . . N donde Wi es el salario anual del individuo i, Xi son los años de experiencia del individuo i y S2i es una variable ficticia que se define: ½ 1 si el individuo i es mujer S2i = 0 en caso contrario En este modelo podemos contrastar: • Si la experiencia es determinante del salario: H0 : β3 = 0, si esta hipótesis no se rechaza para un nivel de significatividad dado el salario no depende de los años de experiencia del individuo. Contrastamos: ¾ β̂3 H0 H0 : β3 = 0 con el estadı́stico y distribución ∼ t(N −3) Ha : β3 6= 0 σ̂β̂ 3 • Si existe discriminación salarial por sexo: H0 : β2 = 0, si esta hipótesis no se rechaza para un nivel de significatividad dado no existe discriminación salarial por sexo. Por ejemplo si la experiencia es cero y β2 = 0, el salario esperado es β1 ∀i luego el salario esperado es el mismo para hombres y mujeres. H0 : β2 = 0 Ha : β2 6= 0 ¾ con el estadı́stico y distribución β̂2 H0 ∼ t(N −3) σ̂β̂2 Contraste de combinaciones lineales Por ejemplo contrastamos la hipótesis: H0 : β2 + β3 = 1 Ha : β2 + β3 6= 1 Renombrando ŵ = β̂2 + β̂3 y c = 1 se puede expresar la hipótesis nula y alternativa ası́ como el estadı́stico de contraste y su distribución asociada como: H0 : w = c Ha : w 6= c 135 Estadı́stica Actuarial: Análisis de Regresión ŵ − c H0 ∼ t(N −K) σ̂ŵ si H0 es cierta 2 ) dado que: La distribución del estadı́stico ŵ ∼ N (µw , σw ŵ = β̂2 + β̂3 β̂2 ∼ N (β2 , σ 2 a22 ) β̂3 ∼ N (β3 , σ 2 a33 ) es µw = E(ŵ) = E(β̂2 + β̂3 ) = β2 + β3 2 = V (ŵ) = E[ŵ − E(ŵ)]2 = E[(β̂ + β̂ ) − (β + β )]2 = V (β̂ ) + V (β̂ ) + 2Cov(β̂ , β̂ ) σw 2 3 2 3 2 3 2 3 = σ 2 (a22 + a33 + 2a23 ) Por tanto β̂2 + β̂3 ∼ N (β2 + β3 , σ 2 (a22 + a33 + 2a23 )) Luego en términos de los coeficientes estimados originales el estadı́stico de contraste y distribución es: β̂2 + β̂3 − 1 H0 q ∼ t(N −K) ˆ V̂ (β̂2 ) + V̂ (β̂3 ) + 2Cov(β̂2 , β̂3 ) o lo que es igual: β̂ + β̂3 − 1 H0 √ 2 ∼ t(N −K) σ̂ a22 + a33 + 2a23 Con la regla de decisión habitual. Ejemplo 5.15 Para contrastar: H0 : β2 = β3 Ha : β2 6= β3 es equivalente a escribir: H0 : β2 − β3 = 0 Ha : β2 − β3 6= 0 que podemos contrastar con el estadı́stico y distribución: β̂2 − β̂3 H0 √ ∼ t(N −K) σ̂ a22 + a33 − 2a23 Con la regla de decisión habitual. 136 Estadı́stica Actuarial: Análisis de Regresión Contraste de un subconjunto de coeficientes Supongamos el siguiente modelo de regresión: Yi = β1 + β2 X2i + . . . + βk Xki + α1 Z1i + α2 Z2i + . . . + αr Zri + ui i = 1, 2, . . . , N y queremos contrastar si el subconjunto de regresores Z1i , Z2i , . . . , Zri son conjuntamente significativos para explicar el comportamiento de la variable endógena. La hipótesis de contraste es: H0 : α1 = α2 = . . . = αr = 0 Ha : alguna igualdad no se de El estadı́stico de contraste y distribución son: û0r ûr − û0 û/r H0 ∼ F(r,N −K) û0 û/(N − K) (5.30) donde: • û0r ûr es la suma de cuadrados residual del modelo restringido estimado por MCO, siendo el modelo restringido aquel que cumple la hipótesis nula. Luego el modelo restringido es: Yi = β1 + β2 X2i + . . . + βk Xki + uri i = 1, 2, . . . , N • û0 û es la suma de cuadrados residual del modelo no restringido o lo que es igual el modelo de interés estimado por MCO: Yi = β1 + β2 X2i + . . . + βk Xki + α1 Z1i + α2 Z2i + . . . + αr Zri + ui i = 1, 2, . . . , N • r es el número de restricciones que se contrastan, en este caso el número de coeficientes αr . La regla de decisión es la habitual, se rechaza la hipótesis nula si: û0r ûr − û0 û/r > F(r,N −K)| α û0 û/(N − K) en cuyo caso las variables exógenas Zri contribuyen a explicar el comportamiento de la variable 0 û −û0 û/r r endógena, en cuyo caso debemos especificar el modelo no restringido. Si ûûr0 û/(N −K) < F(r,N −K)| α no rechazamos H0 en cuyo caso las variables Zri no contribuyen a explicar a la variable endógena y debemos especificar el modelo restringido. 5.7.3. Contrastes basados en sumas de cuadrados de residuos Al estadı́stico: û0r ûr − û0 û/q H0 ∼ F(q,N −K) û0 û/(N − K) 137 Estadı́stica Actuarial: Análisis de Regresión generalmente se le conoce con el nombre de estadı́stico de diferencias en las sumas residuales de cuadrados. Puede ser utilizado para contrastar hipótesis lineales con solo especificar correctamente los modelos restringido y no restringido, q es el número de restricciones que se contrastan. Para su aplicación sólo es necesario obtener la SCR del modelo restringido y no restringido. Vamos a estudiarlo en detalle en el ejemplo siguiente. Estimación del modelo restringido y cálculo de la SCRr El modelo restringido (MR) es aquel que cumple la hipótesis nula mientras que el modelo no restringido (MNR) es el modelo de interés. Por ejemplo sea el MRLG, MNR: Yi = β1 + β2 X2i + β3 X3i + ui donde queremos contrastar la hipótesis nula H0 : β2 + β3 = 1 sustituyendo la restricción en el modelo encontramos el modelo restringido: MR: Yi = β1 + β2 X2i + (1 − β2 )X3i + uri Yi − X3i = β1r + β2r (X2i − X3i ) + uri | {z } | {z } =Yi? =Xi? Yi? = β1r + β2r Xi? + uri La aplicación de MCO en el modelo resultante son los llamados estimadores de Mı́nimos Cuadrados Restringidos, MCR. Los demás β̂ r se obtienen con las restricciones. En el ejemplo en el modelo restringido se calculan β̂1r y β̂2r y finalmente se calcula β̂3r = 1 − β̂2r . 0 En este modelo restringido estimado por MCO se calcula la SCR = ûr ûr . Si escribimos el MR en términos matriciales Y ? = X ? β r + ur entonces û0r ûr = Y ?0 Y ? − β̂ r0 X ?0 Y ? donde Y ? y X ? son las variables que quedan en el modelo restringido y · β̂1r β̂2r ¸ · = · = N P N P Xi? ¸ P ? ¸−1 · P ? P Yi? ? P Xi?2 Yi Xi Xi ¸ ¸−1 · P P P(Yi − X3i ) P(X2i − X3i )2 (Yi − X3i )(X2i − X3i ) (X2i − X3i ) (X2i − X3i ) 138 Estadı́stica Actuarial: Análisis de Regresión Ejemplo 5.16 Contraste de significatividad conjunta: H0 : β2 = β3 = . . . = βK = 0. Para esta hipótesis el modelo restringido es Yi = β1 + ui si estimamos el MR por MCO obtenemos: X X M inβ̂1 û2i = M inβ̂1 (Yi − β̂1 )2 ∂ P û2i ∂ β̂1 = −2 X (Yi − β̂1 ) = 0 −→ β̂1r = Ȳ de donde X (Yi − Ŷi )2 = X X = (Yi − β̂1r )2 = (Yi − Ȳ )2 = SCT ûr0 ûr = Ası́ (SCT − SCR)/q û0r ûr − û0 û/q = 0 û û/(N − K) SCR/N − K dividiendo el numerador y el denominador de entre SCT obtenemos. F = (û0r ûr − û0 û)/q R2 /K − 1 H0 = ∼ F(K−1,N −K) 0 2 û û/N − K (1 − R )/N − K estadı́stico que coincide con el obtenido para el contraste de significatividad conjunta. Ejercicio 5.13 Sean las variables Xt , coste medio de las reclamaciones por siniestros realizados en t y Yt los beneficios de la empresa en t, ambos en miles de millones. Disponemos de la siguiente muestra: X Y 2 4 Para el modelo: Yt = β1 + β2 Xt + ut 3 7 1 3 5 9 9 17 t = 1, . . . , 5 ut ∼ N (0, σ 2 ) 1. Interpreta los coeficientes β1 y β2 . 2. Escribe la matriz de regresores y el vector de valores de la variable endógena. 3. Calcula la recta de regresión muestral MCO. 4. Interpreta las estimaciones de los parámetros. 139 Estadı́stica Actuarial: Análisis de Regresión 5. Calcular los valores de Ŷt y ût . 6. Estima la varianza de la perturbación. 7. Calcula el coeficiente de determinación, R2 e interpreta su significado. 8. Calcula el coeficiente de correlación simple, ¿qué relación hay entre rXY y R2 en este modelo? 9. Contrasta la significatividad de la variable coste medio de las reclamaciones. 10. Considérense los siguientes dos estimadores de la pendiente de la regresión: Y5 − Y3 β˜2 = X5 − X3 β̂2,M CO a) Calcular los dos estimadores. b) Razonar cuál de los dos estimadores es “mejor”. Ejercicio 5.14 Se han calculado las siguientes cantidades en una muestra de tamaño T = 100: X X X Xt = 11, 34 Xt2 = 12, 16 Yt = 20, 72 X X Yt2 = 84, 96 Xt Yt = 22, 13 Estimar las siguientes regresiones: 1. Yt = β1 + β2 Xt + ut 2. Xt = α1 + α2 Yt + ²t 3. ¿Son los estimadores de β1 y β2 iguales a los de α1 y α2 ? ¿En qué caso coincidirán? Ejercicio 5.15 Supongamos que la variable Y se relaciona con las variables X1 , X2 , X3 mediante la ecuación: Yt = β1 X1t + β2 X2t + β3 X3t + ut Donde ut ∼ iid(0, σ 2 IT ), los siguientes datos vienen dados por la tabla: X1 X2 X3 Y 1 1 1 3 1 0 1 6 1 -1 1 10 1 1 0 5 1 0 0 10 1 -1 0 12 1 1 -1 5 1 0 -1 10 1 -1 -1 10 1. Interpreta los parámetros del modelo. 2. Escribe la matriz de regresores. 140 1 0 0 8 (5.31) Estadı́stica Actuarial: Análisis de Regresión 3. 4. 5. 6. 7. 8. 9. Estima la función de regresión muestral. Estima la varianza de las perturbaciones. Estima la matriz de varianzas y covarianzas de los parámetros estimados. Calcula e interpreta el R2 . 2 ¿Se cumple en este modelo la igualdad rXY = R2 ? Calcular el intervalo de confianza para el parámetro β2 y α = 5 %. Contrasta la significatividad individual y conjunta de los regresores. Ejercicio 5.16 Se ha estimado el siguiente modelo de regresión simple, utilizando el criterio de MCO: V̂t = 1767,61 + 7,48Wt R2 = 0,80 (5.32) Los estadı́sticos t para el contraste de que el parámetro correspondiente es igual a cero resultan ser iguales a 1,4 para el término constante y 18,5 para la variable W . Dado que el valor del estadı́stico para el contraste de significación del término constante nos lleva a no rechazar la hipótesis nula, se formula y estima el siguiente modelo: R2 = 0,91 V̂t = 11,71Wt (5.33) Como el mayor coeficiente de determinación corresponde a la segunda regresión, se opta por elegir el modelo (5.33). ¿Te parece adecuada esta decisión? Ejercicio 5.17 Para un conjunto de 21 individuos se quiere estudiar la relación entre el precio mensual de la póliza de un bien asegurado Yi y el valor asegurado del bien, X2i ambas expresadas en unidades monetarias. Para ello se propone el siguiente modelo de regresión lineal: Yi = β1 + β2 X2i + ui (5.34) i = 1, 2, . . . , 21 1. Estima los coeficientes de la regresión y sus varianzas respectivas a partir de los siguientes datos: X X X X 2 X2i Yi = 35, 98 X2i = 641, 5 Yi2 = 2, 02 X2i = 110, 1 X X X Yi = 6, 16 (X2i − X̄2 )2 = 64, 26 (Yi − Ȳ )2 = 0, 213 2. Contrasta la significación de la regresión (5.34) para un α = 5 %. 3. A continuación el investigador introduce una nueva variable en el modelo que recoge el coste medio mensual de las reclamaciones presentadas, X3i . Estimamos de nuevo el modelo (5.34), introduciendo una variable explicativa X3 . Los resultados obtenidos han sido los siguientes: Yi = −0, 017 + 0, 05X2i + 0, 07X3i + ûi R2 = 0, 9985 Contrasta la significación de la variable explicativa X3 para un α = 5 %. 141 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 5.18 La función de producción Cobb-Douglas tiene la forma Y = AK β1 Lβ2 . Dada una muestra de tamaño N, 1. ¿Es el modelo lineal? ¿Qué método se podrı́a usar para estimar los parámetros? 2. Interpreta los coeficientes del modelo. 3. ¿Cómo contrastarı́as si la empresa tiene rendimientos constantes a escala? 4. Si H0 es cierta, ¿qué método mejora la estimación de los parámetros? ¿por qué? Ejercicio 5.19 Supón que el verdadero modelo de regresión es: Yt = β1 + β2 X2t + ut (5.35) pero nosotros añadimos la variable X3 y estimamos el siguiente modelo: Yt = β1 + β2 X2t + β3 X3t + ut (5.36) Discute si el coeficiente de determinación R2 y el corregido R̄2 serán mayores en el modelo (5.35) que en el (5.36). Ejercicio 5.20 Se han estimado, mediante MCO, los siguientes modelos para la inversión para una muestra de 1968 a 1980: Iˆt = 0,6656 + 0,0424 Xt + 0,0610 Kt−1 ˆ β̂i )) (0.0125) (0.0049) (des( R2 = 0,9383 Iˆt = 0,7199 + 0,0290 Xt + 0,0012 Xt−1 + 0,0258 Xt−2 + 0,0631 Kt−1 ˆ (0.0136) (0.012) (0.0136) (0.0051) (des(β̂i )) R2 = 0,9468 1. Contrasta la significatividad individual de los parámetros de ambos modelos e interpreta los resultados. 2. ¿Alguna de las variables es más importante que el resto para la determinación de la inversión? 3. ¿Cuál de los dos modelos elegirı́as? Razona tu respuesta. 142 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 5.21 Comenta con claridad las siguientes afirmaciones: 1. El estimador insesgado β̂ con varianza V1 proporciona siempre mejores estimaciones que el estimador sesgado β ∗ con varianza V2 donde V1 > V2 . 2. En el modelo de regresión lineal general la matriz de covarianzas estimada del estimador MCO de β̂ es la misma para cualquier muestra que tomemos. 3. Las ecuaciones normales del modelo de regresión lineal general implican que el vector de residuos MCO es ortogonal al vector de valores estimados Ŷ . P 4. Si Yt y X2t son variables que no están correlacionadas, es decir, (Yt − Ȳ )(X2t − X̄2 ) = 0, entonces la estimación MCO del coeficiente β2 en el modelo: Yt = β1 + β2 X2t + · · · + βk Xkt + ut t = 1, 2, . . . , T es cero. 5. En el MRLG, el supuesto de normalidad de las perturbaciones es necesario para poder estimar los parámetros del modelo. 6. Bajo los supuestos clásicos del modelo de regresión lineal general, el estimador MCO de β sigue una distribución normal multivariante centrada en el verdadero valor de los parámetros β. 7. Dada una muestra de N observaciones, la ecuación de regresión poblacional pasa por el punto de medias (Ȳ , X̄1 , . . . , X̄k ). 8. En un modelo de regresión lineal simple donde ut ∼ iid(0, σ 2 ), si se pudiera elegir P entre dos muestras de valores para la variable X, una de ellas con (Xt −X̄)2 = 100 P y la otra con (Xt − X̄)2 = 1000, se elegirı́a la segunda muestra porque la precisión al estimar los parámetros serı́a mayor. 9. Los residuos mı́nimo-cuadrático ordinarios de una regresión de Y sobre la variable explicativa X son ortogonales a X, pero no lo son a Y. 10. En un modelo de regresión lineal simple no existe ninguna relación entre el estimador MCO de la pendiente de la regresión β̂ y el coeficiente de correlación simple entre la variable dependiente Y y la variable independiente X, rXY . 11. Si existe la siguiente relación entre las variables X, Y, Z: 2 rXY = 0,8 2 rXZ = 0,001 rY2 Z = 0,001 2 podemos concluir que el coeficiente rXY es una mala medida de la correlación entre 2 las variables X e Y y se deberı́a utilizar rXY.Z . 12. La inexistencia de normalidad en las perturbaciones aleatorias no afecta a los contrastes de hipótesis. 143 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 5.22 Un economista estima el siguiente modelo: Yt = β1 + β2 X2t + β3 X3t + ut t = 1, . . . , 36 ut ∼ N (0, σ 2 ) (5.37) Obteniendo los siguientes resultados: = 0, 98 + 1, 33 X2t + 0, 78 X3t (estadı́stico t) (0,27) (0,98) Ŷt R2 = 0, 989 1. ¿Te parece que el modelo puede tener algún problema? ¿Cuál? ¿En qué basas tus respuestas? 2. ¿Cómo cambiarı́an tus conclusiones si en la estimación anterior el coeficiente de determinación hubiera sido R2 = 0, 12? Ejercicio 5.23 Sea el modelo: Yt = β1 + β2 X2t + β3 X3t + ut ut ∼ N ID(0, 1) (5.38) de la regresión auxiliar de X2 sobre X3 se obtiene: X̂2t = 0, 5 + 1, 1875X3t y además sabemos que (5.39) P P (X2t − X̄2 )2 = 25, (X3t − X̄3 )2 = 16. 1. Expresa la varianza del estimador MCO de β2 en función del coeficiente de correlación muestral entre las variables X2 y X3 . 2. Calcula el coeficiente de correlación muestral entre X2 y X3 . 3. ¿Puede surgir algún problema en la estimación por mı́nimos cuadrados ordinarios de los parámetros β1 , β2 y β3 ? Razona tu respuesta. 4. ¿Cómo cambia tu respuesta al apartado 3) si de la regresión auxiliar se obtuviera X̂2t = 0, 5 + 0, 125X3t ? Ejercicio 5.24 En el modelo: Yt = α + βXt + γZt + ut ut ∼ N (0, σ 2 ) (5.40) surgen los mismos problemas si Xt + Zt = 5 que si β + γ = 5, ¿cierto o falso? ¿Por qué? 144 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 5.25 Sea Yt = β0 + β1 X1t + β2 X2t + β3 X3t + ut con X1t = X2t − 1. 1. Propón un modelo estimable si además se conoce que β1 = 1. 2. ¿Y si se conoce que X1t = 1 ∀t? Ejercicio 5.26 Sea el modelo correcto de regresión lineal: Yt = β1 + β2 X2t + β3 X3t + ut ut ∼ N (0, σ 2 ) (5.41) mientras que se estima el modelo: Yt = β1? + β2? X2t + vt (5.42) ? 1. ¿es βˆ2 insesgado? 2. ¿es σ̂v2 insesgado? 3. ¿es válido el estadı́stico t para contrastar la hipótesis H0 : β2? = 0? Ejercicio 5.27 Si el verdadero modelo es: Yt = β1 + β2 X2t + ut ut ∼ N (0, σ 2 ) (5.43) y se estima: Yt = β1? + β2? X2t + β3? X3t + vt vt ∼ N (0, σ 2 ) (5.44) 1. Comenta la siguiente afirmación: “β̂3? es siempre cero independientemente de la muestra utilizada”. ? 2. ¿es βˆ3 insesgado? 3. ¿es σ̂v2 insesgado? 4. ¿es válido el estadı́stico t para contrastar la hipótesis H0 : β3? = 0? 145 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 5.28 En un estudio sobre el número de siniestros automovilı́sticos declarados se han obtenido los siguientes resultados estimando por MCO: Ŷi = 40, 5 + 10, 5D1i + 0, 4Xi (5.45) Y ahora proponemos el modelo alternativo: Yi = αD2i + α? D1i + βXi + ui (5.46) donde ½ 1 ½ 0 1 = 0 D1i = D2i si usa el automóvil para trabajar en caso contrario si no usa el automóvil para trabajar en caso contrario Explica y halla los valores numéricos de α, α? y β en (5.46) con la información facilitada por (5.45). Ejercicio 5.29 Supongamos que queremos analizar los salarios de una famosa empresa auditora y para ello hemos tomado una muestra de 500 empleados, de los cuales 300 son licenciados en Ciencias Actuariales. Se postula el siguiente modelo: Wi = α + βDi + ui i = 1, 2, . . . , 500 donde Wi es el salario del empleado i-ésimo y Di es una variable ficticia que toma el valor 1 si el empleado es licenciado y 0 en el caso contrario. Si el salario medio muestral de los licenciados es de 250.000 pts. al mes, y el salario medio muestral de los que no son licenciados es 150.000 pts.: 1. Calcula α̂M CO y β̂M CO . 2. ¿Cómo contrastarı́as si existe diferencia salarial entre los licenciados y los que no lo son? 3. Si además en esta muestra dispones de información sobre el sexo del empleado i-ésimo ¿cómo contrastarı́as la hipótesis de que no existe en esta empresa discriminación salarial por razones de sexo? 146 Estadı́stica Actuarial: Análisis de Regresión Europa Resto del Mundo Prima pagada Renta Prima pagada Renta 150 180 120 160 8.000 11.000 9.000 12.000 130 100 110 140 5.000 3.000 6.000 10.000 Tabla 5.2: observaciones muestrales de la prima pagada y renta Ejercicio 5.30 En una muestra de 8 observaciones se quiere estudiar la dependencia del precio de una prima de seguro obligatorio de automóvil respecto de la renta del propietario y su paı́s de matriculación, distinguiendo entre vehı́culos matriculados en Europa o el resto del mundo. Las observaciones se muestran en la Tabla 5.2. 1. Estima el modelo que exprese dicha dependencia. Interpreta los coeficientes del modelo. 2. Contrasta las siguientes hipótesis: a) La renta no es una variable significativa. b) El paı́s de matriculación no es una variable significativa. Ejercicio 5.31 Un investigador quiere analizar la inversión (Ii ) realizada en planes de pensiones en la Comunidad Autónoma Vasca en función del salario percibido (Wi ) y el sector, privado o público, en el que se trabaja. Con una muestra de 500 individuos, de los cuales la mitad trabaja en el sector público, se ha estimado por MCO el siguiente modelo: Iî (t − est) = 2, 7 + 0, 31 P Ui + 0, 47 Wi (0, 22) R2 = 0, 71 (5.47) (3, 7) donde P Ui toma valor 1 si el individuo i-ésimo trabaja en el sector público y cero en caso contrario. 1. Deriva los estimadores utilizados en la estimación del modelo (5.47). 2. Interpreta los coeficientes del modelo. 3. Contrasta la significatividad individual de las variables explicativas. 4. Dados los resultados de los contrastes, ¿qué propiedades tienen los estimadores de los coeficientes del modelo (5.47)? ¿por qué? 147 Estadı́stica Actuarial: Análisis de Regresión Más tarde, el investigador sospecha que la variable sexo puede afectar al incremento de la inversión media ante aumentos unitarios en el salario. Con este objetivo estima los siguientes modelos: Iî R2 = 0, 82 = 3, 87 + 2, 28 P Ui + 0, 63 Wi + 0, 21 Wi Si (t − est) (13, 8) Iî (7, 26) = 4, 7 + 0, 32 Wi + 0, 15 Wi Si (t − est) (5, 82) (5.48) (17, 4) R2 = 0, 75 (5.49) (1, 87) donde Si toma valor 1 si el individuo i-ésimo es hombre y cero en caso contrario. 5. Dadas las regresiones (5.47), (5.48) y (5.49), selecciona la especificación más adecuada para analizar la inversión en los planes de pensiones. Razona detalladamente tu proceso de selección. 6. ¿Qué sucederı́a en la estimación de los modelos (5.48) y (5.49) si la muestra estuviera compuesta sólo por hombres? 7. Suponiendo que eliges el modelo (5.49) ¿qué propiedades tienen los estimadores? Ejercicio 5.32 Para analizar la relación entre los gastos de consumo, C, el ingreso disponible, Y, y el sexo del cabeza de familia se han estimado, con T=12, cuatro modelos cuyos resultados han sido: a) b) c) d) Ĉt = 1663, 6 + 0, 75 Yt (21,12) Ĉt = 186, 12 + 0, 82 Yt + 832, 09 Dt (16,56) (1,82) Ĉt = 709, 18 + 0, 79 Yt + 0, 05 Yt Dt (18,11) (1,51) Ĉt = −184, 7 + 0, 83 Yt + 1757, 99 Dt − 0, 06 Yt Dt (13,65) (1,03) (-0,57) R2 = 0, 978 R2 = 0, 984 R2 = 0, 983 R2 = 0, 985 donde Dt es una variable ficticia que toma el valor 1 si el cabeza de familia es mujer y 0 en caso contrario. Entre paréntesis aparecen los estadı́sticos t muestrales: 1. Interpreta los coeficientes del modelo d). 2. Contrasta si el término constante es diferente según sea el sexo del cabeza de familia. 3. Contrasta si el coeficiente asociado a Y es diferente según sea el sexo del cabeza de familia. 4. Contrasta si tanto el coeficiente asociado a Y como el término constante son diferentes según sea el sexo del cabeza de familia. 5. ¿Cuál es el modelo que mejor se ajusta a los datos? 148 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 5.33 Se quiere estudiar cómo influye el nivel de educación en los salarios (Y ) percibidos por los trabajadores de una empresa. En la empresa hay 100 empleados, de los cuales 6 no tienen estudios, 38 tienen únicamente estudios primarios, 15 tienen estudios universitarios y el resto se incorporó a la empresa tras finalizar sus estudios secundarios. Para introducir el nivel de estudios en el modelo se definen las siguientes variables ficticias: ½ Pi = ½ Si = ½ Ui = 1 si i tiene al menos estudios primarios 0 en caso contrario 1 si i tiene al menos estudios secundarios 0 en caso contrario 1 si i tiene al menos estudios universitarios 0 en caso contrario De modo que para un empleado que, por ejemplo, no haya realizado estudios primarios Pi = 0,Si = 0 y Ui = 0 y para un universitario Pi = 1, Si = 1 y Ui = 1. 1. ¿Es estimable el modelo Yi = β1 + β2 Pi + β3 Si + β4 Ui + Vi , con Vi ∼ N ID(0, σ 2 )? Razona la respuesta. En caso de que no sea estimable, propón uno similar que sı́ lo sea. 2. Interpreta los parámetros β1 y β4 en el modelo anterior, o en el modelo estimable propuesto. 3. Plantea un contraste para la hipótesis de que tener estudios primarios no afecta al salario que se cobra. Escribe la hipótesis nula, el estadı́stico de contraste y la regla de decisión. Ejercicio 5.34 Plantea el modelo de determinación del salario del trabajador de la empresa A en función de sus años de experiencia, categorı́a profesional (empleado, técnico, directivo) y sexo (masculino, femenino). 1. Escribe la función de salarios de una técnica. 2. Interpreta los coeficientes del modelo. 3. Suponiendo que la empresa tiene 40 trabajadores, los cuales tienen la siguiente distribución por categorı́as 5 técnicas y 2 directivas, 4 directivos, 2 técnicos y el resto son empleados. Escribe la matriz de regresores. 149 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 5.35 Un empleado de BBK Peña opina que los pisos de Avenida Mazarredo alcanzan en las subastas un precio considerablemente superior al de cualquier otra zona de Bilbao. Un colega suyo de Lagunaro no está de acuerdo con esta afirmación, por lo que analizan las ventas de pisos de dicha calle realizadas por sus empresas en los últimos años. El número total de pisos subastados fue de 10, de los que 4 estaban enclavados en la calle Mazarredo. Ambos creen que el tamaño del piso y el precio inicial fijado en la subasta son también variables determinantes del precio finalmente alcanzado en la venta. 1. Especifica un modelo que exprese el precio final de venta de los pisos en función de los factores citados y que permita contrastar la hipótesis del empleado de BBK. 2. Escribe la matriz de regresores del modelo que has propuesto. 3. ¿Cómo llevarı́as a cabo el contraste? Escribe la hipótesis nula, la hipótesis alternativa, el estadı́stico de contraste, su distribución y la regla de decisión. Ejercicio 5.36 Se quiere estudiar la relación entre el número de incendios forestales y la temperatura en una comarca catalana. Para ello se utilizan datos diarios de ambas variables para el año 1999 y se estiman los siguientes modelos: (1) (2) (3) (4) Yt Yt Yt Yt ½ siendo Dt = = 105 + 400Dt + 4, 7Xt + 8, 3Dt Xt + û1t = 205 + 43, 5Xt + 9, 0Dt Xt + û2t = 124 + 557Dt + 7, 3Xt + û3t = 350 + 7, 7Xt + û4t σ̂12 σ̂22 σ̂32 σ̂42 = 14, 71 = 20, 15 = 15, 14 = 27, 05 1 si t∈ Julio, Agosto o Septiembre 0 en caso contrario 1. Interpreta los coeficientes del modelo (1). 2. El contraste del modelo (3) contra el (4) nos ha llevado a rechazar el modelo (4). Efectúa los contrastes necesarios para decidir cuál es el modelo al que mejor se ajustan los datos. Ejercicio 5.37 Se han utilizado datos trimestrales para estimar la función: Ct = α + β1 D1t + β2 D2t + β3 D3t + β4 D4t + ut ½ donde: Dit = 1 si t pertenece al i-ésimo trimestre 0 en caso contrario 150 (5.50) Estadı́stica Actuarial: Análisis de Regresión 1. Indica qué parámetros son estimables y cuáles no, razonando la respuesta. ¿Y si se P impone la restricción βi = 0? 2. Un investigador impone la restricción α = 0 y otro impone la restricción β4 = 0. ¿Serán las estimaciones de βi diferentes en ambos casos? ¿por qué? Ejercicio 5.38 Para estudiar las ventas de un determinado modelo de moto se especifica el siguiente modelo de regresión lineal: ½ donde Sit = Yt = β0 + β1 S1t + β2 S2t + β3 S3t + β4 Xt + ut (5.51) 1 si t ∈ trimestre i-ésimo 0 en caso contrario 1. Explica qué tipo de comportamiento refleja esta regresión e interpreta cada uno de los coeficientes del modelo. 2. ¿Existe alguna forma alternativa de especificar el comportamiento reflejado por el modelo anterior? Escribe la ecuación correspondiente e interpreta sus parámetros. 3. Encuentra la relación entre los parámetros de la ecuación (5.51) y los de la ecuación propuesta en el apartado anterior. 4. Los resultados obtenidos de estimar el modelo (5.51) con 16 observaciones trimestrales han sido: Ŷt = 0, 07 + 0, 43 S1t + 6, 55 S2t − 2, 83 S3t − 0, 9 Xt (3,7) (3,37) (3,4) (-3,37) (-0,27) R2 = 0, 68 (5.52) A la vista de los resultados ¿se puede concluir que la variable Yt presenta un comportamiento estacional? Ejercicio 5.39 El dueño de una cadena de cines en una ciudad costera pretende saber cómo influyen en el número de espectadores de sus salas , N (miles), dos factores: el empleo existente en la ciudad, E (cientos de miles), y el número de otros espectáculos que se programen, O (miles). Propone el siguiente modelo Nt = α0 + α1 Et + α2 Ot + ut ut ∼ N ID(0, σ 2 ) (5.53) Dispone de información trimestral relativa a las tres variables que va desde el primer trimestre de 1985 hasta el primer trimestre de 2002, ambos inclusive. El resumen de dicha información aparece a continuación: P   P Nt = 2279, 4 1,5334 −0,2122 0,00734 P Nt Et = 16838,6 0,0320 −0,00379  (X 0 X)−1 =  P Nt Ot = 14193,8 0,00329 (Nt − N̄ )2 = 2435 151 Estadı́stica Actuarial: Análisis de Regresión a) Estima el modelo propuesto por el método de mı́nimos cuadrados ordinarios. b) Calcula una medida de la bondad del ajuste e interprétala. c) Estima la matriz de varianzas y covarianzas del estimador de los coeficientes. d) ¿Son las variables explicativas conjuntamente significativas? e) Contrasta al nivel de significación del 5 % que la programación de otros espectáculos tiene influencia sobre el número de espectadores en las salas de cine. f) Para poder planificar la próxima campaña, el dueño hace el supuesto de que va a tener 34.500 espectadores, dado que el número de empleos será de 754.000 y que están previstos otros 8.800 espectáculos. Compruébalo. Analizando los resultados con un amigo suyo, observan una pauta de comportamiento diferente en los distintos trimestres. Por ello, piensan que no ha tenido en cuenta que la época del año marca también la asistencia al cine, debido a que se va menos cuando hace mejor tiempo. Nuestro hombre decide incluir este factor. g) Define las variables que creas necesarias para tener en cuenta este factor y propón un modelo que incluya el posible efecto de la época del año. h) Interpreta los coeficientes de tu modelo. ¿Cuántas de las variables que has definido incluyes en el mismo? ¿Por qué? A los pocos dı́as, su amigo le plantea la siguiente duda: a su ciudad acuden muchos turistas en verano, lo que aumenta el empleo temporal que suele cubrirse con gente joven, en general más aficionada al cine. Si esto es cierto, la composición del empleo en verano puede tener influencia sobre la asistencia al cine. i) ¿Cómo definirı́as una variable para tener en cuenta esta interrelación? ¿Cómo la incluirı́as en el modelo? En lı́nea con lo planteado, el empresario escoge y estima tres modelos diferentes de entre todos los posibles, con los siguientes resultados: β̂1 N̂t β̂2 β̂3 β̂4 z }| { z }| { z }| { z }| { 23,78 + 1,371 Et − 0,317 Ot + 4,571 D3t, = (σ̂βˆ ) (2,92) i δ̂0 (0,421) δ̂1 (0,135) (0, 658) δ̂2 δ̂4 z}|{ z }| { z }| { z }| { N̂t = 25,0 + 1,204 Et − 0,316 Ot + 0,624 EM 3t , (σ̂βˆ ) i µ̂ (2,895) µ̂ (0,418) (0,134) µ̂ û2t = 359,89 (5.54) t=1 69 X û2t = 355,23 (5.55) i=1 (0, 088) µ̂ 69 X µ̂ 0 1 2 3 4 69 X z }| { z }| { z }| { z }| { z }| { û2t = 354,90 (5.56) N̂t = 25,43 + 1,146 Et − 0,316 Ot − 1,613 D3t + 0, 841 EM 3t , (σ̂βˆ ) i (3,404) (0,483) (0,135) (6,552) donde 152 (0, 887) i=1 Estadı́stica Actuarial: Análisis de Regresión • D3t es una variable ficticia que toma el valor 1 en el tercer trimestre (verano) y cero en los demás casos. • EM 3t es una variable que incorpora el efecto estacional del empleo que se ha discutido en el apartado anterior (y tendrá la interpretación que le hayas atribuido anteriormente). j) Dados los resultados anteriores, ¿hay evidencia de que existe efecto estacional? Si el efecto estacional existe ¿qué forma toma?, ¿cuál de los modelos propuestos te parece óptimo para recogerlo?, ¿por qué? Lleva a cabo los contrastes precisos. k) A la vista de los resultados obtenidos hasta el momento ¿es correcto utilizar los valores de los coeficientes que has obtenido en (5.53)?, ¿por qué?, ¿qué propiedades tienen? l) ¿Cómo explicas los resultados del modelo (5.56) a la vista del (5.54) y el (5.55)? ¿Te parece lógico obtener este resultado?, ¿cuál puede ser su causa? 153 Estadı́stica Actuarial: Análisis de Regresión 5.8. Estimación del MRLG con gretl: principales resultados, contraste de hipótesis • Estimación por Mı́nimos Cuadrados Ordinarios, MCO: Una vez abierto el fichero de datos con el que vamos a trabajar, vamos a Modelo → Mı́nimos Cuadrados Ordinarios Aparecerá una ventana para especificar la parte sistemática del modelo donde debemos: Seleccionar la variable dependiente pinchando a la izquierda sobre ella y a continuación pinchar en la derecha → la flecha azul Seleccionar las variables independientes pinchando a la izquierda sobre ella-s y a continuación pinchar en la derecha → la flecha verde Para obtener los resultados de la estimación MCO pinchar en Aceptar. No pinchar en la indicación Desviaciones Tı́picas Robustas. En esta ventana aparecerán los resultados básicos de la estimación del modelo. Los podemos guardar como texto plano de la manera habitual o como icono con Archivo → Guardar como icono. Los resultados que gretl nos devuelve muestran entre otros estadı́sticos la estimación de los parámetros de la recta de ajuste, sus desviaciones tı́picas y estadı́sticos de significatividad individual. Ejemplo 5.17 Vamos a utilizar como ejemplo la estimación realizada en el Ejemplo 5.10 sobre el precio de la vivienda y los contrastes desarrollados en el Ejemplo 5.13: P RICEi = β1 + β2 SQF Ti + β3 BEDRM Si + β4 BAT HS + ui i = 1, . . . , 14 Los resultados de la estimación MCO mostrados por gretl son los siguientes: Modelo 1: MCO, usando las observaciones 1–14 Variable dependiente: price const sqft bedrms baths Coeficiente Desv. Tı́pica Estadı́stico t Valor p 129,062 0,154800 −21,5875 −12,1928 88,3033 0,0319404 27,0293 43,2500 1,4616 4,8465 −0,7987 −0,2819 0,1746 0,0007 0,4430 0,7838 Media de la vble. dep. Suma de cuad. residuos R2 F (3, 10) Log-verosimilitud Criterio de Schwarz 317,4929 16700,07 0,835976 16,98894 −69,45391 149,4641 154 D.T. de la vble. dep. D.T. de la regresión R2 corregido Valor p (de F ) Criterio de Akaike Hannan–Quinn 88,49816 40,86572 0,786769 0,000299 146,9078 146,6712 Estadı́stica Actuarial: Análisis de Regresión En la columna con encabezamiento Coeficiente aparece la estimación del coeficientre que acompaña a la correspondiente variable. A continuación aparece su Desviación Tı́pica y el estadı́stico t de significatividad individual para el contraste H0 : βk = 0 ası́ como su correspondiente valor p. A continuación aparecen estadı́sticos de interés como pueden ser la media de la variable dependiente, R2 o R̄2 entre otros. La fila: F (3, 10) = 16,98894; Valor p (de F ) = 0,000299 se corresponde con el valor muestral del estadı́stico F para el contraste de significatividad conjunto y su correspondiente valor-p. A continuación aparecen los estadı́sticos de Akaike, Schwarz y Hannan-Quinn para la selección de modelos. En la pestaña Contrastes que aparece en la pantalla de resultados de la regresión podemos Omitir u añadir variables, sumar los coeficientes y contrastar combinaciones lineales o restricciones lineales además podremos realizar contrastes sobre los residuos, de los cuales nos ocuparemos en el último tema del curso. Ejemplo 5.18 Por ejemplo para contrastar: H0 : β3 = β4 versus Ha : β3 6= β4 cuyo estadı́stico de contraste y distribución asociada son: β̂3 − β̂4 q ∼ tN −4 d β̂3 , β̂4 ) σ̂ 2 + σ̂ 2 − 2 × Cov( β̂3 β̂4 en la pestaña Contrastes seleccionamos Restricciones lineales y escribimos b3-b4=0 y gretl nos devuelve el siguiente resultado: Restricción: b[bedrms] - b[baths] = 0 Estadı́stico de contraste: F(1, 10) = 0,0266334, con valor p = 0,873614 luego no se rechaza la hipótesis nula para α %. Además nos proporciona las estimaciones restringidas: const sqft bedrms baths Coeficiente 127,736 0,157407 -18,5060 -18,5060 Desv. Tı́pica 83,9482 0,0264067 18,4649 18,4649 Desviación tı́pica de la regresión = 39,0158 155 Estadı́stico t 1,522 5,961 -1,002 -1,002 Valor p 0,1563 9,44e-05 *** 0,3378 0,3378 Estadı́stica Actuarial: Análisis de Regresión El modelo restringido es: P RICEi = β1 + β2 SQF Ti + β3 (BEDRM Si + BAT HS) + ui i = 1, . . . , 14 d i = 127, 736 + 0, 1574 SQF Ti − 18, 5060 (BEDRM Si + BAT HSi ) y su FRM es P RICE En la pantalla de resultados de la estimación aparecen en la barra de menú otros estadı́sticos o resultados que pueden ser de interés, por ejemplo: • Podemos hacer gráficos de interés: En la opción Gráficos podemos hacer gráficos que nos ayudan a interpretar los resultados de la estimación, por ejemplo Gráficos → Gráfico de la variable estimada y observada Gráficos → Gráfico de residuos → contra alguna de las variables explicativas del modelo • En la pestaña Guardar podemos guardar variables como los residuos, los residuos al cuadrado, la suma de cuadrados residual y el coeficiente de determinación entre otros. • En la pestaña Análisis nos muestra las estimaciones de la variable endógena, los intervalos de confianza de los coeficientes y la matriz de varianzas y covarianzas entre otros resultados. Para ver y guardar los valores de Ŷ , û y otros resultados de utilidad: - Ver los valores: Pinchar en Análisis → Mostrar variable y seleccionar observada, estimada o residuos según nuestro interés. - Guardar los valores: Pinchar en Guardar → seleccionar la variable de interés. Gretl utiliza por defecto la denominación yhat, uhat para designar a la variable endógena estimada y a los residuos, respectivamente y en la descripción de la variable indicará por ejemplo para uhat: residuos del modelo 1, donde el valor 1 indica que corresponde con el primer modelo estimado, esto resulta muy útil pues en general trabajaremos con varios modelos a la vez y hay que distinguir claramente las variables de cada uno. Ejemplo 5.19 La matriz de varianzas y covarianzas de los coeficientes estimados es: Matriz de covarianzas de los coeficientes const 7797,5 sqft 0,67089 0,0010202 bedrms −1677,1 −0,075461 730,58 baths −1209,4 −0,99507 −356,40 1870,6 Los intervalos de confianza de los coeficientes son: t(10, 0, 025) = 2, 228 156 const sqft bedrms baths Estadı́stica Actuarial: Análisis de Regresión 5.8.1. Variable Coeficiente Intervalo de confianza 95 % const sqft bedrms baths 129,062 0,154800 −21,5875 −12,1928 −67,6903 0,0836321 −81,8126 −108,560 325,814 0,225968 38,6376 84,1742 Tratamiento de las variables ficticias en gretl. Gretl permite trabajar tanto con variables ficticias cuantitativas como cualitativas y su tratamiento no difiere, solo debemos de ocuparnos de especificar correctamente el modelo. En el caso de que la variable ficticia no esté construida gretl permite hacerlo. En la pantalla inicial en Añadir podemos añadir Variables ficticias periódicas que se ajustarán lógicamente a la periodicidad muestral del conjunto de datos, Variables ficticias para las variables discretas seleccionadas donde por ejemplo si tenemos una variable que toma valores 1, 2 y 3 podremos construir tres variables ficticias tal como ½ 1 0 ½ 1 D2 = 0 ½ 1 D3 = 0 D1 = si la variable toma valor 1 en caso contrario si la variable toma valor 2 en caso contrario si la variable toma valor 3 en caso contrario Por supuesto también podremos introducirlas con el editor tal y como se aprendió en el Tema 4. Veamos un ejemplo aplicado. Abrimos el fichero de datos data7-3 de Ramanathan, que contiene datos para 14 viviendas sobre el precio de venta de la vivienda (PRICE), pies cuadrados habitables (SQFT), número de habitaciones (BEDRMS) y número de baños (BATHS), y una variable ficticia que toma el valor 1 si la vivienda tiene piscina y 0 en caso contrario (POOL), una variable ficticia que toma el valor 1 si la vivienda tiene sala de estar y 0 en caso contrario (FAMROOM) y una variable ficticia que toma el valor 1 si la vivienda tiene chimenea y 0 en caso contrario (FIREPL). Seleccionamos las variables PRICE y POOL y observamos los valores de estas dos variables: Obs price pool 1 2 3 4 5 6 7 8 9 10 11 199,9 228,0 235,0 285,0 239,0 293,0 285,0 365,0 295,0 290,0 385,0 1 0 1 0 0 0 0 1 0 0 1 157 Estadı́stica Actuarial: Análisis de Regresión 12 13 14 505,0 425,0 415,0 1 0 0 Por ejemplo, la primera vivienda de la muestra tiene un precio de 199.900 dólares y tiene piscina (ya que la variable POOL toma el valor 1), mientras que la segunda no tiene piscina (la variable POOL toma el valor 0) y su precio de venta es de 228.000 dólares, etc. Con los datos anteriores podemos obtener fácilmente que el precio medio de la vivienda es 317.493 dólares: Estadı́sticos principales, usando las observaciones 1 - 14 para la variable price (14 observaciones válidas) Media 317, 49 Desv. Tı́p. 88, 498 Mediana 291, 50 C.V. 0, 27874 Mı́nimo Máximo 199, 90 505, 00 Asimetrı́a Exc. de curtosis 0, 65346 −0, 52983 Sin embargo, también es posible obtener el precio medio para las viviendas que tienen piscina, por un lado, y para las que no la tienen, por otro. Para ello, en primer, lugar se selecciona el precio para aquellas viviendas con piscina. Seleccionamos la variable PRICE, pinchamos en Muestra → Definir a partir de v. ficticia..., seleccionamos la variable POOL y aceptamos. De esta forma hemos seleccionado el precio para aquellas viviendas que tienen piscina18 . A continuación, se obtienen los estadı́sticos principales: Estadı́sticos principales, usando las observaciones 1 - 5 para la variable price (5 observaciones válidas) Media 337, 98 Desv. Tı́p. 122, 99 Mediana 365, 00 C.V. 0, 36390 Mı́nimo Máximo 199, 90 505, 00 Asimetrı́a Exc. de curtosis 0, 15896 −1, 2798 Para seleccionar el precio de las viviendas que no tienen piscina, pinchamos en Muestra → Restringir a partir de criterio, introducimos la condición P OOL = 0 y aceptamos. Los estadı́sticos principales son los siguientes: Estadı́sticos principales, usando las observaciones 1 - 9 para la variable price (9 observaciones válidas) 18 Para restablecer el tamaño muestral inicial pinchar en Muestra → Recuperar el rango completo. 158 Estadı́stica Actuarial: Análisis de Regresión Media 306, 11 Desv. Tı́p. 68, 959 Mediana 290, 00 C.V. 0, 225275 Mı́nimo Máximo 228, 00 425, 00 Asimetrı́a Exc. de curtosis 0, 87575 −0, 52255 Por tanto, el precio medio de las viviendas con piscina es de 337.980 dólares frente a los 306.111 de las viviendas sin piscina. Dado el modelo una vivienda con piscina es en promedio 31.869 dólares más cara que la que no tiene piscina. Notar que no se están teniendo en cuenta otros factores que pueden afectar al precio de la vivienda (número de pies cuadrados habitables, número de habitaciones, etc.). El sencillo análisis anterior podemos realizarlo mediante un análisis de regresión. Podemos especificar un modelo econométrico utilizando la variable ficticia POOL como regresor, estimarlo, hacer inferencia e ir incorporando otras caracterı́sticas que pueden afectar a los precios de las viviendas. Para comenzar, consideramos el siguiente modelo: P RICEi = α1 + α2 P OOLi + ui i = 1, . . . , 14 (5.57) donde • α1 : precio medio de una vivienda sin piscina. • α1 + α2 : precio medio de una vivienda con piscina. • α2 : diferencia en el precio medio de una vivienda con piscina con respecto a una que no la tiene. Los resultados de estimar el modelo por Mı́nimos Cuadrados Ordinarios utilizando gretl obtenemos que las estimaciones de los coeficientes son las siguientes: Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: price Variable const pool Coeficiente 306,111 31,8689 Desv. tı́pica 30,2077 50,5471 Media de la var. dependiente D.T. de la variable dependiente Suma de cuadrados de los residuos Desviación tı́pica de los residuos (σ̂) R2 R̄2 corregido Grados de libertad Log-verosimilitud Criterio de información de Akaike Criterio de información Bayesiano de Schwarz 159 Estadı́stico t 10,1335 0,6305 317,493 88,4982 98550,5 90,6231 0,0320632 −0,0485982 12 −81,880 167,760 169,038 valor p 0,0000 0,5402 Estadı́stica Actuarial: Análisis de Regresión d i = 306, 111 + 31, 869 P OOLi P RICE (10,13) (0,63) i = 1, . . . , 14 Para contrastar en el modelo (5.57) si hay diferencias significativas en el precio medio de la vivienda entre aquéllas que tienen piscina y las que no, la hipótesis de contraste es H0 : α2 = 0. Este contraste se puede realizar utilizando el estadı́stico t habitual cuyo p-valor es 0,5405, por lo que no se rechaza la hipótesis nula para un nivel de significación del 5 %, es decir, el precio medio de la vivienda no es significativamente diferente por el hecho de tener piscina. Alternativamente, se puede realizar el contraste utilizando el estadı́stico F basado en las sumas de cuadrados de los residuos siendo en este caso el modelo (5.57) el modelo no restringido mientras que el modelo restringido es P RICEi = α1 + ui i = 1, . . . , 14. Supongamos que ampliamos el modelo (5.57) incorporando regresores que podrı́an explicar el precio de la vivienda como: el hecho de que la vivienda tenga sala de estar o no, el hecho que tenga chimenea o no, su superficie, el número de habitaciones y el número de baños. Las dos primeras son variables ficticias que pueden definirse ası́: ½ 1 ½0 1 F AM ROOMi = 0 F IREP Li = si la vivienda i-ésima tiene chimenea en caso contrario si la vivienda i-ésima tiene sala de estar en caso contrario Mientras que la superficie, el número de baños y el número de habitaciones se definen como en los temas anteriores: SQF Ti tamaño de la vivienda i-ésima en pies cuadrados BEDRM S número de habitaciones de la vivienda i-ésima BAT HS número de cuartos de baño de la vivienda i-ésima Con todas ellas podemos especificar el siguiente modelo para explicar el precio de la vivienda: P RICEi = γ1 + γ2 P OOLi + γ3 F AM ROOMi + γ4 F IREP Li +β1 SQF Ti + β2 BEDRM Si + β3 BAT HSi + ui i = 1, . . . , 14 (5.58) Donde lo primero a notar es que en el modelo (5.58), afectando a la ordenada, conviven tres conjuntos de variables ficticias con dos categorı́as cada una, el hecho de tener o no piscina, el hecho de tener o no chimenea y el hecho de tener o no sala de estar, de las cuales sólo se incluye una de cada conjunto y se mantiene el término independiente. Esta forma de definir el modelo es muy cómoda ya que sigue manteniendo los resultados de los modelos con término independiente y permite una fácil interpretación de los coeficientes que acompañan a las variables ficticias. Ası́, γi i = 2, 3, 4 recogen el diferencial en el valor esperado de una vivienda por el hecho de poseer la caracterı́stica correspondiente manteniéndose constante el resto de variables. El resultado de la estimación es: 160 Estadı́stica Actuarial: Análisis de Regresión Modelo 1: estimaciones MCO utilizando las 14 observaciones 1–14 Variable dependiente: price Variable const pool famroom firepl sqft bedrms baths Coeficiente 39,0571 53,1958 −21,344 26,1880 0,146551 −7,0455 −0,263691 Desv. tı́pica Estadı́stico t 89,5397 22,0635 42,8734 53,8454 0,0301014 28,7363 41,4547 Media de la var. dependiente D.T. de la variable dependiente Suma de cuadrados de los residuos Desviación tı́pica de los residuos (σ̂) R2 R̄2 corregido F (6, 7) valor p para F () Log-verosimilitud Criterio de información de Akaike Criterio de información Bayesiano de Schwarz 0,4362 2,4110 −0,4979 0,4864 4,8686 −0,2452 −0,0064 valor p 0,6758 0,0467 0,6338 0,6416 0,0018 0,8134 0,9951 317,493 88,4982 9010,24 35,8773 0,911504 0,835650 12,0166 0,00221290 −65,134 144,269 148,743 La interpretación de los coeficientes estimados es la siguiente: • γ̂1 = 39, 057: el precio medio estimado de las viviendas sin piscina, baños, habitaciones, sala de estar ni chimenea y con 0 pies cuadrados habitables es de 39.057 dólares. • γ̂2 = 53, 1958: la diferencia estimada en el precio medio de las viviendas con piscina con respecto a las que no la tienen, siendo iguales en el resto de caracterı́sticas (pies cuadrados habitables, habitaciones, baños, sala de estar y chimenea) es de 53.196 dólares. • γ̂3 = −21, 34: el precio medio estimado de una vivienda con sala de estar es 21.340 dólares inferior al de una sin sala de estar, siendo idénticas en el resto de caracterı́sticas. Esto se debe a que, al mantener constante el número de pies cuadrados de la vivienda y el número de habitaciones y baños, incluir una sala de estar hará que el resto de habitaciones o baños sean de menor tamaño. • γ̂4 = 26, 188: el precio medio estimado de una vivienda con chimenea es 26.188 dólares más caro que el de una sin chimenea, siendo idénticas en el resto de caracterı́sticas. • β̂1 = 0, 147: el precio medio estimado de una vivienda se incrementa en 147.000 dólares al aumentar en 1 pie cuadrado habitable su superficie, permaneciendo constantes el número de baños y habitaciones. 161 Estadı́stica Actuarial: Análisis de Regresión • β̂2 = −7, 046: el precio medio estimado de una vivienda disminuye en 7.046 dólares al aumentar en 1 el número de habitaciones, permaneciendo constantes el número de baños y los pies cuadrados habitaciones. Esto se debe a que las habitaciones serán de menor tamaño. • β̂3 = −0, 264: el precio medio estimado de una vivienda disminuye en 264 dólares al aumentar en 1 el número de baños, permaneciendo constantes el número de habitaciones y los pies cuadrados habitables. De nuevo, las habitaciones serán de menor tamaño. Contraste de hipótesis Para contrastar, por ejemplo, que no existen diferencias significativas en el precio medio de la vivienda por el hecho de tener chimenea, se realiza un contraste de significatividad individual de la variable FIREPL. En este caso, observando el p-valor correspondiente, 0,6416, se puede concluir que a un nivel de significación del 5 %, no existen diferencias significativas en el precio medio de una vivienda por el hecho de tener chimenea. Si comparamos los modelos (5.57) y (5.58), ninguna de las variables añadidas en el último es significativa individualmente19 . Además, el R̄2 es inferior. El contraste de significatividad conjunta para las variables añadidas se puede realizar con el estadı́stico F basado en las sumas de cuadrados residuales de los modelos restringido (modelo (5.57)) y no restringido (modelo (5.58)). En este caso, el resultado es: Contraste de omisión de variables – Hipótesis nula: los parámetros son cero para las variables bedrms baths famroom firepl Estadı́stico de contraste: F (4, 7) = 0,0864517 con valor p = P (F (4, 7) > 0,0864517) = 0,983881 por lo que no se rechaza la hipótesis nula de que las variables añadidas al modelo (5.58) son conjuntamente no significativas. Al omitir dichas variables el modelo mejora en cuanto a la significación de sus coeficientes y el R̄2 . Por tanto, manteniendo las variables POOL y SQFT, la inclusión del resto (FIREPL, FAMROOM, BATHS, BEDRMS) no añade capacidad explicativa al modelo. 19 Un problema añadido es que tenemos un bajo tamaño muestral, T=14, y hemos aumentado significativamente el número de parámetros a estimar, K=7, por lo que tenemos muy pocos grados de libertad. 162 Estadı́stica Actuarial: Análisis de Regresión 5.9. Apéndice 5.9.1. Anexo 1. Distintas expresiones de SCT, SCE y SCR SCT = = X X (Yi − Ȳ )2 = Yi2 − N Ȳ 2 = Y 0 Y − N Ȳ 2 X ¯ (Ŷi − Ŷ )2 = X ¯ = Ŷi2 − N Ŷ 2 = ¯ = Ŷ 0 Ŷ − N Ŷ 2 = ¯ = (X β̂)0 (X β̂) − N Ŷ 2 = SCE = = β̂ 0 X 0 X β̂ −N Ȳ 2 = | {z } =X 0 Y ¯ = β̂ 0 X 0 Y − N Ŷ 2 SCR = X û2i = û0 û = = (Y − Ŷ )0 (Y − Ŷ ) = (Y − X β̂)0 (Y − X β̂) = = Y 0 Y − β̂ 0 X 0 Y − Y 0 X β̂ + β̂ 0 X 0 X β̂ = = Y 0 Y − β̂ 0 X 0 X β̂ = = Y 0 Y − β̂ 0 X 0 Y 5.9.2. Anexo 2. Demostración de la insesgadez de σ̂ 2 1. Propiedades de los residuos MCO Los residuos MCO se pueden escribir en función de las perturbaciones: û = Y − Ŷ = = Y − X β̂ = = Y − X(X 0 X)−1 X 0 Y = = [IN − X(X 0 X)−1 X 0 ]Y = = [IN − X(X 0 X)−1 X 0 ](Xβ + u) = = Xβ − X(X 0 X)−1 X 0 Xβ + [IN − X(X 0 X)−1 X 0 ]u = = [IN − X(X 0 X)−1 X 0 ] u = M u | {z } =M Las caracterı́sticas de la matriz M son: 163 Estadı́stica Actuarial: Análisis de Regresión • Es simétrica: M = M 0 M 0 = [IN − X(X 0 X)−1 X 0 ]0 0 = IN − (X(X 0 X)−1 X 0 )0 = IN − (X 0 )0 [(X 0 X)−1 ]0 X 0 = IN − X(X 0 X)−1 X 0 = M • Es idempotente: M M = M MM = [IN − X(X 0 X)−1 X 0 ][IN − X(X 0 X)−1 X 0 ] = = IN − X(X 0 X)−1 X 0 − X(X 0 X)−1 X 0 + X (X 0 X)−1 X 0 X (X 0 X)−1 X 0 = {z } | =IK = IN − X(X 0 X)−1 X 0 = M • rg(M )= tr(M )= N − K tr(M ) = tr[IN − X(X 0 X)−1 X 0 ] = tr(IN ) − tr[X(X 0 X)−1 X 0 ] = tr(IN ) − tr[(X 0 X)−1 X 0 X] = tr(IN ) − tr(IK ) = N −K • M es ortogonal a X: M X = 0 M X = [IN − X(X 0 X)−1 X 0 ]X = X − X(X 0 X)−1 X 0 X = 0 2. Demostración: E(σ̂ 2 ) = σ 2 Como E(û0 û) = E(u0 M u) = = E(tr(u0 M u)) = E(tr(M uu0 )) = = tr(E(M uu0 )) = tr(M E(uu0 )) = = tr(M σ 2 IN ) = = σ 2 tr(M ) = σ 2 (N − K) se puede demostrar fácilmente que σ̂ 2 es un estimador insesgado: µ ¶ û0 û E(û0 û) σ 2 (N − K) 2 E(σ̂ ) = E = = = σ2 N −K N −K N −K Y por tanto podremos utilizarlo como el estimador apropiado de la varianza de la perturbación. 164 Estadı́stica Actuarial: Análisis de Regresión 5.9.3. Anexo 3. Distribuciones que nos interesan • Distribución de la variable endógena o regresando: Y = Xβ + u E(Y ) = Xβ V (Y ) = E[(Y − E(Y ))(Y − E(Y ))0 ] = E(uu0 ) = σ 2 IN Dado u ∼ N (0, σ 2 IN ) −→ Y ∼ N (Xβ, σ 2 IN ) • Distribución del vector de estimadores MCO: β̂ = (X 0 X)−1 X 0 Y = β + (X 0 X)−1 X 0 u E(β̂) = β V (β̂) = σ 2 (X 0 X)−1 Dado u ∼ N (0, σ 2 IN ) −→ β̂ ∼ N (β, σ 2 (X 0 X)−1 ) −→ β̂k ∼ N (βk , σ 2 akk ) • Distribución de los residuos: û = M u E(û) = E(M u) = M E(u) = 0 V (û) = E[ûû0 ] = E(M uu0 M 0 ] = M E(uu0 )M = σ 2 M Dado u ∼ N (0, σ 2 IN ) −→ û ∼ N (0, σ 2 M ) • Distribución de la SCR: SCR = û0 û = u0 M u Utilizando el resultado 3 del Anexo 4 dado u ∼ N (0, σ 2 IN ) −→ ya que: û ∼ N (0, σ 2 M ) u0 M u û0 û 2 ∼ χ −→ ∼ χ2(N −K) (N −K) σ2 σ2 tenemos û0 M −1 û u0 M M −1 M u u0 M u = = ∼ χ2(N −k) σ2 σ2 σ2 165 Estadı́stica Actuarial: Análisis de Regresión 5.10. Bibliografı́a del tema Referencias bibliográficas básicas: • Teórica: [1] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición. [2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadı́stica para administración y economı́a. Prentice Hall. Madrid. [3] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición. [4] Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Fundamentos de inferencia estadı́stica, 3a edición, Editorial AC, Madrid. • Ejercicios con gretl : [1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics with applications, ed. South-Western, 5th edition, Harcourt College Publishers. [2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A modern Approach, ed. South-Western, 2nd edition. Referencias Bibliográficas Complementarias: [1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de regresión con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y − juridicas/analisis − de − regresion − con − greti/Coursel isting). [2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación online de la Facultad de C.C. Económicas y Empresariales. [3] Esteban, M.V. (2007). Estadı́stica Actuarial: Regresión. Material docente. Servicio de Publicaciones. [4] Esteban, MV (2008). Estadı́stica Actuarial: Regresión Lineal, Sarriko On Line 3/08. Publicación on-line de la Facultad de CC. Económicas y Empresariales, UPV/EHU. http://www.sarrikoonline.com. [5] Esteban, M.V. (2007). Colección de ejercicios y exámenes. Material docente. Servicio de Publicaciones. [6] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a. Editorial McGraw-Hill. [7] Greene, W. (1998), Análisis Econométrico, Ed. Prentice Hall, 3a edición. [8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th. edition. [9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley. 166 Tema 6 Validación En este tema vamos a ocuparnos de validar el modelo. Una vez especificado y estimado el modelo de regresión lineal general y realizados los contrastes de interés el modelo puede ser utilizado para la predicción. Esta será más fiable cuanto mejor especificado y estimado esté el modelo. En el Tema 5 nos hemos ocupado de ver las consecuencias de omitir variables relevante e incluir variables irrelevantes y para evitarlo utilizamos los contrastes de significatividad individual y conjunto. En este tema nos ocuparemos de analizar si los coeficientes del modelo son constantes durante todo el periodo muestral. Por otro lado cuando especificamos las hipótesis básicas de comportamiento, sobre la perturbación supusimos que es homocedástica y no autocorrelada, en este tema estudiaremos como contrastar que efectivamente la perturbación tiene varianza constante y covarianzas cero. Para finalizar el tema veremos cómo realizar la predicción por punto y por intervalo del verdadero valor de la variable endógena. Competencias a trabajar en estas sesiones: 1. Conocer distintos procedimientos de estimación de parámetros, ası́ como sus propiedades para poder seleccionar adecuadamente la mejor alternativa de análisis. 2. Aplicar la metodologı́a estadı́stica adecuada para el diseño de contrastes de hipótesis para la toma de decisiones en el ámbito profesional. 3. Analizar de forma crı́tica los elementos básicos de los modelos econométricos para comprender la lógica de la modelización econométrica y poder especificar relaciones causales entre variables económicas. 4. Aplicar la metodologı́a econométrica básica para estimar y validar relaciones económicas en base a la información estadı́stica disponible sobre variables económicas y utilizando los instrumentos informáticos apropiados. 5. Obtener e interpretar los resultados de un análisis estadı́stico de datos económicos haciendo uso de las fuentes de información apropiadas y de los instrumentos informáticos necesarios. 167 Estadı́stica Actuarial: Análisis de Regresión 6. Presentar de forma clara y concisa, tanto oralmente como por escrito, las conclusiones obtenidas en un caso de estudio particular. Al final de este tema deberı́ais ser capaces de: 1. Conocer cuando un modelo es lineal en parámetros y/o en variables. 2. Transformar un modelo no lineal en parámetros en un modelo estimable por MCO. 3. Aplicar el contraste de Ramsey en el contexto adecuado. 4. Explicar que se entiende por un cambio estructural en un modelo econométrico. 5. Contrastar la constancia de los coeficientes de un modelo de regresión lineal general. 6. Explicar que se entiende por un modelo de regresión lineal con heterocedasticidad, cómo modelizar esta caracterı́stica en el término de perturbación del modelo y sus implicaciones en su matriz de varianzas y covarianzas. 7. Analizar gráficamente la posible existencia de heterocedasticidad y saber contrastarla utilizando el estadı́stico de White. 8. Describir las propiedades del estimador MCO bajo heterocedasticidad. 9. Explicar que se entiende por un modelo de regresión lineal con autocorrelación, cómo modelizar esta caracterı́stica en el término de perturbación del modelo y sus implicaciones en su matriz de varianzas y covarianzas. 10. Analizar gráficamente la posible existencia de autocorrelación y saber contrastarla utilizando el estadı́stico de Durbin Watson. 11. Describir las propiedades del estimador MCO bajo autocorrelación. 12. Predecir por punto y por intervalo el valor de la variable endógena dados los valores de las variables exógenas en el periodo de predicción. Bibliografı́a Recomendada: Al final del tema tenéis recogida la bibliografı́a correspondiente. En particular se os recomienda leer los capı́tulos correspondientes a la bibliografı́a básica detallados a continuación: • Gujarati, D. y Porter, D.C. (2010). Parte I : cap. 6;Parte II: Caps 11 y 12. • Newbold, P., Carlson, W.L. y Thorne, B. (2008). Cap. 14. • Ramanathan, R. (2002). Caps. 6, 8 y 9. • Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Cap. 8. • Wooldridge, J.M. (2006). Cap. 6. 168 Estadı́stica Actuarial: Análisis de Regresión 6.1. Forma funcional La elección de la forma funcional que recoge la relación existente entre la variable dependiente y las variables explicativas es un aspecto de la especificación de un modelo muy importante en el análisis económico. De hecho, la teorı́a económica no siempre propone relaciones lineales entre variables de interés. Es el caso, por ejemplo, de la función de consumo de un bien que aumenta con la renta pero no de forma indefinida ni a ritmo constante sino, en general, a una tasa decreciente, o de las funciones de costes marginales que suelen tener forma de U, veáse la Figura 6.1. Consumo Costes Figura 6.1: Relaciones económicas no lineales En el Tema 5 se hizo enfásis en el hecho de que el supuesto de linealidad del modelo de regresión no implica una relación lineal entre las variables sino un modelo en el que los parámetros entran de forma lineal. Por “lineal en los parámetros” se entiende que los parámetros no se multiplican entre sı́, no están elevados a potencias, etc. Sin embargo, como se vió en dicho tema las variables, tanto regresando como regresores, sı́ se pueden transformar para obtener al final un modelo de regresión lineal que satisfaga los supuestos clásicos. Este hecho hace que el modelo de regresión lineal sea bastante flexible y se pueda utilizar para modelar relaciones entre variables económicas no lineales. Ası́, tanto la función de consumo como la función de costes marginales de la Figura 6.1 se pueden modelizar utilizando formas funcionales sencillas no lineales en las variables. En el caso de la función de consumo, el supuesto de rendimientos decrecientes se puede representar mediante modelos logarı́tmicos o semilogarı́tmicos del tipo: ln C = α + β ln R + u (6.1) C = α + β ln R + u (6.2) y las funciones de costes totales se pueden representar mediantes funciones polinómicas: CM = β1 + β2 Q + β3 Q2 + u (6.3) Los modelos (6.1), (6.2) y (6.3) cumplen el supuesto de linealidad porque son lineales en los parámetros y se pueden analizar dentro del marco del MRLG. Ahora bien, como no son modelos lineales en las variables, el efecto marginal del regresor sobre la variable dependiente no va a ser constante. Por 169 Estadı́stica Actuarial: Análisis de Regresión ejemplo, en el modelo (6.3), el efecto marginal de un incremento unitario de la producción sobre los costes marginales viene dado por: ∂E(CT ) = β2 + 2 β3 Q ∂Q Este resultado implica que la pendiente de la función de costes marginales no es constante sino que es una función lineal de Q que involucra a los parámetros β2 y β3 . Otra forma de modelar relaciones no lineales entre las variables explicativas y el regresando es incluir términos de interacción, es decir, el producto de varios regresores del modelo. Consideremos, por ejemplo, el siguiente modelo: Y = β1 + β2 X2 + β3 X3 + β4 (X2 × X3 ) + u Este modelo es lineal en los parámetros, por lo que cumple el supuesto de linealidad. El efecto marginal de X2 sobre Y es: ∂E(Y ) = β2 + β4 X3 ∂X2 de forma que el incremento esperado en Y ante un incremento unitario en X2 no es constante sino que depende del valor de X3 . Los modelos que no cumplen el supuesto de linealidad se pueden clasificar en dos grupos. En el primer grupo se encuentran los modelos que no son lineales en los parámetros pero que se pueden linealizar mediante alguna transformación. En este grupo entra por ejemplo la función de producción Cobb-Douglas que no es lineal ni en las variables ni en los parámetros, pero tomando logaritmos se obtiene una función que no es lineal en las variables pero sı́ es lineal en los parámetros. El segundo grupo lo forman los modelos que no son lineales en los parámetros y que no se pueden linealizar mediante ninguna transformación, por ejemplo, Y = β1 + X1β2 β3 + X2β2 + u Este tipo de modelos se estima por mı́nimos cuadrados no lineales. Contraste de Ramsey El contraste de Ramsey (1969) está diseñado para detectar si la forma funcional está correctamente especificada o no. Una forma sencilla de detectar que la forma funcional de este modelo está mal especificada y la relación no es lineal entre las variables, serı́a incluir términos no lineales en el modelo anterior y contrastar su significatividad. Ramsey propone añadir términos no lineales del tipo Ŷt2 , Ŷt3 , ... , donde Ŷt son los valores ajustados por la recta de regresión muestral MCO. De forma que los términos Ŷt2 , Ŷt3 , ... , son funciones no lineales de todos los regresores. La lógica del contraste se basa en que, si el modelo no está bien especificado, la introducción de estos términos no lineales mejorarı́a el ajuste del modelo. Los pasos para implementar el contraste de Ramsey son los siguientes. En primer lugar, se estima el modelo que incluye tantos términos no lineales como se desee, habitualmente, dos: Yt = β1 + β2 X2t + β3 X3t + γ1 Ŷt2 + γ2 Ŷt3 + ut 170 (6.4) Estadı́stica Actuarial: Análisis de Regresión La hipótesis nula de correcta especificación del modelo se expresarı́a en función de los parámetros del modelo (6.4) como H0 : γ1 = γ2 = 0 γ1 6= 0 y/o γ2 6= 0 Si no se rechaza la hipótesis nula, significa que no se ha detectado mala especificación del modelo. Si, por el contrario, se rechaza, el modelo no es adecuado y se puede mejorar. Ahora bien, una de las limitaciones de este contraste es que no da indicaciones sobre cuál serı́a la forma funcional apropiada para el modelo. Gretl permite obtener el contraste de Ramsey automáticamente. 6.2. Sobre constancia de los coeficientes: contraste de cambio estructural En ocasiones puede ocurrir que la relación entre la variable dependiente y los regresores cambie a lo largo del periodo muestral, es decir, puede que exista un cambio estructural. Por ejemplo, si estamos analizando el consumo de tabaco y durante el perı́odo muestral se ha producido una campaña de salud pública informando sobre los peligros que conlleva el consumo de tabaco, podemos pensar que tras dicha campaña el comportamiento de la demanda de tabaco haya cambiado, reduciéndose significativamente. Si esto ocurre no podemos especificar una única función de demanda para todo el perı́odo muestral si no que deberı́amos especificar dos funciones, una hasta la campaña antitabaco y otra para el perı́odo siguiente. Por tanto ante sospechas de que exista un cambio estructural debemos de contrastar la estabilidad de los parámetros de nuestra relación. El contraste de cambio estructural, llamado habitualmente contraste de Chow puede realizarse de manera sencilla mediante el estadı́stico de sumas de cuadrados de los residuos sin más que especificar adecuadamente el modelo restringido y el no restringido. También podemos llevarlo a cabo utilizando variables ficticias. Hay cambio estructural cuando el modelo Yt = α1 + β1 Xt + ut t = 1, 2, . . . , t1 < T (6.5) t = t1 , t2 , . . . , T (6.6) y el modelo Yt = α2 + β2 Xt + ut se verifica sólo desde el momento t1 hasta T. En este caso no podemos escribir una única ecuación del tipo: Yt = α + βXt + ut t = 1, 2, . . . , T (6.7) ya que no se verifica durante todo el periodo muestral y nuestro modelo estarı́a formado por las ecuaciones (6.5) y (6.6). Si existe cambio estructural rechazarı́amos H0 : α1 = α2 , β1 = β2 donde q = 2. Este contraste podemos llevarlo a cabo utilizando el estadı́stico F basado en las sumas de cuadrados de los residuos siendo en este caso el modelo restringido el recogido en la ecuación (6.7) mientras 171 Estadı́stica Actuarial: Análisis de Regresión que el modelo no restringido está constituido por las ecuaciones (6.5) y (6.6). Matricialmente:   · ¸ · ¸ · ¸ α1  β1  Y1 i 1 X1 0 0 u1   Modelo no restringido ⇔ = + ⇒ û0 û = û01 û1 + û02 û2 Y2 0 0 i2 X2  α2  u2 β2 · Modelo restringido ⇔ Y1 Y2 ¸ · = i 1 X1 i 2 X2 ¸· α β ¸ · + u1 u2 ¸ ⇒ û0r ûr bajo el supuesto u1 ∼ N (0, σ12 ), u2 ∼ N (0, σ22 ) el estadı́stico de contraste y distribución es: û0r ûr − û0 û/2 H0 ∼ F(2,T1 +T2 −4) û0 û/T1 + T2 − 4 Notar que para la validez del contraste además de suponer normalidad en las perturbaciones se supone también que σ12 = σ22 . 6.3. Sobre las perturbaciones: contrastes de heterocedasticidad y ausencia de correlación 6.3.1. Contraste de heterocedasticidad Hasta el momento uno de los supuestos básicos del modelo de regresión lineal es que la varianza de cada término de perturbación ui condicionada a los valores de las variables explicativas, es constante e igual a σ 2 . Llamábamos a este supuesto homocedasticidad y lo denotábamos: V (ui ) = σ 2 ó lo que es igual E(u2i ) = σ 2 ∀i. La varianza σ 2 es una medida de dispersión de ui alrededor de su media , E(ui ) = 0, o equivalentemente, una medida de dispersión de la variable dependiente Yi alrededor de su media β1 + β2 X2i + . . . + βk Xki . Ası́, homocedasticidad significa que la dispersión es la misma a través de todas las observaciones. Supongamos que disponemos de observaciones sobre consumo y renta para un conjunto de familias, en un año determinado. Las familias con rentas bajas no tienen mucha flexibilidad en sus gastos, en general el grueso de la misma se gastará en cosas básicas, por ello la forma de consumo entre familias de renta baja no variará demasiado. Sin embargo, las familias de rentas altas tienen más posibilidades de consumo, ser grandes consumidores o ahorradores o llevar un gasto equilibrado. En cualquier caso su consumo puede ser muy distinto entre sı́ por lo que pueden tener una gran dispersión alrededor de su consumo medio mientras que las familias con rentas bajas no. En esta situación suponer que existe homocedasticidad no es sensato, deberı́amos suponer que existe heterocedasticidad. Llamamos heterocedasticidad al caso en que la varianza del término de error varı́a a través del tiempo si miramos a series temporales, V (ut ) = σt2 , o cambia de una observación a otra si miramos datos de sección cruzada, (familias, paı́ses, etc.), V ar(ui ) = σi2 . Seguimos suponiendo que no existe autocorrelación entre perturbaciones por lo que sólo consideramos la existencia de heterocedasticidad. La existencia de heterocedasticidad es más habitual en datos de sección cruzada. 172 Estadı́stica Actuarial: Análisis de Regresión En la Figura 5.1 se puede apreciar la diferencia entre el comportamiento de las perturbaciones homocedásticas, a la izquierda y heterocedásticas, a la derecha. En la figura de la izquierda se puede observar que la varianza condicional de Yi a las Xi permanece igual sin importar los valores que tome la variable X. Recordar que la varianza condicional de Yi es la misma que la de ui , por tanto, en el gráfico estamos observando cómo la varianza de la perturbación permanece constante independientemente del valor que tome el regresor. En la figura de la derecha se puede observar que la varianza de Yi aumenta a medida que Xi aumenta y por tanto hay heterocedasticidad: E(u2i ) = σi2 f f ( u ( u ) ) Y Y X X α +β X 1 X X 6 α+β 6 1 2 X 2 X X 6 6 X X Figura 6.2: Perturbaciones homocedásticas versus heterocedásticas La existencia de heterocedasticidad puede aparecer en numerosas aplicaciones económicas sin embargo, es más habitual en datos de sección cruzada. A continuación veremos algunas situaciones en las cuales las varianzas de ui pueden no ser constantes. • En datos de sección cruzada. Ejemplo 6.1 Supongamos que tenemos datos para diferentes comunidades autónomas españolas en el año 2005 sobre gasto sanitario agregado, GS, renta personal disponible, R, el porcentaje de población que supera los 65 años, SEN y población, P OP , con los que estimar el siguiente modelo: GSi = β1 + β2 Ri + β3 SENi + β4 P OPi + ui i = 1, . . . , N (6.8) Las comunidades con más población y/o mayor porcentaje de población con edad superior a 65 años tendrán mayor gasto sanitario que aquellas con menor población o más joven. En esta situación suponer que la dispersión de los gastos sanitarios es la misma para todas las comunidades con distinto nivel de población y composición de la misma no es realista, y se deberı́a proponer que la varianza de la perturbación sea heterocedástica V ar(ui ) = σi2 , permitiendo por ejemplo que varı́e en función creciente con la población, es decir, σi2 = σ 2 P OPi . Incluso podemos pensar que varı́e en función creciente con el porcentaje de población mayor de 65 años, en cuyo caso propondrı́amos V ar(ui ) = σ 2 SENi o con ambas variables, por lo que la forma funcional pudiera ser V ar(ui ) = σ 2 (a P OPi + b SENi ). 173 Estadı́stica Actuarial: Análisis de Regresión Ejemplo 6.2 Un ejemplo recurrente para mostrar la heterocedasticidad es el estudio de la relación entre consumo y renta. Supongamos que tenemos datos sobre renta, R, y gasto en consumo, C, para N familias, con los que estimar el modelo: Ci = β1 + β2 Ri + ui i = 1, . . . , N (6.9) Las familias con mayor renta, una vez satisfechas sus necesidades primordiales tienen mayores posibilidades de decidir cuánto ahorrar y cuánto consumir, por lo que es habitual encontrar una mayor variabilidad en el gasto realizado por familias de renta alta que por familias de renta baja. En esta situación suponer que la dispersión de los gastos de consumo es la misma para todas las familias con distinto nivel de renta no es realista y se deberı́a proponer que la varianza de la perturbación sea heterocedástica V ar(ui ) = σi2 , permitiendo por ejemplo que varı́e en función creciente con la renta de las familias, es decir, σi2 = σ 2 Ri . Ejemplo 6.3 Un fenómeno parecido ocurre con las empresas que deben decidir qué porcentaje de sus beneficios, B, deben repartir como dividendos, D. Las empresas con mayores beneficios tienen un margen de decisión muy superior al fijar su polı́tica de dividendos. Al estimar el modelo: Di = β1 + β2 Bi + ui i = 1, . . . , N (6.10) cabrı́a esperar que la varianza de ui dependa del nivel de beneficios de la empresa i-ésima y podrı́amos proponer que por ejemplo, E(u2i ) = σi2 = σ 2 Bi . • La heterocedasticidad también puede aparecer como consecuencia de la agregación de datos. En este caso la varianza puede depender del número de observaciones del grupo. Ejemplo 6.4 modelo: Supongamos un investigador que desea estimar los coeficientes del siguiente Yj = β1 + β2 Xj + uj j = 1, . . . , N (6.11) donde uj ∼ N (0, σ 2 ), es decir, la varianza de la perturbación es homocedástica. Supongamos que el número de observaciones N es tal que aconseja agrupar las observaciones en m-grupos de ni observaciones cada uno. Supongamos que como observación del grupo i-ésimo se toma la media aritmética dentro del grupo. El modelo a estimar serı́a: Ȳi = β1 + β2 X̄i + ūi i = 1, . . . , m (6.12) y la nueva perturbación ūi seguirá teniendo media cero, pero su varianza no será constante ya que dependerá del número de observaciones dentro del grupo, V ar(ūi ) = σ2 ni i = 1, . . . , m. Si el número de observaciones dentro del grupo es el mismo en todos los grupos la varianza de la perturbación ūi es homocedástica. • Otro caso serı́a la existencia de un cambio estructural en varianza recogido por una variable ficticia en la varianza de la perturbación. 174 Estadı́stica Actuarial: Análisis de Regresión Ejemplo 6.5 Supongamos que se desea estudiar la relación entre producción, Y , y mano de obra, X, para un conjunto de 20 trabajadores de los cuales 10 son mujeres y el resto hombres. Si suponemos que la variabilidad de la producción es distinta para los hombres que para las mujeres nuestro modelo a estimar serı́a: Yi = β1 + β2 Xi + ui i = 1, . . . , 20 (6.13) donde ui ∼ (0, α1 + α2 Di ) siendo Di una variable ficticia que toma valor la unidad si la observación corresponde a una mujer y cero en el caso contrario. En este caso: V ar(ui ) = α1 + α2 V ar(ui ) = α1 para las observaciones correspondientes a las mujeres para las observaciones correspondientes a los hombres Suponiendo que las primeras diez observaciones corresponden a mujeres, la matriz de varianzas y covarianzas del vector de perturbaciones serı́a la siguiente: ¸ · (α1 + α2 )I10 0 0 E(uu ) = 0 α1 I10 Consecuencias de ignorar la heterocedasticidad Vamos a analizar las consecuencias de utilizar el estimador MCO en presencia de heterocedasticidad: • En las propiedades del estimador MCO: El estimador MCO bajo heterocedasticidad sigue siendo una combinación lineal de las perturbaciones. También sigue siendo insesgado ya que la media de la perturbación es cero. Sin embargo, no va a ser de varianza mı́nima ya que la matriz de varianzas y covarianzas σ 2 (X 0 X)−1 obtenida en el Tema 5 es mı́nima bajo las hipótesis básicas. Ahora, sin embargo, éstas no se cumplen: estamos considerando el supuesto de heterocedasticidad por tanto E(u2i ) 6= σ 2 , el Teorema de Gauss-Markov no se cumple y el estimador no es de varianza mı́nima. Ahora la matriz de varianzas y covarianzas de los coeficientes obtenida bajo este supuesto no vendrá dada por la expresión σ 2 (X 0 X)−1 y por tanto no será mı́nima. El estimador no es eficiente. • En los contrastes de hipótesis: Una forma sencilla de pensar en las consecuencias sobre los contrastes de hipótesis es pensar que dado que el estimador no es el mejor de los posibles la inferencia realizada con el mismo no será fiable. Formalmente lo que está ocurriendo es que el estimador de σ 2 propuesto en el Tema 5 ahora no es insesgado por lo que los estadı́sticos de contraste habituales no tendrán las distribuciones t y F habituales. Por tanto, los contrastes no son válidos. La existencia de heterocedasticidad en ui tiene consecuencias en los estimadores MCO, en concreto ya no son los estimadores de menor varianza entre los estimadores lineales e insesgados. Existe otro estimador, el estimador de Mı́nimos Cuadrados Generalizados que es el de menor varianza entre los lineales e insesgados y para el cual la inferencia es válida. Las consecuencias y soluciones del 175 Estadı́stica Actuarial: Análisis de Regresión problema no forman parte del contenido de este curso. Sin embargo, en la siguiente sección vamos a aprender a detectar la existencia de heterocedasticidad con un estadı́stico de contraste sencillo y que aparece por defecto en los resultados de estimación MCO de gretl. En cursos más avanzados aprenderéis a solucionar el problema. Detección de la heterocedasticidad Sabemos que en presencia de heterocedasticidad el estimador MCO es ineficiente, y los contrastes de hipótesis no son válidos por ello es importante detectar la posible existencia de heterocedasticidad. La determinación de la existencia de heterocedasticidad sólo podremos conseguirla aplicando un test de contraste para heterocedasticidad, sin embargo podemos aproximarnos gráficamente al problema realizando un estudio visual de los residuos del modelo. Los residuos MCO son un estimador insesgado de ui aún en presencia de heterocedasticidad. Usaremos el residuo al cuadrado como aproximación al comportamiento de la varianza de la perturbación. Para ver si puede existir un problema de heterocedasticidad podemos empezar por dibujar el cuadrado de los residuos MCO contra la variable de la cual sospechamos que depende σ 2 , es decir, que sospechamos causa la heterocedasticidad Nuestro objetivo es claro: Detectar la existencia de heterocedasticidad en las perturbaciones de un modelo. La primera aproximación al objetivo es el estudio de los gráficos de residuos y de las variables del modelo. 6.3.2. Detección gráfica. La aplicación del estimador de MCG y algunos contrastes de heterocedasticidad requieren conocer la forma funcional de la varianza de la perturbación. Si suponemos que la varianza de la perturbación depende de uno o más regresores, u otras variables conocidas, un instrumento adecuado para aproximarnos a la misma serı́a llevar a cabo un análisis de los residuos MCO donde no hemos tenido en cuenta la existencia de heterocedasticidad. Aunque ûM CO,i no es lo mismo que ui la detección de patrones sistemáticos en la variabilidad de los residuos MCO nos indicará la posible existencia de heterocedasticidad en las perturbaciones. Además, puede indicarnos una posible forma funcional de la misma. Consideramos el modelo (6.8) recogido en el Ejemplo 6.1: GSi = β1 + β2 Ri + β3 SENi + β4 P OPi + ui i = 1, . . . , N donde suponemos E(ui ) = 0 ∀i y E(ui uj ) = 0 ∀i, j i 6= j. Si sospechamos que ui es heterocedástica debido a la variable P OP , podemos intentar detectar la existencia de heterocedasticidad en las perturbaciones del modelo ayudándonos del gráfico de los residuos MCO, (ûM CO,i ), frente a la variable P OPi . Si el gráfico es como el recogido en la Figura 6.3 pensaremos que la variabilidad de los residuos ûM CO,i se incrementan con P OPi y que el incremento es directamente proporcional. Ası́, podrı́amos 176 Estadı́stica Actuarial: Análisis de Regresión Residuos de la regresión (= GS observada − estimada) 5 4 3 residuos MCO 2 1 0 −1 −2 −3 −4 0 5 10 15 20 25 30 POP Figura 6.3: Residuos MCO versus P OP proponer, por ejemplo: E(u2i ) = σ 2 P OPi i = 1, 2, . . . , N Si el gráfico de los residuos MCO frente a P OP hubiera sido como el recogido en la Figura 6.4 supondrı́amos que el aumento en la varianza de ui es inversamente proporcional a P OPi y propondrı́amos: E(u2i ) = σ 2 P OPi−1 i = 1, 2, . . . , N 5 4 3 residuos MCO 2 1 0 -1 -2 -3 -4 0 0.5 1 1.5 2 POP Figura 6.4: Residuos MCO versus P OP También podemos optar por dibujar la serie de los residuos al cuadrados MCO frente a la variable que creemos causa la heterocedasticidad como se muestra en la Figura 6.5. En el gráfico de la izquierda se muestran los pares (SENi , ûM CO,i ), en el gráfico de la derecha se muestran los pares (SENi , û2M CO,i ). Ambos gráficos muestran la misma información, muestran que la variabilidad de los residuos se incrementa con SEN y podrı́amos proponer, por ejemplo V ar(ui ) = E(u2i ) = σ 2 SENi . 177 Estadı́stica Actuarial: Análisis de Regresión 20 Residuos de la regresión (= GS observada − estimada) 5 18 4 16 Cuadrado de los Residuos MCO 3 residuos MCO 2 1 0 −1 14 12 10 8 6 −2 4 −3 2 −4 0 6 8 10 12 14 16 18 6 8 10 12 SEN 14 16 18 SEN Figura 6.5: Residuos MCO y sus cuadrados versus SEN En general a priori no se conocerá cuál de las variables exógenas genera la heterocedasticidad por lo que resulta aconsejable estudiar los gráficos de los residuos de MCO, contraponiéndolos a cada una de las variables exógenas del modelo, como estamos haciendo al estudiar los residuos frente a P OPi y frente a SENi . Notar que ambas variables parecen afectar a la varianza de la perturbación, por ello estarı́a justificado proponer V ar(ui ) = (a P OPi + b SENi ), donde a y b son desconocidos y el factor de escala es la unidad, σ 2 = 1. 2 1.5 1 Residuos MCO 0.5 0 -0.5 -1 -1.5 -2 -2.5 0 5 10 15 20 25 30 POP Figura 6.6: Perturbaciones homocedásticas Si la gráfica entre ûM CO,i y P OPi hubiera resultado como la de la Figura 6.6, concluirı́amos que la varianza de la perturbación no depende de P OPi ya que no se aprecia ningún patrón de comportamiento y parece que hay una distribución aleatoria de los pares (P OPi , ûi ). En esta situación procede analizar los residuos frente al resto de regresores del modelo. Las formas anteriores no son las únicas. Si recordamos, en el Ejemplo 3.6 se suponı́a una situación donde hombres y mujeres en una empresa tenı́an diferente productividad y se suponı́a que V ar(ui ) = α1 + α2 Di siendo Di una variable ficticia que toma valor uno si la observación corresponde a una mujer y cero en caso contrario. En esta situación esperarı́amos un gráfico como el recogido en la 178 Estadı́stica Actuarial: Análisis de Regresión Figura 6.7 donde claramente la dispersión de los residuos para las mujeres es mucho mayor que para los hombres. 800 600 400 Residuos MCO 200 0 -200 -400 -600 -800 0 1 D_i Figura 6.7: Residuos MCO frente a una variable ficticia Como conclusión diremos que al analizar los gráficos de la relación residuos MCO, o sus cuadrados, con cada uno de los regresores lo que intentaremos detectar visualmente es un crecimiento o decrecimiento en la variabilidad de los residuos con respecto a la variable en cuestión. Sin embargo el estudio gráfico de los residuos no es determinativo. Para determinar si existe o no heterocedasticidad tendremos que realizar un contraste de existencia de heterocedasticidad con un estadı́stico adecuado. Estadı́sticos de contraste de existencia de heterocedasticidad hay muchos y unos se adecúan más a unas situaciones que otros y en general necesitan suponer una forma funcional para σi2 . El análisis gráfico no es una pérdida de tiempo ya que la relación entre Xki y ûM CO,i nos indicará una posible forma funcional (de heterocedasticidad) para la varianza de la perturbación y puede indicarnos cuál es el test de contraste más adecuado. En este tema vamos a estudiar un único test de heterocedasticidad que tiene carácter general y no exige supuestos sobre el comportamiento de σi2 . Además gretl lo proporciona directamente. 6.3.3. Contraste de White El contraste de heterocedasticidad propuesto por White en 1980 es un contraste paramétrico, de carácter general, que no precisa especificar la forma que puede adoptar la heterocedasticidad. En este sentido puede calificarse de robusto. Antes de aplicar el contraste con gretl vamos a desarrollar paso a paso el contraste para entender su mecanismo. Para la ilustración vamos a suponer que queremos contrastar la existencia de heterocedasticidad en el modelo: Yi = β1 + β2 X2i + β3 X3i + ui Se procede de la forma siguiente: 1. Estimamos por MCO el modelo original y calculamos los residuos de MCO, ûM CO,i . 179 (6.14) Estadı́stica Actuarial: Análisis de Regresión 2. Estimamos la regresión auxiliar: el cuadrado de los residuos mı́nimo-cuadráticos de la regresión anterior, sobre una constante, los regresores del modelo original, sus cuadrados y productos cruzados de segundo orden, evitando los redundantes: 2 2 û2i = α1 + α2 X2i + α3 X3i + α4 X2i + α5 X3i + α6 X2t X3i + ωi (6.15) Contrastar la hipótesis nula de homocedasticidad es equivalente a contrastar que todos los coeficientes de esta regresión, exceptuando el término independiente son cero. Es decir: H0 : α2 = α3 = . . . = α6 = 0 3. El estadı́stico de contraste es λ = N R2 donde R2 es el coeficiente de determinación de la regresión auxiliar (6.15). Rechazamos H0 si N R2 > χ(p)|α siendo p el número de coeficientes en la regresión auxiliar sin incluir el término independiente, en el ejemplo p = 5. Observaciones: 1. Este contraste es muy flexible ya que no especifica la forma funcional de heterocedasticidad, pero por otro lado, si se rechaza la hipótesis nula de homocedasticidad no indica cuál puede ser la dirección a seguir. 2. A la hora de incluir los regresores de la regresión auxiliar debemos ser muy cuidadosos para no incurrir en multicolinealidad exacta, por ejemplo en el caso de las variables ficticias con valores 0 y 1, en este caso el cuadrado de la variable coincide con ella misma. 3. También pueden surgir problemas en modelos con un alto número de regresores que puede conllevar que en la regresión auxiliar el número de variables sea tal que no supere al número de observaciones y nos quedemos sin grados de libertad. Si éste es el caso podemos optar por regresar el cuadrado de los residuos MCO sobre Ŷi y Ŷi2 ya que Ŷi es el ajuste de Yi usando el estimador MCO con todos los regresores originales. 4. El contraste de White puede recoger otro tipo de problemas de mala especificación de la parte sistemática, omisión de variables relevantes, mala forma funcional etc. Esto es positivo si se identifica cuál es el problema, en caso contrario, la solución que se tome puede estar equivocada. Si la detección de heterocedasticidad se debe a un problema de mala especificación la solución pasa por especificar correctamente el modelo. 6.3.4. Contraste de ausencia de correlación temporal En el modelo de regresión, el término de perturbación engloba aquellos factores que determinando la variable endógena, no están recogidos en la parte sistemática del modelo. Estos factores pueden ser innovaciones, errores de medida en la variable endógena, variables omitidas, etc. Hasta el momento uno de los supuestos básicos del modelo de regresión lineal es que la covarianza entre perturbaciones de distintos periodos es cero. Sin embargo, si estos factores están correlacionados en el tiempo o en el espacio, entonces no se satisface la hipótesis de NO autocorrelación que escribı́amos como 180 Estadı́stica Actuarial: Análisis de Regresión E(ut us ) = 0 ∀t, s t 6= s. Este fenómeno se conoce con el nombre de autocorrelación: correlación serial, en el caso de series temporales y correlación espacial en el caso de datos de sección cruzada. En general es más habitual en datos de serie temporal. Concepto de autocorrelación: Existe autocorrelación cuando el término de error de un modelo econométrico está correlacionado consigo mismo. Es decir, la covarianza entre las perturbaciones es distinta de cero para diferentes momentos del tiempo (o entre distintos individuos)1 : E(ut us ) 6= 0 ∀t, s t 6= s Esta dinámica, aunque no sea relevante en media, refleja un patrón sistemático que tenemos que considerar a la hora de estimar el modelo. La existencia de autocorrelación supone el incumplimiento de una de las hipótesis básicas sobre la perturbación de forma similar a la existencia de heterocedasticidad. Esta afecta a las varianzas mientras que la autocorrelación afecta a las covarianzas. En cualquier caso, las consecuencias sobre el estimador MCO son las mismas: el estimador no es de varianza mı́nima, aunque sigue siendo lineal e insesgado. Los contrastes de hipótesis no son válidos por las mismas razones que en el supuesto de heterocedasticidad. Si sospechamos que en un modelo la perturbación está autocorrelada, primero deberı́amos cerciorarnos realizando un contraste y en el caso de que ésta exista es importante estimar el modelo bajo estos nuevos supuestos con un estimador alternativo a MCO que sea de varianza mı́nima y válido para hacer inferencia. Este estimador queda fuera del contenido de este tema, sin embargo, aprenderemos a detectar el problema mediante un contraste y estudiaremos un proceso sencillo para recoger el comportamiento de la perturbación bajo autocorrelación: el proceso autorregresivo de primer orden. Causas de autocorrelación Como decı́amos al iniciar este capı́tulo el término de perturbación de un modelo engloba aquellos factores que, determinando la variable endógena, no están recogidos en la parte sistemática del modelo. Factores como variables omitidas, mala especificación de la forma funcional o errores de medida, entre otros, son causa de autocorrelación. Repasaremos algunos de ellos: • Shocks aleatorios prolongados Sea el modelo: Rt = β1 + β2 RMt + ut t = 1, 2, . . . , T donde Rt es la rentabilidad de un activo en el periodo t y RMt es la rentabilidad del mercado en dicho periodo t. Si en un momento dado se produce una caı́da del mercado, la rentabilidad 1 No es preciso que ut esté correlacionada consigo misma en cada dos instantes distintos del tiempo, sino que basta que la correlación se extienda a algunos periodos. 181 Estadı́stica Actuarial: Análisis de Regresión del activo se verá afectada a la baja y como consecuencia la rentabilidad obtenida será menor que la esperada. Este efecto se prolongará en el tiempo hasta que poco a poco los inversores recuperen la confianza y el mercado vuelva a estabilizarse. El shock se recogerá en el término de perturbación. Si por ejemplo, la caı́da se produce en (t − 1), lo que estamos diciendo es que la perturbación en t dependerá de lo ocurrido en (t − 1) vı́a ut−1 . • Existencia de ciclos y tendencias Si estamos analizando un modelo econométrico cuya variable endógena presenta ciclos y/o tendencias que no se explican a través de las variables exógenas, la perturbación recoge dichas estructuras, presentando un comportamiento de autocorrelación. En este caso, los residuos presentan agrupaciones de desviaciones por encima del promedio (en la parte alta del ciclo) y agrupaciones de desviaciones por debajo del promedio (parte baja del ciclo). • Relaciones no lineales Supongamos que la verdadera relación entre los tipos de interés, rt , y el stock de Deuda Pública, Dt , es cuadrática: rt = β1 + β2 Dt + β3 Dt2 + ut t = 1, 2, . . . , T β2 > 0, β3 < 0 Este modelo implica que los tipos de interés aumentan al crecer el stock de deuda pública, aunque menos que proporcionalmente, puesto que se tiene: ∂rt = β2 + 2β3 Dt < β2 ∂Dt tanto menor cuanto mayor es Dt . Pero sin embargo se especifica y se estima un modelo lineal: rt = β1 + β2 Dt + ut t = 1, 2, . . . , T En este caso la curvatura de la parte sistemática pasa a ser recogida por la perturbación. Los residuos presentarán una racha de residuos negativos seguida de otra racha de residuos positivos para seguir con otra negativa. • Variables omitidas relevantes correlacionadas Si el modelo realmente se especifica como: Yt = β1 + β2 X2t + β3 X3t + ut t = 1, 2, . . . , T ut = Yt − β1 − β2 X2t − β3 X3t ût = Yt − β̂1 − β̂2 X2t − β̂3 X3t Pero estimamos: Yt = β1 + β2 X2t + vt t = 1, 2, . . . , T vt = Yt − β1 − β2 X2t = ut + β3 X3t v̂t = Yt − β̃1 − β̃2 X2t = ût − (β̃1 − β̂1 ) − (β̃2 − β̂2 )X2t + β̂3 X3t En este contexto de omisión recordemos que los estimadores MCO son sesgados en general. En consecuencia, tras un análisis de los residuos v̂t tanto gráfico como mediante tests, es muy probable que si la variable omitida está correlacionada o presenta ciclos o tendencias el investigador llegue a la conclusión de que: Cov(vt , vs ) 6= 0. De todas formas hay que tener en cuenta que no siempre que se omite una variable relevante se causa autocorrelación. 182 Estadı́stica Actuarial: Análisis de Regresión Proceso autorregresivo de primer orden, AR(1) Existen numerosos procesos capaces de reproducir estructuras de autocorrelación en la perturbación, sin embargo el proceso autorregresivo de primer orden es el proceso de autocorrelación más sencillo y uno de los que mejor se suele ajustar a datos económicos2 . Se especifica como: ut = ρut−1 + ²t t = 1, 2, . . . , T de forma que la perturbación en el periodo t depende de la perturbación del periodo anterior (t − 1) más un término aleatorio (o innovación) ²t cuyas caracterı́sticas son: E(²t ) = 0 ∀t E(²2t ) = σ²2 ∀t E(²t ²s ) = 0 ∀t, s t 6= s ²t ∼ iid(0, σ²2 ) y que habitualmente se le llama ruido blanco3 . La especificación completa del MRLG cuando la perturbaciones presentan autocorrelación es: Yt = β1 + β2 X2t + β3 X3t + . . . + βK XKt + ut ut = ρut−1 + ²t ²t ∼ iid(0, σ²2 ) t = 1, 2, . . . , T |ρ| < 1 El coeficiente ρ mide la correlación entre ut y ut−1 y debe cumplir que |ρ| < 1 para que el proceso no sea explosivo. Se le denomina coeficiente de autocorrelación de orden uno (o primer orden) ya que uno es el número de periodos entre ut y ut−1 : ρ= p Cov(ut , ut−1 ) p V ar(ut ) V ar(ut−1 ) −1<ρ<1 Si la covarianza es positiva se le denomina correlación positiva y si es negativa, correlación negativa. Dado que ut = Yt − E(Yt |{Xit }K la perturbación representa la diferencia entre el comportai=1 ) miento observado y el comportamiento promedio. Dados los posibles valores de ρ tenemos que: i) Si ρ > 0 entonces un valor elevado de ut genera un valor de Yt por encima del promedio y tendrá mayor probabilidad de ir seguido por un valor elevado de ut+1 y ası́ sucesivamente. ii) Si ρ < 0 un valor alto de ut irá seguido por un valor bajo de ut+1 y éste por uno alto de ut+2 y ası́ sucesivamente. La relación entre la perturbación ut y la innovación ²t se recoge en el diagrama siguiente: ut−2 −→ ↑ ²t−2 ut−1 −→ ↑ ²t−1 ut −→ ↑ ²t ut+1 ↑ ²t+1 2 El proceso autorregresivo de orden uno no es el único proceso que recoge dinámica en la perturbación. El proceso autorregresivo más general de todos es el proceso autorregresivo de orden p, AR(p): ut = ρ1 ut−1 + ρ2 ut−2 + . . . + ρp ut−p + ²t Además existen otros procesos alternativos a los autorregresivos. 3 Si nos fijamos, ²t cumple las hipótesis básicas sobre la perturbación, es por tanto homocedástica y no autocorrelada. 183 Estadı́stica Actuarial: Análisis de Regresión por lo que cada innovación influye sobre la perturbación en el mismo periodo o perı́odos posteriores, pero nunca sobre los valores anteriores, es decir: E(²t ut−s ) = 0 s > 0. Además en el diagrama se puede observar que ut no depende directamente de ut−2 pero sı́ lo hace a través de ut−1 , por tanto ut está correlado con todos las perturbaciones pasadas. u t u t t t Figura 6.8: Proceso autorregresivo de orden uno En la izquierda de la Figura 6.8 se observa un proceso autorregresivo de primer orden con parámetro ρ positivo. En ella podemos observar una racha de residuos positivos seguidos de una racha de residuos negativos y ası́ sucesivamente. En cambio, cuando el parámetro del proceso autorregresivo es negativo, los signos de los residuos se alternan como podemos ver en la figura de la derecha del mismo gráfico. Detección de la autocorrelación En la práctica no se conoce a priori si existe autocorrelación ni cuál es el proceso más adecuado para modelarla. Para determinar su existencia es necesario contrastar dicha hipótesis mediante un estadı́stico de contraste. Si embargo, ningún contraste de autocorrelación debe excluir un examen riguroso de los residuos generados en la estimación del modelo. El gráfico de los mismos puede indicarnos la existencia de autocorrelación. Dado que los residuos son una aproximación a la perturbación, la existencia de patrones o comportamientos sistemáticos en los mismos indicarı́a la posible existencia de autocorrelación en ut . Por ejemplo, podemos esperar que el gráfico de la evolución temporal de ût,M CO se comporte de forma similar a lo mostrado por la Figura 6.8. Sin embargo, también podemos dibujar la evolución temporal de ût,M CO contra la de ûs,M CO para s = t − 1. Si encontramos que la mayorı́a de los puntos en dicho gráfico se hallan en el primer o tercer cuadrante, izquierda de la Figura 6.9, ello es un indicio de autocorrelación positiva. Si se hallan en el segundo y cuarto cuadrante, derecha de la Figura 6.9, indicará autocorrelación negativa. Tras el análisis gráfico, si sospechamos que existe autocorrelación debemos contrastarla con un estadı́stico de contraste. Existen varios estadı́sticos de contraste pero en este tema vamos a estudiar sólo uno, el estadı́stico de Durbin Watson, especı́fico para contrastar la existencia de un proceso autorregresivo de primer orden. 184 Estadı́stica Actuarial: Análisis de Regresión u t u t u u s s Figura 6.9: Perturbaciones AR(1) positivo versus AR(1) negativo Contraste de Durbin Watson Durbin y Watson propusieron en 1951 un estadı́stico para contrastar la existencia de un proceso AR(1) en el término de perturbación. La hipótesis nula es la no existencia de autocorrelación: H0 : ρ = 0 frente a la alternativa Ha : ρ 6= 0 en ut = ρut−1 + ²t ²t ∼ (0, σ²2 ) y se contrasta mediante el estadı́stico: PT 2 t=2 (ût − ût−1 ) PT 2 t=1 ût DW = donde ût son los residuos mı́nimo-cuadráticos ordinarios de estimar el modelo original sin tener en cuenta la existencia de autocorrelación en las perturbaciones. Gretl proporciona el valor de este estadı́stico entre los resultados de la estimación MCO. Sin embargo antes de utilizarlo vamos a estudiar su interpretación y manejo sin recurrir a gretl. • Interpretación del estadı́stico DW: Si el tamaño muestral es suficientemente grande4 podemos emplear la relación DW ' 2(1 − ρ̂) en base a la cual podemos establecer el siguiente comportamiento en los residuos: • Si existe autocorrelación positiva de primer orden, valores positivos del término de error ut tiendan a ir seguidos de valores positivos y asimismo, valores negativos tiendan a ir seguidos 4 Teniendo en cuenta las aproximaciones: T X û2t ' t=2 con lo que DW ' 2 PT t=2 û2t − 2 PT PT t=2 2 t=1 ût T X û2t−1 ' û2t t=1 t=2 ût ût−1 T X PT ût ût−1 ' 2(1 − ρ̂) ' 2 − 2 Pt=2 T 2 t=2 ût−1 donde ρ̂ es el estimador de ρ por MCO P en el modelo ut = ρut−1 + ²t , empleando como aproximación de ut el residuo û û MCO, es decir, ût = ρût−1 + ²t y ρ̂ = P ût 2 t−1 . t−1 185 Estadı́stica Actuarial: Análisis de Regresión de valores negativos. Dado que la aproximación a la perturbación es el residuo, los patrones en la perturbación serán detectados en el residuo. Ası́, observaremos agrupaciones de residuos positivos seguidas de agrupaciones de residuos negativos. En estas circunstancias, generalmente |ût − ût−1 | < |ût | ⇒ (ût − ût−1 )2 < û2t y el numerador del estadı́stico “será pequeño” en relación al denominador, con lo que el estadı́stico “será pequeño”. En consecuencia cuanto más cercano esté el parámetro ρ a la unidad más próximo a cero estará el DW. En el extremo positivo tenemos que ρ −→ 1 ⇒ DW −→ 0. • Si existe autocorrelación negativa de primer orden, valores positivos de ût tienden a ir seguidos de valores negativos, en este caso |ût − ût−1 | > |ût | ⇒ (ût − ût−1 )2 > û2t con lo que el estadı́stico DW tenderá a tomar valores grandes. En el extremo negativo tenemos que ρ −→ −1 ⇒ DW −→ 4. A partir de la relación DW ' 2(1 − ρ̂) se puede estadı́stico DW. 0 < ρ̂ < 1 ρ̂ = 0 −1 < ρ̂ < 0 establecer el rango de valores que puede tomar el DW ∈ (0, 2) DW ' 2 DW ∈ (2, 4) La distribución del estadı́stico DW bajo H0 depende de la matriz de regresores X por lo que los valores crı́ticos del contraste también serán diferentes para cada posible X. Durbin y Watson tabularon los valores máximo (dU ) y mı́nimo (dL ) que puede tomar el estadı́stico independientemente de cuál sea X, y tal que dL < DW < dU . La distribución de dL y dU depende del tamaño de la muestra, T, y de K 0 que denota el número de variables explicativas del modelo exceptuando el término independiente. • Contraste de existencia de autocorrelación positiva: H0 : ρ = 0 Ha : ρ > 0 en ut = ρut−1 + ²t |ρ| < 1 ²t ∼ iid(0, σ²2 ) 1. Si DW < dL se rechaza la H0 para un nivel de significatividad α dado, por tanto existe autocorrelación positiva. 2. Si DW > dU no se rechaza la H0 para un nivel de significatividad α dado, por tanto no existe autocorrelación positiva. 3. Si dL < DW < dU estamos en una zona de incertidumbre y no podemos concluir si existe o no autocorrelación positiva de primer orden. • Contraste de existencia de autocorrelación negativa: H0 : ρ = 0 Ha : ρ < 0 en ut = ρut−1 + ²t |ρ| < 1 ²t ∼ iid(0, σ²2 ) 1. Si DW < 4 − dU no se rechaza la H0 para un nivel de significatividad α dado, por tanto no existe autocorrelación negativa. 186 Estadı́stica Actuarial: Análisis de Regresión 2. Si DW > 4 − dL se rechaza la H0 para un nivel de significatividad α dado, por tanto existe autocorrelación negativa. 3. Si 4 − dU < DW < 4 − dL estamos en una zona de incertidumbre y como en el caso anterior, no podemos concluir si existe o no autocorrelación negativa de primer orden. Gráficamente: H0 : ρ = 0 Autocorrelación positiva Autocorrelación negativa ←− − − − − Ha : ρ > 0 − − − −− −→ ←− − − − − − − −Ha : ρ < 0 − − − −− −→ | | | | | Rechazar | | Aceptar ρ=0 | | Rechazar ρ=0 | Duda | | | Duda | ρ=0 | | | | | 0 dL dU 2 4 − dU 4 − dL 4 Si el resultado del contraste es que existe autocorrelación y ésta no es debida a una mala especificación del modelo, éste no debe ser estimado por MCO ya que este estimador es ineficiente. Si la autocorrelación es originada por una mala especificación del modelo primero se ha de corregir esta especificación y una vez el modelo esté correctamente especificado analizar las propiedades de la perturbación y actuar en consecuencia. • Observaciones sobre el contraste de Durbin Watson: 1. El contraste de Durbin Watson también se puede considerar un contraste de mala especificación del modelo. La omisión de variables relevantes correlacionadas, una forma funcional inadecuada, cambios estructurales no incluidos en el modelo, etc., pueden originar un estadı́stico DW significativo. Esto nos puede llevar a errores si consideramos que hay evidencia de autocorrelación y se modela un proceso AR(1). Por otro lado, si ut sigue un proceso distinto de un AR(1), es probable que el estadı́stico DW lo detecte. Por lo tanto, el estadı́stico de Durbin Watson es útil porque nos indica la existencia de problemas en el modelo, pero a veces no nos ayuda a establecer cuál es la estructura real. En caso de no rechazar la H0 , podemos afirmar que no tenemos un AR(1), pero no sabemos si tenemos alguna otra estructura alternativa. 2. Por otro lado el estadı́stico DW sólo debe aplicarse cuando los regresores son no estocásticos, en presencia de regresores aleatorios como la variable endógena retardada no tiene validez. 3. Cuando el estadı́stico DW cae en zona de duda, y si no podemos llevar a cabo un contraste alternativo, no debemos concluir que no existe autocorrelación. El procedimiento conservador aconseja rechazar la hipótesis nula y estimar por un estimador alternativo a MCO ya que las consecuencias de ignorar su existencia cuando sı́ la hay son más graves que las correspondientes al caso contrario. 187 Estadı́stica Actuarial: Análisis de Regresión 6.4. Predicción Aunque pueda considerarse que la obtención de un buen conjunto de estimaciones es el objetivo principal de la Econometrı́a, a menudo también tiene gran importancia el logro de unas predicciones precisas. Supongamos que con N observaciones se ha estimado el modelo: Yi = β1 + β2 X2i + . . . + βK XKi + ui . Dada una nueva observación de las variables explicativas, £ ¤ Xp0 = 1 X2p · · · XKp p 6∈ {1, 2, . . . , N } se puede utilizar el modelo estimado por MCO para predecir el valor que tendrá la variable endógena (desconocido en ese momento). Dado el modelo de regresión, la ecuación para Yp es: Yp = β1 + β2 X2p + . . . + βK XKp + up Para abreviar, utilizaremos la expresión vectorial: Yp = Xp0 β + up Dada la información muestral disponible (no conocemos β ni up ) la predicción por punto de Yp es: Yˆp = Xp0 β̂M CO O lo que es lo mismo: Ŷp = β̂1 + β̂2 X2p + . . . + β̂K XKp . Hay cuatro fuentes potenciales de error al realizar una predicción: 1. El error de especificación. El modelo de regresión en que nos basamos puede ser incorrecto: pueden faltar variables explicativas que afectan de manera clave a Y , puede que la forma funcional propuesta no sea correcta, puede que se no se cumpla alguna hipótesis básica, etc. 2. Error en los valores de Xp . La predicción se hace para unos valores dados de Xp , pero estos pueden ser desconocidos en el momento en que se hace la predicción. 3. El error muestral. No hay más remedio que usar β̂ en vez de los valores verdaderos β para hacer la predicción. 4. El error aleatorio. Yp dependerá de up , la perturbación aleatoria (desconocida) correspondiente a esa observación. Cuanto más diferente sea de cero, mayor será este error. Dadas todas estas fuentes de incertidumbre a la hora de predecir Y , es muy recomendable que la predicción puntual de Y se acompañe con una medida de lo precisa que esperamos que sea esa predicción. En esto consiste la predicción por intervalo. 188 Estadı́stica Actuarial: Análisis de Regresión • Predicción por intervalo del valor de la variable endógena Es muy difı́cil que el valor predicho para Yp , Ŷp coincida con el valor real. Si la predicción por punto se hace para el mes siguiente, o para el año siguiente, llegará un momento en que conoceremos el error cometido. Este error se denomina error de predicción y es igual a ep = Yp − Yˆp En el momento en que hacemos la predicción, tenemos cierta información sobre ep , ya que es una variable aleatoria con una distribución conocida. En concreto, ¡ ¢−1 ep ∼ N (0, σ 2 ( 1 + Xp0 X 0 X Xp )) Demostración: ep = Yp − Yˆp = Xp0 β + up − Xp0 β̂ = = up − Xp0 (β̂ −β) (6.16) Buscamos su distribución. Si up es normal el estimador MCO dado que es lineal en la perturbación también lo será y por tanto el error de predicción también lo es. En cuanto a su media y varianza: h i E(ep ) = E up − Xp0 (β̂ −β) = 0 − Xp0 (β − β) = 0 V (ep ) = E [ep − E(ep )] [ep − E(ep )]0 = ¡ ¢ = E ep e0p = ·³ ´³ ´0 ¸ = E up − Xp0 (β̂ −β) up − Xp0 (β̂ −β) = h i h i £ ¤ = E up u0p + E Xp0 (β̂ −β) (β̂ −β)0 Xp − 2Xp0 E (β̂ −β) u0p = h i h¡ i ¢−1 0 ¡ ¢ = E u2p + Xp0 E (β̂ −β) (β̂ −β)0 Xp − 2Xp0 E X 0 X X u up = ¡ ¢−1 = σ 2 + σ 2 Xp0 X 0 X Xp − 0 = ³ ´ ¡ ¢ −1 = σ 2 1 + Xp0 X 0 X Xp Por tanto: ³ ´ ¡ ¢−1 ep ∼ N (0, σ 2 1 + Xp0 X 0 X Xp ) Tipificando el error de predicción queda: q σ ep − 0 1 + Xp0 ( X 0 X )−1 Xp ∼ N (0, 1) El problema es que σ 2 es desconocida. Utilizando que ep y σ̂ 2 obtenemos q σ̂ ep 1 + Xp0 ( X 0 X )−1 Xp 189 ∼ t(N −K) Estadı́stica Actuarial: Análisis de Regresión De hecho el denominador final es σ̂ep (la desviación estimada del error de predicción). Tras sustituir ep = Yp − Ŷp , se puede utilizar dicha distribución para obtener el siguiente intervalo de predicción para la variable endógena: " # Yp − Ŷp P r − t α2 (N −K) ≤ ≤ t α2 (N −K) = 1 − α σ̂ep h i P r Ŷp − t α2 (N −K) · σ̂ep ≤ Yp ≤ Ŷp + t α2 (N −K) · σ̂ep = 1 − α ´ ³ IC1−α (Yp ) = Ŷp − t α2 (N −K) σ̂ep , Ŷp + t α2 (N −K) σ̂ep Ejercicio 6.1 Una gestorı́a comercializa 100 pólizas de seguro. Para tener información acerca del tipo de póliza más solicitada utiliza el siguiente modelo: Ni = β1 Hi + β2 Vi + β3 Mi + β4 Ai + ui i = 1, . . . , 100 donde • Ni es el número de pólizas suscritas del producto i-ésimo. ½ 1 si la póliza pertenece a seguros del hogar • Hi = 0 en caso caso contrario ½ 1 si la póliza pertenece al ramo de seguros de vida • Vi = 0 en caso caso contrario ½ 1 si la póliza pertenece al ramo de seguros médicos • Mi = 0 en caso caso contrario ½ 1 si la póliza pertenece a seguros automovilı́sticos • Ai = 0 en caso caso contrario Las ventas para el año 1994 se resumen en: X X X Ni = 150 Ni = 380 i∈Hogar i∈M édicos i∈V ida i=100 X i=1 Ni2 = 20000 100 X Hi = i=1 100 X X Ni = 70 Vi = i=1 Ni = 500 i∈Automóviles 100 X i=1 Mi = 100 X Ai = 25 i=1 1. Interpreta los parámetros del modelo propuesto. 2. Estima los parámetros por MCO. 3. Contrasta si hay diferencias significativas en el número de suscripciones según el ramo de seguros al que pertenecen. 4. Halla un intervalo de confianza del 95 % para el número de suscripciones de pólizas médicas. 190 Estadı́stica Actuarial: Análisis de Regresión Ejercicio 6.2 Supón que se quieren explicar los rendimientos de los ı́ndices bursátiles, Rt , de varios paı́ses a través de su localización geográfica y de los tipos de interés reales, It , considerando para estos últimos que es suficiente con especificar si los tipos son positivos o negativos. Los datos aparecen en la Tabla 6.1. 1. Especifica un modelo para el comportamiento de Rt con la información que se da. 2. Supón ahora que sólo se considera importante en cuanto a la localización si el paı́s está o no en Europa (i.e. Europa v.s. Resto del Mundo) y reespecifica el modelo. 3. Estima el modelo que has propuesto en el apartado anterior. 4. Supón que, para Portugal, el tipo de interés es positivo y el rendimiento de su ı́ndice bursátil del 35 %. ¿Consideras que el mercado bursátil en Portugal tiene el mismo comportamiento que en los otros paı́ses europeos? Rendimiento Rt t/i It 10 % 20 % 15 % 40 % positivo positivo positivo positivo 20 % 22 % negativo negativo -5 % 30 % 35 % 22 % positivo positivo negativo negativo Europa Alemania Francia Reino Unido Italia América EEUU Canadá Sudeste Asiático Japón Hong Kong Singapur Taiwán Tabla 6.1: Observaciones sobre rendimiento y t/i por paı́s 6.5. Validación en gretl 6.5.1. Contraste de Ramsey con gretl El contraste de Ramsey es uno de los contrastes que pueden realiarse una vez estimado en gretl un modelo. En la pantalla de resultados de la estimación Mı́nimo Cuadrática Ordinaria pinchar Contrastes −→ Contraste RESET de Ramsey y elegir las variables que queremos introducir en la especificación para el contraste: 191 Estadı́stica Actuarial: Análisis de Regresión • cuadrados y cubos • solo cuadrados • solo cubos • todas las variantes Para mostrar cómo contrastar la ausencia de correlación utilizaremos el archivo de datos Ramanathan data3-3.gdt. En este archivo de datos se dispone de 34 observaciones para el periodo 1960-1993 (serie temporal por tanto) sobre el número de resultados de patentes en miles, P AT EN T ES, y sobre el gasto en I + D, en billones de dólares. La relación a estudiar es: P AT EN T ESt = α + β(I + D)t + ut (6.17) Los resultados de la estimación MCO son los siguientes: Modelo 1: MCO, usando las observaciones 1960–1993 (T = 34) Variable dependiente: PATENTS Coeficiente Desv. Tı́pica Estadı́stico t Valor p 34,5711 0,791935 6,35787 0,0567036 5,4375 13,9662 0,0000 0,0000 Media de la vble. dep. Suma de cuad. residuos R2 F (1, 32) Log-verosimilitud Criterio de Schwarz ρ̂ 119,2382 3994,300 0,859065 195,0551 −129,2704 265,5935 0,945182 const I+D D.T. de la vble. dep. D.T. de la regresión R2 corregido Valor p (de F ) Criterio de Akaike Hannan–Quinn Durbin–Watson 29,30583 11,17237 0,854661 3,64e–15 262,5408 263,5818 0,233951 Contraste de especificación RESET (cuadrados y cubos) Estadı́stico de contraste: F = 47, 161051, con valor-p= P (F (2, 30) > 47, 1611) = 5, 48e − 010. Contraste de especificación RESET (cuadrados sólo) Estadı́stico de contraste: F = 14, 824629, con valor-p= P (F (1, 31) > 14, 8246) = 0, 000553. Contraste de especificación RESET (cubos sólo) Estadı́stico de contraste: F = 18, 475400, con valorp= P (F (1, 31) > 18, 4754) = 0, 000158. En cualquiera de las posibilidades se rechaza la hipótesis nula luego la especicificación lineal no es adecuada, comopuede apreciarse en la Figura 6.15 donde se muestra la nube de puntos correspondiente. 192 Estadı́stica Actuarial: Análisis de Regresión PATENTS con respecto a RD (con ajuste mínimo−cuadrático) 200 Y = 34,6 + 0,792X 180 PATENTS 160 140 120 100 80 60 60 80 100 120 140 160 RD Figura 6.10: Variable endógena versus exógena 6.5.2. Contraste de cambio estructural o Chow con gretl Utilizando gretl una vez abierto el fichero de datos y estimado el modelo correspondiente por MCO, en la ventana de resultados de la estimación harı́amos: Contrastes −→ Contraste de Chow A la pregunta Observación en la cual dividir la muestra contestarı́amos fecha correspondiente a T1 y automáticamente gretl realiza el contraste y nos muestra el resultado. Por ejemplo el fichero data7-19 del libro de Ramanathan contiene datos para 1960-1988 sobre la demanda de tabaco y sus determinantes en Turquı́a. Las variables de interés para el ejemplo son las siguientes: Q: consumo de tabaco por adulto (en kg). Y : PNB real per cápita en liras turcas de 1968. P : precio real del kilogramo de tabaco, en liras turcas. D82: variable ficticia que toma valor 1 a partir de 1982. A mediados de 1981 el gobierno turco lanza una campaña de salud pública advirtiendo de los peligros de salud que conlleva el consumo de tabaco. Nuestro objetivo es determinar si existen cambios en la demanda de tabaco tras la campaña institucional en cuyo caso la especificación: LnQt = α + βLnYt + γLnPt + ut t = 1960, . . . , 1988 (6.18) no es correcta para todo el perı́odo muestral y deberı́amos especificar dos ecuaciones: LnQt = α1 + β1 LnYt + γ1 LnPt + u1t t = 1960, . . . , 1981 (6.19) LnQt = α2 + β2 LnYt + γ2 LnPt + u2t t = 1982, . . . , 1988 (6.20) Si existe cambio estructural rechazarı́amos H0 : α1 = α2 , β1 = β2 y γ1 = γ2 En este caso la contestación a la pregunta Observación en la cual dividir la muestra contestarı́amos 1982 y el output de gretl muestra lo siguiente: 193 Estadı́stica Actuarial: Análisis de Regresión Modelo 1: estimaciones MCO utilizando las 29 observaciones 1960-1988 Variable dependiente: lnQ Variable const lnY lnP Coeficiente Desv. tı́pica −4,58987 0,688498 0,485683 Estadı́stico t 0,724913 0,0947276 0,101394 valor p −6,332 7,268 −4,790 0,00001∗∗∗ 0,00001∗∗∗ 0,00006∗∗∗ Media de la var. dependiente = 0,784827 Desviación tı́pica de la var. dependiente. = 0,108499 Suma de cuadrados de los residuos = 0,0949108 Desviación tı́pica de los residuos = 0,0604187 R-cuadrado = 0,712058 R-cuadrado corregido = 0,689908 Estadı́stico F (2, 26) = 32,148 (valor p < 0,00001) Estadı́stico de Durbin-Watson = 1,00057 Coef. de autocorr. de primer orden. = 0,489867 Log-verosimilitud = 41,8214 Criterio de información de Akaike (AIC) = -77,6429 Criterio de información Bayesiano de Schwarz (BIC) = -73,541 Criterio de Hannan-Quinn (HQC) = -76,3582 Contraste de Chow de cambio estructural en la observación 1982 Hipótesis nula: no hay cambio estructural Estadı́stico de contraste: F(3, 23) = 20,1355 con valor p = P(F(3, 23) > 20,1355) = 1,25619e-006 El estadı́stico calculado es F = 20, 135 > F0,05 (3, 23) por lo que rechazamos H0 para un nivel de significatividad del 5 %, es decir existe cambio estructural, la campaña institucional ha tenido efecto y la demanda de tabaco en Turquı́a de 1960 a 1988 queda especificada por las ecuaciones (6.19) y (6.20). Los resultados de la estimación mı́nimo cuadrática de estas ecuaciones son los siguientes: d t = −5, 024 + 0, 735 LnYt − LnQ (-10,614) (11,587) d t = 8, 837 + −0, 953 LnYt + LnQ (2,170) (-1,941) 0, 381 LnPt (-4,227) t = 1960, . . . , 1981 SCR1 = 0, 01654 0, 108 LnPt (0,654) t = 1982, . . . , 1988 SCR2 = 0, 00965 Cambio estructural utilizando variables ficticias Alternativamente, el contraste anterior podrı́amos haberlo realizado mediante la variable ficticia D82 especificando el modelo: LnQt = β1 + β2 LnYt + β3 LnPt + β1? D82t + β2? D82t · LnYt + β3? D82t · LnPt + ut 194 t = 60, . . . , 88(6.21) Estadı́stica Actuarial: Análisis de Regresión En el cual, si existe cambio estructural rechazarı́amos H0 : β1? = β2? = β3? = 0. De nuevo el contraste puede realizarse con el estadı́stico F habitual de sumas residuales donde el modelo no restringido es el (6.21) y el modelo restringido es LnQt = β1 + β2 LnYt + β3 LnPt + ut (6.22) Utilizando gretl el proceso después de abierto el fichero de datos, tomado logaritmos y construido las variables D82 · LnY y D82 · LnP serı́a: estimarı́amos el modelo (6.21) por MCO y en la ventana de resultados de la estimación harı́amos Contrastes −→ Omitir variables elegirı́amos D82, D82 · LnY y D82 · LnP y obtendrı́amos el siguiente resultado: Modelo 1: estimaciones MCO utilizando las 29 observaciones 1960-1988 Variable dependiente: lnQ Variable const lnY lnP Coeficiente −4,58987 0,688498 0,485683 Desv. tı́pica 0,724913 0,0947276 0,101394 Estadı́stico t −6,332 7,268 −4,790 valor p 0,00001∗∗∗ 0,00001∗∗∗ 0,00006∗∗∗ Media de la var. dependiente = 0,784827 Desviación tı́pica de la var. dependiente. = 0,108499 Suma de cuadrados de los residuos = 0,0949108 Desviación tı́pica de los residuos = 0,0604187 R-cuadrado = 0,712058 R-cuadrado corregido = 0,689908 Estadı́stico F (2, 26) = 32,148 (valor p < 0,00001) Estadı́stico de Durbin-Watson = 1,00057 Coef. de autocorr. de primer orden. = 0,489867 Log-verosimilitud = 41,8214 Criterio de información de Akaike (AIC) = -77,6429 Criterio de información Bayesiano de Schwarz (BIC) = -73,541 Criterio de Hannan-Quinn (HQC) = -76,3582 Comparación entre el modelo 10 y el modelo 11: Hipótesis nula: los parámetros de regresión son cero para las variables D82 D82Y D82P Estadı́stico de contraste: F(3, 23) = 20,1355, con valor p = 1,25619e-006 De los 3 estadı́sticos de selección de modelos, 0 han mejorado. Dado el p-value rechazamos la hipótesis nula para un nivel de significatividad del 5 % y existe cambio estructural. La demanda de tabaco en Turquı́a de 1960 a 1988 queda especificada por las ecuaciones (6.19) y (6.20). 195 Estadı́stica Actuarial: Análisis de Regresión 6.5.3. Contraste de heterocedasticidad con gretl Para ilustrar esta sección y lo que queda del tema vamos a utilizar el conjunto de datos Data 3.2 del Ramanathan. En este conjunto de datos se dispone de 51 observaciones sobre renta personal, IN COM E, y gasto sanitarios, EXP LT H ambos en billones de dólares para el estado de Washington D.C. en 1993. Se trata por tanto de una muestra de sección cruzada. Queremos analizar la evolución del gasto en función de la renta, ası́ especificamos el modelo: EXP LT Hi = α + βIN COM Ei + ui (6.23) i = 1, . . . , 51 suponemos que se cumplen las hipótesis básicas y estimamos el modelo por MCO con los resultados siguientes5 : Modelo 2: estimaciones MCO utilizando las 51 observaciones 1-51 Variable dependiente: exphlth 0) 2) VARIABLE COEFICIENTE const income 0,325608 0,142099 DESV.TÍP. ESTAD.T 0,319742 0,00196623 2Prob(t > |T|) 1,018 72,270 0,313515 < 0,00001 *** Media de la var. dependiente = 15,2649 D.T. de la var. dependiente = 17,8877 Suma de cuadrados de los residuos = 148,699 Desviación tı́pica de los residuos = 1,74203 R-cuadrado = 0,990705 R-cuadrado corregido = 0,990516 Grados de libertad = 49 Criterio de información de Akaike (AIC) = 203,307 Criterio de información Bayesiano de Schwarz (BIC) = 207,17 Para un nivel de significatividad del 5 % la variable IN COM E es significativa, pero el término independiente no es significativamente distinto de cero. El ajuste es muy alto, 99,07 %. Gráficamente podemos ver si la forma funcional lineal elegida resulta adecuada para la relación gasto sanitariorenta. Para ello vamos a dibujar la relación gasto sanitario real y ajustado y además el ajuste MCO. Para ello dentro de la venta gretl : Modelo1 pinchamos la secuencia: Gráficos −→ Gráfico de ajustada-obervada −→ por número de observación Gráficos −→ Gráfico de ajustada-observada −→ contra income Las figuras obtenidas aparecen a la izquierda y derecha, respectivamente, en la Figura 6.11. 5 Recordatorio de la secuencia de órdenes para obtener la estimación: Archivo −→ Abrir datos −→ Archivo de muestra −→ Data3.2 Modelo −→ Mı́nimos Cuadrados −→ seleccionar la variable endógena y exógenas Los resultados se muestran en una ventana llamada gretl : modelo1 196 Estadı́stica Actuarial: Análisis de Regresión exphlth observada y ajustada exphlth con respecto a income (con ajuste mnimo-cuadrÆtico) 100 100 ajustado actual 90 80 80 70 60 exphlth exphlth 60 50 40 40 20 30 20 0 10 0 -20 0 10 20 30 40 50 0 100 200 300 index 400 500 600 700 income Figura 6.11: Gasto sanitario real y ajustado Aparentemente el modelo está correctamente especificado y la forma lineal especificada es adecuada. Antes de seguir vamos a guardar los valores ajustados del gasto sanitario los residuos y sus cuadrados añadiéndolos al conjunto de datos para luego poder trabajar con ellos si es necesario. La secuencia de órdenes a realizar en la ventana gretl : Modelo1 es: Datos del modelo −→ Añadir al conjunto de datos −→ valores ajustados Datos del modelo −→ Añadir al conjunto de datos −→ residuos Datos del modelo −→ Añadir al conjunto de datos −→ residuos al cuadrado gretl los va a añadir al conjunto de datos con el que trabajamos y los denota respectivamente por yhat1, uhat1 e usq1 respectivamente. Además añade una leyenda explicativa de la variable. Una vez hecho esto seguimos con el ejercicio. A pesar del buen ajuste encontrado, no resulta descabellado pensar que la varianza del gasto sanitario, EXP HLT H, probablemente dependerá de la renta IN COM E. Hemos visto que estudiar el gráfico de residuos frente a IN COM E es un instrumento válido para ver indicios del problema. Para obtener el gráfico en la ventana gretl : Modelo 1 pinchamos: Gráficos −→ Gráfico de residuos −→ contra income La figura obtenida se recoge en la Figura 6.12: En el se aprecia que la dispersión de los residuos aumenta a medida que aumenta IN COM E. Parece que la varianza de EXP HLT H aumenta con IN COM E Para confirmarlo realizamos el contraste de White y los resultados del mismo son: 197 Estadı́stica Actuarial: Análisis de Regresión Residuos verus income 5 4 3 2 residuo 1 0 -1 -2 -3 -4 -5 0 100 200 300 400 500 600 700 income Figura 6.12: Residuos MCO versus RENTA Contraste de heterocedasticidad de White estimaciones MCO utilizando las 51 observaciones 1-51 Variable dependiente: uhat^2 VARIABLE 0) const 2) income 4) sq_incom COEFICIENTE -1,40227 0,0558410 -5,87208E-05 DESV.TÍP. ESTAD.T 0,986956 0,0121349 2,10114E-05 -1,421 4,602 -2,795 2Prob(t > |T|) 0,161839 0,000031 *** 0,007445 *** R-cuadrado = 0,421177 Estadı́stico de contraste: TR^2 = 21,480039, con valor p P(Chi-cuadrado(2) > 21,480039) = 0,000022 = Los resultados confirman que efectivamente existe heterocedasticidad en la perturbaciones del modelo (6.23). El estimador MCO obtenido no es de varianza mı́nima y la inferencia realizada de acuerdo a él no es válida. Esta introducción al problema de heterocedasticidad pretende que hayáis aprendido que nunca se da una especificación por correcta sin un análisis de residuos. Que a pesar de que durante todo el curso hemos trabajado suponiendo que se cumplen unas hipótesis básicas lo habitual es que no sea ası́ y que estas situaciones hay que saber reconocerlas. Ampliaciones sobre este tema podéis encontrar en el Capı́tulo 8 del Ramanathan del que nosotros solo hemos hecho un esbozo de su introducción. 6.5.4. Contraste de ausencia de correlación con gretl Para mostrar cómo contrastar la ausencia de correlación utilizaremos el archivo de datos Ramanathan Data3-3. En este archivo de datos se dispone de 34 observaciones para el periodo 1960-1993 (serie temporal por tanto) sobre el número de resultados de patentes en miles, P AT EN T ES, y sobre el gasto en I + D, en billones de dólares. La relación a estudiar es: 198 Estadı́stica Actuarial: Análisis de Regresión P AT EN T ESt = α + β(I + D)t + ut (6.24) Los resultados de la estimación MCO son los siguientes: Modelo 1: MCO, usando las observaciones 1960–1993 (T = 34) Variable dependiente: PATENTS Coeficiente Desv. Tı́pica Estadı́stico t Valor p 34,5711 0,791935 6,35787 0,0567036 5,4375 13,9662 0,0000 0,0000 Media de la vble. dep. Suma de cuad. residuos R2 F (1, 32) Log-verosimilitud Criterio de Schwarz ρ̂ 119,2382 3994,300 0,859065 195,0551 −129,2704 265,5935 0,945182 const I+D D.T. de la vble. dep. D.T. de la regresión R2 corregido Valor p (de F ) Criterio de Akaike Hannan–Quinn Durbin–Watson 29,30583 11,17237 0,854661 3,64e–15 262,5408 263,5818 0,233951 Los resultados muestran que para un nivel de significatividad del 5 % el término independiente es significativamente distinto de cero y el gasto en I+D es una variable significativa para explicar las aplicaciones de las patentes. Además existe un buen ajuste en términos del R2 (85, 9 %). Si analizamos los residuos MCO dibujándolos contra el tiempo obtenemos la Figura 6.13. En él podemos ver un primer grupo de residuos positivos que va seguido de un grupo de residuos negativos, otrora positivos y a continuación negativos. Este comportamiento puede indicar la posible existencia de un proceso autorregresivo de primer orden y signo positivo. Residuos de la regresin (= PATENTES observada - ajustada) 25 20 15 10 residuo 5 0 -5 -10 -15 -20 -25 1960 1965 1970 1975 1980 1985 1990 Figura 6.13: Residuos versus tiempo 199 Estadı́stica Actuarial: Análisis de Regresión También podı́amos haber dibujado los pares (ut−1 , ut ), ver Figura 6.14, en este caso los puntos los encontramos en el primer y tercer cuadrante indicando autocorrelación de primer orden de signo positivo6 . 25 20 15 10 uhat1 5 0 -5 -10 -15 -20 -25 -20 -15 -10 -5 0 uhat1_1 5 10 15 20 Figura 6.14: Residuos en t versus residuos en t-1 Una vez analizados los gráficos debemos realizar un contraste para cerciorarnos de la existencia del problema. Entre los resultados de la regresión se nos muestra: Estadı́stico de Durbin-Watson = 0,233951 que utilizaremos para contrastar la existencia de un proceso autocorregresivo de primer orden y signo positivo en la perturbación, ya que DW ∈ (0, 2). H0 : ρ = 0 Ha : ρ > 0 en ut = ρut−1 + ²t ²t ∼ (0, σ²2 ) Para ello sólo necesitamos comparar el valor del estadı́stico con dL y dU obtenidos en las tablas correspondientes. Gretl nos proporciona estas tablas en la opción Herramientas que aparece en la primera pantalla una vez se abre el programa. La secuencia a pinchar es: Herramientas −→ tablas estadı́sticas −→ señalar la tabla deseada Gretl proporciona las tablas estadı́sticas de la normal, t ( t-student), chi-cuadrado, F (F-snedercor) y DW (Durbin-Watson). En nuestro caso pinchamos en esta última y se nos despliega una ventana que nos solicita el tamaño de muestra y número de regresores. Se lo damos y pinchamos Aceptar. Como resultado gretl nos devuelve una ventana con el valor de dL y dU para el tamaño de muestra dado y diferentes valores de K 0 . Para nuestro ejemplo obtenemos: 6 Para guardar los residuos en la ventana de resultados de la estimación pinchamos Datos del modelo −→ Añadir al conjunto de datos −→ residuos y para obtener su retardo ut−1 seleccionamos la variable residuos y pinchamos la secuencia Datos −→ Añadir al conjunto de datos −→ retardos de las variables seleccionadas. 200 Estadı́stica Actuarial: Análisis de Regresión Valores crı́ticos al 5% del estadı́stico de Durbin-Watson, n = 134, k = 1 dL = 1,7028 dU = 1,7329 Por tanto para nuestro ejemplo dL (T = 34, K 0 = 1) = 1, 39 y dU (T = 34, K 0 = 1) = 1, 51. Como DW = 0, 233 < dL se rechaza la H0 y por tanto existe autocorrelación positiva de primer orden o bien puede deberse a una mala especificación del modelo. Antes de buscar un estimador alternativo a MCO debemos explorar esta posibilidad e intentar especificar bien el modelo y volver a realizar un estudio de existencia de autocorrelación para el modelo correctamente especificado. Si analizamos la relación entre las variables exógena y endógena, Figura 6.15 vemos que esta no parece ser lineal si no cuadrática al menos en los dos últimos tercios de la muestra, por lo que vamos a proponer la siguiente relación cuadrática: P AT EN T ESt = α + β(I + D)t + γ(I + D)2t + ut (6.25) PATENTES con respecto a I+D, observada y ajustada 200 ajustado actual 180 Patentes 160 140 120 100 80 60 80 100 120 140 160 I+D Figura 6.15: Variable endógena versus exógena Los resultados de su estimación MCO son: d T ES t = 121, 57 − 0, 85 (I + D)t + 0, 007 (I + D)2t P AT EN (t-estad) (5,23) (-1,98) (3,85) R2 = 0, 90 DW = 0, 28 (6.26) Las variables son significativas para un nivel de significatividad del 5 % y el ajuste es bueno, 90 %. Sin embargo, para el modelo (6.26) sigue existiendo autocorrelación positiva de primer orden ya que DW = 0, 28 < dL (T = 34, K 0 = 2) = 1, 33. Si miramos el gráfico de residuos de esta relación, Figura 6.16, encontramos las misma evolución cı́clica de grupos de residuos positivos-negativos-positivos. Por tanto una vez especificado correctamente el modelo se sigue manteniendo la autocorrelación en las perturbaciones. El modelo (6.25) debe ser estimado por un estimador alternativo a MCO que sea de varianza mı́nima y permita realizar inferencia válida. 201 Estadı́stica Actuarial: Análisis de Regresión Residuos de la regresin (= PATENTS observada - ajustada) 20 15 10 residuo 5 0 -5 -10 -15 -20 1960 1965 1970 1975 1980 1985 1990 Figura 6.16: Residuos modelo (6.20) versus tiempo 6.5.5. Predicción en gretl Para hacer predicción con gretl debemos incorporar los nuevos datos (Xp ) a la base de datos mediante Datos → Seleccionar todos A continuación, pincharemos la opción Datos → Añadir Observaciones indicando el número de observaciones que queremos añadir, en este caso 1. En la fila correspondiente incluimos los valores de las variables explicativas en el periodo de predicción, en este caso la observación N + 1, incorporando cada observación en la casilla correspondiente. Si no incorporamos el valor para la variable Yi que es la que vamos a predecir, gretl nos mostrará un aviso (Atención: habı́a observaciones perdidas). Podemos simplemente ignorarlo y darle a aceptar. Posteriormente, estimaremos el modelo sin considerar esta nueva observación. Para ello, tenemos que especificar el rango muestral, es decir, en la opción Muestra → Establecer rango especificaremos del rango de observaciones de la muestra para estimar el modelo, en nuestro caso de la 1 a la N y elegimos Aceptar. Estimaremos el modelo por MCO y en la ventana de los resultados elegimos Análisis → Predicciones En la nueva ventana podemos determinar el dominio de predicción, es decir el Inicio y Fin que en este caso es en ambos la observación número N + 1, y también cuantas observaciones se quieren representar antes de la prediccion. Utilizando los resultados obtenidos en el Ejemplo 5.10 se va a predecir la variable P RICE. Los resultados que muestra Gretl son los siguientes: 202 Estadı́stica Actuarial: Análisis de Regresión Para intervalos de confianza 95 %, t(10, ,0, 025) = 2, 228 Observaciones 15 price 500,00 predicción Desv. Tı́pica Intervalo de 95 % 479,91 55,390 356,49 603,32 Estadı́sticos de evaluación de la predicción Error medio Error cuadrático medio Raı́z del Error cuadrático medio Error absoluto medio Porcentaje de error medio Porcentaje de error absoluto medio U de Theil 20,095 403,79 20,095 20,095 4,0189 4,0189 0 650 price predicción Intervalo de confianza 95 por ciento 600 550 500 450 400 350 300 250 200 150 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 El gráfico que se obtiene junto a los resultados muestra la serie de precios (P) observada en color rojo y estimada con el modelo para las 14 observaciones anteriores a la predicción y la predicción en color azul, junto con su intervalo de confianza en color verde. La predicción por punto del precio de una vivienda con estas caracterı́sticas es de 479, 905 miles de euros, mientras que la predicción por intervalo con un nivel de confianza del 95 % es (356, 5; 603, 3) en miles de euros, por lo que el precio que nos piden, que era de 500 miles de euros por la vivienda, está dentro del intervalo. Este precio para una vivienda de esas caracterı́sticas se aceptarı́a como razonable dado nuestro modelo y la información muestral utilizada para su estimación, con un nivel de confianza del 95 %. 203 Estadı́stica Actuarial: Análisis de Regresión 6.6. Bibliografı́a del tema Referencias bibliográficas básicas: • Teórica: [1] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición. [2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadı́stica para administración y economı́a. Prentice Hall. Madrid. [3] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición. [4] Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Fundamentos de inferencia estadı́stica, 3a edición, Editorial AC, Madrid. • Ejercicios con gretl: [1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics with applications, ed. South-Western, 5th edition, Harcourt College Publishers. [2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A modern Approach, ed. South-Western, 2nd edition. Referencias Bibliográficas Complementarias: [1] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de regresión con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y − juridicas/analisis − de − regresion − con − greti/Coursel isting). [2] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación online de la Facultad de C.C. Económicas y Empresariales. [3] Esteban, M.V. (2007). Estadı́stica Actuarial: Regresión. Material docente. Servicio de Publicaciones. [4] Esteban, MV (2008). Estadı́stica Actuarial: Regresión Lineal, Sarriko On Line 3/08. Publicación on-line de la Facultad de CC. Económicas y Empresariales, UPV/EHU. http://www.sarrikoonline.com. [5] Esteban, M.V. (2007). Colección de ejercicios y exámenes. Material docente. Servicio de Publicaciones. [6] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a. Editorial McGraw-Hill. [7] Greene, W. (1998), Análisis Econométrico, Ed. Prentice Hall, 3a edición. [8] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th. edition. [9] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley. 204 Tema 7 Guı́a para el desarrollo de un proyecto empı́rico 7.1. Caracterı́sticas básicas del proyecto Esta sección desarrolla una guı́a básica para estructurar la realización de un proyecto. Es del todo recomendable la lectura del Capı́tulo 19 del libro Introdución a la Econometrı́a, de Wooldridge, J. M. (2003), que aparece en las referencias bibliográficas. Los seminarios y tutorı́as personalizadas de los equipos individuales servirán para marcar el ritmo en la evolución del proyecto y para que el profesor tutorice tanto al equipo como individualmente a cada uno de los integrantes en su aprendizaje. No hay que perder de vista que el proyecto debe de contribuir a obtener las competencias especı́ficas de la asignatura en su totalidad aunque se incida en la cuarta en cuanto a su evaluación. • Estructura básica del trabajo: 1. Portada: Tı́tulo del trabajo y nombres y apellidos del autor/autores. 2. Introducción: Presenta la motivación principal del trabajo, el problema a analizar y posibles referentes en la literatura económica. Por ejemplo, puede ayudar plantearse una pregunta, muy concreta, sobre un fenómeno económico. Por ejemplo, ¿como afecta a la oferta laboral femenina y casada el nivel salarial, la educación y/o el número de hijos? 3. Revisión de la bibliografı́a: En muchas ocasiones existe literatura en el tema elegido. Si es ası́ debe de ser incluida, en un resumen breve. 4. Datos: Se describen los datos que componen la muestra a utilizar y las fuentes de donde han sido obtenidos. Se describen las variables a utilizar en el modelo junto con las unidades de medida. Finalmente se realiza un análisis descriptivo básico. 5. Modelo: Se introduce el modelo de partida propuesto, las variables que entran en el modelo, el signo esperado de los coeficientes. También si hay diferentes alternativas a la especificación propuesta que se quieran contrastar o analizar. Es claro que el modelo inicial evolucionará a lo largo del trabajo. Por lo tanto en el trabajo y la exposición se debe mostrar los puntos más importantes de esta evolución, sin ser exhaustivos en la repetición de interpretación de signos y coeficientes. 205 Estadı́stica Actuarial: Análisis de Regresión 6. Resultados empı́ricos: Se muestran y explican razonadamente los resultados obtenidos aplicando las técnicas vistas en clase que se crean oportunas: análisis de residuos, contrastes sobre las hipótesis básicas, elección de métodos alternativos de estimación y realización de contrastes sobre los parámetros de interés del modelo. Al final del trabajo se crea un apéndice en el que incluyen todos los outputs de gretl y gráficos que se hayan obtenido a lo largo de todo el trabajo. 7. Conclusiones: Por último, al final del trabajo, se redactan las conclusiones del trabajo, teniendo en cuenta su objetivo y la especificación y estimación del modelo después del análisis econométrico. En esta sección se explica lo realizado en conjunto y se razona si es el caso sobre la especificación final elegida. Este apartado es imprescindible. 8. Bibliografı́a: Recoge las referencias completas citadas a lo largo del texto. Fuentes de consultas bibliográficas y de datos, ası́ como referencias a páginas web si es que se utilizan. • Cronologı́a: El proyecto debe evolucionar a lo largo del curso, no debe ser un trabajo realizado en los últimos diez dı́as antes de su exposición pública por ello es importante que los equipos se marquen una cronologı́a de acuerdo a las directrices marcadas en lo seminarios que se lleven a cabo en el aula. Como ya se ha indicado los seminarios y tutorı́as personalizadas de los equipos servirán para marcar el ritmo en la evolución del proyecto y para que el profesor tutorice tanto al equipo como individualmente a cada uno de los integrantes en su aprendizaje. No hay que perder de vista que el proyecto debe de contribuir a obtener las competencias especı́ficas de la asignatura en su totalidad aunque se incida en la cuarta en cuanto a su evaluación. • Exposición: En general el formato de la exposición puede ser elegido libremente, transparencias, power point etc. Habrá de tenerse en cuenta que todos los alumnos intervienen en la exposición y que el profesor realizará preguntas a los miembros del grupo sobre el trabajo realizado. • Datos a utilizar: Los que se quieran, siempre y cuando se refiera la referencia en el trabajo de la fuente utilizada. 1. Se pueden utilizar datos de los ficheros disponibles en Gretl siempre y cuando el trabajo no sea replicar un ejercicio que ya esté en estos libros. 2. Bases de datos disponibles en Gretl sobre servidor Archivo ⇒ Bases de datos ⇒ sobre servidor 3. Bases de datos disponibles en Biblioteca. 4. Otras direcciones de interés y bases de datos: Eurostat: http://epp.eurostat.cec.eu.int/ Banco Mundial: http://devdata.worldbank.org/ Fondo Monetario Internacional: http://www.imf.org/ OCDE: http://www.oecd.org/ Banco Central Europeo: http://www.ecb.int/ Economic and Social Data Services: Guı́a a Recursos internacionales de datos de libre acceso, http://www.esds.ac.uk/international/access/access.asp 206 Estadı́stica Actuarial: Análisis de Regresión Banco de España: http://www.bde.es/ Instituto Nacional de Estadı́stica: http://www.ine.es/ Eustat: http://www.eustat.es/ • Algunos consejos para la preparación del trabajo: 1. Primero es importante pensar en el modelo o relación básica que se quiere analizar junto con los datos a emplear. Es aconsejable estudiar previamente los datos de las variables que entran en el modelo, sus estadı́sticos descriptivos, gráficos etc. 2. También es importante la forma de presentar los resultados. Una vez realizados los diversos análisis, estimaciones etc., se pone en común todos los resultados y se selecciona lo importante. Una vez elegido lo más relevante de todo lo realizado esta información se presenta de forma que sea fácil comparar y valorar los resultados obtenidos. 3. No mezclar diferentes fuentes y tipos de letra en el texto. 4. No utilizar abreviaciones coloquiales, tipo SMS. 5. Todas las figuras y tablas deben estar numeradas. Añadir una pequeña leyenda tanto a los gráficos como a las tablas explicando que recogen (por ejemplo, Figura 2: Gráfico de los residuos contra el tiempo). Se puede poner arriba o abajo de la figura pero siempre hacerlo de la misma forma. 6. Las figuras y tablas también pueden ir en un apéndice y hacer referencia en el texto con la numeración utilizada. 7. Numerar todas las páginas. 8. Es recomendable que se revisen las distintas versiones del trabajo antes de su presentación, cuidando que no haya errores gramaticales. • Cómo presentar y comparar resultados: A continuación se va a mostrar la presentación de resultados de tres especificaciones alternativas y tres métodos de estimación como guı́a de presentación de resultados. Vamos a estimar las siguientes especificaciones o modelos alternativos para explicar el precio de la vivienda: Modelo A P RICEi = β1 + β2 SQF Ti + ui Modelo B P RICEi = β1 + β2 SQF Ti + β3 BEDRM Si + ui Modelo C P RICEi = β1 + β3 BEDRM Si + β4 BAT HSi + ui Estos tres modelos difieren en las variables explicativas incluidas. La Tabla 7.1 muestra los coeficientes estimados por MCO y distintos estadı́sticos asociados a la cuatro especificaciones o modelos alternativos anteriores. Esta forma de presentar los resultados puede estar más indicada cuando, como ahora, se presentan distintas especificaciones con la misma variable dependiente. En la parte de abajo de la tabla, también para cada una de las especificaciones, podéis incluir los valores muestrales de los estadı́sticos de diversos 207 Estadı́stica Actuarial: Análisis de Regresión Tabla 7.1: Modelos estimados para el precio de la vivienda P RICE Variable CONSTANT SQFT BEDRMS Variable dependiente: P RICE Modelo A Modelo B 52,351 121,179 (1,404) (1,511) 0,13875 0,14831 (7,407) (6,993) -23,911 (-0,970) BATHS Suma de cuadrados residual R2 R̄2 F de significación conjunta Grados de libertad 18273,6 0,821 0,806 54,861 12 16832,8 0,835 0,805 27,767 11 Modelo C 27,2633 (0,182) -10,1374 (-0,216) 138,795 (2,652) 55926,4 0,450706 0,350834 4,51285 11 Los valores entre paréntesis son los correspondientes estadı́sticos t de significatividad individual sin tener en cuenta la posible heterocedasticidad y o autocorrelación. contrastes bien de heterocedasticidad, autocorrelación, selección de modelos etc. si los habéis realizado para cada modelo estimado. Si se considera estimar por distintos métodos la misma especificación, puede ayudar presentar los resultados como en la Tabla 7.2: Tabla 7.2: Función de Salarios Variable dependiente: Salarios Privados W p Explicativas MCO Cochrane-Orcutt Hildreth-Lu const 1, 497 1, 5 1, 53∗ (1, 27) (1, 27) (1, 32) Xt 0, 439∗ 0, 439∗ 0, 434∗ (0, 032) (0, 039) (0, 075) Xt−1 0, 146∗ 0, 147∗ 0, 151∗ (0, 037) (0, 043) (0, 074) ∗ ∗ 0, 13 0, 13 0, 132∗ At (0, 032) (0, 032) (0, 035) Entre paréntesis se muestran las desviaciones tı́picas estimadas. En el caso de MCO son robustas a autocorrelación. El sı́mbolo ∗ denota que es significativo al 5 %. El tamaño muestral es T = 80 datos trimestrales. De esta forma es más fácil comparar los resultados a la vez que mostrarlos en una transparencia a la hora de la presentación. 208 Bibliografı́a Referencias Bibliográficas Básicas: • Teórica: [1] Gujarati, D. y Porter, D.C. (2010). Econometrı́a. Editorial McGraw-Hill, Madrid. 5a edición. [2] Newbold, P., Carlson, W.L. y Thorne, B. (2008). Estadı́stica para administración y economı́a. Prentice Hall. Madrid. [3] Wooldridge, J.M. (2006). Introducción a la Econometrı́a. Ed. Thomson Learning, 2a edición. [4] Ruiz Maya, L. y Martı́n Pliego, F.J. (2005). Fundamentos de inferencia estadı́stica, 3a edición, Editoral AC, Madrid. • Ejercicios con gretl: [1] Ramanathan, R. (2002), Instructor’s Manual to accompany, del libro Introductory Econometrics with applications, ed. South-Western, 5th edition, Harcourt College Publishers. [2] Wooldridge, J. M. (2003), Student Solutions Manual, del libro Introductory Econometrics: A modern Approach, ed. South-Western, 2nd edition. Referencias Bibliográficas Complementarias: [1] Alonso, A., Fernández, J. y Gallastegui, I. (2005), Econometrı́a, ed. Pearson: Prentice Hall. [2] Dougherty, Ch. (2006), Introduction to Econometrics, 3rd. Ed., Oxford University Press. [3] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Análisis de regresión con gretl. Open Course Ware. UPV-EHU. (http : //ocw.ehu.es/ciencias − sociales − y − juridicas/analisis − de − regresion − con − greti/Coursel isting). [4] Esteban, M.V.; Moral, M.P.; Orbe, S.; Regúlez, M.; Zarraga, A. y Zubia, M. (2009). Econometrı́a Básica Aplicada con Gretl. Sarriko On Line 8/09. http://www.sarriko-online.com. Publicación online de la Facultad de C.C. Económicas y Empresariales. [5] Esteban, M.V. (2007). Estadı́stica Actuarial: Regresión. Material docente. Servicio de Publicaciones. Web de la asignatura. [6] Esteban, MV (2008). Estadı́stica Actuarial: Regresión Lineal, Sarriko On Line 3/08. Publica209 Estadı́stica Actuarial: Análisis de Regresión ción on-line de la Facultad de CC. Económicas y Empresariales, UPV/EHU. http://www.sarrikoonline.com. [7] Esteban, M.V. (2007). Colección de ejercicios y exámenes. Material docente. Servicio de Publicaciones. Web de la asignatura. [8] Fernández, A., P. González, M. Regúlez, P. Moral, V. Esteban (2005). Ejercicios de Econometrı́a. Editorial McGraw-Hill. [9] Greene, W. (1998), Análisis Econométrico, Ed. Prentice Hall, 3a edición. [10] Gujarati, D. (2004), Econometrı́a, ed. McGraw-Hill, 4a edición. [11] Ramanathan, R. (2002), Introductory Econometrics with applications, Ed. South-Western, 5th. edition. [12] Verbeek, M. (2004). A Guide to Modern Econometrics. Wiley. 210

Material Docente - del Departamento de Economía Aplicada III

Documentos relacionados

Productos

Apoyo

Material Docente - del Departamento de Economía Aplicada III

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib