Teoría de la Probabilidad e Inferencia Estadística: Modelización Econométrica con Datos Observacionales Aris Spanos Traducción: Versión: Semestre 2012-2 Michel Rojas Romero Facultad de Ciencias. UNAM Facultad de Economía. UNAM 2 Contenido 0.1 A quién se dirige y características distintivas . . . . . . . . . . 11 1 1 Una introducción a la modelización empírica 1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Una vista panorámica del capítulo . . . . . . . . . . . . 1.2 Fenómenos estocásticos, una vista preliminar . . . . . . . . . . 1.3 Regularidad aleatoria y modelos estadísticos . . . . . . . . . . 1.3.1 Su…ciencia estadística . . . . . . . . . . . . . . . . . . . 1.4 Estadística frente a teoría de la información * . . . . . . . . . 1.5 Datos observados . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Los primeros datos . . . . . . . . . . . . . . . . . . . . 1.5.2 Datos económicos . . . . . . . . . . . . . . . . . . . . . 1.5.3 Datos observados y naturaleza de un modelo estadístico 1.5.4 Escalas de medición . . . . . . . . . . . . . . . . . . . . 1.5.5 ¿Sección transversal contra series de tiempo, es éste el problema? . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.6 Limitaciones de los datos económicos . . . . . . . . . . 1.6 Mirando hacia adelante . . . . . . . . . . . . . . . . . . . . . . 1.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Teoría de probabilidad: un marco de referencia para la modelación 2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Objetivo principal . . . . . . . . . . . . . . . . . . . . . 2.2 Modelo estadístico simple: una visión informal . . . . . . . . . 2.2.1 La estructura básica de un modelo estadístico simple . 2.2.2 El concepto de variable aleatoria: visión informal . . . 2.2.3 Funciones de densidad paramétricas . . . . . . . . . . . 2.2.4 Muestra aleatoria: preliminares . . . . . . . . . . . . . 3 13 13 15 15 28 34 37 39 39 40 41 44 48 50 52 52 55 55 55 55 55 56 58 59 4 CONTENIDO 2.3 Teoría de la probabilidad: una introducción . . . . . 2.4 Experimento aleatorio . . . . . . . . . . . . . . . . 2.4.1 Experimento aleatorio . . . . . . . . . . . . 2.5 Formalizacion de [a] . . . . . . . . . . . . . . . . . . 2.6 Formalizacion de [b] . . . . . . . . . . . . . . . . . 2.6.1 Espacio de eventos . . . . . . . . . . . . . . 2.6.2 Noción matemática de probabilidad . . . . . 2.6.3 Espacio de probabilidad [S; =; P (:)] . . . . . 2.6.4 Deducción matemática . . . . . . . . . . . . 2.7 Formalización de la condición [c]: pruebas aleatorias 2.7.1 Probabilidad condicional e independencia . . 2.8 Espacio estadístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 60 61 62 62 64 70 74 74 77 78 79 3 El concepto de modelo de probabilidad 3.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . . 3.1.2 ¿Porqué nos interesa? . . . . . . . . . . . . . . . . . . . 3.1.3 Una vista panorámica del capítulo . . . . . . . . . . . . 3.2 El concepto de variable aleatoria simple . . . . . . . . . . . . . 3.2.1 Conjunto …nito de resultados: S = fs1 ; s2 ; :::; sn g . . . 3.2.2 Conjunto contable de resultados: S = fs1 ; s2 ; :::; sn ; :::g 3.3 El concepto general de variable aleatoria . . . . . . . . . . . . 3.3.1 Conjunto no contable de resultados . . . . . . . . . . . 3.4 La distribución acumulada y funciones de densidad . . . . . . 3.4.1 La función de distribución acumulada . . . . . . . . . . 3.4.2 La función de densidad . . . . . . . . . . . . . . . . . . 3.5 De un espacio de probabilidad a un modelo de probabilidad . 3.6 Parámetros y momentos . . . . . . . . . . . . . . . . . . . . . 3.6.1 ¿Porqué nos interesa? . . . . . . . . . . . . . . . . . . . 3.6.2 Características numéricas . . . . . . . . . . . . . . . . 3.7 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.1 Momentos crudos de orden superior . . . . . . . . . . . 3.7.2 Función generatriz de momentos . . . . . . . . . . . . . 3.7.3 El problema de los momentos . . . . . . . . . . . . . . 3.7.4 Momentos centrales superiores . . . . . . . . . . . . . . 3.7.5 Otras características numéricas . . . . . . . . . . . . . 3.8 Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 81 81 82 82 83 84 91 93 93 97 97 99 109 117 117 118 123 123 124 129 132 142 150 152 CONTENIDO 5 3.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 4 El concepto de muestra aleatoria 157 4.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 4.1.1 Objetivo principal de este capítulo . . . . . . . . . . . 157 4.1.2 La historia hasta ahora . . . . . . . . . . . . . . . . . . 158 4.1.3 De pruebas aleatorias a una muestra aleatoria: a primer punto de vista . . . . . . . . . . . . . . . . . . . . . . . 158 4.1.4 Una vista panorámica del capítulo . . . . . . . . . . . . 159 4.2 Distribuciones conjuntas . . . . . . . . . . . . . . . . . . . . . 160 4.2.1 Variables aleatorias discretas . . . . . . . . . . . . . . . 160 4.2.2 Variables aleatorias continuas . . . . . . . . . . . . . . 163 4.2.3 Momentos conjuntos . . . . . . . . . . . . . . . . . . . 167 4.2.4 El caso de n variables aleatorias . . . . . . . . . . . . . 169 4.3 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . 171 4.4 Distribuciones condicionales . . . . . . . . . . . . . . . . . . . 175 4.4.1 Probabilidad condicional . . . . . . . . . . . . . . . . . 175 4.4.2 Funciones de densidad condicional . . . . . . . . . . . . 176 4.4.3 Variables aleatorias discretas/continuas . . . . . . . . . 180 4.4.4 Momentos codicionales . . . . . . . . . . . . . . . . . . 181 4.4.5 Una digresión: otras formas de condicionalidad . . . . 183 4.4.6 Marginalización frente a condicionalidad . . . . . . . . 185 4.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 4.5.1 El caso de dos variables aleatorias . . . . . . . . . . . . 188 4.5.2 Independencia en el caso de n variables . . . . . . . . . 190 4.6 Distribuciones idénticas . . . . . . . . . . . . . . . . . . . . . . 193 4.6.1 Una muestra aleatoria . . . . . . . . . . . . . . . . . . 196 4.6.2 Un modelo estadístico simple: concluyendo las transformaciones . . . . . . . . . . . . . . . . . . . . . . . . 197 4.7 Un modelo estadístico simple en la modelización empírica: una visión preliminar . . . . . . . . . . . . . . . . . . . . . . . . . 198 4.7.1 Modelo de probabilidad . . . . . . . . . . . . . . . . . 199 4.7.2 Identi…cabilidad y parametrizaciones . . . . . . . . . . 200 4.7.3 Importantes familias de distribuciones paramétricas . . 202 4.7.4 Muestra aleatoria . . . . . . . . . . . . . . . . . . . . . 206 4.8 Muestras aleatorias ordenadas* . . . . . . . . . . . . . . . . . 207 4.8.1 Distribuciones marginales . . . . . . . . . . . . . . . . 207 4.8.2 Distribuciones conjuntas . . . . . . . . . . . . . . . . . 209 6 CONTENIDO 4.9 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 4.9.1 ¿Qué sigue? . . . . . . . . . . . . . . . . . . . . . . . . 210 4.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 5 El concepto de muestra no aleatoria 5.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . 5.1.2 Extendiendo un modelo estadístico simple . . . . . . 5.1.3 Introduciendo una taxonomía fundamental . . . . . . 5.2 Muestra no aleatoria: una visión preliminar . . . . . . . . . 5.2.1 Condicionalidad secuencial . . . . . . . . . . . . . . . 5.2.2 Manteniendo un ojo en el bosque! . . . . . . . . . . 5.2.3 Modelos estadísticos más allá del simple: un punto de vista preliminar . . . . . . . . . . . . . . . . . . . . . 5.3 Dependencia entre dos variables aleatorias: distribución conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Dependencia entre dos variables aleatorias: momentos . . . . 5.4.1 Momentos conjuntos y dependencia . . . . . . . . . . 5.5 Momentos condicionales y dependencia . . . . . . . . . . . . 5.5.1 Independencia condicional . . . . . . . . . . . . . . . 5.6 Dependencia y sistema de medida . . . . . . . . . . . . . . . 5.6.1 Escalas de medida y dependencia . . . . . . . . . . . 5.6.2 Dependencia para las variables categóricas . . . . . . 5.6.3 Dependencia entre variables nominales . . . . . . . . 5.6.4 La distribución de Bernoulli . . . . . . . . . . . . . . 5.6.5 Dependencia en variables aleatorias mezcladas (discretas / continuas) . . . . . . . . . . . . . . . . . . . . 5.7 Distribuciones conjuntas y dependencia . . . . . . . . . . . . 5.7.1 Dependencia y la distribución normal . . . . . . . . . 5.7.2 Dependencia y la familia elípticamente simétrica . . . 5.7.3 Dependencia y las distribuciones sesgadas . . . . . . 5.8 De los conceptos probabilísticos a los datos observados . . . 5.8.1 Generación de números pseudo aleatorios* . . . . . . 5.8.2 Una representación grá…ca: el diagrama de dispersión 5.9 ¿Qué sigue? . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 . 213 . 213 . 215 . 216 . 217 . 220 . 223 . 224 . . . . . . . . . . 225 230 230 237 240 244 244 246 250 252 . . . . . . . . . . 254 255 259 263 268 275 275 283 300 300 CONTENIDO 6 Regresión y conceptos relacionados 6.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Condicionalidad y regresión . . . . . . . . . . . . . . . . . 6.2.1 Reducción y funciones condicionales momento . . . 6.2.2 Regresión y funciones cedásticas . . . . . . . . . . . 6.2.3 Funciones clíticas y cúrticas . . . . . . . . . . . . . 6.3 Reducción y condicionalidad estocástica . . . . . . . . . . 6.3.1 Signi…cado de E (Y r j (X)) . . . . . . . . . . . . . 6.3.2 Determinando hr (X) = E (Y r j (X)) . . . . . . . . 6.3.3 Propiedades de la esperanza condicional estocástica 6.4 Exogeneidad débil . . . . . . . . . . . . . . . . . . . . . . 6.5 El concepto de mecanismo generador estadístico (MG) . . 6.5.1 El ángulo de visión de la teoría . . . . . . . . . . . 6.5.2 El concepto de conjunto de información condicional 6.5.3 Descomposiciones ortogonales del MG estadístico . 6.5.4 El ángulo de visión estadístico . . . . . . . . . . . . 6.5.5 Razón de dependencia* . . . . . . . . . . . . . . . . 6.6 La tradición biométrica en estadística . . . . . . . . . . . . 6.6.1 Galton . . . . . . . . . . . . . . . . . . . . . . . . . 6.6.2 Karl Pearson . . . . . . . . . . . . . . . . . . . . . 6.6.3 Revisando la estrategia de modelación de Pearson . 6.6.4 Kernel suavizado y regresión . . . . . . . . . . . . . 6.7 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 . . . . . . . . . . . . . . . . . . . . . . . 303 . 303 . 306 . 306 . 309 . 325 . 327 . 328 . 335 . 336 . 341 . 344 . 344 . 346 . 346 . 352 . 354 . 356 . 357 . 363 . 368 . 375 . 377 . 378 7 Procesos estocásticos 381 7.1 introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 7.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . . 381 7.1.2 Variables aleatorias y ordenamiento . . . . . . . . . . . 384 7.1.3 Una vista panorámica del capítulo . . . . . . . . . . . . 384 7.2 El concepto de proceso estocástico . . . . . . . . . . . . . . . . 386 7.2.1 De…nición de un proceso estocástico . . . . . . . . . . 386 7.2.2 Clasi…cación de los procesos estocásticos . . . . . . . . 390 7.2.3 Especi…cación de un proceso estocástico . . . . . . . . 392 7.3 Procesos estocásticos: una visión preliminar . . . . . . . . . . 394 7.3.1 El movimiento browniano y los fundamentos de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 395 7.3.2 Sumas parciales y procesos estocásticos asociados . . . 397 8 CONTENIDO 7.3.3 Proceso Gaussiano . . . . . . . . . . . . . . . . . . . . 406 7.4 Restricciones de dependencia . . . . . . . . . . . . . . . . . . . 407 7.4.1 Conceptos basados en distribución . . . . . . . . . . . . 407 8 Estimación I: Propiedades de los estimadores 8.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1 Vista panorámica del capítulo . . . . . . . . . . . . . 8.2 La de…nición de un estimador . . . . . . . . . . . . . . . . . 8.3 Propiedades de muestra …nita . . . . . . . . . . . . . . . . . 8.3.1 Motivación: el estimador ideal . . . . . . . . . . . . . 8.4 Propiedades asintóticas . . . . . . . . . . . . . . . . . . . . . 8.4.1 Consistencia . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Consistencia fuerte . . . . . . . . . . . . . . . . . . . 8.4.3 Normalidad asintótica . . . . . . . . . . . . . . . . . 8.4.4 E…ciencia asintótica . . . . . . . . . . . . . . . . . . . 8.4.5 Distribuciones muestrales y propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 8.5 El modelo Normal simple . . . . . . . . . . . . . . . . . . . . 8.5.1 La distribución muestral de la media de la muestra . 8.5.2 La distribución muestral de la varianza de la muestra 8.5.3 Reduciendo el sesgo: estimadores navaja (jackknife estimators) . . . . . . . . . . . . . . . . . . . . . . . . 8.6 Estadísticos su…cientes y estimadores óptimos * . . . . . . . 8.6.1 Su…ciencia . . . . . . . . . . . . . . . . . . . . . . . . 8.6.2 Su…ciencia e insesgamiento . . . . . . . . . . . . . . . 8.6.3 Su…ciencia mínima . . . . . . . . . . . . . . . . . . . 8.6.4 Completitud . . . . . . . . . . . . . . . . . . . . . . . 8.6.5 Exponencial de la familia de distribuciones . . . . . . 8.7 ¿Qué viene a continuación? . . . . . . . . . . . . . . . . . . 8.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Estimación II: métodos de estimación 9.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . 9.1.1 Una vista panorámica del capítulo . . . . . . . 9.1.2 Métodos de estimación: una visión preliminar 9.2 Principio de momentos coincidentes . . . . . . . . . . 9.2.1 Momentos muestrales y sus propiedades . . . 9.2.2 Funciones de los momentos de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . 411 . 411 . 412 . 412 . 417 . 417 . 430 . 430 . 433 . 434 . 435 . . . . 436 438 438 441 . . . . . . . . . 446 449 449 453 454 456 459 459 460 463 . 463 . 464 . 464 . 465 . 470 . 477 CONTENIDO 9.3 El método de mínimos cuadrados . . . . . . . . . . . . . . 9.3.1 El principio de mínimos cuadrados . . . . . . . . . 9.3.2 Teorema de Gauss-Markov. . . . . . . . . . . . . . 9.3.3 El método estadístico de mínimos cuadrados . . . . 9.3.4 Propiedades de estimadores de mínimos cuadrados . 9.4 El método de momentos . . . . . . . . . . . . . . . . . . . 9.4.1 Método de momentos de Pearson . . . . . . . . . . 9.4.2 El método paramétrico de momentos . . . . . . . . 9.4.3 Propiedades de los estimadores MPM . . . . . . . . 9.5 El método de máxima verosimilitud . . . . . . . . . . . . . 9.5.1 La función de verosimilitud . . . . . . . . . . . . . 9.5.2 Estimadores de máxima verosimilitud . . . . . . . . 9.5.3 Caso multiparámetros . . . . . . . . . . . . . . . . 9.5.4 Propiedades de los EMV . . . . . . . . . . . . . . . 9.5.5 El método de máxima verosimilitud y sus críticos . 9.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 . . . . . . . . . . . . . . . . 10 Prueba de hipótesis 10.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1.1 Las di…cultades inherentes en el dominio de las pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . 10.1.2 Una vista panorámica del capítulo . . . . . . . . . . . 10.2 Preliminares al enfoque de Fisher . . . . . . . . . . . . . . . 10.2.1 Edgeworth . . . . . . . . . . . . . . . . . . . . . . . . 10.2.2 Pearson . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.3 Gosset . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.4 La formulación de Fisher . . . . . . . . . . . . . . . . 10.2.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 El marco de referencia de Neyman-Pearson . . . . . . . . . . 10.3.1 Etapa I - El concepto de hipótesis alternativa . . . . 10.3.2 Etapa II - La región de rechazo . . . . . . . . . . . . 10.3.3 Etapa III - Los dos tipos de errores . . . . . . . . . . 10.3.4 Etapa IV - Construcción de pruebas óptimas . . . . . . . . . . . . . . . . . . . . . 478 478 481 483 486 487 488 491 494 495 495 497 501 509 520 522 525 . 525 . . . . . . . . . . . . . 525 526 527 527 529 532 534 538 540 541 543 545 549 10 CONTENIDO Esta es una traducción de los capítulos del libro de Spanos (1999) propuestos para el curso de Estadística del campo de Economía Aplicada del Posgrado en Economía de la UNAM. Es el resultado de mis exposiciones y resolución de problemas en el taller de Estadística y estuvo destinado a los estudiantes que cursaron esta asignatura en el semestre 2013-1. Gracias a cada uno de ellos por sus valiosas observaciones al contenido de este documento. Actualmente estoy traduciendo las partes restantes del libro. En cuanto concluya la traducción del libro completo, la pondré a disposición del posgrado. Errores en esta versión de la traducción son, desde luego, mi responsabilidad y trataré de corregirlos en versiones siguientes. Teoría de la probabilidad e Inferencia Estadística Este importante nuevo libro de texto de un econometrista distinguido está dirigido a estudiantes que toman cursos de introducción a la teoría de la probabilidad y a la inferencia estadística. Ningún conocimiento previo que no sea un conocimiento básico de estadística descriptiva se presupone. El objetivo principal de este libro es establecer el marco de referencia para la modelización empírica de datos observacionales (no experimentales). Este marco se ha formulado con el …n de acomodar las peculiaridades de los datos observacionales (no experimentales) de una manera uni…cadores y lógica coherente. Teoría de la Probabilidad e Inferencia Estadística di…ere de los libros de texto tradicionales en la medida en que hace hincapié en los conceptos, ideas, nociones y procedimientos que son apropiados para la modelización de datos observacionales. Se hace especial énfasis en relacionar conceptos probabilísticos a los patrones de regularidad aleatoria exhibidos por los datos observados. Dirigido principalmente a estudiantes de segundo año de nivel universitario y más allá del estudio de la econometría y la economía, este libro de texto también será útil para los estudiantes de otras disciplinas que hacen uso extensivo de datos observacionales, incluidas …nanzas, biología, sociología, educación, psicología y climatología. 0.1. A QUIÉN SE DIRIGE Y CARACTERÍSTICAS DISTINTIVAS 11 ARIS SPANOS es un destacado investigador y profesor en econometría. En la actualidad trabaja en University of Cyprus y Virginia Polytechnic Institute y State University y ha enseñado previamente en instituciones entre ellas, el Birkbeck College, la Universidad de Cambridge y la Universidad de California. Sus libros anteriores incluyen Statistical Foundations of Econometric Modelling, publicado por Cambridge University Press en 1986. 0.1 A quién se dirige y características distintivas Este es un libro de texto destinado a un curso de introducción a la teoría de la probabilidad y a la inferencia estadística, escrito para estudiantes que han tenido al menos un curso de un semestre de cálculo. Las matemáticas adicionales necesarias se fusionan a la discusión para que sea autocontenido, prestando especial atención a la comprensión intuitiva de los conceptos matemáticos. No son requeridos prerrequisitos en probabilidad e inferencia estadística, pero una cierta familiaridad con la estadística descriptiva será de utilidad. El objetivo principal de este libro es sentar las bases y ensamblar el marco de referencia general para la modelización empírica de datos observacionales (no experimentales). Este marco de referencia, conocido como reducción probabilística, se formula con el …n de acomodar las particularidades de los datos observacionales (en oposición a los experimentales) de una manera uni…cadora y lógicamente coherente. Se distingue de los libros de texto tradicionales en la medida en que enfatiza los conceptos, ideas, nociones y procedimientos que sean apropiados para la modelización de datos observacionales. 12 CONTENIDO Capítulo 1 1 Una introducción a la modelización empírica 1.1 Introducción En un intento de dar una idea de lo que la modelación empírica trata, comenzamos la discusión con una demarcación epigramática de su ámbito de aplicación: Modelizacion empírica se re…ere a la descripción parsimoniosa de fenómenos estocásticos observables utilizando modelos estadísticos. La delimitación anterior es apenas esclarecedora porque involucra los términos desconocidos fenómeno estocástico y modelo estadístico que se explicarán en lo que sigue. En esta etapa, sin embargo, basta con señalar las siguientes características distintivas de la modelización empírica (en oposición a otras formas): (a) la naturaleza estocástica de los fenómenos susceptibles de dicha modelación, (b) el carácter indispensable de los datos observados, y (c) la naturaleza de la descripción en la forma de un modelo estadístico. El objetivo principal de la modelización empírica es proporcionar una descripción adecuada de ciertos tipos de fenómenos observables de interés en forma de mecanismos estocásticos que llamamos modelos estadísticos. Un modelo estadístico pretende capturar la información estadística sistemática (ver secciones 2 y 3), que es diferente de la teoría de la información (ver 13 14CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA sección 4). En contraste con un modelo teórico, un modelo estadístico es codi…cado exclusivamente en términos de conceptos probabilísticos y es descriptivo y anti-realista por naturaleza (véase el capítulo 10 para mayor discusión). La su…ciencia de la descripción se evalúa por qué tan bien el modelo estadístico postulado da cuenta de la información estadística sistemática en los datos (véase la sección 5). En la sección 6 proporcionamos una discusión preliminar de algunos aspectos importantes del elemento constitutivo de los modelos empíricos, los datos observados. La modelización empírica en este libro es considerada para incluir una amplia gama de procedimientos relacionados entre sí incluyendo: (i) especi…cación (la elección de un modelo estadístico), (ii) estimación (estimación de los parámetros del modelo estadístico postulado), (iii) pruebas de errores de especi…cación (evaluación de la validez de los supuestos probabilística del modelo estadístico postulado) y (iv) respeci…cation (una elección alternativa de un modelo estadístico). Como se ha señalado antes, estas facetas de la modelización están particularmente involucradas en el caso de los datos observacionales. En el caso de los datos experimentales, el enfoque principal está en la estimación debido a que las facetas (i) y (iv) constituyen la otra cara del diseño de la moneda y (iii) juega un papel subsidiario. El ejemplo por excelencia de la modelización empírica utilizando datos observables se considera es la econometría. Una tesis importante adoptada en este libro es que la econometría se distingue de la estadística de la corriente dominante (dominada por el diseño experimental y las tradiciones de mínimos cuadrados), no tanto por la dimensión de la teoría económica de los modelos, sino principalmente debido a los problemas particulares de la modelación que surgen debido a la naturaleza observacional de la inmensa mayoría de los datos económicos. Por lo tanto, interpretamos la de…nición tradicional de la econometría "la estimación de las relaciones como lo sugiere la teoría económica" (véase Harvey (1990), p. 1), como la colocación del campo en el marco de referencia de la modelización de diseño experimental. En pocas palabras, el argumento básico es que el enfoque tradicional de libro de texto econométrico utiliza el marco de referencia de la modelización de diseño experimental para el análisis de datos no experimentales (ver Spanos (1995b) para más detalles). 1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 1.1.1 15 Una vista panorámica del capítulo El resto de este capítulo profundiza en las características distintivas de la modelación empírica (a) - (c). En la sección 2 discutimos el signi…cado de fenómenos estocásticos observables y por qué tales fenómenos son susceptibles de modelización empírica. En la sección 3, discutimos la relación entre fenómeno estocástico y modelos estadísticos. Esta relación se presenta en la forma de información estadística sistemática que no es más que la formalización de los patrones de regularidad aleatoria exhibidos por los datos observados que emanan de los fenómenos estocásticos. En la sección 4 discutimos la importante noción de su…ciencia estadística: si el modelo estadístico postulado "captura" toda la información estadística sistemática de los datos. En la sección 5 contrastamos la información estadística y la teoría. En pocas palabras, el modelo teórico se formula en términos del comportamiento de los agentes económicos y el modelo estadístico es formulado exclusivamente en términos de conceptos probabilísticos; una parte considerable del libro se re…ere a la pregunta de: ¿qué es lo que constituye la información estadística sistemática? En la sección 6 planteamos tres cuestiones importantes en relación a los datos observados, sus diferentes escalas de medida, su naturaleza y su precisión, lo que se relaciona con los métodos estadísticos utilizados para su modelización. El mensaje principal de este capítulo es que, en la evaluación de la validez de una teoría, el modelador debe garantizar que los datos observados constituyan un testigo imparcial, cuyo testimonio puede ser utilizado para evaluar la validez de la teoría en cuestión. Un modelo estadístico pretende proporcionar un resumen adecuado de la información estadística sistemática de los datos en la forma de un mecanismo estocástico que posiblemente dio lugar a los datos observados en cuestión. 1.2 Fenómenos estocásticos, una vista preliminar Como se escribió anteriormente, el alcance previsto por la modelación empírica es demarcado por la naturaleza estocástica de los fenómenos observables. En esta sección explicamos intuitivamente la idea de un fenómeno estocástico y lo relacionamos con la noción de modelo estadístico en la siguiente sección. 16CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA Fenómenos estocásticos y regularidad aleatoria Un fenómeno estocástico es aquel cuyos datos observados muestran lo que llamamos patrones de regularidad aleatoria. Estos patrones son por lo general revelados utilizando una variedad de técnicas grá…cas. La esencia de la regularidad aleatoria, como lo sugiere el término en sí mismo, viene bajo la forma de dos características entrelazadas: aleatoria: una incertidumbre inherente en relación con la ocurrencia de resultados particulares, regularidad: una regularidad permanente en relación con la ocurrencia de muchos de tales resultados. TERMINOLOGÍA: el término regularidad aleatoria se introduce con el …n de evitar la posible confusión y desconcierto que puede ser causado por la adopción del término de uso más común conocido como aleatoriedad; véase el capítulo 10 para más discusión. A primera vista, estos dos atributos podrían parecer contradictorios en el sentido de que el azar se re…ere a la ausencia de orden y la "regularidad" denota la presencia de orden. Sin embargo, no hay contradicción porque el desorden existe en el nivel de los resultados individuales y el orden a nivel agregado. En efecto, la esencia de la regularidad aleatoria se deriva del hecho de que el desorden a nivel individual crea (de alguna manera) orden a nivel agregado. Los dos atributos deben ser vistos como algo inseparable para que la noción de regularidad aleatoria tenga sentido. Cuando sólo uno de ellos está presente, no podemos hablar de regularidad aleatoria. Cualquier intento en esta etapa de de…nir formalmente lo que queremos decir por regularidad aleatoria será más bien inútil, porque necesitamos varios conceptos matemáticos que se desarrollarán en lo que sigue. En su lugar, vamos a intentar dar un poco de intuición detrás de la noción de regularidad aleatoria con un ejemplo simple y posponer la discusión formal hasta el capítulo 10. Ejemplo Considere la situación de lanzar dos dados y sumar los puntos de los lados hacia arriba. La primera característica fundamental de esta situación es que en cada prueba (lanzamiento de los dos dados) el resultado (la suma de los puntos de los lados) no se puede adivinar con total certeza. Lo único que se puede decir con certeza es que el resultado será uno de los números: { 2,3,4,5,6,7,8,9,10,11,12} 1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 17 excluimo el caso en el que los dados terminan en uno de los bordes! Todas las 36 combinaciones posibles detrás de los resultados se muestran en la tabla 1.1. La segunda característica fundamental de la situación es que bajo ciertas condiciones, tales como la simetría de los dados, sabemos que ciertos resultados son más probables de ocurrir que otros. Por ejemplo, sabemos que el número 2 puede surgir como la suma de sólo un conjunto de caras: {1,1} - cada dado sale 1; se aplica lo mismo al número 12 con caras: {6,6}. Por otro lado, el número 3 puede surgir como la suma de dos conjuntos de caras: {(1,2), (2,1)} y lo mismo sucede con el número 11 con caras: {(6,5), (5,6)}. En la siguiente subsección veremos que esta línea de razonamiento combinatorio dará lugar a una distribución de probabilidad, como se muestra en la tabla 1.3. Tabla 1.1. Resultados en el lanzamiento de dos dados 1 2 3 4 5 6 1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) 2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) 3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) 4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) 5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) 6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) En esta etapa es interesante hacer una pausa y considerar la noción de regularidad aleatoria como desarrollada primero en el contexto de juegos de azar. Esta es, de hecho, la forma en la que las probabilidades hicieron su primera aparición. Históricamente, las probabilidades fueron introducidas como una manera de entender las diferencias observadas empíricamente entre la probabilidad de aparición de diferentes resultados de las apuestas, como en el cuadro 1.1. Miles de soldados durante la época medieval podían dar fe de las diferencias en las frecuencias relativas empíricas de ocurrencia de diferentes eventos relacionados con los resultados en la tabla 1.1.Mientras esperaban para atacar una ciudad, los soldados tenían miles de horas sin nada que hacer y nuestros registros históricos sugieren que ellos se complacían principalmente en juegos de azar parecidos al lanzamiento de dados. Después de miles de ensayos ellos sabían intuitivamente que el número 7 aparece con más frecuencia que cualquier otro número y que el 6 aparece con menos frecuencia que el 7, pero con más frecuencia que el 5. Veamos cómo esta 18CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA intuición se convirtió en algo más sistemático, que eventualmente condujo a la teoría de la probabilidad. La tabla 1.2 reporta 100 ensayos reales del experimento aleatorio de lanzar dos dados y sumar el número de puntos que aparecen en la cara superior del dado. Un vistazo a la tabla sólo con…rma que los números van de 2 a 12, pero ningún patrón real es evidente, al menos a primera vista. Tabla 1.2. Datos observados en el lanzamiento de un dado 3 10 11 5 6 7 10 8 5 11 2 9 9 6 8 4 7 6 5 12 7 8 5 4 6 11 7 10 5 8 7 5 9 8 10 2 7 3 8 10 11 8 9 5 7 3 4 9 10 4 7 4 6 9 7 6 12 8 11 9 10 3 6 9 7 5 8 6 2 9 6 4 7 8 10 5 8 7 9 6 5 7 7 6 12 9 10 4 8 6 5 4 7 8 6 7 11 7 8 3 Figura 1.1 Una sucesión de 100 lanzamientos de dos dados. En la …gura 1.1 se representan los datos sobre el índice del número de la prueba. En el primer lanzamiento de los dados la suma fue de 3, en la segunda la suma fue de 10, en la tercera la suma de 11, etc. Uniendo estos resultados (observaciones) se da al espectador una mejor perspectiva en cuanto a la naturaleza secuencial de los observaciones. NOTE que el orden de las observaciones constituye una dimensión importante cuando se discute la noción de regularidad aleatoria. Historicamente, el primer patrón de regularidad aleatoria percibido intuitivamente por los soldados medievales fue el de una ley estable de las frecuencias relativas como se sugiere en el histograma en la …gura 1.2 del los datos en la tabla 1.2; sin, por supuesto, la utilización de técnicas grá…cas, 1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 19 pero después de numerosos lanzamientos de los dados. La pregunta que surge naturalmente en esta etapa es: ¿Cómo es el histograma en la …gura 1.2 relacionado con los datos en la …gura 1.1? Hoy en día, los patrones de regularidad aleatoria son perceptibles mediante la realización de una serie de experimentos mentales. Experimento mental 1. Piense en las observaciones como pequeños cuadrados con un área igual y gire hacia la derecha la …gura 1.1 en 90 y deje que los cuadros que representan las observaciones caigan verticalmente creando una pila sobre el eje "x". La pila representa el bien conocido histograma, como se muestra en la …gura 1.2. Este histograma presenta una clara forma triangular, que estará relacionada con una distribución de probabilidad derivada mediante el uso de argumentos basados en combinaciones y permutaciones en el siguiente subsección. Para …nes de referencia resumimos esta regularidad en la forma de la noción intuitiva siguiente: Figura 1.2 Histograma de la suma de los dos datos dados. [1] Distribución: después de varias pruebas los resultados forman una ley (aparentemente) estable. Experimento mental 2. Ocultar las observaciones siguientes hasta un cierto valor del índice, por ejemplo t = 40, y tratar de adivinar el resultado 20CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA siguiente. Repita esto a lo largo del eje de la observación del índice y si resulta que es imposible utilizar las observaciones anteriores para adivinar el valor de la observación siguiente, excluyendo los casos extremos 2 y 12, entonces el patrón de regularidad aleatoria que llamamos independencia está presente. Es importante notar que en el caso de los resultados extremos 2 y 12 uno está casi seguro que después de 2 la probabilidad de obtener un número mayor que ése es mucho mayor, y después de 12 la probabilidad de obtener un número más pequeño está cerca de uno . Como se ha señalado antes, este tipo de predicción está relacionado con el componente de regularidad aletoria conocido como ley estable de frecuencias relativas. Excluyendo estos casos extremos, cuando se miran las observaciones previas, no se puede discernir un patrón en la …gura 1.1 que ayude a reducir el número de resultados alternativos posibles, permitiendo al modelador adivinar la observación siguiente (dentro de límites estrechos) con alguna certeza. Intuitivamente, podemos resumir esta idea en forma de: [2] Independencia: en cualquier sucesión de pruebas el resultado de cualquier prueba no in‡uye y no es in‡uido por cualquier otra. Experimento mental 3. Tome una ventana ancha (para incluir la dispersión de las ‡uctuaciones en una grá…ca de tiempo como la …gura 1.1) que sea también lo su…cientemente larga (aproximadamente menos de la mitad de la longitud del eje horizontal) y deje que se deslice de izquierda a derecha a lo largo del eje horizontal mirando el panorama dentro del cuadro, a medida que se desliza a lo largo. En el caso de que la imagen no cambie signi…cativamente, los datos exhiben homogeneidad , en otro caso, la heterogeneidad está presente; véase el capítulo 5. Otra forma de ver este patrón es en términos de la media y la variación en torno a esta media de los números a medida que avanzamos de izquierda a derecha. Parece como si este promedio secuencial y su variación son relativamente constante alrededor de 7. La variación en torno a este valor promedio constante parece estar dentro de bandas constantes. Esta regularidad aleatoria puede ser intuitivamente resumida en el concepto siguiente: [3] Homogeneidad: las probabilidades asociadas a los diferentes resultados siguen siendo las mismas para todas las pruebas. NOTE que en el caso donde el patrón en una grá…ca de tiempo es tal que permite al modelador adivinar la siguiente observación con exactitud, los 1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 21 datos no muestran ningún patrón aleatorio, ellos exhiben lo que se conoce como regularidad determinista. La forma más fácil de pensar la regularidad determinista es visualizar las grá…cas de funciones matemáticas de las elementales (polinómicas, algebraicas, trascendentales) a funciones más complicadas, como las funciones de Bessel, diferenciales y ecuaciones integrales. Si echamos un vistazo a la …gura 1.1 y tratamos de pensar en una función que pueda describir la línea en zig-zag observada, nos daremos cuenta de que no existe tal función matemática, a menos que utilicemos un polinomio de orden 99, que es lo mismo que listar los números reales . Los patrones que discernimos en la …gura 1.1 son patrones de regularidad aleatoria. Regularidad aleatoria y estructura probabilística El paso de las regularidades observadas a su formalización (matematización) fue impulsado por el patrón de regularidad de distribución como se ejempli…ca en la …gura 1.2. La formalización propia fue inicialmente muy lenta, tomando siglos para materializarse, y tomó la forma de argumentos combinatorios simples.Podemos captar la esencia de esta formalización inicial si volvemos al ejemplo del lanzamiento de los dados. Ejemplo En el caso del experimento de lanzar dos dados, podemos seguir la línea de razonamiento que sugiere diferencias en la posibilidad de ocurrencias de los distintos resultados en {2,3,4,5,6,7,8,9,10, 11,12} como sigue. Ya sabemos que el 3 se produce dos veces más que el 2 o el 111 . Usando la misma lógica de sentido común podemos argumentar que ya que el 4 se produce cuando cualquiera de {(1,3), (2,2), (3,1)}ocurre, su posibilidad de ocurrencia es tres veces mayor que la del 2. Continuando esta línea de razonamiento y suponiendo que las 36 combinaciones pueden ocurrir con la misma posibilidad, descubrimos una distribución que relaciona cada resultado con una cierta posibilidad de ocurrencia mostrada abajo en la …gura 1.3; en primer lugar obtenida por Coordano en los 1550’s. Como podemos ver, el resultado más probable de ocurrir es el número 7; no es casualidad que varios juegos de azar jugados con dos dados involucren el número 7. Pensamos la posibilidad de ocurrencia como probabilidades y el patrón general de tales probabilidades asociadas con cada resultado como una distribución de probabilidad;, véase el capítulo 3. 1 o el 12 (no 11 como aparecen en el texto). 22CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA Figura 1.3 Regularidad en el agregado. resultados probabilidades 2 3 4 5 6 7 8 9 10 11 12 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Tabla 3. La suma de dos dados: una distribución de probabilidad. La distribución de probabilidad en la tabla 1.3 representa un concepto probabilístico formulado por matemáticos para capturar la regularidad aleatoria en la …gura 1.1. Una comparación directa entre las …guras 1.2 y 1.3 con…rma la intuición de los soldados. Las frecuencias empíricas relativas en la …gura 1.2 están muy cerca de las probabilidades teóricas que se muestran en la …gura 1.3. Además, si tuviéramos que repetir el experimento 1000 veces, las frecuencias relativas habrían sido aún más cercanas a la probabilidad teórica; véase el capítulo 10. En este sentido, podemos pensar del histograma en la …gura 1.2 como una realización empírica de la distribución de probabilidad en la …gura 1.3 (véase el capítulo 5 para mayor discusión). Ejemplo En el caso del experimento de lanzar dos dados, los soldados medievales lo utilizaron para apostar sobre si el resultado es un número par o impar (los griegos introdujeron estos conceptos en torno al 300 aC). Es decir, el soldado A apostaría por el resultado A ={3,5,7,9,11} y el soldado B por el resultado B ={2,4,6,8,10,12}. A primera vista parece como si el soldado 1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 23 B fuera un ganador de…nitivo porque hay más números pares que impares. Los soldados medievales, sin embargo, sabían por observación empírica que esto no era cierto! En efecto, si volvemos a la tabla 1.3 y evaluamos la probabilidad de que el evento A ocurra, descubrimos que los soldados estaban en lo correcto: la probabilidad de ambos eventos es 21 ; la distribución de probabilidad se da en la tabla 1.4. Tabla 1.4 La suma de dos dados: impares y pares resultados Probilidades A = f3; 5; 7; 9; 11g B = f2; 4; 6; 8; 10; 12g 1 2 1 2 Concluimos esta subsección reiterando que el fenómeno estocástico de lanzar dos dados dio origen a los datos observados que se muestras en la …gura 1.1, los cuales muestran las tres diferentes formas de patrones de "regularidad aleatoria: [1] Distribución (triangular), [2] Independencia y [3] Homogeneidad. Para propósitos de referencia, es importante señalar que los anteriores patrones perceptibles, constituyen casos particulares de patrones de regularidad aleatoria relacionados con tres diferentes amplias categorías de supuestos probabilísticos que llamamos Distribución, Dependencia y Heterogeneidad, respectivamente; véase el capítulo 5. Los conceptos que subyacen a estas categorías de supuestos probabilísticos se de…nen formalmente en los capítulos 3-4. Una digresión - la paradoja del caballero de Mere Históricamente, la conexión entre una ley estable de frecuencias relativas y las probabilidades se forjó en la mitad del siglo 17 en un intercambio de cartas entre Pascal y Fermat. Con el …n de degustar esta formulación inicial, consideremos el siguiente ejemplo histórico. La paradoja del caballero de Mere se planteó en una carta de Pascal a Fermat en Julio 29 de 1654 como uno de los problemas planteados a él por de Mere (un noble francés y un jugador estudioso). De Mere observó la siguiente regularidad empírica: 24CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA la probabilidad de obtener al menos un 6 en cuatro lanzamientos de un dado es mayor a 12 pero la probabilidad de obtener un doble 6 en 24 lanzamientos con dos dados es inferior a 12 . De Mere estableció esta regularidad empírica y no tenía dudas sobre su validez debido a la enorme cantidad de veces que él repitio el juego. Él estaba tan seguro de su validez empírica que fue tan lejos como para cuestionar la parte más fundamental de la matemática, la aritmética misma. Razonando por analogía, de Mere argumentó que las dos probabilidades deberían ser idénticas, porque un 6 en cuatro lanzamientos de un dado es lo mismo que un doble 6 en 24 lanzamientos de dos dados, ya que, de acuerdo con su manera de pensar: 4 es a 6 como 24 es a 36. La distribución estadística en el cuadro 1.4 se puede utilizar para explicar la regularidad empírica observada por De Mere. Siendo un poco más cuidadoso que de Mere, se puede argumentar de la siguiente manera (las manipulaciones de las probabilidades no son importantes en esta etapa): 1 Probabilidad de un doble seis = 36 1 n Probabilidad de un doble seis en n lanzamientos = 36 , 35 n Probabilidad de no doble seis en n lanzamientos = 36 35 n = p. Probabilidad de al menos un doble seis en n lanzamienos = 1 36 35 24 Para n = 24, p = 1 = 0:4914039. 36 Es interesante observar que en el argumento anterior al pasar de la probabilidad de un doble seis en una prueba a la de n pruebas usamos el concepto de independencia que se de…ne más adelante. Usando una distribución estadística para el caso de un dado, cuya distribución de probabilidad se da en el cuadro 1.5, se puede argumentar por analogía de la siguiente manera: Tabla 1.5 Distribución de probabilidad de un dado resultados probabilidades Probabilidad Probabilidad Probabilidad Probabilidad de de de de 1 2 3 4 5 6 1 6 1 6 1 6 1 6 1 6 1 6 un seis = 16 n un seis en n lanzamientos = 16 , n no seis en n lanzamientos = 65 al menos un seis en n lanzamienos = 1 5 n 6 = q. 1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 25 4 5 Para n = 4, q = 1 = 0:5177469. 6 Las dos probabilidades p = 0.4914039 y q = 0.5177469 con…rman la regularidad empírica de Mere y no hay paradoja de ningún tipo! Esto muestra claramente que las frecuencias empíricas de Mere fueron correctas, pero su razonamiento por analogía era defectuoso. Los patrones de regularidad aleatoria de imprevisibilidad, que relacionamos con el concepto de probabilidad de [2] Independencia y el de uniformidad que relacionamos con [3]homogeneidad utilizando la …gura 1.1, son implícitamente utilizados en el intercambio entre Pascal y Fermat. Es interesante notar que estos conceptos no se formalizaron explícitamente hasta bien entrado el siglo 20. Los supuestos probabilísticos de Independencia y Homogeneidad (Distribución Idéntica) subyacen a la mayoría de las formas de análisis estadístico antes de 1920’s. En esta etapa es importante poner de relieve que la noción de probabilidad subyacente a la distribución de probabilidad en las tablas 1.3 a 1.5, es la de frecuencia relativa como la utilizada por De Mere para establecer su regularidad después de un gran número de ensayos. No hay nada controversial sobre esta noción de probabilidad y el uso de modelos estadísticos para discutir cuestiones relativas a los juegos de azar, donde el mecanismo de azar es explícitamente una parte integral del fenómeno que está siendo modelado. No es, sin embargo, evidente que tal noción de probabilidad pueda ser utilizada en la modelación de los fenómenos observables en donde el mecanismo de azar no es explícito. Regularidad aleatoria en fenómenos económicos En el caso del experimento de lanzar dos dados, el mecanismo aleatorio es explícito y la mayoría de las personas estará dispuesta a aceptar sobre la fe que si este experimento es efectuado, los patrones de regularidad aleatoria [1] - [3] señalados anteriormente, estarán presentes. La pregunta que surge naturalmente es: ¿Es esta regularidad aleatoria concebible en fenómenos estocásticos más allá de los juegos de azar? En el caso de los fenómenos estocásticos, donde el mecanismo de azar no es explícito, a menudo: (a) no se puede obtener una distribución de probabilidad a priori con un argumento de simetría física como en el caso de dados o monedas, y 26CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA Figura 1.4 Cambios en las tasas de cambio de los datos. (b) no se puede pretender la presencia de algún mecanismo aleatorio explícito que de lugar a las observaciones. Usando estas observaciones nuestra primera tarea es decidir si el fenómeno subyacente puede ser útilmente visto como estocástico y nuestra segunda tarea consiste en utilizar los patrones de regularidad aleatoria percibidos en estos datos con el …n de elegir un modelo estadístico adecuado. Por lo tanto, discerniento patrones de regularidad aleatoria a partir de las grá…cas de los datos y relacionándolos con los conceptos correspondientes de la teoría de la probabilidad será una parte esencial de la discusión que sigue. Un número de fenómenos observables en econometría pueden ser vistos provechosamente como fenómenos estocásticos y por lo tanto susceptibles de modelización estadística. En un intento de dar algún soporte a esta proposición, considerar la grá…ca de tiempo de X - cambios logarítmicos de la tasa cambiaria del dólar Canadiense/EE.UU para el período 1973-1992 (observaciones semanales) que se muestra en la …gura 1.4. Lo que es interesante acerca de los datos es el hecho de que presentan una serie de patrones de regularidad aleatoria muy similares a los exhibidos por las observaciones de los dados en la …gura 1.1, pero algunos patrones adicionales también son perceptibles. Los patrones de regularidad exhibida por los dos conjuntos de observaciones son las siguientes: (a) la media aritmética en el ordenamiento (tiempo) parece ser constante, 1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 27 (b) la banda de variación alrededor de la media parece ser relativamente constante. El patrón de regularidad en relación a una (posiblemente) estable ley de frecuencias relativas exhibida por los datos de la tasa cambiaria, no sugieren una ley estable triangular como en la …gura 1.2. En su lugar: Figura 1.5 Histograma de las tasas de cambio. (c) los datos en la …gura 1.4 presentan una cierta simetría en forma de campana (parece que hay tantos puntos por encima de la media como por debajo, pero las frecuencias relativas se desvanecen cuando el valor de X se aleja del centro a las colas) . Esta regularidad se puede ver en la grá…ca de las frecuencias relativas dada en la …gura 1.5. Cómo las grá…cas en las …guras 1.4 y 1.5 se relacionan será discutido ampliamente en el capítulo 5, junto con una descripción más detallada de cómo se pueden reconocer los patrones (a) - (c) mencionados anteriormente. Además de los patrones de regularidad encontrados en la …gura 1.1, cabe señalar que los datos en la …gura 1.4 muestran el patrón de regularidad aleatoria siguiente: (d) parece haber una sucesión de conglomerados de pequeños y grandes cambios que se suceden unos a otros. En esta etapa es improbable que el lector esté convencido de que las características señaladas anteriormente son fácilmente discernibles a partir de las 28CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA grá…cas de tiempo. Sin embargo, un aspecto importante de la modelización en este libro es sin duda cómo leer información sistemática en las grá…cas de tiempo, lo cual se iniciará en el capítulo 5. En conclusión, el punto de vista adoptado en este libro es que los fenómenos estocásticos (aquellos exhibiendo regularidad aleatoria) son susceptibles de modelización empírica, con independencia de si el mecanismo aleatorio incorporado es evidente o no. En efecto, una tarea importante para el modelador es identi…car los fenómenos observables que pueden ser provechosamente vistos como fenómenos estocásticos. La cuestión de si existe o no tal mecanismo es sólo de interés metafísico. En resumen, los fenómenos estocásticos (los que exhiben regularidad aleatoria) se pueden modelar empíricamente sin importar si está explícito o no un mecanismo aleatorio. 1.3 Regularidad aleatoria y modelos estadísticos La discusión hasta el momento ha señalado la presencia de patrones de regularidad aleatoria en fenómenos estocásticos. Motivada por el deseo de utilizar la información proporcionada por los patrones de regularidad de azar, la teoría de la probabilidad procedió a formalizarlos mediante el desarrollo (invención) de conceptos probabilísticos (matemáticos) relacionados; en los próximos capítulos vamos a introducir una serie de conceptos de la teoría de la probabilidad. En particular, el patrón de regularidad ley estable de frecuencias relativas será formalmente relacionado con el concepto de distribución de probabilidad; véanse las tablas 1.3 a 1.5. En el caso de los datos de la tasa de cambio la aparente ley estable de frecuencias relativas en la …gura 1.5 será relacionada con distribuciones tales como la Normal y la t de Student, las cuales exhiben simetría en forma de campana (véase el capítulo 5). El patrón de imprevisibilidad será formalmente relacionado con el concepto de la Independencia ([1]) y el patrón de uniformidad con el concepto de Distribución Idéntica ([2]). Los patrones de regularidad (a) - (b), exhibidos por los datos de la tasa de cambio, serán formalmente relacionados con el concepto de estacionariedad (véanse los capítulos 5 y 8) y (d) será relacionado con la dependencia no lineal (véase el capítulo 6). Es importante destacar que los patrones de regularidad aleatoria, como los señalados anteriormente, 1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 29 constituyen el elemento vital de la modelización estadística debido a que su utilización apropiada constituye la esencia de la modelación empírica. El puente entre los patrones de regularidad aleatoria y los conceptos probabilísticos, transforma el reconocimiento intuitivo del patrón cognitivo en información estadística (sistemática). En un intento por hacer más fácil la utilización de la información estadística sistemática para los propósitos de modelización, los conceptos probabilísticos que tienen por objeto formalizar los patrones de regularidad aleatoria se colocan en tres amplias categorías: (D) Distribución, (M) Dependencia y (H) Heterogeneidad Esta taxonomía básica está diseñada para proporcionar una forma lógicamente coherente de ver y utilizar información estadística para …nes de modelización. Estas amplias categorías puede verse como la de…nición de los componentes básicos de un modelo estadístico en el sentido de que todo modelo estadístico puede ser visto como una suave mezcla de ingredientes de las tres categorías. La suavidad de la mezcla en este contexto se re…ere a la consistencia interna de los supuestos que constituyen un modelo estadístico. La primera recomendación a tener en cuenta en la modelación empírica es: 1 Un modelo estadístico es sólo un conjunto de supuestos probabilísticos compatibles (internamente) de las tres grandes categorías: (D), (M) y (H). NOTA: a aquellos lectores bien informados que no están convencidos de que este es ciertamente el caso, mencionamos de paso que los supuestos de distribución son a veces indirectos, en forma de suavidad y existencia de momentos condicionales; ver el capítulo 10. El modelo estadístico elegido representa una descripción de un mecanismo aleatorio tentativo con el cual el modelador intenta capturar la información sistemática en los datos (los patrones de regularidad aleatoria). Un modelo estadístico di…ere de otros tipos de modelos en la medida en que especi…ca una situación, un mecanismo o un proceso en términos de una cierta estructura probabilística, que será formalmente de…nida en los capítulos 2-4. Conceptos matemáticos tales como distribución de probabilidad, independencia y distribución idéntica constituyen formas de estructura probabilística. De hecho, el objetivo principal de la primera parte del libro es introducir muchos conceptos adicionales que permiten al modelador especi…car una variedad de formas de estructura probabilística, su…cientemente rica como para capturar, esperemos que todo, patrón de regularidad aleatoria. El modelo estadístico se especi…ca exclusivamente en términos de tales supuestos 30CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA probabilísticos diseñados para capturar la información sistemática en datos observados. Los ejemplos de lanzamiento de dados, discutidos anteriormente, son importantes no por su interés intrínseco en la modelización empírica, sino porque ellos representan ejemplos de un fenómeno estocástico simple que jugará un papel importante en los próximos capítulos. El fenómeno estocástico representado por los ejemplos anteriores se denomina genéricamente como un experimento aleatorio y se utilizará en los próximos tres capítulos (2-4) para motivar la estructura básica de la teoría de probabilidad. El fenómeno observable subyacente en los datos de la tasa de cambio gra…cados en la …gura 1.4 no se puede considerar como un experimento aleatorio y por lo tanto tenemos que ampliar el marco de referencia probabilístico con el …n de ser capaces de modelar tales fenómenos también; este es el tema de los capítulos 6-8. En vista de la discusión anterior, la modelización empírica exitosa tiene dos importantes dimensiones: (a) reconocer los patrones de regularidad aleatoria exhibidos por los datos observados y (b) capturar estos patrones postulando modelos estadísticos apropiados. La primera requiere de una habilidad por cuenta del modelador para detectar estos patrones utilizando una variedad de técnicas grá…cas. De hecho, es imposible sobreestimar la importancia de las técnicas grá…cas en la modelización empírica. Esto nos lleva convenientemente a la segunda recomendación en la modelización empírica: 2. Las técnicas grá…cas constituyen una herramienta indispensable en la modelización empírica! Si regresamos momentaneamente a los datos en la tabla 1.2, no hay duda de que el lector tendrá di…cultades para reconocer los patrones de regularidad aleatoria en el conjunto de datos. Un vistazo a las grá…cas de los datos en las …guras 1.1 y 1.4 proporcionan una visión global de la estructura de ambos conjuntos de datos que requieren más de mil palabras para describirlos. Esto no hace sino con…rmar las capacidades naturales perceptivas y cognitivas del cerebro humano; los seres humanos son capaces de reconocer, clasi…car y recordar patrones visuales mucho más e…cientemente que los números o las palabras. Capítulo 5 pone de mani…esto la interacción entre los patrones de regularidad aleatoria y los conceptos probabilísticos utilizando una variedad de representaciones grá…cas. La captura de la información estadística sistemática en los datos pre- 1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 31 supone un marco de referencia matemático lo su…cientemente rico como para modelar cualquier patrón que se detecte. Es mediante la teoría de la probabilidad que la regularidad aleatoria ha atraído la atención en conformidad. En este sentido, la interacción entre la modelación y la teoría de la probabilidad no es una calle de un sólo sentido. Por ejemplo, en fecha tan tardía como el siglo 20 el patrón de dependencia era bastante nebuloso y como consecuencia, el concepto matemático correspondiente aún no era formalizado. En vista de esto, hay buenas razones para creer que existen patrones de regularidad aleatoria que no podemos reconocer en la actualidad, pero que se reconocerán en el futuro. A medida que más patrones son detectados, otros supuestos probabilísticos serán concebidos con el …n de formalizarlos y así enriquecer la teoría de la probabilidad como un marco de referencia para la modelación. Debido a la importancia de la interacción entre patrones observables y conceptos probabilísticos formales, en la …gura 1.6 presentamos esta relación de manera esquemática: los patrones de regularidad aleatoria se formalizan bajo la forma de conceptos probabilisticos, estos, a su vez, se clasi…can en la taxonomía básica y entonces se utilizan para postular modelos estadísticos que (esperemos) capturen la información estadística sistemática; no se escatimarán esfuerzos en relacionar los patrones de regularidad aleatoria con los correspondientes conceptos probabilísticos a lo largo de este libro. 32CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA Figura 1.6 Patrones de regularidad aleatoria, supuestos probabilísticos y modelo estadístico. La variedad y alcance previsto de los modelos estadísticos es limitado solamente por el alcance de la teoría de la probabilidad (como un marco de referencia para la modelación) y la formación e imaginación del modelador. No hay tal cosa como una lista completa de modelos estadísticos que el modelador pone a prueba en alguna sucesión y elige el que parece el menos objetable. Además, la modelación empírica no trata sobre la elección de estimadores óptimos (de algún menú preespeci…cado), es sobre la elección de modelos estadísticos adecuados; modelos que son ideados por el modelador en un intento por capturar la información sistemática en los datos. En la discusión de modelos estadísticos en los capítulos 2-8 se presta especial atención a la relación entre los datos observados y la elección de modelos estadísticos. Algunos de los temas abordados en los próximos capítulos son: (a) ¿Qué entendemos por un modelo estadístico? (b) ¿Por qué debería la información estadística ser codi…cada en un lenguaje neutral de teoría? 1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 33 (c) ¿Qué información utilizamos cuando elegimos un modelo estadístico? (d) ¿Cuál es la relación entre el modelo estadístico y las características de los datos? (e) ¿Cómo reconocemos la información estadística sistemática en los datos observados? Concluimos esta sección haciendo hincapié en el hecho de que la información estadística sistemática en los datos observados tiene que ser codi…cada en un lenguaje que esté libre de conceptos de la teoría económica. La teoría de la probabilidad ofrece dicho lenguaje neutral de teoría que se utilizará exclusivamente en la especi…cación de modelos estadísticos. Como se muestra en los capítulos 6-7, los modelos estadísticos como se especi…can en este libro, no se basan en una teoría basada en formas funcionales entre las variables de interés; en lugar de ello se especi…can exclusivamente en términos de relaciones estadísticas basadas en información puramente estadística. La codi…cación de los modelos estadísticos exclusivamente en términos de información estadística es de vital importancia debido a que uno de los principales objetivos de la modelación empírica es la evaluación de la validez empírica de las teorías económicas. Esta evaluación se puede considerar como una prueba para la teoría bajo evaluación, con el modelo teórico como el principal testigo de la defensa y los datos observados como el principal testigo del enjuiciador. Para que los datos sean un testigo imparcial, ningún juez (modelador) debe permitir preparar al principal testigo de cargo de la defensa antes del juicio! La información estadística debe ser de…nida exclusivamente en términos de conceptos que estén libres de cualquier connotación teórica-económica; sólo entonces los datos observados pueden ser vistos como un testigo independiente (y justo) de la acusación. La tercera recomendación en la modelación empírica es: 3 No permita que los datos observados sean preparados a priori por la teoría a ser evaluada. El modelo estadístico es considerado inicialmente como un resumen conveniente de la información sistemática en los datos que existe independientemente de cualquier teoría. La cuarta recomendación en la modelación empírica es: 4 La especi…cación del modelo estadístico se rige principalmente por la naturaleza y estructura de los datos observados. 34CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA 1.3.1 Su…ciencia estadística Como se ha dicho anteriormente, el éxito de la modelación empírica se juzga por qué tan adecuadamente el modelo estadístico postulado captura la información estadística sistemática contenida en los datos. Un tema central de este libro es el de la su…ciencia estadística y cómo se puede lograr en la práctica, mediante la utilización de varios métodos incluyendo representaciones grá…cas (véanse los capítulos 5-6) y pruebas de errores de especi…cación (ver capítulo 15). Sin un modelo estadístico adecuado, que capture la información sistemática en los datos, ninguna inferencia estadística válida es posible, independientemente de la so…sticación y / o la validez potencial de la teoría! La inferencia estadística es a menudo vista como el procedimiento inductivo por excelencia: utilizando un conjunto de datos (especí…co) deducir conclusiones sobre el fenómeno estocástico (general) que dio origen a los datos (véase la grá…ca 1.7). Sin embargo, es a menudo insu…cientemente reconocido que este procedimiento inductivo se incrusta en una premisa fundamentalmente deductiva. El procedimiento desde el modelo postulado (la premisa) a los resultados de inferencia (estimación, pruebas de predicción, simulación) es deductivo; no se utilizan datos para obtener resultados acerca de la optimalidad de los estimadores, pruebas, etc; estimadores y pruebas son declarados óptimos con base en un razonamiento puramente deductivo. El componente deductivo del razonamiento de inferencia estadística signi…ca: si se asumen ciertas premisas, ciertas conclusiones necesariamente se siguen. Más formalmente, si denotamos las premisas por p y las conclusiones por q, entonces la forma anterior de razonamiento deductivo toma la forma de modus ponens (a…rmando el antecedente): si p entonces q. 1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 35 Figura 1.7 Inferencia estadística. En este sentido, la inferencia estadística depende fundamentalmente de la validez de las premisas: la postulación de un modelo estadístico en el contexto del cual los datos observados se interpretan como una realización del mecanismo estocástico postulado. Con base de esta premisa se procede a obtener resultados estadísticos de inferencia usando deducción matemática. Argumentos deductivos correctos muestran que si sus premisas son válidas, sus conclusiones son válidas. Usando los datos observados en cuestión, el modelador se basa en la validez de este argumento deductivo con el …n de extraer conclusiones generales de inferencia a partir de datos especí…cos. Sin embargo, si las premisas no son válidas las conclusiones son generalmente injusti…cadas. En vista de esto, consideramos de suma importancia el problema de evaluar la validez del modelo estadístico postulado (probando errores de especi…cación), especialmente en el caso de datos observados. La quinta recomendación en la modelación empírica es: 5 Ningún resultado de inferencia estadística se debe utilizar para llegar a conclusiones a menos que la su…ciencia estadística del modelo postulado se haya establecido primero. El primer paso y más crucial para garantizar la su…ciencia estadística es que el modelador especi…que explícitamente los supuestos probabilísticos 36CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA que conforman el modelo postulado; sin un conjunto completo de supuestos probabilísticos la noción de su…ciencia estadística no tiene ningún sentido operativo. Por esta razón, los siguientes capítulos prestan especial atención al problema de la especi…cación del modelo estadístico (modelos de probabilidad y muestrales) en una extensión que puede parecer innecesaria en los libros de texto de los econometristas tradicionales. Se destaca en esta etapa que la notación, la terminología y las taxonomías diferentes introducidas en los próximos cuatro capítulos desempeñan un papel importante para garantizar que la naturaleza y estructura de los supuestos probabilísticos subyacentes al modelo postulado se hagan explícitos y transparentes para el modelador. Figura 1.8 Inferencia estadística con su…ciencia estadística. En el contexto de la aproximación de reducción probabilística, las desviaciones del modelo estadístico postulado son vistas como información sistemática en los datos que el modelo postulado no tiene en cuenta. El modelo estadístico debe ser reespeci…cado con el …n de dar cuenta de la información sistemática pasada por alto por el modelo postulado inicialmente. Por lo tanto, el procedimiento en la …gura 1.7 se complementa con las etapas adicionales de pruebas de errores de especi…cación y reespeci…cation. La …gura 1.8 muestra el procedimiento modi…cado con la idea de un modelo estadístico adecuado que está entre el modelo estimado y la inferencia estadística. Como se muestra en la …gura 1.8, llegar a un modelo estadístico adecuado implica pruebas de errores de especi…cación y reespeci…cation. 1.4. ESTADÍSTICA FRENTE A TEORÍA DE LA INFORMACIÓN * 37 El concepto de su…ciencia estadística es particularmente importante para la modelación empírica, ya que puede proporcionar la base para establecer los hechos estilizados que la teoría económica requiere explicar. Una mirada super…cial a los modelos econométricos empíricos de los últimos 50 años convencerá, incluso al más ávido partidario del enfoque econométrico tradicional, que no constituyen un programa de investigación progresiva, ya que no han dado lugar a ninguna acumulation real de evidencia empírica. La separación de los modelos estadísticos y teóricos y asegurando la su…ciencia estadística del primero, ofrecerá una buen punto de partida para una estrategia de investigación progresiva donde regularidades empíricas sean establecidas por modelos estadísticamente adecuados (hechos estilizados propiamente dichos) y las teorías sean necesarias para explicarlos. Vale la pena reiterar que en este libro la información estadística y la teórica se distinguen claramente con el …n de evitar cualquier acusación de circularidad en la aplicación de esta estrategia de investigación. 1.4 Estadística frente a teoría de la información * En un intento de proporcionar una visión más equilibrada de la modelación empírica y evitar acusaciones precipitadas en nombre de los econometristas tradicionales de que "el enfoque adoptado en este libro ignora la teoría económica", en esta sección discutimos brevemente el papel de la teoría económica en la modelación empírica (véase También Spanos (1986,1995 b)). Los datos económicos están creciendo a un ritmo exponencial, pero al mismo tiempo, cuando un modelador intenta dar respuestas a las preguntas especí…cas él / ella a menudo encuentran que los datos particulares necesarios para el análisis no existen en la forma requerida. Esto es sintomático de la falta de una metodología econométrica adecuada que desempeñara un papel de coordinación entre la teoría económica y los datos observados apropiados. A menudo, existe una enorme brecha entre la teoría de los conceptos y la serie de datos que suelen estar disponibles; los datos disponibles con frecuencia suelen medir algo muy diferente. Como se ha dicho anteriormente, esta diferencia surge principalmente debido a las diferencias entre las circunstancias de diseño experimental asumidas por la teoría económica, a través de la cláusula ceteris paribus y la naturaleza observacional de los datos disponibles; el resul- 38CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA tado de un proceso continuo con numerosos factores que in‡uyen más allá del potencial control del modelador. La sexta recomendación en la modelación empírica de que hay que tener en cuenta es: 6 Nunca suponga que los datos disponibles miden el concepto de la teoría que el modelador tiene en mente sólo porque los nombres son muy similares (o incluso coinciden)! Un ejemplo notable es el concepto teórico de demanda contra los datos que con frecuencia suelen estar disponibles en forma de cantidades de transacción; ver Spanos (1995b). Como resultado de esta brecha, la modelación empírica a menudo trata de responder a cuestiones teóricas de interés mediante la utilización de datos que no contienen esa información. Como argumentamos en las tres secciones anteriores, la información estadística sistemática está: (a) relacionada con los patrones de regularidad aleatoria exhibidos por los datos observados, (b) de…nida exclusivamente en términos de conceptos probabilísticos y (c) carece (inicialmente) de cualesquiera connotación de teoría económica. La clara distinción entre la información estadística sistemática y teórica, constituye uno de los pilares básicos de la metodología de modelación empírica expuesta en este libro; véase también Spanos (1986, 1995b, en preparación). Teoría y modelos estadísticos constituyen entidades distintas construidas sobre información distinta, el comportamiento de los agentes económicos y la información estadística sistemática, respectivamente. Esto constituye una condición necesaria para el modelo estadístico que se utiliza como un testigo imparcial sobre la base de cuyo testimonio la su…ciencia empírica del modelo teórico se puede evaluar. La teoría in‡uye en la elección de un modelo estadístico apropiado de dos maneras. En primer lugar, la teoría determina la elección de los datos observados de interés. Si bien la elección de los datos observados es cargada de teoría, una vez elegidos, los datos adquieren una existencia objetiva que está libre de teoría. La única in‡uencia adicional que la teoría tiene en la especi…cación del modelo estadístico es que este último debe ser lo su…cientemente general para permitir que el modelador plantee cuestiones teóricas de interés en su contexto. Por lo tanto, las pruebas de errores de especi…cación y reespeci…cation, facetas de la modelación empírica, no tienen nada que ver con el modelo teórico; ellas son puramente procedimientos estadísticos determinados por la noción de información estadística. La séptima recomendación en la modelación empírica es: 1.5. DATOS OBSERVADOS 39 7. Ninguna teoría, por muy so…sticada, puede rescatar un modelo estadístico mal especi…cado Como se ha dicho en el capítulo 7, el punto de vista estadístico y teórico proporcionan ángulos de visión muy diferente para los propósitos de la modelación. Estos ángulos de visión son complementarios, pero a menudo se utilizan como sustitutos con graves consecuencias; véase Spanos (1997a). Un modelo estadísticamente adecuado proporciona un buen resumen (descripción) de información estadística sistemática en los datos, pero no constituye el último objetivo de la modelación empírica. En última instancia, el modelador quiere evaluar la teoría en términos de un modelo estadísticamente adecuado, así como sintetizar los modelos estadísticos y teórico en un intento de dar signi…cado económico a la teoría y capacidad explicativa al modelo estadístico. Por lo tanto, la octava recomendación a tener en cuenta en el modelación empírica es: 8. El éxito de la modelación empírica se evalúa por la habilidad con la que el modelador puede sintetizar los modelos estadísticos y la teóricos, sin cambios ya sea en la información teórica o estadística! Con el …n de distinguir entre un modelo estadístico, construido exclusivamente en términos de información estadística sistemática, y la síntesis de la teoría y los modelos estadísticos llamamos al segundo un modelo econométrico (véase Spanos (1986)) 1.5 Datos observados En esta sección vamos a intentar un análisis preliminar del elementos constitutivo de la modelación empírica, los datos observados. Algunos aspectos de los datos observados desempeñar un papel importante en la elección de los modelos estadísticos. 1.5.1 Los primeros datos Los datos numéricos han sido coleccionados por una razón u otra desde los albores de la historia. Las primeras colecciones de datos, sin embargo, no eran sistemáticas y la información recogida no estaba generalmente disponible. La recopilación sistemática de datos económicos se pueden fechar en el siglo 40CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA 17 como un subproducto de las actividades gubernamentales tales como impuestos, la recaudación de aduanas el gasto y la regulación, así como el deseo de cuanti…car ciertos aspectos de la actividad gubernamental (véase Porter (1995)). Por ejemplo, los primeros datos sobre la distribución del ingreso eran simplemente un producto secundario de los datos …scales. Hacia el …nal del siglo 19 censos especiales se llevaron a cabo por (en particular los EE.UU.) gobiernos en los sectores agrícola y manufacturero con el …n de examinar las cuestiones especí…cas de interés (ver Crist (1985)) Por lo tanto, no debería ser una sorpresa encontrar que los datos utilizados en los primeros trabajos empíricos en la economía (a principios de siglo 20) eran en su mayoría datos sobre las exportaciones, las importaciones, la producción y precio (ver Stigler (1954, 1962)). Poco a poco, sin embargo, los gobiernos comenzaron a apreciar el uso de estos datos en la evaluación de los resultados económicos, así como proporcionar guías para la política económica, una realización que llevó a la creación de agencias de recolección de datos tales como el Departamento de Estadística de la Junta de Comercio de Inglaterra. Además, la formación de varias sociedades estadísticas en Europa a mediados del siglo 19, tales como las Sociedades de Estadística de Londres y Manchester y el Congreso Internacional de Estadística, dio un nuevo impulso a esfuerzos más sistemáticos para reunir y publicar datos que también fueron comparables entre los países. 1.5.2 Datos económicos En relación a los datos económicos, cabe destacar el papel crucial que desempeñan tres pioneros dando un impulso adicional para más y mejores datos económicos en el siglo 20, Mitchell en la medición de los ciclos económicos, Kuznets en la creación de cuentas nacionales y Leontief en la aplicación práctica de las tablas de insumo-producto. Estos primeros esfuerzos han dado lugar a miles de millones de series de datos económicos en la segunda mitad del siglo 20, que están actualmente recogidos a diario por los gobiernos y otros organismos, en todo el mundo. Solo la Unión Europea está produciendo montañas de volúmenes que contienen datos económicos que al parecer (sobre la base de testimonios de oídas) nadie tiene el tiempo para utilizarlos, por el momento! En la mayoría de las ciencias, tales como la física, la química, la geología y la biología, los datos observados suelen ser generados por los propios modeladoras en experimentos bien diseñados. En econometría el modelador es a 1.5. DATOS OBSERVADOS 41 menudo enfrentado a datos observacionales en comparación con los datos experimentales. Esto tiene dos implicaciones importantes para la modelación empírica en la econometría. En primer lugar, el modelador debe dominar habilidades muy diferentes a las necesarias para analizar datos experimentales; el tema importante de este libro. En segundo lugar, la separación de los colectores de datos y el analista de datos requiere que el modelador se familiarice en sí mismo a fondo con la naturaleza y la estructura de los datos en cuestión. Junto con la explosión antes mencionada de la colección de datos observacionales creció la demanda para analizar estas series de datos con miras a una mejor comprensión de los fenómenos económicos como la in‡ación, el desempleo, las ‡uctuaciones del tipo de cambio y el ciclo económico, así como la mejora de nuestra capacidad para pronosticar la actividad económica . Un primer paso hacia la consecución de estos objetivos es conocer los datos disponibles, asegurando que el modelador está bien versado en las respuestas a preguntas tales como: (i) ¿Cómo se recopilaron los datos? (ii) ¿Cuál es el sujeto de la medición? (iii) ¿Cuáles son las unidades de medida y la escala? (iv) ¿Cuál es el período de medición? (v) ¿Qué es exactamente lo que miden los números? (vi) ¿Cuál es la conexión entre los datos y los conceptos teóricos correspondientes? Por lo tanto, la novena recomendación a tener en cuenta en la modelación empírica es: 9 Conocer las dimensiones importantes de sus datos a fondo! 1.5.3 Datos observados y naturaleza de un modelo estadístico Un conjunto de datos que comprende n observaciones se denota por {x1 ; x2 ; :::; xn } o más compactamente: fxk ; k = 1; 2; 3; :::; ng NOTA: es fundamental enfatizar el valor del simbolismo matemático en lo que sigue. Es imposible exagerar el poder y la importancia de los símbolos matemáticos cuando se está discutiendo la teoría de probabilidad. La 42CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA claridad y la concisión que este simbolismo introduce a la discusión es indispensable. Se acostumbra clasi…car los datos económicos de acuerdo a la dimensión (índice) de la observación en dos categorías principales: (i) Sección transversal: fxk ; k = 1; 2; 3; :::; ng, k indica individuos (empresas, estados, etc), (iii) series de tiempo: fxt ; t = 1; 2; 3; :::; T g, t indica tiempo (semanas, meses, años, etc.) Por ejemplo, los datos observados del consumo podrían hacer referencia al consumo de los distintos hogares en el mismo punto en el tiempo o al consumo agregado (gastos de los consumidores) a través del tiempo. Los primeros constituyen datos de sección transversal, los segundos datos de series de tiempo. Mediante la combinación de estos dos, por ejemplo, observando el consumo de los mismos hogares a través del tiempo, podemos de…nir una tercera categoría: (iii) Panel (longitudinal): fxk ; k := (k; t) , k = 1; 2; 3; :::; n, t = 1; 2; :::; T g, donde k y t representan individuos y tiempo, respectivamente. Note que en esta categoría el índice k es de dos dimensiones, pero xk es unidimensional. A primera vista, las dos categorías principales no parecen diferir sustancialmente debido a que los conjuntos índice parecen idénticos; los conjuntos índice son subconjuntos del conjunto de los números naturales. Una re‡exión momentánea, sin embargo, revela que hay más de un conjunto índice de lo que parece. En el caso de que el conjunto índice Z := f1; 2; :::; ng se re…era a los hogares particulares, el índice respresenta los nombres de los hogares, por ejemplo: {Jones, Brown, Smith, Richard, . . . }. (1:1) En el caso de series de tiempo el índice T := f1; 2; :::; T g se re…ere a fechas particulares, por ejemplo: f1952; 1953; :::; 1997g (1:2) Al comparar los dos conjuntos índice observamos de inmediato que tienen una estructura matemática muy diferente. La diferencia más evidente es que el conjunto (1; 1) no tiene un ordenamiento natural, si ponemos Brown antes que Smith no tiene importancia, pero en el caso del conjunto índice (1; 2) el orden es una propiedad fundamental del conjunto. 1.5. DATOS OBSERVADOS 43 En el ejemplo anterior, los dos conjuntos índice parecen idénticos, pero resultan ser muy diferentes. Esta diferencia hace que los dos conjuntos de datos sean cualitativamente diferentes en la medida en que el análisis estadístico de un conjunto de datos será claramente diferente de la de los otros. La razón de esto se pondrán de mani…esto en capítulos posteriores. En esta etapa, basta con señalar que una serie de conceptos tales como dependencia y heterogeneidad (mencionados anteriormente) están íntimamente ligados a la ordenación del conjunto índice. La estructura matemática del conjunto índice (por ejemplo, la presencia o ausencia de un ordenamiento) no es el único criterio para la clasi…cación de conjuntos de datos diferentes. La estructura matemática del rango de valores de las observaciones constituye otro de los criterios más importantes. Por ejemplo la serie de datos sobre el "número de niños" en las diferentes familias puede tomar valores en un conjunto de la forma: f0; 1; 2; :::; 100g Suponemos que hay un límite superior que elegimos sea 100. Se trata de un conjunto de valores discretos que tiene una estructura matemática muy diferente del conjunto de los valores de la variable consumo que toma valores sobre la recta real positiva: R+ = (0; 1) Otra variable que es diferente de estas dos consumo y número de niños en términos de su rango de valores es la religión (cristiana, musulmana, budista) que no puede ser tratada de la misma manera que los datos sobre el consumo o el número de niños porque no hay manera natural para medir la religión en términos numéricos. Incluso si estamos de acuerdo en una escala de medición de la religión, por ejemplo f 1; 0; 1g, el orden es irrelevante y la diferencia entre estas cifras no tiene sentido. Por el contrario, estas dos dimensiones son signi…cativas en el caso de los datos de consumo y el número de niños. La discusión anterior plantea cuestiones importantes en relación con la medición de los datos observados. La primera es si los valores numéricos se pueden considerar como valores de un cierto intervalo de la recta real, por ejemplo [0; 1] o que representan un conjunto de valores discretos, por ejemplo f0; 1; 2; 3; 4; 5; 6; 7; 8; 9g. La segunda es si estos valores tienen un orden natural o no. Reuniendo estos comentarios podemos ver que la taxonomía que clasi…ca los datos en sección transversal y series de tiempo es insu…ciente porque hay algunas clasi…caciones más que no se tienen en cuenta. Estas clasi…caciones 44CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA son importantes desde el punto de vista de la modelación porque hacen una diferencia en la medida en que las técnicas estadísticas aplicables se re…ere. En su formulación abstracta un conjunto de datos toma la forma: fxk ; k 2 N; xk 2 Rx g donde N es el conjunto índice y Rx representa el rango de valores de x : NOTE que ambos conjuntos N y Rx son subconjuntos de la recta real, denotadoapor R:= ( 1; 1). Dependiendo de la estructura matemática de estos dos conjuntos diferentes clasi…caciones surgen. De hecho, la estructura matemática de los conjuntos N y Rx juega un papel muy importante en la elección del modelo estadístico (véanse las secciones 3-5). En cuanto al rango de valores de los datos, Rx puede ser un subconjunto discreto de R, tal como Rx = f0; 1; 2; :::g o un subconjunto continuo de R tal como Rx := [0; 1). En los casos en que la variable X se puede pensar como tomando sólo un número numerable de valores, R es considerado como discreto, en otro caso la variable X se considera continua. En econometría, variables como el consumo, la inversión, el ahorro y la in‡ación se consideran continuas, pero las variables como el número de hijos, estado civil y una serie de variables de elección, son vistas como discretas. La misma clasi…cación discreta-continua también se puede aplicar al conjunto índice N lo que conduce a una cuarta forma de clasi…cación de las variables y los datos correspondientes. Como se muestra en los capítulos 3-4, la naturaleza de ambos conjuntos, N (el índice de conjunto) y Rx (el rango de valores de los valores numéricos de los datos) desempeña un papel importante en la determinación de la forma y estructura del modelo estadístico postulado para describir el fenómeno observable de interés. 1.5.4 Escalas de medición Una dimensión muy importante de los datos observados es la escala de medición de las series de datos individuales. En esta subsección discutimos esta importante dimensión y planteamos algunas de las cuestiones relacionadas con la modelación de datos medidos a diferentes escalas. El número de clasi…caciones introducido anteriormente aumenta considerablemente al darse cuenta que la dicotomía discreto-continuo se puede clasi…car más de acuerdo con la escala de medición otorgada al conjunto en cuestión. Las escalas de medición se clasi…can tradicionalmente en cuatro grandes categorías. 1.5. DATOS OBSERVADOS 45 Escala de razón. Variables en esta categoría disfrutan de la más rica estructura matemática en su rango de valores, donde, para cualesquiera dos valores a lo largo de la escala, por ejemplo x1 y x2 : (a) la relación (x1 =x2 ) es una cantidad signi…cativa (existe un origen natural para el sistema de medida), (b) la distancia (x2 x1 ) es una cantidad signi…cativa, y (c) existe un ordenamiento natural (ascendente o descendente) de los valores a lo largo de la escala; las comparaciones: x2 ? x1 tienen sentido. Variables económicas como consumo e in‡ación pertenecen a esta categoría. Para cualesquiera dos valores, x1 y x2 de una variables en esta categoría es importante hacer la pregunta: ¿cuántas veces x1 es mayor que x2 ? Escala de intervalo Una variable se dice que es una variable de intervalo si su sistema de medición es dado por (b)-(c), pero no por (a), por ejemplo, la temperatura, la presión arterial sistólica. Para cualquiera dos valores x1 y x2 de una variable en esta categoría tiene sentido la pregunta: ¿Qué tanto x1 y x2 son diferentes? Ejemplo El conjunto índice (1:2) se mide en esta escala porque la distancia (1970 1975 no lo es. 1965) es una magnitud signi…cativa, pero la razón 1960 Escala ordinal. Una variable pertenece a esta categoría si es dada sólo con (c), por ejemplo, cali…cación (excelente, muy bueno, bueno, no aprobado), nivel de ingresos (alto, medio, bajo). Para tales variables el ordenamiento existe, pero la distancia entre categorías no es signi…cativamente cuanti…cable. Para cualesquiera dos valores x1 y x2 de una variable en esta categoría tiene sentido la pregunta: ¿ x1 es mayor o menor que x2 ? Escala nominal. Una variables se dice que es nominal si su sistema de medición no ha sido bendecido con ninguna de las anteriores. Estas variables representan categorías que no tienen ni siquiera un orden natural, por ejemplo, estado civil (casado, soltero, divorciado, separado), género (masculino, femenino, otro), situación laboral (empleados, desempledos, orto). Debido a la naturaleza de tales variables el modelador debe tener cuidado en la atribución de valores numéricos para evitar inferencias equivocadas. Para cualesquiera de los dos valores x1 y x2 de una variable en esta categoría la única cuestión que tiene sentido preguntar es: 46CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA ¿Es x1 diferente de x2 ? Las anteriores escalas de medición han sido considerados en una jerarquía descendente de la más alta (razón, la más rica en estructura matemática) a la más baja (nominal). Es importante señalar que los conceptos y métodos estadísticos diseñados para una categoría de variables no se aplican necesariamente a las variables de otras categorías (véase el capítulo 6). Por ejemplo, la media, la varianza y covarianza (los componentes básicos del análisis de regresión) no tienen sentido en el caso de variables ordinales y nominales, la mediana tiene sentido en el caso de las variables ordinales, pero no en el caso de las nominales. En este último caso la única medida de la localización que tiene un signi…cado es la moda. La única regla general para los métodos de análisis de diferentes variables con escalas de medición, que se puede a…rmar en este momento es que un método apropiado para una escala de medida determinada en la jerarquía es también apropiado para escalas más altas, pero no para las más bajas. Hay varios libros que discuten los métodos de análisis de los llamados datos categóricos: datos medidos en la escala nominal u ordinal (ver Bishop, Fienberg y Holland (1975), Agresti (1990), entre otras cosas). TERMINOLOGÍA. Es importante señalar que en la literatura estadística hay una confusión generalizada entre las escalas de medición y tres clasi…caciones diferentes: variables discretas / continuas, cualitativas / cuantitativas y no categóricas - categóricas. Las variables discretas se pueden medir en las cuatro escalas y las variables continuas en ocasiones pueden ser agrupadas en un pequeño número de categorías. Las variables categóricas son las únicas variables que pueden medirse ya sea en la escala ordinal o en la nominal pero la categoría de variables cualitativas confusa. En algunos libros las variables cualitativas son sólo las que se miden en la escala nominal, pero en otros también se incluyen las variables ordinales. Escalas de medición y conjunto índice. Los ejemplos de escalas de medición utilizados en la discusión anterior se re…eren exclusivamente al conjunto Rx : el rango de valores de una variable X. Sin embargo, la discusión también es relevante para el conjunto índice N. En el caso de la variable consumo de los hogares discutida anteriormente, el conjunto índice (1:1) se mide en una escala nominal. Por otra parte, en el caso de los gastos de los consumidores el conjunto índice (1:2) se mide en la escala de intervalo. Esto se debe a que la dimensión temporal no tiene un origen natural (cero es por convención) y en el análisis estadístico el conjunto índice (1:2) a menudo se sustituye por un conjunto de la forma T := f1; 2; :::; T g. Tomemos nota de 1.5. DATOS OBSERVADOS 47 que la categorización serie de tiempo / sección transversal, se basa exclusivamente en la escala de medición del conjunto índice. El conjunto índice de series de tiempo es de escala de intervalo y el de sección transversal de escala nominal. También hay casos en los que el conjunto índice pueden ser una razón o una escala ordinal. Por ejemplo, hay datos producidos por un sismógrafo con un conjunto índice continuoT R+ . La naturaleza del conjunto índice juega un papel importante en la modelación empírica, como se verá en la secuela. En vista del hecho de que, además de la dicotomía discreto/continuo tenemos cuatro escalas de medida diferente para el rango de valores de la propia variable y otros cuatro para el conjunto de índices, una desconcertante variedad de tipos de datos pueden ser de…nida. Nuestro interés está en aquellos tipos que afectan la clase de métodos estadísticos que se pueden aplicar a los datos en cuestión. Un vistaso super…cial a la literatura de econometría aplicada revela que las variables con muy distintas escalas de medición están involucrados en la misma ecuación de regresión (véase el capítulo 7), haciendo que algunos de estos resultados sean sospechosos. Como se ha dicho en el capítulo 3, los conceptos de media, varianza y covarianza (la materia prima de la regresión) no tienen sentido para variables ordinales o nominales. Figura 1.9 Datos de puntuaciones del examen (en orden alfabético). 48CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA 1.5.5 ¿Sección transversal contra series de tiempo, es éste el problema? En conclusión es importante regresar a la taxonomía tradicional sección transversal/serie de tiempo para advertir al lector contra la adopción de aforismos de la forma dependencia y/o heterogeneidad son irrelevantes para los datos de corte transversal. Lo que es importante para considerar la dependencia y / o heterogeneidad no es si los datos son de sección transversal o de series de tiempo, sino si los datos están ordenados o no. Es cierto que para los datos de series de tiempo hay un ordenamiento natural (el tiempo), pero eso no signi…ca que los datos de sección transversal no tienen ordenamientos naturales como el espacial o alguna otra dimensión de interés. Una vez que el ordenamiento es adoptado las nociones de dependencia y heterogeneidad llegan a ser tan relevante en sección transversal como lo son para series de tiempo. Ejemplo Consideremos el caso de los datos que …guran en la tabla 1.6. Los datos se re…eren a los resultados de los exámenes de una clase tomando un examen de opción múltiple sobre los Principios de Economía en 1992 y se presentan según el orden alfabético de los nombres de los estudiantes. Los datos son gra…cados en la …gura 1.9, con los resultados medidos en el eje vertical y los estudiantes por orden alfabético en el eje horizontal. Este orden no parece muy interesante porque no hay 1.5. DATOS OBSERVADOS 49 Figura 1.10 Datos de las puntuaciones del examen (orden de asiento). razones para creer que existe una relación entre las puntuaciones y el orden alfabético de los nombres de los estudiantes; sólo para estar seguros se podría evaluar esta conjetura mediante la comparación de esta grá…ca de tiempo con la que se muestra en la …gura 1.1. Por otro lado, ordenar las observaciones de acuerdo a la disposición con que se sientan durante el examen, como se muestra en la …gura 1.10, parece ser más interesante en el sentido de que podría arrojar información interesante. De hecho, observando la …gura 1.10, podemos ver una representación grá…ca bastante diferente. Los altibajos de la última grá…ca son un poco más ordenados que los de la …gura 1.9; ellos muestran algún tipo de comportamiento cíclico. Como se explica en el capítulo 5, este patrón de ciclos no idénticos revela que los datos muestran algún tipo de dependencia positiva entre el examen y el lugar donde se sientan. En inglés franco, esto signi…ca que hubo una gran cantidad de trampas que tuvieron lugar en el salón durante el examen! Como resultado del análisis estadístico de los datos como se ordenan en la …gura 1.10 (véanse los capítulos 5 y 15) fue el último examen de opción múltiple aplicado por el autor. Tabla 1.6. Datos de las puntuaciones del examen de Principios de Economía 98.0 43.0 77.0 51.0 93.0 85.0 76.0 56.0 59.0 62.0 67.0 79.0 66.0 98.0 57.0 80.0 73.0 68.0 71.0 74.0 83.0 75.0 70.0 76.0 56.0 84.0 80.0 53.0 70.0 67.0 100.0 78.0 65.0 77.0 88.0 81.0 66.0 72.0 65.0 58.0 45.0 63.0 57.0 87.0 51.0 40.0 70.0 56.0 75.0 92.0 73.0 59.0 81.0 85.0 62.0 93.0 84.0 68.0 76.0 62.0 65.0 84.0 59.0 60.0 76.0 81.0 69.0 95.0 66.0 87.0 La moraleja de esta historia es que aunque no hay orden natural para los datos de sección transversal, puede haber muchas dimensiones interesantes con respecto a las que se pueden ordenar. La décima recomendación en la modelación empírica es: 10 las clasi…caciones de los datos, por sí mismas, no determinan la forma y la estructura probabilística del modelo estadístico adecuado. Como argumentamos antes, los modelos estadísticos toman en cuenta una variedad de diferentes dimensiones y características de los datos. La clasi…cación de los modelos de acuerdo a la clasi…cación de datos basada en una sola de tales dimensiones, es miope. 50CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA 1.5.6 Limitaciones de los datos económicos En relación con las limitaciones de los datos económicos vamos a considerar dos cuestiones importantes: (i) su precisión y (ii) su naturaleza. Un hito importante en el uso de los datos económicos para el estudio de los fenómenos económicos ha sido la publicación de un libro de Morgenstern (1963), intitulado On the accuracy of economic observations, publicado por primera vez en 1950. En este libro el autor discute la precisión de los datos económicos publicados y cuestiona lo adecuado de estos datos para los …nes acostumbrados. Este libro in‡uyó en la formación de la actitud de los practicantes hacia los datos económicos como lo describe abajo Griliches (1984, ambas citas, p. 1466): "Econometricians have an ambivalent attitude towards economic data. At one level, the “data” are the world that we want to explain, the basic facts that economists purport to elucidate. At the other level, they are the source of all our trouble. Their imperfection makes our job di¢ cult and often impossible. Many a question remains unresolved because of “multicollinearity”or other sins of the data. . . " La visión de Griliches es que los econometristas no deben quejarse de la calidad de sus datos, ya que es exactamente esta calidad lo que justi…ca su legitimidad: "si los datos fueran perfectos, obtenidos de experimentos aleatorios bien diseñados, habría apenas espacio para un campo independiente de la econometría ..." Aunque este es claramente un punto de vista extremo hay algo de verdad en el, en la medida en que los datos disponibles en la econometría rara vez recogidos de experimentos aleatorios bien diseñados. Por lo tanto, la necesidad de diferentes técnicas estadísticas y procedimientos surge debido a la naturaleza de los datos disponibles y no de su mala calidad. La principal limitación de los datos económicos disponibles surge del hecho de que existe una brecha considerable entre los modelos teóricos y los datos disponibles. La teoría económica, a través de la cláusula ceteris paribus, supone un sistema casi aislado, pero los datos observados son el resultado de un proceso continuo y multidimensional con numerosos factores que in‡uyen más allá del control del modelador (véase Spanos, 1956). La precisión de los datos económicos ha mejorado sustancialmente desde 1.5. DATOS OBSERVADOS 51 Morgenstern (1963) y en algunos sectores, como el …nanciero, los datos suelen ser muy precisos. Series de tiempo sobre tipos de cambio y precios de acciones son tan precisos como los datos económicos se pueden obtener. En este libro no suscribimos la idea de que cuando el análisis de los datos no dan lugar a los resultados esperados (en base a una idea preconcebida determinada), la calidad de los datos es el culpable. Esto es lo mismo que un mal carpintero culpando a sus herramientas. En los casos en que la precisión de los datos es problemática, el modelador debe tener en cuenta que no hay procedimiento estadístico que pueda extraer información de los datos observados cuando éstos no están en primer lugar. La recomendación undécima en la modelación empírica es: 11 No hay argumento estadístico, por muy so…sticado, que puede salvar la mala calidad de los datos observados. En lo que sigue asumimos que el modelador ha comprobado los datos observados y los considera lo su…cientemente precisos para ser considerados …ables para los propósitos de inferencia estadística. Como una regla, no consideramos resultados de mala inferencia (juzgados contra algún prejuicio concebido a priori) como un síntoma de la mala calidad de los datos. Muchas veces la calidad de los datos son utilizados como una excusa para el conocimiento del modelador ascético de la naturaleza de los datos observados y la mente super…cial a menudo desplegada al relacionar un modelo teórico con los datos observados en cuestión (véase Spanos (1995b)). Por lo tanto, la última recomendación en la modelación empírica es: 12 Familiarícese completamente con la naturaleza y la precisión de sus datos. Esto hará al modelador consciente de qué preguntas pueden y no pueden ser planteadas a un conjunto particular de datos. En conclusión, el autor no tiene ilusiones con respecto a la aceptabilidad de las anteriores recomendaciones. En esta etapa, la única posición reivindicada para estas recomendaciones son los prejuicios del autor en la modelación empírica. Como mencionamos en el prefacio, la discusión en el resto de este libro pretende transformar estos prejuicios en la tesis, sustentadas con argumentos convincentes. 52CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA 1.6 Mirando hacia adelante El principal objetivo de los próximos tres capítulos (2-4) es motivar y crear la forma por excelencia de un modelo estadístico que llamamos un modelo estadístico simple. La motivación está en la presentación del último como una formalización de un fenómeno estocástico simple que genéricamente llamamo un experimento aleatorio. La formalización introduce los conceptos probabilísticos necesarios que luego son mezclados para construir la forma genérica de un modelo estadístico simple. La interacción entre los patrones de regularidad aleatoria y los conceptos probabilísticos de…niendo un modelo estadístico simple se lleva a cabo en el capítulo 5, utilizando una variedad de técnicas grá…cas. El objetivo principal del capítulo 6 es extender el modelo estadístico simple en las direcciones que permiten al modelador para capturar diversas formas de dependencia, incluidas las expuestas en los datos de la tasa de cambio en la …gura 1.4. El capítulo 7 continúa el tema del capítulo 6 con el …n de mostrar que la clave para la modelación de la dependencia de datos observacionales es la noción de condicionamiento. Esto nos lleva naturalmente a los modelos de regresión y relacionados. La extensión del modelo estadístico simple en direcciones que permiten el modelador capturar diversas formas de dependencia y heterogeneidad se completa en el capítulo 8. En pocas palabras, el objetivo básico de los capítulos 2-8 es introducir el marco de referencia de la teoría de probabilidad necesario en el contexto en el que tales conceptos probabilísticos pueden ser de…nidos y relacionados con los patrones observables exhibidos por las observaciones a partir de un fenómeno estocástico. 1.7 Ejercicios 1 ¿Cómo decidimos que los fenómenos económicos de interés son susceptibles de modelación empírica? 2 Explique intuitivamente la noción de regularidad aleatoria. 3 Explique brevemente la conexión entre los patrones de regularidad aleatoria y los conceptos de la teoría de la probabilidad. 4 Explique brevemente la conexión entre los patrones de regularidad aleatoria y los modelos estadísticos. 5 Explique la relación entre un histograma y una distribución de probabilidad con la paradoja de De Mere. 1.7. EJERCICIOS 53 6 Explique por qué es importante que la información estadística se resuma exclusivamente en términos de conceptos probabilísticos. 7 ¿Bajo qué circunstancias puede el modelador pretender que los datos observados constituyen evidencia sin prejuicios en la evaluación de la su…ciencia empírica de una teoría? 8 Explique el concepto de su…ciencia estadística y discuta su importancia para la inferencia estadística. 9 "La inferencia estadística es un híbrido de un procedimiento deductivo e inductivo." Debate. 10 Compare y contraste las diferentes escalas de medición de los datos observados. 11 De cuatro ejemplos de variables medidas en cada una de las diferentes escalas, más allá de las dadas en la discusión anterior. 12 ¿Por qué nos preocupamos por las escalas de medición en la modelación empírica? 13 Más allá de las escalas de medida cuáles características de los datos observados son de interés desde el punto de vista de modelación empírica? 14 Compare y contraste datos de series de tiempo, de sección transversal y de panel. 15 Explique cómo las distintas características de los datos observados se pueden formalizar en el contexto de expresar una serie de datos en la forma de: fxk ; xk 2 Rx , k 2 Ng Sugerencia: explique el papel y el signi…cado de la estructura matemática de los conjuntos (Rx ; N). 16 "En la modelación de datos de sección transversal no se puede hablar de dependencia." Discuta. 54CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA Capítulo 2 Teoría de probabilidad: un marco de referencia para la modelación 2.1 2.1.1 Introducción Objetivo principal Objetivo: estructurar la teoría de la probabilidad para modelar fenómenos estocásticos observables (experimentos aleatorios) que exhiben regularidad aleatoria. Se modela utilizando un modelo estadístico (ME). Se inicia informalmente, se concluye en el capítulo cuatro con un ME que es la forma matemática de un experimento aleatorio. 2.2 Modelo estadístico simple: una visión informal 2.2.1 La estructura básica de un modelo estadístico simple El modelo estadístico simple (paramétrico)1 tiene dos componentes interrelacionados: 1 Aludido primero por Fisher (1922). 55 56CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA [i] modelo de probabilidad: = ff (x; ) ; 2 ; x 2 Rx g [ii] modelo muestral: X (X1 ; X2 ; :::; Xn ) es una muestra aleatoria El modelo de probabilidad determina una familia de densidades (f (x; ) ; 2 de…nida en el rango de valores de (Rx ) de la v.a. X: Es decir, una función de densidad para cada valor del parámetro 2 . Un ejemplo del concepto de modelo de probabilidad se ve en la gra…ca de algunos miembros de la familia de densidades Gamma de un parámetro cuya forma explicita es: = f (x; ) = ( )= R1 0 x u 1 1 exp f ug du exp f xg ; 2 ; x 2 R+ , R+ y Rx R+ . Cada curva es una función de densidad variando en al rango de la v.a. X : (0; 14) R+ , para un valor especí…co del parámetro . Enseguida se analizan algunos conceptos utilizados en la ilustración anterior. 2.2.2 El concepto de variable aleatoria: visión informal La visión simple de v.a. es propuesta primero por Chebyshev (1812-1884): es ”una variable real que puede tomar distintos valores con distintas probabilidades”. Aunque cercana a la de…nición moderna de v.a., es poco deseable matemáticamente. Como se verá en el capítulo tres, una v.a. es una función X(:) : S !R (asigna números a resultados). La necesidad de de…nir tal función surge porque el conjunto de resultados de ciertos fenómenos estocásticos no siempre toman la forma de números pero los datos si. La visión simple de v.a., para simpli…car el concepto, suprime al conjunto de resultados e identi…ca la v.a. con su rango de valores, de aquí el término variable. Ejemplo. ”Lanzar dos dados y sumar sus caras”. Resultan 62 = 36 combinaciones de caras (no de números), denotadas, por ejemplo: fs1 ; s2 ; :::; s36 g : Se evitan muchas aristas del problema procediendo directamente a contar el número de puntos que aparecen en las caras. En algún sentido esta es la de…nición de v.a.: X(:) : S !RX ; RX R : ), 2.2. MODELO ESTADÍSTICO SIMPLE: UNA VISIÓN INFORMAL 57 X(:) : fs1 ; s2 ; :::; s36 g ! f2; 3; :::; 12g : Sin embargo, no es la única función posible. Se puede de…nir otra función que mapea las sumas pares al cero y las impares al uno: Y (:) : fs1 ; s2 ; :::; s36 g ! f0; 1g : Este ejemplo sugiere que suprimir el conjunto de resultados e identi…car la v.a. con su rango puede ser erróneo. Respecto a la aleatoriedad de la v.a., para tratar de distinguir entre v.a. y variable matemática, la visión simple procede a asociar probabilidades a su rango de valores. Ejemplo. En ejemplo anterior, se de…nieron dos v.a. que la visión simple identi…ca con sus rangos: X con f2; 3; :::; 12g y Y con f0; 1g : En el caso de las v.a.X y Y , la asociación de sus valores con sus probabilidades toma la forma: x f (x) 2 3 4 5 6 7 8 9 10 11 12 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 y y f (y) 0 1 1 2 1 2 Notar que la función de densidad es: P (X = x) = f (x); 8x 2 RX y cumple (a) fX (x) 0; 8x 2 RX ; (b) X xi2RX fX (xi ) = 1: Por (b), la suma de las probabilidades de los valores de la v.a. es uno. La función de densidad distribuye una unidad de masa (probabilidad) a lo largo del rango de los valores de la variable aleatoria X: 58CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA Variables aleatorias continuas Si X y Y satisfacen la de…nición de v.a. de Chebyshev (cada valor de la variable aleatoria tiene asociada una probabilidad), es porque el rango de esas variables es numerable (discreto). Cuando una v.a. tiene rango no numerable de valores (toma valores en un intervalo) no se puede asignar a cada valor de la v.a. una probabilidad. Las probabilidades se asignan usando intervalos que pertenecen a este rango de valores. La función de densidad para variables aleatorias continuas se de…ne en intervalos como sigue: P (x x + dx) = f (x) dx; 8x 2 Rx X y satisface las propiedades: 0; 8x 2 Rx ; (b) (a) fX (x) Z fx dx = 1: x2Rx Notar que la función de densidad de v.a.c toma valores en el intervalo [0; 1) por lo cual estos valores no se pueden intepretar como probabilidades. En contraste, las funciones de densidad de v.a.d. toman valores en el intervalo [0; 1] : 2.2.3 Funciones de densidad paramétricas Las densidades de las v.a. X y Y anteriores no involucran parámetros desconocidos porque las probabilidades se conocen (debido a que los dados son simétricos y que cada cara aparece con la misma probabilidad). Cuando los dados están ”cargados”las densidades cambiarán porque ellas comprenderán a parámetros desconocidos. Por ejemplo, asumiendo que P (Y = 1) = (un parámetro desconocido), 0 1; la función de densidad para Y ahora toma la forma: y f (y) 0 1 1 2 1 2 y 0 f (y; ) 1 ! 1 que se puede escribir como f (y; ) = y (1 )1 y que es la densidad Bernoulli, con ; 2 [0; 1] ; y = 0; 1: [0; 1] y Ry = f0; 1g : 2.2. MODELO ESTADÍSTICO SIMPLE: UNA VISIÓN INFORMAL 59 Bernoulli (s. XVIII) sugiere la distribución paramétrica binomial con función de densidad: f (x; ) = n x x )1 (1 x ; 2 [0; 1] ; x = 0; 1; n = 1; 2; :::; n = (n n!x)!x! ; n! = n (n 1) (n 2) (3) (2) (1) : x de Moivre y Laplace (s. XIX) incorporan la distribución normal con densidad: donde 1 f (x; ) = p exp 2 1 2 2 (x )2 ; = ; 2 2 R R+ ; x 2 R: Pero en realidad el interés por las densidades paramétricas inicia con Pearson (1895) cuya familia de distribuciones (familia Pearson) es generada resolviendo la ecuación diferencial: df (x) = f (x) dx (x 0) ; x 2 Rx : 2 1 + 2x + 3x Según los valores de los parámetros 0 ; 1 ; 2 y 3 ; esta ecuación genera funciones de densidad como t de Student, Laplace, Pareto, Gamma y normal. Una versión discreta de esa ecuación diferencial se puede usar para generar distribuciones como la binomial y binomial negativa, hipergeométrica y Poisson. Parámetros Los parámetros se relacionarán con sus momentos. En esta etapa basta con notar que los parámetros tienen un papel importante en la modelizaciónempírica y en la inferencia estadística. 2.2.4 Muestra aleatoria: preliminares Un modelo estadístico es simple por la forma del modelo muestral, el supuesto de muestra aleatoria. Este supuesto implica dos nociones interrelacionadas: independencia [I] y distribución idéntica [ID]. Informalmente, las v.a. 60CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA (X1 ; X2 ; :::; Xn ) son independientes si la ocurrencia de una (Xi ) no in‡uye ni es in‡uída por la ocurrencia de cualquier otra (Xj ; i 6= j; i; j = 1; 2; :::; n). Además, las v.a. independientes (X1 ; X2 ; :::; Xn ) están indénticamente distribuídas si sus funciones de densidad son las mismas f (x1 ; ) = f (x2 ; ) = = f (xn ; )2 : 2.3 Teoría de la probabilidad: una introducción Se trata de establecer un puente entre datos observados y ME construído con teoría de la probabilidad. Ésta, trata de capturar los patrones de regularidad aleatoria exhibidos por procesos estocásticos observables que se quieren modelar3 . Se inicia modelando un proceso estocástico simple llamado experimento aleatorio. Una precaución: debido a la simplicidad del experimento aleatorio, su formalización proporcionará un ME no adecuado para modelar algunos fenómenos estocásticos en econometría. Los capítulos 6-8 extienden el modelo estadístico, incorporando conceptos probabilísticos adicionales, lo que expande la aplicabilidad del modelo. 2.4 Experimento aleatorio Esta noción se introduce porque da una idea del tipo de fenómenos estocásticos que se pretende modelar. En este capítulo se formaliza un experimento aleatorio en forma de un abstracto espacio estadístico el cual da los fundamentos matemáticos de la teoría de la probabilidad.En los siguientes dos capítulos, se da forma matemática al concepto de experimento aleatorio en forma de modelo estadístico. En el capítulo tres, espacio estadístico!ME (da formas operacionales para modelar). 2 Conviene notar que lo apropiado de los supuestos IID en datos experimentales, en contraste con datos observacionales, es materia de buen diseño. 3 La aproximación axiomática, como una rama de la matemática, se remonta a Euclides que especi…ca los axiomas básicos de objetos primitivos y entonces desarrolla la teoría (teoremas, lemmas, etc.) usando lógica deductiva 2.4. EXPERIMENTO ALEATORIO 2.4.1 61 Experimento aleatorio Un experimento aleatorio4 E es un mecanismo aleatorio que satisface: [a] todos los posibles resultados se conocen a priori, [b] en toda prueba particular el resultado no se conoce a priori pero existe una regularidad perceptible de ocurrencia asociada a esos resultados, y [c] el experimento aleatorio se puede repetir bajo indénticas condiciones. Ejemplos. 1. Lanzar una moneda perfecta y anotar el resultado. Si se asume que se puede repetir bajo condiciones idénticas, este experimento es aleatorio porque satisface [a]-[c]. 2. Lanzar una monedas dos veces a anotar el resultado. Si se asume que se puede repetir bajo condiciones idénticas, este experimento es aleatorio porque satisface [a]-[c]. 3. Lanzar una moneda tres veces a anotar el resultado. Si se asume que se puede repetir bajo condiciones idénticas, este experimento es aleatorio porque satisface [a]-[c]. 4. Lanzar una moneda hasta que aparezca una cara. Si se asume que se puede repetir bajo condiciones idénticas, este experimento es aleatorio porque satisface [a]-[c]. 5. Un documento se transmite repetidamente por un canal ”sucio”hasta que se tiene una copia libre de errores. Contar el número de envíos necesarios. Este fenómeno estocástico es un experimento aleatorio siendo [a]= N. 6. Contar el número de llamadas recibidas en un teléfono en un período de tiempo. En este caso, [a]= f0; 1; 2; :::g : 7. Medir la vida útil de un foco en una casa. Aquí, teóricamente, [a]= [0; 1) : 6. Observar el precio de cierre diario de IBM en la BMV. [a]= [0; 1) ; [b]: el precio de cierre de IBM de un día particular no se conoce a priori. La condición [c] no se cumple porque las circunstancías de un dia a otro cambian y el precio de hoy se relaciona con el de ayer. No es un experimento aleatorio. Para formalizar la noción de experimento aleatorio: 1. [a]! S: 2. [b] S !P: En estos dos pasos se construye el espacio de probabilidad. Para ello, se inicia con un conjunto S de eventos elementales. Después, se de…ne otro 4 La noción de experimento aleatorio se remonta a Kolmogorov (1933), Foundations of theory of probability, y se considera el libro que funda la moderna teoría de la probabilidad. 62CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA conjunto = formado por subconjuntos de S; llamados eventos, de modo tal que = es cerrado bajo unión, intersección y complemento. Entoces, la probabilidad se de…ne como una función no negativa P (:) : = ! [0; 1] ; asumiendo que satisface P (S) = 1 y la propiedad de aditividad: para A 2 =; B 2 = y A \ B = ;; entonces, P (A [ B) = P (A) + P (B) : 3. [c]! G IID : 2.5 Formalizacion de [a] La formalización de [a] se hace de…niendo un conjunto S de todos los distintos posibles resultados de un experimento llamado conjunto de resultados5 . Es decir, S es el conjunto universal. Ejemplos. Los conjuntos de resultados de los experimentos aleatorios [1]-[4] son: S1 S2 S3 S4 = = = = fSAg ; f(SS) ; (SA) ; (AS) ; (AA)g ; f(SSS) ; (SSA) ; (ASS) ; (ASA) ; (AAA) ; (SAA) ; (SAS) ; (AAS)g ; f(S) ; (AS) ; (AAS) ; (AAAS) ; (AAAAS) ; (AAAAAS) ; :::g ; Para el experimento [5] : S5 = fx : x 2 Ng : Para el experimento [7] : S7 = fx : x 2 R; 0 2.6 x < 1g : Formalizacion de [b] Esta condición tiene dos dimensiones: (i) individualmente, los resultados son impredecibles, pero, (ii) a nivel agregado, existe una regularidad perceptible de los resultados. La forma de tratar con ambas dimensiones es formalizar la regularidad perceptible a nivel agregado. Para ello, se procede en dos 5 Un nombre muy usado para S es el de espacio muestral. Aquí este nombre es poco adecuado porque no tiene nada que ver con la noción de muestra usada posteriormente. 2.6. FORMALIZACION DE [B] 63 pasos: (1) se formaliza la noción de eventos de interés y, (2) se asignan probabilidades a estos eventos. Informalmente, un evento, relacionado con un experimento aleatorio, es una proposición donde lo único que interesa es su valor de ocurrencia, es decir si en una prueba particular el evento ocurre o no. Debido a ello, las únicas proposiciones de que se dispone son los resultados elementales. Sin embargo, para modelar, se necesita extender este conjunto de proposiciones para incluir además combinaciones de resultados elementales. Por ejemplo, en el experimento aleatorio [2] pueden interesar los eventos: (a) A = al menos un sol: A = f(SS) ; (SA) ; (AS)g ; (b) B = al menos una águila. B = f(AS) ; (SA) ; (AA)g : En general, los eventos se forman con combinaciones de resultados elementales usando operaciones teóricas de conjuntos, y se dice que un evento A ocurre cuando cualquiere de sus resultados elementales ocurre. Más formalmente, un evento es un subconjunto de S, es decir, si A S; A es un evento. En contraste, un resultado elemental s es un elemento de S, es decir, si s 2 S; s es un resultado elemental. En otras palabras, un resultado elemental es también un evento, pero lo contrario no es necesariamente verdad. Ejemplo. Sean los conjuntos: A = f1; 2; 3g ; B = f1; 3g : Se ve que: B A, pero B2 = A: Ahora, si C = f(1; 3) ; 2g ; entonces B 2 C: Eventos especiales El conjunto (universal) S es un evento seguro: cualquiera sea el resultado, S ocurre. Como S es subconjunto de sí mismo (S S), se tiene el conjunto vacío: ; = S S; llamado evento imposible: cualquiera sea el resultado, ; no ocurre6 . Usando ; se dice que dos eventos A y B son mutuamente excluyentes si A \ B = ;: Usando (A \ B = ;) ^ S; se dice que los eventos A1 ; A2 ; :::; An forman una partición de S si los eventos son: (a)Ai \ Aj = ;; 8i 6= j; i; j = 1; 2; :::; m; (mutuamente excluyentes) y m S (b) Ai = S; (exhaustivos). i=1 6 Notar que ; es siempre subconjunto de todo S: 64CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA 2.6.1 Espacio de eventos La forma de tratar la incertidumbre asociada a un resultado particular de una prueba es asignando probabilidades a los eventos de interés. Dado que se sabe que si A S; A es un evento, se procede a precisar la noción de eventos de interés. Un espacio de eventos = es un conjunto cuyos elementos son los eventos de interés y los eventos relacionados: aquellos que se obtienen combinando eventos de interés usando operaciones teóricas de conjuntos. Es necesario incluir tales eventos porque si se tiene interés por los eventos A y B, también se está interesado (indirectamente) en A; B;A [ B; A \ B; A1 \ A2 ; etc. Teóricamente, = es un conjunto de subcojuntos de S que es cerrado bajo unión, intersección y complemento: si estas operaciones se aplican a cualquier elemento de =, el resultado es también elemento de =: Para todo conjunto de resultados S; se pueden considerar dos espacios de eventos extremos: (a) el espacio trivial de eventos: =0 = fS, ;g y (b) el conjunto potencia (el conjunto de todos los subconjuntos de S): P (S) = fA : A Sg : Estos casos extremos no son interesantes porque: (a) espacio trivial no contiene información: S y ; se conocen a priori. (b) A primera vista, el conjunto potencia de S parecería la elección natural para el espacio de eventos, dado que incluye todos los eventos relevantes y se cerrado bajo unión, intesección y complemento. Ejemplo. ”Lanzar una moneda dos veces”, entonces: S2 = f(SS) ; (SA) ; (AS) ; (AA)g 8 S2 ; [(SS) ; (SA) ; (AS)] ; [(SS) ; (SA) ; (AA)] ; > > > > < [(SS) ; (AS) ; (AA)] ; [(AA) ; (SA) ; (AS)] ; [(SS) ; (SA)] ; [(SS) ; (AS)] ; P (S2 ) = > > [(SS) ; (AA)] ; [(SA) ; (AS)] ; [(SA) ; (AA)] ; > > : [(AS) ; (AA)] ; [SS] ; [SA] ; [AS] ; [AA] 9 > > > > = > > > > ; : El conjunto potencia no siempre puede ser el espacio de eventos adecuado porque, asumiendo que S es contable con N elementos, P (S) tendrá 2n elementos, siendo poco práctico para propósitos de modelación. Por ejemplo, 2.6. FORMALIZACION DE [B] 65 al lanzar una moneda tres veces, S tiene ocho elementos lo que implica que P (S) = 28 = 256 elementos; muchos para enumeralos. Esto se complica más si S es contable pero in…nito (como en ej. 6). En este caso P (S) ; aunque no es in…nito, tendrá el orden de in…nitud de los reales. Además, cuando S no es contable, P (S) incluye subconjuntos que no se pueden considerar eventos y no se les puede asignar probabilidades (Billingsley, 1986). . La forma de superar estas di…cultades es evitar al conjunto potencia y dotar al espacio de eventos de una estructura matemática especí…ca (un campo o un -campo) que asegure que si A y B son eventos, todo otro evento que resulte de combinar estos eventos con operaciones teóricas de conjuntos serán también elementos del mismo espacio de eventos. (Homeomor…smo). Ejemplo. Sea el ejemplo ”lanzar una moneda tres veces” y asumir que los eventos de interés son sólo A1 = f(SSS)g y A2 = f(AAA)g ; entonces no se necesita de…nir al conjunto potencia como el espacio de eventos. En su lugar se puede de…nir: =3 = S3 ; ;; A1 ; A2 ; (A1 [ A2 ) ; A1 ; A2 ; A1 \ A2 con ocho elementos y no 36 que contendría el conjunto potencia. Se veri…ca que =3 es cerrado bajo operaciones teóricas: (S3 [ ;) = S3 2 =3 ; (S3 \ ;) = ; 2 =3 ; S3 = ; 2 =3 ; A1 [ A2 = A1 \ A2 2 =3 ; etc. El concepto de espacio de eventos es importante en la formalización de la condición [b] de un experimento aleatorio, porque proporciona la estructura matemática necesaria para asignar correctamente probabilidades a eventos. Así, si A y B son eventos de interés, también lo son los eventos relacionados porque su ocurrencia o no da información sobre la ocurrencia de A y B por lo cual no se pueden ignorar al asignar probabilidades. Campo Una colección = de subconjuntos de S es un campo si cumple: (i) S 2 =; (ii) si A 2 =; A 2 =; 66CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA (iii) si A; B 2 =; (A [ B) 2 =: Signi…ca que = = 6 ; (por (i)), es cerrado bajo complemento (debido a (ii)), uniones …nitas (debido a (iii)) e intersecciones …nitas (debido a (ii) y (iii)). Ejemplos. 1. El conjunto potencia de un conjunto …nito de resultados, como P (S2 ) ; es un campo. 2. =0 = fS; ;g es el campo trivial de todo conjunto …nito de resultados S. =0 es un campo porque: S 2 =0 ; S [ ; = S 2 =; S \ ; =; 2 =0 y S ; = S 2 =0 : 3. = (A) = S; ;; A; A es el campo generado por el evento A: = (A) es campo porque: S 2 = (A) ; S [ ; = S 2 = (A) ; S \ ; =; 2 = (A) ; S ; = S 2 =(A); A 2 = (A) ; A [ A = S 2 = (A) ; A \ A = ; 2 = (A) ; (A [ S) = S 2 = (A) ; (A \ S) = A 2 = (A) ; A [ S = S 2 = (A) ; A \ S = A 2 = (A) : 4. fS; ;; A; Bg no es campo porque el evento (A [ B) no es elemento de este conjunto, a menos que B =A: 5. fS; ;; A; B; (A [ B)g no es campo porque el evento (A \ B) no es elemento de este conjunto, a menos que (A \ B) = ;: 6. S; A; A no es campo porque no contiene ;. Generando un campo Para ilustrar como se genera un campo a partir de un conjunto de eventos de interés, considerar el caso donde el conjunto es D1 = fA; Bg : La generación del campo se hace en relación al ejemplo de ”lanzar una moneda dos veces”, donde S2 = f(SS) ; (SA) ; (AS) ; (AA)g ; A = f(SS) ; (SA)g y B = f(SA) ; (AS)g y el campo es el conjunto potencia P (S2 ) : 8 S2 ; [(SS) ; (SA) ; (AS)] ; [(SS) ; (SA) ; (AA)] ; > > > > < [(SS) ; (AS) ; (AA)] ; [(AA) ; (SA) ; (AS)] ; [(SS) ; (SA)] ; [(SS) ; (AS)] ; P (S2 ) = > > [(SS) ; (AA)] ; [(SA) ; (AS)] ; [(SA) ; (AA)] ; > > : [(AS) ; (AA)] ; [SS] ; [SA] ; [AS] ; [AA] 9 > > > > = > > > > ; : 2.6. FORMALIZACION DE [B] 67 Paso 1. Formar el conjunto D2 = S; ;; A; B; A; B que incluye los complementos de A yB: En el ejempo: A = f(AS) ; (AA)g ; B = f(SS) ; (AA)g : Paso 2. Formar el conjunto que también incluye las intersecciones de todos los elementos de D2 : D3 = S; ;; A; B; A; B; (A \ B) ; A \ B ; A \ B ; A \ B : En el ejemplo, (A \ B) = f(SA)g ; A \ B = f(AS)g ; A \ B = f(SS)g y A \ B = f(AA)g : Paso 3. Formar el conjunto que también incluye las uniones de todos los elementos de D3 : D = D3 ; (A [ B) ; A [ B ; A [ B ; A [ B ; etc. : En el ejemplo: (A [ B) = f(SS) ; (SA) ; (AS)g : A [ B = f(SA) ; (AS) ; (AA)g ; A [ B = f(SS) ; (SA) ; (AA)g ; A [ B = f(SS) ; (SA) ; (AA)g ; A \ B [ A \ B = f(SS) ; (SA)g ; (A \ B) [ A \ B = f(SA) ; (AA)g : El conjunto potencia de S se ha generado. Notar que D1 D2 D3 D y D es un campo. Éste el menor campo conteniendo a D1 ; se llama el campo generado por D1 ; y se denota por = (D1 ) = D. Ejemplo. En el caso de lanzar una moneda tres veces: S3 = f(SSS) ; (SSA) ; (SAA) ; (SAS) ; (AAA) ; (AAS) ; (ASA) ; (ASS)g : Si los eventos de interés, por ejemplo, son A1 = f(SSS)g y A2 = f(AAA)g ; el conjunto fA1 ; A2 g no es un campo pero se puede generar un campo a partir de este conjunto. En este caso el campo de eventos de interés es7 : =3 = S3 ; ;; A1 ; A2 ; (A1 [ A2 ) ; A1 ; A2 ; A1 \ A2 ; Considerar los eventos fA1 ; A2 ; :::; An g que constituyen una partición de S, entonces el conjunto de todas las posibles uniones de elementos de A = f;; A1 ; A2 ; :::; An g forman un campo. = (A) = fB : B = [i2I Ai ; I 7 f1; 2; 3; :::; ngg : De los ejemplos, la generación de un campo usando operaciones teóricas de conjuntos, a partir de eventos de interés, no es un ejercicio simple en casos donde el número inicial de eventos de interés es mayor que 2. La excepción a esto es el caso donde los eventos iniciales forman una partición de S: 68CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA Ejemplo. Al lanzar una moneda tres veces: S3 = f(SSS) ; (SSA) ; (SAA) ; (SAS) ; (AAA) ; (AAS) ; (ASA) ; (ASS)g : considerar los eventos: A1 = f(SSS) ; (SSA) ; (SAA)g y A2 = f(SAS) ; (AAA) ; (AAS)g y A3 = f(ASA) ; (ASS)g : El conjunto fA1 ; A2 ; A3 g es una partición de S3 : El campo generado por esta partición tiene la forma: =3 = fS3 ; ;; A1 ; A2 ; A3 ; (A1 [ A2 ) ; (A1 [ A3 ) ; (A2 [ A3 )g : Este espacio de eventos es cerrado bajo unión, intesección y complemento. El método anterior se puede extender al caso donde S es in…nito, de…niendo una partición contable de él , es decir, fA1 ; A2 ; :::; An ; :::g = fAi ; i 2 Ng : El conjunto de subconjuntos formado por A = f;; A1 ; A2 ; :::; An ; :::g toma la forma: = (A) = fB : B = [i2I Ai ; I Ng : y es una extensión de la noción de campo, conocida como campo8 y éste es cerrado bajo uniones e intersecciones contables de eventos. Una colección = de subconjuntos de S es un campo si: (i) S 2 =; (ii) si A 2 =; entonces A 2 =; (iii) si Ai 2 = para i = 1; 2; :::; n; el conjunto [1 i=1 Ai 2 =: De (ii) y (iii) y de la ley de Morgan: 1 1 \1 i=1 Ai 2 =; dado que [i=1 Ai = \i=1 Ai : Este es un campo, es no vacío y cerrado bajo uniones e intersecciones contables, y proporciona la estructura matemática más general necesaria para formalizar la noción de espacio de eventos. Un campo es siempre un caso especial de un campo. 8 Con frecuencia se usa el término álgebra (parece más adecuado (Williams, 1991)) en lugar de campo (más por razones históricas (Kolomogorov, 1933, lo usa)). 2.6. FORMALIZACION DE [B] 69 El -campo de Borel En teoría de probabilidad el campo más importante es el campo de Borel (B (R))de…nido sobre R: Hasta aquí se han considerado campos generados por un arbitrario S cuya única estructura matemática es la teoría de conjuntos. Desde luego, la recta real no es un conjunto en el mismo sentido del conjunto de resultados del experimento ”lanzar una moneda dos veces”. Ésta tiene una estructura que permite de…nir orden, distancia, convergencia, etc. de sus elementos. La estructura que aquí interesa es la que permite de…nir convergencia, conocida como estructura topológica. Dada la densidad de R, la mejor forma de de…nir un -campo en un conjunto in…nito es de…nirlo a través de sus elementos que pueden generar este conjunto. En el caso de R, se pueden usar para generar un (B (R)), un número de distintos intervalos tales como (a; 1) ; (a; b] ; (a; b) ; ( 1; b). Para este propósito, es adecuado, en particular, el intervalo ( 1; x]. Por ejemplo, considerar cómo estos intervalos (( 1; x]) pueden generar el (B (R)) : Iniciar con el un conjunto de subconjuntos de R de la forma: Bx = f( 1; x] : x 2 Rg ; que es cerrado bajo intersecciones …nitas, es decir, 8 (x; y) 2 R ( 1; x] \ ( 1; y] = ( 1; z] 2 Bx ; donde z = min (x; y) : Entonces se procede a generar el -campo generado por Bx (B (R))= (Bx )) usando operaciones de conjuntos. (Ver Galambos, 1995). Este B (R) incluye casi todos los subconjuntos de R, pero no todos: hay subconjuntos de R que pertenecen a P (R) pero no a B (R) ; es decir: B (R) P (R) y B (R) 6= P (R) : Sin embargo, B (R) incluye todos los subconjuntos que usualmente se encuentran en la práctica, tales como: (a; 1) ; (a; b] ; fag ; (a; b) ; 8a < b; (a; b) 2 R. en el sentido que ellos se pueden crear usando operaciones de conjuntos de unión, intersección y complemento en conjunción con intervalos de la forma siguiente: 70CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA (a; 1) = ( 1; a] ) (a; 1) 2 B (R) ; (a; b] = ( 1; b] \ (a; 1) ) (a; b] 2 B (R) ; 1 \ 1 fag = a ; a ) fag 2 B (R) ; etc. n n=1 Hasta ahora: E 2.6.2 8 < 9 [a] ) S, = [b] ) (=; ?) ; : ; [c] ) (?) : Noción matemática de probabilidad El siguiente paso en la formalización de la condición [b] que de…ne un expermiento aleatorio es asignar probabilidades a los eventos de interés especi…cados por el espacio de eventos. Para esto, se de…ne la probabilidad P (:) como una función 9 del espacio de eventos = al intervalo [0; 1]: P (:) : = ! [0; 1] que satisface los axiomas10 : [1] P (S) = 1; 8S; [2] P (A) 0; 8A 2 =; [3] Aditividad contable. Para un sucesión de eventos mutuamente excluyentes, es decir, Ai 2 =; i = P 1; 2; :::; n tal que Ai \ Aj = ;; 8i 6= j; i; j = 1 1; 2; :::; n entonces P ([i=1 A) = 1 i=1 P (Ai ) : El axioma [3] proporciona una forma de asignar probabilidades a eventos utilizando eventos mutuamente excluyentes. Este mecanismo se describe utilizando distintos tipos de conjuntos de resultados. (a) Conjunto …nito de resultados S = fs1 ; s2 ; :::; sn g : 9 Una función f : A ! B es una relación (todo subconjunto del producto cartesiano A B) entre los conjuntos A y B que satisface la restricción de que 8x 2 A, existe un elemento único y 2 B tal que (x; y) 2 f: Los conjuntos A y B son el dominio y el codominio de la función f ( ) : El conjunto G = f(x; y) 2 f : x 2 A; y 2 Bg es el grá…co de la función. 10 Concebir a la probabilidad como una medida en el contexto de la teoría avanzada de la integración llamada teoría de la medida, llevó a Kolmogorov (1933) a axiomatizar la teoría de la probabilidad. 2.6. FORMALIZACION DE [B] 71 En este caso los resultados elementales s1 ; s2 ; :::; sn son, por de…nición, mutuamente excluyentes y además [ni=1 si = S; es decir, los eventos s1 ; s2 ; :::; sn ; conforman una partición de S: El axioma [3] implica que Xn P ([ni=1 si ) = P (si ) = 1 (por axioma [1]) i=1 y sugiere que la asignación de probabilidades a los resultados proporciona la distribución de probabilidad simple sobre S : Xn [p (s1 ) ; p (s2 ) ; :::; p (sn )] ; tal que p (si ) = 1: i=1 La probabilidad del evento A en = es entonces de…nida como sigue: 1. Expresar A en términos de los resultados elementales: A = fs1 ; s2 ; :::; sk g. 2. Derivar la probabilidad de A sumando las probabilidades de los resultatos s1 ; s2 ; :::; sk ; dado que ellos son mutuamente excluyentes: P (A) = p (s1 ) + p (s2 ) +; :::; +p (sk ) = Xk i=1 p (si ) : Ejemplos. 1. Sea el experimento aleatorio de ”lanzar una moneda tres veces”siendo el espacio de eventos el conjunto potencia de: S3 = f(SSS) ; (SSA) ; (SAA) ; (SAS) ; (AAA) ; (AAS) ; (ASA) ; (ASS)g : Sean A1 = f(SSS)g y A2 = f(AAA)g : Obtener las probabilidades de los eventos A3 := (A1 [ A2 ) ; A4 := A1 ; A5 := A2 y A6 := A1 \ A2 : 1 1 1 + = ; 8 8 4 1 7 P (A1 ) = 1 = ; 8 8 1 7 P (A2 ) = 1 = ; 8 8 P (A3 ) = P (A1 ) + P (A2 ) = P (A4 ) = P (S3 ) P (A5 ) = P (S3 ) P (A6 ) = P A1 \ A2 = 1 P (A1 [ A2 ) = 3 4 2. En el experimento aleatorio ”lanzar una moneda dos veces”, considerar la asignación de probabilidades al evento: A = f(SS) ; (SA) ; (AS)g : La distribución de probabilidad toma la forma: 72CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA 1 1 1 P (SS) = ; P (SA) = ; P (AS) = 4 4 4 : Esto sugiere que P (A) = P (SS) + P (SA) + P (AS) = 43 : En el caso donde S es in…nito esta forma de asignar probabilidades no es apropiada. Una forma más e…ciente de hacerlo es dada por el concepto de función de densidad de…nida en el capitulo que siguiente. (b) Conjunto contable de resultados: S = fs1 ; s2 ; :::; sn ; :::g : Es una extensión del caso …nito donde los resultados elementales s1 ; s2 ; :::; sn ; ::: son mutuamente excluyentes y conforman una de S; es decir, [1 i=1 si = Ppartición 1 1 S. El axioma [3] implica que P ([i=1 si ) = i=1 P (si ) = 1 (por axioma [1]) y sugiere que la asignación de probabilidades a los resultados proporciona la distribución de probabilidad sobre S : [p (s1 ) ; p (s2 ) ; :::; p (sn ) ; :::] ; tal que X1 i=1 p (si ) = 1: La probabilidad del evento A en = (que puede coincidir con el conjunto potencia de S) es de…nida por: P (A) = p (s1 ) + p (s2 ) + ::: + p (sn ) + ::: = X1 i=1 p (si ) : En contraste con el caso …nito, las probabilidades [p (s1 ) ; p (s2 ) ; :::; p (sn ) ; :::] no pueden ser iguales porque 8pP> 0; no obstante pequeña, donde p (sn ) = p 8n = 1; 2; 3; :::; es decir 8p > 0; 1 i=1 p = 1: Notar que la única formaPde acotar esta suma es hacer que p sea función 1 de n; por ejemplo, pn = n1 : 1 i=1 nk < 1; para k > 1: Ejemplo. Considerar el caso, ”lanzar una moneda no perfecta hasta que aparezca un sol”siendo el espacio de eventos el conjunto potencia de S4 = f(S) ; (AS) ; (AAS) ; (AAAS) ; (AAAAS) ; ::::g : Aquí, P (S) = y P (A) = 1 y P (AS) = (1 ) ; P (AAS) = (1 3 4 P (AAAS) = (1 ) ; P (AAAAS) = (1 ) ; P (AA:::AS) = (1 etc. (c) Conjunto no contable de resultados S: Sin pérdida de generalidad, considerar: )2 ; )n ; 2.6. FORMALIZACION DE [B] S = fx : 0 73 x 1; x 2 Rg : Para usar el axioma [3] este intervalo se puede expresar como unión contable de conjuntos disjuntos Ai ; i = 1; 2; 3; ::: [0; 1] = [1 i=1 Ai donde Ai \ Aj = ;; i 6= j; i; j = 1; 2; ::: y P (Ai ) es la misma 8Ai ; i = 1; 2; 3; :::Pero P esto conduce a inconsistencias porque del axioma [3]: P ([0; 1]) = 1 P ([i=1 Ai ) = 1 i=1 P (Ai ) ; y entonces P ([0; 1]) = 0; si P (Ai ) = 0, o P ([0; 1]) = 1; si P (Ai ) > 0: (En ningún caso la suma es 1). Este intento fracasa debido a la naturaleza de los conjuntos disjuntos Ai ; i = 1; 2; 3; :::Ellos son elementos del conjunto potencia P [(0; 1)] ; pero no necesariamente elementos de un campo asociado a este intervalo. Como se dijo antes, la estructura matemática necesaria para una asignación consistente de probabilidades es la de un campo. ¿Cómo asignar probabilidades en el caso de un conjunto no contable de resultados?. La cuestión es saber si se puede iniciar con una clase arbitraria de subconjuntos de S, por ejemplo, D, con P (:) de…nida para todo elemento de D, y entonces proceder a extenderla a un –campo generado por D. Esto se puede hacer sólo si D es un campo. Esto se debe a que el axioma [3] restringue la asignación de probabilidades a uniones contables de conjuntos disjuntos. Y, dada una unión arbitraria de elementos de D, esta se puede expresar como unión contable de conjuntos disjuntos sólo si D es un campo. Matemáticamente, la extensión de la asignación de probabilidades de un conjunto de eventos a un espacio de eventos se logra iniciando con un campo D y expresándolo como una unión contable de conjuntos disjuntos sobre los cuales P (:) esta de…nida. Se puede entonces extender D al campo = generado por D; denotado por = = (D) ; obtenido mediante complementos, intersecciones y uniones contables de los elementos de D: De…nida la función de probabilidad P (:) sobre D; se puede entonces proceder a extenderla a todos los elementos de =, usando el teorema de extensión de Caratheroodory (Williams, 1991). Ejemplo. Este procedimiento se ilustra mejor en el caso donde S = R y el campo es B (R) que es generado por subconjuntos de la forma: Bx = f( 1; x] : x 2 Rg : Primero se de…ne P (:) sobre Bx y entonces se procede a extenderla a todos los 74CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA subconjuntos de la forma: (a; 1) ; (a; b] ; fag ; (a; b) 8a; b 2 R, a < b; usando el teorema de extensión de Caratheroodory. Además de estas propiedades, el axioma de aditividad contable es también necesario para asegurar la continuidad de la función de probabilidad que se describe en la siguiente subsección. 2.6.3 Espacio de probabilidad [S; =; P (:)] Matemáticamente, esto completa la formalización de las dos primeras condiciones que de…nen un experimento aleatorio [a] ! S; [b] ! (=; P (:)) E donde = es el campo de subconjuntos de S llamado espacio de eventos y P (:) es una función (de probabilidad) que satisface los axiomas [1]-[3]. La terna (S; =; P (:)) de…ne un espacio de probabilidad11 . Este espacio tiene la estructura matemática necesaria para usarse como fundamento para construir la teoría de la probabilidad. Generalmente, en la aproximación matemática, el siguiente paso es (S; =; P (:)) lógica matemática ! Teoría de probabilidad Aquí, siendo el objetivo la modelacion: (S; =; P (:)) ! Modelo de probabilidad ! Teoría de probabilidad 2.6.4 Deducción matemática Como ciencia deductiva, la matemática: Axiomas (premisas) 11 Pfei¤er (1978) y Khazanie (1976). lógica deductica ! Teoremas 2.6. FORMALIZACION DE [B] 75 Como ilustración, se derivan algunos teoremas del espacio de probabilidad deducido antes. Asumiendo que los axiomas [1]-[3] son verdaderos, se derivan corolarios que dan una descripción más completa del marco matemático de referencia. Teorema 1. P A = 1 P (A) : Prueba. Como A [ A = S y A \ A = ;; P (S) = 1 = P A [ A = P A + P (A) ; ) P A = 1 P (A) q.e.d. La primera igualdad por [1], la segunda por que A [ A = S y la tercera porque A \ A = ; y por [3]: Ejemplo. Lanzar una moneda dos veces y sea A = f(SS) ; (SA) ; (AS)g : Como A = f(AA)g ; por teorema 1, P A = 1 P (A) = 1 43 = 41 : Usando el teorema 1 en el caso donde A = S (y entonces A = ;) se deduce: Teorema 2. P (;) = 0. El teorema que sigue extiende el axioma [2] al caso de eventos no mutuamente excluyentes. Teorema 3. P (A [ B) = P (A) + P (B) P (A \ B) : Prueba. Se de…ne A [ B en términos de eventos mutuamente excluyentes y entonces se usa [3]: Los eventos C = fA (A \ B)g y B son mutuamente excluyentes y C [ B = A [ B: Entonces, por [3]: P (A [ B) = P (C [ B) = P fA (A \ B)g+P (B) = P (A)+P (B) P (A \ B) : Ejemplo. Para A de…nido en ejemplo 1 y B = f(SS) ; (AA)g ; el teorema 3 implica que P (A [ B) = 43 + 12 14 = 1: El teorema que sigue es de gran interés matemático. Se da una prueba sólo parcial. Una prueba completa está en Karr (1993). Teorema 4. (propiedad de continuidad de la función de probabilidad). Para fAn g1 n=1 2 =; si lim An = A 2 =; entonces lim P (An ) = P (A) : n!1 n!1 Según este teorema, el límite de una sucesión de eventos es también un evento. ?‘Qué signi…cado dar a esto?. Una respuesta parcial se da notando que para dos tipos especiales de sucesiones, el límite se de…ne en términos de uniones e intersecciones contables. 76CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA Sucesión no decreciente. Una sucesión de eventos fAn g1 n=1 es no decreciente si A1 A2 A n An 1 A n 2 Para tal secuencia, 1 lim An = [n=1 An : n!1 Sucesión no creciente. Una sucesión de eventos fAn g1 n=1 es no creciente si A1 A2 An An 1 An 2 Para tal sucesión, lim An = n!1 \1 n=1 An : Ahora se considera una prueba parcial del teorema 4 referida sólo a sucesiones no decrecientes. En este caso, lim An = [1 n=1 An : Este límite se n!1 puede expresar en la forma de eventos mutuamente excluyentes de la forma (Ak 1 Ak ) y (Aj 1 Aj ) para k 6= j; que tiene las propiedades: (Ak Ak ) \ (Aj 1 1 Aj ) = ;; P (Ak 1 Ak ) = P (Ak 1 ) P (Ak ) : Usando tales eventos y asumiendo que A0 = ;; se puede de…nir An como: lim (An ) = n!1 1 [ An = A1 + (A2 A1 ) + (A3 A2 ) + n=1 Para A = lim (An ) ; (de la relación anterior y del axioma [3]): n!1 P lim An n!1 = P (A1 ) + P (A2 = P (A1 ) + P (A2 ) = lim P (An ) : A1 ) + P (A1 ) + + P (Ak 1 Ak ) + + P (Ak 1 ) P (Ak ) + n!1 Esto signi…ca que la función de probabilidad P es continua por la izquierda. La prueba general del teorema requiere hacerlo para secuencias no crecientes (continuidad por la derecha) secuencias nulas (continuidad en ;). Ver Shiryayev (1984). Un teorema relacionado es la desigualdad de Bonferroni. Se enuncia sin prueba. Ver Chung (1974), Feller (1968). n T Pn Teorema 5. P Ak 1 k=1 P Ak ; Ak 2 =; k = 1; 2; :::; n: k=1 2.7. FORMALIZACIÓN DE LA CONDICIÓN [C]: PRUEBAS ALEATORIAS77 2.7 Formalización de la condición [c]: pruebas aleatorias La condición [c] contiene dos componentes interrelacionados: (i) las circunstancias del experimento son las mismas en toda prueba y (ii) el resultado de una prueba no afecta el de otra. Para formalizar (i) (sucesión …nita de pruebas), sea esta sucesión de n pruebas fA1 ; A2 ; :::; An g y cada prueba se asocia con un espacio de probabilidad (Si ; =i ; Pi (:)), i = 1; 2; :::; n; respectivamente. Para analizar la relación entre pruebas éstas se agrupan en un espacio de probabilidad (sin él no se puede formalizar la condición [c]): El espacio de probabilidad que ello sugiere es el espacio de probabilidad producto : (S1 ; =1 ; P1 (:)) (S2 ; =2 ; P2 (:)) (Sn ; =n ; Pn (:)) ; que se concibe como una terna de la forma: ([S1 Sn ] [=1 =2 =n ] [P1 := S(n) ; =(n) ; P(n) S2 P2 Pn ]) := Este es un espacio de probabildad porque S(n) = s(n) : s(n) := (s1 ; s2 ; :::; sn ) ; si 2 Si ; i = 1; 2; :::; n es un conjunto de resultados, =(n) tiene la estructura necesaria de un campo (para n …nito) y P(n) es una función satisface los axiomas [1]-[3]: (Ver Parthasarathy, 1977). Establecido que el espacio de probabilidad producto es un espacio de probabilidad, se procede a ver la sucesión de pruebas fA1 ; A2 ; :::; An g como un evento en S(n) ; =(n) ; P(n) ; al que se le pueden asignar probabilidades. El componente (i) de la condición [c] se formaliza asegurando que S(n) ; =(n) ; P(n) es el mismo en cada prueba en el sentido de que: (Si ; =i ; Pi (:)) = (S; =; P (:)) ; 8i = 1; 2; :::; n: Se llama condición de distribución idéntica (ID). Más formalmente, esta condición reduce el espacio producto de probabilidad S(n) ; =(n) ; P(n) a: (S; =; P (:)) (S; =; P (:)) (S; =; P (:)) = (S; =; P (:))n con el mismo espacio de probabilidad asociado a cada prueba. 78CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA El componente (ii) de la condición [c] se formaliza bajo la forma de independencia entre las pruebas: dado el resultado de una prueba j; las probabilidades asociadas con los distintos resultados en la prueba i no cambian y viceversa. La idea de ”dado el resultado de una prueba j; el resultado de la prueba i no es afectado”se formaliza usando la noción de condicionalidad. 2.7.1 Probabilidad condicional e independencia La noción de condicionalidad surge cuando se tiene información adicional sobre el experimento en cuestión. En el caso de lanzar una moneda dos veces, si se sabe que el resultado tendrá al menos una cara, esta información afectará las probabilidades de ciertos eventos. Dada esta información el resultado (SS) no es ya posible y entonces los resultados (SA) ; (AS) ; (AA) ahora tienen probabilidades de 31 y no de 14 como antes. Se obtienen probabilidades condicionales utilizando la fórmula: P (AjB) = P (A \ B) ; para P (B) > 0; P (B) 8 evento A 2 =; donde P (.) es la función de probabilidad original de…nida en =: Ejemplo. Veri…car esto, con A = fASg y con B: Como (A \ B) = fASg ; P (AjB) = 1 1 4 3 = 3: 4 Usando la fórmula condicional, de deduce la regla de probabilidad producto: P (A \ B) = P (AjB) P (B) = P (BjA) P (A) Combinando ambas fórmulas se obtiene la de Bayes: P (AjB) = P (A) P (BjA) ; para P (B) > 0; P (B) Independencia. La noción de condicionamiento se puede usar para determinar si dos eventos A y B son independientes, lo que ocurre si: P (AjB) = P (A) ; o alternativamente, si P (A \ B) = P (A) P (B)12 : Ejemplo. (Lanzar dos monedas). 12 Esta noción de independencia se remonta a Cardano (1550). 2.8. ESPACIO ESTADÍSTICO 79 Para A = f(SS) ; (AA)g y B = f(AA) ; (SA)g, (A \ B) = f(AA)g ; y entonces P (A \ B) = 41 = P (A) P (B) ; implicado que A y B son independientes. Con más generalidad, los eventos A1 ; A2 ; :::; An son independientes sí y sólo sí P (A1 \ A2 \; :::; \An ) = P (A1 ) P (A2 ) P (Ak ) ; k = 2; 3; :::; n: 2.8 Espacio estadístico Ahora se formaliza el componente (ii) de la condición [c]: Espacio muestral. Una sucesión de n pruebas Gn = fA1 ; A2 ; :::; An g, donde Ai es la prueba i-ésima del experimento, asociada con S(n) ; =(n) ; P(n) , es un espacio muestral. Como se dijo antes, las n pruebas Gn = fA1 ; A2 ; :::; An g se consideran un evento en S(n) ; =(n) ; P(n) : Como evento, se le pueden asignar probabildades usanto la funcion P(n) : Por lo tanto, se formaliza (ii) postulando que las pruebas son independientes si13 [ii] P(n) (A1 \ A2 \; :::; \Ak ) = P1 (A1 ) P2 (A2 ) Pk (Ak ) ; k = 2; 3; :::; n: o [ii] P(n) (Ak j A1 \ A2 \; :::; \Ak 1 ; Ak+1 ::; An ) = Pk (Ak ) ; k = 1; 2; 3; :::; n: Tomando las condiciones I e ID se de…ne una sucesión de experimentos aleatorios: una sucesión de pruebas GnIID = fA1 ; A2 ; :::; An g ; es decir, P(n) (A1 \ A2 \; :::; \Ak ) = P (A1 ) P (A2 ) P (Ak ) ; k = 2; 3; :::; n: es una sucesión de pruebas aleatorias 14 . 13 Notar que P(n) ( ) y P(k) ( ) son distintas funciones de probabilidad siendo sus espacios de probabilidad, respectivamente, S(n) =(n) P(n) ( ) y S(k) =(k) P(k) ( ) (ver Pfei¤er, 1978). 14 Notar que GnIID es una forma particular de un espacio muestral Gn asociado con n S(n) ; =(n) ; P(n) ( ) en el sentido que GnIID está asociado con (S; =; P ( )) : 80CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA Combinando un espacio de probabilidad producto y una sucesión de pruebas aleatorias se de…ne un espacio estadístico simple, denotado por: (S; =; P (:))n ; GnIID : Es simple porque es un caso particular de la formulación más general de espacio estadístico: S(n) ; =(n) ; P(n) (:) ; Gn : donde cada prueba, por decir, A1 ; está asociada con un espacio de probabilidad distinto (Si ; =i ; Pi (:)) (es decir, no ID) y las pruebas no son necesariamente independientes. En campos como la econometría se necesita utilizar la formulación más general. La primera formalización completa de la noción de experimento aleatorio es el espacio estadístico simple (S; =; P (:))n ; GnIID : Sin embargo, esta formulación es muy abstracta porque implica conjuntos arbitrarios y conjuntos de funciones, no números ni funciones numéricas más familiares en los cursos de cálculo. En el capítulo siguiente a dicho espacio se le da una forma más manipulable mapeando esta estructura matemática en la recta real. En resumen: 2 3 0 1 [a] ) S E = 4 [b] 5 ) @ =; P (:) A ) (S; =; P (:))n ; GnIID : [c] ) Gn Se ha dado una introducción a la teoría de la probabilidad formalizando un mecanismo aleatorio simple llamado experimento aleatorio. La noción de espacio estadístico da el fundamento matemático de la teoría de la probabilidad. En los dos capítulos siguientes: EES ! MES, para ello: 1. EES ! = ff (x; ) ; 2 ; x 2 Rg : 2. Espacio muestral ! Modelo muestral (llamado muestra aleatoria: un conjunto de variables aleatorias X = (X1 ; X2 ; ::; Xn ) que son IID). 4. MES ! datos. 5. En los capítulos 6-8 se extiende la noción de modelo estadístico muestral para modelar datos económicos que exhiben regularidad aleatoria más allá de la muestra aleatoria tales como ciclos comerciales, crecimiento y ‡uctuaciones en tasas de cambio. Capítulo 3 El concepto de modelo de probabilidad 3.1 3.1.1 Introducción La historia hasta ahora En el capítulo anterior hemos iniciado el largo viaje para explorar la teoría de la probabilidad que se re…ere a la con…guración de un marco de referencia teórico (matemático) para modelar fenómenos estocásticos: fenómenos observables que muestran regularidad aleatoria. El camino particular que seguimos se inició con la formalización de la noción de un experimento aleatorio E, de…nido por las siguientes condiciones: [a] todos los posibles distintos resultados se conocen a priori, [b] en un ensayo particular, los resultados no se conocen a priori, sino que existe una regularidad perceptible de ocurrencia, asociada con estos resultados y [c] se puede repetir en condiciones idénticas. La matematización tomó la forma de un espacio estadístico (S; =; P (:))n ; GnIID donde (S; =; P (:)) es un espacio de probabilidad y GnIID es un espacio muestral simple. El objetivo principal de este capítulo es transformar el espacio abstracto de probabilidad (S; =; P (:)) en algo apropiado para la modelación empírica utilizando datos numéricos; algo de…nido en la recta real. El objetivo …nal de este capítulo es la formulación de lo que llamamos un modelo de probabilidad, uno de los dos pilares de un modelo estadístico; y el otro es el modelo 81 82 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD muestral que será el tema del siguiente capítulo en el que consideramos la metamorfosis de GnIID . 3.1.2 ¿Porqué nos interesa? El espacio estadístico, aunque adecuado para propósitos matemáticos, no se presta naturalmente para la modelación de fenómenos estocásticos. Fenómenos estocásticos, tales como la tasa de crecimiento y la in‡ación de la economía, se observan a menudo en forma de datos numéricos y no en términos de eventos abstractos. Por lo tanto, para propósitos de modelización tenemos que transformar el abstracto espacio estadístico, de…nido en términos de eventos y funciones conjunto, en algo menos abstracto, de…nido en términos de números y funciones numéricas. 3.1.3 Una vista panorámica del capítulo El modus operandi de esta transformación es el concepto de variable aleatoria, uno de los conceptos principales de la teoría de la probabilidad. Su función principal es que nos permite mapear el espacio estadístico (S; =; P (:))n ; GnIID en la recta real (R). En un intento por dilucidar el papel de este importante concepto discutimos la transformación del abstracto espacio de probabilidad (S; =; P (:)), en un modelo de probabilidad mucho más simple, con el mínimo de maquinaria matemática, en la sección 2 para el caso donde el conjunto de resultados es numerable. En la sección 3 consideramos el concepto de variable aleatoria en un entorno general. En la sección 4 completamos la cadena de transformaciones discutiendo el último eslabón: la distribución acumulada y las funciones de densidad que constituyen el elemento básico de un modelo de probabilidad. En la sección 5 reunimos los resultados de las secciones anteriores y completamos la transformación del espacio de probabilidad en un modelo de probabilidad (intercambiamos un espacio por un modelo!). En las secciones 6 y 7 tomamos una digresión importante en un intento por relacionar los parámetros desconocidos (el enfoque de la inferencia estadística paramétrica) con las características numéricas de las distributiones. Introducimos numerosos conceptos de valor, como los momentos de una distribución, que resultarán imprescindibles en el contexto de la modelación, así como de la inferencia estadística. Baste decir que la modelizaciónse hace a menudo a través de los momentos de una distribución. En la sección 8 3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 83 exponemos varias desigualdades probabilísticas que relacionan proposiciones probabilísticas para una variable aleatoria X y ciertos momentos. 3.2 El concepto de variable aleatoria simple Con el …n de ayudar al lector a mantener un ojo en el bosque decimos desde el principio que el mapeo del espacio de probabilidad (S; =; P (:)) a la recta real (R) se llevará a cabo en tres pasos. El primer paso es mapear S en la recta real R, de tal manera que se preserve la estructura del evento de interés =; el concepto de variable aleatoria X. Armados con el concepto de variable aleatoria procedemos a dar el segundo paso, que equivale a intercambiar la función conjunto probabilidad P (:) : = ! [0; 1] por una función numérica mucho más simple punto a punto, la función de distribución acumulada (fda), de…nida en términos de X : FX (:) : R ! [0; 1] El tercer paso es simpli…car la fda transformándola en la función de densidad: fX (:) : R ! [0; 1) La noción de modelo de probabilidad se de…ne a menudo en términos de la función de densidad. Desde el punto de vista matemático, es siempre más satisfactorio de…nir un concepto en toda su generalidad y luego proceder a analizar los casos especiales. Desde el punto de vista pedagógico, sin embargo, con frecuencia es mejor comenzar la discusión con el caso más simple y, a continuación, proceder a la formulación más general con el …n de ayudar al lector a comprender el concepto sin maquinaria matemática indebida. En el caso del concepto de variable aleatoria lo que hace que la de…nición sea fácil o no tan fácil, desde el punto de vista matemático, es si el conjunto de resultados es contable o no. En el caso de un conjunto contable de resultados, la variable aleatoria se dice que es simple (o discreta) ya que toma un número numerable de valores. Para ayudar al lector a comprender el concepto moderno de variable aleatoria y cómo se transforma el abstracto espacio estadístico en algo mucho más 84 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD fácil de manejar, la discusión se inicia con el caso más simple y después se discuten los más complicados: (i) el conjunto de resultados es …nito, (ii) el conjunto de resultados es in…nito numerable, (iii) el conjunto de resultados no es numerable 3.2.1 Conjunto …nito de resultados: S = fs1 ; s2 ; :::; sn g Una variable aleatoria simple con respecto al espacio de eventos =, se de…ne como una función X (:) : S ! RX tal que AX := fs : X (s) = xg 2 = para todo x 2 R (3.1) Heurísticamente, una variable aleatoria es una función que asigna números a todos los elementos de S en una manera que preserva la estructura del espacio de eventos =. Ejemplo. La función X (:) : S ! RX = f1; 2g ; donde S = f|; •; ; ~g de…nida por X (|) = X (•) = 1; X ( ) = X (~) = 2 es una variable aleatoria con respecto al espacio de eventos = = fS; ;; f|; •g ; f ; ~gg Esto se debe a que los eventos asociados con RX = f1; 2g: A1 = fs : X (s) = 1g = f|; •g 2 = y A2 = fs : X (s) = 2g = f ; ~g 2 = son eventos que pertenecen a =. Contraejemplo La función Y (:) : S ! RY = f0; 1g ; de…nida por Y (~) = 0; Y (|) = Y (•) = 1; X ( ) = 1 (3.2) no es una variable aleatoria respecto a = porque el evento fs : Y (s) = 0g = f~g 2 = =. Hay varias cosas que tener en cuenta sobre la de…nición anterior: 3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 85 En primer lugar, el nombre de variable aleatoria es algo inapropiado. La de…nición de variable aleatoria (3.1) no tiene nada que ver con probabilidades y por lo tanto, no es ni aleatoria ni variable, es sólo una función real. En segundo lugar, el concepto de variable aleatoria se de…ne siempre en relación con un espacio para eventos =; si o no X (:) satisface la condición (3.1) depende de =, no de P (:). El hecho de que una cierta función real no sea una variable aleatoria con respecto a = particular, no signi…ca que no puede ser una variable aleatoria con respecto a algún otro espacio de eventos. En efecto, para toda función Y (:) : S ! RY podemos siempre de…nir un campo =Y con respecto al que Y (:) es una variable aleatoria; llamamos =Y el campo generado por Y (:); ver Bhat (1985). Figura 3.1 La preimagen de una función. Ejemplo En el caso de Y (:) como se de…ne en (3.2) podemos generar un espacio para eventos =Y con respecto al cual es una variable aleatoria simple, de la siguiente manera (i) de…nir todos los eventos asociados con Y (:) : fs : Y (s) = 1g = f|; •; g ; fs : Y (s) = 0g = f~g ; (ii) generar un campo usando los eventos derivados en (i): =Y := (Y ) = fS; ;; f|; •; g ; f~gg ; =Y := (Y ) es conocido como el mínimo campo generado por la variable aleatoria Y: 86 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Tercero, el conjunto AX no es un conjunto sobre la recta real, es la preimagen de X en X = x que también puede ser denotada por: AX = fs : X (s) = xg = X 1 (x) ; x 2 R. NOTE que la preimagen de X no es la función inversa habitual. El concepto de una preimagen de un elemento del codominio se ilustra en la …gura 3.1. Cuarto, los valores de R que no pertenecen a Rx tienen al conjunto vacio ; como su preimagen. El conjunto vacío, sin embargo, pertenece siempre a todo =: X 1 (x) = fs : X (s) = xg = ; 2 =; 8x 2 Rx := (R Rx ) : En un cierto sentido, el concepto de variable aleatoria conserva la estructura de eventos de un espacio particular de eventos =, al asegurar que la preimagen de la función X (:) : S ! RX , de…ne un mapeo X 1 (:) : R ! = donde 8x 2 RX , X 1 (x) 2 = y 8x 2 = RX , X 1 (x) = ; 2 =. Esto divide la recta real en dos subconjuntos, RX y RX , con el primero asociado con la estructura de eventos de interés y el segundo con todo lo que carece de interés. Quinto, la naturaleza de la variable aleatoria depende fundamentalmente del tamaño del campo en cuestión. Si = es pequeño, ser una variable aleatoria con respecto a = es muy restrictivo. Por ejemplo en el caso =0 = fS; ;g la única X (:) : S ! R que es una variable aleatoria con respecto a =0 es X (s) = c; 8s 2 S; siendo c una constante X es una variable aleatoria degenerada. Por otro lado, si es grande =, por decir el conjunto potencia, entonces se necesita mucha extraña imaginación para de…nir una función X (:) : S ! R que no es una variable aleatoria con respecto a el. Después de estas observaciones sobre la de…nición de una variable aleatoria volvamos al concepto mismo para considerar algunos ejemplos Ejemplo. Un ejemplo importante de una variable aleatoria simple es la función indicador de…nida en relación con un conjunto A en = como sigue: IA (s) = 1; s 2 A 0; s 2 =A 3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 87 Vamos a demostrar que IA (s) es en realidad una variable aleatoria. Tomando su preimagen se obtiene IA1 (0) = A 2 = y IA1 (1) = A 2 =: Sabemos que esto es cierto, porque si A 2 = entonces A 2 =. Esto demuestra que la IA (:) es una variable aleatoria con respecto a =. Además, =A = A; A; S; ; es el mínimo espacio de eventos generado por la función indicador. Asignando probabilidades Utilizando el concepto de variable aleatoria mapeamos S (un conjunto arbitrario) en un subconjunto de la recta real (un conjunto de números) RX . Porque no queremos cambiar la estructura original de probabilidad de (S; =; P (:)) imponemos la condición (3:1) para garantizar que todos los eventos de…nidos en términos de la variable aleatoria X pertenezcan al espacio original de eventos =. También queremos asegurarnos de que a los mismos eventos en el espacio de probabilidad original (S; =; P (:)) y la nueva formulación, tal como AX = fs : X (s) = xg, se les asignen las mismas probabilidades. Con el …n de asegurar esto, se de…ne la función punto fX (:) que llamamos función de densidad de la siguiente manera: fX (:) = P (X = x) ; 8x 2 RX . (3.4) NOTE que (X = x) es una notación abreviada para AX := fs : X (s) = xg. Con claridad, x 2 = RX , X 1 (x) = ; y, por lo tanto, fX (X) = 0, para toda x2 = RX . Ejemplo. En el caso de la función indicador, si permitimos que X (s) := IA (s), podemos de…nir la densidad de probabilidad de la siguiente manera: fX (1) := P (X = 1) = ; y fX (0) := P (X = 0) = (1 donde 0 ), 1. Esto se conoce como la densidad de Bernoulli: x 0 1 fX (x) (1 ) ¿Qué hemos ganado? En el contexto del espacio de probabilidad original (S; =; P (:)), donde S = fs1 ; s2 ; :::; sn g, la estructura probabilística del experimento aleatorio se ha especi…cado en términos de 88 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD fp (s1 ) ; p (s2 ) ; :::; p (sn )g ; tal que n X p (si ) = 1. i=1 Armados con esto podemos asignar una probabilidad a cualquier evento A 2 = como sigue. Sabemos que todos los eventos A 2 = son sólo uniones de ciertos resultados. Dado que los resultados también son eventos elementales mutuamente excluyentes, procedemos a utilizar el axioma [3] (véase el capítulo 2) para de…nir la probabilidad de A como igual a la suma de las probabilidades asignadas a cada uno de los resultados que componen el evento A, es decir, si A = fs1 ; s2 ; :::; sk g, entonces: P (A) = k X p (si ) : i=1 Ejemplo En el caso del experimento aleatorio de "lanzar una moneda dos veces": S = f(HH) ; (HT ) ; (T H) ; (T T )g ; = = } (S) , donde } (S) represesnta el conjunto potencia de S: el conjunto de todos los subconjuntos de S (véase el capítulo 2). La variable aleatoria de interés se de…ne por: X- el número de "caras". Esto sugiere que los acontecimientos de interés son: A0 = fs : X = 0g = f(T T )g ; A1 = fs : X = 1g = f(HT ) ; (T H)g ; A2 = fs : X = 2g = f(HH)g : En el caso de una moneda no trucada, a los cuatro resultados se les da la misma probabilidad y por lo tanto: 1 P (A0 ) = P fs : X = 0g = P f(T T )g = ; 4 1 P (A1 ) = P fs : X = 1g = P f(HT ) ; (T H)g = ; 2 1 P (A2 ) = P fs : X = 2g = P f(HH)g = : 4 3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 89 Volviendo al tema principal de este capítulo, podemos a…rmar que usando el concepto de variable aleatoria logramos la transformación siguiente: X(:) (S; =; P (:)) ) (RX ; fX (:)) ; donde la estructura probabilistica original ha sido transformada en: ffX (x1 ) ; fX (x2 ) ; :::; fX (xm )g ; tal que Xm i=1 fX (xi ) = 1; m n; esto se conoce como la distribución de probabilidad de una variable aleatoria X. La cuestión que se plantea en este punto es en qué medida la última descripción de la estructura probabilística es preferible a la primera. A primera vista parece como si ninguna distancia se halla ganado por esta transformación. Sin embargo, esto es engañoso y una gran distancia se ha ganado por dos razones: (a) En lugar de tener que especi…car ffX (x1 ) ; fX (x2 ) ; :::; fX (xn )g listándolas, podemos utilizar funciones reales simples en forma de fórmulas tales como: fX (x; ) = x (1 )1 x ; x = 0; 1; y 0 1; (3.6) que especi…can la distribución implícitamente. Para cada valor de X la función fX (x) especi…ca su probabilidad. Esta fórmula constituye una forma más compacta de especi…car la distribución dada anteriormente. (b) Usando tales fórmulas no es necesario conocer las probabilidades asociadas a los eventos de interés a priori. En el caso de la fórmula anterior, podría ser desconocido y el conjunto de tales funciones de densidad se le conoce como una familia de funciones de densidad indexadas por . Esto es particularmente importante para los propósitos de modelización donde dicha colección de funciones de densidad proporciona la base de modelos de probabilidad. En cierto sentido, la incertidumbre sobre el resultado de una prueba particular (condición [b] de…niendo un experimento aleatorio) se ha convertido en la incertidumbre sobre el "verdadero" valor del parámetro desconocido . La distribución de…nida por (3.6) se conoce como la distribución de Bernoulli. Esta distribución se puede utilizar para describir los experimentos aleatorios con sólo dos resultados. 90 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Ejemplo Considere el experimento aleatorio de "lanzar una moneda dos veces": S = f(HH) ; (HT ) ; (T H) ; (T T )g ; = = S; ;; A; A ; donde el evento de interés es, por ejemplo A = f(HH) ; (HT ) ; (T H)g, . De…niendo la variable aleatoria X(A) = 1 con P (A) = ; P A = 1 y X(A) = 0, la estructura probabilística del experimento es descrita por la densidad de Bernoulli (3:6). Este tipo de experimento aleatorio se puede extender fácilmente a n repeticiones del mismo experimento de dos resultado, dando origen a la distribución llamada binomial discutida posteriormente. Ejemplo Considere el experimento aleatorio de "lanzar una moneda n veces y contar el número de soles". El conjunto de resultados de este experimento se de…ne por S = fS; Agn (el producto de fS; Ag n veces) con P (S) = ; P (A) = 1 . De…nir la variable aleatoria: X: el número total de S en n pruebas. NOTE que el rango de valores de esta nueva variable aleatoria es RX = f0; 1; 2; :::; ng. La variable aleatoria X está distribuida binomialmente y su función de densidad para 0 x n es: n x fX (x; ) = donde n x x = (1 n! ; (n k)!k! )n x ; 0 x con n! = n (n n; n = 1; 2; :::; 0 1) (n 2) (3) (2) (1). 1; (3.7) 3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE Figura 3.2 Binomial (n = 10, = 0:15) Figura 3.3 Binomial (n = 10, = 0:5). 91 Esta fórmula se puede representar grá…camente para valores especí…cos de . En las …guras 3.2 y 3.3 podemos ver la grá…ca de la función de densidad binomial (3.7) con n = 10 y dos diferentes valores del parámetro desconocido, = 0:15 y = 0:5, respectivamente. El eje horizontal representa los valores de la variable aleatoria X (RX = f0; 1; 2; 3; :::; ng) y el eje vertical representa los valores de las probabilidades correspondientes, como se muestra debajo. x 0 1 2 3 4 5 6 7 8 9 10 f (x; 0:15) 0.197 0.347 0.276 0.130 0.040 0.009 0.001 0.000 0.000 0.000 0.000 f (x; 0:5) 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044 0.010 0.001 Para concluir esta subsección, vale la pena destacar que los bene…cios del uso de funciones de densidad son aún más evidentes en el caso de que el conjunto de resultados S es in…nito pero contable. Como se muestra a continuación, en tal caso listar las probabilidades para cada s 2 S en una tabla es imposible. La asignación de probabilidades utilizando una función de densidad, sin embargo, hace que sea trivial. 3.2.2 Conjunto contable de resultados: S = fs1 ; s2 ; :::; sn ; :::g Consideremos el caso del conjunto contable de resultados contables S = fs1 ; s2 ; :::; sn ; :::g. Se trata de una simple extensión del caso de conjunto 92 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD …nito de resultados donde la estructura probabilística del experimento se expresa en términos de: fp (s1 ) ; p (s2 ) ; :::; p (sn ) ; :::g ; tal que 1 X p (si ) = 1: i=1 La probabilidad de un evento A 2 =, es igual a la suma de las probabilidades asignadas a cada uno de los resultados que conforman el evento A: y P (A) = k X p (si ) : i:fsi 2Ag Ejemplo. Consideremos el experimento aleatorio aleatorio "lanzar una moneda hasta que la primera H aparece" . El conjunto de resultados es: S = f(H) ; (T H) ; (T T H) ; (T T T H) ; (T T T T H) ; ::::g : y sea el espacio de eventos el conjunto potencia de S. Si de…nimos la variable aleatoria X(:) - el número de ensayos necesarios para obtener una H, es decir X(H) = 1; X(T H) = 2; X(T T H) = 3; etc., y P(S) = ; entonces la función de densidad para este experimento es: fX (x; ) = (1 )x 1 ; 0 1; x 2 RX = f1; 2; 3; :::g Esta es la función de densidad de la distribución geométrica. Esta función de densidad se representa grá…camente en las …guras 3.4 - 3.5 para n = 20 y dos valores diferentes del parámetro desconocido = 0:20 y = 0:35, respectivamente. En cuanto a los grá…cos podemos ver por qué se llama Geométrica: las probabilidades disminuyen geométricamente cuando los valores de X crecen. 3.3. EL CONCEPTO GENERAL DE VARIABLE ALEATORIA 3.3 93 El concepto general de variable aleatoria Después de haber introducido los conceptos básicos necesarios para la transformación del espacio abstracto de probabilidad (S; =; P (:)) en algo más apropiado (y manejable) para propósitos de modelación, utilizando el caso más simple de conjunto contable de resultados, procederemos ahora a explicar estos conceptos en su plena generalidad. 3.3.1 Conjunto no contable de resultados Como preludio a la discusión que sigue, vamos a ver por qué la estrategia anterior de asignar probabilidades a cada uno de los resultados en el caso de un conjunto no contable, por ejemplo S = R, no funciona. La razón es muy simple: el conjunto de resultados tiene Figura 3.4 Geométrica (n = 20; = 0:2) : 94 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Figura 3.5 Geométrica (n = 20; = 0:35) : tantos elementos que es imposible colocarlos en una sucesión y por lo tanto contarlos. Por lo tanto, cualquier intento de seguir el procedimiento utilizado en el caso de conjunto contable de resultados dará lugar a di…cultades insalvables. Intuitivamente sabemos que no podemos cubrir la recta real punto por punto. La única manera de recubir R, o cualquiera de sus subconjuntos incontables, es utilizar una sucesión de intervalos de cualesquiera de las siguientes formas: (a; b) ; [a; b] ; [a; b) ; ( 1; a] ; donde a < b; a; b 2 R: Veremos en la secuela que la forma más conveniente para tales intervalos es f( 1; x]g 8x 2 R. Variable aleatoria En vista de la discusión anterior, cualquier intento de de…nir una variable aleatoria utilizando la de…nición de una variable aleatoria simple: X (:) : S ! RX tal que fs : X (s) = xg := X 1 (x) 2 =8x 2 R (3.9) está condenado al fracaso. Hemos convenido en que la única manera que podemos recubir R es el uso de intervalos no de puntos. Los intervalos semiin…nitos (3.8) sugieren la modi…cación de los eventos fs : X (s) = xg de (3.9) en eventos de la forma fs : X (s) xg. Una variable aleatoria relativa a = es una función X (:) : S ! R, que satisface la restricción: fs : X(s) xg := X 1 (( 1; x]) 2 = para todo x 2 R: (3.10) NOTE que la única diferencia entre esta de…nición y la de una variable aleatoria simple se presenta en forma de los eventos utilizados. Además, teniendo en cuenta el hecho de que: fs : X(s) = xg fs : X(s) xg 3.3. EL CONCEPTO GENERAL DE VARIABLE ALEATORIA 95 esta última de…nición incluye la primera como un caso especial, de ahí el término variable aleatoria simple. En principio, podríamos haber empezado la discusión con la de…nición general de una variable aleatoria (3.10) y después aplicarla a los varios distintos tipos de conjuntos de resultados. A patir de esta de…nición podemos ver que la preimagen de la variable aleatoria X(:) nos conduce desde intervalos ( 1; x], x 2 R, de nuevo al espacio de eventos =. El conjunto de todos tales intervalos genera un campo en la recta real que llamamos el campo Borel ß (R): ß (R) = (( 1; x] ; x 2 R). Por lo tanto, en un sentido formal, la preimagen de la variable aleatoria X consituye un mapeo del campo de Borel ß (R) al espacio de eventos = y toma la forma: X 1 (:) : ß (R) ! = Esto asegura que la variable aleatoria X preserve la estructura de eventos de = debido a que la preimagen preserva el conjunto de operaciones teóricas (ver Karr (1973)): S S 1 )= 1 (i) Unión: X 1 ( 1 i=1 X T (Bi ) i=1 BiT 1 (ii) Intersección: X 1 ( i=1 Bi ) = 1 i=1 X 1 1 B = (X (Bi )). (iii) Complemento: X 1 (Bi ) El espacio de probabilidad inducido por una variable aleatoria * Vamos a hacer un balance de lo que hemos logrado hasta ahora. La transformación del espacio de probabilidad (S; =; P (:)) en algo más apropiado para los propósitos de la modelizaciónhasta el momento ha intercambiado el conjunto de resultados S por un subconjunto de la recta real RX y el espacio de eventos = por el campo Borel ß (R). El modus operandi de esta transformación ha sido el concepto de variable aleatoria. El siguiente paso será transformar P (:) : = ! [0; 1] en una función conjunto sobre la recta real o, más precisamente sobre ß (R). Esta transformación de la función conjunto de probabilidad toma la forma: P (X x) = PX 1 (( 1; x]) = PX (( 1; x]) , 96 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Es muy importante NOTAR en esta etapa que los eventos en los términos primero y segundo son los elementos del espacio de eventos = pero que el de la última igualdad es un elemento de ß (R). Ahora estamos en condiciones para asignar probabilidades a intervalos de la forma (( 1; x] ; x 2 R) cuya preimagen pertenece a =. Para otros intervalos de la forma (a; b), [a; b], [a; b), ( 1; a), etc podemos usar el teorema de extensión de Caratheodory para extender la función conjunto de probabilidad con el …n a asignar probabilidades a cada elemento Bx de ß (R). PX 1 (Bx ) = PX (Bx ) para todo Bx 2 ß(R) . Esto de…ne una nueva función conjunto de probabilidad como una función compuesta PX 1 (:) donde P (:) : = ! [0; 1] ; X 1 : ß(R) ! =, y por lo tanto: PX (:) := PX 1 (:) : ß(R) ! [0; 1] : Reuniendo los elementos anteriores podemos ver que, en efecto, una variable aleatoria X induce un nuevo espacio de probabilidad (R; ß(R) ; PX (:)) con el que podemos reemplazar el abstracto espacio de probabilidad (S; =; P (:)). La principal ventaja del primero sobre el segundo es que todo tiene lugar en la recta real y no en un espacio abstracto. En analogía directa con los resultados del caso de conjunto contable de resultados, el concepto general de una variable aleatoria induce el siguiente mapeo: X(:) (S; =; P (:)) ! (R; ß(R) ; PX (:)) Es decir, con la ayuda de X(:) intercambiamos S por R, = por ß (R) y P (:) por PX (:). Para …nes de referencia llamamos a (R; ß(R) ; PX (:)) el espacio de probabilidad inducido por una variable aleatoria X; ver Galambos (1995). Funciones Borel (medibles). En teoría de la probabilidad estamos interesados no sólo en las variables aleatorias, sino también en funciones bien comportadas de dichas variables aleatorias. Por funciones bien comportadas en el cálculo, por lo general nos referimos a funciones continuas o diferenciables. En teoría de la probabilidad por funciones bien comportadas nos referimos a las funciones que conservan la estructura de eventos de su argumento variable aleatoria. Una función de…nida por: h(:) : R ! R tal que fh(x) xg := h 1 (( 1; x]) 2 ß(R) , para todo x 2 R, 3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD97 recibe el nombre de función Borel (medible ). Es decir, una función de Borel es una función que es una variable aleatoria con respecto a ß (R). NOTE que las funciones indicador, las funciones monótonas, las funciones continuas, así como las funciones, con un número …nito de discontinuidades, son funciones de Borel; ver Khazanie (1976), Bierens (1994). Igualdad de variables aleatorias. Las variables aleatorias son diferentes a las funciones matemáticas en la medida en que su estructura probabilística es de suma importancia. Por lo tanto, la noción de igualdad para las variables aleatorias implica esta estructura probabilística. Dos variables aleatorias X e Y , de…nidas en el mismo espacio de probabilidad (S; =; P (:)), se dice que son iguales con probabilidad uno (o casi seguramente) si (ver Karr (1993)): P (s : X(s) 6= Y (s)) = 0, para toda s 2 S; es decir, si el conjunto (s : X(s) 6= Y (s)) es un evento con probabilidad cero. 3.4 3.4.1 La distribución acumulada y funciones de densidad La función de distribución acumulada Utilizando el concepto de una variable aleatoria X(:), hasta ahora hemos transformado el abstracto espacio de probabilidad (S; =; P (:)) en un espacio menos abstracto (R; ß(R) ; PX (:)). Sin embargo, no hemos alcanzado nuestro objetivo todavía porque PX (:) := PX 1 (:) sigue siendo una función conjunto. Es cierto que se trata de una función conjunto mucho más fácil porque se de…ne en la recta real, pero es una función de conjunto de todos modos. Preferimos una función numérica punto a punto con la que estamos familiarizados. La manera en que transformamos la función conjunto PX en una función numérica punto a punto es un ardid ingenioso. Visulizando a PX (:) como sólo una función del punto …nal del intervalo ( 1; x] de…nimos la función de distribución acumulada (fda): FX (:) : R ! [0; 1] donde FX (x) = P fs : X(s) xg = PX (( 1; x]) : 98 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD La táctica que llevo a esta de…nición empezó hace unas cuantas páginas cuando argumentamos que aún cuando podríamos usar cualquiera de los siguientes intervalos (véase Galan (1995)): (a; b) ; [a; b] ; [a; b) ; ( 1; a] ; donde a < b; a 2 R, b 2 R, para generar el campo de Borel ß (R), optamos por los intervalos de la forma: ( 1; x], x 2 R. En vista de esto, podemos pensar en la fda como de…nida mediante P fs : a < X(s) bg = P fs : X(s) bg P fs : X(s) = PX ((a; b]) = FX (a) FX (b) ag y entonces asumir que FX ( 1) = 0. Las propiedades de la función de la fda FX (x) de la variable aleatoria X están determinadas por aquellas de (S; =; P (:)). En particular, a partir de los axiomas [1] [3] de P (:) y de la estructura matemática de los -campos = yß (R). Resumimos las propiedades de la función de distribución acumulada (ver Karr (1993)): F1: FX (x) FX (y); para x y; x; y números reales, F2: lim+ FX (x) = FX (x0 ); para todo número real x0 , x!x0 F3: lim FX (x) := FX (1) = 1; lim FX (x) := FX ( 1) = 0. x!1 x! 1 + donde x ! x+ 0 se lee "cuando x tiende a x0 a través de valores superiores a x0 ". Es decir, FX (x) es una función no decreciente, continua por la derecha tal que que FX ( 1) = 0 y FX (1) = 1. Las propiedades F1 y F3 no requieren más explicación pero F2 no es obvia. La propiedad de continuidad por la derecha de la fda se deriva del axioma de aditividad contable [3] de la función conjunto de probabilidad a la función P (:) y su valor radica en el hecho de que en cada punto de discontinuidad x0 la propiedad F2 se cumple. La función de distribución acumulada (fda) proporciona el último eslabón de la cadena de la metamorfosis de (S; =; P (:)) en algo más susceptibles a modelar. Antes de proceder a mejorar nuestra comprensión intuitiva del concepto tenemos que relacionarlo con la noción de función de densidad introducido en el contexto de variables aleatorias (discretas) simples. El lector perspicaz se habría dado cuenta que en el contexto de variables aleatorias (discretas) simples la metamorfosis del abstracto espacio de probabilidad toma la forma: 3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD99 X(:) (S; =; P (:)) ) (RX ; fX (:)) ; donde RX = fx1 ; x2 ; :::; xn ; :::g : La estructura probabilística original se ha transformado en: ffX (x1 ) ; fX (x2 ) ; :::; fX (xm;::: )g ; tal que X fX (xi ) = 1: xi 2RX El último eslabón en la cadena de transformaciones fue la noción de función de densidad: fX (:) : RX ! [0; 1] ; fX (x) := P (X = x) , para toda x 2 R. Por otra parte, en el contexto de una variable aleatoria continua (conjunto no contable de resultados) la metamorfosis toma la forma X(:) (S; =; P (:)) ! (RX ; FX (:)) , con la fda siendo el último eslabón de la cadena. La razón por la cual la función de densidad no se puede de…nir directamente en este caso ha sido discutido ampliamente en el capítulo anterior.La esencia del argumento es que en el caso de un conjunto no contable de resultados no podemos de…nir la probabilidad en un punto sino sólo en un intervalo. 3.4.2 La función de densidad En esta etapa, dos preguntas surgen de manera natural. La primera es si podemos de…nir una función de densidad en el caso de una variable aleatoria continua. La segunda es si podemos de…nir una función de distribución en el caso de una variable aleatoria discreta. Ambas preguntas serán contestadas a…rmativamente comenzando con la primera. Una vez de…nida la función de distribución acumulada en intervalos de la forma (( 1; a]), podemos proceder a recuperar la función de densidad fx (:) (cuando existe) Suponiendo que existe una función de la forma: fX (:) : R ! ( 1; x] ; tal que se relaciona con la fda a través de: 100 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD FX (x) = Z x fX (u) du; donde fx (u) 0, (3.14) 1 fX (:) se dice que es una función de densidad correspondiente a FX (x). Esta recuperación presupone la existencia de una función no negativa cuya forma uno tiene que conjeturar a priori. En los casos en los cuales se supone que fX (:) es continua, uno puede recuperarla de FX (x) usando el teorema fundamental del cálculo (véase Strang (1991), Binmore (1993)). Suponiendo que fX (:) es una función continua de x: Rx X (x) = fX (x), (a) si FX (x) = 1 fX (u) du; entonces dFdx Rx dFX (x) (b) si dx = fX (x) ; entonces 1 fX (u) du = FX (b) FX (a). Figura 3.6 fda exponencial. Usando el teorema fundamental del cálculo podemos recuperar la función de densidad mucho más fácil mediante la diferenciación usando el hecho de que: dFX (x) = fX (x) ; en todos los puntos de continuidad x 2 R de fX (x). dx Ejemplo Considerar el experimento aleatorio de ”medir la duración de un foco en un hogar típico.” La función de distribución acumulada a menudo utilizada para modelar este experimento es el de la distribución exponencial: FX (x; ) = 1 e x ; > 0; x 2 R+ := [0; 1) La grá…ca de la función de distribución para = 3 se muestra en la …gura 3.6. Teniendo en cuenta el hecho de que FX (x; ) es continua para todo 3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD101 x 2 R+ , podemos deducir que la función de densidad es la derivada de esta función y tiene la forma fX (x; ) = e x ; > 0; x 2 R+ Figura 3.7 Densidad exponencial. La función de densidad, para variables aleatorias continuas, de…nida por (3.14), cumple las siguientes propiedades: f1. RfX (x) 0; 8x 2 Rx ; x f2. 1 fX (x) dx = 1; Rb f3. FX (b) FX (a) = a fX (x) dx; a 2 R; b 2 R. Ahora centramos nuestra atención en la cuestión de si podemos de…nir una función de distribución en el caso de variables aleatorias (discretas) simples. La de…nición de función de distribución acumulada dada en (3.12) también es aplicable al caso en el que X(:) toma valores en un subconjunto numerable de R. Para Rx = fx1 ; x2 ; :::; xn g, donde x1 < x2 < ::: < xn , la fda de una variable aleatoria X (:) se de…ne en términos de la función de densidad por: FX (xk ) = P (fs : X(s) xk g) = Xk i=1 fX (xi ) ; para k = 1; 2; :::; n: (3.15) también se aplica al caso donde X(:) toma valores en un subconjunto contable de R: Para RX = fx1 ; x2 ; :::; xn g, donde x1 < x2 <; :::; < xn ; la fdia de una v.a. X(:); se de…ne en términos de la fde por: FX (xk ) = P (fs : X(s) xk g) = Xk i=1 fX (xi ) ; para k = 1; 2; :::; n: 102 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Es decir, la fda de una variable aleatoria (discreta) simple es una función escalón con saltos de…nidos por fX (:). El término acumulado proviene del hecho de que la función de distribución en ambos casos (3.12) y (3.15) acumula las probabilidades dadas por las funciones de densidad. Esto se hace evidente al ordenar los valores de X en orden ascendente x1 x2 ; :::; xn y suponiendo que FX (x0 ) = 0, entonces FX (:) y fX (:) se relacionan a través de fX (xi ) = FX (xi ) FX (xi 1 ) ; i = 1; 2; :::; n: La función de densidad, en el caso de una variable aleatoria discreta, tiene propiedades similares a las anteriores con la integral sustituida por una suma: f1. P fX (x) 0; 8x 2 Rx ; f2. xi 2Rx fX (xi ) = 1;P f3. FX (b) FX (a) = a<xi b fX (xi ) ; a < b; a 2 R; b 2 R. Ejemplo. En el caso de la variable aleatoria Bernoulli la función de densidad es: fX (1) = y fX (0) = 1 , donde 0 1 (ver 3.5). Esto se muestra en la …gura 3.8 para un valor conocido de , denotado por = 0:6. La fda correspondiente toma la forma FX (0) = ; FX (1) = 1: 8 9 < 0; x < 0 = ; 0 x 1; FX (x) = : ; 1; 1 x: 3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD103 Figura 3.8 Densidad Bernoulli. Como se puede observar en la …gura 3.9 la fda es una función escalón con saltos en x = 0 de altura (1 ) = 0:4 y x = 1 de altura = 0:6. Los puntos sobre los puntos (0; 0:4) y (1; 1) simbolizan la continuidad por la derecha de la fda; estos puntos pertenecen a la línea superior no a la inferior. Aunque la función de distribución parece ser la elección natural para la asignación de probabilidades en los casos en que la variable aleatoria X(:) toma valores en un subconjunto no contable de , la función de densidad se ofrece más conveniente para los propósitos de modelación. Por esta razón, concluimos esta sección por mencionar algunas distribuciones más, tanto para variables aleatorias continuas y discretas. Si se gra…ca se ve que fdia es una función escalonada con saltos en x = 0 de altura (1 ) = 0:4 y en x = 1 de altura = 0:6: Aunque la fda parece la elección natural al asignar probabilidades cuando la variable aleatoria X(:) toma valores en subconjuntos no contables de R, la fda parece más conveniente para propósitos de modelación. Por esta razón concluimos esta sección mencionando más distribuciones de variables aleatorias continuas y discretas. Variable aleatoria continua. Una variable aleatoria X se dice que es continua si su rango de valores es cualquier subconjunto no contable de R. Un vistaso a la de…nición (3.13)-(3.14) sugiere que no se debe interpretar la función de densidad de una variable aleatoria continua como una función asignando probabilidades, ya que esta última puede tomar valores mayores de uno! Ejemplos (i) La distribución más utilizada en teoría de la probabilidad y la inferencia estadística es, sin duda, la distribución normal (o gaussiana) cuya función de densidad es: fX (x; ) = : (x )2 1 p expf g; 2 2 2 = ; 2 2 R Rx , x 2 R. (3.16) La grá…ca de esta función de densidad, que se muestra en la …gura 3.10 con = 0 y 2 = 1, exhibe la bien conocida forma de campana con la que la distribución normal es fácilmente reconocible. La fda para la distribución normal es: 104 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD FX (x; ) = Zx 1 (x p expf 2 2 = ; 1 : 2 2R )2 2 gdu; (3.17) Rx , x 2 R. La grá…ca de esta función de distribución, que se muestra en la …gura 3.11, presenta las distintas S alargadas asociadas a la distribución normal. Figura 3.9 fda Bernoulli. Figura 3.10 Densidad normal. 3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD105 Figura 3.11 fda normal. Figura 3.12 Densidad uniforme. Figura 3.13 fda uniforme. 106 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD (ii) Otra distribución ampliamente utilizada es la uniforme (continua) cuya función de densidad es de la forma: fX (x; ) = 1 b a , : = (a; b) 2 R2 , a x b. (3.18) La grá…ca de esta función de densidad, que se muestra en la …gura 3.12 para a = 1 y b = 3, presenta una forma rectangular. La fda para la distribución uniforme (continua) es la siguiente: FX (x; ) = x b a , : = (a; b) 2 R2 , a a x b. (3.19) La grá…ca de esta fda se muestra en la …gura 3.13. Variable aleatoria discreta. Una variable aleatoria X se dice que es discreta si su rango Rx es un subconjunto numerable (que se puede contar) de la recta real R, y su función de densidad es de la forma: fX (:) : R ! [0; 1]. Figura 3.14 Densidad uniforme (discreta). 3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD107 Figura 3.15 fda uniforme (discreta). En contraste con el caso de variable aleatoria continua, esta de…nición sugiere que se podría interpretar la función de densidad de una variable aleatoria discreta como una función de asignación de probabilidades. Ejemplos (i) La distribución uniforme también tiene una forma discreta, con una función de densidad: fX (x; ) = 1 , +1 es un entero x = 0; 1; 2; :::; . (3.20) La grá…ca de esta función de densidad, que se muestra en la …gura 3.14 para = 9, presenta la bien conocida forma de punta uniforme. La fda de distribución uniforme (discreta) es la siguiente: FX (x; ) = x+1 , +1 es un entero, x = 0; 1; 2; :::; . (3.21) Su grá…ca se muestra en la …gura 3.15, donde los saltos son de la forma: pk = 1 , para +1 = 9, k = 1; 2; :::; 9. 108 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Figura 3.16 Densidad Poisson. Figura 3.17 fda Poisson. (ii) Otra ampliamente utilizada distribución discreta es la de Poisson cuya función de densidad es: e x , > 0, x = 0; 1; 2; 3; ::: (3.22) x! La grá…ca de esta función de densidad, que se muestra en la …gura 3.16 para = 4, donde la asimetría en la forma de la densidad es evidente. La fda para la distribución de Poisson es: fX (x; ) = Xx e x , > 0, x = 0; 1; 2; 3; ::: x! La grá…ca de la fda se muestra en la …gura 3.17. fX (x; ) = k=0 (3.23) 3.5. DE UN ESPACIO DE PROBABILIDAD A UN MODELO DE PROBABILIDAD109 3.5 De un espacio de probabilidad a un modelo de probabilidad Vamos a reunir los distintos cabos. Inicamos la discusión en este capítulo con un objetivo principal: transformar el abstracto espacio de probabilidad (S; =; P (:)) construido en el capítulo anterior en algo más susceptible a la modelación con datos numéricos. La primera etapa de la transformación signi…có la introducción de la noción de una función real del espacio de los resultados de S a la recta real R, obligada a preservar la estructura de eventos del espacio original de eventos eventos =; el concepto de una variable aleatoria. En la segunda etapa utilizamos el concepto de una variable aleatoria para mapear (S; =; P (:)) en (R; ß(R) ; PX (:)); siendo este último un edi…cio sobre la recta real. En la tercera etapa transformamos la función conjunto PX (:) en una función numérica punto a punto, la función de distribución acumulada, por: FX (x) = PX ( 1; x] . En la última etapa hemos simpli…cado FX (:) aún más mediante la introducción de la función de densidad a través de: Z x fX (u) du, fX 0; para todo x 2 R. FX (x) = 1 A continuación extendimos la formulación al caso donde las probabilidades son funciones conocidas de ciertos parámetro desconocido(s) . Esto se hizo mediante la introducción de estos parámetros en las fórmulas para las funciones fda y de densidad: FX (x; , fX (x; ). Los detalles de esta ampliación serán discutidon en el capítulo 10. Simbólicamente la transformación ha tomado la forma: X(:) (S; =; P (:)) ) (R; ß(R) ; PX (:)) ) ffX (x; ); 2 ; x 2 RX g : Haciendo caso omiso de la etapa intermedia, podemos ver el mapeo a nivel de los componentes individuales como: S )RX y [=; P (:)] ) ffX (x; ); 2 g 110 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD El resultado …nal de esta metamorfosis es que el espacio de probabilidad original (S; =; P (:)) se ha transformado en un modelo de probabilidad de…nido por: = ffX (x; ); 2 ; x 2 RX g es un conjunto de funciones de densidad indexadas por un conjunto de parámetros desconocidos ; una densidad para cada posible valor de en el espacio de parámetros . Es importante NOTAR que podríamos usar la fda en lugar de la función de densidad como la base del modelo de probabilidad, en el sentido de que: F = fF (x; ); 2 ; x 2 RX g es aún más general que (3.24). Como puede verse en las grá…cos anteriores de las distintas fda y funciones de densidad, sin embargo, la forma de las funciones de densidad es más fácil juzgar que la de la fda. Por razones matemáticas, a menudo pre…eren las fda, pero para los propósitos de modelizaciónpor lo general preferimos la función de densidad. La noción de modelo de probabilidad, tal como se de…ne en términos de funciones de densidad, es conveniente para los propósitos de modelación, ya que, como se muestra en el capítulo 5, existe una relación útil entre este concepto teórico y los datos observados. Veremos cómo la noción de un función de densidad constituye la contraparte de la teoría de la probabilidad de la noción de un histograma en la estadística descriptiva y cómo esto se relaciona con una grá…ca de tiempo de un conjunto de datos. En resumen, podemos construir una relación directa entre el modelo de probabilidad y los datos reales con el …n de ayudar en la elección de modelos adecuados. Hay varias cosas que vale la pena enfatizar sobre el modelo de probabilidad de…nido en (3.24). En primer lugar, el modelo de probabilidad representa una colección completa de densidades, a menudo un número in…nito, dependiendo de la naturaleza del espacio de parámetros : En cierto sentido, el parámetro(s) encapsular la incertidumbre inicial en relación con el resultado de una prueba particular, (condición [b]). En segundo lugar, el modelo de probabilidad tiene tres componentes importantes: (i) la función de densidad de una variable aleatoria X, (ii) el espacio de parámetros y (iii) el rango de valores de la variable aleatoria que se trata RX . Para signi…car la importancia del componente (iii) le damos un nombre especial. 3.5. DE UN ESPACIO DE PROBABILIDAD A UN MODELO DE PROBABILIDAD111 El soporte de la densidad fX (:) es el rango de valores de la variable aleatoria X para el cual la función de densidad es positiva, es decir, RX := fx 2 RX : fX (x) > 0g. Debido a la importancia fundamental del concepto de un modelo de probabilidad consideraremos varios ejemplos a …n de permitir al lector comprender los conceptos básicos. Ejemplos. (i) Considere el modelo de probabilidad de una distribución binomial especi…cado por: = 8 < : f (x; ) = 0 n x x 1; 0 x (1 n x ) ; n; n = 1; 2; ::: 9 = (3.25) ; En las …guras 3.18-3.21 podemos ver a varios miembros de este modelo de probabilidad para el n = 20. Cada grá…ca representa una densidad para un valor especí…co del parámetro desconocido: = 0:15, = 0:3, = 0:5, = 0:8. En teoría incluye una in…nidad de las densidades de este tipo (a saber una in…nidad doble) debido a que el espacio de parámetros := [0; 1] tiene un número no contable de elementos! Para las densidades que se muestran en las …guras 3.18-3.21 el soporte es RX := f1; 2; :::; 20g. (ii) Otro ejemplo interesante de un modelo de probabilidad es el Beta: = ( f (x; ) = x 1 (1 x) B[ ; ] 1 , ) = ( ; ) 2 R2+ , 0 < x < 1 En la …gura 3.22 se muestran varios miembros de esta familia de densidades (uno para cada combinación de valores de ). Este modelo de probabilidad tiene dos parámetros desconocidos > 0 y > 0; el espacio de parámetros es el producto de la recta real positiva: := R2+ . Esto sugiere que el conjunto tiene una in…nidad de elementos, uno para cada combinación de elementos de dos conjuntos in…nitos. Su soporte es Rx := (0; 1). Como puede verse, este modelo de probabilidad incluye funciones de densidad de con formas muy diferentes dependiendo de los valores de los dos parámetros desconocidos. (iii) Otro ejemplo importante de un modelo de probabilidad es la Gama: 112 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD = ( f (x; ) = 1 [ ] x 1 expf x g, = ( ; ) 2 R2+ , x 2 R+ ) . En la …gura 3.23 se muestran varios miembros de esta familia de densidades (uno para cada combinación de valores de ). Una vez más, el modelo de probabilidad tiene dos parámetros desconocidos > 0 y > 0; el espacio de parámetros es el producto de la recta real positiva: := R2+ . Su soporte es Rx := (0; 1). Figura 3.18 Binomial (n = 20, = 0:15). Figura 3.19 Binomial (n = 20, = 0:3). 3.5. DE UN ESPACIO DE PROBABILIDAD A UN MODELO DE PROBABILIDAD113 Figura 3.20 Binomial (n = 20, = 0:5). Figura 3.21 Binomial (n = 20, = 0:8). (iv) El último ejemplo de un modelo de probabilidad es la de Weibull: = f (x; ) = x 1 expf x g, = ( ; ) 2 R2+ , x > 0 . 114 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Varios miembros de esta familia de densidades (uno para cada combinación de valores de ) se muestran en la …gura 3.24. Una vez más, el modelo tiene dos parámetros desconocidos > 0 y > 0; el espacio de parámetros es el producto de la recta real positiva: := R2+ . Su soporte es Rx := (0; 1). El modelo de probabilidad constituye uno de los dos pilares sobre los que vamos a construir la noción de un modelo estadístico, la piedra angular de la inferencia estadística (y de la modelizaciónempírica); el otro pilar es el modelo muestral que se discutirá en el próximo capítulo. Para propósitos de modelizaciónempírica utilizamos la noción de un modelo de probabilidad de la siguiente manera. Postulamos a priori una de tales familias de densidades como subyacente al mecanismo estocástico que dio origen a los datos observados en cuestión: nuestra tarea como modeladores es elegir la familia más adecuada para los datos en cuestión. A priori no nos comprometemos con una densidad particular, por ejemplo f (x; 0 ), donde 0 es un valor especí…co de los parámetros desconocidos , proporcionando el resumen adecuado de los datos en cuestión. En su lugar, asumimos que esa densidad es un miembro de la familia postulada para alguna 2 . En la modelizaciónempírica de…nimos el modelo de probabilidad en términos del parámetro desconocido(s) y dejamos que los datos, utilizando la inferencia estadística, elijan su valor apropiado de . La pregunta que naturalmente surge en esta etapa es: ¿cómo tomamos la decisión inicial respecto de cual es el modelo de probabilidad (ver apéndice A para varios modelos de este tipo) adecuado? Una respuesta demasiado simpli…cada es que el modelador considera de qué manera los tres componentes (i) - (iii) del modelo de probabilidad se relacionan con los datos en cuestión. El primer componente es la función de densidad. La manera más conveniente de evaluar la pertinencia de la función de densidad es comparar las formas distribucionales (como las presentadas en los grá…cos anteriores) con el histograma de los datos observados. Estas formas demostrarán ser una de las luces guía en la elección de un modelo estadístico apropiado para fenómeno estocástico que se trate. En el capítulo 5 vamos a demostrar cómo 3.5. DE UN ESPACIO DE PROBABILIDAD A UN MODELO DE PROBABILIDAD115 Figura 3.22 Modelo de probabilidad Beta. Figura 3.23 Modelo de probabilidad Gama. Figura 3.24 Modelo de probabilidad Weibull. 116 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD el histograma se puede utilizar para tomar decisiones informadas con respecto a la densidad adecuada. Tomando el modelo de probabilidad Beta como ejemplo, podemos ver que presenta una ‡exibilidad casi ilimitada en relación con diferentes formas distribucionales; las formas mostradas en la …gura 3.22 indican esta ‡exibilidad. No obstante, los otros dos modelos continuos de probabilidad, el Gamma y el Weibull también muestran ‡exibilidad su…ciente en términos de formas lo que sugiere que no pueden por sí solos dar respuesta a la cuestión de elegir el modelo de probabilidad adecuado. Aquellos lectores que no están convencidos de esto deben echar un vistazo a la …gura 3.25, donde dos densidades muy diferentes se ponen en contraste para mostrar el resultado de que será imposible elegir entre ellas cuando se enfrentan con datos reales. En la línea punteada tenemos la densidad normal estándar y en la línea continua tenemos una densidad de Weibull de la forma: = ( f (x; ) = x 1 expf x g, = ( ; ) 2 R2+ , x > ) 2R . con parámetros ( = 3:34; = 3:45; = 3). La mejor manera de distinguir entre estas muy similares formas distribucionales es a través de medidas de índice basadas en momentos (véase la sección siguiente) que son invariantes a los cambios de escala y parámetros de localización; véanse más adelante los coe…cientes de asimetría y de curtosis. Figura 3.25 Weibull contra normal. 3.6. PARÁMETROS Y MOMENTOS 117 Además de las formas de distribución y los parámetros relacionados de las densidades se debe considerar el soporte de la densidad en la toma de decisiones sobre lo apropiado de los modelos de probabilidad. Por ejemplo, en el caso del modelo Beta el soporte limita su utilidad a los casos en los cuales los datos son porcentajes o se pueden expresarse como tales. Por ejemplo, en el caso de la modelizaciónde datos que se re…ere a los resultados de exámenes es a menudo más realista utilizar la versión beta y no la distribución normal porque todos los resultados pueden ser fácilmente expresados en el intervalo [0; 1]; la distribución normal tiene soporte ( 1; 1). Por otro lado, si los datos sólo pueden tomar valores positivos sin un claro límite superior el modelador debe considerar los otros dos modelos de probabilidad. Por último, una consideración importante en la toma de decisión sobre el modelo más adecuado es la riqueza del menú a elegir; cuanto más familias de densidades tengamos para elegir más alta es la probabilidad de que una de ellas resulte ser apropiada en una situación dada . Por eso en el apéndice A reunimos algunos de los modelos de probabilidad más importante para …nes de referencia. 3.6 3.6.1 Parámetros y momentos ¿Porqué nos interesa? En la sección anterior hemos introducido el concepto de un modelo de probabilidad: = ffX (x; ); 2 ; x 2 RX g como una formalización de las condiciones [a] - [b] de un experimento aleatorio. Antes de que procedamos a formalizar la condición [c] (véase el capítulo siguiente), hacemos una digresión importante para introducir una forma más conveniente de tratar al parámetro desconocido(s) del modelo de probabilidad. En el contexto de la inferencia estadística y la modelación en general, la forma más e…caz de tratar a los parámetros desconocidos es relacionarlos con los momentos de la distribución. Como se mencionó en la sección anterior una de las consideraciones importantes en la elección de un modelo de probabilidad son las formas que las diferentes familias de las densidades pueden dar lugar. Estas formas están obviamente, relacionadas con los parámetros desconocidos, pero eso no es consuelo para el modelador 118 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD que tiene que elegir un modelo tal a priori debido a que ellos son desconocidos! Por lo tanto, nos gustaría utilizar otro tipo de información que está disponible a priori al hacer dicha elección. Junto con el histograma de los datos, a menudo tenemos una serie de valores numéricos, tales como medias aritméticas de la estadística descriptiva. Estos valores numéricos se relacionan con lo que llamamos momentos de la distribución y se pueden utilizar para hacer conjeturas con respecto a los parámetros desconocidos y por lo tanto para las distintas formas de distribución. Los momentos de una distribución se de…nen en términos de la esperanza matemática de determinadas funciones de la variable aleatoria X, genéricamente denotados por h(X), de la siguiente manera: Z 1 h (X) fX (x; )dx: (3.26) E [h(X)] = 1 En vista del hecho de que la integral se de…ne en términos de las funciones de densidad fX (x; ), en general E [h(X)] es una función de , es decir, E [h(X)] = g( ). (3.27) Eligiendo formas especí…cas de la función h(X), tales como h(X) = X r ; h(X) = jXjr ; r = 1; 2; :::; h, h(X) = etx ; h(X) = eitx obtenemos varias funciones de la forma g( ) que implican lo que llamamos momentos de fX (x; ). En el modelación estadística, así como en la inferencia estadística, se muestra que la mejor manera de manejar modelos de probabilidad (postular un modelo estadístico, estimar , probar hipótesis acerca de estos parámetros , etc.) es a menudo a través de los momentos de la distribución de probabilidad postulada. 3.6.2 Características numéricas En lo que sigue vamos a considerar algunos casos particulares de (3.26) con el …n de discutir su papel en la modelizacióny en la inferencia. Media Para h(X) := X, donde X toma valores en RX , la integral anterior da lugar a la media de la distribución: 3.6. PARÁMETROS Y MOMENTOS E [X] = Z E [X] = 1 119 xfX (x; )dx, para variables aleatorias continuas, (3.29) 1 X xi fX (xi ; ), para variables aleaorias discretas. (3.30) xi 2RX NOTE que la única diferencia en la de…nición de las variables aleatorias continuas y discretas es la sustitución de la integral por una sumatoria. La media es una medida de localización en el sentido de que conociendo la media X, tenemos alguna idea de donde se localiza fX (x; ). Intuitivamente, la media representa una media ponderada de los valores de X, con las probabilidades correspondientes proporcionando los pesos. Designando la media por: := E [X] la de…nición anterior sugiere que es una función de los parámetros desconocidos , es decir ( ). Ejemplos. (i) Para la distribución Bernoulli: ( ) := E [X] = 0 (1 )+1 = , y así, la media coincide con el parámetro desconocido. (ii) En el caso de la distribución Poisson: x fX (x; ) = e x! , 2 := (0; 1), x = 0; 1; 2; 3; :::, 1 1 1 X X X k k 1 k 1 e k ( ) := E [X] = = e = ya que = k! (k 1)! (k 1)! k=0 k=0 k=0 e. (iii) Para la distribución Uniforme (una distribución continua): fX (x; ) = 2 1 1 , x 2 [ 1 ; 2 ], := ( 1 ; 2 ), 1 < 1 < 2 < 1, Z 2 x ( ) := E (X) = dx = 12 2 1 1 x2 j 21 = 1 +2 2 2 1 1 (iv) Para la distribución Normal: 1 (x f (x; ) = p expf 2 2 )2 2 g; : = ; 2 2R R+ , x 2 R: 120 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD el parámetro E (X) = es en realidad media de la distribución (de ahí la notación). Z Z 1 x 1 1 p 2 exp " )2 (x 2 2 # dx 1 ( z+ ) z2 p ( ) dz exp 2 2 1 Z 1 Z 1 1 z2 p exp = p z exp dz + 2 2 1 2 1 = 0 + (1) = = z2 dz 2 La segunda igualdad se sigue utilizando la sustitución z = x o x = dx z + , con dz = . Para las variables aleatorias X1 y X2 y las constantes a; b y c, E(:) cumple las siguientes propiedades: E1. E [c] = c; E2. E [aX1 + bX2 ] = aE [X1 ] + bE [X2 ] : Estas propiedades designar a E(:) como una aplicación lineal. Ejemplo Sean X1 ; X2 ; :::; Xn variables P aleatorias distribuidas Bernoulli con men dia . Hallar E [Y ] para Y = i=1 Xi . Usando [E2] podemos E [Y ] = Pn Pn i=1 = n . i=1 E (Xi ) = Varianza Para h [X] := E [X E (X)]2 , la integral (3.26) proporciona la varianza: V ar (X) = E (X 2 E (X)) = Z 1 [X ]2 fX (x; )dx, 1 donde en el caso de variables aleatorias discretas la integral se sustituye por la suma de costumbre (ver (3.29) y (3.30)). En nuestro contexto, la varianza representa una medida de dispersión (variación) alrededor de la media. Ejemplos (i) En el caso del modelo Bernoulli: Var (X) = E (X E (X))2 = (0 )2 (1 )2 + (1 )2 = (1 ): 3.6. PARÁMETROS Y MOMENTOS 121 (ii) En el caso donde X tiene una distribución normal (ver (3.31)), utilizando la misma sustitución, x = z + , podemos demostrar que la varianza coincide con el parámetro desconocido 2 es decir, Var(X) = E [X 2 ] (E [X])2 = 2 ya que E X2 = = Z 1 x2 1 Z ( z + )2 p 2 1 1 Z 1 p 2 1 exp ! " exp )2 (x 2 2 # dx z2 ( ) dz 2 2 z2 z2 p = dz + p exp 2 2 2 1 Z 1 2 z 1 p exp + 2 dz 2 1 2 = 2 + 0 + 2 = 2 + 2, 2 Z 1 z p exp 1 2 z2 dz 2 de alli la notación X~N ( ; 2 ). En la …gura 3.26 podemos ver la densidad normal (con = 0) y diferentes valores de 2 ; cuanto mayor es el valor de 2 mayor es la dispersión. Para variables aleatorias independientes X1 y X2 y las constantes a; b y c, V ar(:) cumple las siguientes propiedades: V1. Var(c) = 0; V2. Var(aX1 + bX2 ) = a2 V ar [X1 ] + b2 V ar [X2 ] : Lema de Bienayme. Si X1 ; X2 ; :::; Xn son variables aleatorias distribuidas independientemente: P P V ar ( ni=1 ai Xi ) = ni=1 a2i V ar (Xi ), Este lema constituye una extensión directa de la propiedad V2. Ejemplo Sean X1 ; X2 ; :::; Xn variables aleatorias Pnindependientes Bernoulli con media . ¿Cuál es la varianza de Y = a + i=1 Xi ?: 122 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Figura 3.26 Normal: diferentes 2 . Usando V1 P y el lema de Bienayme Pn podemos deducir que: n ) = n (1 ). V ar(Y ) = i=1 V ar (Xi ) = i=1 (1 Una desigualdad muy útil que da testimonio de que la varianza proporciona una medida de dispersión es la de Chebyshev. desigualdad de Chebyshev: sea X una variable aleatoria con varianza acotada: P (jX E (X)j > ") V ar (X) , para todo " > 0. "2 Desviación estándar La raíz cuadrada de la varianza, conocida como la desviación estándar, también se utiliza como una medida de dispersión: 1 SD(X) = [V ar (X)] 2 . El término desviación estándar fue propuesto por primera vez por Pearson 1 (1894) quien utilizó la notación = [V ar (X)] 2 . Esta medida es particularmente útil en inferencia estadística, ya que nos proporciona la mejor forma de estandarizar cualquier variable aleatoria X cuya varianza existe. Una de las reglas prácticas más útiles en la inferencia estadística es la siguiente: Una variable aleatoria es tan "grande"como su desviación estándar (siempre que exista!). Por lo tanto, cuando tenemos que hacer una variable aleatoria libre de sus unidades de medida la dividimos por su desviación estándar, es decir, de…nimos la variable estandarizada: X X := 1 , donde V ar (X ) = 1, [V ar(X)] 2 3.7. MOMENTOS 123 que por de…nición es sin unidades. El término error estándar se utiliza a menudo en lugar de la desviación estándar. La terminología error estándar se puede remontar a la tradición del siglo 18 de la teoría de errores. Galton (1877) fue el primero en reemplazar el término de error con el de desviación. Aunque la media y la varianza son los momentos más ampliamente utilizados, no son su…cientes para determinar las principales características de una distribución. Es decir, aunque conocemos la media y la varianza, que sabemos muy poco acerca de las características principales de la función de densidad. Es fácil pensar en funciones de densidad muy diferentes que tienen la misma media y varianza. Para ser capaces de distinguir entre tales distribuciones debemos tener en cuenta los momentos de orden supserior. 3.7 Momentos En esta sección consideramos dos tipos de momentos, los momentos crudos de orden superior y los momentos centrales, que constituyen generalizaciones directas de la media y la varianza, respectivamente. La idea de los momentos, en general, se tomó prestada de la mecánica clásica, donde la media, E(X), es la abscisa del centro de gravedad de la masa de la distribución y la varianza, V ar(X), representa el momento de inercia de la masa de la distribución con respecto a un eje perpendicular a través del punto x = E (X). Los seis primeros momentos de la distribución normal fueron usados por un número de analistas en todo el siglo 18 como Gauss y Quetelet. El primero en acuñar el término momentos fue Pearson (1893). 3.7.1 Momentos crudos de orden superior Una generalización directa de la media proporciona los llamados momentos crudos. Para h(X) := X r ; r = 2; 3; 4; ::: la integral en (3.26) proporciona los momentos crudos de…nidos por: 0 r r ( ) := E (X ) = Z 1 xr fX (x; )dx; r = 1; 2; 3; ::: 1 Ejemplos (i) En el caso de la distribución Bernoulli: 0 r r ) + 1r = ; para todo r = 1; 2; 3; 4; ::: r ( ) = E (X ) = 0 (1 124 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Es decir, todos los momentos crudos son los mismos. El segundo momento crudo es a menudo útil en la obtención de la varianza utilizando la igualdad: E (X))2 = E X 2 V ar (X) = E (X E [(X)]2 Podemos comprobarlo en el caso de Bernoulli donde E (X 2 ) = : 2 V ar (X) = ). = (1 (ii) En el caso donde X se distribuye normalmente con densidad (3.31): 0; para r = 3; 5; 7; ::: (1 3 (r 1)) r ; para r = 2; 4; 6; ::: E (X r ) = (iii) Considere la variable aleatoria exponencial X con una función de densidad: fX (x; ) = 0 r ( ) : e x ; x>0, r = E (X ) = Z >0 1 xr e x dx 0 Usando el cambio de variables, u = x; dx = 1 du : Z Z 1 r r! u u 1 1 [r+1] 1 u 0 u e du = r : du = r r( ) = re ! 1 1 IMPORTANTE. En relación con los momentos crudos, es interesante observar que cuando el cuarto momento existe también existen el primero, segundo y tercero. El resultado general se da en el siguiente lema. Lema (momentos inferiores). Si 0k ( ) := E X k existe para algunos enteros positivos k; entonces todos los momentos crudos de orden menor que k también existen, es decir, E (X r ) < 1, para todo i = 1; 2; :::; k 1. 3.7.2 Función generatriz de momentos Una forma particularmente conveniente para calcular los momentos crudos es mediante la función generatriz de momentos (fgm) de…nida mediante la integral en (3.26) con h(X) = etX ; es decir: tX mX (t) := E e = Z 1 1 etX f (x)dx; para t 2 ( h; h) ; h > 0, 3.7. MOMENTOS 125 siempre que E etX exista para todo t en un cierto intervalo ( h; h); para variables aleatorias discretas el cambio antes mencionado de integrales y sumas se mantiene (ver Gnedenko (1969)). La idea detrás de este dispositivo matemático es comprimir los momentos en forma de cápsula los cuales estarían inmediatamente accesibles. Como se muestra abajo la fgm puede ser utilizada para generar estos momentos por diferenciación simple en lugar de integración. Ejemplos. (i) Sea X una variable aleatoria distribuida Poisson. Entonces: mX (t) = 1 X etX =e r! r=0 1 r X (et ) =e e r! r=0 r e et t = e (e 1) ya que 1 X r=0 r r! (ii) Sea X una variable aleatoria uniformemente distribuida en el intervalo [a; b] : mX (t) := Z b etX a 1 b a dx = ebt eat ; para t 6= 0. (b a) t (3.32) Usando la fgm es obtienen momentos diferenciando en vez de integrar. La intuición detrás de la de…nición de mX (t) toma la forma. En vista del hecho de que una expansión en series de Maclaurin de etX toma la forma: X1 (Xt)r (Xt)2 (Xt)3 + + = . (3.33) r=0 2! 3! r! podemos concluir que si mX (t) existe para t 2 ( h; h) y algún h > 0, entonces podemos escribir etX = 1 + Xt + mX (t) := E etX = E X1 (Xt)r r=0 r! e intercambiando el orden de la experanza y la suma (we use some hand waving here), da como resultado: mX (t) := E etX = X1 r=0 E (X r ) tr para t 2 ( h; h) y algún h > 0. r! =e . 126 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Esto sugiere que, suponiendo que mX (t) existe, podemos recuperar el momento crudo 0r ( ) := E (X r ) como el (r + 1) ésimo término en la expansión anterior, ya sea directamente cuando la fgm puede expandirse como una serie de potencias en potencias de t, o indirectamente utilizando diferenciación (there is some hand waving here as well) a través de: r E (X r ) = dtd r mX (t)jt=0 := mrX (0), r = 1; 2; ::: 2 dmX (t) 0 jt=0 ; 02 := E (X 2 ) = d mdtX2 (t) jt=0 ; :::; 0r := E (X r ) = 1 := E (X) = dt dr mX (t) jt=0 . dtr La intuición detrás de este resultado es el siguiente: observando (3.33) r podemos ver que diferenciando mx(t) r veces, los términos hasta E (X r ) tr! desaparecen y se convierte en el segundo: 0 E (X r ) [r(r 1)(rr! 2) 1]t = X r . Los términos con potencia mayor que r implican a t, lo que signi…ca que cuando sustituimos t = 0 ellos desaparecen, dejándonos sólo con E (X r ). Ejemplo Para una variable aleatoria distribuida Poisson X, mX (t) = e e(t 1) , y entonces: d t mX (t) jt=0 = e (e 1) dt d2 t = mX (t) jt=0 = e (e 1) dt E (X) = E X2 et et jt=0 = , t + e (e 1) 2 e2t jt=0 = 2 + . Lema de unicidad. Un hecho importante acerca de la fgm es que cuando ésta existe (no siempre), es única en el sentido de que dos variables aleatorias X e Y que tienen la misma fgm deben tener la misma distribución y viceversa. Usando este lema podemos probar un resultado muy útil que proporciona la base para la simulación de variables aleatorias con características distribucionales especí…cas. Esto nos permite utilizar números aleatorios generados a partir de una distribución uniforme como la base para la generación de números aleatorios para varias distribuciones continuas (véase el capítulo 5). Lema de transformación de la integral de probabilidad. Para cualquier variable aleatoria continua X, con fda FX (X) (con independencia de su forma), la variable aleatoria de…nida por Y = FX (X) tiene una distribución uniforme en el intervalo (0; 1), es decir Y = FX (X) ~U (0; 1). Prueba. La fda de Y toma la forma: 3.7. MOMENTOS 127 R1 t tF (X) mY (t) := E etY = E etF (X) = 1 etF (X) f (x)dx e t j11 = e t 1 , ya que F (1) = 1 y F ( 1) = 0. Mirando la forma de la fgm y comparándola con (3:32), podemos ver que la variable aleatoria Y se distribuye uniformemente en el intervalo (0; 1). Hay dos funciones relacionadas con las funciones generatrices de momentos, las funciones cumulantes y característica, consideradas enseguida. Cumulantes Una de las funciones relacionadas con la función generatriz de momentos es la función generatriz cumulante, de…nida por: 1 X tr (t) = In (m (t)) = X r r! para t 2 ( h; h), h > 0, X r=1 donde r , r = 1; 2; 3; ::: se denominan cumulantes (o semi-invariantes). Es interesante observar que: 2 d X (t) jt=0 , 2 = V ar (X) = d dtX2 (t) jt=0 , 1 = E (X) = dt y los cumulantes están directamente relacionados con los momentos crudos. Los primeros cumulantes están relacionados con los momentos crudos de la siguiente manera: 0 1 = 1, 0 ( 01 )2 , 2 = 2 0 3 02 01 + 2 ( 01 )3 , 3 = 3 0 4 03 01 3 ( 02 )2 + 12 02 ( 01 )2 6 ( 01 )4 , 4 = 4 0 5 04 01 10 02 03 +20 03 ( 01 )2 +30 ( 02 )2 01 60 02 ( 01 )3 +24 ( 01 )5 . 5 = 5 De esto podemos ver que los dos primeros cumulantes son la media y la varianza. El cumulantes son a menudo preferibles a los momentos por varias razones incluyendo las siguientes: (i) En el caso de la distribución normal: r = 0, r = 3; 4; ::: (ii) El r ésimo cumulante es homogéneo de r-ésimo orden r ( X) = r r (X), r = 1; 2; :::. (iii) El r ésimo cumulante es una función de los momentos de orden hasta r, (iv) Para variables aleatorias independientes, el cumulante de la suma es la sumaX denlos cumulantes: Xn Xk = r r (Xk ), r = 1; 2; ::: k=1 k=1 Función característica La existencia de la fgm depende fundamentalmente de que mX (t) sea …nita en el intervalo ( h; h). En tal caso, todos los momentos E (X r ) son 128 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD …nitos para todo r. En los casos en los cuales E (X r ) no es …nito par algún r, mX (t) no es …nito en cualquier intervalo ( h; h). Para poder hacer frente a estos casos de…nimos la llamada función característica (véase Cramer (1946)): itX 'X (t) := E e = Z1 eitX f (x) dx = mX (it), para i = p 1 1 que, a diferencia de mX (t), siempre existe, ya que para todo t, 'X (t) está acotado: j'X (t)j E eitX = 1, y, por lo tanto, para muchas variables aleatorias, podemos encontrar la función característica usando la función generatriz de momentos. La función característica está relacionada con los momentos (cuando existen!) a través de la serie: X1 (it)r 0 r para t 2 ( h; h) ; h > 0. k=0 r! También hay una relación directa entre la función característica de un lado y la distribución acumulada (fda) y funciones de densidad por el otro, en primer lugar señalado por Lyapunov en el contexto de los teoremas límite. Teorema de inversión. Sean FX (x), f (x) y 'X (t) las funciones fda, densidad y característica de una variable aleatoria X, respectivamente. (a) Suponiendo que (a; b) son dos números reales (a < b) en donde F (x) es continua: 'X (t) = FX (b) 1 FX (a) = lim n!1 2 Zn e ita e it itb 'X (t) dt n (b) Si Z1 j'X (t)j < 1, entonces FX (x) = 1 Zx 1 f (u) du y f (x) = Z1 1 e itx 'X (t) dt. (c) 'X (t) determina únivocamente FX (x) en el sentido que (veáse Karr (1993)): 0 1 Zn itz itb 1 e e FX (x) = lim @ lim 'X (t) dtA . z! 1 n!1 2 it n 3.7. MOMENTOS 3.7.3 129 El problema de los momentos Como se ha dicho anteriormente, la utilidad principal de los momentos es que nos permiten manejar las distribuciones con parámetros desconocidos para los …nes de la modelación y de la inferencia. La pregunta que viene a la mente en esta etapa es ¿cuando los momentos f 0k := E X k , k = 1; 2; :::g, suponiendo que existan, determinan la distribución unívocamente? Esta cuestión es de suma importancia, porque si los momentos no determinan la distribución unívocamente, entonces la utilidad de los momentos se reduce. Por lo tanto, las preguntas que surgen son las siguientes: dado el conjunto de momentos: f 0k := E X k < 1, k = 1; 2; :::g, Z1 (i) existencia: ¿existe una función f (x) 0 tal que: xr f (x) dx? 1 (ii) unicidad: ¿es la función f (x) única? Z1 Z1 r es decir, ¿ x f (x) dx = xr g (x) dx ) f (x) = g (x)? 1 1 En general, la respuesta a ambas preguntas es no! Bajo ciertas condiciones, no obstante, la respuesta es sí. Veamos cómo estas condiciones están relacionadas con la convergencia de la serie en (3.35). Lema 1. Un resultado útil sobre la existencia de los momentos es la siguiente. Una condición su…ciente (pero ciertamente no necesaria) para la existencia de momentos es que el soporte de la variable aleatoria X esté en un intervalo acotado, es decir, RX := [a; b], donde 1 < a < b < 1. En este caso todos los momentos existen: 0 k = Zb xr f (x) dx < 1 para todo k = 1; 2; ::: a En los casos en los cuales el rango de valores de la variable aleatoria en cuestión no está acotada tenemos que comprobar la existencia o no de los momentos. Una condición su…ciente para el problema de la unicidad es proporcionada por lema 2. Lema 2. Los momentos f 0k , k = 1; 2; :::g (suponiendo que existen) determinan la función de distribución únivocamente si: 130 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD lim n!1 h sup (2n) 1 ( 1 0 2n 2n ) i < 1, NOTE que en muchas ocasiones usaremos las abreviaturas sup e inf que representan al supremo y al ín…mo, respectivamente. Ellos son esencialmente los bien conocidos máx y mín que representan al máximo y mínimo con una cali…cación. A veces el máximo y / o el mínimo de un conjunto de números pueden no existir, por ejemplo, el conjunto (0; 1) no tiene ni un mínimo ni un máximo. En estos casos utilizamos inf y sup, que denotan la mayor cota inferior y la menor cota superior, respectivamente, las cuales siempre existen! Los menos matemáticamente inclinados pueden interpretarlos como máximo mínimo, sin preocuparse demasiado. Un comprobación útil de una determinación única de la función de distribución a través de los momentos es proporcionada por la condición Carleman: i X1 h 1 ( 02n ) 2n = 1. n=1 Una condición necesaria y su…ciente para el problema de la unicidad en el caso de variables aleatorias continuas es proporcionada por lema 3. Lema 3. Los momentos f 0k , k = 1; 2; :::g de la variable aleatoria continua X (suponiendo que existen) con función de densidad f(x) determinan su función de distribución unívocamente si y sólo si: Z1 In f (x) dx = 1. (1+x2 ) 1 Esto se conoce como la condición de Krein; ver Stoyanov (1987). Ejemplo Considere el caso donde la variable aleatoria X tiene una distribución logarítmica normal con una densidad: 1 1 f (x) = p expf (In x)2 g, x 2 R+ 2 x 2 Se puede demostrar que: k2 0 k = e 2 , k = 1; 2; ::: y entonces 1 X1 X1 2k 2 = ek k=1 k=1 e k 2 < 1, es decir, la condición Carleman no se sostiene. Sin embargo, en vista del hecho de que la condición Carleman sólo es su…ciente, no podemos concluir 3.7. MOMENTOS 131 que los momentos no determinan la distribución unívocamente. Por otra parte, ya que la condición Krein no se sostiene, es decir, Z1 1 In x 12 (In x)2 dx < 1, (1+x2 ) 0 podemos concluir que la distribución log-normal no está determinada por sus momentos debido a la condición de Krein es a la vez necesaria y su…ciente; ver Heyde (1963). La línea …nal Los lemas anteriores sugieren que, en general, los momentos no determinan la distribución unívocamente, incluso si utilizamos un número in…nito de ellos. Además, sabemos que, en general, ninguna distribución es determinada por un número …nito de momentos. En vista del hecho de que, a efectos de modelizacióne inferencia estadística podemos tratar sólo con un pequeño número de momentos (y, ciertamente, …nito), el problema de los momentos parece insalvable. Sin embargo, si estamos dispuestos a limitarnos a una clase especí…ca de distribuciones el problema se vuelve manejable. Ejemplo Dentro de la familia Pearson se requiere un máximo de cuatro momentos para determinar la distribución particular (ver capítulo 12). UNA NOTA DE PRECAUCIÓN: momentos coincidentes puede ser muy engañoso! Tenga en cuenta la distribución que se especi…ca a continuación (ver Romano y Siegel (1986)). x f (x) p 3 1 6 p 1 6 3 0 4 6 (3.36) Podemos demostrar que la variable aleatoria cuya distribución es de…nida por (3.36) tiene momentos que coinciden con los cinco primeros momentos de z~N (0; 1), ya que: 132 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD E (X) = p E X2 = 3 E X2 = E X4 = 9 1 6 p p 1 6 3 +3 3 1 6 1 6 +9 3 3 1 6 1 6 = 1, = 0, p 1 6 3 3 1 6 = 0, = 3, Este ejemplo puede parecer un algo extremo, pero debe servir como una nota de precaución 3.7.4 Momentos centrales superiores La noción de la varianza se puede extender para de…nir los momentos centrales usando la sucesión de funciones h(X) := (X E(X))r ; r = 3; 4; ::: en (3:26): Z 1 r (x )r f (x; )dx; r = 2; 3; ::: r ( ) := E (X ) = 1 En lugar de obtener estos momentos directamente, a menudo es más conveniente obtener los momentos centrales r utilizando su relación con los momentos crudos y ver los cumulantes ( ver Stuart y Ord (1994)): 0 ( 01 )2 , 2 = 2, 2 = 2 0 3 0 0 0 ) , = 3 + 2 ( = 3 3 3, 1 2 1 3 0 0 0 0 0 2 0 4 4 3 1 + 6 2 ( 1) 3 ( 1 ) , 4 = 2 3 ( 02 )2 , 4 = 4 Ejemplos x (i) Para la densidad de Poisson: f (x; ) = e x! , 2 (0; 1), x = 0; 1; 2; :::, ya sabemos que = . De un ejemplo anterior, sabemos que: X (t) = In (mX (t)) = et 1 = Por lo tanto, podemos deducir que: 1+t+ t2 t3 + + 2! 3! 3.7. MOMENTOS 133 r = d dtXr (t) jt=0 = , r = 1; 2; ::: 2 + . 1 = , 2 = , 3 = , 4 = , ) 2 = , 3 = , 4 = 3 (ii) En el caso de que la variable aleatoria X sea normal con densidad (3.31): 0, r impar 0 2 , 3 = 0, 4 = 3 4 , r = r! r 1 = , 2 = , r par (5r!)2(5r) 2 , 3 = 0, 4 = 0, r = 0, r = 5; 6; ::: 1 = , 2 = En analogía directa a la función generatriz de momentos (fgm) la fgm central se de…ne por: r mX (t) := E e(X )t X1 = eX t mX (t) = 1+ r=1 tr , para t 2 ( h; h) , h > 0, r r! siempre que exista. Uno de los los principales usos de los momentos centrales es que se pueden utilizar para darnos una imagen más completa de la forma de la distribución. Mediante la estandarización de los momentos centrales anteriores de…nimos una serie de medidas útiles que nos permiten tener una idea más completa de la posible forma de una función de densidad. La primera característica importante de la forma de una distribución es la de simetría alrededor de un punto dado; a menudo a = E (X). Simetría. Una variable aleatoria X con densidad f (x) se dice que es simétrica alrededor de un punto a si se cumpe la siguiente condición: f (a x) = f (a + x), para todo x 2 RX , o, más generalmente, en términos de la fda FX (x): FX (a x) = FX (a + x) = 1, para todo x 2 RX , El coe…ciente de asimetría El primer índice de la forma, diseñado para darnos una idea acerca de la posible asimetría de una función de densidad alrededor de la media, es el coe…ciente de asimetría de…nido como el tercer momento central estandarizado introducido por Pearson (1895): Simetría: 3 (X) = p 3 3 , ( 2) 1 p 2 NOTE que 2 = [V ar(X)] denota la desviación estándar. Si la distribución es simétrica alrededor de la media entonces, 3 = 0; lo contrario no se cumple! Ejemplo 134 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD En cuanto a la …gura 3.10 podemos ver que la densidad normal (3.10) es simétrica y, por lo tanto 3 = 0; lo mismo ocurre con la densidad uniforme, como se muestra en la …gura 3.12. En la …gura 3.27, sin embargo, podemos ver dos funciones de densidad positivamente sesgadas ( 3 > 0). Ambas representan la misma densidad, la densidad Beta: f (x; ) = x 1 (1 x) B[ ; ] 1 : = ( ; ) 2 R2+ , 0 < x < 1 , para diferentes valores de los parámetros ( ; ), ( = 1; = 4) y ( = 2; = 4). Como se muestra en el apéndice A el coe…ciente de asimetría de la distribución Beta es el siguiente: 3 = 2( ) ( + UNA NOTA DE PRECAUCIÓN: es simétrica! p ( + + 1) p + 2) 3 = 0 no implica que la distribución x 2 1 3 f (x) 0:4 0:5 0:1 (3.37) E(X) = ( 2)(0:4) + 1(0:5) + 3(0:1) = 0; E(X 3 ) = ( 2)3 (0:4) + 1(0:5) + 33 (0:1) = 0. Por lo tanto, 3 = 0 a pesar de que la distribución anterior es claramente no simétrica (ver Romano y Siegel (1986)). Este ejemplo pone de mani…esto la importancia de observar las grá…cas de las distribuciones y no sólo algunas medidas de síntesis; estas últimas no son sustitutos para los grá…cos mismos! Curtosis El coe…ciente de asimetría permite al modelador distinguir entre una distribución simétrica y una distribución no simétrica, pero que aún nos deja con el problema de 3.7. MOMENTOS 135 Figura 3.27 Densidad positivamente sesgada. Figura 3.28 Densidad negativamente sesgada. distinguir entre dos distribuciones simétricas con diferentes formas, tales como las densidades normal y uniforme mostradas en las …guras 3.10 y 3.12. Mirando esas dos grá…cas podemos ver que esas dos densidades son di…eren con respecto a sus picos y a sus colas. La normal tiene un pico en forma de campana, pero la uniforme tiene un pico plano (sin pico!). La normal tiene cola alargada que se extiende a in…nito en ambos lados, pero la uniforme no tiene colas. La intuición sugiere que una manera de distinguir entre ellas es elaborar una medida que mida el apuntamiento en relación a las colas. El coe…ciente de curtosis es tal medida, introducida originalmente por Pearson (1895). La curtosis es una versión estandarizada del cuarto momento central: 136 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Curtosis: 4 (X) = 4 ( 2) 2 . El término proviene de la palabra griega ! que signi…ca curvatura de la columna vertebral y pretende ser una medida de los apuntamiento en relación a la forma de las colas. NOTE que en algunos libros la medida utilizada es ( 4 3) referida a un exceso de curtosis (el cuarto cumulante estandarizado). En el caso de la distribución normal (3.31) 4 = 3, y se conoce como una distribución mesocúrtica; meso viene del griego " o& que signi…ca medio (centro, mitad). En el caso donde la distribución en cuestión tenga un pico más plano que la normal ( 4 < 3), la llamamos platicúrtica, y en el caso de que tenga un pico más puntiagudo que el normal ( 4 > 3), la llamamos leptocúrtica ; plati y lepto provienen de las palabras griegas & y o& que signi…can ancho y delgado, respectivamente; estos términos fueron introducidos por Pearson (1906). Intuitivamente, podemos pensar en el coe…ciente de curtosis como una medida que indica si una distribución simétrica cuando se compara con la normal tiene colas más gruesas y picos más puntiagudos o no. Viendo la densidad normal como una pila en forma de campana hecha de yeso el escultor rasura parte de los hombros y lo agrega a la cola y el pico para producir una distribución leptocúrtica. Ejemplos (i) Leptocúrtica. En la …gura 3.29 comparamos la densidad normal estándar (línea punteada) y una densidad leptocúrtica, la densidad estándar t de Student v = 5: exp f (x; ) = n x 1 + exp con parámetros ( = 0; n o x o 2, =( ; )2R = 0:56) y ( = 0; R+ , x 2 R = 0:628), respectivamente. Como se muestra en el apéndice A el coe…ciente de curtosis de la distribución logística es 4 = 4:2. La …gura 3.32 muestra lo difícil que puede ser distinguir dos distribuciones en los estudios empíricos con sólo echarles un vistaso. 3.7. MOMENTOS 137 Figura 3.29 Densidades normal frente a t de Student normalizada por x. Figura 3.30 Densidades normal frente a t de Student normalizada de modo que V ar (X = 1). (iii) Platicúrtica. En la …gura 3.33 comparamos la densidad normal (en línea de puntos) con una densidad platicúrtica, la tipo Pearson II con v = 3: f (x) = 1 1 2 1 2 [v + 1] 2 +v+1 c x2 1+ 2 vc 1 (v+1) 2 , c x c, c2 := 2 (v + 2) . La densidad normal di…ere de la de Pearson del tipo II en exactamente la forma opuseta de lo que di…ere la t de Student. En particular, (a) las colas de la Pearson II son más delgadas, 138 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD (b) la curvatura de la Pearson II es menos puntiaguda. (iv) En la …gura 3.34 podemos ver la grá…ca de los una densidad simétrica Beta simétrico con parámetros ( = 4; = 0:4): f (x; ) = x 1 (1 x) B[ ; ] 1 , : = ( ; ) 2 R2+ , 0 < x < 1 Figura 3.31 Densidades normal (0; 1) contra logística ( = 0; = 0:56). Figura 3.32. Densidades normal (0; 1) contra logística ( = 0; = 0:628). Figura 3.33 Densidades normal (0; 1) contra Pearson II. Figura 3.34 Densidad Beta ( = 4; = 0:4). 3.7. MOMENTOS 139 140 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Una vez más podemos ver la misma forma de campana igual que en el caso de las densidades normal, t de Student y Pearson tipo II, pero en contraste con la t de Student es platicúrtica ya que: 4 = 3( + + 1) 2 ( + )2 + ( + 2) ( + ( + 3) 6) y por lo tanto para todo = , 4 3. (v) Policúrtica. Considere la distribución potencia exponencial (o error) cuya densidad es: 1 f (x; ) = ( 2 ( 2 +1) e 1+ 2 2 1 x 2 j j ) , =( ; ; )2R R2+ , x 2 R (3.38) Esta es una distribución simétrica con 3 = 0, que incluye las distribuciones normal ( = 1) y Laplace ( = 1) (ver Apéndice A). Además, proporciona una parametrización conveniente del coe…ciente de curtosis, porque anida las tres formas de los curtosis a través del parámetro . En vista del hecho de que: 4 = 52 2 32 2 (a) para = 1, f (x; ) es mesocúrtica, (b) para < 1, f (x; ) es platicúrtica, (c) para > 1, f (x; ) es leptocúrtica (veáse …gura 3.35). (vi) Platicúrtica. Es instructivo volver a la …gura 3.25, donde comparamos una densidad Weibull con parámetros ( = 3:345; = 3:45; = 3) y una densidad normal estándar. Mirando la los grá…cos de las dos densidades es evidente que la distinción entre ellas es bastante difícil. Sin embargo, utilizando el coe…ciente de curtosis descubrimos que la Weibull es platicúrtica ( 4 = 2:71) a diferencia de la normal ( 4 = 3). 3.7. MOMENTOS 141 Figura 3.35 Potencia exponencial: densidad platicúrtica. En conclusión, hay que decir que la utilidad del coe…ciente de curtosis se reduce en el caso de distribuciones no simétricas, ya que no tiene la misma interpretación que en los casos simétricos anteriormente (véase Balanda y MacGillivray (1988)). Antes de proceder a considerar otras características numéricas de las distribuciones, es instructivo discutir la derivación de los momentos en los casos en los que la distribución no implica parámetros desconocidos. Ejemplos (i) Considere la variable aleatoria discreta X, con una densidad como la dada a continuación: x 0 1 2 f (x) 0:3 0:3 0:4 E (X) = 0 (0:3) + 1 (0:3) + 2 (0:4) = 1:1, E (X 2 ) = 02 (0:3) + 12 (0:3) + 22 (0:4) = 1:9, E (X 3 ) = 03 (0:3) + 13 (0:3) + 23 (0:4) = 3:5, E (X 4 ) = 04 (0:3) + 14 (0:3) + 24 (0:4) = 6:7, V ar (X) = [0 1:1]2 (0:3) + [1 1:1]2 (0:3) + [2 1:1]2 (0:4) = 0:69, V ar (X) = E (X 2 ) [E (X)]2 = 1:90 1:21 = 0:69, E (X E (X))3 = [0 1:1]3 (0:3) + [1 1:1]3 (0:3) + [2 1:1]3 (0:4) = 0:108, E (X E (X))4 = [0 1:1]4 (0:3) + [1 1:1]4 (0:3) + [2 1:1]4 (0:4) = 0:7017, 0:108 0:7017 = 1:4785. 3 = (0:83)3 = 0:18843 , 4 = (0:83)4 142 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD ( 3 = 0:1843; 4 = 1:4785). (ii) Considere la variable aleatoria continua X con función de densidad: f (x) = 2x; 0 < x < 1, Z 1 2 2 2x2 dx = x3 j10 = ; 3 3 Z0 1 2 1 E X2 = 2x3 dx = x4 j10 = ; 4 2 Z0 1 2 2 E X3 = 2x4 dx = x5 j10 = ; 5 5 0 1 V ar (X) = E X 2 [E (X)]2 = 2 E (X) = 4 1 = 9 18 Invarianza de la asimetría y curtosis. Concluimos la discusión de los coe…cientes de asimetría y curtosis reiterando que su utilidad se deriva del hecho de que son invariantes a los cambios de localización y escala. Es decir, para cualquier variable aleatoria X cuyos primeros cuatro momentos existan: 3 (X) = 3 (a + bX) y 4 (X) = 4 (a + bX). 3.7.5 Otras características numéricas Es a veces el caso de que para ciertas variables aleatorias, los momentos discutidos anteriormente no tienen sentido. Por ejemplo, en el caso de que la variable aleatoria X indique la religión de una persona: 1 = Cristiana, 2 = Musulmana, 3 = Judia, 4 = Budista, la media y la varianza no tienen mucho sentido. Además, a veces la media y la varianza no existen, como en el caso de la distribución de Cauchy (ver sección siguiente). En estos casos tenemos que considerar otras características numéricas. En v.a. como ”religión”los momentos anteriores no tienen sentido. Además, hay distribuciones (como la de Cauchy) donde no existen la media ni la varianza. En estos casos se requieren otras características númericas. 3.7. MOMENTOS 143 Medidas de localización (1) La moda o valor modal m0 , es aquel valor particular de la variable aleatoria que se corresponde con el máximo de la función de densidad; propuesto por Pearson (1894). Ejemplos (i) Para la función de densidad dada en (3.39) la moda es igual a 2. En el caso en que f (x) es diferenciable la moda puede ser derivado como la solución de: df (x) dx df 2 (x) dx2 = 0 sujeto a < 0: (3.40) x=m0 (ii) Para una variable aleatoria lognormal X con función de densidad: (x ) f (x; ) = 2 1 exp ( 1 (In x 2 2 )2 ) Teniendo en cuenta el hecho de que , := df 2 (x) dx2 ; 2 2R R+ , x 2 R, < 0, la moda de la x=m0 2 densidad es: m0 = exp ( ). En la …gura 3.36 podemos ver la moda de la densidad lognormal LN ( = 1; = 0:7). En la …gura 3.37 podemos ver la moda de la densidad de Cauchy C ( = 0; = 1). (2) La mediana de una variable aleatoria X es aquel valor particular que divide la probabilidad en dos mitades iguales, es decir, corresponde a x 12 (suponiendo que es única) tal que: P x < x 12 0:5 y P x x 21 0:5. En el caso donde la función de distribución es continua y estrictamente creciente, x 12 se de…ne por: F x 12 = 0:5 y x 12 es única. 144 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Figura 3.36 Moda de la densidad lognormal. Figura 3.37. Moda de la densidad Cauchy Ejemplos (i) Para una variable aleatoria normal la mediana coincide con las otras dos medidas de localización: media = mediana = moda. NOTE que para distribuciones simétricas en general, la única igualdad que se cumple es la siguiente: 3.7. MOMENTOS 145 media = mediana. (ii) Para una variable aleatoria lognormal la media está dada por el valor m tal que: Zm 0 x 1 p 2 1 p 2 ( 1 2 exp ( exp In Zm 1 In x 2 1 2 2 y ) dx = 1 , sustituyendo y = In x, 2 ) dx = 1 , esto se cumple para In m = , 2 Por lo tanto, la mediana es: x 21 = e . La mediana de la densidad lognormal se muestra en la …gura 3.36 como el punto en el centro del rectángulo negro = 1; = 7 y por lo tanto x 21 = 2:71828). La mediana es una medida importante de localización, porque a veces la media no existe (véase la distribución de Cauchy abajo), pero la mediana siempre lo hace. Extendiendo la noción de mediana a otros valores en el intervalo [0; 1], no sólo 21 , de…nimos lo que se conoce como un cuantil. (3) Quantiles. El cuantil p-ésimo, denotado por xp , se de…ne como el menor número satisfaciendo la relación: FX (xp ) p, para p 2 [0; 1]. Más formalmente, el cuantil p-ésimo se de…ne por: xp = FX (p) := inf fx : FX (x) x2Rx xp = FX (p) := inf fx : FX (x) x2Rx pg ; para p 2 [0; 1] : (3.42) pg, para p 2 [0; 1]. Como se dijo antes, inf ; es tan solo el glori…cado mínimo. Esta de…nición x2Rx sugiere que en el caso de que la función de distribución acumulada (fda) sea continua y estrictamente creciente, xp es único y se de…ne por: F (xp ) = p. El valor p se conoce como p-ésimo percentil y el valor xp el cuantil correspondiente. Es interesante NOTAR que la noción de cuartil fue introducida por McAlister (1879), la noción de mediana por Galton (1883) y la de percentil por Galton (1885). 146 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Más allá de la mediana hay otros dos cuantiles de especial interés. El cuartil inferior (NOTE la diferencia en el nombre) y el cuartil superior son de…nidos por: x 41 = F (0:25), x 34 = F (0:75). Ejemplos (i) En el caso de la distribución estándar normal (N (0; 1)): x 41 = 0:6745, x 34 = 0:6745. Por lo tanto, para una distribución normal arbitraria (N ( ; 2 )): x 41 = 0:6745 , x 34 = + 0:6745 . (ii) Es bien sabido que la distribución de Cauchy (C( ; )) no tiene momentos. Considere la distribución de Cauchy con fda, cuantiles y funciones de densidad: , F (x; ; ) = 21 + 1 tan 1 x + tan x 21 , 2 R, 2 Rx , x 2 R. 2 , 1+( x ) La función de…nida por (3.42) es interesante por derecho propio y es por eso que vamos a tomar una breve digresión para examinar sus propiedades en algún detalle; ver Karr (1993). Función cuantil. La función de…nida por (3.42) en la forma de: FX (:) : (0; 1) ! Rx se conoce como la función cuantil. En cuanto a la de…nición no es muy difícil ver que FX (:) no es la misma función inversa ordinaria de la fda de distribución FX (:) ya la inversa existe sólo en casos donde FX (:) es uno a uno y sobre, es decir, cuando FX (:) es continua y estrictamente creciente. Ella constituye, sin embargo, una especie de inversa generalizada que existe incluso en los casos donde la función inversa común no existe. Cuando la función inversa ordinaria existe las dos coinciden en el sentido de que: FX (:) = FX (:). Como se ha indicado antes, FX (:) existe incluso en los casos donde FX (:) no es ni continua ni estrictamente creciente. Intuitivamente, FX (:) salta donde FX (:) es plana y FX (:) es plana en los puntos donde FX (:) salta. Debido a su importancia tomamos nota de varias propiedades útiles de la función cuantil: Q1. FX (p) x si y sólo si p FX (x) para todo x 2 Rx y p 2 (0; 1), Q2. FX (:) es creciente y continua a la izquierda, Q3. Si FX (:) es continua, FX FX (p) = p. Ejemplo F 1 (x; ; ) = f (x; ; ) = + 1 3.7. MOMENTOS 147 En las …guras 3.38-3.39 podemos ver la fda de Cauchy F (x; 0; 1) y la función cuantil correspondiente: G (x; 0; 1) := F 1 (x; 0; 1), ( = 0, = 1). Podemos demostrar que: Z Z+ Z 1 1 3 1 1 1 2 dx = 2 , 2 dx = 4 , 2 dx = 4 . 1+( x ) 1+( x ) 1+( x ) 1 1 1 Es decir, la mediana es igual a , el cuartil inferior es igual a y el cuartil superior es igual a ( + ). Estos cuantiles a menudo pueden ser utilizados en lugar de los momentos cuando se utiliza la distribución de Cauchy. En la …gura 3.37 podemos ver los dos cuartiles mostrados con los prqueños triángulos a cada lado de la media. En relación a la función cuantil notemos un resultado muy útil que puede ser ser visto como el inverso de la transformación integral de probabilidad antes mencionada. La inversa de la transformación integral de probabilidad. Para cualquier variable aleatoria continua X, con una fda FX (x) tal que u = FX (x) es invertible y x = FX 1 (x) . a) Para la variable aleatoria U = FX (x): U = FX (x) ~U (0; 1) . Figura 3.38 fda Cauchy ( = 0, (3.43) = 1). Figura 3.39 Función cuantil Cauchy. 148 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD (b) Sea U ~U(0; 1) y de…nir X = FX (U ). Entonces X tiene una distribución con fda FX (:). NOTE que, en contraste con la transformación integral de probabilidad, el resultado de la transformación inversa no asume que F (:) es continua. El resultado anterior proporciona una manera más notable para generar variables aleatorias con una distribución dada. Su utilidad puede ser vista fácilmente en casos donde F (x) es invertible (véase el capítulo 5). Ejemplo Considere el caso donde U ~U(0; 1) y queremos transformarla en una variable aleatoria X exponencialmente distribuida con: FX (x) = 1 e x , x > 0. Utilizando (3.43) junto con la forma especí…ca de F (x), podemos deducir que u = 1 e x , e x = 1 u, x = 1 In (1 u), y por lo tanto: X = FX (u) = 01 In (1 u), u 2 (0; 1). Este resultado se puede utilizar para simular variables aleatorias distribuidas exponencialmente usando variables aleatorias distribuidas uniformemente; véase el capítulo 5. Medidas de dispersión (1) El rango se de…ne como la diferencia entre el mayor y el menor valor que toma la variable aleatoria que se trate, es decir, R (X) := Xmax Xmin . Ejemplo En el caso de la distribución uniforme (U (a; b)): R (X) := Xmax Xmin = b a. (2) El rango intercuartílico, se de…ne como la diferencia entre los cuar- 3.7. MOMENTOS 149 tiles inferior y superior: RIQ := x 3 x 1 . 4 4 Ejemplos (i) En el caso de la distribución normal (N ( ; 2 )): RIQ := x 3 x 1 = + 0:6745 + 0:6745 = 2 (0:6745) . 4 4 En la …gura 3.40 podemos ver la fda normal para N (0; 1) con los cuantiles siguientes: q x F (x) f (x) x0:05 1:645 0:05 0:103 x0:25 0:6745 0:25 0:318 x0:75 0:6745 0:75 0:318 x0:95 1:645 0:95 0:103 En la …gura 3.41 podemos ver estos cuantiles en relación con la function de densidad.NOTE que el máximo de la función de densidad es justamente p1 = 0:39894 . 2 (ii) En el caso de la distribución de Cauchy considerada anteriormente, podemos ver fácilmente que: RIQ := ( + ) ( )=2 . Este puede ser usado como una medida de dispersión ya que la varianza no existe. (3) La desviación cuartil, se de…ne como la mitad del rango intercuartílico, es decir: q (X) := 21 x 3 x 1 . 4 4 Figura 3.40 fda normal: cuantiles. 150 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD Figura 3.41 Densidad normal: cuantiles. Ejemplos (i) Para la distribución normal N ( ; (0:6745) . 2 1 2 ): q (X) := (ii) Para la distribución de Cauchy C ( ; ): q (X) := 1 2 x3 4 x3 4 x1 4 x1 4 = = . (4) El coe…ciente de variación, propuesto por Pearson (1896), se de…ne como el cociente de la desviación estándar respecto a la media de la variable aleatoria que se trate, es decir, cv (X) := . 3.8 Desigualdades Un capítulo muy importante de la teoría de la probabilidad es el de las desigualdades probabilísticas. La función principal de estas desigualdades es proporcionar cotas superiores e inferiores para la evaluación de las probabilidades asociadas con variables aleatorias mediante la utilización de sus momentos. En cierto modo estas desigualdades nos proporcionan formas para dejar de lado la distribución de ciertas variables aleatorias, pero todavía en una posición para hacer a…rmaciones probabilísticas relativas a estas variables aleatorias; ver Shiryayev (1984), Karr (1993) y Loeve (1963). Desigualdad general de Chebyshev. Sea X (:) : S !Rx := (0; 1) una variable aleatoria positiva y sea g(:) : (0; 1) ! (0; 1) una función positiva y creciente. Entonces, para todo " > 0; 3.8. DESIGUALDADES 151 P (g (X) E [g (X)] g (") ") (3.44) Tomemos nota de que la desigualdad de Chebyshev encontrada anteriormente es un caso especial de (3.44). Otros casos especiales, se indican a continuación. NOTE en primer lugar que no existe una terminología estándar para estas desigualdades. Desigualdad de Markov. Sea X una variable aleatoria tal que E (jXjp ) < 1; para p > 0 : E [jXjp ] : P (jXj ") "p La conocida frase de que "no hay comida gratis" se puede ilustrar usando esta desigualdad para demostrar que al postular la existencia de los momentos superiores podemos mejorar la cota superior. Ejemplo Sea fXn g1 n=0 := fX1 ; X2 ; :::; Xn ; :::g una sucesión de variables aleatorias Bernoulli independientes e idénticamente distribuidas (IID) . Se puede demostrarX que: n Xk ~Bi (n ; n (1 )). Sn := k=1 Usando la desigualdad de Chebyshev obtenemos: P n 1 Sn (1 ) . 2 n" >" Por otro lado, utilizando la desigualdad de Markov para el cuarto momento: P jY 4 E (Y )j > " señalando que E jn 1 Sn 4 j E jY E (Y )j4 "4 = n [1 + 3 (1 ) (n . 2)] proporciona 3 . 16n2 "4 Como puede verse, la estimación de la cota superior dada por la desigualdad de Markov es menos crudo, ya que utiliza más información en relación con la existencia de momentos. P n 1 Sn >" 152 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD La desigualdad de Bernstein. Sea X (:) : S ! Rx := (0; 1) una variable aleatoria positiva tal que E etX < 1 para algún t 2 [0; c], c > 0: P (X ") E etX etX inf e 0 t c tX E etX . Desigualdad de Jensen. Sea ' (:) : R ! R una función convexa, es decir: ' (x) + (1 ) ' (y) ) (y)) , ' ( (x) + (1 2 (0; 1) ; x; y 2 R. Suponiendo que (E(jXj)) < 1, entonces: ' (E (X)) E (' (X)). Esta desigualdad se puede utilizar para obtener toda una serie de desigualdades. Desigualdad de Holder. Sean X, Y variables aleatorias tales que E(jXjp ) < 1 y E(jXjp ) < 1, donde 1 < q < 1, 1 < p < 1, p1 + 1q = 1, entonces: 1 1 E(jXjp ) p E(jY jq ) q . E (X Y ) Desigualdad de Minkowski. Sean X, Y variables aleatorias tales que E(jXjp ) < 1 y E(jXjp ) < 1, donde 1 < p < 1, entonces: 1 E (jX + Y jp ) p 1 1 E(jXjp ) p E(jY jp ) p . Las desigualdades anteriores se utilizan ampliamente en el contexto de los teoremas límite considerados en el capítulo 9. 3.9 Resumen El objetivo básico de este capítulo ha sido la transformación del abstracto espacio de probabilidad (S; =; P (:)) en un modelo de probabilidad operacional. El resultado …nal es una familia de densidades indexadas por un pequeño número de parámetros desconocidos: = ff (x; ); 2 ; x 2 RX g : 3.10. EJERCICIOS 153 Esta es la base del fundamento del marco de referencia matemático sobre el que será construida la modelizacióny la inferencia estadística. Siendo los elementos básicos del modelo de probabilidad (i) la función de densidad, cuyas formas resultarán importante en la modelación, (ii) el espacio de parámetros que también juega un papel importante en la inferencia estadística y (iii) el soporte de la densidad. Todos estos tres elementos juegan un papel importante en la elección de un modelo de probabilidad adecuado. En vista del hecho de que las formas distribucionales dependen fundamentalmente de los parámetros desconocidos, nos gustaría de alguna manera evaluar las formas sugeridas por los datos observados antes de elegir el modelo de probabilidad adecuado, sin tener que conocer los parámetros. En primer lugar podemos utilizar técnicas estadísticas descriptivas, tales como el histograma, así como calcular características de los datos observados, tales como la media aritmética. Como se muestra en el capítulo 5 éstas están directamente relacionadas con las formas distribucionales adoptadas por las funciones de densidad y los llamado momentos de la distribución. Esa es la razón por la que hicimos una digresión para hablar de los momentos de una distribución y cómo se relacionan con los parámetros. La relación entre los parámetros desconocidos del modelo de probabilidad y los momentos de la distribución en cuestión viene dada por: r E(X ) = Z 1 xr f (x; )dx =gr ( ) ; r = 1; 2; ::: 1 Los conceptos introducidos en esta digresión resultarán indispensable para los …nes de la modelación, ya que representan elementos esenciales del fundamento. En el siguiente capítulo consideramos la metamorfosis del abstracto espacio muestral GnIID en un modelo muestral operacional en términos de variables aleatorias: un conjunto de variables aleatorias X := (X1 ; X2 ; :::; Xn ), con una estructura probabilística especí…ca. 3.10 Ejercicios 1. Explique por qué el abstracto espacio de probabilidad no es conveniente para los propósitos de la modelación. 2. (a) "Una variable aleatoria ni es variable ni es aleatoria". Discuta. 154 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD (b) "El concepto de una variable aleatoria es un concepto relativo". Discuta. (c) Explicar la diferencia entre la inversa y la preimagen de una función. 3. Considere el experimento aleatorio de lanzar dos dados y contar el número total de puntos que aparecen en las caras superiores. La variable aleatoria X toma el valor 0 cuando el número total de puntos es impar y 1 cuando el número total de puntos es par. (a) Derive la función de densidad de la variable aleatoria X asumiendo que los dos dados son simétricos. (b) Derive la función de densidad de la variable aleatoria X asumiendo que los dos dados no son simétricos. 4. Discuta la diferencia entre las siguientes funciones conjunto probabilidad en términos de su dominio: P (X x) = PX 1 (( 1; x]) = PX (( 1; x]). 5. En el caso del experimento aleatorio de "lanzar una moneda dos veces": S = f(HH); (HT ); (T H); (T T )g, = = fS; ?; A; Ag, donde A = f(HH); (HT ); (T H)g. Considere las siguientes funciones: (i) X(HH) = 1; X(HT ) = 2; X(T H) = 2; X(T T ) = 1, (ii) Y (HH) = 1; Y (HT ) = 0; Y (T H) = 0; Y (T T ) = 0, (iii) Z(HH) = 1; Z(HT ) = 1; Z(T H) = 1; Z(T T ) = 7405926. (a) ¿Cuáles de las funciones (i) - (iii) constituyen variables aleatorias con respecto a =? (b) Para las funciones que no son variables aleatorias con respecto a =, de…na el espacio de eventos generados por ellas. 6. Compare y contraste los conceptos de una variable aleatoria simple y una variable aleatoria general. 7. Describa brevemente la metamorfosis del espacio de probabilidad (S; =; P (:)) en un modelo de probabilidad de la forma: = ff (x; ); 2 ; x 2 RX g. Explique la relación entre los componentes del espacio de probabilidad y el modelo de probabilidad. 8. Explique los componentes principales de un modelo de probabilidad genérico de la forma: 3.10. EJERCICIOS 155 = ff (x; ); 2 ; x 2 RX g. 9. ¿Por qué nos preocupamos por los momentos de una distribución? ¿Cómo los momentos proporcionar una forma de interpretar los parámetros desconocidos? 10. La función de densidad de la distribución exponencial es: f (x; ) = e x , > 0; x > 0. (a) Derive su media y varianza. (b) Derive su moda. 11. Considere la función: f (x) = 140 x3 (1 x)3 ; 0 < x < 1. (a) Demuestre que esta es realmente una función de densidad propia para una variable aleatoria X. (b) Derive la media, moda, varianza y curtosis de X. 12. Considere la variable aleatoria discreta X cuya distribución es la siguiente: x 1 0 1 f (x) 0:2 0:4 0:4 (a) Derive su media, varianza y coe…cientes de asimétria y curtosis. (b) Derive su moda y coe…ciente de variación. 13. (a) Exprese las propiedades de una función de densidad. (b) Contraste las propiedades de los operadores valor esperado y varianza. (c) Sean X1 y X2 dos variables aleatorias independientes con la misma media y varianza 2 .Derive la media y la varianza de la función: Y = 13 X1 + 23 X1 . 14. Explique cómo las propiedades de la varianza son determinadas en realidad por las del operador media. 15. Explique cómo la función generatriz de momentos se puede utilizar para obtener los momentos. 16. Explique el concepto de asimetría y discuta por qué = 3 no implica que la distribución en cuestión es simétrica. 17. Explique el concepto de curtosis y discuta por qué es de valor limitado cuando la distribución no es simétrica. 18. Para una distribución de Weibull con parámetros ( = 3:345; = 3:45) obtenga el coe…ciente de curtosis usando las fórmulas en el apéndice A. 19. Explique por qué los momentos de coincidencia (matching moments) entre dos distribuciones puede llevar a conclusiones erróneas. 156 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD 20. Compare y contraste la función de distribución acumulativa (fda) y la función cuantil. Explique por qué la función cuantil no siempre es la inversa de la fda. 21. Explique los conceptos de un percentil y un cuantil y cómo se relacionan. 22. ¿Por qué nos interesan las desigualdades probabilísticas? 23. "Los momentos no caracterizan las distribuciones en general, y cuando lo hacen a menudo necesitamos de un número in…nito de momentos para la caracterización ". Discuta. 24. Explique la integral de probabilidad y la transformación integral de probabilidad inversa. ¿Qué utilidad puede tener en la simulación de variables aleatorias no uniformes? Apéndice A. Modelos univariados de probabilidad El propósito de este apéndice es resumir los modelos de probabilidad más útiles y sus parametrizaciones, sus momentos y otras características numéricas para …nes de referencia. FALTA INCLUIR MODELOS. Capítulo 4 El concepto de muestra aleatoria 4.1 4.1.1 Introducción Objetivo principal de este capítulo El objetivo principal de este capítulo es completar la metamorfosis del espacio estadístico simple en un modelo estadístico simple que se inició en el capítulo anterior. En el capítulo 3 convertimos el primer componente, el espacio de probabilidad, en un modelo de probabilidad. En este capítulo procedemos a convertir el segundo componente, el espacio muestral, en un modelo muestral. La metamorfosis involucra dos de los conceptos más importantes de la teoría de la probabilidad: Independencia y Distribución Idéntica. Al concluir la metamorfosis llegamos a uno de nuestros principales objetivos intermedios, la formulación de un modelo estadístico simple, que constituye la forma más sencilla de un modelo estadístico. Este último es la piedra angular sobre la que vamos a construir tanto la modelización empírica como la inferencia estadística. Como se mencionó en el capítulo 1, lo que distingue a la modelización empírica de otras formas de modelización es el uso de datos observados en conjunción con modelos estadísticos. Será muy difícil exagerar la importancia del concepto de modelo estadístico en el contexto de la modelización con datos no experimentales. Esto se debe a que la elección de un modelo estadístico, cuando se modela con datos no experimentales, es el aspecto más difícil del problema y por lo tanto se necesita un exhaustivo y profundo entendimiento de los conceptos involucrados. Este 157 158 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA entendimiento concierne tanto a los aspectos probabilísticos (matemáticos), como a la dimensión intuitiva que se relaciona a los datos observados. 4.1.2 La historia hasta ahora En el capítulo 2 iniciamos la formalización de un mecanismo aleatorio simple genéricamente conocido como un experimento aleatorio especi…cado por las siguientes condiciones: [a] todos los posibles distintos resultados se conocen a priori, [b] en cualquier prueba particular los resultados no se conocen a priori pero existe una regularidad perceptible de ocurrencia asociada con esos resultados y [c] el experimento aleatorio se puede repetir bajo idénticas condiciones. La primera formalización en el capítulo 2 tomó la forma de un espacio estadístico simple: [i] espacio de probabilidad simple: (S; =; P (:))n , [ii] espacio muestral simple: GnIID := fA1 ; A2 ; :::; An g. Esta formalización, aunque adecuada para propósitos matemáticos, es demasiado abstracta para los propósitos de la modelización. En un intento por transformarla en algo más adecuado para el análisis de datos numéricos, hemos usado el concepto de variable aleatoria para transformar el espacio de probabilidad en un modelo de probabilidad: espacio de probabilidad (S; =; P (:)) modelo de probabilidad = ff (x; ); 2 ; x 2 RX g, donde denota un conjunto de funciones de densidad f (x; ), indexadas por algún parámetro(s) desconocido(s) : este último tomando valores en (ver capítulo 3). 4.1.3 De pruebas aleatorias a una muestra aleatoria: a primer punto de vista Como argumentamos en el capítulo 2, un espacio muestral simple GnIID := fA1 ; A2 ; :::; An g, es un conjunto de pruebas aleatorias que satisface las siguientes condiciones: Independiente (I): P(n) (A1 \ A2 \; :::; \Ak ) = Yk i=1 Pi (Ai ) ; para cada k = 2; 3; :::; n; (4.1) 4.1. INTRODUCCIÓN Idénticamente Distribuido (ID): P1 (:) = P2 (:) = 159 = Pn (:) = P (:) : (4.2) Independencia se relaciona con la condición de que "el resultado de una prueba no afecta y no es afectado por el resultado de cualquier otra prueba" o, equivalentemente: P(n) (Ak jA1 ; A2 ; :::; Ak 1 ; Ak+1 ; :::; An ) = Pk (Ak ) , para cada k = 1; 2; :::; n (4.3) La condición ID tiene que ver con el "mantenimiento de la misma estructura probabilística de una prueba a otra"; las probabilidades asociadas a los diferentes resultados siguen siendo las mismas para todas las pruebas. Armados con el concepto de variable aleatoria, ahora consideramos la metamorfosis del abstracto concepto de espacio muestral simple en algo relacionado con las variables aleatorias. Observando la de…nición de pruebas aleatoria (4.1) - (4.2), podemos ver que la condición de Independencia se de…ne en términos de las funciones conjunto de probabilidad P(n) (:) y P(k) (:) que pertenecen a los espacios de probabilidad S(n) ; =(n) ; P(n) y S(k) ; =(k) ; P(k) , respectivamente. Las di…cultades que hay que enfrentar en la transformación de las pruebas aleatorias fA1 ; A2 ; :::; An g en un conjunto de variables aleatorias X(n) := (X1 ; X2 ; :::; Xn ), tienen que ver con la de…nición de conceptos equivalentes a P(n) (:) y P(k) (:) en términos de variables aleatorias. El concepto que corresponde a las funciones conjunto P(n) (:), es la llamada función de distribución conjunta y la correspondiente a P(k) (:), es la llamada función de distribución marginal. Utilizando estas dos nociones podemos de…nir el concepto de muestra aleatoria: un conjunto de variables aleatorias Independientes e Idénticamente Distribuidas (IID). El nuevo concepto básico necesario para la formalización de ambas nociones es el de función de distribución conjunta. 4.1.4 Una vista panorámica del capítulo En la sección 2 introducimos la noción de distribución conjunta usando el caso de dos variables para …nes expositivos. En la sección 3 relacionamos la noción de distribución conjunta con la de distribución marginal introducida en el capítulo anterior, haciendo hincapié en el hecho de que la primera implica a menudo más información que las distribuciones marginales asociadas 160 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA a ella. En la sección 4 introducimos el concepto de distribución condicional y lo relacionamos con las distribuciones conjunta y marginal. Las nociones de condicionalidad y momentos condicionales jugarán un papel muy importante en las discusiones que siguen. En la sección 5 de…nimos el concepto de independencia usando la relación entre las distribuciones conjunta, marginal y condicional. En la sección 6 de…nimos el concepto de Idénticamente Distribuido en términos de las distribuciones marginales. Armados con los conceptos de Independencia y de Distribución Idéntica procedemos a de…nir el concepto de muestra aleatoria en la sección 7. Antes de completar la metamorfosis de un espacio estadístico simple en un modelo estadístico simple, en la sección 10 hacemos una digresión importante. En la sección 8 introducimos el concepto de función de variables aleatorias y su distribución como un preludio a la discusión del concepto de muestra aleatoria ordenada en la sección 8. La noción de función de variables aleatorias es crucial en el contexto de la inferencia estadística: la inmensa mayoría de las cantidades de interés en la inferencia estadística (estimadores, estadísticos de prueba, predictores) son funciones tales. El concepto de muestra ordenada es importante en el presente contexto, porque una simple reordenación de una muestra aleatoria proporciona una muestra no aleatoria! El concepto de muestra ordenada también juega un papel importante en la inferencia estadística. 4.2 Distribuciones conjuntas El concepto de distribución conjunta es sin duda una de las nociones más importantes tanto de la teoría de la probabilidad como de la inferencia estadística. Al igual que en el caso de una sola variable aleatoria, la discusión procederá a introducir el concepto del caso más simple al caso más general. En este contexto, simple se re…ere al caso de conjuntos de resultados numerables que dan lugar a variables aleatorias discretas. Después de introducir las ideas básicas en este contexto simpli…cado procedemos a discutirlas en su plena generalidad. 4.2.1 Variables aleatorias discretas Para comprender el concepto de conjunto de variables aleatorias (un vector aleatorio), consideremos en primer lugar el caso de dos variables aleatorias, ya que su extensión a un número mayor de variables aleatorias es simple, en 4.2. DISTRIBUCIONES CONJUNTAS 161 principio, pero complicada en términos de notación. Vector aleatorio. Considerar las dos variables aleatorias simples X(:) y Y (:) de…nidas en el mismo espacio de probabilidad (S; =; P (:)), es decir, X(:) : S !R tal que X 1 (x) 2 =, para todo x 2 R; Y (:) : S !R tal que Y 1 (y) 2 =, parat todo y 2 R: NOTA: recordamos al lector que Y 1 (y) = fs : Y (s) = y; s 2 Sg representa la preimagen de la función Y (:) y no su imagen inversa. Viéndolas por separado podemos de…nir sus funciones de densidad individuales, como se explicó en el capítulo anterior, de la siguiente manera: P (s : X (s) = x) = fx (x) > 0; x 2 RX ; P (s : Y (s) = y) = fy (y) > 0; y 2 RY ; donde RX y RY representan el soporte de las funciones de densidad de X y Y . Considerándolas juntas podemos pensar de cada par (x; y) 2 RX RY fs : X(s) = x; Y (s) = yg := fs : X(s) = xg\fs : Y (s) = yg ; (x; y) 2 RX RY , En vista del hecho de que el espacio de eventos = es un -campo, y, por lo tanto, cerrado bajo intersecciones, el mapeo: Z (:; :) := (X (:) ; Y (:)) : S !R2 es un vector aleatorio ya que la preimagen de Z (:) pertenece al espacio de eventos = : Z 1 (x; y) = X 1 (x) \ Y 1 (y) 2 =; ya que, X 1 (x) 2 = y Y 1 (y) 2 =, por de…nición (veáse Spanos, (1986)). Densidad conjunta. La función de densidad conjunta se de…ne por: f (:; :) : RX RY ! [0; 1] ; f (x; y) = P fs : X(s) = x; Y (s) = yg ; (x; y) 2 RX RY . 162 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Ejemplo Consideremos el caso del experimento aleatorio de lanzar una moneda no trucada dos veces, dando lugar al conjunto de resultados: S = f(HH); (HT ); (T H); (T T )g. De…namos las variables aleatorias X (:) e Y (:) en S de la siguiente manera: X (HH) = X(HT ) = X (T H) = 1; X (T T ) = 0; Y (HT ) = Y (T H) = Y (T T ) = 1; Y (HH) = 0: Podemos construir las funciones de densidad individuales de la siguiente manera: x 0 1 f (x) 0:25 0:75 y 0 1 f (y) 0:25 0:75 ((4.4)) Para de…nir la función de densidad conjunta es necesario especi…car todos los eventos de la forma: (X = x; Y = y) ; x 2 RX ; y 2 RY , y luego asignar probabilidades a estos eventos. Habida cuenta que: (X (X (X (X = 0; = 0; = 1; = 1; Y Y Y Y = 0) = 1) = 0) = 1) = = = = fg = ;; f (x = 0; y = 0) = 0:00; f(T T )g ; f (x = 0; y = 1) = 0:25; f(HH)g ; f (x = 1; y = 0) = 0:25; f(HT ) ; (T H)g ; f (x = 1; y = 1) = 0:50: Es decir, la densidad conjunta toma la forma: ynx 0 1 0 1 0:00 0:25 0:25 0:50 ((4.5)) Si comparamos esta densidad conjunta (4.5) con las densidades univariadas (4.4), no existe una relación evidente, pero como se muestra a continuación, esto es engañoso. Como argumentamos en el siguiente capítulo, la diferencia entre la probabilidad conjunta f (x; y), x 2 RX ; y 2 RY y el producto de las probabilidades individuales (f (x) f (y)) para x 2 RX ; y 2 RY , 4.2. DISTRIBUCIONES CONJUNTAS 163 re‡eja la dependencia entre las variables aleatorias X e Y . En esta etapa es fundamental tener en cuenta que una característica muy importante de la función de densidad conjunta f (x; y), es que proporciona una descripción general de la dependencia entre X e Y . Antes de proceder a examinar el caso de variables aleatorias continuas es instructivo considerar un caso particularmente simple de una función de densidad discreta de dos variables. Ejemplo El ejemplo anterior es un caso particular de una bien conocida distribución discreta conjunta, la distribución de Bernoulli dada a continuación: ynx 0 1 0 1 p (0; 0) p (1; 0) p (0; 1) p (1; 1) ((4.6)) donde p(i; j) denota la probabilidad conjunta para X = i y Y = j, i; j = 0; 1. La densidad conjunta de Bernoulli toma la forma: f (x; y) = p (0; 0)(1 4.2.2 y)(1 x) p (0; 1)(1 y)x p (1; 0)y(1 x) p (1; 1)xy ; x = 0; 1, y = 0; 1: Variables aleatorias continuas En el caso donde el conjunto de resultados S no es numerable, las variables aleatorias de…nidas en él se dice que son continuas, porque su rango de valores es un intervalo en la recta real R. Vector aleatorio. Considere las dos variables aleatorias continuas X(:) y Y (:) de…nidas en el mismo espacio de probabilidad (S; =; P (:)), es decir, X (:) : S !R; tal que X X (:) : S !R; tal que Y 1 1 (( 1; x]) 2 =; para todo x 2 R; (( 1; y]) 2 =; para todo y 2 R: Visualizándolas por separado podemos de…nir sus funciones de distribución acumulada (fda) (ver capítulo 3), de la siguiente manera: P (s : X(s) P (s : X(s) x) = P X y) = P Y 1 1 ( 1; x] = PX (( 1; x]) = FX (x); x 2 R; ( 1; y] = PY (( 1; y]) = FY (y); y 2 R: 164 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Visualizándolas juntas podemos asociar a cada par (x; y) 2 R R eventos de la forma: fs : X(s) x; Y (s) yg := fs : X(s) yg ; (x; y) 2 R R. xg\fs : Y (s) Al igual que en el caso de variables aleatorias discretas, ya que = es un campo (cerrado bajo intersecciones) el mapeo: Z (:; :) := (X (:) ; Y (:)) : S !R2 ; constituye un vector aleatorio; la preimagen de Z(:): Z 1 (( 1; x] ( 1; y]) = X 1 (( 1; x]) \ Y 1 (( 1; y]) 2 =; dado que (X 1 (( 1; x])) 2 = y (Y 1 (( 1; y])) 2 = por de…nición. La función de distribución acumulada conjunta (fda) se de…ne por: FX;Y (:; :) : R2 ! [0; 1] ; FXY (x; y) = P fs : X(s) yg = PXY (( 1; x] x; Y (s) ( 1; y]) ; (x; y) 2 R2 : La fda conjunta también se puede de…nir en los intervalos de la forma (a; b]: P fs : x1 < X(s) x2 ; y1 < Y (s) y2 g = F (x2 ; y2 ) F (x1 ; y2 ) F (x2 ; y1 )+F (x1 ; y1 ) : La función de densidad conjunta, asumiendo que f (x; y) se de…ne a través de: Z x Z y F (x; y) = f (u; v)dudv: 1 0 existe, 1 NOTE que los subíndices a menudo se omiten cuando no hay posibilidad de confusión. En el caso en el que F (x; y) sea diferenciable en (x; y) podemos derivar la densidad conjunta por diferenciación parcial: 4.2. DISTRIBUCIONES CONJUNTAS 165 @ 2 F (x; y) f (x; y) = ; en todos los puntos de continuidad de f (x; y): @x@y Ejemplo Sea la fda conjunta la de la distribución exponencial bivariada: F (x; y) = 1 e x y e +e x y @ 2 F (x; y) =e ; ) f (x; y) = @x@y x y ;x 0; y 0: En el caso de variables aleatorias continuas podemos pensar en la densidad conjunta como estando de…nida en un intervalo de la forma (x < X x + dx, y < Y de la siguiente manera: P (x < X x + dx, y < Y y + dy) = f (x; y) dxdy. Por lo tanto, como en el caso univariado (ver capítulo 3), la función de densidad conjunta toma valores mayores de uno, es decir, f (:; :) : R R ! [0; 1) : En analogía directa con el caso univariado, la función de densidad conjunta tiene que satisfacer ciertas propiedades: [bf1] Rf (x;Ry) 0; para todo (x; y) 2 RX RY ; 1 1 [bf2] 1 1 f (x; y)dxdy = 1; Ra Rb [bf3] FX;Y (a; b) = 1 1 f (x; y)dxdy; 2 F (x;y) ; en todos los puntos de continuidad de f (x; y): [bf4] f (x; y) = @ @x@y NOTA: en el caso discreto todas las anteriores integrales se convierten en sumatorias sobre todos los valores de X y Y , es decir, para x1 < x2 < < xn < yPy1 <P y2 < < yn < . 1 [bf2] 0 1 i=1 j=1 f (xi ; yi ) = 1; P P 0 [bf3] F (xk ; ym ) = ki=1 m i=1 f (xi ; yj ). Ejemplos (i) Una importante distribución discreta de dos variables, es la binomial cuya densidad toma la forma: f (x; y; ) = n! x!y! (n x y)! x y 1 2 (1 1 n x y 2) , i 2 [0; 1] , i = 1; 2, y + dy) 166 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA : = ( 1; 2 ), n es un entero tal que x + y n, x; y = 0; 1; 2; :::; n. (ii) La más importante distribución continua de dos variables es el Normal, cuya densidad toma la forma: (1 f (x; y; ) = p 2 2 ) 1 2 exp 11 22 ( 1 2) 2 (1 " y p 2 1 11 2 y p 1 11 x p (4.7) 2 R2+ donde := ( 1 ; 2 ; 11 ; 22 ; ) 2 R [ 1; 1] ; x 2 R; y 2 R. En vista de su complejidad evidente, la densidad bivariada dada en (4.7), a menudo se denota por: Y X 1 ~N , 2 11 12 21 22 p donde 12 := 11 22 . Un caso especial de esta distribución, conocida como normal estándar bivariada, se de…ne cuando los parámetros toman los valores: 1 = 2 = 0; 11 = 22 = 1: Su función de densidad tiene la forma simpli…cada: f (x; y; ) = 2 1 p 1 2 exp 1 2 (1 2) x2 2 xy + y 2 . Esta densidad con := (0; 0; 1; 1; 0:2) se muestra en la …gura 4.1. Los detalles de la forma de campana de la super…cie pueden ser vistos en los contornos añadidos que pueden ser vistos intuitivamente como las líneas que obtenemos cortando la super…cie a diferentes alturas. Algunas otras distribuciones de dos variables se listan en el apéndice B. 2 22 + x p 2 22 4.2. DISTRIBUCIONES CONJUNTAS 167 Figura 4.1 Densidad normal bivariada super…cie con contornos insertados. 4.2.3 Momentos conjuntos Al igual que en el caso de las distribuciones univariadas la mejor manera de interpretar los parámetros desconocidos es a través de los momentos. En analogía directa con el caso univariado, de…nimos los momentos conjuntos producto de orden (k; m) por: 0 km = E X k Y m , k; m = 0; 1; 2; :::; y los momentos conjuntos centrales de orden (k; m) se de…nen por: n o k m = E (X E (X)) (Y E (Y )) , k; m = 0; 1; 2; :::; km Los dos primeros momentos conjunto producto y conjunto central son: 0 10 0 01 0 20 0 02 0 11 = = = = = E (X) , 10 = 0, E (Y ) , 01 = 0, 2 E (X) + V ar (X) , 20 = V ar (X) , 2 E (Y ) + V ar (Y ) , 02 = V ar (Y ) , E (XY ) , E (X)) (Y E (Y ))] . 11 = E [(X El más importante y ampliamente utilizado momento conjunto es la covarianza, de…nida por 11 := Cov (X; Y ) = E f[X E (X)] [(Y E (Y ))]g (4.10) 168 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Ejemplos (i) Considerar la distribución normal conjunta cuya densidad está dada en (4.7). Sabemos del capítulo 3 que los parámetros ( 1 ; 2 ; 11 ; 22 ) corresponden a los momentos: 1 = E (Y ) , 2 = E (X) , 11 = V ar (Y ) , 22 = V ar (X) . El parámetro adicional 12 resulta ser la covarianza entre las dos variables aleatorias, es decir: 12 := Cov (X; Y ). (ii) Vamos a obtener la covarianza entre X y Y , con la densidad conjunta dada a continuación: ynx 0 1 2 fY (y) 0 0:2 0:2 0:2 0:6 2 0:1 0:1 0:2 0:4 fX (x) 0:3 0:3 0:4 1 En primer lugar, tenemos que obtener los momentos de las distribuciones univariadas: E(X) := 0 (0:3) + 1 (0:3) + 2 (0:4) = 1:1; E(Y ) := 0 (0:6) + 2 (0:4) = 0:8; V ar(X) := [0 1:1]2 (0:3) + [1 1:1]2 (0:3) + [2 1:1]2 (0:4) = 0:69; V ar(Y ) := [0 0:8]2 (0:6) + [2 0:8]2 (0:4) = 0:96; Utilizando estos momentos procedemos a derivar la covarianza: Cov(X; Y ) = E f[X E (X)] [Y E (Y )]g = [0 1:1] [0 0:8] (0:2) + [0 1:1] [2 0:8] (0:1) + [1 1:1] [0 0:8] (0:2) + [1 1:1] [2 0:8] (0:1)) + [2 1:1] [0 0:8] (0:2) + [2 1:1] [2 0:8] (0:2) = 0:12. Propiedades de la covarianza: c1.Cov (X; Y ) = E (XY ) E(X) E(Y ); c2. Cov (X; Y ) = Cov (Y; X) ; c3. Cov (aX + bY; Z) = aCov (X; Y ) + bCov(Y; Z); para (a; b) 2 R2 . La primera propiedad muestra la relación entre los momentos centrales conjuntos y crudos para k = m = 1. La covarianza es igual al primer momento conjunto producto E(XY ) menos el producto de las dos medias. 4.2. DISTRIBUCIONES CONJUNTAS 169 La segunda propiedad se re…ere a la simetría de la covarianza con respecto a las dos variables aleatorias involucradas. La tercera propiedad se deduce directamente de la linealidad del operador esperanza E (:). Vamos a comprobar c1 usando el ejemplo anterior. En vista del hecho de que: E (XY ) = (0) (0) (0:2)+(0) (2) (0:1)+(1) (0) (0:2)+(1) (1) (0:1)+(2) (0) (0:2)+(2) (2) (0:2) = 1:0, podemos concluir que Cov (X; Y ) = 1:0 (1:1) (0:8) = 0:12, lo cual con…rma el valor anterior de Cov (X; Y ). Una digresión. Es interesante notar que usando la covarianza, podemos extender la propiedad V2 de la varianza (ver capítulo 3), al caso en el cual las dos variables no sean independientes. En el caso de dos variables aleatorias X y Y arbitrarias: V ar (aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X; Y ). En el caso de que la variables aleatorias X e Y sean independientes, Cov(X; Y ) = 0 (pero lo contrario no es cierto en general) y la relación anterior se reduce a la que vimos en el capítulo 3: V ar (aX + bY ) = a2 V ar(X) + b2 V ar(Y ). Los momentos conjuntos tercero y cuarto son también de interés porque, como en el caso univariado, se pueden utilizar para evaluar la simetría y la forma de la distribución conjunta. Las fórmulas, sin embargo, muy rápido se vuelven demasiado complicadas. Para …nes de referencia vamos a considerar los coe…cientes de asimetría y de curtosis de una distribución de dos variables en el caso donde (X; Y ) no están correlacionadas, es decir, 11 = 0, 20 = V ar (X), 02 = V ar (Y ). 2 2 2 2 Asimetría: 3 (X; Y ) = 230 + 203 + 3 2 21 + 3 212 , 20 Curtosis: 4.2.4 4 (X; Y ) = 40 2 40 + 02 04 2 02 + 2 20 02 22 20 02 20 02 . El caso de n variables aleatorias Hasta ahora hemos discutido la extensión del concepto de variable aleatoria a un vector aleatorio de dos dimensiones. Resulta que no surgen di…cultades adicionales en la extensión de la noción de variable aleatoria para el caso n variables X(:) := (X1 (:) ; X2 (:) ; :::; Xn (:)): 170 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA X(:) : S !Rn , donde Rn := R R R representa el producto Cartesiano de la línea real (ver capítulo 2). La función de n variables X(:) se dice que es un vector aleatorio con respecto a = si: X(:) : S !Rn ; tal que X 1 (( 1; x]) 2 =; para todo x 2 Rn , donde x := (x1 ; x2 ; :::; xn ) y ( 1; x] := ( 1; x1 ] ( 1; x2 ] ( 1; xn ]. NÓTESE que todas las variables aleatorias (X1 (:) ; X2 (:) ; :::; Xn (:)) se de…nen en el mismo conjunto de reultados S y en relación con el mismo espacio de eventos =. Teniendo en cuenta el hecho de que = es un -campo sabemos que X(:) es un vector aleatorio con respecto a = si y sólo si las variables aleatorias (X1 (:) ; X2 (:) ; :::; Xn (:)) son variables aleatorias con respecto a =. Esto se debe a que Xk 1 (( 1; xk ]) 2 =;para todo k = 1; 2; :::; n; y entonces: Tn i=1 Xk 1 (( 1; xk ]) 2 =. Los distintos conceptos introducidos anteriormente para el caso de dos variables aleatorias se puede extender fácilmente al caso de n variables aleatorias. En analogía directa con el caso de dos variables, la función de densidad conjunta satisface las propiedades: n [mf1] Rf (x1R; x2 ; :::; x R nx)n 0;para todo (x1 ; x2 ; :::; xn ) 2 RX ; x1 x2 [mf2] 1 1 f (x1 ; x2 ; :::; xn ) dx1 dx2 dxn = 1; 1 R xn R x1 R x2 [mf3] F (x1 ; x2 ; :::; xn ) = 1 1 f (u1 ; u2 ; :::; un ) du1 du2 dun : 1 Usando la misma línea de razonamiento podemos extender fácilmente las n dimensiones del vector aleatorio X(:) a una in…nidad de dimensiones, es decir, de…nir X1 := (X1 (:); X2 (:); :::; Xn (:); :::): X1 (:) : S !R1 , que es un vector aleatorio con respecto a algún = si y sólo si cada elemento de la sucesión X1 (:) es una variable aleatoria en relación con =. Esto establece la existencia de un vector aleatorio in…nito y prepara el camino para el capítulo 8, donde discutimos el concepto de proceso estocástico fXn (s)g1 n=1 := X1 (:), s 2 S. El lector puede apreciar ahora por 4.3. DISTRIBUCIONES MARGINALES 171 qué se requieren campos (aditivamente numerables) y no sólo campos de eventos para de…nir el concepto de espacio de eventos. Esto se hace aún más evidente cuando procedemos a utilizar la estructura matemática (topológica) del campo de Borel ß (R). Esta estructura, nos permite discutir la convergencia de dichas sucesiones de variables aleatorias: lim Xn (S) = X (S), para todo s 2 S. n!1 Este concepto será de suma importancia en el capítulo 9, donde discutimos teoremas límite; la estructura topológica del campo de Borel ß (R) nos permite discutir los conceptos de convergencia probabilística. 4.3 Distribuciones marginales El segundo componente de la condición [c], referido a la Independencia de las pruebas se de…ne en términos de una relación simple entre la función de densidad conjunta f (x1 ; x2 ; :::; xn ; ) y las funciones de densidad de las variables aleatorias individuales, X1 ; X2 ; :::; Xn , y se conocen como distribuciones marginales. Veamos cómo la distribución marginal se relaciona con la distribución conjunta. No debería ser ninguna sorpresa saber que a partir de la distribución conjunta siempre se puede recuperar la distribución marginal (univariada) de las variables individuales aleatorias implicadas. En términos de la fda conjunta, la distribución marginal se obtiene a través de un proceso límite: FX (x) = lim F (x; y) y FY (y) = lim F (x; y) : y!1 x!1 Ejemplo Consideremos el caso de la fda exponencial bivariada: e x )=e 1 F (x; y) = 1 Ya que lim (e n!1 n FX (x) = lim F (x; y) = 1 e y!1 1 e y ; > 0; > 0; x > 0; y > 0: = 0; podemos deducir que x ; x > 0; FY (y) = lim F (x; y) = 1 e x!1 y ; y > 0: Veamos ahora cómo la marginalización se de…ne en términos de las funciones de densidad. En vista del hecho de que: 172 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA FX (x) = lim F (x; y) = lim y!1 y!1 Z x 1 Z y f (x; y)dydx = 1 Z x 1 Z 1 f (x; y)dy dx; 1 y la relación entre FX (x) y fX (x), podemos deducir que Z 1 fX (x) = f (x; y)dy; x 2 RX ; (4.12) 1 Similarmente, en términos de la función de densidad conjunta, la función de densidad marginal de Y se obtiene a través de: Z 1 fY (y) = f (x; y)dx; y 2 RY : (4.13) 1 Esto sugiere que la marginalización se obtiene integrando la otra variable aleatoria. Ejemplos (i) Consideremos el caso de la densidad exponencial bivariada: f (x; y) = e x y ; x > 0; y > 0; donde las variables aleatorias X; Y son continuas. La fórmula (4.12) sugiere que, para obtener la distribución marginal de X, es necesario integrar la variable aleatoria Y a partir de f (x; y): Z 1 fX (x) = e x y dy = e x . 0 (ii) considerar la densidad normal estándar bivariada (4.9). Para obtener la densidad marginal de X, tenemos que integrar a Y y viceversa. Las manipulaciones de tal derivación son más bien complicadas (y por lo tanto se omiten), pero el resultado es particularmente útil. Resulta que: Z 1 1 f (x; y)dy = p exp 2 1 Z 1 1 fY (y) = f (x; y)dx = p exp 2 1 fX (x) = 1 2 x ; 2 1 2 y ; 2 Es decir, ambas distribuciones marginales son Normal (estándar) y se indican por: 4.3. DISTRIBUCIONES MARGINALES X N (0; 1) y Y 173 N (0; 1). Marginalización e intuición. Podemos visualizar la derivación de la distribución marginal de X a partir de la distribución bivariada f (x; y), como la proyección de la super…cie de dos variables en el plano [x; f (x; y)]. Como se muestra en la …gura 4.2, la proyección de una super…cie en forma de campana sobre un plano opuesto produce una forma de campana para ambas distribuciones marginales. Intuitivamente, el paso de la densidad conjunta a la marginal signi…ca ignorar la información referente a la dimensión particular representada por la variable aleatoria no integrada. Figura 4.2 Densidad normal bivariada con densidades marginales proyectadas En el caso de una variable aleatoria discreta, podemos derivar la distribución marginal de una variable aleatoria, a partir de la densidad conjunta f (x; y), sumando la otra variable aleatoria. Por ejemplo, la derivación de la densidad marginal de X toma la forma de suma sobre todos los valores de Y , digamos y1 < y2 < yn < , de la siguiente manera: fX (x) = X1 f (x; yi ) ; x 2 RX : X1 f (xi ; y) ; y 2 RY : i=1 (4.14) Del mismo modo, la densidad marginal de Y toma la forma de suma sobre todos los valores de X, por ejemplo x1 < x2 < xn < : fY (y) = i=1 (4.15) 174 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Ejemplos (i) La densidad conjunta de la distribución de Bernoulli está bien de…nida, si las probabilidades p (i; j) para i; j = 0; 1, además de ser no negativas, también satisfacen una serie de restricciones adicionales requeridas por las distribuciones marginales. Las distribuciones marginales de X e Y son las siguientes: x 0 fX (x) p:1 y 0 1 fY (y) p1 : p2 : 1 p:2 (4.16) p:1 = p (0; 0) + p (0; 1) ; p1 : = p (0; 0) + p (1; 0) ; p:2 = p (1; 0) + p (1; 1) ; p2 : = p (0; 1) + p (1; 1) : Para que estas distribuciones marginales tengan sentido necesitan satisfacer las propiedades de las funciones de densidad univariadas f1-f3 (ver capítulo 3). Esto sugiere que sus probabilidades deben sumar p:1 + p:2 = 1 y p1 : p2 : = 1: (ii) Una distribución discreta importante, es el binomial bivariada (o trinomial, como a menudo se llama) cuya densidad toma la forma: f (x; y; ) = donde n! x!y! (n : = ( 1; fX (x; ) = x 2 ), n x X k=1 y)! = n x (1 n x y 2) 1 n es un entero tal que x + y n! x1 y2 x!k! (n x n x n! x1 X = x! k=1 n! = x! (n x y 1 2 k 2 k! (n x 1 x)! x 1 k)! (1 n x X k=1 (1 x k)! (n x)! k! (n x k)! n x 1) i 2 [0; 1] , i = 1; 2, n, x; y = 0; 1; 2; :::; n. n x k 2) 1 (1 , n x k 2) 1 k 2 (1 1 n x k 2) . (iii) Vamos a obtener la distribución marginal de X a partir de la densidad conjunta dada a continuación: 4.4. DISTRIBUCIONES CONDICIONALES ynx 0 2 0 1 2 0:2 0:2 0:2 0:1 0:1 0:2 175 (4.17) La fórmula (4.12) sugiere que sumando hacia abajo las columnas obtenemos la densidad marginal de X y sumando las …las obtenemos la densidad marginal de Y : x 0 1 2 fX (x) 0:3 0:3 0:4 y 0 2 fY (y) 0:6 0:4 (4.18) Estas son claramente las funciones de densidad propias, dado que: fX (x) 0; fX (0) + fX (1) + fX (2) = 1 y fY (y) 0; fY (0) + fY (2) = 1: Los dos densidades marginales se muestran con la densidad conjunta a continuación: ynx 0 1 2 fY (y) 0 0:2 0:2 0:2 0:6 2 0:1 0:1 0:2 0:4 fX (x) 0:3 0:3 0:4 1 (4.19) En cuanto a la última columna podemos ver que las probabilidades asociadas a los valores de Y no contienen la información relativa a X. 4.4 4.4.1 Distribuciones condicionales Probabilidad condicional Volvamos al capítulo 2 y recordemos la noción de probabilidad condicional usando nuestro ejemplo favorito. Ejemplo Consideremos de nuevo el experimento aleatorio de "lanzar una moneda al aire dos veces", con: S = f(HH); (HT ); (T H); (T T )g. Suponiendo que A = f(HH); (HT ); (T H)g es un evento de interés, sin ninguna información adicional, el sentido común sugiere que P (A) = 43 . Sin 176 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA embargo, en el caso en que exista alguna información adicional, por decir alguien anuncia que en una prueba particular, "la primera moneda es una T ", la situación cambia. La información disponible de…ne el evento B = f(T H); (T T )g y el conocimiento de que B ha ocurrido invalida la probabilidad P (A) = 34 . Esto se debe a que la información implica que, en esta prueba particular, los resultados (HH) y (HT ) no pueden ocurrir. Es decir, en lugar de S, el conjunto de todos los distintos posibles resultados, dado que B ha ocurrido, es justamente B. Esto sugiere que la nueva probabilidad de A, dado que B ha ocurrido, que se denota por P (AjB), es diferente. El sentido común sugiere que P (AjB) = 21 , ya que A incluye uno de los dos distintos resultados posibles. ¿Cómo podemos formalizar este argumento? La fórmula para la probabilidad condicional del evento A, dado el evento B, toma la forma: P (A j B) = P (A \ B) ; P (B) para P (B) > 0: (4.20) En el ejemplo anterior, P (A \ B) = P (T H) 41 , P (B) = 12 , y por lo tanto P (A \ B) = 4.4.2 1 4 1 2 = 12 , lo que con…rma la respuesta de sentido común. Funciones de densidad condicional Al igual que en el caso de las distribuciones conjunta y marginal, consideramos el caso simple de variable aleatoria discreta y luego procedemos a discutir el caso general de variable aleatoria. Variables aleatorias discretas. En el caso de dos variables aleatoria discreta X e Y , si de…nimos los eventos: A = fY = yg y B = fX = xg ; entonces la traducción de las fórmulas anteriores en términos de funciones de densidad toma la forma: P (X = x) = f (x); P (Y = y; X = x) = f (x; y); P (Y = y j X = x) = f (y j x); dando lugar a la fórmula de la densidad condicional: f (y j x) = f (x; y) ; para f (x) > 0; y 2 RY ; fX (x) 4.4. DISTRIBUCIONES CONDICIONALES 177 donde f (yjx) denota la densidad condicional de Y dado que X = x. Ejemplo Consideremos la función de densidad conjunta para las variables aleatorias discretas X e Y dadas en (4.19). De la fórmula anterior podemos ver que la densidad condicional de Y dado X = 0 toma la forma: f (yjx = 0) = f (x = 0; y) ; y 2 RY := f0; 2g : fX (x = 0) Esto sugiere que las probabilidades condicionales f (yjx = 0), para y 2 RY , son probabilidades conjuntas escaladas f (xjy = 0), para x 2 RX , con la probabilidad marginal fX (x = 0) proporcionando el peso. En particular: f (yjx = 0) = f (x=0;y=0) fX (x=0) f (x=0;y=2) fX (x=0) = = 0:2 0:3 0:1 0:3 = 23 ; y = 0 = 13 ; y = 2 La densidad condicional se muestra a continuación: y f (yjx = 0) 0 2 2 3 1 3 Variables aleatorias continuas En el caso de dos variables aleatorias continuas X e Y no podemos usar los eventos A = fY = yg y B = fX = xg con el …n de transformar (4.20) en términos de funciones de densidad, porque, como sabemos, = fX = xgen este caso P (X = x) = 0 y P (Y = y) = 0 para todo x 2 R, y 2 R. Al igual que en el caso de la de…nición de las funciones de densidad conjunta y marginal debemos tener en cuenta eventos de la forma: A = fX xg y B = fY yg : Sin embargo, incluso en el caso de variables aleatorias continuas nos gustaría ser capaces de referirnos a la distribución condicional de Y dado que X = x. La forma de sortear las di…cultades matemáticas es a través de la función de distribución condicional acumulativa de…nida de la siguiente manera FY jX (y j X = x) = lim+ h!0 P (Y y; x X x + h) P (x X x + h) donde h ! 0+ se lee "cuando h tiende a 0 através de valores mayores que 0." Después de algunas manipulaciones matemáticas podemos demostrar que: 178 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA P (Y y; x X x + h) FY jX (y j X = x) = lim+ = h!0 P (x X x + h) Z y 1 f (x; u) du: fX (x) Esto sugiere que en el caso de dos variables aleatorias continuas X, Y podríamos de hecho de…nir la función de densidad condicional como en (4.21) pero no deberiamos interpretarla como asignando probabilidades, ya que: f (: j x) : RY ! [0; 1) : Como podemos ver, la densidad condicional es una función de densidad propia, en la medida en que, en el caso de variables aleatorias continuas, cumple las propiedades: [cf1] Rf (yjx) 0; para todo y 2 RY ; 1 [cf2] 1 f (yjx)dy = 1; Ry [cf1] F (yjx) = 1 f (ujx)du: En el caso de variables aleatorias discretas las integrales son reemplazadas por sumatorias. Ejemplos (i) Considere el caso donde la función de densidad conjunta toma la forma: f (x; y) = 8xy; 0 < x < y; 0 < y < 1: Las densidades marginales de x e y se pueden derivar de la densidad conjunta integrando sobre y y x, respectivamente: fX (x) = fY (y) = Z 1 Zx y 0 (8xy) dy = 4xy 2 jy=1 y=x = 4x 1 x2 ; 0 < x < 1; 3 (8xy) dx = 4x2 y jx=y x=0 = 4y ; 0 < y < 1: NOTA: La única di…cultad en las derivaciones anteriores es notar que el rango de X es restringido por Y y viceversa. Utilizando estos resultados podemos deducir que: 2y 8xy = ; x < y < 1; 0 < x < 1; 2 4x (1 x ) (1 x2 ) 8xy 2x f (xjy) = = 2 ; 0 < x < y; 0 < y < 1: 3 4y y f (yjx) = 4.4. DISTRIBUCIONES CONDICIONALES 179 (ii) Consideremos la distribución normal estándar de dos variables. Como vimos en la sección anterior, en el caso en que f (x; y) sea normal, las distribuciones marginales marginales f x(x) y f y(y) son también normales. Por lo tanto, la densidad condicional de Y dado X = x se pueden derivar de la siguiente manera1 : 2 2 (1 ) 1 2 exp [2 (1 p f (yjx) = = n 2 2 1 1 2 2 2 o 2 xy + y 2 ) (x2 1 2 x 2 exp exp 1 )] 2 2 1 1 ; 1 2 xy + y 2 + x2 : 2 x2 Usando la igualdad: 2 1 2 1 x2 1 2 xy + y 2 + x2 = 2 1 2 2 1 (y x)2 , la densidad condicional toma la forma: f (yjx) = (1 2 p ) 1 2 exp 1 2 (1 2) x)2 : (y 2 Por lo tanto f (yjx) es también normal con media x y varianza (1 denotado por (Y j X = x) 1 N x; 1 2 : Las manipulaciones matemáticas no son importantes en esta etapa. 2 ), 180 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Figura 4.3 Densidad normal bivariada con densidad condicional en x = 0:5. La densidad condicional f (yjx = 0:5) se puede visualizar como la densidad de una sola dimensión cortando la densidad conjunta con un plano perpendicular, paralelo al eje y y pasando a través del punto x = 0:5. En la …gura 4.3 podemos ver cómo el corte de la super…cie de dos variables en x = 0:5 escalada por [1=fx ( 0:5)] proporcina una densidad normal univariada. 4.4.3 Variables aleatorias discretas/continuas En la modelizaciónempírica hay ocasiones en que el modelador es requerido para modelar la relación entre variables aleatorias continuas y discretas. Naturalmente, estas discusiones involucran la distribución conjunta de las variables aleatorias involucradas y la pregunta que surge es: ¿cómo especi…car tales distribuciones?. Resulta que la forma más conveniente para especi…car una distribución conjunta es a través de la densidad condicional. Consideremos el caso en que F (x; y) es la fda conjunta de las variables aleatorias (X; Y ) donde X es discreta y Y es continua. Sea RX = fx1 ; x2 ; :::g el rango de valores de la variable aleatoria X. La fda conjunta es completamente determinada por la sucesión de pares de una probabilidad marginal y la densidad condicional asociada: [fx (xk ) ; f (y j xk )] ; para todo yk 2 RX . Esto se puede visualizar como una sucesión de polos de probabilidad a lo largo del eje x en los puntos fx1 ; x2 ; :::g que están manchados (smudged) a lo largo del eje y de tal manera que la densidad en cualquier punto xk es [fx (xk ) f (y j xk )]. La única di…cultad técnica de este resultado es cómo especi…car la densidad condicional. Ésta se de…ne por: f (y j xk ) = 1 d [F (xk ; y) F (xk fX (xk ) dy donde la notación (xk tal manera que: F (x; y) = 0; y)] 0) indica tomar la derivada por la izquierda, de X xk x fX (xk ) Z y 1 f (u j xk ) du. 4.4. DISTRIBUCIONES CONDICIONALES 181 Del mismo modo, la distribución marginal de la variable aleatoria Y se de…ne por: FY (y) = X fX (xk ) xk 2RX Z y 1 f (u j xk ) du. Ejemplo Consideremos el caso donde las variables aleatorias (X; Y ), X es Bernoulli y Y está normalmente distribuiday la densidad conjunta toma la forma: f (x; y; ) = f (y j xk ; ) fX (xk ; p) ; xk 2 RX ; 1 1 2 p exp (y ; fX (1) = p, fX (0) = 1 f (y j xk ; ) = 0 1 xk ) 2 2 2 4.4.4 Momentos codicionales La densidad condicional, que es una función de densidad propia, también goza de características numéricas análogas a las funciones de densidad marginal. En particular, para variables aleatorias continuas podemos de…nir los momentos condicionales: crudo : r E (Y j X = x) = Z1 y r f (y j x) dy; r = 1; 2; :::; 1 central : E f(Y r = 2; 3; ::: r E [Y j X = x]) j X = xg = Z1 (Y E [y j x])r f (y j x) dy; 1 NOTE que la única diferencia entre los momentos marginales y condicionales es que la distribución relevante con respecto a la que E(:) se de…ne ahora es el condicional. En el caso de variables aleatorias discretas remplazamos las integrales con sumatorias como se ejempli…ca en el caso del primero de estos momentos condicionales: p: 182 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA media condicional : E (Y j X = x) = varianza condicional : X V ar (Y j X = x) = y2RY X y f (y j x) ; y2RY E [y j x]]2 f (y j x) : [y Ejemplos (i) Distribución discreta, sin parámetros desconocidos. Para la densidad condicional (4.22) 2 3 E (Y j X = 0) = 0 V ar (Y j X = 0) = 0 1 3 +2 2 3 2 2 = ; 3 2 3 + 2 2 3 2 1 3 = 24 27 : (ii) Distribución continua, sin parámetros desconocidos. Considere el caso donde la función de densidad conjunta toma la forma: f (x; y) = 8xy; 0 < x < y; 0 < y < 1: Como mostramos anteriomente, las densidades marginales de x y y son: f (x) = 4x 1 x2 ; 0 < x < 1 y f (y) = 4y 3 ; 0 < y < 1: Entonces, 8xy 2y = ; x < y < 1; 0 < x < 1; 2 4x (1 x ) (1 x2 ) 8xy 2x f (x j y) = = 2 ; 0 < x < y; 0 < y < 1: 3 4y y f (y j x) = 4.4. DISTRIBUCIONES CONDICIONALES E (Y j X = x) = = E (X j Y = y) = V ar (X j Y = y) = = = Z 183 Z 1 2 2y dy = y y 2 dy 2) 2) (1 x (1 x x x 2 (1 x3 ) 2 1 3 y=1 y jy=x = ; (1 x2 ) 3 3 (1 x2 ) Z y 2x 2 2 1 3 x=y 2 1 3 x dx = 2 x jx=0 = 2 y = y; 2 y y 3 y 3 3 0 Z y Z y 2 2 2x 4 2 4 2x 2 x y dx = x + y xy 3 y2 9 3 y2 0 Z0 y 3 2 2x 8 x 8 dx + x 2 y 9 3 y 0 x=y 1 x4 4 2 8 x3 = y2: + x 2 2y 9 9 y 18 x=0 1 (iii) Distribución continua, con parámetros desconocidos. Consideremos el caso de la distribución normal (estándar) de dos variables discutida en la subsección anterior. Se demostró que la distribución condicional de Y dado que X = x toma la forma: (Y j X = x) N x; 1 2 . Esto sugiere que: E (Y j X = x) = x y V ar (Y j X = x) = 1 2 . Los momentos condicionales son de interés en la modelizaciónde la dependencia ya que con frecuencia ellos proporcionan la forma más ‡exible para capturar los aspectos importantes de la dependencia probabilística (véase el capítulo 6). 4.4.5 Una digresión: otras formas de condicionalidad Truncamiento Además del condicionamiento de eventos de la forma fX = xg, a menudo es de interés condicionar eventos eventos tal como: fX > ag , fX < bg o fa < X bg . dx = 184 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Ejemplo En el caso del experimento aleatorio de "medir la vida de un foco" podríamos estar interesados en la probabilidad de que tenga una duración de n horas dado que ha durado por lo menos m horas ya (n > m). Consideremos el caso más general de condicionalidad del evento fa < x bg, que se re…ere al doble truncamiento; desde la izquierda en el punto a y desde la derecha en el punto b. La intuición sugiere que en el caso de una variable aleatoria discreta X con un rango de valores RX := fx1 ; x2 ; :::g, la función de probabilidad condicional de X dado fa < x bg debe estar dada por: f (xi j fa < X bg) = X f (xi ) a<xj b f (xj) , para a < xi b. Es decir, la probabilidad de X = xi dado fa < x bg es justamente una probabilidad ponderada. Del mismo modo, en el caso de una variable aleatoria continua X la fórmula anterior toma la forma: f (xj fa < x bg) = Z f (x) b = f (x) dx f (x) , para fa < x F (b) F (a) bg . a Ejemplo En el caso de la distribución normal la densidad doblemente truncada toma la forma: ( 2 ) 1 f (x; ) = exp (F (b) F (b)) ( 1 2 x 2 ) , fa < x bg . Viendo los eventos fX > ag y fX < bg como casos especiales de fa < x bg podemos modi…car las fórmulas anteriores por consiguiente. Para los casos fX > ag = (a; 1) y fX < bg = ( 1; b), usando el resultado de la F (1) = lim F (x) = 1, deducimos que: x!1 f (xjX > a) = f (x) f (x) , x > a, f (xjX < b) = , x < b, 1 F (a) F (b) (4.24) 4.4. DISTRIBUCIONES CONDICIONALES 185 Las funciones f (xja < x b), f (xjX > a) y f (xjX < b) se re…eren a menudo como funciones de densidad truncadas y disfrutan de las propiedades habituales: [tf1] f (xja < x b) 0, para todo x 2 RX , Z b f (xja < x b) dx = 1. [tf2] a Ejemplo Sea X una variable aleatoria con distribución exponencial: f (x) = e x y F (x) = 1 e x , y > 0. De (4.24) se deduce que: f (xjX > t) = e e x x = e (x t) . Función de Hazard (Riesgo) Como puede verse en el ejemplo anterior, f (xjX > t) es una función de x y de t. Viéndola únicamente como una función de t de…nimos lo que se conoce como: Función de riesgo: h (t) = 1 f F(t)(t) , x > t. Intuitivamente, esto puede ser considerado como la tasa instantánea de mortalidad de una persona que está viva hasta el tiempo t. Ejemplo Para X, una variable aleatoria distribuida exponencialmente, la función de riesgo toma la forma: e h (t) = e t t = . Intuitivamente, esto signi…ca que la tasa instantánea de mortalidad es constante. Esto sugiere que la distribución exponencial no es apropiada para modelar la vida del foco, ya que implícitamente asume que la probabilidad de que falle no depende de la edad del foco! 4.4.6 Marginalización frente a condicionalidad Las densidades marginal y condicional, vistas en relación con la función de densidad conjunta 186 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA conjunta f (:; :) : (R R) ! [0; 1) ; marginal fY (; ) : R ! [0; 1) ; condicional f (: j x) : R ! [0; 1) ; tienen una cosa en común: ambas son la densidad de una variable. Es decir, ambas reducen la dimensionalidad de la función de densidad bivariada, pero la reducción toma diferentes formas. En el caso de la densidad marginal fY (:) la información relativa a la otra variable aleatoria X es ignorada (se integra fuera). Por otra parte, en el caso de la densidad condicional f (:jx) no toda la información relativa a X se pasa por alto. La densidad condicional conserva parte de la información relativa a X; la información de x = x. La fórmula (4.21), de…niendo la densidad condicional se puede rearreglar para obtener: f (x; y) = f (yjx) :fX (x) para todo (x; y) 2 (RX RY ) (4.25) Esto descompone la densidad bivariada f (x; y), en un producto de dos densidades univariadas, f (yjx) y fX (x); o al menos eso parece. La importancia de esta descomposición se pondrán de mani…esto en la siguiente sección en relación con la noción de independencia. Antes de considerar esto, sin embargo, hay buenas razones para la elaboración de la intuición subyacente a la marginalización y condicionalidad. Ejemplo Consideremos la función de densidad conjunta representada a continuación: ynx 1 2 3 fy (Y ) 0 0:20 0:10 0:15 0:45 1 0:10 0:25 0:05 0:40 2 0:1 0:6 0:8 0:15 fX (x) 0:31 0:41 0:28 1 (4.26) Re‡exione sobre la situación siguiente. Se despierta en un hospital de Chipre cubierto de yeso de la cabeza a los pies con sólo muestra los ojos y la boca y que sufre de amnesia total. Una enfermera, que acaba de llegar de turno, entra y le informa que, basándose en el informe que acaba de leer: 4.4. DISTRIBUCIONES CONDICIONALES 187 usted ha estado involucrado en un accidente automovilístico, se encuentra en mal estado (pero fuera de peligro) y es probable que permaneza en el hospital por un tiempo. La primera pregunta que viene a la mente es: ¿quién soy yo? pero el segundo pensamiento que se desliza es: ¿puedo pagar las cuentas? La enfermera parece leer su mente, pero es incapaz de ayudar. Lo único que podría ofrecer era la tabla de arriba, donde X representa el grupo de edad y Y grupo de ingresos: X = 1 : (18 35) , X = 2 : (36 55) , X = 3 : (56 70) , Y = 0 : pobre, Y = 1 : de ingresos medios, Y = 3 : rico. Un vistazo a las probabilidades conjuntas trae un poco más de confusión, porque la mayor probabilidad se asocia al evento (X = 2; Y = 1) (edad media e ingresos medio) y la probabilidad más baja se une al evento (X = 1; Y = 2) (jovén pero rico!). En un intento por reasegurarse ignora los ingresos (como de importancia secundaria) por un momento y mira la densidad marginal de X. La probabilidad de estar en el grupo de edad de las personas mayores ( independientemente de los ingresos ) es menor que las probabilidad de que sea joven o de mediana edad; un suspiro de alivio, pero no mucho consuelo, porque la probabilidad de ser joven no es mucho más alta! Durante este silogismo la enfermera recuerda que, según el informe usted estaba conduciendo un Porsche! Esta pieza adicional de información cambia bruscamente la situación. A menos que usted fuera un ladrón huyendo a toda velocidad cuando ocurrió el accidente (un caso poco probable en un país libre de crimen, como Chipre!), usted sabe que Y = 2 ha sucedido. ¿Cómo cambia esto la probabilidad conjunta? Las probabilidades relevantes ahora son dadas por la densidad condicional de X dado Y = 2: 9 8 f (x=1;y=1) 0:01 > = < fy (y=2) = 0:15 = 0:067, x = 1, > f (x=2;y=2) 0:06 = = 0:400, x = 2, f (xjy = 2) = fy (y=2) 0:15 > > ; : f (x=3;y=2) 0:08 = = 0:533, x = 3, fy (y=2) 0:15 Un vistazo a estas probabilidades condicionales y estrá usted pidiendo a la enfermera que le quite el yeso para comprobar la edad que tiene, hay más de 50 por ciento de probabilidad que sea una persona mayor! Después de haber discutido los conceptos de distribución marginal y condicional podemos proceder a la formalización de la noción de independencia y distribuciones idénticas. 188 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA 4.5 4.5.1 Independencia El caso de dos variables aleatorias Como se ha visto en el capítulo 2, dos eventos A y B que pertenecen al espacio mismo eventos =, se dice que son independientes si: P (A \ B) = P (A) P (B) : Traduciendo dos eventos arbitrarios A y B en eventos de la forma: A := (s : X (s) x) y B := (s : Y (s) y), s 2 S, la condición anterior se convierte en : P (X x; Y y) = P (X x) P (Y y) ; para todo (x; y) 2 R2 , FXY (x; y) = FX (x) FY (y) ; para todo (x; y) 2 R2 ; (4.27) donde FXY (:; :) denota la función de distribución acumulada conjunta (fda). En términos de las funciones de densidad, se dice que X, Y son independientes si: f (x; y) = fX (x) fY (y) ; para todo (x; y) 2 R2 (4.28) Es decir, la densidad conjunta es igual al producto de las dos funciones de densidad marginales. En otras palabras, el único caso en que la densidad conjunta no contiene ninguna información adicional a la contenida en las funciones de densidad marginal es el caso donde las variables aleatorias son independientes. Es importante NOTAR que, en vista de (4.25), cuando X y Y son independientes: f (yjx) = fY (y) para todo y 2 RY . (4.29) Del mismo modo, f (xjy) = fX (x) para todo x 2 RX . Es decir, cuando X y Y son independientes, la condicionalidad sobre X no afecta a la densidad marginal de Y y viceversa. Esto proporciona una manera más intuitiva para comprender la noción de independencia. Ejemplos (i) Consideremos la densidad de dos variables (4.26). Las variables aleatorias X y Y no son independientes ya que para el primer valor(X; Y ) = (1; 0): f (1; 0) = (0:20) 6= fX (1) fY (0) = (0:31) (0:45) = (0:1395) . 4.5. INDEPENDENCIA 189 (ii) Consideremos la densidad de dos variables, dada a continuación: ynx 0 1 fY (y) 0 0:3 0:3 0:6 2 0:2 0:2 0:4 fX (x) 0:5 0:5 1 Para comprobar si X y Y son independientes, tenemos que comprobar que la igualdad en (4.28) se cumpla, para todos los valores de X y Y : (X; Y ) (X; Y ) (X; Y ) (X; Y ) = = = = (0; 0) , (0; 2) , (1; 0) , (1; 2) , f (0; 0) = fx (0) fy (0) = (0:3) = (0:5) (0:6) , f (0; 2) = fx (0) fy (2) = (0:2) = (0:5) (0:4) , f (0; 0) = fx (1) fy (0) = (0:3) = (0:5) (0:6) , f (1; 2) = fx (1) fy (2) = (0:2) = (0:5) (0:4) . Estos resultados sugieren que X y Y son efectivamente independientes. (iii) En el caso donde (X; Y ) están conjuntamente normalmente distribuidas, con una densidad tal como se de…ne en (4.9), podemos deducir que cuando = 0, X y Y son independientes. Esto se deduce mediante una simple sustitución de la restricción = 0 en la densidad conjunta: f (x; y) = (1 2 p 2 ) 1 2 ! 1 exp 2 = fX (x) fY (y) , = exp 1 2) 2 (1 1 2 x 2 1 2 x2 exp 2 xy + y 2 1 2 y 2 j =0 = donde fX (x) y fY (y) son densidades normales estándar. NOTA: el último ejemplo proporciona una clave importante a la noción de la independencia sugiriendo que la densidad conjunta f (x; y) se puede descomponer en un producto de dos funciones no negativas u (x) y v(y) es decir, f (x; y) = u (x) v (y) , donde u (:) 0 sólo depende de x y v(:) X y Y son independientes. 0 sólo depende de y, entonces 190 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA (iv) En el caso de que (X; Y ) estén conjuntamente exponencialmente distribuidas, con densidad: f (x; y; ) = [(1 + x) (1 + y) ] exp f x y xyg , x > 0; y > 0; > 0. Es obvio que X y Y son independientes únicamente cuando la factorización anterior puede lograrse sólo en ese caso. 4.5.2 = 0, ya que Independencia en el caso de n variables La extensión de las de…niciones anteriores de independencia de dos al caso de n variables no es sólo una simple cuestión de notación. Como argumentamos en el capítulo anterior, los eventos, A1 ; A2 ; :::; An son independientes si se cumple la siguiente condición: P (A1 \ A2 \ \ Ak ) = P (A1 ) P (A2 ) para todo k = 2; 3; :::; n P (Ak ) , (4.31) Es decir, esto se debe cumplir para todos los subconjuntos de fA1 ; A2 ; :::; An g. Por ejemplo, en el caso de n = 3, las siguientes condiciones deben cumplirse para que A1 ; A2 ; A3 sean independientes: (a) P (A1 \ A2 \ A3 ) (b) P (A1 \ A2 ) (c) P (A1 \ A3 ) (d) P (A2 \ A3 ) = = = = P (A1 ) P (A1 ) P (A1 ) P (A2 ) P (A2 ) P (A3 ) P (A2 ) P (A3 ) P (A3 ) En el caso donde sólo se cumplen las condiciones (b) - (d) se dice que los eventos A1 ; A2 ; A3 son independientes dos a dos. Para independencia (completa), necesitamos las cuatro condiciones. Lo mismo vale para variables aleatorias como se puede ver al sustituir los eventos arbitrarios A1 ; A2 ; A3 con los eventos especiales Ai = (Xi xi ) ; i = 1; 2; 3. Independencia. Se dice que las variables aleatorias X1 ; X2 ; : : : ; Xn son independientes si se cumple la siguiente condición: F (x1 ; x2 ; :::; xn ) = F1 (x1 ) F2 (x2 ) Fn (xn ) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn : 4.5. INDEPENDENCIA 191 En términos de funciones de densidad, la independencia se puede escribir en la forma: f (x1 ; x2 ; :::; xn ) = f1 (x1 ) f2 (x2 ) fn (xn ) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn : De (4.33) podemos ver que la cuali…cación para todos los subconjuntos de fA1 ; A2 ; :::; An g en el caso de eventos ha sido sustituida por la cuali…cación para todo (x1 ; x2 ; :::; xn ) 2 Rn . En otras palabras, en el caso de variables aleatorias no necesitamos comprobar (4.33) para cualesquiera subconjuntos del conjunto de X1 ; X2 ; : : : ; Xn , pero tenemos que comprobarlo para todos los valores de (x1 ; x2 ; :::; xn ) 2 Rn . También es importante señalar que cuando (4.33) es válida para todos (x1 ; x2 ; :::; xn ) 2 Rn , implica que se debe cumplir para cualquier subconjunto del conjunto X1 ; X2 ; : : : ; Xn , pero no a la inversa. Ejemplo Volvamos a nuestro ejemplo favorito de "lanzar una moneda al aire dos veces" y tomar nota de los resultados: S = f(HH); (HT ); (T H); (T T )g, siendo = el conjunto potencia. De…nir las variables aleatorias siguientes: X(HT ) = X(HH) = 0; X(T H) = X(T T ) = 1; Y (T H) = Y (HH) = 0; Y (T T ) = Y (HT ) = 1; Z(T H) = Z(HT ) = 0; Z(T T ) = Z(HH) = 1: 1 ; PXY Z (1; 1; 0) = 0; 4 1 PXY Z (1; 0; 0) = ; PXY Z (1; 0; 1) = 0; 4 1 PXY Z (0; 1; 0) = ; PXY Z (0; 1; 1) = 0; 4 1 PXY Z (0; 0; 1) = ; PXY Z (0; 0; 0) = 0; 4 PXY Z (1; 1; 1) = 192 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA PX (0) = XX z PX (1) = z PY (0) = x XX z PZ (1) = x XX y PZ (0) = y XX z PY (1) = y XX x XX y x 1 P (0; y; z) = P (0; 1; 0) + P (0; 0; 1) + P (0; 1; 1) + P (0; 0; 0) = , 2 1 P (1; y; z) = P (1; 1; 1) + P (1; 0; 0) + P (1; 1; 0) + P (1; 0; 1) = , 2 1 P (x; 0; z) = P (1; 0; 0) + P (0; 0; 1) + P (1; 0; 1) + P (0; 0; 0) = , 2 1 P (x; 1; z) = P (1; 1; 1) + P (0; 1; 1) + P (1; 1; 0) + P (0; 1; 0) = , 2 1 P (x; y; 0) = P (1; 0; 0) + P (1; 1; 0) + P (0; 1; 0) + P (0; 0; 0) = , 2 1 P (x; y; 1) = P (1; 1; 1) + P (0; 0; 1) + P (1; 0; 1) + P (0; 1; 1) = , 2 En vista de estos resultados podemos deducir que (X; Y ), (X; Z) y (Y; Z) son independientes de dos en dos ya que: 1 PXY (0; 0) = PX (0) PY (0) = , 4 1 PXY (1; 0) = PX (1) PY (0) = , 4 1 PXY (0; 1) = PX (0) PY (1) = , 4 1 PXZ (0; 0) = PX (0) PZ (0) = , 4 1 PXZ (1; 0) = PX (1) PZ (0) = , 4 1 PXZ (0; 1) = PX (0) PZ (1) = . 4 1 PY Z (0; 0) = PY (0) PZ (0) = , 4 1 PY Z (1; 0) = PY (1) PZ (0) = , 4 1 PY Z (0; 1) = PY (0) PZ (1) = . 4 Por otra parte, las tres variables aleatorias (X; Y; Z) no son independientes, ya que: PXY Z (1; 1; 1) = 1 1 6= PX (1) PY (1) PZ (1) = . 4 8 4.6. DISTRIBUCIONES IDÉNTICAS 193 La de…nición anterior completa la primera etapa de nuestra búsqueda de la transformación de la noción de pruebas aleatorias. La independencia dada en la introducción en términos de pruebas (véase (4.1)) ha sido refundida en términos de variables aleatorias tal como se indica en (4.33). Consideramos la segunda escala de nuestra búsqueda de una muestra aleatoria en la siguiente sección. 4.6 Distribuciones idénticas Como se mencionó en la introducción, la noción de pruebas aleatorios tiene dos componentes: independencia y distribuciones idénticas. Vamos a considerar la refundición del componente idénticamente distribuido en términos de variables aleatorias. Ejemplo Consideremos la función de densidad de Bernoulli: f (x; ) = x )1 (1 x , x = 0; 1, donde = P (X = 1). Tener una muestra de n pruebas independientes, por ejemplo (X1 ; X2 ; : : : ; Xn ), equivale a suponer que las variables aleatorias X1 ; X2 ; : : : ; Xn son independientes, cada Xi teniendo una función de densidad de la forma: f (xi ; i ) = donde que: i xi i (1 1 xi i) , xi = 0; 1, i = 1; 2; :::; n, = P (Xi = 1), i = 1; 2; :::; n. Independencia en este caso asegura n i=1 fi f (x1 ; x2 ; :::; xn ; ) = (xi ; i ) = xi n i=1 i (1 1 xi i) , xi = 0; 1, donde = ( 1 ; 2 ; :::; n ). Obviamente, esto no satisface el componente Idénticamente Distribuido. Para que este sea el caso tenemos que imponer la restricción de que para todas las pruebas la estructura probabilística siga siendo la misma, es decir, que las variables aleatorias X1 ; X2 ; : : : ; Xn sean también Idénticamente Distribuidas en el sentido: f (xi ; i ) = xi (1 )1 xi , xi = 0; 1, i = 1; 2; :::; n. 194 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Vamos a formalizar el concepto de variables aleatorias Idénticamente Distribuidas en el caso de variables aleatorias arbitrarias, pero independientes, comenzando con el caso de dos variables. En general, la densidad conjunta implica los parámetros desconocidos y la igualdad en (4.28) toma la forma: f (x; y; ) = fX (x; 1) fY (y; 2) ; para todo (x; y) 2 RX RY ; donde las distribuciones marginales fX (x; 1 ) y fY (y; 2 ) pueden ser muy diferentes. Dos variables aleatorias independientes se dice que son Idénticamente Distribuidas si fX (x; 1 ) y fY (y; 2 ) son las mismas funciones de densidad, denotado por: fX (x; 1) fY (y; 2 ) ; para todo (x; y) 2 RX RY ; en el sentido de que tienen la misma forma funcional y los mismos parámetros desconocidos: fX (:) = fY (:) y 1 = 2: Ejemplos (i) Consideremos el caso en que la densidad conjunta toma la forma: f (x; y; ) = 1 2 e y 2 x2 ;x 1; y > 0: Es claro que las variables aleatorias X y Y son independientes (los factores de densidad conjunta en un producto) con densidades marginales: fX (x; 1) = 1 ;x x2 1; fY (y; 2) = 1 e y 2 ; y > 0: 2 Sin embargo, las variables aleatorias X y Y no son Idénticamente Distribuidas, porque ninguna de las anteriores condiciones para ID se cumple. En particular, las dos densidades marginales pertenecen a familias diferentes densidades ( fX (x; 1 ) pertenece a la familia Pareto y fY (y; 2 ) pertenece a la familia exponencial), ellas también dependen de diferentes parámetros ( 1 6= 2 ) y las dos variables aleatorias X, Y tienen distintos rangos de valores. 4.6. DISTRIBUCIONES IDÉNTICAS 195 (ii) Consideremos las tres distribuciones de dos variables, que se indican a continuación: ynx 1 2 fY (y) 0 0:18 0:42 0:6 , 2 0:12 0:28 0:4 fX (x) 0:3 0:7 1 ynx 0 1 fY (y) 0 0:18 0:42 0:6 , 1 0:12 0:28 0:4 fX (x) 0:3 0:7 1 (a) (b) ynx 0 1 fY (y) 0 0:36 0:24 0:6 2 0:24 0:16 0:4 fX (x) 0:6 0:4 1 (c) Las variables aleatorias (X; Y ) son independientes en los tres casos (verifíquelo!). Las variables aleatorias en (a) no son Idénticamente Distribuidas porque RX 6= RY y fX (x) 6= fY (y) para algunos (x; y) 2 RX RY . Las variables aleatorias en (b) no son Idénticamente Distribuidas, porque aún cuando RX = RY , fX (x) 6= fY (y) para algunos (x; y) 2 RX RY . Por último, las variables aleatorias en (c) son Idénticamente Distribuidas porque RX = RY y fX (x) = fY (y) para todo (x; y) 2 RX RY . (iii) En el caso en que f (x; y; ) es normal de dos variables, tal como se especi…ca en (4.7), las dos funciones de densidad marginal tienen la misma forma funcional, pero : = ( 1 ; 2 ; 11 ; 22 ), 1 : = ( 1 ; 11 ) y 2 : = ( 2 ; 22 ), suelen ser diferentes. Por lo tanto, para que las variables aleatorias X y Y sean Idénticamente Distribuidas, las dos medias y las dos varianzas deben de coincidir: 1 = 2 y 11 = 22 : f (x; 1) =p 1 2 e 11 1 [x 2 11 1] 2 , f (y; 2) =p 1 2 e 1 [y 2 11 1] 2 . 11 El concepto de variables aleatorias Idénticamente Distribuidas se puede extender fácilmente al caso de n variables de una manera directa. Distribuciones idénticas. Las variables aleatorias (X1 ; X2 ; : : : ; Xn ) se dice que son Idénticamente Distribuidas si: fk (xk ; k) f (xk ; ) ; para todo k = 1; 2; :::; n. 196 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Esto tiene dos dimensiones: (i) f1 (:) f2 (:) f3 (:) fn (:) f (:), (ii) 1 = 2 = 3 = = n= : El signo de igualdad se utiliza para indicar que todas las distribuciones marginales tienen la misma forma funcional. 4.6.1 Una muestra aleatoria Nuestra primera formalización de la condición [c] de un experimento aleatorio E, donde: [c] este experimento se puede repetir en idénticas condiciones, tomó la forma de un conjunto de pruebas aleatorias fA1 ; A2 ; A3 ; :::; An g que son Independientes e Idénticamente Distribuidas (IID): P(n) (A1 \ A2 \ \ Ak ) = P (A1 ) P (A2 ) para todo k = 2; 3; :::; n: P (Ak ) ; (4.34) Utilizando el concepto de muestra X : = (X1 ; X2 ; : : : ; Xn ), donde Xi representa la i-ésima prueba, podemos proceder a formalizar la condición [c] en la forma de una muestra donde las variables aleatorias X1 ; X2 ; : : : ; Xn son Independientes (I) e Idénticamente Distribuidas (ID). Muestra aleatoria. La muestra XIID (n) : = (X1 ; X2 ; : : : ; Xn ) se llama una muestra aleatoria si las variables aleatorias (X1 ; X2 ; : : : ; Xn ) son: (a) Independientes: Yn I f (x1 ; x2 ; :::; xn ; ) = k=1 fk (xk ; k) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn ; (ii) Idénticamente Distribuidas: fk (xk ; k) = f (xk ; ) ; para todo k = 1; 2; :::; n: Poniendo juntos los dos la densidad conjunta de XIID (n) : = (X1 ; X2 ; : : : ; Xn ) toma la forma: I f (x1 ; x2 ; :::; xn ; ) = Yn k=1 fk (xk ; k) IID = Yn k=1 f (xk ; ) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn . (4.35) 4.6. DISTRIBUCIONES IDÉNTICAS 197 La primera igualdad se desprende de la condición de independencia y la segunda de la condición de Distribución Idénticas. NOTE que fk (xk ; k ) denota la distribución marginal de Xk (:), obtenidas por la integración de todas las otras variables aleatorias, además de Xk (:), es decir, fk (xk ; k) = Z 1 1 Z 1 1 Z 1 f (x1 ; :::; xk 1 ; xk ; xk+1 ; :::; xn ; ) dx1 :::dxk 1 dxk+1 :::dxn : 1 Como argumentamos en el capítulo 2, la formalización de un experimento aleatorio se escogió para motivar varios conceptos, ya que era lo su…cientemente simple para evitar complicaciones innecesarias. También dijimos, sin embargo, que fenómenos estocásticos simples dentro del ámbito de aplicación previsto de un modelo estadístico simple se encuentra raramente en la economía. Una de nuestras primeras tareas, una vez que la transformación se ha completado, es extenderla. En preparación para esta extensión notemos en esta etapa que la noción de muestra aleatoria es una forma muy especial de lo que llamamos un modelo muestral. Modelo muestral. Un modelo muestral es un conjunto de variables aleatorias (X1 ; X2 ; : : : ; Xn ) (una muestra) con una estructura probabilística determinada. El objetivo principal del modelo muestral consiste en relacionar los datos observados con el modelo de probabilidad. 4.6.2 Un modelo estadístico simple: concluyendo las transformaciones Ahora estamos en condiciones de completar la búsqueda que se inició con la formalización del concepto de experimento aleatorio E, de…nido por las condiciones: [a] todos los distintos posibles resultados se conocen a priori, [b] en una prueba particular los resultados no se conoce a priori pero existe una regularidad perceptible de ocurrencia relacionada con estos resultados y [c] el experimento se puede repetir en condiciones idénticas. La formalización abstracta inicial tomó la forma de un espacio estadístico simple: (S; =; P (:))n ; GnIID . El objetivo principal del capítulo anterior fue la metamorfosis del espacio de probabilidad simple (S; =; P (:))n en algo de…nido en la recta real. La clave de la transformación fue la noción de variable aleatoria X(:): 198 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA X(:) (S; =; P (:))n ) (R; ß(R) ; PX (:)) ) ff (x; ) ; 2 ; x 2 RX g : En este capítulo hemos transformado el espacio muestral simple en una muestra aleatoria: X(:) GnIID = fA1 ; A2 ; A3 ; :::; An g ) XIID (n) : = (X1 ; X2 ; : : : ; Xn ) . Recopilando los principales resultados de los últimos dos capítulos, de…nimos un modelo estadístico genérico simple: [i] modelo de probabilidad = ff (x; ) ; 2 ; x 2 RX g : [ii] modelo muestral X : = (X1 ; X2 ; : : : ; Xn ) es una muestra aleatoria. El concepto de modelo estadístico constituye el aporte básico de la teoría de probabilidad a la teoría de la inferencia estadística. Todas las formas de inferencia estadística paramétrica suponen un modelo estadístico particular que, si no es válido, hace que cualquier resultado de inferencia sea erróneo. Por lo tanto, una buena comprensión de la forma y la estructura de un modelo estadístico simple de la forma dada anteriormente es imprescindible. Ejemplos concretos de modelos estadísticos simples son los siguientes: Modelo Bernoulli simple. [i] Modelo de probabilidad: = f (x; ) = x (1 )1 x ; 0 1; x = 0; 1 ; [ii] Modelo muestral: X := (X1 ; X2 ; : : : ; Xn ) es una muestra aleatoria. Modelo Normal simple. n o n (x )2 1 p ; := ( ; 2 ) 2 R R+ ; x 2 [i] Modelo de probabilidad: = f (x; ) = 2 exp 2 2 [ii] Modelo muestral: X := (X1 ; X2 ; : : : ; Xn ) es una muestra aleatoria. Modelo Gamma generalizado o o n simple. n x [i] Modelo de probabilidad: = f (x; ) = (1 ) x 1 exp ; 2 ; x 2 R+ ; [ii] Modelo muestral: X := (X1 ; X2 ; : : : ; Xn ) es una muestra aleatoria. 4.7 Un modelo estadístico simple en la modelización empírica: una visión preliminar Como se mencionó anteriormente, todas las formas de inferencia estadística presuponen la especi…cación de un modelo estadístico particular a priori. 4.7. UN MODELO ESTADÍSTICO SIMPLE EN LA MODELIZACIÓN EMPÍRICA: UNA VISIÓN PR Esta especi…cación supone la elección de un conjunto de supuestos probabilísticos que el modelador considera apropiados para describir el mecanismo estocástico que dio lugar al conjunto de datos en cuestión. La elección de un modelo estadístico adecuado constituye tal vez la más difícil y, al mismo tiempo, la decisión más crucial que un modelador tiene que hacer; en comparación, la decisión de elegir un buen estimador de es trivial. En el capítulo 1 argumentamos que en el caso de datos observacionales (no experimentales) necesitamos establecer un procedimiento que tome en consideración la estructura de los datos observados. Después de todo, el modelo estadístico elegido se considera apropiado sólo cuando él captura toda la información sistemática de los datos en cuestión. Lo que hace al anterior modelo estadístico simple es el supuesto de muestra aleatoria, es decir, (X1 ; X2 ; : : : ; Xn ) son variables aleatorias Independientes e Idénticamente Distribuidas. Hacer una elección adecuada de un modelo estadístico requerirá que el modelador desarrolle una comprensión tanto intuitiva como formal de tales supuestos probabilísticos. Del mismo modo, la postulación de una familia paramétrica de densidades requiere el modelador para apreciar lo que esa decisión conlleva. 4.7.1 Modelo de probabilidad En cuanto a un modelo de probabilidad de una familia paramétrica de densidades: = ff (x; ) ; 2 ; x 2 RX g (4.36) desde el punto de vista de la modelación, distinguimos dos componentes básicos: (i) la forma paramétrica de la función de densidad f (x; ) ; 2 y (ii) el soporte de la densidad RX := fx 2 R : f (x; ) > 0g. En teoría, la modelización empírica comienza a partir del "conjunto de todos los posibles modelos de probabilidad", por ejemplo, P , y utilizando la información referida a la forma y estructura de los datos, el modelador reduce este conjunto a un subconjunto P 0 P de modelos de probabilidad admisibles , eligiendo f (x; ) y RX , felizmente. La noción de modelo de probabilidad simple fue ilustrada en el capítulo 3 con una serie de grá…cas de densidad para diferentes valores de . Como veremos en el capítulo 5, la elección de f (x; :) y no tiene por qué ser un 200 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA asunto de acertar o fallar; puede ser facilitado por una serie de grá…cas de los datos. El soporte de la densidad también juega un papel importante en la especi…cación debido a que el rango de valores de los datos observados es una dimensión fundamental de la modelizaciónque a menudo se descuida. En el caso donde los datos observados se re…eren a una serie de datos medidos en términos de proporciones (es decir, los valores tomados por los datos se encuentran en el intervalo [0; 1]), la postulación de una familia de densidades con soporte ( 1; 1) es a menudo inadecuado. El uso de la familia de densidades Beta a menudo puede ser una mejor idea. Ejemplo En el caso de los datos de las puntuaciones del examen (véase la tabla 1.6), hay buenas razones para creer que, basándose principalmente en el soporte de los datos, el modelo de probabilidad Beta podría de hecho ser una mejor opción; véase el capítulo 15. UNA NOTA DE PRECAUCIÓN. En el contexto de la inferencia estadística la escena central se le dará al parámetro(s) desconocido(s) ; estimación y pruebas giran en torno a . Sin embargo, el modelador no debe perder de vista el hecho de que la estimación de (utilizando los datos observados con el …n de elegir un buen estimador b) es un medio para un …n. El objetivo principal de la modelización empírica es describir adecuadamente el fenómeno estocástico subyacente a los datos en cuestión. Este modelo viene en la forma del modelo de probabilidad estimado: n o b = f x; b ; x 2 RX , (4.37) que constituye la base de cualquier tipo de inferencia estadística, incluyendo la predicción y la simulación. Representa un mecanismo estocástico idealizado que tiene por objeto proporcionar una descripción adecuada del fenómeno estocástico subyacente a los datos observados en cuestión. En este sentido, centrándose indebidamente en los parámetros desconocidos dará lugar a perder de vista el bosque por los árboles. 4.7.2 Identi…cabilidad y parametrizaciones Hay que subrayar, en primer lugar que, para propósitos de modelización, los parámetros 2 deben estar asociado con distribuciones de probabilidad únicas, de lo contrario la elección de un buen estimador de y, por lo tanto, 4.7. UN MODELO ESTADÍSTICO SIMPLE EN LA MODELIZACIÓN EMPÍRICA: UNA VISIÓN PR la elección del mecanismo estocástico como el indicado en (4.37) no tiene sentido. En otras palabras, es imperativo que para diferentes valores de 2 se correspondan diferentes distribuciones. La condición que asegura esto se especi…ca a continuación: Identi…cabilidad: para todo 1 = 6 2 , donde f (x; 1 ) 6= f (x; 2 ) ; x 2 RX . 1 2 , 2 2 ; IMPORTANTE. En lo que sigue vamos a suponer que todos los modelos de probabilidad son identi…cables en relación con la parametrización postulada. En relación con la unicidad de la parametrización hay que destacar que ésta se de…ne como un mapeo uno a uno. Es decir, cuando se especi…ca el modelo de probabilidad (4:36) el modelador puede elegir un número de parametrizaciones equivalentes, si existe un mapeo uno a uno entre los dos espacios de parámetros. En particular, una parametrización equivalente a (4.36) es: = ff (x; ) ; 2 ; x 2 RX g (4.38) sólo en el caso de que exista un mapeo uno a uno ! g (:) : = g( ) : . Si queremos hacer hincapié en la reparametrización podemos escribir (4.38) en la forma: = ff (x; ) ; = g( ); 2 ; x 2 RX g , (4.39) qué parametrización se usará en un caso concreto depende de varios factores, entre ellos la interpretabilidad. Ejemplo Consideremos el caso de la distribución exponencial donde 2 la parametrización toma la forma: = ff (x; ) = exp [ x] ; x > 0; 2 := (0; 1)g : Una parametrización equivalente se de…ne en términos de = f (x; ) = 1 exp 1 x ; x > 0; 2 = 1: := (0; 1) . 202 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Más allá de parametrizaciones estadísticas, un papel importante en la modelización econométrica es jugado por las parametrizaciones teóricas. En pocas palabras, una parametrización estadística tiene una clara interpretación en términos de características de distribucionales de la familia de las densidades de que se trate, como momentos y cuantiles. Por el contrario, una parametrización teórica tiene una interpretación clara en términos de la teoría económica (o teorías) de que se trate. Hasta ahora hemos encontrado sólo parametrizaciones estadísticas. En econometría, sin embargo, estamos interesados en última instancia en parametrizaciones teóricas (económicas) 2 A, que son a menudo diferentes de las parametrizaciones estadísticas postuladas 2 . Más a menudo tenemos menos parámetros teóricos que estadísticos de interés. En este caso tenemos que asegurarnos de que existen mapeos muchos a uno de la forma: h (:) : ! A, que de…nen unívocamente (a parametrizaciones uno a uno). NOTE que, mapeos muchos a uno h (:) reparameterizan y restringen los parámetros estadísticos. Esto es a menudo necesario para reducir la especi…cidad de los datos de un modelo estadístico, así como para hacer los parámetros estadísticos teóricamente signi…cativos. 4.7.3 Importantes familias de distribuciones paramétricas El éxito de la modelización empírica dependerá fundamentalmente de la riqueza de las familias de distribuciones paramétricas disponibles para el modelador. En esta sección se consideran brevemente algunas de las familias más importantes de las distribuciones utilizadas en la modelización empírica. El primer avance importante en hacer familias de distribuciones paramétricas disponibles para el modelador fue hecha por Karl Pearson (1895). La familia Pearson La familia de funciones de densidad de Pearson fue motivada inicialmente por el deseo de generar distribuciones no normales (especialmente no simétricas) que se utilizarán para el modelado de datos biológicos. Pearson se dió cuenta que la función de densidad normal estándar (x) satisface la sencilla ecuación diferencial: 4.7. UN MODELO ESTADÍSTICO SIMPLE EN LA MODELIZACIÓN EMPÍRICA: UNA VISIÓN PR d (x) = dx (x) (x 0) 1 , x 2 R donde := 0 y 2 := 1. Luego pasó a generalizar esta ecuación diferencial a cuatro parámetros desconocidos ( 1 ; 2 ; 3 ; 4 ): df (x) = f (x) dx (x 0) 2 1 + 2x + 3x , x 2 RX . Dependiendo de los valores tomados por los parámetros desconocidos, esta ecuación, además de la Normal, puede generar varias funciones de densidad bien conocidas como: 1 1 (v+1) 2 [ 12 (v+1)]( 2 v ) 2 (x )2 1 + ; := ( ; 2 ) 2 t de Student: f (x; ) = 2 1 v [ 2 v] R R+ , x 2 R, jx j ) , := ( ; ) 2 R R , x 2 R, Laplace: f (x; ) = 21 e ( + ( +1) , 2 R+ , x0 > 0; x x0 , Pareto: f (x; ) = x0 x n o 1 1 x Gamma: f (x; ) = [ ] x exp , := ( ; ) 2 R2+ , x 2 R+ , 1 1 Beta: f (x; ) = x B[(1 ; x)] , := ( ; ) 2 R2+ , 0 x 1. En el caso de variables aleatorias discretas, la ecuación diferencial correspondiente es: fk fk 1 = fk (k 1 + 2x + 0) 3 x (1 x) , k = 1; 2; 3; :::, x 2 RX . Además de la distribución binomial, esta ecuación se puede utilizar para generar varias distribuciones discretas bien 0 10 conocidas 1 como: K M K @ A@ A x n k 0 1 , 0 x min (K; n), Hipergeométrica: f (x; ) = M @ A n k+x 1 k Binomial Negativa: f (x; ; k) = (1 )x , 0 < < 1, k 1 k = 1; 2; :::, y = 0; 1; 2; :::, x Poisson: f (x; ; k) = e x! , > 0, x = 0; 1; 2; 3; :::. 204 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Familia exponencial de distribuciones Esta familia de distribuciones se introdujo inicialmente en la estadística por Fisher (1934) como una extensión natural de la distribución Normal para los propósitos de la inferencia. Como argumentamos en el capítulo 12, esta familia conserva algunas de las propiedades importantes de la distribución normal en relación con la inferencia. NOTE que la familia exponencial es diferente de la distribución exponencial encontrada anteriormente. La función de densidad de la familia exponencial puede expresarse en la forma: f (x; ) = c ( ) h (x) exp Xk i=1 gi ( ) i (x) , (a) c ( ) 0, (b) h (x) 0, (c) gi ( ), i = 1; 2; :::; k: funciones reales (sin x), (d) i (x), i = 1; 2; :::; k: funciones reales (sin ). Muchas distribuciones conocidas como la normal,Gama, Beta, Binomial, Poisson y Binomial Negativas pertenecen a esta familia; ver Barndor¤-Nielsen y Cox (1989), Azallini (1996). Ejemplos (i) La distribución de Poisson es un miembro discretos de la familia exponencial con función de densidad: x f (x; ) = e x! = ex! exp (x In ( )), > 0, x = 0; 1; 2; :::, > 0, Por lo tanto, para esta densidad: k = 1, c ( ) = e , h (x) = x!1 , g( ) = In ( ), (x) = x. (ii) La distribución normal es un miembro continuo de la familia exponencial con función de densidad: f (x; ) = R, p 1 2 2 exp (x 2 )2 2 = exp p 2 2 2 2 2 exp x2 1 2 2 +x 2 ,x2 : = ( ; 2 ) 2 R R+ . Por lo tanto, para la densidad normal: k = 2, 2 c ( ) = p21 2 exp , h (x) = 1, g1 ( ) = 2 , g2 ( ) = 2 12 , 1 (x) = x, 2 2 (x) = x2 . La familia estable (Pareto-Levy) La familia estable de distribuciones fue inicialmente motivada por la importante propiedad del dominio de atracción: la suma de variables aleatorias independientes de una cierta distribución, debidamente normalizada, tiene la misma distribución de las variables aleatorias individuales. Esta familia de 2 4.7. UN MODELO ESTADÍSTICO SIMPLE EN LA MODELIZACIÓN EMPÍRICA: UNA VISIÓN PR distribuciones se ha utilizado ampliamente para la modelización de precios especulativos (ver Campbell et al. (1997)). Una desventaja importante de esta familia es que la mayoría de sus miembros no tienen una función de densidad explícita en forma cerrada y por lo tanto los modeladores trabajan directamente con la función cumulante (logartímo de la función característica) (véase el capítulo 3), que viene dada por: log (t) = i t i t jtj 1 [sign (t)] i jtj 1 + [sign (t)] i , para = 6 1 tan 2 In (jtj) , para = 1 2 , Esta familia se de…ne en función de cuatro parámetros (ver Galambos (1995)): : el exponente característico, donde 0 < 2, : la asimetría, donde 1 < 1, : la ubicación, donde 2 R, : la escala, donde 2 R+ . Esta es una familia continua de densidades unimodales (una moda). Para < 2, la cola de la función de densidad decae como una función potencia (de ahí el término de Pareto), mostrando más dispersión que la normal; a menor , más gruesa es la cola. Para = 0 la densidad es simétrica alrededor de pero > 0 y < 0, dando lugar a densidades sesgadas a la izquierda y a la derecha, respectivamente; el caso j j = 1 da lugar a distributiones estables extremas. El soporte de esta familia depende de los parámetros ( ; ): 8 9 R, para 1; j j = 6 1, < = ( 1; 0) , para < 1; = 1, RX ( ; ) = : ; (0; 1) , para < 1; = 1. Ejemplos (i) Para = 2 y = 0, la familia estable se reduce a la distribución normal. (ii) Para = 1 y = 0, la familia estable se reduce a la distribución de Cauchy con la densidad: f (x; ; ) = 2 + (x NOTE que para el caso 0 < )2 , x 2 R; 2 R; 2 R+ . 10, no existen momentos! 206 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA (iii) Para = 12 y Levy con densidad: f (x; ; ) = r = 1, la familia estable se reduce a la distribución de 2 + (x 3 ) exp 1 2 (x ) ,x> ; 2 R; 2 R+ . La familia de transformación Johnson La familia de distribuciones de transformación Johnson fue motivada inicialmente por un intento de introducir distribuciones no normales que se pueden ver como transformaciones monótonas de la normal. Johnson (1949) propuso la transformación: X = + h (Y ) = + h (Y ) Z , X~N (0; 1) ; h (:) es una función monótona. Los miembros más importantes de esta familia se basan en las siguientes transformaciones: (i) SL , lognormal: h (Y ) = In (Y ), < Z < 1 (ii) SB , rango acotado: h (Y ) = In 1 Y Y , < Z < + . (ii) SU , rango no p acotado: h (Y ) = In Y + 1 + Y 2 , 1 < Z < 1. 4.7.4 Muestra aleatoria En lo que al modelo muestral se re…ere, notemos que, desde el punto de vista de la modelización, los componentes básicos de una muestra aleatoria: XIID (n) : = (X1 ; X2 ; : : : ; Xn ) son los supuestos: (i) Independencia y (ii) Distribución Idéntica. Para datos observacionales la validez de estos supuestos a menudo puede ser evaluada utilizando una batería de técnicas grá…cas discutidas en los capítulos 5-6. En esos capítulos discutimos la relación entre conceptos probabilísticos construyendo un modelo estadístico simple (como Independencia y Distribución Idéntica) y varias grá…cas de datos reales. La discusión es particularmente relevante para la modelización de datos observacionales. 4.8. MUESTRAS ALEATORIAS ORDENADAS* 207 En un intento por mostrar lo fácil que es ir a dar a una muestra no aleatoria, se muestra en la siguiente sección que una simple reorganización de la muestra da lugar a una muestra no aleatoria. 4.8 Muestras aleatorias ordenadas* Considere el caso donde el modelo muestral original, es una muestra aleatoria (X1 ; X2 ; : : : ; Xn ) con fda F (x; Qn ), es decir, (1) F (x1 ; x2 ; :::; xn ; ) = k=1 Fk (xk ; k ), (2) Fk (xk ; k ) = F (x; ), para k = 1; 2; :::; n. Por varias razones, que se estudiarán en los próximos capítulos, a menudo es interesante considerar la muestra ordenada donde las variables aleatorias se arreglan en orden ascendente, es decir, X[1] ; X[2] ; : : : ; X[n] donde X[1] X[2] ::: X[n] . NOTA: es importante destacar que la muestra ordenada constituye una construcción mental, porque antes de que la muestra se realice tal orden no es posible! Sea como fuere, puede ser una sorpresa para el lector que, aunque la muestra (X1 ; X2 ; : : : ; Xn ) es aleatoria (IID), la muestra ordenada X[1] ; X[2] ; : : : ; X[n] no es aleatoria; las variables aleatorias X[1] ; X[2] ; : : : ; X[n] no son ni Independientes ni Idénticamente Distribuidas. Veamos esto en algún detalle. 4.8.1 Distribuciones marginales Consideremos primero la función de distribución de la variable aleatoria X[1] = min X[1] ; X[2] ; : : : ; X[n] y sea su fda denotada por F[1] (x). Luego, a partir de principios básicos, sabemos que: F[1] (x) = P X[1] x =1 P X[1] > x . En vista del hecho de que la variable aleatoria X[1] es la más pequeña, el evento X[1] > x se produce si y sólo si todos los Xk superan a x, es decir, X[1] > x = (X1 > x; X2 > x; :::; Xn > x) . 208 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA De la aleatoriedad de la muestra (X1 ; X2 ; : : : ; Xn ) sabemos que: F (x; )]n , P (X1 > x; X2 > x; :::; Xn > x) = [1 y entonces: F[1] (x) = P X[1] x =1 [1 F (x; )]n . Consideremos ahora la función de distribución de la variable aleatoria X[n] = max X[1] ; X[2] ; : : : ; X[n] y sea su fda denotada por F[n] (x). Luego, a partir de primeros principios, sabemos que: F[x] (x) = P X[n] x . En vista del hecho de que la variable aleatoria X[n] es la más grande, el evento X[n] x se produce si y sólo si todos las Xk no son superadas por x, es decir, X[n] x = (X1 x; X2 x; :::; Xn x) . De la aleatoriedad de la muestra (X1 ; X2 ; : : : ; Xn ) sabemos que: P (X1 x; X2 x; :::; Xn x) = [F (x; )]n , y entonces: F[n] (x) = P X[n] x = [F (x; )]n . Notando que el evento: X[n] x =(a menos k variables aleatorias de X1 ; X2 ; : : : ; Xn no superan x), podemos derivar la función de distribución de cualquier variable aleatoria X[k] de la siguiente manera. De la distribución binomial, sabemos que: n P(exactamente k de X1 ; X2 ; : : : ; Xn no superen x)= [F (x; )]k [1 F (x; )]n k , k y por lo tanto (véase David (1981)): F[k] (x) = P X[k] x = Xn m=k n k [F (x; )]m [1 F (x; )]n m . 4.8. MUESTRAS ALEATORIAS ORDENADAS* 209 NOTE que la fda de X[1] y X[n] constituyen casos especiales de los anteriores resultados. Juntando los resultados anteriores, deducimos que la muestra ordenada X[1] ; X[2] ; : : : ; X[n] es claramente no ID ya que la distribución de X[k] cambia con k. Ejemplo Considere el caso donde (X1 ; X2 ; : : : ; Xn ) constituye una muestra aleatoria de una distribución uniforme: Xk ~U (0; 1) , k = 1; 2; :::; n. Podemos fácilmente demostrar que los dos primeros momentos de estas variables (ver Apéndice A) son: 1 1 E (Xk ) = , V ar (Xk ) = , Cov (Xk ; Xj ) = 0, j 6= k, j; k = 1; 2; :::; n. 2 12 Por otra parte, los dos primeros momentos de la muestra ordenada X[1] ; X[2] ; : : : ; X[n] son los siguientes: k k (n k + 1) , V ar (Xk ) = , n+1 (n + 1)2 (n + 2) j (n k + 1) , j < k, j; k = 1; 2; :::; n. Cov (Xk ; Xj ) = (n + 1)2 (n + 2) E (Xk ) = El hecho de que la covarianza sea distinta de cero indica que la muestra ordenada no puede ser independiente (véase el capítulo 6). 4.8.2 Distribuciones conjuntas La dependencia entre las variables aleatorias ordenadas X[1] ; X[2] ; : : : ; X[n] puede ser mejor vista en el contexto de la distribución conjunta de dos variables, para cualesquiera dos de estas variables aleatorias, por ejemplo X[i] , X[j] (1 i < j n). Por de…nición: F[i;j] (xi ; xj ) = P X[i] xi ; X[j] xj = P(al menos i variables aleatorias de X1 ; X2 ; : : : ; Xn superen xi y al menos j variables aleatorias de X1 ; X2 ; : : : ; Xn superen xj ). 210 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Xn Xk = (exactamente i variables aleatorias de k=j l=i X1 ; X2 ; : : : ; Xn no superen xi y exactamente j variables aleatorias de X1 ; X2 ; : : : ; Xn no superen xj ). Siguiendo el mismo argumento de sentido común utilizado anteriormente podemos deducir que (véase David (1981)): F[i;j] (xi ; xj ) = Xn k=j Xk l=i l! (k n! l)! (n k)! [F (xi )]l [F (xj ) F (xi )]k l [1 Como podemos ver, la distribución conjunta anterior no se puede expresar como un producto de las dos distribuciones marginales y por lo tanto las variables aleatorias X[i] ; X[j] no son independientes. 4.9 Resumen En este capítulo hemos completado la transformación de la formalización inicial de la noción de experimento aleatorio en la forma del abstracto espacio estadístico (S; =; P (:))n ; GnIIDn en un modelo estadístico simple. Los fenómenos de interés que pueden ser modelados en el contexto de este modelo simple son los que muestran patrones de regularidad aleatoria de: (1) Independencia y (2) Distribución Idéntica (homogeneidad). 4.9.1 ¿Qué sigue? Con el …n de mejorar nuestra comprensión de la noción de modelo estadístico simple relacionaremos los conceptos probabilísticos que componen este modelo con los datos reales. El puente entre estos conceptos probabilísticos y las grá…cas de los datos reales se construye en el siguiente capítulo. El problema de la extensión de la formalización con el …n de modelar mecanismos aleatorios más realistas encontrados en la economía se emprenderá en los capítulos 6-8. 4.10 Ejercicios 1. Explique por qué la distribución conjunta se puede utilizar para describir la heterogeneidad y la dependencia entre variables aleatorias. F (xj )]n k . 4.10. EJERCICIOS 211 2. "La marginalización signi…ca que desechar toda la información relativa a la variable aleatoria que estamos sumando (integrando)." Comente. 3. Considere el experimento aleatorio de lanzar una moneda dos veces y de…nir la variable aleatoria: X - el número de Hs y Y5 j el número de Hs el número de T s j. Derivar la distribución conjunta de (X; Y ), suponiendo una moneda legal, y comprobar si las dos variables aleatorias son independientes. 4. Sea la función de densidad conjunta de dos variables aleatorias X, Y : ynx 1 0 1 1 0:2 0:2 0:2 1 0:1 0:1 0:2 (a) Obtenga las distribuciones marginales de X y Y . (b) Determine si X y Y son independientes. (c) Veri…que su respuesta en (b) usando la distribución condicional(es). 5. De…nir el concepto de la independencia de dos variables aleatorias X y Y en términos de las funciones de densidad conjunta, marginal y condicional. 6. Explicar el concepto de muestra aleatoria y explicar por qué a menudo es restrictiva para la mayoría de las series de datos económicos. 7. Describa brevemente la formalización de la condición: [c] podemos repetir el experimento bajo idénticas condiciones, en la forma del concepto de una muestra aleatoria. 8. Explique intuitivamente por qué tiene sentido que cuando la distribución conjunta f (x; y) es normal las distribuciones marginales fx (x) y fy (y) son también normales. 9. De…na los momentos crudos y centrales y demuestre que: Cov (X; Y ) = E (XY ) E (X) E (Y ) . ¿Por qué nos importan estos momentos? 10. Explique el concepto de una muestra ordenada. 11 Explique intuitivamente por qué una muestra aletoria ordenada no es ni Independiente ni Idénticamente Distribuida. 12. Explique los conceptos de identi…cabilidad y parametrización. 13 "Al establecer una relación entre los modelos estadísticos y los modelos teóricos (económicos) a menudo necesitamos reparameterizar / restringir el primero con el …n de hacer que los parámetros estimados sean teóricamente signi…cativos". Explique. 212 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA Apéndice B distribuciones de dos variables FALTA INCLUIR DISTRIBUCIONES Capítulo 5 El concepto de muestra no aleatoria 5.1 Introducción En este capítulo damos el primer paso para extender el modelo estadístico simple (formalizado en los capítulos 2-4) en las direcciones que permiten la dependencia y la heterogeneidad. Ambas dimensiones son excluidas en el contexto del modelo estadístico simple, porque este último se basa en la noción de muestra aleatoria: un conjunto de variables aleatorias que son Independientes e Idénticamente Distribuidas (IID). En este capítulo nos concentramos en el concepto de dependencia, allanando el camino para modelos estadísticos más elaborados en los siguientes capítulos.También extendemos el puente entre conceptos teóricos y datos reales introducidos en el capítulo 5, mediante la introducción de algunas técnicas grá…cas adicionales. 5.1.1 La historia hasta ahora En el capítulo 2 comenzamos nuestra búsqueda de un marco de referencia matemático en el contexto del cual podemos modelar fenómenos estocásticos: fenómenos exhibiendo regularidad aleatoria. Vimos la teoría de la probabilidad como el tringlado matemático apropiado que nos permite modelar la información sistemática de tales fenómenos. En un intento por motivar este marco de referencia matemático, introdujimos la teoría de la probabilidad como una formalización (matematización) de un mecanismo aleatorio simple, llamado experimento aleatorio , de…nido por las siguientes tres condiciones: 213 214 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA [a] todos los posibles resultados distintos se conocen a priori, [b] en cualquier prueba particular, los resultados no se conoce a priori, pero existe una regularidad perceptible de ocurrencia relacionada con estos resultados, [c] se puede repetir en condiciones idénticas. La idea detrás de esta formalización es doble. En primer lugar, poner de mani…esto el hecho de que la teoría de probabilidades, al igual que otras ramas de la matemática, no es sólo una hábil sucesión de teoremas y lemas! Es una rama de la matemática, que surgió de la necesidad de modelar ciertos fenómenos de interés. Además, ella cambia continuamente, ampliando y extendiendo su ámbito de aplicación a …n de proporcionar un marco de referencia para modelar fenómenos estocásticos. En segundo lugar, resaltamos la conexión entre los patrones de regularidad aleatoria y los correspondientes conceptos matemáticos abstractos; el primero motivando la formalización del último. El mecanismo aleatorio representado por un experimento aleatorio fue elegido por ser muy sencillo (los patrones de regularidad aleatoria sean manejables), pero no tan sencillo (para parafrasear un enunciado de Einstein), con el …n de motivar los principales conceptos que subyacen a un modele estadístico. La formalización matemática inicial de , dada en el capítulo 2, se produjo en la forma de un espacio estadístico simple (S; =; P (:))n ; GnIID , que tiene dos componentes: (i) Espacio de probabilidad: (S; =; P (:))n = (S; =; P (:)) (S; =; P (:)) (S; =; P (:)) (i) Espacio muestral: GnIID = fA1 ; A2 ; :::; An g. Estos dos pilares constituyen la base matemática sobre la cual uno puede construir la teoría de la probabilidad como una rama de la matemática. Desde el punto de vista de la modelación, sin embargo, este marco matemático es más abstracto de lo necesario porque los datos son a menudo numéricos y, por lo tanto, en los capítulos 3 y 4, nos propusimos metamorfoserlo en una formulación equivalente, sobre la recta real. Es importante señalar que, incluso después de la metamorfosis, esta formulación abstracta sigue siendo de interés, porque constituye la base matemática de la teoría de la probabilidad. Cada vez que introducimos un nuevo concepto en el contexto de la formulación transformada tenemos que volver a la formulación abstracta para comprobar si tiene sentido o no. Como se muestra a continuación, en la extensión del modelo estadístico simple mantenemos la noción de un espacio de probabilidad (S; =; P (:)), pero de…nimos en él las variables aleatorias, 5.1. INTRODUCCIÓN 215 que pueden ser dependientes y heterogéneas (véase el capítulo 8 para el más detalles). La metamorfosis del abstracto espacio estadístico (S; =; P (:))n ; GnIID tomó la forma de un modelo estadístico (general) simple. [i] Modelo de probabilidad: = ff (x; ); 2 ; x 2 Rg, IID [ii] Modelo muestral: X(n) := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. En el capítulo anterior ha sido construido un puente entre los conceptos probabilísticos de: (i) Distribución (una distribución acumulada o una función de densidad), (ii) Independencia y (iii) variables aleatorias Idénticamente Distribuida, y los correspondientes patrones de regularidad aleatoria exhibidos en una serie de pantallas grá…cas de los datos observados. En la extensión del modelo estadístico simple también necesitamos extender este puente con el …n de introducir nuevas técnicas grá…cas relevantes para los patrones de regularidad aleatoria dependencia y heterogeneidad. 5.1.2 Extendiendo un modelo estadístico simple El alcance previsto del modelo estadístico simple es limitado por el concepto de una muestra aleatoria; este sólo se puede utilizar para modelar los fenómenos estocásticos que exhiben independencia y homogeneidad completa sobre t. Desafortunadamente, este es raramente el caso en los datos economicos. Los datos económicos a menudo muestran características de muestra no aleatoria: dependencia y / o heterogeneidad. Una serie de tiempo económica típica se muestra en la …gura 6.1, donde los datos mensuales del índice de Producción Industrial (1985 = 100) de los EE.UU, para el período de enero 1960 hasta mayo 1994, se gra…can a través del tiempo. 216 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Figura 6.1 Índice de producción industrial. Usando la experiencia adquirida en el capítulo anterior, podemos ver que esta grá…ca de tiempo exhibe una dependencia positiva en forma de ciclos económicos y una heterogeneidad distinta, en forma de una tendencia ascendente y un posible patrón de estacionalidad. El objetivo principal de los próximos capítulos es extender el modelo estadístico simple con el …n de modelar los fenómenos observables, tales como el comportamiento de los rendimientos de las acciones, los tipos de cambio, la in‡ación y el crecimiento del PIB, lo cuales no pueden ser vistos como realizaciones de una muestra aleatoria. El objetivo principal de este capítulo es dar el primer paso hacia la extensión del modelo estadístico simple a …n de mejorar su alcance. Este paso toma la forma de introducción de algunas nociones de dependencia. 5.1.3 Introduciendo una taxonomía fundamental Uno de los temas básicos que están en la base de la discusión en este libro es una clasi…cación fundamental de los supuestos probabilísticos en tres grandes categorías: (D) Distribución, (M) Dependencia, (H) Heterogeneidad. Esta taxonomía se utiliza ampliamente en los capítulos que siguen, tanto pedagógicamente como por razones de fondo. Constituye uno de los temas uni…cadores de la aproximación a la inferencia estadística y a la modelizaciónque corre a través de este libro. La taxonomía no se supone que debe proporcionar 5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR 217 una partición del conjunto de supuestos probabilísticos; sólo un grupo amplio. Algunas hipótesis se extienden sobre la frontera entre estas categorías pero que no reduce la utilidad de la taxonomía. En esta etapa es importante destacar que, en términos de la taxonomía anterior, un modelo estadístico simple puede ser visto como la imposición de supuestos extremos en dos de las tres categorías. De la categoría (M) (para memoria) se impone la Independencia y de la categoría (H) homogeneidad completa: (D): Distribución: distribución arbitraria, (M) Dependencia: variables aleatorias Independientes, (H) Heterogeneidad: variables aleatorias Idénticamente Distribuidas. De la misma manera podemos ver los modelos estadísticos concebidos con mayor alcance como construidos sobre los supuestos de las tres distintas categorías anteriores que no sean las de Independencia de la categoría (M) y Distribuciones Idénticas de la categoría (H). Esto sugiere que un prerequisito de esta ampliación del ámbito de aplicación previsto es la disponibilidad de las distintas nociones de dependencia y heterogeneidad más allá de los dos casos extremos restringidos. El concepto de modelo estadístico, en general, es de suma importancia en la inferencia estadística. El propósito principal de un modelo estadístico es proporcionar un resumen adecuado de la información sistemática en los datos mediante la captura de toda la información estadística sistemática referida a los patrones de regularidad aleatoria exhibidos por los datos. 5.2 Muestra no aleatoria: una visión preliminar ¿Qué hace que una muestra aleatoria sea un concepto de fundamental importancia? La respuesta corta es que las hipótesis de Independencia y Distribución Idéntica simpli…can tanto la modelizacióncomo la inferencia estadística referentes a modelos estadísticos simples. Esta simpli…cación es encapsulada por la forma de la reducción de la distribución conjunta de la muestra. Para ver esto, recordamos al lector que: Independencia: f (x1 ; x2 ; :::; xn ; ) = n Q k=1 Distribución idéntica: fk (xk ; k) fk (xk ; k) ; para todo x 2 Rn ; = f (xk ; ) ;para todo k = 1; 2; :::; n: 218 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA El resultado …nal de estos supuestos es que la distribución conjunta se simpli…ca enormemente por su reducción a un producto de distribuciones marginales univariadas (idénticas) : I f (x1 ; x2 ; :::; xn ; ) = n Y fk (xk ; ID k) = k=1 n Y k=1 f (xk ; ) ; para todo x 2 Rn . (6.1) Observando este resultado podemos ver que el supuesto de muestra aleatoria simpli…ca drásticamente la distribución conjunta (distribución de la muestra) en dos aspectos importantes: (i) reducción de la dimensionalidad: f (x1 ; x2 ; :::; xn ; ) es n-dimensional y f (xk ; ) es uni-dimensional y (ii) reducción de parámetros: el número de parámetros desconocidos es a menudo mucho más pequeños que el de . Ejemplo Considere el caso donde la distribución conjunta de las variables aleatorias (X1 ; X2 ; :::; Xn ) es normal, es decir, f (x1 ; x2 ; :::; xn ; ) toma la forma: 0 B B B B B @ X1 X2 X3 .. . Xn 1 C C C C C A 02 1 3 2 B6 7 B6 2 7 B6 7 N B6 3 7 B6 .. 7 @4 . 5 n 11 6 21 6 6 31 6 6 .. 4 . n1 12 13 22 23 32 33 ::: ::: ::: n2 n3 ::: 1n 2n 3n .. . nn 31 7C 7C 7C 7C : 7C 5A (6.2) En su forma actual, esta distribución conjunta tiene por lo menos N = n + 21 [n (n + 1)] parámetros desconocidos: := ( i ; con medias: (E (Xi ) := bido a la simetría) i; i ij ; i; j = 1; 2; ::::; n) ; = 1; 2; :::; n) y Cov (Xi ; Xj ) = Cov (Xj ; Xi ) := 1 2 [n (n + 1)] covarianzas (de- ij ; i; j = 1; 2; ::::; n. Si imponemos el supuesto de independencia de la distribución conjunta el resultado será que las covarianzas son cero: ij = ii ; para i = j; 0; para i 6= j 5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR la distribución conjunta original se reduce a: 0 1 02 3 2 X1 0 0 11 1 B X2 C B6 7 6 0 0 22 B C B6 2 7 6 B X3 C B6 7 6 0 0 33 B C N B6 3 7 6 B .. C B6 .. 7 6 .. @ . A @4 . 5 4 . Xn 0 0 0 n ::: ::: ::: .. . 0 0 0 .. . ::: nn 219 31 7C 7C 7C 7C : 7C 5A En términos de la reducción (6.1), la primera igualdad es el resultado de la imposición de Independencia, con las densidades marginales de una variable fk (xk ; k ), k := ( k ; kk ), k = 1; 2; :::; n; estando: Xk N( k; kk ) ; k (6.4) = 1; 2; :::; n: Esta reducción, aunque drástica, no produce un modelo operativo, porque hay todavía 2n parámetros desconocidos: k := ( k; kk ) ; k = 1; 2; :::; n; que aumentan con el tamaño de muestra! La imposición del supuesto de distribución idéntica en la segunda fase en (6.1) garantiza que: 1 = 2 = = n = := ; 2 y por lo tanto la densidad conjunta se reduce a un producto de densidades marginales univariadas f (xk ; ) ; := ( ; 2 ) ; de la forma: Xk N ; 2 ; k = 1; 2; :::; n: NOTE la reducción correspondiente en los parámetros desconocidos en (6.1): := (( i ; ij ; i; j = 1; 2; ::::; n) k := ( k; kk ) ; k = 1; 2; :::; n) := La reducción anterior produce el modelo normal simple: [i] Modelo de probabilidad: = ( 1 f (x; ) = p exp 2 ( )2 (x 2 2 ) ; := ; 2 2R ) R+ ; x 2 R. ; 2 . 220 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA [ii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. Este ejemplo ilustra con mucha claridad la drástica reducción tanto en la dimensión como en el número de parámetros desconocidos lograda por el supuesto de muestra aleatoria. De la misma manera, el ejemplo anterior también se puede utilizar para indicar el tipo de di…cultades que surgirán en el caso de una muestra no aleatoria, donde uno o ambos de los supuestos no se cumplen. En cuanto a (6.2) nos damos cuenta de que las bendiciones anteriores en el caso de una muestra aleatoria son maldiciones en el caso de una muestra no aleatoria. Si no se imponen restricciones sobre la dependencia y la heterogeneidad surgen dos problemas difíciles: (a) la maldición de dimensionalidad: f (x1 ; x2 ; :::; xn ; ) es n dimensional, (b) la maldición de los parámetros imprevistos: el número de parámetros desconocidos en , por ejemplo N , crece con el tamaño muestral n: 5.2.1 Condicionalidad secuencial Vamos a considerar en primer lugar la maldición de la dimensionalidad. Para los efectos de la modelizacióne inferencia estadística la alta dimensionalidad de la distribución conjunta es un problema difícil. La clave para disipar la maldición de la dimensionalidad se presentó en el capítulo anterior en la forma de una distribución condicional. Se mostró que en el caso de dos variables aleatorias arbitrarias X; Y (de…nidas en el mismo espacio de probabilidad) se cumple la siguiente relación: f (x; y; ) = f (yjx; '2 ) fx (x; '1 ) , para todo (x; y) 2 RX RY . (6.5) NOTAS: (i) La reducción es simétrica con respecto a X y Y en el sentido de que: f (x; y; ) = f (xjy; 2 ) fy (y; 1) , para todo (x; y) 2 RX RY (6.6) (ii) f (yjx; '2 ) y f (xjy; 2 ), son ambas distribuciones de una variable. (iii) La reducción de la dimensionalidad no va acompañada de una reducción correspondiente del número de parámetros desconocidos §. Con el …n de evitar la introducción de una notación engorrosa considerar un ejemplo del caso simple de dos variables. 5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR 221 Ejemplo Considere el caso donde las variables aleatorias (X; Y ) están normalmente distribuidas, es decir, f (x; y; ) toma la forma: Y X 1 ~N ; 2 11 12 21 22 La reducción en (6.6) toma la forma (ver capítulo 4): X~N ( 2 ; 22 ) ; donde 0 := muestran que: 1 := ( 1 ; 2; (Y jX = x) ~N 1 2, 11 ; 12 ; := 1 12 22 22 ) ; '1 2 , + 1 x; = 11 0 22 ) , := ( 2 ; 2 , x 2 RX , 2 12 22 '2 := . Estos resultados 0; 1; 2 . y por lo tanto el número de parámetros desconocidos sigue siendo el mismo! Esto es cierto en el caso n dimensional pero la notación se complica un poco. Comparando (6.5) al caso en que X; Y son independientes: f (x; y; ) = fx (x; 1 ) fy (y; 2) , para todo (x; y) 2 RX RY (6.8) podemos ver que en el caso no independiente la distribución condicional f (yjx; ) es la clave para una reducción de una distribución de dos variables, a un producto de dos distribuciones univariadas. Ejemplo Volviendo al caso anterior, donde las variables aleatorias (X1 ; X2 ) tienen una distribución normal, se puede observar que: 12 =0) 1 Es decir, bajo la restricción (Y jX = x) j = 0; 12 0 = 1 y 2 = 11 . = 0, f (yjx; '2 ) toma la forma: 12 =0 ~N ( 1 ; 11 ) , x2R lo que implica que f (yjx; '2 ) j 12 =0 = fy (y; 2 ). Resulta que la restricción 12 = 0 es a la vez necesaria y su…ciente para que la condicional se reduzca 222 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA a la distribución marginal y por lo tanto bajo esta restricción la distribución conjunta de (X; Y ) satisface la condición de independencia en (6.8). La reducción en (6.5) se puede extender fácilmente al caso de n variables con condicionalidad secuencial. Consideremos el caso de tres variables aleatorias (X1 ; X2 ; X3 ): f (x1 ; x2 ; x3 ; ) = f (x3 jx2 ; x1 ; = f (x3 jx2 ; x1 ; 3) f (x2 ; x1 ; #1 ) 3 ) f (x2 ; x1 ; 2 ) f (x1 ; 1) , (x1 ; x2 ; x3 ) 2 R3X donde primero condicionamos X3 sobre (X1 ; X2 ) y luego condicionamos X2 sobre X1 . En el caso general de n variables, la condicionalidad secuencial produce: f (x1 ; x2 ; x3 ; :::; xn ; ) no IID = f1 (x1 ; 1) n Y k=2 fk (xk jxk 1 ; :::; x1 ; k) , x 2 RnX . (6.9) Esto disipa la maldición de la dimensionalidad debido a que el lado derecho es un producto de densidades de una variable pero surgen dos problemas distintos: (c) El conjunto de condicionalidad creciente: el número de variables condicionantes cambia con el índice en el sentido de que fk (xk jxk 1 ; :::; x1 ; k ) tiene k 1 variables condicionantes pero el índice cambia K = 2; 3; :::; n, haciendo estas densidades diferentes, por ejemplo para n = 5: f (x2 jx1 ; 2 ), f (x3 jx2 ; x1 ; 3 ), f (x4 jx3 ; x2 ; x1 ; 4 ), f (x5 jx4 ; x3 ; x2 ; x1 ; 5 ). d) El problema de condicionalidad estocástica: el lado derecho de (6.9) es el producto de n distribuciones univariadas (n 1 condicionales y una marginal) para todo valor de x 2 RnX , es decir, una n tupla tal para cada valor de x 2 RnX . En la reducción en (6.5) existe una distribución conjunta f (x; y; ) y una densidad marginal fx (x; '1 ), pero varias densidades condicionales f (yjx; '2 ); una para cada valor de x 2 RX , ya que la noción de densidad condicional se de…ne por un valor especí…co de la variable condicionante. Estos problemas son sintomáticos de la dependencia entre las variables aleatorias en la sucesión porque las variables aleatorias implicadas nunca 5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR 223 olvidan. El hecho de importancia es que la manera de hacer frente a ambos problemas es imponer algunas restricciones sobre la dependencia y la heterogeneidad del conjunto de variables aleatorias (X1 ; X2 ; :::; Xn ) (véase el capítulo 8). Con el …n de convencer al lector de que necesitamos las restricciones de ambas categorías, volvamos al ejemplo Normal con independencia impuesta. La reducción en (6.10) se simpli…ca a: I f (x1 ; x2 ; :::; xn ; ) = n Y k=1 fk (xk ; k) ; para todo x 2 RnX (6.10) pero el problema de sobre parametrización permanece: k := ( k ; kk ) ; k = 1; 2; :::; n. Esto es sintomático de la heterogeneidad de la sucesión. Atando los distintos hilos de nuestro razonamiento anterior, concluimos que la maldición de la dimensionalidad surgida de la noción de muestra no aleatoria puede ser teóricamente eliminada usando condicionalidad secuencial, pero esto plantea otros dos problemas (el conjunto de condicionalidad creciente y la condicionalidad estocástica). También permanece intacto el problema de los parámetros incidentales. 5.2.2 Manteniendo un ojo en el bosque! Nuestro objetivo en este y en los próximos dos capítulos es ajardinar el territorio más allá de variables aleatorias Independientes e Idénticamente Distribuidas (IID) mediante la introducción de formas alternativas de dependencia y heterogeneidad que nos permitan capturar los patrones de regularidad aleatoria exhibidos por los datos de series de tiempo, como los de la …gura 6.1. La discusión preliminar en conexión con las di…cultades que surgen en el caso de muestras no aleatorias trajo el papel de varios conceptos útiles que se re…eren a las distribuciones conjunta y condicional. Dos cosas se han hecho evidentes a partir de la discusión anterior: (i) la clave para domesticar sucesiones no IID es la noción de condicionalidad y (ii) la medición de la dependencia tiene que ver con la relación entre las distribuciones conjuntas y marginales o de forma equivalente entre las distribuciones condicionales y marginales. El objetivo principal de este capítulo es introducir algunas nociones de dependencia en conexión con los pares de variables aleatorias, como preludio a 224 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA la discusión del caso general de una sucesión de variables aleatorias en el capítulo 8. Se presta especial atención a las variables aleatorias cualitativamente diferentes. El capítulo 7 se concentra en el problema de condicionalidad estocástica y se discute la forma en que la distribución condicional y sus momentos se pueden ampliar para hacer frente a este problema. Los conceptos desarrollados en estos dos capítulos son luego utilizados en el capítulo 8 para proporcionar una discusión sistemática de sucesiones de variables aleatorias en lo que respecta a la dependencia y la heterogeneidad. En otras palabras, todos estos temas serán unidos en el capítulo 8 para mostrar cómo el territorio recién trazado de la jungla no IID puede ayudar a modelar los patrones de regularidad aleatoria asociados con la dependencia y / o heterogeneidad. 5.2.3 Modelos estadísticos más allá del simple: un punto de vista preliminar La discusión preliminar sienta las bases para extender el modelo estadístico simple a modelos más generales que permitan alguna cierta dependencia y / o heterogeneidad. Decimos cierta dependencia y / o heterogeneidad, porque los modelos estadísticos con dependencia sin restricciones y / o heterogeneidad son inalcanzables en el caso de datos no experimentales (observacionales). En un intento por ser más concretos, volvamos al ejemplo del caso en que la distribución conjunta de (X1 ; X2 ; :::; Xn ) es normal, es decir, f (x1 ; x2 ; :::; xn ; ) toma la forma (6.2) donde := ( i ; ij ; i; j = 1; 2; :::; n) incluye N = n + 1 n (n + 1) parámetros desconocidos. En el caso de los datos observacionales 2 tenemos justamente una sola realización de la muestra (X1 ; X2 ; :::; Xn ) es decir, n números (x1 ; x2 ; :::; xn ) y no hay manera de que podamos estimar los N parámetros desconocidos (véase el capítulo 11). En el caso de datos experimentales estamos a menudo en condiciones de generar más de una realización de la muestra, por ejemplo (x1i ; x2i ; :::; xni ), i = 1; 2; :::; M . Estas realizaciones adicionales, bajo ciertas restricciones, serán su…cientes para estimar todos los N parámetros desconocidos. Estos métodos, sin embargo, están fuera del alcance de este libro que se centra en la modelizacióny la inferencia con datos observacionales. Volviendo a los modelos estadísticos para datos observacionales, NOTEMOS, como preludio a la discusión que sigue, que cada uno de estos modelos operacionales se componen de tres componentes compatibles básicos de las categorías generales mencionadas en el caso del modelo estadístico simple: 5.3. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: DISTRIBUCIÓN CONJUNTA225 ( D) Distribución: univariada arbitraria, (M) Dependencia: Independencia, Markov, martingala, no correlación, ... (H) Heterogeneidad:. Distribución idéntica, estacionariedad débil y estricta, ... Nuestra tarea principal en este y los próximos dos capítulos es enriquecer las categorías de Dependencia y Heterogeneidad con una variedad de conceptos entre los dos extremos de Independencia y Distribución Idéntica en un extremo y dependencia sin restricciones y heterogeneidad en el otro extremo del espectro. En la modelizaciónel objetivo es combinar los componentes de las tres categorías de manera coherente con el …n de especi…car modelos estadísticos operativos para datos observados. El secreto de la modelizaciónradica en la utilización de toda la información sistemática en los datos. Qué es sistemática, no obstante, depende de la e…cacia con la que usemos los conceptos teóricos para capturar los patrones de regularidad que llamamos regularidad aleatoria. 5.3 Dependencia entre dos variables aleatorias: distribución conjunta Intuitivamente, la dependencia probabilística entre dos variables aleatorias X y Y se re…ere a "cómo la información acerca de X nos ayuda a inferir el valor de Y ." Si X y Y son perfectamente dependientes, conociendo X nos permite inferir Y , con probabilidad uno. En este sentido, la dependencia perfecta proporciona una contraparte probabilística a la noción matemática de dependencia funcional, donde Y = h (X) para alguna función: h (:) : RX ! RY . Además, la independencia ofrece una contrapartida probabilística a la idea de dependencia no funcional entre dos variables matemáticas. La principal diferencia es que la dependencia probabilística, a diferencia de la dependencia funcional, tiene sentido para los casos entre estos dos extremos. La proposición "las variables aleatorias X y Y son altamente (pero no perfectamente) dependientes" es una proposición probabilística signi…cativa. La medición del grado de dependencia probabilística, sin embargo, es un problema difícil y multifacético. 226 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA En el capítulo 2 de…nimos la independencia entre dos eventos A; B, en = (S; =; P (:) siendo el espacio de probabilidad correspondiente) de la siguiente manera: P (A \ B) = P (A) P (B) o P (A j B) = P (A) ; para P (B) > 0: Podríamos fácilmente extender esto a la independencia entre cualesquiera dos subespacios de eventos ( campos) A y B de =: P (A \ B) = P (A) P (B) ; (para todos los eventos A 2 A y B 2 B) o P (A j B) = P (A) ; (para todos los eventos A 2 A y B 2 B) ; P (B) > 0: Esta de…nición se puede adaptar fácilmente al caso de dos variables aleatorias X y Y de…nidas en (S; =; P (:)) Eligiendo A := (X) y B := (Y ) ; donde (X) denota el mínimo campo generado por X; véase el capítulo 3. En el caso donde los dos subespacios de eventos A y B no son independientes (es decir, son dependientes), esto ya no es cierto y la diferencia entre las dos partes: kP (A \ B) P (A) P (B)k ; o kP (A j B) P (A)k donde kk denota cierta medida signi…cativa de distancia, se puede utilizar como medida de dependencia. Ilustraciones Sean A = y B =, las siguientes son medidas de dependencia entre ellos: (1) (A; B) = sup jP (A \ B) P (A) P (B)j ; A2A,B2B (2) (3) (A; B) = (A; B) = sup A2A,B2B sup A2A,B2B jP (A j B) P (A)j ; para P (B) > 0; P(A\B) P(A) P(B) P(A) P(B) , para P (B) > 0; P (A) > 0 Eligiendo A := (X) y B := (Y ) ; las cantidades anteriores miden la dependencia entre las variables aleatorias X; Y . 5.3. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: DISTRIBUCIÓN CONJUNTA227 Ejemplo Consideremos de nuevo nuestro experimento aleatorio favorito de lanzar una moneda al aire dos veces y tomar nota de los resultados con S = f(HH); (HT ); (T H); (T T )g, el espacio de eventos siendo el conjunto potencia de S, es decir, = := P (S). De…nir las variables aleatorias X (HH) = X (T T ) = 0; X (HT ) = X (T H) = 1; Y (HH) = Y (HT ) = 0; Y (T T ) = X (T H) = 1; Z (HH) = 0; X (HT ) = Z (T H) = 1; Z (T T ) = 2: (X) : = S; ;; A; A ; A := f(HH) ; (T T )g ; (Y ) : = S; ;; B; B ; B := f(HH) ; (HT )g ; (Z) : = S; ;; C1 ; C2 ; C3 ; C1 ; C2 ; C3 ; C1 := f(HH)g ; C2 : = f(HT ) ; (T H)g ; C3 := f(T T )g : A partir de estos resultados podemos deducir que las variables aleatorias X y Y son independientes: P (A \ B) = 1 = P (A) P (B) para todo A 2 4 (X) y B 2 (Y:) Por otro lado, las variables aleatorias X y Z no son independientes porque para al menos uno de los eventos de intersección: P (A \ C1 ) = 1 1 6= P (A) P (C1 ) = : 4 8 Teniendo en cuenta el hecho de que las variables aleatorias X y Z son dependientes podemos proceder a medir su dependencia con cualquiera de las medidas (1) - (3). Como X, Z son dependientes, se mide su dependencia usando cualquiera de las medidas (1)-(3) anteriores: 228 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA 1 1 1 1 = P (A \ C1 ) = P f(HH)g ; P (A) P (C1 ) = = ; 4 2 4 8 1 1 1 0 = P (A \ C2 ) = ;; P (A) P (C2 ) = = ; 2 2 4 1 1 1 1 = P (A \ C3 ) = P f(T T )g ; P (A) P (C3 ) = = ; 4 2 4 8 1 3 3 1 = P A \ C 1 = P f(T T )g ; P (A) P C 1 = = ; 4 2 4 8 1 1 1 1 = P A \ C 2 = P f(HH)g ; P (A) P C 2 = = ; 2 2 2 4 1 3 1 3 = P A \ C 3 = P f(HH)g ; P (A) P C 3 = = ; 4 2 4 8 1 ( (X) ; (Z)) = sup jP (A \ B) P (A) P (B)j = : 4 A2 (X),B2 (Z) Las otras medidas de dependencia, tales como (A; B) y (A; B) (A, B) son evaluadas de manera similar. En el capítulo 4 de…nimos la independencia entre dos variables aleatorias X y Y usando la función de densidad conjunta de la siguiente manera: f (x; y) = fX (x) fY (y) ; para todo (x; y) 2 RX RY : ((6.11)) Esta igualdad sugiere que en el caso en que las variables aleatorias X; Y son independientes, la distribución conjunta contiene la misma información que las dos distribuciones marginales Ejemplo Considere la distribución conjunta de las variables aleatorias X y Y anteriores: ynx 0 1 fY (y) 0 0:25 0:25 0:50 1 0:25 0:25 0:50 fX (x) 0:50 0:50 1 ((6.12)) Se puede veri…car fácilmente que estas dos variables aleatorias son realmente independientes. 5.3. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: DISTRIBUCIÓN CONJUNTA229 En términos de la función de densidad condicional hemos de…nido la independencia entre dos variables aleatorias X y Y a través de: f (y j x) = fY (y) ; para todo (x; y) 2 RX ((6.13)) RY : Debido a la simetría del concepto de independencia, ésta puede de…nirse de forma equivalente por: f (x j y) = fX (x) ; para toda (x; y) 2 RX RY : En el caso donde las variables aleatorias X y Y no son independientes, son dependientes, (6.11) ya no es cierta; la distribución conjunta contiene más información que las dos distribuciones marginales. La información adicional es de hecho la información relativa a la dependencia entre las variables aleatorias X y Y . En este sentido las funciones de la forma: kf (x; y) fX (x) fY (y)k ; o kf (y j x) fY (y)k (6.14) se pueden utilizar como medidas de dependencia basada en funciones de densidad. Ejemplos 1. de Hoe¤ding: (X; Y ) = Z 1 1 Z 1 1 : 2. Valor absoluto análogo a 1 (X; Y ) = 12 2 (X; Y ) = 12 Z Z 1 1 1 1 Z Z 1 1 1 1 jf (x; y) fX (x) fY (y)j2 f (x; y) dxdy ; jf (x; y) fX (x) fY (y)j2 fX (x) fY (y) dxdy : 3. Distancia informacional: Z 1Z 1 K (X; Y ) = In 1 fX (x) fY (y)]2 f (x; y) dxdy : [f (x; y) 1 f (x; y) fX (x) fY (y) f (x; y) dxdy; donde In denota el logarítmo natural (base e); esta medida se basa en la medida Kullback de divergencia entre dos distribuciones. 230 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA 4. Coe…ciente cuadrático de contingencia: Z 2 ' (X; Y ) = 1 1 Z 1 1 f (x; y) fX (x) fY (y) f (x; y) dxdy 1 : 5. Coe…ciente rango de Spearman: S (X; Y ) = 3 Z 1 1 Z 1 [2FX (x) 1] [2FY (y) 1] f (x; y) dxdy; 1 donde [2FX (x) 1] es elegido en lugar de FX (x) para representar la última distribución simétrica alrededor de cero. De hecho, se puede demostrar que para u = FX (x), sea cual sea la naturaleza de FX (x), la distribución de u es uniforme con el rango [0; 1], es decir, FU (u) = u, para 0 u 1 (ver capítulo 3). Por lo tanto, la distribución de U = [2FX (x) 1] es uniforme alrededor de 0, es decir, [2FX (x) 1] U [ 1; 1] : La presencia de las integrales múltiples en las medidas anteriores de dependencia basadas en funciones de densidad, las hace engorrosas y muy cerca de irrealizables en el caso de más de dos variables aleatorias. Como argumentamos en la sección anterior necesitamos medidas de dependencia de una sucesión de variables aleatorias (X1 ; X2 ; :::; Xn ). Por otra parte la mezcla de medidas de condición (1) - (3), basadas en espacios de subeventos, son más fáciles de manejar, ya que implican la maximización sobre conjuntos de subconjuntos. Como se muestra en el capítulo 8, la última medida de dependencia forma la base de las llamadas condiciones mixtas sobre dependencia temporal en una sucesión de variables aleatorias. 5.4 5.4.1 Dependencia entre dos variables aleatorias: momentos Momentos conjuntos y dependencia Medir dependencia usando distancias, como aquellas mencionadas anteriormente, puede ser una tarea muy difícil y por lo tanto en la modelizacióna 5.4. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: MOMENTOS231 menudo recurrimos a medidas basadas en los momentos. La conexión entre estas dos categorías de medidas de dependencia pasa a través del siguiente lema. Lema de independencia. Se dice que dos variables aleatorias X; Y son independientes, si para cualesquiera funciones bien comportadas (Borel) u = g (X) y v = h (Y ), f (g (X) ; h (Y )) = fu (g (X)) fv (h (y)) ; para todo (u; v) 2 R2 : (6.15) En términos simples, este resultado signi…ca que si X y Y son independientes, entonces cualesquiera funciones de estas variables aleatorias, por ejemplo u = X 2 y v = InY , también son variables aleatorias independientes. Claramente, este lema no puede ser usado para establecer la independencia, porque uno necesita demostrar que (6.15) se cumple para todas las posibles funciones de Borel; una tarea imposible. Es, sin embargo, muy útil por dos razones. En primer lugar, se puede utilizar para demostrar la no independencia encontrando un solo contraejemplo. En segundo lugar, es de interés teórico, porque después de establecer la independencia utilizando, por ejemplo (6.11), se puede declarar que cualesquiera funciones de Borel de las variables aleatorias originales son también necesariamente independientes. UNA PALABRA DE PRECAUCIÓN: hay que destacar que en el caso de que X y Y no sean independientes (6.15) puede ser cierta para algunas funciones g(X) y h(Y ), como demuestra el siguiente ejemplo. Ejemplo Considere la distribución conjunta que se especi…ca a continuación: ynx 1 0 1 1 0 1 0 0:25 0 , 0:25 0:25 0 0 0 0:25 vnu 0 1 fv (v) 1 0:25 0:25 0:50 0 0:25 0:25 0:50 fx (x) 0:50 0:50 1 (6.16) X y Y no son independientes porque: f ( 1; 1) = 0 6= fx ( 1) fy ( 1) = 0:062. Sin embargo, las variables aleatorias u = X 2 y v = Y 2 resultan independiente, como puede comprobarse a partir de (6.16) (b). La moraleja de 232 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA esta historia es que incluso en los casos en que las variables aleatorias X y Y no son independientes, es posible que existan algunas funciones de las que resultan ser independientes. Teniendo en cuenta el hecho de que la experanza E (:) está siempre de…nida con respecto a una distribución especí…ca, no debería ser una sorpresa saber que la condición (6.15) puede escribirse de forma equivalente en la siguiente forma: E (g (X) ; h (Y )) = E (g (X)) E (h (y)) ; (6.17) suponiendo que las esperanzas existen. Es importante NOTAR que E (:) en el lado izquierdo se de…ne en términos de f (x; y), pero los otros dos se de…nen en términos de fx y fy : E (h (X) g (Y )) = E (h (X)) = E (g (Y )) = Z Z Z 1 1 1 1 1 Z 1 [h (X) g (Y )] f (x; y) dxdy; 1 [h (X)] fX (x) dx; [g (Y )] fY (y) dy: 1 Utilizando este resultado en conjunción con funciones simples de X y Y , lo cual da lugar a los momentos de la distribución conjunta, podemos de…nir diferentes formas de independencia (y dependencia) en términos del producto conjunto y momentos centrales. En el caso donde todos los momentos de las variables aleatorias X y Y existen (E X k < 1 y E Y k < 1;para todo k = 1; 2; :::), podemos usar el lema anterior de independencia en conjunción con los momentos producto conjuntos para deducir que X y Y son independientes si y sólo si: := E X k Y m = E X k E (Y m ) ; para todo k; m = 0; 1; 2; :::. (6.18) Este es, otra vez, un resultado no operacional para demostrar la independencia, porque tenemos que veri…car estas igualdades para un número in…nito de momentos conjuntos. Sin embargo, su negación se puede utilizar para trazar el territorio entre las dos posiciones extremas de independencia y dependencia completa, en el sentido de que si: (a) 0 km 5.4. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: MOMENTOS233 E X k Y m 6= E X k E (Y m ) ; para todo k; m = 1; 2; :::, (6.19) las variables aleatorias X y Y son dependientes de orden (k; m). Desafortunadamente, el único caso especial de (6.19) explorado a fondo en la literatura es el caso (1,1): E (X Y ) 6= E (X) E (Y ) conocido como dependencia (lineal) de primer orden. En el caso donde la igualdad se cumple: E (X Y ) = E (X) E (Y ) se llama la independencia de primer orden. La noción de independencia en términos de un número in…nito de momentos se puede de…nir de manera equivalente en términos de los momentos centrales conjuntos: n := E [X k m o = 0; para todo k; m = 0; 1; 2; ::: (6.20) Del mismo modo, podemos de…nir la noción de dependencia (k; m) usando su negación: (b) km n E [X (EX)] [Y k (EX)] [Y E (Y )] m E (Y )] o 6= 0; para todo k; m = 0; 1; 2; ::: La equivalencia de las dos de…niciones en términos de los momentos producto conjunto y centrales se puede demostrar fácilmente en el caso k = 1, m = 1. El concepto de independencia de primer orden es equivalente a decir que el primer momento central, la covarianza es cero: 11 := E f[X (EX)] [Y E (Y )]g = 0: La equivalencia de las dos de…niciones se deduce del hecho de que: Cov(X; Y ) = E(XY ) E [X E(Y )] E [Y E(X)] + E [E(X) E(Y )] = = E(XY ) 2 [E(X) E(Y )] + [E(X) E(Y )] = E(XY ) [E(X) E(Y )] : Cov(X; Y ) = 0 , E(XY ) E(X) E(Y ) = 0: 234 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Es interesante NOTAR que existe una relación directa entre la covarianza y las distancias de dependencia utilizadas en la de…nición de independencia en la sección anterior: Z 1Z 1 [FXY (x; y) FX (x)FY (y)] f (x; y) dxdy: Cov(X; Y ) = 1 1 Correlación y dependencia Una debilidad importante de la covarianza, cuando se utiliza como una medida de dependencia entre X y Y , es que depende de sus unidades de medida. La versión estandarizada de la covarianza, conocida como coe…ciente de correlación, se propuso por primera vez por Galton (1880) como co-relación. Coe…ciente de correlación. Para cualesquiera dos variables aleatorias X y Y tales que V ar (X) < 1, V ar (Y ) < 1, de…nidas en el mismo espacio de probabilidad (S; =; P (:)), el coe…ciente de correlación se de…ne por: Corr(X; Y ) = p Cov (X; Y ) V ar(X)V ar(Y ) : Ejemplo Vamos a obtener el coe…ciente de correlación entre X y Y , usando densidad conjunta 4.19 (see el capítulo 4): E (X) = 1:1; E (Y ) = 0:8; V ar (X) = 0:69; V ar (Y ) = 0:96; Cov (X; Y ) = 0:12. Por lo tanto, el coe…ciente de correlación es: Corr(X; Y ) = p 0:12 (0:69) (0:96) = 0:147. Propiedades del coe…ciente de correlación 1 Corr(X; Y ) 1: 1: : Corr(aX + b; cY + d) = Corr(X; Y ); para a; b; c; d 2 R4 ; (a; c) > 0: 2 1; si y solo si Y = a0 + a1 X; (a0 ; a1 ) 2 R2 : 3 : Corr(X; Y ) La primera propiedad en relación con el rango de valores para el coe…ciente de correlación se sigue de la llamada desigualdad de Schwarz : jCov(X; Y )j 1 1 [V ar(X)] 2 [V ar(Y )] 2 . La segunda propiedad se sigue de la de…nición del coe…ciente de correlación que lo invariante a transformaciones lineales. La tercera propiedad 5.4. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: MOMENTOS235 es más complicada, pero la prueba de este resultado puede arrojar algo de luz sobre la relación entre dependencia en general y correlación en particular. Correlación perfecta. Dos variables aleatorias X; Y están perfectamente correlacionadas, es decir, Corr(X; Y ) = 1, si y sólo si ellas están linealmente relacionadas. Prueba (la prueba puede omitirse sin pérdida de continuidad). La parte si se sigue directamente asumiendo que las variables aleatorias X y Y están linealmente relacionadas: (6.21) Y = a0 + a1 X, a1 > 0 Por simple álgebra y las propiedades de E (:) (ver capítulo 3), se deduce que: Cov(X; Y ) = E f[a0 + a1 X E (a0 + a1 X [X E (X)])]g = a1 E f[X E (X)] [X E (X)]g = a1 V ar (X) . Teniendo en cuenta el hecho de que V ar(Y ) = a21 V ar (x), la sustitución en la fórmula del coe…ciente de correlación proporciona: a1 V ar (X) Corr(X; Y ) = p a21 V ar (x) V ar(Y ) = 1: NOTE que en el caso a < 0, Corr(X; Y ) = 1. La parte solo si de este resultado es un poco más complicada. Suponga que Corr(X; Y ) = 1 (el caso Corr(X; Y ) = 1 puede ser tratado, de manera similar) y de…nir las variables estandarizadas: X X = p E (X) Y E (Y ) , Y =p . V ar (X) V ar (Y ) De esto podemos deducir que: Ef(X Y )2 g = V ar (X ) + V ar (Y ) 2E (X Y ) = 2 2 = 0. Esto implica que P (s : X (s) 6= Y (s)) = 0, para todo s 2 S (veáse capítulo 3) que puede ser equivalentemente escrito en la forma: P (s : X (s) = Y (s)) = 1; s 2 S o X = Y ; con probabilidad uno. 236 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Sustituyendo las variables originales y reordenando los términos resulta: V ar (Y ) V ar (X) Y = E (Y ) + 1 2 E (X)) , con probabilidad uno. (X 1 2 ar(Y ) lo que coincide con (6.21) para: a0 = E (Y ) a1 E (X), a1 = VV ar(X) . El resultado anterior sugiere que la correlación es una medida de dependencia lineal. Este hecho se pone de mani…esto con mayor énfasis en el siguiente ejemplo. Ejemplo Sea X uniformemente distribuida entre menos uno y más uno, que se denota por X U ( 1; 1) y Y := X 2 : Como podemos ver, X; Y son perfectamente dependientes una de otra (pero no linealmente); el conocimiento de una determina la otra completamente. Podemos mostrar, sin embargo, que las dos no están correlacionadas. En vista del hecho de que: 1 ; E(X) = 0; 2 Cov(X; Y ) = E(XY ) E(X)E(Y ) = E(X 3 ) fX (x) = E(X) E(X 2 ): Por tanto, X; Y no están correlacionadas si E(X 3 ) = 0. En efecto: 3 E(X ) = Z 1 x 1 3 1 2 1 dx = 2 1 4 1 x 4 = 1 1 2 1 4 1 4 = 0: En esta etapa, es imprescindible diferenciar no correlación de independencia. Sabemos de la discusión anterior que el coe…ciente de correlación de…ne una medida de dependencia lineal, no dependencia en general. Por lo tanto, la conclusión general que podemos sacar sobre la relación entre no correlación e independencia es que: independencia ) no correlación 5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 237 pero lo inverso no es cierto: no correlación ; independencia Para concluir esta sección NOTEMOS un concepto estrechamente relacionado con no correlación, la noción de ortogonalidad. Se dice que dos variables aleatorias X y Y , cuyos segundos momentos son …nitos, son ortogonales si: E (X Y ) = 0 NOTE que si dos variables aleatorias no están correlacionadas, sus desviaciones medias X := [X E (X)] , Y := [Y E (Y )] son ortogonales E (X Y ) = 0. 5.5 Momentos condicionales y dependencia Volviendo a la de…nición de independencia de dos variables aleatorias X; Y en términos de la densidad condicional: f (yjx) = fY (y) , para todo (x; y) 2 RX RY (6.22) NOTEMOS que la condición de los momentos condicionales análoga a (6.18) es: E (Y r jX = x) = E (Y r ) , para todo x 2 RX , r = 1; 2; ::: (6.23) Es interesante ver cómo estas igualdades surgen en el caso de independencia. Paso 1. De la de…nición de independencia, sabemos que para cualesquiera funciones bien comportadas h (:) y g (:) de las variables aleatorias X y Y: E (h (X) g (Y )) = E (h (X)) E (g (Y )) , para todo (x; y) 2 RX RY (6.24) 238 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Paso 2. Eligiendo las funciones: h (X) de forma arbitraria, pero gr (Y ) := Y r , r = 1; 2; :::, (6.24) se reduce a (suponiendo que los momentos existen): E (h (X) Y r ) = E (h (X)) E (Y r ) ; para todo r = 1; 2; ::: (6.25) Paso 3. En general: E (h (X) Y r ) = [E (h (X) Y r ) j (X)] = E ((h (X)) E (Y r ) j (X)) (6.26) donde la primera igualdad se sigue de la propiedad CE2: E(Y ) = E [E (Y j (X))] y la segunda de la propiedad CE3 de la esperanza condicional (véase el capítulo 7); recordamos al lector que (X) denota el conjunto de todos los eventos generados por la variable aleatoria X (ver capítulo 3). Paso 4. Comparando (6.25) con (6.26) deducimos que las dos variables aleatorias X y Y son independientes cuando (6.23) se cumple. Al igual que en el caso de momentos conjuntos y marginales (6.18), (6.23) no proporciona una forma de veri…car la independencia porque implica un número in…nito de momentos. Sin embargo, como con (6.19), su negación se puede utilizar para trazar el territorio más allá de independencia. A diferencia de (6.19) los momentos condicionales ofrecen una clasi…cación más sistemática de dependencia en el sentido que podemos hablar de primero, segundo, tercero, etc. órdenes de dependencia. Esta medida de dependencia se de…ne en términos de la función distancia: dr (X; Y ) := [E (Y r j (X)) E (Y r )] (6.27) o equivalentemente (véase el capítulo 7): dy (Y jx) := [E (Y r jX = x) E (Y r )] , para todo x 2 RX . (6.28) Dependencia de r-ésimo orden. Cualesquiera dos variables aleatorias X; Y , cuyos momentos de r-ésimo orden existen y dk (Y jx) = 0 para todo r = 1; 2; :::r 1 son: dependientes de r-ésimo orden si: dr (Y jx) 6= 0, para todo x 2 RX , r = 1; 2; 3; ::: 5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 239 Por otro lado, las variables aleatorias X; Y son independientes de r-ésimo orden si: dr (Y jx) = 0, para todo x 2 RX , r = 1; 2; 3; ::: Esta de…nición nos permite trazar el territorio de dependencia usando este esquema jerárquico de primero, segundo, tercero etc. orden de dependencia. Por ejemplo, cualesquiera variables aleatorias X y Y cuyo momento de primer orden existe: d1 (Y jx) 6= 0, para todo x 2 RX ) X y Y son dependientes de primer orden. El trazado anterior de la dependencia se puede hacer de forma equivalente en términos de los momentos centrales de la función distancia: †r (X; Y ) := [E ([Y E (Y j (X))]r j (X)) E [Y E (Y )]r ] (6.29) o equivalententemente: E (Y )]r ] , para todo x 2 RX , (6.30) Por ejemplo la independencia de segundo orden se de…ne por: †r (Y jx) := [E ([Y E (Y jX = x)]r jX = x) E [Y †2 (Y jx) = 0 , V ar (Y jX = x) = V ar (Y ) , para todo x 2 RX , En este sentido, dos variables aleatorias X y Y pueden ser independientes de primer orden independiente, pero dependientes de segundo orden, es decir, E(Y jX) = E(Y ), pero V ar(Y jX) 6= V ar(Y ); véase el capítulo 8. Es importante NOTAR que los momentos condicionales dan lugar a una clasi…cación mucho más fácil de dependencia que las nociones de índice doble de…nidas en términos de los momentos conjuntos en (6.19). Sin embargo, la derivación anterior con base en (6.26) sugiere que las nociones de independencia de…nidas en términos de los momentos condicionales son un poco más fuertes. Para ver esto consideremos el caso de dependencia de primer orden donde (6.26) toma la forma: 240 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA E (h (X) Y ) = E [E (h (X) Y ) jX] = E (h (X)) E (Y jX) . (6.31) Esto sugiere que la independencia de primer orden, es más fuerte que la no correlación, porque en el caso de esta última la función h no puede ser arbitraria, como en independencia de primer orden sino que tiene que ser de la forma: h(X) = X. A su vez, la independencia de primer orden es más débil que la independencia (completa), porque para que esta última se cumpla necesitamos que todos los momentos condicionales coincidan con los momentos marginales. En resumen: independencia ) independencia de primer orden ) no correlación. 5.5.1 Independencia condicional Una forma importante de dependencia es la que llamamos independencia condicional. En el contexto de un espacio de probabilidad (S; =; P (:)), dos eventos A 2 = y B 2 = son condicionalmente independientes dado un tercer evento D 2 =, para el que P (D) > 0, si: P (A \ BjD) = P (A \ D) P (B \ D) . Es decir, el conocimiento de que D ha ocurrido hace que los eventos A y B sean independientes. Las variables aleatorias X y Y se dice que son condicionalmente independientes dada Z, si y sólo si: f (x; yjz) = f (xjz)f (yjz), para todo x; y; z 2 (RX RY RZ ) (6.32) RZ := fz 2 R : fZ (z) > 0g es el conjunto soporte de fZ (z). Es decir, la densidad conjunta de (X; Y; Z) se factoriza en dos densidades condicionales. Intuitivamente, X y Y son condicionalmente independientes dada Z, si X y Y se relacionan únicamente con Z. Ejemplo Considere el caso donde (X1 ; X2 ; X3 ) se distribuyen normalmente con distribución conjunta denotada por: 5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 0 1 02 X1 @ X2 A ~N @4 X3 1 2 3 3 2 5;4 11 12 13 21 22 23 31 32 33 241 31 5A (6.33) E (Xk ) = k , V ar (Xk ) = kk , k = 1; 2; 3, Cov (Xi ; Xj ) = ij , i 6= j, i; j = 1; 2; 3. NOTE que la fórmula general para la distribución normal conjunta de X (un vector de n 1) es: P 1 1 ) 2 (x n exp 2 2 X , Cov (X) = . (det p f (x; ) = E (X) = )T X 1 (x ) , (6.34) Como mostramos anteriormente, la distribución normal sólo permite dependencia de primer orden y por lo tanto para cualquier i 6= j; i; j = 1; 2; 3: ij = 0 , Xi y Xj son independientes. Resulta ser que la independencia condicional también es fácil de de…nir en este contexto en términos de la inversa de la matriz de varianzas-covarianzas: 2 4 11 12 13 21 22 23 31 32 33 3 5 1 3 ! 11 ! 12 ! 13 = 4 ! 21 ! 22 ! 23 5 . ! 31 ! 32 ! 33 2 para todo i 6= j 6= k; i; j; k = 1; 2; 3: ! ij = 0 , Xi yXj son condicionalmente independientes dada Xk : Regresando al concepto de independencia condicional entre las variables aleatorias X y Y dado Z NOTEMOS que ella se puede de…nir de manera equivalente por: (M): f (yjx; z) = f (yjz) , para todo x; y; z 2 (RX RY RZ ) . (6.35) Esta forma está directamente relacionada con el concepto ampliamente utilizado de dependencia Markov. En el contexto de (6.35), Y y X son 242 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA condicionalmente independientes dada Z, pero si interpretamos Y como el "futuro", X como el "pasado" y Z como el "presente" (M) dice que, dado el presente el futuro es independiente del pasado; esto se conoce como dependencia Markov. Usando los puntos 0 < t1 < t2 < t3 la dependencia Markov se puede escribir en la forma: (M ) : f (xt3 jxt2 ; xt1 ) = f (xt3 jxt2 ) , para todo xt1 ; xt2 ; xt3 2 R3X . Una tercera forma útil de de…nir la independencia condicional, que no implica ninguna referencia a las distribuciones condicionales, es: f (x; y; z) = 1 (f (x; z) f (y; z)) , para todo x; y; z 2 (RX fZ (z) RY RZ ) . NOTA. La independencia condicional de X y Y dado Z se denota a menudo por: [X ? Y ] (Z) . Usando esta notación podemos formular algunos resultados útiles en relación a la independencia condicional (ver Whittaker (1990): (i) ([Y ? (X1 ; X2 )] j (Z)) ) ([Y ? X1 ] j (Z)), (ii) ([Y ? (X1 ; X2 )] j (Z)) , ([Y ? X1 ] j (Z; X2 )) y ([Y ? X2 ] j (Z; X1 )), (iii) ([Y ? X] j (Z)) y U = h (X) ) ([Y ? U ] j (Z)), (iv) ([Y ? X] j (Z)) y U = h (X) ) ([Y ? X] j (Z; U )), donde h(:) es una función de Borel. NOTE que estos resultados se mantienen sin cambios en caso de que X, Y , Z sean vectores aleatorios. Un concepto relacionado con la independencia condicional, pero menos general se de…ne en términos de la covarianza de las medias condicionales. Esto se conoce como covarianza parcial entre las variables aleatorias X y Y dado Z y se de…ne por: Cov (X; Y jZ) = E ([X E (XjZ)] [Y E (Y jZ)]) . En analogía directa con la covarianza simple, la covarianza parcial mide independencia condicional lineal. Ya que ella comparte con su hermana la misma dependencia de las unidades de medida, se procede a estandarizarla para de…nir la correlación parcial: 5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA Corr (X; Y jZ) = 243 E ([X E (XjZ)] [Y E (Y jZ)]) p V ar (XjZ) V ar (Y jZ) Este mide la dependencia lineal entre dos variables aleatorias X y Y después de eliminar el efecto de una tercera variable aleatoria Z. Esto se introdujo por primera vez por Yule (1897), quien lo llamó coe…ciente de correlación neto. NOTE que la correlación parcial se relaciona con las correlaciones simples a través de: ij;k ij : = Corr (Xi ; Xj jXk ) = q : =p ij ii jj ij (1 ik jk 2 ik ) 1 ; 2 jk ; i 6= j 6= k; i; j; k = 1; 2; 3. Ejemplo En el caso donde (X1 ; X2 ; :::; Xn ) se distribuyen normalmente, discutido anteriormente, se puede demostrar que las covarianzas condicionales coinciden con los elementos de la inversa de la matriz de varianzas-covarianzas, es decir: Cov (Xi ; Xj jXk ) = ! ij ; i 6= j 6= k; i; j; k = 1; 2; 3. En vista del hecho de que para i; j; k = 1; 2; 3; i 6= j 6= k : ij;k = 0 , ! ij = 0 deducimos que [Xi ? Yj ] jXk , ! ij = 0. Motivados por la variedad de estructuras de dependencia entre varias variables aleatorias que se pueden ser generadas usando diferentes restricciones de independencia condicional, una literatura llamada análisis grá…co se ha desarrollado recientemente (ver Whittaker (1990), Edwards (1995) y Pearl (1988)). El término deriva del hecho de que estos modelos se representan en forma de grá…cos conectando las diferentes variables aleatorias involucradas. Para dar una muestra de análisis grá…co vamos a considerar el caso de las variables aleatorias con distribución normal (X1 ; X2 ; X3 ; X4 ) con una distribución conjunta: 244 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA 0 1 02 X1 B X2 C B6 B C ~N B6 @ X3 A @4 X4 1 2 3 4 3 2 7 6 7;6 5 4 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 31 7C 7C 5A (4.36) donde, como antes, denotamos la inversa de la matriz de varianzascovarianzas por: 2 6 6 4 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 3 7 7 5 1 2 ! 11 6 ! 21 =6 4 ! 31 ! 41 ! 12 ! 22 ! 32 ! 42 ! 13 ! 23 ! 33 ! 43 3 ! 14 ! 24 7 7: ! 34 5 ! 44 (i) Modelo 1: ! ij 6= 0, para todo i; j = 1; 2; 3; dependencia completa. (ii) Modelo 2: ! 13 = 0, X1 condicionalmente independendiente de dada X2 , X4 , ! 12 6= 0; ! 14 6= 0; ! 23 6= 0; ! 24 6= 0; ! 34 6= 0. (iii) Modelo 3: ! 13 = 0, ! 12 6= 0; ! 14 6= 0; ! 23 6= 0; ! 34 6= 0; ! 24 = 0, condicionalmente independendiente de X4 dados X1 , X3 . (iv) Modelo 4: ! 13 = 0, ! 24 = 0; ! 12 6= 0; ! 23 6= 0; ! 34 6= 0; ! 14 = 0, condicionalmente independendiente de X4 dados X2 , X3 . (v) Modelo 5: ! 13 = 0, ! 24 = 0; ! 12 6= 0; ! 14 6= 0; ! 23 6= 0; ! 34 = 0; condicionalmente independendiente de X4 dados X1 , X2 . (vi) Modelo 6: ! 13 = 0, ! 24 = 0; ! 14 = 0; ! 34 = 0; ! 12 6= 0; ! 23 6= 0. 5.6 5.6.1 X3 X2 X1 X3 Dependencia y sistema de medida Escalas de medida y dependencia Una limitación importante del coe…ciente de correlación, como una medida de dependencia lineal, es que la linealidad tiene sentido sólo en los casos en que la variable aleatoria en cuestión toma valores en un sistema de medición tal como el sistema de intervalo o el de razón. En el caso de variables aleatorias del tipo nominal u ordinal (véase el capítulo 1 y Spanos (1986), p. 409), la linealidad no tiene mucho sentido. En el capítulo 1 hablamos de la siguiente jerarquía de escalas de medición: (i) razón, (ii) intervalo, (iii) ordinal, (iv) nominal. 5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 245 Como se ha dicho allí, las variables de razón tienen la más rica estructura matemática seguidas de las variables de intervalo, ordinal y nominal en ese orden. Los métodos estadísticos diseñados para una categoría de variables no se aplican necesariamente a las variables de otras categorías. La única regla general que podemos utilizar como una guía es que un método estadístico diseñado para una categoría de variables se aplica también a las variables que pertenecen a una categoría superior, pero no necesariamente a una categoría inferior. Por ejemplo, un concepto estadístico diseñado para una variable ordinal es signi…cativo para las variables de intervalo y de razón, pero no necesariamente para las variables nominales. Para variables nominales, la única medida de la localización que tiene sentido es la moda y para las variables ordinales se puede agregar a la mediana. En cuanto a las medidas de dispersión el rango intercuartil sólo tiene sentido para variables ordinales. Todo lo que implica la media o la varianza no tiene mucho sentido para las variables nominales y ordinales. La medición de la dependencia entre las dos últimas categorías (nominal, ordinal) de variables aleatorias es algo problemático, ya que no es obvio lo que la dependencia signi…ca en su contexto. El problema es aún más serio cuando se mide la dependencia entre las variables de las diferentes categorías. Estos problemas fueron reconocidos a principios del siglo 20 y se convirtió en un tema que llevó a enconadas discusiones entre K. Pearson y Yule. Yule (1900, 1910, 1912) estuvo a favor de diseñar medidas especí…cas de asociación entre variables discretas utilizando su carácter discreto. K. Pearson (1910, 1913a, b), por otra parte, favoreció el uso de distribuciones continuas para la aproximación de la distribución bivariada discreta para las variables categóricas y usarlas para medir asociación; véase también Heron (1911). Los argumentos de ambos lados se apasionaron y los que piensan que la teoría de la probabilidad y la inferencia estadística son temas matemáticos sin emociones deben leer el siguiente vilipendio de K. Pearson a su ex alumno, ayudante y compañero de trabajo: Lamentamos tener que llamar la atención sobre la forma en la que el Sr. Yule se ha perdido en cada etapa de su tratamiento de la asociación, pero la crítica de sus métodos ha sido lanzada sobre nosotros no sólo por el reciente ataque del Señor Yule, sino también por los elogios irre‡exivos que han sido otorgados a un libro de texto (de Yule), que en muchos puntos sólo puede conducir a los estudiantes de estadística irremediablemente por el mal camino. (Pearson y Heron (1913), p. 310). 246 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Karl Pearson no era ajeno a la controversia y después sufrió mucho a manos de R. A. Fisher; ver los capítulos 7, 11 y 13. Figura 6.2 Modelos grá…cos (variables aleatorias continuas). 5.6.2 Dependencia para las variables categóricas Para variables aleatorias categóricass (ordinales y nominales) el concepto de linealidad (y por lo tanto de momentos) no tiene mucho sentido y por lo tanto medir la dependencia lineal con la correlación es inadecuado. La noción de monotonicidad, sin embargo, en el sentido de que una variable tiende a aumentar cuando la otra aumenta (concordancia) o tiende a disminuir cuando la otra disminuye (discordancia), tiene sentido para variables ordinales. La de…nición de dependencia entre variables nominales no es fácil porque ni linealidad ni monotonía tienen sentido. Una de las medidas más utilizadas de asociación (dependencia) entre variables ordinales (ya veces nominales) es la razón producto cruzado. Razón producto cruzado La razón producto cruzado entre dos eventos A y B se de…ne como: rpc (A; B) = P(A \ B) P(A \ B) : P(A \ B) P(A \ B) 5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 247 En el caso donde los eventos A y B son independientes: rpc = 1 o In(rpc) = 0. y=x y1 y2 fX (x) x1 x2 fY (y) 11 12 21 22 2 1 2 1 1 La fórmula anterior se puede adaptar al caso de una distribución de dos variables f (x; y) donde la variables aleatorias X y Y son variables ordinales con sólo dos valores (x1 ; x2 y y1 ; y2 , repectivamente) de la forma dada anteriormente. En este caso, la razón producto cruzado se de…ne como la razón de los productos 22 11 y 12 21 de probabilidades de celdas opuestas diagonalmente (de ahí el nombre), es decir, rpc(X; Y ) = 22 11 : 12 21 Utilizando esta medida, decimos que X y Y son independientes si y sólo si: In(rpc(X; Y )) = 0: Q de Yule Q (coe…ciente de asociación) Una cercanamente relacionada medida de dependencia es la Q de Yule (en honor del estadista belga Quetelet) de…nida por (ver Yule (1900)): Q= 11 22 11 22 + 12 21 : 12 21 Ejemplos (i) Considere el caso donde 11 = 0:3; 12 = 0:1; 21 = 0:2 y 22 = (0:4)(0:3) 0:4. rpc(X; Y ) = (0:1)(0:2) = 6, y teniendo en cuenta el hecho de que In(rpc(X; Y )) = 1:792, podemos deducir que X y Y no son independientes. Esto es con…rmado por la Q de Yule: Q= (0:3) (0:4) (0:1) (0:2) = 0:07. (0:3) (0:4) + (0:1) (0:2) (ii) Considere el caso donde En vista de la hecho de que: 11 = 0:2; 12 = 0:3; 21 = 0:2 y 22 = 0:3. 248 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA (0:3) (0:2) = 1 y In(rpc(X; Y )) = 0 (0:3) (0:2) rpc(X; Y ) = podemos concluir que la razón productos cruzado con…rma la independencia mostrada en términos de la función de densidad conjunta (véase el capítulo 4). Esto se ve con…rmado por la Q de Yule: Q= (0:3) (0:2) (0:3) (0:2) = 0. (0:3) (0:2) + (0:3) (0:2) Coe…ciente Gamma La Q de Yule se puedeYextender a variables ordinales que tengan más de dos valores notando que = 11 22 puede ser pensado como una medida c Y de concordancia y = 12 21 como una medida de discordancia. Dos d variables aleatorias X e Y se dice que son concordantes si la unidad de mayor jerarquía con respecto a X también jerarquiza más alto con respecto a Y , y discordantes si la unidad de mayor jerarquía en X jerarquiza inferior en Y . En el caso donde X toma m valores y Y toma n valores, podemos utilizar las siguientes medidas: Concordancia : Discordancia : Y c Y d =2 =2 Xm Xn i=1 j=1 i=1 j=1 Xm Xn ij ij X h>i X h>i X k>j X k<j hk ; hk : Usando estas medidas podemos Q Q (dependencia) Q Q decir que la asociación entre X y Y es positiva si ( c Q d ) > d ) < 0. Una Q0 y negativa si ( c versión a escala de la distancia ( c d ) es el llamado coe…ciente Gamma, introducido por Goodman y Kruskal (1954)), y se de…ne por: Q Q ( c ) = Q Qd ; donde 1 1: ( c + d) Al igual que el coe…ciente de correlación, si j j = 1 las dos variables aleatorias están perfectamente asociadas Además, al igual que el coe…ciente de correlación, si = 0 las dos variables aleatorias no son necesariamente independientes. Independencia, sin embargo, implica que = 0. Ejemplo 5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 249 Considere la función de densidad conjunta representada en (6.37), donde X denota el grupo de edad y Y el grupo de ingresos: X = 1 : (18 35) ; X = 2 : (36 55) ; X = 3 : (36 70) ; Y = 0 : pobre, Y = 1 : ingreso medio, Y = 2; rico. ynx 1 2 3 fY (y) 0 0:20 0:10 0:15 0:45 1 0:10 0:25 0:05 0:40 2 0:01 0:06 0:08 0:15 fX (x) 0:31 0:41 0:28 1 (6.37) Considere la evaluación del coe…ciente de concordancia: Y i = 0; j = 1 : 01 i = 0; j = 2 : 02 i = 1; j = 1 : 11 i = 1; j = 2 : 12 c Y X X h>0 X h>1 X h>0 h>1 X X k>1 X k>1 X k>2 k>2 hk = 0:20 (0:25 + 0:05 + 0:06 + 0:08) = 0:088; hk = 0:10 (0:05 + 0:08) = 0:013; hk = 0:10 (0:06 + 0:08) = 0:014; hk = 0:25 (0:08) = 0:020: = 2 (0:088 + 0:013 + 0:014 + 0:020) = 0:270: El coe…ciente de discordancia: i = 0; j = 2 : 02 i = 0; j = 3 : 03 i = 1; j = 2 : 12 i = 1; j = 3 : 13 d X X X X h>0 h>0 h>1 h>1 X X k<2 X k<2 X k<3 k<3 hk = 010 (0:10 + 0:01) = 0:011; hk = 0:15 (0:10 + 0:25 + 0:01 + 0:06) = 0:063; hk = 0:25 (0:01) = 0:0025; hk = 0:05 (0:01 + 0:06) = 0:0035: = 2 (0:011 + 0:063 + 0:0025 + 0:0035) = 0:160: Por lo tanto, Q Q ( c ) 0:270 0:160 = 0:2558; = Q Qd = ( c + d) 0:270 + 0:160 es decir, existe una baja dependencia positiva entre ingresos y edad. 250 5.6.3 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Dependencia entre variables nominales Como se mencionó anteriormente la de…nición de dependencia entre las variables nominales no es fácil porque ni linealidad ni monotonicidad tienes sentido. La única noción de dependencia que podemos adoptar en este contexto es en términos de: ¿cómo el conocimiento de la clasi…cación de la variable aleatoria X nos puede ayudar a conjeturar la clasi…cación de la variable aleatoria Y ? La incertidumbre de conjeturar la clasi…cación de Y sin la ayuda de X se mide por la varianza de Y : V ar(Y ). Esta incertidumbre cambia a V ar(Y jX = x1 ) para un valor especí…co x1 de la variable condicional. Dado que la variable aleatoria X toma más de un valor, tomamos el promedio de estos valores de varianza condicional, es decir, E(V ar(Y jX)), llevando a la medida estandarizada: V ar (Y ) E(V ar(Y jX)) =1 V ar (Y ) E(V ar(Y jX)) . V ar (Y ) Esta razón ha sido utilizada por Goodman y Kruskal (1954), en relación con la tabla de contingencia (densidad bivariado) dada a continuación: ynx y1 y2 y3 ym fx (x) x1 x2 x3 xn fy (y) 1: 2: 3: 11 12 13 1n 21 22 23 2n 31 32 33 3n m1 m2 m3 mn m: :1 :2 :3 :n 1 donde la varianza de Y toma la forma: V ar (Y ) = m X k : (1 k :) = 1 k=1 V ar (Y jX = xh ) = 1 k=1 2 k :, k=1 y la varianza condicional dado que X = xh es: m X m X 2 k :jh, kjh = hk :h , h = 1; 2; :::; n. 5.6. DEPENDENCIA Y SISTEMA DE MEDIDA E (V ar (Y jX)) = n X :h m X 1 h=1 k=1 ! 2 k jh 251 =1 n X m X h=1 k=1 2 hk :h , para sugerir la llamada tau de Goodman y Kruskal (o coe…ciente de concentración): = n X m X 2 hk :h h=1 k=1 1 m X 2 k k=1 m X . 2 k k=1 Theil (1950), utiliza una medida alternativa de dispersión basada en la entropía: V (Y ) = m X k :In k: k=1 propuso el coe…ciente de incertidumbre: U= m n X X kh In ( kh = k : :h ) h=1 k=1 m X k: In k: k=1 Ambos, coe…cientes de concentración e incertidumbre son medidas de dependencia que toman valores entre cero y uno; = 0, U = 0 implica que las variables aleatorias X; Y son independientes. A …n de formular medidas necesitamos la noción de condicionalidad introducida en el capítulo siguiente, donde se discuten una serie de medidas adicionales de dependencia. El principal argumento del próximo capítulo es que la mejor manera de manejar la dependencia y las funciones de densidad conjunta es a través de la noción de condicionalidad y distribuciones condicionales. 252 5.6.4 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA La distribución de Bernoulli La distribución de Bernoulli se puede utilizar para modelar tanto variables ordinales como nominales y el modelador debe decidir cuándo usar las medidas para evaluar la dependencia entre variables. La función de densidad Bernoulli de dos variables toma la forma: f (x; y) = p (0; 0)(1 y)(1 x) p (0; 1)(1 y)x p (1; 0)y(1 x) p (1; 1)xy , x = 0; 1, y = 0; 1. con las distribuciones marginales y condicionales siendo otra vez Bernoulli: fx (x) = [p (0; 0) + p (1; 0)](1 x) [p (0; 1) + p (1; 1)]x , x = 0; 1, fy (y) = [p (0; 0) + p (0; 1)](1 y) [p (1; 0) + p (1; 1)]y , y = 0; 1, De particular interés es la forma loglineal de la densidad de conjunta que es: p (1; 0) p (0; 1) p (1; 1) p (0; 0) + xIn + xyIn p (0; 0) p (0; 0) p (1; 0) p (0; 1) = u0 + yu1 + xu2 + xyu12 , x = 0; 1, y = 0; 1, Inf (x; y) = In p (0; 0) + yIn en una notación obvia. Esto último es conocido como la expansión de loglineal y notemos que el término u12 es simplemente el logarítmo de la razón producto cruzado: u12 := In (rpc (x; y)) = In p (1; 1) p (0; 0) . p (1; 0) p (0; 1) Cuando u12 = 0 decimos que las variables aleatorias Bernoulli X y Y son independientes. Los resultados anteriores se puede extender a la distribución Bernoulli de tres variables, cuya función de densidad (en analogía directa con la de dos variables) toma la forma: f (x; y; z) = p (0; 0; 0)(1 y)(1 x)(1 z) Su forma loglineal es: p (1; 1; 1)xyz , x = 0; 1, y = 0; 1, z = 0; 1. 5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 253 p (0; 1) p (1; 1) p (0; 0) p (1; 0) + xIn + xyIn p (0; 0) p (0; 0) p (1; 0) p (0; 1) = u0 + yu1 + xu2 + zu3 + yxu12 + yzu13 + xzu23 + xyzu123 , Inf (x; y; z) = In p (0; 0) + yIn donde, como antes, los us representan términos de interacción: u23 := In (rpc (X; ZjY = 0)) ; u123 := In rpc (X; ZjY = y1 ) = (rpc (X; ZjY = 1)) ; (rpc (X; ZjY = 0)) p (y1 ; 1; 1) p (y1 ; 0; 0) , para y1 = 0; 1. p (y1 ; 1; 0) p (y1 ; 0; 1) Usando esta representación podemos de…nir independencia condicional en términos de los términos u. Las variables aleatorias X y Z son condicionalmente independientes dado Y , denotado por ([X ? Z]jY ), si y sólo si: u23 = 0 y u123 = 0, o de manera equivalente: rpc (X; ZjY = y1 ) = 1 para y = 0; 1. Para concluir esta sección es importante señalar que los valores numéricos de los términos de interacción uij , i; j = 1; 2; 3 y u123 no son de interés intrínseco; el interés básico se encuentra en lo ellos implica en términos de la estructura de dependencia entre las variables aleatorias en cuestión. Usando los modelos grá…cos introducido en la sección anterior podemos ver cómo ellos identi…can esta estructura de dependencia. Modelo 1: u123 = 0; uij 6= 0 para i; j = 1; 2; 3. Modelo 2: u123 = 0; u13 = 0; u23 6= 0; u12 6= 0; ([X ? Z]jY ). Modelo 3: u123 = 0; u13 = 0; u23 = 0; u12 6= 0; ([X ? Z]jY ); ([Y ? Z]jY ). 254 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Figura 6.3 Modelos grá…cos (variables aleatorias discretas). NOTE que los nodos en el caso de variables aleatorias discretas no son ya círculos, sino discos; para más discusión sobre modelos grá…cos véase Edwards (1995) y Lauritzen (1996). 5.6.5 Dependencia en variables aleatorias mezcladas (discretas / continuas) La discusión de la dependencia en este capítulo tiene un punto de enfoque: la dependencia está inextricablemente ligada a la distribución conjunta de las variables aleatorias involucradas. En los casos en que todas las variables aleatorias involucradas son discretas o continuas, no surgen problemas porque podemos usar distribuciones conjuntas discretas y continuas, respectivamente, para describir la dependencia. Los problemas surgen en el caso donde algunas de las variables aleatorias son discretas y las otros son continuas y el modelador considera el problema de la dependencia entre estas variables aleatorias. Como se ha dicho en el capítulo 4, la función de densidad conjunta de (X; Y; Z), donde (X; Y ) son variables aleatorias continuas y Z es una variable aleatoria discreta puede ser mejor de…nida indirectamente a través del producto: f (x; y; z) = f (x; yjz) fz (z) para todo x; y; z 2 (RX RY RZ ) 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 255 Del mismo modo, la función de distribución acumulada conjunta se de…ne a través de: F (x; y; z) = X fz (zk ) = zk z Zx Zy f (x; yjzk ) dudv. 1 1 Esto sugiere con mayor claridad que en el caso de una mezcla de variables aleatorias continuas y discretas la estructura de dependencia entre ellas debe ser mejor acomodada en el contexto de los momentos condicionales de f (x; yjz). Motivados por esta observación Lauritzen y Wermuth (1989) introdujeron la llamada distribución condicional Gaussiana, que en el caso de las variables aleatorias (X; Y; Z), la densidad condicional f (x; yjz) toma la forma: X Y (z) 2 (z) 1 jZ = z ~N ; (z) 21 (z) 11 (z) 22 (z) 12 ; z 2 RZ : (6.38) Es decir, los momentos de la distribución conjunta de (X; Y ) se supone que son funciones de la variable condicionante; en el espíritu de las funciones momento condicionales. Las formas funcionales que deberían ser postuladas por un modelador para: i (z) ; ij (z) ; i; j = 1; 2, no es una cuestión trivial, ya que se re…ere a la parametrización de la dependencia entre variables de distintas escalas de medición. Cualquiera que piensa que esto es un juego de niños deben re‡exionar un momento sobre el problema de la parametrización de la dependencia (posible) entre los ingresos de la familia y la religión! 5.7 Distribuciones conjuntas y dependencia Como se sugirió anteriormente, las distribuciones conjuntas constituyen la forma por excelencia de modelar la dependencia. En este sentido los avances en la modelación de diferentes tipos de dependencia se basa fundamentalmente en el desarrollo de tales distribuciones conjuntas. Desafortunadamente, el camino de la distribución marginal a las distribuciones conjuntas 256 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA es traicionero. Hay un número in…nito de distribuciones conjuntas (multivariadas) distribuciones con las mismas distribuciones marginales! En este sentido no hay manera sistemática (generalmente aplicable) para especi…car distribuciones multivariadas. Algunos de los intentos más notables para especi…car la distribución bivariada y multivariada se resumen en esta sección. Los primeros intentos para generar distribuciones conjuntas no Normales fueron hechos por Karl Pearson a …nales de 1890. Su éxito en la generación de una familia muy rica de distribuciones de una variable, que hoy llamamos la familia Pearson, utilizando una ecuación diferencial (véanse los capítulos 4, 13), le animó a tratar de extender el método a dos ecuaciones diferenciales: h3 (x; y) @Inf (x; y) = , donde h3 (x; y) , h4 (x; y) son polinomios de tercer y cuarto grado, @x h4 (x; y) @Inf (x; y) g3 (x; y) = , y g4 (x; y) = h4 (x; y) . @x g4 (x; y) Resultó ser que, sin restricciones sobre los coe…cientes de los tres polinomios ningún progreso era posible. Progresos importantes a lo largo de estas líneas fueron hechos por Pretorius (1930) y luego por Van Uven (1947,1948) quienes simpli…can tales ecuaciones a: h1 (x; y) @Inf (x; y) = , donde h1 (x; y) , h1 (x; y) son polinomios de 1 y 2 grado, @x h2 (x; y) @Inf (x; y) g1 (x; y) @ 2 Inf (x; y) @ h1 (x; y) @ g1 (x; y) = , sujeto a = = . @x g2 (x; y) @x@y @y h2 (x; y) @y g1 (x; y) Los siguientes casos especiales resultaron ser de especial interés (ver Mardia (1970) para los detalles): (1) h2 (x; y) y g2 (x; y) no tienen factores comunes (como polinomios), (2) h2 (x; y) y g2 (x; y) tienen un factor común, (3) h2 (x; y) y g2 (x; y) son idénticos y (4) g2 (x; y) es un factor lineal de h2 (x; y). Caso 1. Nos proporciona las condiciones su…cientes para la independencia entre X y Y ; sin factores comunes implica que: f (x; y) = fx (x) fy (y) . 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 257 Caso 2. Asumiendo que h2 (x; y) = h12 (x; y) l (x; y) y g2 (x; y) =g12 (x; y) l (x; y) donde todos los polinomios del lado derecho son de grado uno, se produce una distribución conjunta de la forma general: f (x; y) = c0 ( x + ) 1 ( y + ) 2 (ax + by + c) 3 . Esta distribución conjunta incluye la Beta bivariada, Pareto y distribución F (véase el apéndice B) como casos especiales. Caso 3. Asumiendo que h2 (x; y) =g2 (x; y), da lugar a una distribución conjunta de la forma: f (x; y) = c0 ax2 + by 2 + 2 1 xy + 2 2 x + 2 3 y + c m . Esta distribución conjunta incluye la bivariada de Cauchy, la t de Student y la distribución de Pearson tipo II (véase el apéndice B) como casos especiales. Caso 4. Asumiendo que h2 (x; y) = h12 (x; y) l (x; y) y g2 (x; y) = l (x; y), da lugar a una distribución conjunta de la forma general: f (x; y) = c0 ( x + ) 1 e 2y (ax + by + c) 3 . Esta distribución conjunta incluye la distribución Gamma bivariada (McKay) (véase el apéndice B) como un caso especial. Varios otros métodos para generar distribuciones conjuntas, tales como la expansión bivariada Edgeworth y el método de traducción, resultan ser sólo de un valor marginal; ver Mardia (1970) para una excelente discusión. La manera menos efectiva de crear distribuciones conjuntas es tomar combinaciones lineales de distribuciones marginales. El primero en proponer este método fue Ste¤ensen (1922). Asumiendo que las dos variables aleatorias independientes (Z1 ; Z2 ) tienen densidades marginales f1 (z1 ) y f2 (z2 ), él consideró la distribución conjunta de las transformaciones lineales: X = a1 Z 1 + b 1 Z 2 + c 1 ; Y = a2 Z 1 + b 2 Z 2 + c 2 . Considerando el hecho de que la transformación inversa es: Z1 = X + aY; Z2 = Y + bX, la densidad conjunta toma la forma general (ver capítulo 11): f (x; y) = jab 1j f1 (x + ay) f2 (y + bx) . 258 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Esta es la forma más e…caz para generar distribuciones conjuntas porque por construcción, la única forma de dependencia incorporada en la distribución conjunta es la de dependencia lineal (correlación). Como se ha dicho anteriormente, sin embargo, la dependencia lineal que caracteriza la dependencia distribution relacionada con distribución únicamente en el caso de la distribución normal. Varias extensiones de este resultado restringido se han sugerido en la literatura. Para …nes de referencia, resumimos los más importantes de estos resultados. Sea F (x; y), FX (x) y FX (x) las distribuciones conjunta y marginales de las variables aleatorias X y Y . Las distribuciones marginales están dadas y el modelador las combina en una variedad de formas para construir la distribución conjunta. 1. Frechet (1951): F (x; y) = max (0; FX (x) ; FY (y) 1)+(1 ) min (FX (x) ; FY (y)) ; 0 1. 2. Morgenstern (1956): F (x; y) = FX (x) FY (y) [1 + a (1 FX (x)) (1 FY (y))] ; a 2 [ 1; 1] . 3. Gumbel (1960): ( InF (x; y))m = ( InFX (x))m + ( InFY (y))m ; m 1. 4. Plackett (1965): F (x; y) es la solución de la ecuación: F (x; y) (1 FX (x) FY (y) + F (x; y)) = (FX (x) F (x; y)) (FY (y) F (x; y)) ; 5. Ali, Mikhail y Haq (1978): F (x; y) = [1 FX (x) FY (y) ; a 2 [ 1; 1] . a (1 FX (x)) (1 FY (y))] Como podemos ver, la distribución de dos variables en todos estos casos se construye con un parámetro que conecta las distribuciones marginales. Esto es claramente de alcance limitado porque la dependencia es ahora capturada por este único parámetro que es a menudo relacionado con el coe…ciente de correlación. > 0. 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 259 El método más e…caz para formular distribuciones conjuntas es por generalización directa de densidades univariadas en los casos donde la forma funcional de la función de densidad permite la sustitución de una variable aleatoria con un vector aleatorio como es el caso de la familia de distribuciones simétricas elípticamente discutidas a continuación. Esto se debe a que todas las características de las distribuciones univariadas se extienden naturalmente a la conjunta y la dependencia no se restringe arti…cialmente. La evaluación de la situación actual por el autor es que debemos centrar nuestra atención en el desarrollo de nuevas familias paramétricas de distribuciones conjuntas con miras a ampliar los conceptos existentes de dependencia relacionada con la distribución. 5.7.1 Dependencia y la distribución normal El primer intento de desarrollar una distribución conjunta con objeto de captar la dependencia observada en un conjunto particular de datos fue realizado por Galton (1886) con la ayuda de su amigo matemático Dickson. Es instructivo referirse a la manera en la que Galton tropezó con la distribución normal bivariada, porque constituye un ejemplo inicial importante de cómo los patrones en los datos observados pueden ser utilizados para la construcción de conceptos matemáticos en un intento de modelarlos. Al examinar los datos observados de la altura medias de los padres (x) y sus descendientes (y), Galton trazó un diagrama de dispersión (los datos (x1 ; x2 ; :::; xn ) se gra…can contra (y1 ; y2 ; :::; yn ); véase más adelante) y observó ( por su propia cuenta): que las líneas trazadas a través de las entradas del mismo valor forman una serie de elipses concéntricas y similares ... (Galton (1885), p. 255). Es decir, el diagrama de dispersión de las dos series de datos mostraron una clara forma elíptica, que en un examen más detallado reveló que al recoger los puntos de datos con la misma frecuencia relativa ellos formaron formas elípticas concéntricas. Esta es una notable pieza de trabajo de detective que ejempli…ca la destreza de observación de Galton. Su primera reacción fue utilizar estas elipses concéntricas con el …n de construir la super…cie de dos variables (la curva de frecuencia conjunta) que está detrás de ellos. Sabiendo que sus habilidades matemáticas eran inadecuadas para la tarea él llamó a su amigo Dickson (un matemático de la Universidad de Cambridge). El resultado, publicado como un apéndice en Galton (1886), fue la densidad normal de dos variables: 260 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA (1 f (x; y; ) = p 2 exp 2 ) 1 2 11 22 ( 2 (1 ) 1 y p 2 donde los parámetros desconocidos cionados con los momentos a través de: 1 11 2 1 y p 2 11 := ( 1 ; 2; 11 ; x p 1 11 22 ; 2 + 22 ) están rela- : = E (Y ) , 2 := E (X) : = V ar (Y ) ; := Corr (X; Y ) ; 22 := V ar (X) . Utilizando esta distribución bivariada Galton llegó a desarrollar los conceptos de regresión (véase el capítulo siguiente) y de correlación. Como mostramos en el capítulo 4, las densidades marginal y condicional son también normales (pero univariadas por supuesto). Usando la notación para la distribución normal bivariada, introducida en el capítulo 4: X Y ~N 1 ; 2 11 12 21 22 . donde el coe…ciente de correlación se puede expresar en forma deducimos que: (a) Y N ( 1 ; 11 ) ; (Y j X = x) N ( 0 + 1 x; 21 ) ; (b) X N ( 2 ; 22 ) ; (X j Y = y) N ( 0 + 1 x; 22 ) ; 2 2 12 12 ; 0 := 1 1 2 ; 1 := 22 ; 1 := 11 22 2 = p 12 11 22 , 12 := 2 1 1 ; 1 := 12 ; 22 := 22 : 11 11 La normal multivariada es, con mucho, la distribución conjunta más utilizada en la modelizaciónempírica. Debido a su papel dominante en la inferencia estadística es importante examinar la estructura de dependencia de esta distribución con los conceptos desarrollados en las secciones anteriores. En lo que al orden de la dependencia se re…ere, argumentamos que la forma más directa de evaluarla es a través de los momentos condicionales. En el caso de la distribución normal bivariada sabemos que: (a) E (Y j X = x) = 0 + 1 x; 0 x p (6.39) !) 2 2 22 (5.1) 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA (b) E [(Y r E (Y j X = x)) j X = x] = ( 0; para r par, r! r1 ; para r impar (0:5r)!20:5r 261 ) : En particular, V ar (Y j X = x) = 21 . En vista de las parametrizaciones involucradas podemos ver que en el caso donde = 0 ( 12 = 0), todos los momentos condicionales coinciden con los momentos marginales: (a) E (Y j X = x) j (b) E [(Y =0 = 1; E (Y j X = x)r j X = x)] j =0 = ( 0; para r par, r! 0:5r 1 ; para r impar (0:5r)!20:5r ) Esto sugiere que cuando el coe…ciente de correlación es cero las dos variables aleatorias son independientes, es decir: para X y Y conjuntamente normales, = 0 ) X; Y son independientes. (ver capítulo 4). Esto es claramente una excepción a la regla general mencionada en el capítulo 4 que la no correlación no implica independencia. La intuición detrás de esta excepción es que la única forma de dependencia que se puede describir utilizando la distribución normal es la dependencia lineal. En otras palabras, dependencia en el contexto de la distribución normal conjunta se encapsula en el parámetro coe…ciente de correlación (o equivalente 12 ). Desde el punto de vista de la modelizaciónes importante NOTAR la relación entre el coe…ciente de correlación y la forma de la densidad normal conjunta. Con el …n de tener alguna idea de cómo cambia la forma con el valor de , vamos a comparar la densidad conjunta en la …gura 6.4, donde = 0 con la dada en la …gura 6.5, donde = 0:8. La dependencia toma la forma de una densidad conjunta "aplastada". Este efecto puede ser visto fácilmente en los contornos de igual probabilidad insertados (un mapa bivariado de la densidad), que son circulares en el caso = 0 y elipses en el caso de 6= 0. NOTE que los contornos de igual probabilidad son la contraparte teórica de la noción de Galton en términos de frecuencia relativa. De los grá…cos anteriores, es evidente que cuanto más aplastada es la densidad (y las elipses) mayor la correlación. 262 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Figura 6.4 Densidad normal con = 0. Figura 6.5 Densidad normal con = 8. La grá…ca de los contornos de igual probabilidad es de particular interés en relación con grá…cas de datos reales (ver sección 6) y vale la pena echar un vistazo más de cerca. Se llaman contornos de igual probabilidad (equiprobabilidad) porque toda elipse de la siguiente forma: y p 2 1 11 2 y p 1 11 x p 2 22 + x p 2 2 22 ! = ci , i = 1; 2; :::; (6.40) representa un conjunto de puntos con la misma probabilidad. Intuitivamente, pueden ser pensados como siendo creados rebenando la super…cie tridimensional de la densidad, paralela al plano xy a la misma distancia, 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 263 por ejemplo (0; 001), (0:02), (0:04); :::; (0; 18), y dibujado la forma exterior elíptica de las rebanadas comenzando con la más baja fuera de (0:001) y terminando con la más alta (0.18) representando la última rebanada que incluye el pico. En este sentido, el contorno de las grá…cas de igualdad tiene mucho en común con las líneas de contorno de los mapas ordinarios representando una super…cie montañosa tridimensional en un mapa de dos dimensiones. En ambos casos el mapa surge proyectando las rebanadas de igual elevación de una super…cie tridimensional sobre un diagrama bidimensional. Al igual que con las líneas de contorno del mapa, cuanto más cerca de los contornos más nítida será la elevación. En las …guras 6.6 y 6.7 se pueden ver los contornos de igual probabilidad de una densidad normal bivariada con correlación = 0:5 y = 0:5, respectivamente. Observando la grá…ca de los contornos de igual probabilidad debemos ser capaces de visualizar la super…cie tridimensional. Si comparamos la grá…ca de contorno en la …gura 6.6 con la de la …gura 6.7 podemos ver que son diferentes en términos de su orientación, la pendiente del eje principal de las elipses en la …gura 6.6 es positiva, mientras la de la …gura 6.7 es negativa. Figura 6.6 Contornos de la densidad normal con = 0:5. Figura 6.7 Contornos de la densidad normal con = 0:5. 5.7.2 Dependencia y la familia elípticamente simétrica Desconocidos por Galton los mismos contornos de equiprobabilidad (6.40) se pueden utilizar para generar toda una familia de distribuciones simétricas, 264 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA conocida como la familia elípticamente simétrica (seeKelker (1970)), que incluye la normal como un caso especial. La forma bivariada de estas distribuciones depende de (a) la forma cuadrática generando las elipses concéntricas l (x; y) = y p 2 1 y p 2 11 x p 1 11 2 + 22 x p 2 2 ; 22 y (b) del determinante de X := 11 12 12 22 P 2 2 donde det ( ) = 11 22 ) 11 22 ] : 12 = [(1 La forma genérica de esta familia en general se puede escribir como: f (x; y; ) = c0 det X h (l (x; y)) donde (:) y h (:) son funciones positivas arbitrarias en el rango RX RY y c0 una constante normalizada que asegura que f (x; y; ) es una densidad propiamente, es decir, ZZ f (x; y; ) dxdy = 1: RX RY Esta familia se puede extender fácilmente al caso de m variables (m > 2) de…niendo l (:) como: 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA T l (x1 ; x2 ; :::; xn ) := (x X 2 6 6 := 6 4 ) X 1 RX R Y 11 12 1m 21 22 2m .. . .. m1 ); y (x Z . m2 mm 3 Z f (x1 ; x2 ; :::; xm ; ) dx1 Rm 0 x1 B x2 B ) := B .. @ . xm 7 7 7 ; (x 5 265 1 2 m 1 C C C: A Además de la normal, la familia elípticamente simétrica incluye la t de Student, la Pearson del tipo II y una forma de la distribución logística (véase Fang et al. (1990)). Por ejemplo, la densidad bivariada de la t de Student toma la forma: f (x; y; ) = 1 1 2 [(v + 2)] p P 1 det ( ) v 2 (v ) ( 1+ 2 (1 v ) 1 [l (x; y)] 1 [v+2] 2 ; (x; y) 2 R2 ) Los contornos de misma probabilidad de esta densidad de = 0:5 y = 0:5 se muestran en las …guras 6.8 y 6.9, respectivamente. Comparando las …guras 6.6 y 6.8 podemos ver que los contornos de igual probabilidad de la t de Student están más cercanos entre sí que los de la Normal y el pico de la primera es mayor que la de esta última. Esto se con…rma por comparación de la …gura 6.7 con la 6.9. La diferencia entre las distribuciones t de Student y normal se vuelve aún más evidente cuando comparamos la …gura 6.10 (normal con = 0:2) con la …gura 6.11 (t de Student con = 0:2 y v = 5). Como podemos ver la diferencia principal entre ambas es que la distribución t de Student es leptocúrtica (kurtosis > 3). Podemos detectar la leptocurtosis observando las medidas en el eje z (picos de la t de Student en 0:30 y de la normal en 0:18) y los contornos (los de la t de Student son mucho más cercanos unos de otros). Para una discusión extensa de la distribución t de Student multivariada ver Spanos (1994). La comparación entre las densidades t de Student y normal se hace más evidente cuando estas dos distribuciones se comparan con otro miembro de la familia elíptica, la llamada distribución de Pearson tipo II cuya densidad toma la forma: : dxm = 1; 266 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA f (x; y; ) = P det ( ) 2 1 2 ! (v + 1) (v + 2) ( 1 )v 2 1 (1 ) [l (x; y)] : 2 (v + 2) En contraste con la distribución t de Student la de Pearson es platicúrtica (ver capítulo 3). La densidad bivariada de Pearson tipo II, junto con sus contornos de equiprobabilidad, se muestran en la …gura 6.12. Figura 6.8 Contornos de la densidad t de Student con Figura 6.9 Contornos de la densidad t de Student con = 0:5. = 0:5. 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA Figura 6.10 Densidad normal bivariada. Figura 6.11 Densidad t de Studen bivariada. Figura 6.12 Densidad bivariada Pearson tipo II. 267 268 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA La anterior comparación sugiere que en el caso de la familia elíptica podemos distinguir entre los distintos miembros sólo mediante un examen cuidadoso de cómo están hacinados los contornos de equiprobabilidad. En todos los casos, sin embargo, la correlación se puede evaluar por que tan aplastados son los contornos elípticos. Sin embargo, una palabra de precaución es: correlación cero no implica independencia para la familia elíptica, excepto en el caso de la distribución normal. Veamos esto con más detalle. La pregunta que surge naturalmente en esta etapa se re…ere a la estructura de dependencia de la familia elípticamente simétrica. El conjunto de la familia elíptica tiene la misma media condicional, la misma media condicional que encontramos anteriormente en relación a la distribución normal, pero los momentos condicionales superiores son en general funciones de la variable condicionante, es decir, (a) E (Y jX = x) = 0 + 1 x, 0 para r impar, (b) E [(Y E (Y jX = x))r jX = x] , qr (x) para r par. Por ejemplo, en el caso de la t de Student y Pearson tipo II las varianzas condicionales (véase el apéndice B) toman la forma: t de Student: V ar (Y jX = x) = 2 1 v v 1 1+ 1 (x v 2) 22 2 , 2 1 1 (x 222 ) , Pearson tipo II: V ar (Y jX = x) = 21 2v+3 Este resultado sugiere que en el caso de que = 0 todos los miembros de la familia elíptica se convierten en independientes de primer orden, pero la única distribución para la que esto es equivalente a independencia completa es la normal. Por ejemplo, en el caso de la distribución t de Student: ! 2 1 (x ) v 11 2 1+ , V ar (Y jX = x) j =0 = v 1 v 22 que es claramente diferente de la varianza marginal, V ar(Y ) = vv 112 . En este sentido, la distribución t de Student es dependiente de segundo orden incluso después de imponer la restricción de correlación cero. 5.7.3 Dependencia y las distribuciones sesgadas Es importante considerar algunas distribuciones conjuntas adicionales que no son simétricas en forma de campana como lo es la familia elíptica, con el …n de proporcionar al lector una visión equilibrada de las distribuciones de 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 269 dos variables. Desafortunadamente, no hay forma sistemática de presentar las distribuciones y el lector debe considerar esta sección como una colección de ejemplos cuyo objetivo básico es proporcionar al lector una imagen menos distorsionada de la literatura de libros de texto dominada por la Normal. Densidad logística bivariada La densidad logística bivariada toma la forma: f (x; y; ) = p 11 22 h 2 exp n 1 + exp n y p x p 1 11 y p 1 11 2 22 o + exp x p 2 22 2 R2 R2+ ; (x; y) 2 R2 ; oi ; donde := ( 1 ; 2 ; 11 ; 22 ). En la …gura 6.13 podemos ver la forma estandarizada de esta densidad bivariada con := (0; 0; 1; 1). Como podemos ver, esta densidad no es simétrica, con contornos que le recuerdan a uno una hacha paleolítica. Sin embargo, es importante señalar que las densidades marginales son simétricas (siendo logística). Desafortunadamente, la estructura de dependencia de esta distribución es bastante in‡exible, porque da lugar a un coe…ciente de correlación constante: := Corr(X; Y ) = 0:5, independientemente de los valores de . Para una estructura de correlación más ‡exible esta distribución bivariada se ha generalizado mediante la introducción de un parámetro adicional para formar: dando h F (x; y; ) = 1 + exp ( x) 1 i 1 h + exp ( y) 1 i 1 : 1 2 2 que incluye el caso anterior como un caso especial con a = 1. Es interesante notar que hay una forma de la distribución logística bivariada que pertenece a la familia elípticamente simétrica pero no tiene una forma cerrada (ver Fang et al. (1990)). Note que la extensión tmultivariada de esta distribución toma la forma: := Corr(X; Y ) = 1 " f (x1 ; x2 ; :::; xm ; ) = 1 + Xm k=1 2 exp ; donde xk p 1; 1 k kk # 1 , 1; 270 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA siendo la logística ordinaria un caso especial con = 1. Figura 6.13 Densidad logística bivariada (estándar). que incluye como caso especial el anterior con = 1: Densidad Gamma bivariada La distribución gamma bivariada viene en un número de formas diferentes (véase el apéndice B para tres de estas formas), cada una con su propia estructura de dependencia. En esta sección vamos a considerar dos de estas formas. La densidad Gamma Cherian bivariada toma la forma: f (x; y; ) = donde e (x+y) ( 0) ( 1) ( 2) := ( 0 ; 1; 2) Z min(x;y) ez z 1 (x z) 1 1 (y z) 2 R3+ : El coe…ciente de correlación es: 0 0 := Corr(X; Y ) = p 0 ( 0 + 1) ( 0 + 2) ; 0< 2 1 dz; (x; y) 2 R2 ; 1: En las …guras 6.14 - 6.15 podemos ver la densidad bivariada con los contornos insertados para dos conjuntos de parámetros := (1; 3; 3) con = 0:25 y := (8; 3; 3) con = 0:727, respectivamente. La forma McKay de la densidad bivariada Gamma es la siguiente: f (x; y; ) = a( 1 + 2 ) e ( 1) ( 2) ay x 1 1 (y x) 2 1 ; := (a; 1; 2) 2 R3+ ; (x; y) 2 R2 ; 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 271 con coe…ciente de correlación: := Corr(X; Y ) = s 1 p ( 1 + 2) : En las …guras 6.16-6.17 podemos ver la densidad Gamma bivariada (McKay) densidad con los contornos insertados para dos conjuntos de parámetros := (2; 2; 6) con = 0:5 y := (2; 6; 4) con = 0:775, respectivamente. En estas …guras, la asimetría es diferente de la de las …guras 6.14-6.15. Figura 6.14 Densidad Gamma bivariada (Cherian) (1; 3; 3). Figura 6.15 Densidad Gamma bivariada (Cherian) (8; 3; 3). Densidad exponencial bivariada 272 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Al igual que en el caso de la distribución Gamma bivariada, la exponencial bivariada tiene varias formas. La densidad exponencial bivariada de Gumbel toma la forma: f (x; y; ) = [(1 + x) (1 + y) ] exp f x y xyg ; 2 R+ ; (x; y) 2 R2+ : Esta densidad, junto con sus contornos de equiprobabilidad, para dos diferentes valores de , se muestra en las …guras 6.18 y 6.19. En el caso de la …gura 6.18 = 0:2 lo que implica un coe…ciente de correlation = 0:148. En el caso de la …gura 6.19 = 0:1 que implica un coe…ciente de correlación = 0:404. NOTE que esta densidad bivariada da lugar sólo a una correlación negativa. Una comparación directa entre las dos super…cies y los contornos de equiprobabilidad sugiere que la mayor correlación se puede detectar por una mayor concentración de probabilidad en los brazos de la densidad. Densidad bivariada F Esta densidad bivarida F toma la forma: f (x; y; ) = [0:5v] 2 Y i=0 vi0:5vi [0:5vi ] (v0 + v1 x + v2 y) 0:5v x0:5v x0:5v1 1 y 0:5v2 1 ; (x; y) 2 R2+ ; donde (v0 ; v1 ; v2 ) 2 R3+ ; v = (v0 + v1 + v2 ) : Esta densidad, junto con sus contornos de equiprobabilidad, para dos diferentes valores de , se muestra en las …guras 6.20 y 6.21. En el caso de la …gura 6.20 := (v0 = 12; v1 = 8; v2 = 8), lo que implica un coe…ciente de correlación = 0:444. En el caso de la …gura 6.21 := (v0 = 5; v1 = 60; v2 = 60), lo que implica un coe…ciente de correlación = 0:953. Comparando las dos super…cies y sus contornos de equiprobabilidad podemos ver que cuanto mayor sea la correlación más aplastada es la densidad. Sin embargo, esto debe interpretarse con cautela debido a que el coe…ciente de correlación no es su…ciente para capturar la estructura de dependencia de la distribución F (véase la sección siguiente). Con el …n de obtener una imagen más completa considerar otras dos formas de la distribución bivariada F en las …guras 6.22 y 6.23 cuyas correlaciones no son muy diferentes, pero los parámetros son := (v0 = 80; v1 = 4; v2 = 2), con coe…ciente de correlación = 0:035 y := (v0 = 200; v1 = 20; v2 = 20), con correlación = 0:092. NOTE que en el caso de que la correlación es cero la F bivariada se parece a la exponencial bivariada sin la curvatura hacia adentro. 5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA Figura 6.16 Densidad Gamma bivariada (McKay) (2; 2; 6). Figura 6.17 Densidad Gamma bivariada (McKay) (2; 6; 4). Figura 6.18 Exponencial Gumbel bivariada = 0:2. 273 274 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Figura 6.19 Exponencial Gumbel bivariada = 1:0. Figura 6.20 Densidad F bivariada := (12; 8; 8). Figura 6.21 Densidad F bivariada := (5; 60; 60). 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS275 Densidad bivariada Beta Al igual que en el caso de la exponencial de dos variables, hay varias distribuciones conjuntas llamadas Beta. La densidad Filón-Isserlis Beta bivariada toma la forma: f (x; y; ) = (v1 ; v2 ; v3 ) y v 1 1 x v2 (v1 ) (v2 ) (v3 ) 1 (1 x y)v3 1 ,x 0; y 0; x+y donde (v1 ; v2 ; v3 ) 2 R3+ . Esta densidad, junto con sus contornos de equiprobabilidad, para dos diferentes valores de , se muestra en las …guras 6.24 y 6.25. En el caso de la …gura 6.24 la densidad bivariada tiene valores de los parámetros := (v1 = 3; v2 = 3; v3 = 6), lo que supone un coe…ciente de correlación = 0:333. En el caso de la …gura 6.25 la densidad bivariada := (v1 = 6; v2 = 6; v3 = 8), lo que supone un coe…ciente de correlación = 0:429. La comparación de las dos super…cies sobre la base del coe…ciente de correlación no es tan buena idea en este caso debido a que la distribución exhibe una gran ‡exibilidad y la correlación por sí misma no proporciona una guía con…able. En la discusión anterior de dependencia en el contexto de distribuciones bivariadas no simétricas se utilizó el coe…ciente de correlación con el …n de explorar cómo cambian estas densidades cuando cambia la dependencia. Esto es claramente insatisfactorio porque sabemos que el coe…ciente de correlación mide sólo dependencia de primer orden. Está claro que necesitamos un ángulo de visión más general con el …n de evaluar la estructura de dependencia de las diferentes distribuciones conjuntas. Como una extensión del coe…ciente de correlación podríamos considerar el uso de los primeros momentos condicionales, por decir hasta orden cuatro, con el …n de obtener una imagen más completa de la estructura de la dependencia. Esto se tratará más adelante en el siguiente capítulo en relación con algunas pocas funciones condicionales. 5.8 5.8.1 De los conceptos probabilísticos a los datos observados Generación de números pseudo aleatorios* Las técnicas para generar números pseudo aleatorios introducidas en el capítulo 5 se pueden extender a las distribuciones conjuntas. En el caso de 1. 276 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA varibles aleatorias Independientes e Idénticamente Distribuidas la extensión es trivial porque la relación: IID f (x1 ; x2 ; :::; xn ) = n Y k=1 f (xk ) para todo x 2 Rn . sugiere que la generación de números pseudo aleatorios para la distribución conjunta del vector aleatorio X := (X1 ; X2 ; :::; Xn ) se puede hacer para cada variable aleatoria Xk por separado. Las cosas no son apreciablemente más complicadas en el caso de que (X1 ; X2 ; :::; Xn ) sean Independientes, pero no Idénticamente Distribuidas ya que: f (x1 ; x2 ; :::; xn ) I, no IID = n Y k=1 fk (xk ) para todo x 2 Rn . Esto sugiere que, al menos teóricamente, la heterogeneidad se puede manejar sin di…cultades insuperables. Las cosas se vuelven mucho más complicadas en el caso de que (X1 ; X2 ; :::; Xn ) sean dependientes debido a que el sistema generador tiene que manejar las dependencias entre estas variables aleatorias. En esta sección vamos a considerar varios métodos para generar números pseudo aleatorios para un vector aleatorio X := (X1 ; X2 ; :::; Xn ). Figura 6.22 Densidad bivariada F con := (80; 4:2). 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS277 Figura 6.23 Densidad bivariada F con := (200; 20; 20). Figura 6.24 Densidad bivariada Beta con := (3; 3; 6). Figura 6.24 Densidad bivariada Beta con := (6; 6; 8). 278 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA La aproximación de distribución condicional En la sección 2 anterior se argumentó que en el caso donde (X1 ; X2 ; :::; Xn ) no son ni Independientes ni Idénticamente Distribuidas la única reducción posible a un producto de distribuciones univariadas es la derivada por condicionamiento secuencial y toma la forma (6.9) que, al simpli…carse haciendo caso omiso de los parámetros desconocidos, es: no IID f (x1 ; x2 ; :::; xn ) = f1 (x1 ) n Y k=2 fk (xk jxk 1 ; xk 2 ; :::; 1) para todo x 2 Rn . (6.41) Esta reducción sugiere que la generación de números pseudo aleatorios para el vector aleatorio (X1 ; X2 ; ::; Xn ) equivale a usar distribuciones univariadas de forma secuencial: 1. Generar las observaciones para X1 usando la distribución marginal f1 (x1 ). 2. Generar las observaciones para X2 usando la distribución condicional f2 (x2 jx1 ) dado X1 = x1 . 3. Generar las observaciones para X3 usando la distribución condicional f3 (x3 jx2 ; x1 ) dado X2 = x2 , X1 = x1 . .. . n. Generar las observaciones para Xn usando la distribución condicional fn (xn jxn 1 ; :::; x1 ), dado Xn 1 = xn 1 ; Xn 2 = xn 2 ; :::; X2 = x2 y X1 = x1 . La implementación de este resultado requiere que el modelador especi…que explícitamente estas fda condicionales. Ejemplo Considere el caso n = 2 donde la función de densidad conjunta toma la forma: f (x; y) = exp fc ax 0; (x; y) 2 R2+ by + xyg , a > 0; b > 0; Las correspondientes densidades marginales y condicionales toman la forma (cf. Arnold et al (1992)): fX (x) = h f (yjx) = (b ab x) e abe ax b x (b x)y , x > 0 donde h (u) = ,y>0: Z 0 1 1 e z (1 + uz) 1 dz 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS279 Esto sugiere que el modelador puede generar números pseudo aleatorios para X usando el método de rechazo (véase el capítulo 5.7) y luego proceder a utilizar los valores simulados de X para generar Y utilizando el método de la función de distribución inversa (véase el capítulo 5.7) a través de la densidad condicional f (yjx). En términos de las funciones de distribución acumulativa (fda) la reducción (6.41) toma la forma: no IID F (x1 ; x2 ; :::; xn ) = F1 (x1 ) n Y k=2 Fk (xk jxk 1 ; xk 2 ; :::; 1) para todo x 2 Rn . Utilizando este resultado Rosenblatt (1952) extendió la transformación integral de probabilidad (véase el capítulo 4) para el caso de un vector aleatorio de la siguiente manera. Transformación integral de probabilidad condicional. Sea (X1 ; X2 ; ::; Xn ) un vector aleatorio continuo con función de distribución conjunta F (x1 ; x2 ; ::; xn ), entonces las n variables aleatorias de…nidas por: Z1 := F1 (X1 ) ; Z2 := F2 (X2 jX1 ) ; Z3 := F3 (X3 jX2 ; X1 ) ; :::; Zn := Fn (Xn jXn 1 ; :::; X1 ) son variables aleatorias IID distribuidas uniformemente, es decir: Z1 = F1 (X1 ) ~U (0; 1) ; Zk := Fk (Xk jXk 1 ; Xk 2 ; :::; X1 ) ~U (0; 1) ; k = 2; 3; :::; n. Rosenblatt sugirió el uso de números pseudo aleatorios a partir de un vector aleatorio de variables aleatoria IID uniformes a través del uso de las transformaciones inversas: Xk := Fk 1 (Zk ) ; k = 1; 2; :::; n generar los números pseudo aleatorios para el vector aleatorio (X1 ; X2 ; ::; Xn ). Ejemplo Considere el caso n = 2 donde la función de densidad conjunta toma la forma: f (x; y) = exp f yg , x < y; (x; y) 2 R2+ Las correspondientes densidades marginales y condicionales toman la forma 280 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA FX (X) = 1 exp ( x) ; x > 0; F (yjx) = 1 exp (x y) ; 0 < x < y < 1. La transformación integral de probabilidad condicional sugiere que: Z1 := FX (X) = 1 exp ( X) ~U (0; 1) Z2 := F (Y jX) = 1 exp (X Y ) ~U (0; 1) 0 < X < Y < 1. El método de distribución de la función inversa puede ser fácilmente utilizado en el presente caso para generar números pseudo aleatorios para el vector aleatorio (X; Y ). Este resultado se puede veri…car directamente con el siguiente lema (ver Devroye (1986)). Lema. Sea (Z1 ; Z2 ) uniforme bivariado con densidad conjunta g(z1 ; z2 ). Sean f1 y f2 dos funciones marginales preespeci…cadas con las fda correspondientes F1 y F2 . Entonces, la densidad conjunta de (X; Y ) := F1 1 (Z1 ) ; F2 1 (Z2 ) , toma la forma: f (x; y) = f1 (x) f2 (y) g (F1 (x) F2 (y)) Por el contrario, si el vector aleatorio (X; Y ) tiene densidad conjunta f (x; y) como la dada anteriormente, entonces, (f1 ; f2 ) son las funciones de densidad marginales de X e Y , respectivamente. Además, (Z1 ; Z2 ) = (F1 (x) F2 (y)) es un vector de dos variables aleatorias con densidad conjunta: g (z1 ; z2 ) = f F1 1 (Z1 ) ; F2 1 (Z2 ) ; z1 2 [0; 1] ; z2 2 [0; 1] f1 F1 1 (Z1 ) f2 F2 1 (Z2 ) que es una densidad uniforme de dos variables. El método de rechazo El método de rechazo para generar números pseudo aleatorios en el caso de las distribuciones univariadas se encontró en el capítulo 5.7. En teoría, este método se puede extender al caso de un vector aleatorio X sin ninguna di…cultad. En la práctica, sin embargo, varias trampas esperan a los desprevenidos; ver Devroye (1986) y Johnson (1987). El resultado básico fundamental de este método es el siguiente. Lema del método de rechazo. Sea f (x) la función de densidad conjunta del vector aleatorio X. Supongamos que f (x) se puede representar en la forma: 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS281 0, h (x) 2 RnX f (x) = c h (x) g (x) , donde c > 1, 0 < h (x) < 1 y g (x) Sea Z~N (0; 1) y Y un vector aleatorio con densidad conjunta g (y); Y y Z independientes. Entonces la distribución condicional de Y dado Z g (y) coincide con la distribución de X, es decir, F (yjZ g (y)) = F (x) : El método función de dependencia Un método prometedor para la generación de números pseudo-aleatorios, que aún no se ha explorado, podría basarse en la función de dependencia (ver Castillo (1988)). Función de dependencia. Sea F (x; y) la fda de las variables aleatorias (x; y) con fda marginales FX (x) y FY (y). La función de la dependencia se de…ne como la transformación que mapea las fda marginales uniforme en una fda conjunta: d (FX (x) ; FY (y)) = F (x; y) ; (x; y) 2 RX RY , donde d (:; :) : [0; 1]2 ! [0; 1]: (6.42) En el caso donde F (x; y) es una fda continua con fda marginales univariadas (FX (:) ; FY (:)) y funciones cuantil FX 1 (:) ; FY 1 (:) , entonces: d (z1 ; z2 ) = F FX 1 (z1 ) ; FY 1 (z2 ) = (z1 ; z2 ) 2 R1 R2 . (6.43) La función de la dependencia constituye un medio importante para aislar la estructura de dependencia de variables aleatorias distribuidas conjuntamente. Podemos utilizar esta última forma de la función de dependencia a …n de obtener una idea adicional. En el capítulo 3 nos encontramos con la transformación integral de probabilidad que establece que para cualesquiera fda continuas FX (:) ; FY (:), las variables aleatorias Z1 = FX (x) y Z2 = FY (y) se distribuyen uniformemente, es decir, Z1 = FX (x) ~U (0; 1) , Z2 = FY (y) ~U (0; 1) , y la inversa de la transformación integral de probabilidad que garantiza que 282 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA FX 1 (z1 ) ~FX (:) , FY 1 (z2 ) ~FY (:) . Por lo tanto, podemos ver la función de dependencia en (6.43) como un mapeo mixto de variables aleatorias (independientes) uniformemente distribuidas que dan lugar a variables aleatorias dependientes con fda F (x; y). Por lo tanto, dada la función de dependencia el modelador puede utilizar números uniformes pseudo-aleatorios para generar números para el vector aleatorio (X; Y ). Ejemplos (ver Castillo (1988)) (i) Considere la distribución exponencial Gumbel cuya fda toma la forma: F (x; y) = exp ( x y + xy) + 1 exp ( x) exp ( y) En vista del hecho de que la transformación integral inversa de la fda FX (x) = 1 exp ( x) es FX 1 (z1 ) = In (1 z1 ) podemos mostra que d (z1 ; z2 ) = F ( In (1 z1 ) ; In (1 z2 )) = exp [In (1 z1 ) + In (1 z2 ) + In (1 1 + z1 + z2 z1 ) In (1 z2 )] la función de dependencia es d (x; y) = (1 x) (1 y) exp [ In (1 z1 ) In (1 z2 )] 1 + x + y: (ii) Consideremos la distribución exponencial Mardia cuya función de distribución toma la forma: F (x; y) = [exp (x) + exp (y) 1] 1 +1 exp ( x) exp ( y) : Una vez más, utilizando la misma transformación integral inversa de probabilidad podemos demostrar que: 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS283 d (z1 ; z2 ) = F ( In (1 = = 1 z1 1 1 z1 1 + + z1 ) ; In (1 1 1 z2 1 +1 (1 z1 ) (1 z2 ) 1 1 z1 z2 )) 1 1 1 1 + z1 + z2 Por lo tanto, la función de dependencia es: d (x; y) = 5.8.2 1 x1 1 + 1 x2 1 1 1 1 + x + y: Una representación grá…ca: el diagrama de dispersión En el capítulo anterior hemos introducido la representación grá…ca de una grá…ca de tiempo y otras representaciones grá…cas relacionadas de los datos observacionales, tales como el histograma y el histograma suavizado, para proporcionar un vínculo entre los conceptos teóricos y los datos reales. En esta sección llevamos la historia un paso más allá mediante la introducción de otra importante representación grá…ca que puede establecer una relación entre las nociones probabilísticas de densidad conjunta y dependencia y los datos observados. Esto se conoce como el diagrama de dispersión (o crossplot) y sus raíces se remontan a la mitad del sigulo XIX. Un diagrama de dispersión es una representación grá…ca de dos dimensiones de la forma diagrama de dispersión: f(xt ; yt ) ; t = 1; 2; :::; T g : 284 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Figura 6.26. Datos normales bivariados simulados con ( = 0) donde el eje y representa el rango de valores de la variable aleatoria Yt y el eje X representa el rango de valores de la variable aleatoria Xt . En las …guras 6.26 y 6.27 podemos ver dos de esas grá…cas de dispersión de datos bivariados IID normales simulados. Como podemos ver, la …gura 6.26 muestra una cierta forma circular con el número de observaciones cada vez mayor conforme se avanza desde la periferia hacia el centro de la forma circular. La …gura 6.27 exhibe una forma elíptica, con la misma tendencia para el número de observaciones a aumentar a medida que se pasa de las colas al eje principal de la forma elíptica. Resulta que la única diferencia entre las dos grá…cas es el coe…ciente de correlación que es = 0 para la …gura 6.26 y = 0:8 para la …gura 6.27. La clave para relacionar esas grá…cas de datos con el concepto teórico de función de densidad conjunta nos fue dada por Galton (1886) que fue capaz de unir los puntos de igual frecuencia en curvas elípticas y entonces derivar la densidad misma. Con las técnicas grá…cas de hoy en día podemos formalizar el procedimiento de Galton y hacer las distinciones necesarias entre los conceptos teóricos y sus contrapartes empíricas. Figura 6.26. Datos normales bivariados simulados con ( = 0:8) Estereograma suavizado. Al igual que en el caso de una única serie de datos discutido en el capítulo 5, el primer paso para relacionar el diagrama de dispersión en la …gura 6.26 con una función de densidad de densidad conjunta teórica es construir el histograma de dos dimensiones, llamado estereograma por Pearson, y luego suavizarlo. La suavización más utilizada 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS285 es una extensión del kernel de una dimensión discutido en el capítulo 5. Un kernel suavizado de un histograma toma la forma: b h (x) = g 1 Xn K k=1 nh xk x h ; h > 0; K (z) 0; Z K (z) dz = 1; z2Rz donde K (:) es el kernel; para ejemplos de este kernel veáse el capítulo 5. El kernel más utilizado es el que se basa en la densidad normal produciendo el histograma suavizado: Xn 1 b h (x) = p exp g k=1 nh 2 ( 1 2 xk x h 2 ) ;h ' (1:06) n 1 5 : La forma más simple del estereograma alisado extiende este a: b h (x; y) = g 1 Xn Xn K j=1 i=1 nh xi x h yj x h ; h > 0; donde el kernel toma la forma (Cacoullos, 1966): Z Z K (x; y) dxdy = 1. K (x; y) 0; x2RX y2RY Las formas más generales de kernels suavizado permite anchos de banda diferentes y / o de correlación (ver Silverman (1986)). El estereograma suavizado de los datos en la …gura 6.26 se muestra en la …gura 6.28. Esto puede ser comparado con la densidad normal bivariada teórica con = 0, que se muestra en la …gura 6.29. Como podemos ver, el estereograma alisado es muy similar a la super…cie teórica. 286 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Figura 6.28. Estereograma suavizado de datos normales simulados con ( = 0) Figura 6.29. Datos normales bivariados con ( = 0) Contornos. El segundo paso es evaluar qué tan buena aproximación es el estereograma suavizado a la función de densidad bivariada. Esta evaluación puede hacerse en términos de los contornos de estas dos super…cies. En la …gura 6.30 podemos ver los contornos del estereograma suavizado y en la …gura 6.31 los mismos contornos se superponen con los de la densidad normal bivariada ( = 0). Como podemos ver, esta superposición proporciona una representación grá…ca donde las diferencias entre la densidad bivariada y su contraparte empírica puede ser fácilmente evaluada a diferentes alturas. En este ejemplo, es evidente que las dos están muy cerca para la mayoría de las alturas, excepto la parte superior donde se detecta una cierta diferencia. Para el principiante notemos que estas pequeñas (pero insigni…cantes) diferencias son la regla y no la excepción en la modelación empírica, así que no espere que las dos coincidan! Este ejercicio se repite para el diagrama de dispersión en la …gura 6.27. En las …guras 6.32-6.33 podemos ver el estereograma suavizado y la densidad normal bivariada con ( = 0:8), respectivamente. Un vistazo a estas grá…cas sugiere que esta última es una buena aproximación del primero. Esta conclusión se ve con…rmada por la grá…ca de los contornos del estereograma suavizado en la …gura 6.34 que se superponen con los de la densidad bivariada con ( = 0:8), que se muestra en la …gura 6.35. Una comparación entre las …guras 6.26 y 6.28 a 6.31 por un lado, y las …gura 6.27 y 6.32 a 6.35, por otro lado, puede ser utilizada como un marco 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS287 de referencia en el contexto del cual el modelador puede evaluar la dependencia en datos IID Normales (donde I se re…ere a la independencia temporal). Quizás la mejor manera de resumir los dos grupos de grá…cas es la superposición de los contornos del estereograma suavizado con el diagrama de dispersión. En cifras 6.36 y 6.37 podemos ver estas dos grá…cas para los datos simulados de una normal bivariada con diferente correlación. La forma elíptica, junto con la creciente concentración de los puntos del diagrama de dispersión cuando el ojo se mueve hacia la intersección de los dos ejes principales, apuntan hacia la hipótesis de normalidad y el grado de excentricidad de la forma elíptica (cómo se ve aplastado) indica el nivel de correlación. La discusión en la sección anterior, sin embargo, sugirió que la forma elíptica del diagrama de dispersión no es una característica únicamente de la Normal sino una característica de toda una familia de distribuciones conjuntas que llamamos elípticamente simétricas. Para ilustrar este punto, volvamos a los datos de la tasa de cambio Cánada/EEUU introducidos en el capítulo 1 y discutidos en el capítulo 5 en relación con sus características distribucionales. En el capítulo 1 observamos los patrones de regularidad aleatoria exhibidos por la grá…ca de tiempo de estos datos, incluyendo la simetría en forma de campana. La conclusión preliminar en el capítulo 5, basada en las grá…cas P-P normalizadas, era que los datos presentaban una simetría en forma de campana cercana a la distribución t de Student con 4 grados de libertad en lugar de la distribución normal. Además, a primera vista los datos no parecen presentar ninguna dependencia temporal signi…cativa de primer orden o cualquier heterogeneidad. Figura 6.30 Contornos de estereograma suavizado de datos normales simulados ( = 0) 288 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Figura 6.31 Estereograma suavizado y contornos normales ( = 0) Figura 6.32 Estereograma suavizado y datos normales simulados ( = 0:8) Figura 6.33. Densidad normal bivariada con ( = 0:8) 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS289 Figura 6.34. Contornos de estereograma suavizado de datos normales simulados ( = 0:8) Figura 6.35 Estereograma suavizado y contornos normales ( = 0:8) 290 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Figura 6.36 Contornos de estereograma suavizado y diagrama de dispersión de datos normales ( = 0) Figura 6.37 Contornos de estereograma suavizado y diagrama de dispersión de datos normales ( = 0:8) Figura 6.38 Diagrama de dispersión (xt ; xt 1 ) de los datos de la tasa de cambio En este capítulo se procede a examinar la cuestión de la dependencia temporal de la distribución relacionada. A pesar de la importancia de la distinción entre la dependencia contemporáneas y temporal en el contexto de la modelación, en relación con la evaluación de la dependencia de la distribución relacionada, la distinción es sólo una cuestión de notación. Usando la distribución conjunta apropiada podemos discutir la dependencia relacionada 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS291 con la distribución f (xt ; yt ) con la misma facilidad que la de f (xt ; xt 1 ); la diferencia es sólo de notación. En el contexto actual, podemos utilizar el diagrama de dispersión: f(xt ; yt ) ; t = 1; 2; :::; T g mostrado en la …gura 6.38, para evaluar la dependencia temporal entre elementos sucesivos del proceso estocástico fXt g1 t=1 . El diagrama de dispersión muestra una clara forma elíptica (casi circular) con la concentración de observaciones cada vez mayor a medida que avanzamos hacia el centro de esta forma elíptica. Con el ojo de nuestra mente podemos visualizar la super…cie de dos dimensiones (estereograma) sugerido por esta grá…ca. Ya que el número de observaciones aumenta movimiéndose hacia el centro de la forma elíptica, el correspondientes estereograma aumenta en altura. El stereograma suavizado se grá…ca en la …gura 6.39 y representa los datos de manera similar a la super…cie de dos dimensiones que representa la función de densidad. Observando esta grá…ca podemos decir que está muy cerca de la densidad teórica bivariada para la distribución de la t de Student. Figura 6.39 Estereograma suavizado/contornos de los datos de la tasa de cambio. En la …gura 6.39 podemos ver también las correspondientes densidades marginales suavizadas, así como los contornos insertados en el margen derecho. La …gura 6.39 con…rma que la t de Student bivariada constituye un supuesto de distribución mucho más apropiado que la normal debido a que 292 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA un vistazo a las …guras 6.10 y 6.11, que representan a esas densidades bivariadas, sugieren más claramente que la densidad bivariada suavizada de estos datos está más cerca de la densidad mostrada en la Figura 6.11 que a la de la …gura 6.10; es importante tener en cuenta las medidas en el eje vertical. Esto se con…rma en la …gura 6.40, donde los contornos del estereograma suavizado en la …gura 6.39 se superponen a los de la densidad t de Student bivariada con 4 grados de libertad. La correlación (dependencia de primer orden) entre Xt y Xt 1 no parece ser signi…cativa debido a que las formas elípticas son cercanas a círculos. Cabe señalar que la correlación cero en este contexto no signi…ca que el proceso estocástico fXt g1 t=1 sea temporalmente independiente. Como hemos dicho anteriormente, no correlación no implica independencia en el caso de la distribución t de Student. Para una evaluación más precisa, sin embargo, tenemos que aplicar procedimientos adecuados de prueba (véase el capítulo 15). A …n de garantizar que las conclusiones sobre la dependencia de la distribución relacionada sobre la base del diagrama de dispersión f(xt ; xt 1 ) ; t = 1; 2; :::; T g, son de hecho válido para el proceso estocástico fXt g1 t=1 , tenemos que considerar los diagramas de dispersión adicionales de la forma: f(xt ; xt k ) ; k 2; t = 1; 2; :::; T g : Figura 6.40 Estereograma suavizado (xt ; xt 1 ) y contornos t de Student (v = 4). Con …nes ilustrativos consideremos el diagrama de dispersión en el caso de k = 2 en la …gura 6.42 y el correspondiente estereograma suavizado en 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS293 la …gura 6.43; podemos asegurar al lector que las grá…cas adicionales para valores k > 2 son muy similares. Como podemos ver, estas dos representaciones grá…cas con…rman las conclusiones obtenidas con base en las grá…cas 6.38 a 6.40. Esto se ve reforzado por la …gura 6.41, donde los contornos de la estereograma suavizado en la …gura 6.43 se superponen a los de densidad de la t de Student bivariada con 4 grados de libertad. En la sección anterior hemos discutido la importancia de superar la indebida in‡uencia de la distribución normal en la modelizaciónempírica. El ejemplo empírico anterior lleva al modelador un paso más allá de la distribución Normal y a la familia elíptica. Otros pasos son necesarios, sin embargo, con el …n de escaparse del hechizo de la Normalidad. Con esto en mente vamos a considerar algunos diagramas de dispersión adicionales de datos simulados a partir de distribuciones asimétricas con el …n de garantizar que el lector no concluya este capítulo con la impresión errónea de que los diagramas de dispersión aparecen como formas simétricas elípticas. Figura 6.41 Estereograma suavizado (xt ; xt 2 ) y contornos t de Student (v = 4). La distribución bivariada no simétricas que consideramos en primer lugar es la distribución Gamma (Cherian). Elegimos los parámetros de tal manera que generemos una distribución casi simétrica en un intento por ilustrar algunas de las formas más sutiles de la asimetría. En la …gura 6.44 podemos ver un diagrama de dispersión de una distribución gamma bivariada con parámetros ( 0 = 2; 1 = 16; 2 = 16), que implica un coe…ciente de correlación = 0:111; NOTE que la forma Cherian de la distribución gamma bivariada sólo permite correlación positiva. Figura 6.45 muestra los contornos 294 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA de la correspondiente densidad teórica, que presentan una asimetría en forma de huevo con la yema (la moda) más cerca del extremo más puntiagudo apuntando hacia el origen. La asimetría del diagrama de dispersión no es tan evidente, pero un examen detallado del diagrama de dispersión de los datos en la …gura 6.44, en conjunción con los contornos de la densidad teórica que se muestra en la …gura 6.45 pone de mani…esto la relación de asimetría. En relación al diagrama de dispersión en la …gura 6.44 vale la pena señalar que si el modelador decide declarar algunas de las observaciones en las colas como valores atípicos, la asimetría expuesta podría muy fácilmente perderse y con ella la información que conduciría directamente al modelador hacie la distribución correcta. Figura 6.42 Diagrama de dispersión (xt ; xt 2 ) de los datos de la tasa de cambio. Figura 6.43 Estereograma suavizado/contornos de los datos de la tasa de cambio. 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS295 Figura 6.44 Datos simulados: Gamma (Cherian) ( 0 = 2; 1 = 16; 2 = 16). Figura 6.45 Contornos de una densidad Gamma (Cherian) ( 0 = 2; 1 = 16; 2 = 16). La misma asimetría en forma de huevo se exhibe en las …guras 6.466.47, donde el coe…ciente de correlación es = 0:5. Al igual que en el caso de la distribución normal, la alta correlación se visualizada como contornos aplastados. En las …guras 6.48-6.49 la correlación aumenta a = 0:8 y la compresión de los contornos aumenta. Como ejemplo de una distribución muy sesgada consideramos diagramas de dispersión de datos simulados de la distribución exponencial (Gumbel) con correlación, = 0:01 y = 0:36, en las …guras 6.50-6.51, respectivamente. Estos diagramas de dispersión corresponden aproximadamente a las densidades bivariadas mostradas en las …guras 6.18-6.19, respectivamente. 296 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Como podemos ver, la correlación negativa en una distribución Gumbel exponencial es exhibida por la concentración de las observaciones a lo largo de los ejes en forma de cola de pez. Aunque la exponencial bivariada Gumbel no permite la correlación positiva, otras formas permiten una gama completa de correlationes 1 1 (ver Devroye (1986)). En la …gura 6.52 podemos ver un diagrama de dispersión de los datos simulados de una exponencial no Gumbel con correlación positiva = 0:36. La dependencia positiva se visualiza en la …gura 6.52 como acercándose a la forma triangular en la …gura 6.50. Esto se hace más evidente en la …gura 6.53, donde la correlación se ha incrementado a = 0:9 induciendo una forma similar a un cometa para el diagrama de dispersión. Concluimos esta sección haciendo hincapié una vez más que las grá…cas anteriores son sólo de carácter indicativo y constituyen sólo la punta del iceberg en términos de la variedad de formas y patrones que uno debería esperar en la modelación con datos reales. Es altamente recomendable que el lector genere diagramas de dispersión y las correspondientes densidades suavizadas con el …n de apreciar la riqueza de la información que tales grá…cas pueden proporcionar. UNA NOTA DE PRECAUCIÓN. En esta sección discutimos el problema de relacionar el diagrama de dispersión de la serie de datos f(xt ; yt ) ; t = 1; 2; :::; T g con la estructura de la distribución de la densidad de dos variables f (x; y), (x; y) 2 RX RY . Yendo a tres series de datos, el diagrama de dispersión se convierte en una nube de dispersión y se plantean algunos problemas en la rotación de la nube para obtener una visión más …able. Cuando el modelador intenta relacionar la nube de dispersión para la distribución conjunta, él / ella tiene la obligación de pensar en cuatro dimensiones. En la discusión anterior nos centramos exclusivamente en dos series de datos porque la cognición humana se limita a tres dimensiones. Por lo tanto, a menudo es más práctico considerar el caso de m series de datos viendo dos series y juntándolas en una película más completa usando instantáneas tridimensionales. 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS297 Figura 6.46 Datos simulados: Gamma bivarida (Cherian) ( 0 = 16; 1 = 16; 2 = 16). Figura 6.47 Contornos de una densidad Gamma (Cherian) ( 0 = 16; 1 = 16; 2 = 16). 298 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Figura 6.48 Datos simulados: Gamma bivarida (Cherian) ( 0 = 32; 1 = 16; 2 = 16). Figura 6.49 Contornos de una densidad Gamma (Cherian) ( 0 = 32; 1 = 16; 2 = 16). Figura 6.50 Datos simulados de una exponencial Gumbel bivariada con = 0:01: Figura 6.51 Datos simulados de una exponencial bivariada no Gumbel con = 0:36: Figura 6.52 Datos simulados de una exponencial bivariada no Gumbel con = 0:09: 5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS299 300 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA 5.9 ¿Qué sigue? Después de la discusión anterior de dependencia, procedemos a examinar el problema planteado por la condicionalidad estocástica. El capítulo 7 se concentra en las distribuciones condicionales y sus momentos y como ellos se relacionan con la dependencia y / o la homogeneidad concentrándones de nuevo en el caso simple de dos variables f (x; y; ) = f (yjx : '2 ) fx (x : '1 ) , para todo (x; y) 2 RX RY : De particular interés en el capítulo 7 será el concepto de dependencia de la distribución relacionada y cómo se relaciona con las distribuciones condicionales f (yjx : '2 ), para todo x 2 RX . Se argumenta que la forma más efectiva para modelar tales formas de dependencia es a través del concepto de funciones momento condicionales: E (Y r jX = x) = hr (x) ; x 2 RX ; r = 1; 2; ::: Los conceptos desarrollados en estos dos capítulos se extienden entonces en el capítulo 8 más allá del caso simple de dos variables con el …n de proporcionar un marco de referencia general para modelar dependencia y heterogeneidad en lo que respecta a las sucesiones de variables aleatorias. Es decir, regresamos al caso general donde la reducción de la distribución conjunta toma la forma: f (x1 ; x2 ; :::; xn ; ) no IID = f1 (x1 ; 1) Y fk (xk jxk 1 ; :::; x1 ; k) , para todo x 2 RnX ; y proceder a examinar el problema de la imposición de restricciones de dependencia y heterogeneidad para que la anterior reducción de lugar a modelos operativos. 5.10 Ejercicios 1. ¿Por qué nos preocupamos por la heterogeneidad y la dependencia en los modelos estadísticos? 2. Explicar cómo la idea de condicionamiento secuencial ayuda a lidiar con el problema de múltiples dimensiones de la distribución conjunta de una muestra no aleatoria. 5.10. EJERCICIOS 301 3. De…nir los siguientes conceptos: (a) momentos conjuntos, (b) momentos condicionales, (c) no correlación, (d) ortogonalidad, (e) relación producto cruzado y (e) el coe…ciente Gamma. 4. Sea la función de densidad conjunta de dos variables aleatorias X e Y: xny 0 1 2 0 0:1 0:2 0:2 1 0:2 0:1 0:2 (a) Deduzca las distribuciones condicionales: f (yjx), x = 0; 1. (b) Deducir los siguientes momentos: E(X), E(Y ), V ar(X), V ar(Y ), Cov(X; Y ), E(XY ), Corr(X; Y ), E(Y jX = 0), E(Y jX = 1), V ar(Y jX = 0). 5. Explique la diferencia entre dependencia, correlación y no ortogonalidad. 6. Explique el concepto de dependencia de r-ésimo orden y compárela con la de dependencia de (m; k)-ésimo orden. 7. Explique el concepto de independencia condicional y su relación con el de dependencia de Markov. 8. Explique por qué no correlación implica independencia en el caso de una distribución normal bivariada. ¿Cómo se puede evaluar la correlación al observar un diagrama de dispersión de los datos observados? 9. Explique cómo se puede distinguir entre los contornos de equiprobabilidad de las densidades bivariadas, Normal, t de Student y de Pearson tipo II. 10. Explique por qué correlación cero no implica independencia en el caso de las distribuciones bivariadas t de Student y Pearson tipo II. 11 Explique cómo un aumento en la correlación afectará la densidad exponencial bivariada. ¿Qué signi…ca esto para el diagrama de dispersión? 12 Explique por qué la noción de correlación no tiene sentido en el caso de variables aleatorias medidas en la escala nominal. 13 Considere la variable aleatoria X~(0; 1) y de…na la variable aleatoria Y = X 2 1. Demuestre que: Cov(X; Y ) = 0, pero las dos variables aleatorias no son independientes. 302 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA Capítulo 6 Regresión y conceptos relacionados 6.1 Introducción En el capítulo anterior dimos el primer paso en el territorio de la muestra no aleatoria de la teoría de probabilidad. El lector se habría dado cuenta ahora que este territorio puede ser peligroso y emocionante al mismo tiempo. Basta con SEÑALAR que se trataba de un territorio en gran parte inexplorado hasta el primer trimestre del siglo 20. El objetivo principal de la discusión que sigue es extender el concepto de modelo estadístico simple, y, en particular, el concepto de muestra aleatoria (variables aleatorias Independientes e Idénticamente Distribuidas), hacia formulaciones más realistas. Estos modelos permitirán variables aleatorias que están dotadas de dependencia y / o heterogeneidad. En este capítulo continuamos este viaje y descubrimos que hemos estado sosteniendo la llave del territorio de la muestra no aleatoria desde el capítulo 4: el concepto de condicionalidad. La manejabilidad del modelo estadístico simple se deriva del hecho de que la distribución conjunta de la muestra se puede simpli…car mucho por su reducción a un producto de distribuciones marginales univariadas (idénticas): I f (x1 ; x2 ; :::; xn ; ) = n Y k=1 fk (xk ; k) IID = n Y k=1 f (xk ; ) ; para todo x := (x1 ; x2 ; :::; xn ) 2 Rn : (7.1) En el caso de una muestra no aleatoria, si consideramos la no aleatoriedad 303 304 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS negativamente como la falta de independencia y homogeneidad (ID), el único resultado disponible es el siguiente: no IID f (x1 ; x2 ; :::; xn ; ) 6= n Y k=1 f (xk ; ) ; para todo x := (x1 ; x2 ; :::; xn ) 2 Rn : (7.2) En el capítulo 6 vimos no aleatoriedad de manera positiva como la presencia de dependencia y / o heterogeneidad y se argumentó que la clave para lidiar con la distribución conjunta de una muestra no aleatoria fue el concepto de condicionamiento secuencial simpli…cando la distribución conjunta a: f (x1 ; x2 ; :::; xn ; ) no IID = f1 (x1 ; 1) n Y k=2 fk (xk j xk 1 ; :::; x1 ; k ) ; 8x 2 RnX : (7.3) Una comparación directa entre (7.1) y (7.3) revela que las muestras no aleatorias intercambiaron distribuciones marginales por condicionales. Estas distribuciones condicionales proporcionarán los medios para modelar la dependencia y / o heterogeneidad. El primer problema que debemos abordar cuando se modela la dependencia de modelos en el contexto de la reducción (7.3) es el problema condicionalidad estocástica. Este problema surge porque el lado derecho de (7.3) no es sólo un producto, de una densidad marginal (f1 (x1 ; 1 )) y (n 1) densidades condicionales (fk (xk j xk 1 ; :::; x1 ; k )) como podría parecer a primera vista. En vista del hecho de que el concepto de función de densidad condicional se de…ne para un valor especí…co de las variables condicionantes, para cada k, el conjunto de densidades condicionales: ffk (xk j xk 1 ; :::; x1 ; k )g ; para todo (xk 1 ; :::; x1 ) 2 RnX 1 (7.4) representa a toda una familia de funciones de densidad, una para cada valor de (xk 1 ; :::; x1 ) en RnX 1 , y que cambia con k. Hacer frente a estos problemas en su generalidad en el contexto de (7.3) y (7.4), sin embargo, sería muy enredado. Por esta razón, simpli…camos el problema eludiendo los problemas de dependencia y heterogeneidad asociada con un general K > 2 6.1. INTRODUCCIÓN 305 y nos concentramos exclusivamente en el caso K = 2. En cierto sentido, evitamos los problemas de (a) el conjunto de condicionalidad cambiante (el número de variables condicionantes cambia con k) y (b) la heterogeneidad de las densidades condicionales (que cambian con k). Estas dos cuestiones se discutirán en el próximo capítulo. Una vista panorámica del capítulo En la sección 2 discutimos el problema de la condicionalidad en el contexto del caso más sencillo de dos variables aleatorias. f (x; y; ) = f (yjx; '2 ) fX (x; '1 ) ; para todo (x; y) 2 RX RY : (7.5) NOTE que, como en el capítulo anterior, con el …n de simpli…car la notación utilizamos (x; y) en lugar de (x1 ; x2 ). En este caso sencillo, los problemas del conjunto de condicionalidad creciente y el de heterogeneidad no se presentan. En este contexto, el problema de condicionalidad se trata de forma e…caz mediante la extensión del concepto de momentos condicionales a funciones de los valores de la variable condicionante. En la sección 3 extendemos el concepto de funciones momento condicional para tener en cuenta la presencia de la distribución marginal f1 (x1 ; '1 ). Esto da lugar al concepto de funciones momento condicional estocástico. En la sección 4 consideramos la pregunta: ¿en qué circunstancias puede el modelador ignorar la distribución marginal? - la respuesta conduce al concepto de exogeneidad débil. En la sección 5 se introduce un nuevo componente al concepto de modelo estadístico, además de los modelos de probabilidad y muestral. Este nuevo componente se llama mecanismo generador estadístico (MG) y constituye un puente entre los modelos estadísticos y teóricos. En la sección 6 hacemos una breve excursión histórica para rastrear las raíces de la regresión a Francis Galton (1822-1911) y Karl Pearson (1857-1936) con el …n de proporcionar una breve descripción de la tradición biométrica en estadística. Esta tradición fue reformulada posteriormente por R.A Fisher (1890 - 1962) en la inferencia estadística moderna. Recordamos al lector que en el capítulo 1 hemos mencionado brevemente dos de las tradiciones más antiguas en la estadística, la teoría de los errores y el diseño experimental, argumentando que son más adecuadas para el análisis estadístico de datos experimentales; o de datos que puede ser visto como generados por un sistema casi aislado. Una línea especialmente importante de la argumentación que corre a través de 306 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS este libro es que la tradición biométrica es más adecuada para la modelación de datos observacionales (no experimentales). 6.2 6.2.1 Condicionalidad y regresión Reducción y funciones condicionales momento Como se ha dicho anteriormente, la igualdad en la reducción (7.5) no representa una distribución conjunta a la izquierda y un producto de una distribución condicional y una marginal de la derecha! El concepto de distribución condicional discutido en el capítulo 6 se de…ne con respecto a un valor especí…co de la variable condicionante, pero el cuanti…cador para todo (x; y) 2 RX RY signi…ca que para cada valor de la variable condicionante, x 2 RX , existe una distribución condicional. Desde el punto de vista de la modelación, el problema de la condicionalidad tiene dos dimensiones. La primera dimensión es que: f (yjx; '2 ) ; (x; y) 2 RX RY ; (7.6) de…ne una (posiblemente in…nita) familia de densidades condicionales indexada por los diferentes valores de la variable aleatoria X. La segunda dimensión es que cada densidad condicional en (7.5) es ponderada por la probabilidad marginal asociada con el correspondiente valor condicionante de la variable aleatoria X. En esta sección consideramos el problema de muchos (posiblemente un número in…nito de) distribuciones condicionales. La dimensión de la ponderación será discutido en las secciones 3-4. Para hacer la discusión menos abstracta consideremos esta cuestión usando algunos ejemplos. Ejemplos (i) Considere la distribución conjunta y marginal como se indica a continuación: y/x 0 1 2 fX (x) 1 0.20 0.10 0.01 0.31 2 0.10 0.25 0.06 0.41 3 fY (y) 0.15 0.45 0.05 0.40 0.08 0.15 0.28 1 (7.7) 6.2. CONDICIONALIDAD Y REGRESIÓN 307 De acuerdo con (7.6) esta distribución conjunta dará lugar a tres diferentes distribuciones condicionales, f (y j X = x) para x = 1; 2 y 3; dadas por: f (yjx = 1) = ! 8 > < > : = = = 0:20 ;y 0:31 0:10 ;y 0:31 0:01 ;y 0:31 = 0; = 1; = 2; 9 > = > ; f (x=2;y=0) fX (x=2) f (x=2;y=1) fX (x=2) f (x=2;y=2) fX (x=2) 0:10 ;y 0:41 0:25 ;y 0:41 0:06 ;y 0:41 = = = 9 = 0; > = = 1; > ; = 2; 8 > < > : f (x=3;y=0) fX (x=3) f (x=3;y=1) fX (x=3) f (x=3;y=2) fX (x=3) = = = 0:15 ;y 0:28 0:05 ;y 0:28 0:08 ;y 0:28 = 0; = 1; = 2; 9 > = > ; y 0 1 2 f (yjx = 3) 0.536 0.179 0.285 NOTA. En f (yjx = 3) hay un error en el texto. Dice f (x=2;y=2) ; fX (x=3) (7.8) y 0 1 2 f (y j x = 2) 0.244 0.610 0.146 f (yjx = 3) = ! > : f (x=1;y=0) fX (x=1) f (x=1;y=1) fX (x=1) f (x=1;y=2) fX (x=1) y 0 1 2 f (yjx = 1) 0.645 0.323 0.032 f (yjx = 2) = ! 8 > < f (x=3;y=1) fX (x=3) f (x=2;y=1) fX (x=3) y f (x=3;y=2) : fX (x=3) debería decir, y ii) Considere el caso en que f (x; y; ) es normal bivariada de la forma: Y X N 1 2 ; 11 12 21 22 : (7.9) NOTAR que 1 = E(Y ); 2 = E(X); 11 = V ar(Y ); 22 = V ar(X); 12 = Cov(X; Y ): Las distribuciones condicional y marginal en (7.5) toman la forma: 308 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS (Y jX = x) 0 N = 1 0 + 2 1 x; 1 2; 1 = ; x 2 R; X 12 ; 2 = N ( 2; 11 22 22 ) ; 2 12 (7.10) : 22 Esto muestra que la distribución condicional representa una familia in…nita de las densidades condicionales, una para cada valor de x 2 R. Los ejemplos anteriores sugieren que cualquier intento de tratar con la modelación de la reducción (7.5), concentrándose en los momentos de las distribuciones implicadas está condenado. Esto se debe a la presencia de una densidad condicional para cada valor de la variable condicionante. Es decir, aún cuando la distribución conjunta de la izquierda y la distribución marginal de la derecha puedan (posiblemente) ser modeladas a través de sus momentos, las densidades condicionales dan lugar a un número posiblemente in…nito de momentos condicionales (un conjunto para cada valor de la variable aletoria X). Es decir, el uso de los momentos condicionales no trata con la reducción de manera efectiva. Esto se debe a que los momentos condicionales se de…nen para cada miembro de la familia (7.6) por separado y el modelador se enfrenta a la pregunta: ¿qué conjunto de momentos condicionales usar? Ejemplo En el caso de la distribución conjunta dada en (7.7), le corresponden tres distribuciones condicionales (véase (7.8)), una para cada valor de X. Por lo tanto, hay tres pares de medias y varianzas condicionales: f (yjx = 1) : f (yjx = 2) : f (yjx = 3) : E (Y jx = 1) = 0:387; V ar (Y jx = 1) = 0:301; E (Y jx = 2) = 0:902; V ar (Y jx = 2) = 0:380; E (Y jx = 3) = 0:749; V ar (Y jx = 3) = 0:758: La respuesta a la pregunta de qué conjunto de momentos condicionales utilizar es, en pocas palabras, todas ellos combinados extendiendo los momentos condicionales de una manera análoga a la familia (7.6). Es decir, extendiendo el concepto de momentos condicionales para dar cuenta de todos los valores de la variable aleatoria X, de…nimos las funciones momento condicional: Crudo: E (Y r jX = x) = hr (x) ; x 2 R; r = 1; 2; ::: 6.2. CONDICIONALIDAD Y REGRESIÓN 309 E [Y jX = x]r j X = x) = gr (x) ; x 2 R; r = 2; 3; :::; (7.11) donde para un valor especi…cado X = x, estos momentos condicionales se de…nen (ver capítulo 4) por: Central: E (Y r E (Y jX = x) = E (Y jX = x)]r jX = x) = E ([Y Z Zy2RY y r f (yjx) dy; r = 1; 2; ::: E (yjx)]r f (yjx) dy; r = 2; 3; ::: [y y2RY Ejemplo En el caso de la distribución conjunta dada en (7.7) y los momentos condicionales como los dados en el ejemplo anterior, las funciones asociadas con la media y la varianza condicional toman la forma: x 1 2 3 E (Y jX = x) = h1 (x) 0.387 0.902 0.749 x 1 2 3 V ar (Y jX = x) =g2 (x) 0.301 0.380 0.758 La utilización del concepto de funciones trata directamente con el problema de muchos sistemas diferentes de momentos condicionales al hacer los momentos funciones de los valores de la variable condicionante. En los casos en los cuales estas funciones pueden ser de…nidas en términos de formas funcionales especí…cas, ellas ofrecen formas sencillas de modelar la dependencia. Como argumentamos en lo que sigue, para la mayoría de las distribuciones de dos variables, podemos obtener estas funciones de forma explícita. 6.2.2 Regresión y funciones cedásticas En la modelación de la dependencia a menudo nos concentramos sólo en las primeras de estas funciones relacionadas con la familia de densidades (7.6). En particular, el objetivo principal de los modelos de regresión es el modelo (7.6) a través de las primeras pocas funciones momento condicional tal 310 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS como se de…nen en (7.11). La literatura actual sobre los modelos de regresión se concentra casi exclusivamente en las dos primeras de tales funciones momento condicional. (i) La función de regresión se de…ne como la media condicional de Y dado X = x, interpretada como una función de x: E (Y jX = x) = h (x) ; x 2 RX : (7.12) NOTE que el término Regresión fue acuñado por primera vez por Galton (1885); véase más adelante ii) La función cedática se de…ne como la varianza condicional interpretada como una función de x: V ar (Y jX = x) = g (x) ; x 2 RX : (7.13) El término cedástico fue acuñado por Pearson (1905) y se basa en las palabras griegas " = dispersión (scattering) y " o& = disperso (scattered). OBSERVACIÓN: las grá…cas (h (x) ; x) y (g (x) ; x) para todo x 2 RX ; constituyen lo que llamamos las curvas de regresión y cedástica, respectivamente. (1) Normal bivariada. Como se ha mostrado antes, en el caso de la distribución normal de dos variables (7.9) con := ( 1 ; 2 ; 11 ; 12 ; 22 ) ; la densidad condicional de Y dado X = x es también normal de la forma (yjX = x) N 1+ 12 (x 2) ; 22 2 12 11 Esto muestra que '1 := ( 2 ; '22 ) ; '2 := ( 0 ; regresión y cedástica toman la forma dada antes: E (Y jX = x) = 0 = ( 0 + 1 1 x; 1 V ar (Y jX = x) = 2 ) 2 R; 1 = 12 22 ; x 2 R; 22 2 1; 2 ) y las funciones de ; x 2 R; 2 R; (7.14) 2 = 11 2 12 22 2 (7.15) R+ : Como podemos ver, la función de regresión para la normal conjunta es una función lineal de x y la función cedástica está libre de x. 6.2. CONDICIONALIDAD Y REGRESIÓN 311 Las funciones de regresión y cedástica (7.15) se muestran en las …guras 7.1 y 7.2, respectivamente, con valores de los parámetros 1 = 1:5, 2 = 1, 11 = 1, 22 = 1 y tres distintos valores de 12 = 0:8, 0:1, 0:9. Como podemos ver, la pendiente de la recta de regresión depende del signo de la covarianza. En la …gura 7.2 podemos ver las correspondientes curvas cedásticas que son paralelas al eje x, como se esperaba. El modelo de regresión Normal es uno de los pocos modelos donde la distribución marginal de X puede ser ignorada, ya que, como se muestra en la sección 4, X es débilmente exógena con respecto a la parámetros '2 . Regresión lineal. En el caso donde la media condicional tiene la forma dada en (7.15), la función de regresión se dice que es lineal en x. PRECAUCIÓN. Es importante distinguir entre la linealidad en x y la linealidad en los parámetros. El polinomio de segundo grado de la forma: h (x) = a0 + a1 x + a2 x2 no es lineal en x pero es lineal en los parámetros (a0 ; a1 ; a2 ). Por otra parte, la función h (x) = 1 3 (x 2 2) no es lineal, tanto en los parámetros ( 1 ; 2 ; 3 ) como en x. NOTE que hay una relación directa entre los dos conjuntos de parámetros: a0 = 1 2 3 2 , a1 = 2 2 3 , a2 = 3 . Esto sugiere que la parametrización de interés particular es a menudo una cuestión de elección. La función de regresión (7.15) es lineal en x y en los parámetros ( 0 ; 1 ), pero a partir de (7.14) es obvio que no es lineal en los parámetros primarios ( 1 ; 2 ; 11 ; 22 ; 12 ). 312 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Figura 7.1 Líneas de regresión Normal. Figura 7.2 Líneas cedástica Normales. Homocedasticidad. En el caso de que la varianza condicional no dependa de la variable condicionante, es decir, para alguna constante c0 2 R: V ar (Y jX = x) = c0 ; x 2 RX ; se dice que es homocedástica (Ver (7.15)). Heterocedasticidad. En el caso de que función cedástica dependa de los valores de la variable condicionante, es decir: V ar (Y jX = x) = g (x) ; x 2 RX ; se dice que es heterocedástica. Es interesante NOTAR que los conceptos (y la terminología) de homocedasticidad/heterocedasticidad se introdujo por primera vez por Pearson (1905). (2) t de Student bivariada. En el caso de la distribución t de Student de dos variables con v > 2 grados de libertad, que se denota por: Y X St 1 2 ; 11 12 21 22 ;v ; (7.17) la densidad condicional de Y dado X = x y la densidad marginal de X son también t de Student (veáse Apéndice B). Las funciones de regresión y cedástica toman la forma dada a continuación: 6.2. CONDICIONALIDAD Y REGRESIÓN E (Y jX = x) = 0 = 0+ 1 1 x; V ar (Y jX = x) = 1 2 2 R; 1 = 12 22 313 v 2 v 1 2 R; 1 1+ 2 = v [x 2] 22 11 2 12 22 2 ; x 2 R; 2 R+ : (7.18) Como podemos ver, los parámetros 0 ; 1 y 2 coinciden con los de la Normal condicional en (7.10). La función cedástica di…ere de la Normal en la medida en que (7.18) es heterocedástica: una función de la variable condicionante. En la …gura 7.3 podemos ver tres funciones cedásticas t de Student (v = 4; 8; 20) con los parámetros 2 = 1, 22 = 1, 12 = 0:8. La curvatura de la curva cedástica está inversamente relacionada con los grados de libertad de parámetros: cuanto menor sea el valor de v mayor es la curvatura de la función cedástica. Es interesante NOTAR que en el caso de que v = 20, la curva cedástica está muy cerca de una línea recta (una línea Normal cedástica). Figura 7.3 Curvas cedásticas t de Student. (3) Exponencial bivariada. En contraste con la forma de las funciones de regresión y cedástica de la Normal de dos variables, en el caso de la distribución exponencial bivariada las funciones de regresión y cedástica son altamente no lineales en x (y por lo tanto heterocedásticas): E (Y jX = x) = (1 + + x)2 2 1+ + x ; V ar (Y jX = x) = (1 + x)2 [1 + x]4 2 , x 2 R+ ; > 0: 314 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS El parámetro se relaciona de forma no lineal con el coe…ciente de correlación a través de: Z 1 e x := 1 + dx 1+ x 0 con algunos valores típicos dados enseguida: = 0.01 0.2 0.5 1 2 3 4 8 12 20 600 = 0.01 0.148 0.278 0.404 0.538 0.614 0.665 0.770 0.820 0.870 0.990 En la …gura 7.4 podemos ver tres curvas de regresión Exponencial ( = 1; 2; 3) y las curvas cedásticas correspondientes se muestran en la …gura 7.5. Figura 7.4 Curvas de regresión Exponencial. Figura 7.4 Curvas cedásticas Exponenciales. 6.2. CONDICIONALIDAD Y REGRESIÓN 315 Regresión. Distribuciones continuas adicionales Varios ejemplos de funciones de regresión y cedásticas asociadas a otras distribuciones conjuntas se muestran a continuación en un intento de disipar la impresión errónea de que la linealidad de la función de regresión y la homocedasticidad de la función cedástica es la regla. (4) Bivariada tipo Pearson II. E (Y jX = x) = V ar (Y jX = x) = 0 = ( 0 2 + ( 1 1 x; [ 2 (v + 2) 1 2v + 3 1 2 ) 2 R; p 22 ] (x 1 22 1 = 12 22 < x < [2 (v + 2) !) 2 ) 2 ,x2R 2 R; 2 = 11 p 22 ] 2 12 22 2 R+ . La función de regresión de las distribuciones Pearson tipo II coincide con las de las distribuciones Normal y t de Student. Su función cedástica, que se muestra en la …gura 7.6 para tres valores diferentes para los grados de libertad (v = 1; 2; 3) y ( 2 = 1; 22 = 1; 12 = 0:8), es heterocedástica pero a diferencia de la t de Student, tiene un rango …nito (compare las …guras 7.3 y 7.6). Figura 7.6. Curvas cedásticas tipo Pearson II. Familia simétricas elípticamente. El hecho de que las funciones de regresión de las distribuciones Normal, t de Student y Pearson tipo II coincidan es un caso especial de un resultado general. Las tres distribuciones 316 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS pertenecen a la familia de distribuciones simétricas elípticamente que comparten la misma función de regresión (cuando los momentos requeridos existen). Por otra parte, la función cedástica para todas las distribuciones excepto la Normal, son heterocedásticas (véase Spanos (1994) para más discusión). La diferencia básica entre estas tres distribuciones simétricas elípticamente es en términos de su curtosis: la Normal es mesocúrtica (curtosis = 3), la distribución t de Student es leptocúrtica (kurtosis > 3) y la tipo II de Pearson es platicúrtica (curtosis < 3). (5) Pareto bivariada. E (Y jX = x) = 1 1 3 + x 2 2 V ar (Y jX = x) = y > (1 + 3 ) 2 x , x 2 R+ (1 + 3 ) 23 2 > 0, x > 2 > 0, 3 > 0: 1 1 En las …guras 7.7 y 7.8 podemos ver la regresión Pareto y las curvas cedásticas con parámetros ( 1 = 1, 2 = 1:5) y tres diferentes valores de 3 = 3; 4; 8, respectivamente. Figura 7.7. Líneas de regresión Pareto. 6.2. CONDICIONALIDAD Y REGRESIÓN 317 Figura 7.8. Curvas cedásticas Pareto. (6) Logística bivariada. E (Y jX = x) = 1 V ar (Y jX = x) = 1 3 loge 1 + exp 2 1 = 2:29, (x 2 R, ) ,x2R 2 R+ En las …guras 7.9 y 7.10 podemos ver las curvas de regresión y cedásticas de la distribución Logística con parámetros ( 1 , = 0:5, 1:2, 4:5), respectivamente. Como podemos ver, la distribución Logística bivariada produce una curva de regresión altamente no lineal y una función varianza condicional homocedástica. Cabe señalar que la Logística bivariada es una de las pocas distribuciones con una función de cedasticidad constante. Figura 7.9 Curvas de regresión logística. 318 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Figura 7.9 Líneas cedásticas logísticas. (5) Beta bivariada. 2 E (Y jX = x) = [ 2 + 3] (1 x) 2 3 V ar (Y jX = x) = (1 2 ( 2 + 3 ) (1 + 2 + 3 ) para x 2 [0; 1] , donde 1 > 0, 2 > 0, x)2 , 3 > 0. En la …gura 7.11 podemos ver las curvas cedásticas de la distribución Beta con parámetros ( 1 = 20; 2 = 20; 3 = 1), ( 1 = 4; 2 = 4; 3 = 4), ( 1 = 1; 2 = 1; Teniendo en cuenta el hecho de que el coe…ciente de correlación toma la forma: = s 1 1 2 ( 1 + 3) ( 2 + 3) , podemos ver que la pendiente de estas líneas está directamente relacionada con la correlación. En la …gura 7.12 podemos ver las correspondientes curvas cedásticas. 3 = 8). 6.2. CONDICIONALIDAD Y REGRESIÓN 319 Figura 7.11 Líneas de regresión Beta. Figura 7.12 Curvas cedásticas Beta. (8) Gamma Bivariada (Kibble). E (Y jX = x) = 2 (1 1 ) + 1 x, x 2 R+ , 1 2 [0; 1], V ar (Y jX = x) = (1 1 ) [ 2 (1 1 ) + 2 1 x] , x 2 R+ . para x 2 [0; 1] , donde 1 > 0, 2 > 0, 3 > 0. 2 2 R+ En las …guras 7.13 a 14 podemos ver las curvas de regresión y cedásticas de distribución gamma (Kibble) con parámetros ( 1 = 1:0, 1:5, 2:0, 2 = 2:0). NOTE que 1 es el coe…ciente de correlación. 320 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Figura 7.13 Regresiones Gamma (Kibbel). Figura 7.14 Curvas cedásticas Gamma (Kibbel). (9) Gamma Bivariada (Cherian). E (Y jX = x) = 2 + V ar (Y jX = x) = 2 + 0 ( 1+ 0) x, x 2 R+ , ( 0 ; 0 1 ( 1 + 2 0) (1 + 1 + 0) 1; 2) 2 R3+ x 2 , x 2 R+ . En las …guras 7.15-7.16 podemos ver las curvas de regresión y cedástica de la distribución Gamma (Cherian) con parámetros ( 0 = 0:1; 0:2; q20, 1 = 2:0, NOTE que el coe…ciente de correlación toma la forma = ( 1 + 0 )(0 2 + 0 ) , y por lo tanto, para los tres valores anteriores de 0 la correlación toma los 2 = 1). 6.2. CONDICIONALIDAD Y REGRESIÓN 321 valores: 0,066, 0,577, 0,930, respectivamente. La pendiente de las líneas de regresión es mayor cuanto mayor sea la correlación y la curvatura de las curvas cedásticas es mayor cuanto mayor sea la correlación. Figura 7.15 Regresiones Gamma (Cherian). Figura 7.16 Curvas cedásticas Gamma (Cherian). (10) Gamma Bivariada (McKay). 1 E (Y jX = x) = a + x, x 2 R+ , ( 1 ; V ar (Y jX = x) = 1 a2 , x 2 R+ , E (XjY = y) = V ar (XjY = y) = 1 ( 1+ 2) ( 1 + 2) 2 R3+ , y, y > x 2 R+ , ( 1 ; 1 2 2 2 ; a) (1 + 1 + 2) 2 ; a) 2 R3+ , y 2 , y > x 2 R+ . 322 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS NOTA IMPORTANTE. Esta distribución Gamma bivariada ilustra una cuestión importante en relación a los modelos tipo regresión. Dado el predominio de la distribución Normal bivarida, hay una idea equivocada de que todas las distribuciones de dos variables son simétricas con respecto a las variables aleatorias X e Y . En el caso anterior de la distribución Gamma bivariada McKay las distribuciones condicionales f (yjx; ) y f (xjy; ) son muy diferentes, dando lugar a momentos condicionales que no se parecen el uno al otro. Por ejemplo f (yjx; ) da lugar a una función homoscedástica pero f (xjy; ) da lugar a una función heterocedástica. (11) F Bivariada. E (Y jX = x) = V ar (Y jX = x) = 0 ( 1 + + 1 2) ( 0 + 1 2) 2 ( 1 + 2 + 0 2) ( 4) ( 1 + 0 2)2 2( 1+ 0 0 x, x 2 R+ , ( 0 ; 0 + 2 1 x) 2 R3+ 1; 2) , x 2 R+ , ( 1 En las …guras 7.17-7.18, podemos ver tres curvas de regresión y cedásticas de la distribución F con parámetros ( 0 = 80, 1 = 4, 2 = 2), ( 0 = 12, 1 = 8, ( 0 = 5, 1 = 60, 2 = 60). NOTE que el coe…ciente de correlación toma la forma: s = 1 2 ( 1 + 0 2) ( 2 + 0 2) , y por lo tanto para estos tres conjuntos de valores la correlación es de 0.035, 0.444 y 0.952, respectivamente. Las líneas de regresión tienen una pendiente mayor cuanto mayor sea la correlación y las curvas cedásticas presentan mayor curvatura cuanto mayor es la correlación. + 2 2) >4 = 8), 6.2. CONDICIONALIDAD Y REGRESIÓN 323 Figura 7.17 Líneas de regresión F. Figura 7.18 Curvas cedásticas F. (12) Log Normal Bivariada. E (Y jX = x) = V ar (Y jX = x) = x e 1 1+ 2 2 x 2 2 , x 2 R+ , 2 = 11 2 12 22 2 R+ , 2 e2 1+ 2 e 2 1 , x 2 R+ , = 12 22 2 R. La …gura 7.19 muestra tres funciones de regresión de una distribución logarítmica normal con parámetros ( 1 = 1, 2 = 1, 2 = 0:4) y tres diferentes valores de = 0:2; 0:4; 0:8. NOTE que la diferencia principal entre estas curvas de regresión y las correspondientes curvas cedásticas mostradas en la 2 …gura 7.20 es el factor de escala e 1 . 324 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Figura 7.19 Curvas de regresión Lognormales. Figura 7.20 Curvas cedásticas Lognormales. Regresión: distribuciones discretas (13) Binomial bivariada. E (Y jX = x) = (1 2 (1 V ar (Y jX = x) = (1 2 [0; 1], 1 x) , 1 ) (n 2 2) 1 1) 2 x) , (n 2 [0; 1], n = 1; 2; :::; 1 + 2 < 1, x = 0; 1; ::: (14) Poisson bivariada. E (Y jX = x) = ( 2 V ar (Y jX = x) = ( 2 1 3) 1 + x, x = 0; 1; 2; :::; 1 > 0, 2 > 0; 3 > 0, 3 3) 2 [0; 1], 2 + [ 1 3] 3 2 1 x; x = 0; 1; :::; 2 [0; 1], n = 1; 2; :::; 1 + 2 3 < min ( 1 ; < 1, x = 0; 1; ::: (15) Binomial negativa bivariada. E (Y jX = x) = V ar (Y jX = x) = 2 (1 2) ( 2 (1 2 2) 1 ( + x) , x = 0; 1; 2; :::; 1 + x) , x = 0; 1; 2; ::: 2 2 (0; 1) > 0, 1 > 0, 2) . 6.2. CONDICIONALIDAD Y REGRESIÓN 325 Concluimos esta subsección SEÑALANDO que entre los ejemplos anteriores, la normal es la única distribución conjunta con una función de regresión lineal y una varianza condicional homoscedástica. La mayoría de las distribuciones anteriores tienen varianza condicional heterocedástica y varias curvas de regresión no lineales. 6.2.3 Funciones clíticas y cúrticas La pregunta que surge naturalmente en esta etapa es: ¿por qué considerar sólo las dos primeras funciones momento condicional (regresión y cedástica) en la modelación de la dependencia? Sabemos que en general necesitamos muchos (a menudo un número in…nito) momentos para caracterizar distribuciones (ver capítulo 3). El hecho de importancia es que no hay ningún argumento convincente que demuestre que el modelador debe considerar sólo las dos primeras funciones condicionales momento a menos que se asuma que la distribución es normal; véase el capítulo 3. Una vez más esta situación surgió debido a que la distribución normal ha ejercido indebidamente su bien conocida in‡uencia. En la modelación econométrica hay un enfoque casi exclusivo en la función de regresión con raras excursiones en el territorio de la función cedástica. Una mirada super…cial a la literatura econométrica tradicional actual revela, no obstante, una especie de esquizofrenia sobre la especi…cación del modelo lineal como es llamado tradicionalmente. Por un lado, los libros de texto tradicionales ensalzan las virtudes del teorema de Gauss Markov, basado en una regresión lineal y una función homocedástica (véase el capítulo 13), debido a su falta de con…anza en el supuesto de Normalidad. La cuestión, sin embargo, que se plantea es: ¿por qué sólo especi…car los dos primeros momentos condicionales si uno no asume normalidad? Por otro lado, hay un apego inexplicable a la distribución normal, incluso en los casos en los cuales la heterocedasticidad es explícitamente modelada (véase Spanos (1995a)). Además, la tendencia en la modelación de la heterocedasticidad es a usar funciones ad hoc en lugar de formas funcionales especí…cas relacionadas con la distribución conjunta que no sea la Normal. Los ejemplos anteriores sugieren que hay varias otras distribuciones que dan lugar a diferentes formas de heterocedasticidad que permanecen sin explorar; ver Spanos (1994) sobre los resultados relativos a la familia simétrica elíptica. La teoría de la probabilidad sugiere que existen buenas razones para creer que cuando se trata con distribuciones conjuntas elípticas no simétricas, serán necesarias algunas funciones condicional momento para capturar la depen- 326 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS dencia de orden superior. Las siguientes dos funciones momento condicional central, introducida por primera vez por Pearson (1905), son los siguientes: (iii) función clítica: E [Y E (Y jX = x)]3 jX = x =g3 (x), x 2 RX , (iii) función cúrtica: E [Y E (Y jX = x)]4 jX = x =g4 (x), x 2 RX . Ejemplos (i) En el caso de la distribución Beta bivariada estas funciones toman la forma: E [Y E (Y jX = x)]3 jX = x = 2 2 3( 3 2) (1 x)3 , x 2 [0; 1] 3 ( 2 + 3 ) (1 + 2 + 3 ) (2 + 2 + 3 ) = E [Y " ( 2 E (Y jX = x)]4 jX = x 3 + 2 2 3 2 2 4 3 ) (1 + 2 2 + 2 3 + 3 ) (2 2 2 3 + 2 +2 + 2 3 3 ) (3 2 2 3 + 2 + 3) # (1 x)4 , Como podemos ver, la distribución Beta bivariada proporciona funciones heteróclitas y heterocúrticas. Los conceptos y la terminología homóclita / heteróclita fue introducida por Pearson (1905). (ii) En el caso de la distribución t de Student bivariada estas funciones tienen la forma: E [Y E [Y E (Y jX = x)]3 jX = x = 0, x 2 R, E (Y jX = x)]4 jX = x = 3 (v 1) [V ar (Y jX)]2 , x 2 R. (v 3) Como podemos ver, la distribución t de Student bivariada produce funciones homóclitas y heterocúrticas; esta última es una forma especial siendo una función de la función cedástica. Ambas características se deben a la naturaleza elíptica de la distribución. 6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 6.3 327 Reducción y condicionalidad estocástica Después de haber tratado el problema de muchas distribuciones condicionales mediante la ampliación del concepto de momentos a funciones condicionales momento, regresemos a la reducción original: f (x; y; ) = f (yjx; '2 ) fX (x; '1 ) , para todo (x; y) 2 RX RY . (7.19) Observemos que en el lado derecho existe una familia de densidades condicionales, donde se pondera cada una por la probabilidad marginal correspondiente. En la de…nición de las funciones momento condicional: hr (x) = E (Y r jX = x) , x 2 RX ignoramos el peso marginal y nos concentramos exclusivamente en la familia de las densidades condicionales ff (yjX = x; '2 ) , (x; y) 2 RX RY g. En cierto sentido, esto equivale a suponer que los diferentes valores que toma la variable aleatoria X ocurren con una probabilidad de uno: hr (x) = E (Y r jX = x) , donde P (X = x) = 1, para todo x 2 RX . (7.20) Sin embargo, como se muestra en (7.19) esto no es del todo correcto. Una forma más apropiada de especi…car estas funciones es la de tener en cuenta las probabilidades marginales asociadas a los diferentes valores x 2 RX . El problema es especi…car estas funciones sin dejar de lado el hecho de que los diferentes valores de X ocurren con diferentes probabilidades dadas por la densidad marginal f (x; '1 ). NOTE una vez más que en el caso de variables aleatorias continuas, como se mencionó en el capítulo 3, los pesos no son probabilidades propias. La manera formal de hacer frente a este problema consiste en ampliar el concepto de condicionalidad un paso más allá: para dar cuenta de todos los eventos asociados con la variable aleatoria X; no sólo de su rango de valores. Es decir, en vez de concentrarse exclusivamente en los eventos condicionantes de la forma: fs : X (s) = xg , para todo x 2 RX , 328 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS en el contexto del espacio de probabilidad (S; =; P (:)), consideramos el campo generado por la variable aleatoria X (para todos los posibles eventos asociados a X; ver capítulo 3): (X) := X 1 ( 1; x] 2 = para todo x 2 RX . Esto nos permite de…nir las funciones estocásticas condicional momento: hr (x) = E (Y r j (X)) , para X~DX (:) , (7.21) donde DX (:) denota la distribución marginal de la variable aleatoria X. Este condicionamiento es signi…cativo, porque (X) =. La cuestión, sin embargo, es: ¿qué sentido atribuimos a tales funciones estocásticas condicionales? Es obvio que las funciones hr (x) = E (Y r j (X)) son diferentes de aquellas en (7.20), porque las primeras son variables aleatorias, siendo una función de la variable aleatoria X; por lo tanto una variable aleatoria en sí misma! Se ven como momentos condicionales pero son estocásticos en naturaleza! NOTA: sin pérdida de generalidad nos concentramos en el caso simple r = 1. Esto se debe a que para cualquier variable aleatoria Z y cualquier función de la forma Z r podemos de…nir una nueva variable aleatoria Y = Z r . 6.3.1 Signi…cado de E (Y r j (X)) En primer lugar, encontramos condicionamiento en el contexto del espacio de probabilidad (S; =; P (:)) en relación con los eventos A; B 2 =. Recordamos al lector que el concepto matemático de probabilidad P (:) requiere que el modelador especi…que el conjunto de todos los eventos de interés relacionados con S, por ejemplo, =, y la con…guración de matemática es de…nida por el espacio de probabilidad (S; =; P (:)). En este contexto, la probabilidad condicional de A dado B toma la forma: P (AjB) = A\B , para P (B) > 0, P (B) y el condicionamiento sobre B puede ser intuitivamente entendido como "se sabe que el evento B ha ocurrido. " El condicionamiento en general se de…ne en relación al conocimiento de que cierto evento(s) ha ocurrido. En este sentido, la densidad condicional: 6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA f (yjx) = 329 f (x; y) , y 2 RY , fX (x) debe ser entendida como la densidad revisada de la variable aleatoria Y , dado que el evento fs : X (s) = xg ha ocurrido. En este punto es fundamental hacer hincapié una vez más que una distribución condicional se de…ne en un valor particular de la variable condicionante. Usando la densidad condicional podemos de…nir la esperanza condicional sin ambigüedades como: Z yf (yjx) dy. E (Y jX = x) = y2RY En vista de la discusión anterior la expresión: E (Y jX) (7.22) no tiene sentido matemático porque la condicionalidad no es relativa a un evento; una variable aleatoria no es un evento (un subconjunto del conjunto de resultados de referencia S). Intuitivamente, sin embargo, sabemos que para cada valor X = x, está bien de…nida y así uno puede pensar en (7.22) como una función de X y, por lo tanto, una variable aleatoria en sí misma. Nuestra intuición es ciertamente correcta, pero necesitamos formalizarla. Para una variable aleatoria X de…nida sobre S, el evento fs : X (s) = xg constituye un elemento de =, en el sentido de que X 1 (x) 2 =. En efecto, por de…nición (ver capítulo 3): X 1 (x) 2 =, para todos lo valores x 2 RX . En vista de esto podemos deducir que la única forma en la cual (7.22) podría tener sentido matemático es convertir la variable aleatoria condicionante en un conjunto de eventos. Es decir, de…nir (X): el -campo de…nido por la variable aleatoria X (ver capítulo 3). En este sentido, la esperanza condicional: E (Y j (X)) (7.23) debe ser signi…cativa, ya que, al menos intuitivamente, ésta representa la experanza dado que "algún evento relacionado con X ha ocurrido". El sentido común sugiere que la experanza normal E(Y ) se puede ver desde este punto de vista como 330 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS E (Y jÐ0 ) , donde Ð0 = fS; ?g , el espacio trivial de evento (no informativo). Desde este punto de vista (X) constituye una restricción sobre = (todo informativo) en el sentido de que (ver capítulo 3): fS; ?g (X) =. Habiendo acordado que (7.23) tiene sentido intuitivo necesitamos asegurar que también tiene sentido matemático. Un caso simple. Antes de considerar el caso general, vamos a discutir primero el caso en que ambas variables aleatorias X e Y son discretas y toman solamente un número …nito de valores, es decir: RY := fy1 ; y2 ; :::; yn g , RX := fx1 ; x2 ; :::; xm g . En este caso la media condicional (7.23) se puede pensar en términos de los eventos: ß:= fBk , k = 1; 2; :::; mg , donde Bk := fs : X (s) = xk g , (7.24) que constituyen una partición de S, en el sentido de que: [m S= Bk , y Bk \ Bi = ?, i 6= k, i; k = 1; 2; :::; m. k=1 En términos de estos eventos podemos pensar en (X) como de…nido por sus 2m uniones; ni intersecciones ni complementos son necesarios porque ß constituye una partición de S. Ejemplo Consideremos el ejemplo de lanzar una moneda dos veces, S = f(HH); (HT ); (T H); (T T )g, se elige que = sea el conjunto potencia y se de…nen las variables aleatorias: X(T T ) = 0; X(HT ) = X(T H) = 1; X(HH) = 2; Y (T T ) = Y (HH) = 2; Y (HT ) = Y (T H) = 1. Tomando la preimagen de la variable aleatoria X podemos ver que: 6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA B0 = X 1 (0) = f(T T )g; B1 = X 1 (1) = f(HT ); (T H)g; B2 = X 331 1 (2) = f(HH)g; mostrando que esto constituye una partición de S, ya que: B0 \ B1 = ?; B1 \ B2 = ?; B0 \ B2 = ? y S = B0 [ B1 [ B2 . Por lo tanto, (X) = fS; ?; B0 ; B1 ; B2 ; B0 [ B1 ; B0 [ B2 ; B1 [ B2 g. Regresando a la media condicional (7.23), podemos verla en términos de los eventos Bk : E (Y jXk = xk ) = Xn i=1 yi P (Y = yi jX = xk ) , k = 1; 2; :::; m, (7.25) que de…ne una sucesión de medias condicionales, una para cada valor de X, donde: P (Y = yi , X = xk ) , i = 1; 2; :::; n k = 1; 2; :::; m. P (X = xk ) (7.26) En este sentido las diferentes medias condicionales en (7.25) pueden interpretarse en términos de la variable aleatoria: P (Y = yi jX = xk ) = Z (:) := E (Y (:) j (X(:))) : S ! R, (7.27) de tal manera que cuando X(s) = xk entonces Z(s) = zk ; k = 1; 2; :::; m. Además, sustituyendo (7.26) en (7.25) y reordenando los términos resulta: E (Y jXk = xk ) P (X = xk ) = Xn i=1 yi P (Y = yi ; X = xk ) , k = 1; 2; :::; m. En esta etapa debemos resistir la tentación de interpretar la media condicional (7.23) como la suma: Xm k=1 E (Y jXk = xk ) P (X = xk ) = Xm Xn k=1 i=1 yi P (Y = yi ; X = xk ) , (7.28) 332 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS porque, [m como se mostró anteriomente, (X) involucra más eventos que sólo Bk . Un momento de re‡exión, sin embargo, sugiere que esta suma k=1 (7.28) de…ne la media condicional estocástica: E (Y (:) jß ) : S ! R. Recordemos que yendo de ßtal como se de…ne en (7.24) (no un -campo) a (X) sumamos todas las uniones de los eventos Bk 2ß , la variable aleatoria (7.27) se puede pensar en términos de todos los eventos de B 2 (X) como: X B2 (X) E (Y j (X)) P (B) = X B2 (X) Xn i=1 yi P (Y = yi ; B) , para todo B 2 Es claro que E (Y j (X)) es una variable aleatoria en relación con Ejemplo Considere la siguiente distribución conjunta: x/y -1 0 1 f (x) -1 0.1 0.2 0.1 0.4 1 0.2 0.1 0.3 0.6 f (y) 0.3 0.3 0.4 1 (7.30) La distribución(s) condicional de (Y jX = x) para x = las siguientes: y f (yjx = 1 1) 1 4 0 1 1 2 1 4 , y f (yjx = 1) (7.29) (X). 1 1 3 1 y x = 1 son 0 1 1 6 1 2 (7.31) Además, las medias condicionales en estos casos son: 1 1 1 + 0 + 1 = 0, 4 2 4 1 1 1 1 E (Y jX = 1) = ( 1) + 0 + 1 = . 3 6 2 6 E (Y jX = 1) = ( 1) E (Y j (X)) es una variable aleatoria en relación con (X) en el sentido de que puede tomar dos valores 0; 16 , con probabilidades (0:4; 0:6), respectivamente: (X) 6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA x P (X = x) E (Y j (X)) 1 1 0:4 0:6 1 0 6 333 (7.32) El caso más general. Libros matemáticamente más inclinados expresan (7.29) en el caso general, donde (X; Y ) son variables aleatorias arbitrarias, utilizando la expresión más bien poco apetecible: Z Z E (Y j (X)) dP = Y dP para todo B 2 (X) . (7.33) B B Esto dice que el promedio de E (Y j (X)) sobre B es el mismo mismo que la media de Y misma sobre todos los subconjuntos B (X) =. NOTE que en general Y 6= E (Y j (X)) porque Y no es necesariamente una variable aleatoria en relación con (X). Este resultado fue probado por primera vez por Kolmogorov (1933a), pero las matemáticas necesarias para deducir la relación anterior con rigor son bastante exigentes (ver Ash (1972) para una deducción más rigurosa). Sin embargo, una comprensión intuitiva de (7.33) puede ser adquirida viendo la esperanza como un operador suavizado. La manera más conveniente para deshacerse de las integrales poco apetecibles (o sumatorias) en (7.33) (y (7.29)) es utilizar la función indicador en combinación con el operador esperanza, es decir: Z Z dP := E [Z IB ] . B 1, si s 2 B, 0, si s 2 = B. Esto nos permite expresar (7.33) en la forma menos intimidante: donde IB denota la función indicador del conjunto B: IB (s) = E [E (Y j (X)) IB ] = E [Y IB ] Z B Y dP para todo B 2 (X) . (7.34) NOTA: en vista del hecho de que (X) incluye todas las posibles funciones de Borel de la variable aleatoria X, podemos de…nir E (Y j (X)) en términos de dichas funciones a través de: E [E (Y j (X)) g (X)] = E [Y g (X)] , para toda función Borel g (X) . (7.34) . 334 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS suponiendo que E [Y g (X)] < 1; ver Parzen (1962). Una extensión más. La anterior de…nición de esperanza condicional (7.34) en el contexto del espacio de probabilidad (S; =; P (:)), se puede extender aún más a: E [E (Y jÐ) ID ] = E [Y ID ] , para toda D 2 Ð =, donde la de…nición de la variable aleatoria E (Y jÐ) gira en torno a la elección de Ð. En uno de los extremos del espectro podemos elegir que Ð sea subcampo no informativo: Ð:= fS; Og en cuyo caso: E (Y jÐ0 ) = E (Y ) , donde Y0 := E (Y jÐ0 ) puede ser visto como una variable aleatoria degenerada de la forma: Y0 (:) : S ! E (Y ) , con probabilidad uno (w:p:1) . NOTE que esta es una variable aleatoria con respecto a cualquier Ð =; todos los -campos incluyen fS; Og. Vista como una operación suavizada, la variable aleatoria Y es completamente suavizada a una constante. En el otro extremo del espectro podemos elegir que Ð sea el sub campo todo informativo (para Y ): ÐY := (Y ), en cuyo caso el condicionamiento da lugar a: E (Y jÐY ) = Y , donde Y (:) : S ! RX . Viendo las esperanzas condicionales como una operación de suavizado, la variable aletoria Y se deja intacta. NOTE que, en general, Y no es una variable aleatoria con respecto a Ð0 . Entre esos dos casos extremos, podemos elegir que Ð sea cualquier sub -campo, tal que: Ð \ ÐY = Ð 6= ?. (7.35) Esto nos permite pensar en Ð como la cantidad de información acerca de Y que Ð contiene y E (Y jÐ) puede ser vista como una operación de suavizado cuyo efecto es inversamente proporcional a la proximidad de Ð a Ð. En particular, la elección Ð0 := fS; ?g no contiene información acerca de Y (obteniéndose una variable aleatoria degenerada) y la elección ÐY contiene toda la información relevante acerca de Y (obteniéndose la variable aleatoria 6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 335 Y misma). La elección ÐX := (X) para la que (7.35) se mantiene, dará lugar a cierta suavización de Y que se encuentra entre estos dos extremos. Función estocástica esperanza condicional. Recopilando los hilos de todo lo expuesto, de…nimos E (Y j (X)) como una variable aleatoria que satisface las siguientes propiedades: (i) E (Y j (X)) es una variable aleatoria en relación con (X), (ii) E (Y j (X)) = h (X) para alguna h (:) : R ! R, (iii) E [E (Y j (X)) IB ] = E ([Y IB ]), para toda B 2 (X). NOTE que necesitamos establecer la existencia, así como la unicidad de E (Y j (X)). La existencia es establecida por la derivación matemática de (7.33) (utilizando la derivada llamada de Radon-Nikodym). La unicidad de la esperanza condicional E (Y j (X)) = h (X) también se deriva del mismo aparato matemático, pero es una unicidad casi segura (c.s) (véase el capítulo 3) que dice que para cualesquiera par de esperanzas condicionales E (Y j (X)) = h1 (X) y E (Y j (X)) = h2 (X), debe ser cierto que: P (h1 (X) = h2 (X)) = 1 o h1 (X) = h2 (X) c.s. Este concepto de esperanza condicional se puede extender a cualquier sub -campo Ð =, ya que siempre podemos encontrar una variable aleatoria X tal que (X) =Ð, en el sentido de que todos los eventos (X x) 2Ð, para todo x 2 R. Esta es otra manera de decir que la información Ð transmite al modelador lo que la variable aleatoria X tiene. NOTE que X podría ser fácilmente un vector aleatorio. Ejemplo Es interesante observar los dos casos extremos de dicha esperanza condicional los cuales que son: E (Y jfS; ?g) = E (Y ) , E (Y j=) = Y . La primero se sigue del hecho de que Ð0 no es informativo y lo segundo porque = incluye toda la información relevante incluyendo (X). 6.3.2 Determinando hr (X) = E (Y r j (X)) Una vez establecida la existencia y la unicidad c.s. de E (Y r j (X)), procedemos a considerar el problema de determinar la forma funcional de hr (X) = E (Y r j (X)). El sentido común sugiere que la similitud entre (7.20) y (7.21) 336 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS se trasladará a las formas funcionales. Es decir, cuando las funciones ordinarias condicional momento toman la forma: E (Y r jX = x) = hr (x) , x 2 RX , r = 1; 2; :::; interpretamos las funciones estocásticas condicionales momento como E (Y r j (X)) = hr (X) , para X~DX (:) , r = 1; 2; ::: (7.36) En este sentido se puede conjeturar que: E (Y r jX = xi ) = hr (xi ) , para todo xi 2 RX ) E (Y r j (X)) = hr (X) . (7.37) Esta conjetura resulta ser válida. Es decir, la forma funcional ordinaria y las correspondientes funciones estocásticas momento condicional coinciden. La única diferencia es que las funciones estocásticas momento condicional son variables aleatorias. La pregunta que surge naturalmente es ¿cómo se determina la función hr (x) en primer lugar. La respuesta desde el punto de vista de modelación es que tanto las densidades condicionales como las funciones condicionales momento se determinan por la densidad conjunta como se muestra en (7.19). Sin embargo, esta respuesta no siempre es posible y necesitamos que considerar formas alternativas para determinar estas funciones. Una vez más, sin pérdida de generalidad consideramos el caso simple r = 1. De…niendo la propiedad. Sean X e Y dos variables aleatorias de…nidas en el mismo espacio de probabilidad (S; =; P (:)) tal que E(jY j) < 1, entonces: E (Y j (X)) = h (X) , de…nida a través de: E [(Y h (X)) g (X)] = 0, para toda g (:) . (7.38) donde g(:) : R ! R es cualquier función acotada Borel. 6.3.3 Propiedades de la esperanza condicional estocástica De la discusión anterior es evidente que cualquier intento de poner en práctica la reducción de la distribución conjunta en (7.3) requerirá no sólo la 6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 337 distribución condicional ordinaria o la forma encontrada en el capítulo 6, sino productos de la forma: f (x; y; ) = f (yjx; 2) 1) , f (x; para todo (x; y) 2 RX RY . (7.39) Como se dijo antes, el concepto de las correspondientes funciones condicionales momento cambian a: E (Y r j (X)) = hr (X) , r = 1; 2; ::: Con el …n de ser capaces de manejar esos momentos aleatorios procedemos a establecer ciertas propiedades útiles de la esperanza condicional E (Y j (X)). Observemos en primer lugar que, para los propósitos de la discusión que sigue E (Y jX = x) puede ser provechosamente visto como un caso especial de E (Y j (X)). Considere las tres variables aleatorias X, Y y Z de…nidas en el mismo espacio de probabilidad (S; =; P (:)), cuyos momentos, como se requiere en cada caso, existen. La primera propiedad importante es que la esperanza condicional tiene la misma estructura matemática lineal que la experanza ordinaria (ver capítulo 3). Linealidad EC[1]. E (aX + bY j (Z)) = aE (Xj (Z)) + bE (Y j (Z)), a; b, constantes. Esta propiedad puede ser fácilmente adaptada al caso especial: E (aX + bY jZ = z). Una segunda propiedad importante es que la esperanza condicional está relacionada con la experanza ordinaria, tomando otra experanza con respecto a la variable condicionante. La ley del logaritmo iterado (lie) EC[2]. E (Y ) = E [E (Y j (X))]. Esta propiedad se deduce directamente de la de…nición de esperanza condicional ya que: E E (Y j (X)) I (X) =E Y I (X) = E (Y ) . NOTA: la esperanza doble se de…ne como sigue: 2 3 Z1 Z1 4 y f (yjx) dy 5 f (x) dx. E [E (Y jX)] = 1 1 338 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS En otras palabras, para derivar la media (marginal) haciendo uso de la media condicional, tomamos esperanzas de la esperanza condicional, con respecto a la distribución marginal de la variable aleatoria X. Ejemplo Considere la distribución conjunta (7.30) junto con las densidades condicionales (7.31). Vamos a obtener E(Y ) a través de las experanzas condicionales. La propiedad CE2 sugiere tomar esperanzas de E(Y jX) sobre X es decir, E(Y ) = (0:4)E(Y jX = 1) + (0:6)E(Y jX = 1) = 0:1; que coincide con la evaluación directa de la esperanza: E(Y ) = ( 1)(0:3)0(0:3) + 1(0:4) = 0:1: Del mismo modo, la distribución(es) condicional de x dado y = se dan a continuación: x f (xjy = 1 1) 1 3 1 2 3 , x f (xjy = 0) 1 2 3 1 1 3 ; x f (xjy = 1) 1 1 4 1; 0; 1 1 3 4 E (XjY = 1) = ( 1) 31 + (1) 23 = 13 , E (XjY = 0) = ( 1) 32 + (1) 13 = 13 , E (XjY = 1) = ( 1) 41 + (1) 34 = 12 , E (X) = (0:3) E (XjY = 1) + (0:3) E (XjY = 0) + (0:4) E (XjY = 1) = 0:2, lo cual coincide con la evaluación directa: E (X) = ( 1) (0:4)+(1) (0:6) = 0:2. Una tercera propiedad de la esperanza condicional es que cualquier función de Borel de la variable aleatoria X (que es una variable aleatoria en relación con (X)) pasa a través del condicionamiento inalterada. Tomando lo que es propiedad conocida EC3. E (h (Y ) g (X) j (X)) =g(X) E (h (Y ) j (X)). Esta propiedad implica que en el caso donde Y es una variable aleatoria en relación con (X): E (Y j (X)) = Y c.s. El propiedad EC3 puede ser fácilmente adaptada al caso especial E (h (Y ) g (X) jX = x), y se puede utilizar para mejorar nuestra intuición. Cuando una variable 6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 339 aleatoria condicionante es "clavada" en un cierto valor X = x, esto indirectamente "clava" todas las funciones de X. Ejemplo p Considere las funciones h (Y ) = Y , g(X) = X 2 : p p E (h (Y ) g (X) jX = 1) = ( 1)2 E Y jX = 1 = E Y jX = 1 . Estas propiedades son especialmente útiles en el contexto de modelos de regresión por numerosas razones que se discutirán en las próximas secciones. En este punto es instructivo utilizar estas propiedades a …n de obtener un resultado importante en relación a las regresiones lineales. Ejemplo. En el caso de la distribución normal bivariada la media condicional toma la forma: E (Y j (X)) = 0 + (7.40) 1X donde los parámetros ( 0 ; 1 ) adoptan la forma dada en (7.10). Si partimos de (7.40), la pregunta que surge es: ¿cómo los parámetros 0 y 1 se relacionan con los momentos de f (x; y)? Usando la lie (EC2) podemos deducir que E (Y ) = 0 + 1 E (X), es decir, 0 = E (Y ) 1E (X) . (7.41) Aplicando las propiedades lie (EC2) y el "sacar lo que se conoce" (EC3) podemos deducir que: E (X Y ) = E [E (X Y j (X))] = E [X E (Y j (X))] . Sustituyendo la forma de la media estocástica condicional signi…ca que podemos deducir que: E (X Y ) = E [X E ( 0 + 1 X)] = E fX E (Y ) 1 [E (X) + = E (X) E (Y ) + 1 E f[X E (X)] Xg = E (X) E (Y ) + 1 EX 2 E (X) E (X) 1 [E (X)]2 = E (X) E (Y ) + 1 E X 2 = E (X) E (Y ) + 1 V ar (X) ) Cov (X; Y ) = E (X Y ) E (X) E (Y ) = Cov (X; Y ) . = V ar (X) 1V 1 X]g ar (X) , (7.42) 340 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Este resultado implica que, independientemente de la naturaleza de la densidad conjunta f (x; y), si la función de regresión es lineal, cuando se expresa en la forma E (Y j (X)) = 0 + 1 X, los parámetros 0 y 1 están relacionados con los momentos de f (x; y) a través de (7.41) y (7.42). También tenga en cuenta que, en vista de la relación entre la covarianza y el p) 5, b1 también se coe…ciente de correlación Corr(X; Y ) = p Cov(X;Y V ar(X) V ar(Y ) puede expresar en forma equivalente: 1 = "s # V ar (Y ) Corr (X; Y ) . V ar (X) Esta es la razón por la cual en la sección 2 relacionamos las funciones de regresión lineal con el coe…ciente de correlación, incluso en los casos de distribuciones no simétricas donde la correlación no es una medida adecuada de la dependencia de distribución. La conclusión es que cuando uno postula (7.40) la parametrización implícita coincide con la parametrización bajo el supuesto de normalidad bivariada dado en (7.10). La propiedad mejor pronóstico de mínimos cuadrados [EC4]. E [Y E (Y j (X))]2 E [Y g (X)]2 para toda g(:). Esto signi…ca que de entre todas las posibles funciones g(:) de X, E [Y g (X)]2 , la distancia, conocida como el error cuadrático medio (ECM): E [Y g (X)]2 , es minimizada por la función: g(X) = E (Y j (X)). Es decir, la media condicional proporciona el mejor predictor del error cuadrático medio. Esta es una propiedad particularmente muy útil porque hace a la esperanza condicional la opción obvia para un predictor (regla de pronóstico). La última propiedad de esperanza condicional estocástica está relacionado con el tamaño del conjunto de información condicionante. La propiedad del corsé [EC5]. E fE (Y j (X; Z) j (X))g = E ffE (Y j (X))g j (X; Z)g = E (Y j (X)). La intuición que subyace a esta propiedad es que en condicionamiento secuencial el conjunto más pequeño de información (note que (X) (X; Y )) domina el condicionamiento. Igual que usar dos corsés; el más pequeño dominará independientemente del orden en el que los lleve puestos! 6.4. EXOGENEIDAD DÉBIL 6.4 341 Exogeneidad débil En las dos secciones anteriores hemos discutido la cuestión de hacer frente a la reducción: f (x; y; ) = f (yjx; '2 ) f (x; '1 ) , para todo (x; y) 2 RX RY . (7.43) En la sección 2 ignoramos la distribución marginal f (x; '1 ) y se argumentó que podemos hacer frente a las muchas distribuciones condicionales (una para cada valor de X) extendiendo el concepto de momentos condicionales a funciones. En la sección 3 hemos extendido el concepto de funciones condicionales momento a su versión estocástica que toma en cuenta los pesos como los de…nidos por la distribución marginal. La pregunta que naturalmente surge en esta etapa es si existen circunstancias en las que el modelador pueda en realidad hacer caso omiso de la distribución marginal y modelar en términos de las funciones momento condicional. Esto sería útil porque haciendo caso omiso de la distribución marginal reducimos el número de parámetros desconocidos y por lo tanto resolvemos el problema de sobreparametrización. Como se ha dicho en la introducción, la reducción en (7.3) no ofrece ningún alivio al problema de la sobreparametrización. A …n de que la discusión sea menos abstracta vamos a discutir esta cuestión en relación con un ejemplo especí…co. Ejemplo Como mostramos anteriormente, en el caso en el cual f (x; y; ) es normal bivariada como la dada en (7.9), las densidades condicional y marginal también son normales: (Y jX = x) ~N 0 = 1 0 1 2; + 1 1 X; = 2 12 22 , x 2 R, X~N ( 2 ; ; 2 = 11 22 ) ; 2 12 (7.44) 22 La reducción ha provocado una reparametrización de la forma: ('1 ; '2 ) : := ( 1 ; 2 ; 12 ; 11 ; 22 ) 2 := R3 R2+ ; '1 := ( 2 ; 22 ) 2 1 := (R R+ ) ; '2 := ( 0 ; 1 ; 2 ) 2 2 := (R2 R+ ) ; pero el número de parámetros desconocidos no ha cambiado. ! 342 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Esto sugiere que a menos que haya alguna forma de ignorar ciertos parámetros, por ejemplo los parámetros '1 de la distribución marginal, no hay una verdadera simpli…cación del problema de la modelación, ya que, en cierto sentido, todavía estamos tratando con la distribución conjunta. La pregunta que surge naturalmente en esta etapa es en qué medida podemos concentrarnos exclusivamente en la distribución condicional y sus parámetros en el caso donde la distribución marginal no es de interés intrínseco. La respuesta en pocas palabras es que depende de cómo los dos conjuntos de parámetros '1 2 1 , '2 2 2 se restrinjan entre sí. La respuesta es a…rmativa en el caso de que 2 (el conjunto de valores permisibles de '2 ) no es afectado por cualquiera de los valores tomados por '1 2 1 y viceversa; pero no de otra manera. El concepto que necesitamos es el llamado variación libre (variation freeness). Variación libre. Decimos que '1 y '2 son de variación libre si para todos los valores de '1 2 1 , el rango de valores posibles de '2 permanece en el espacio original de parámetros y no en algún subconjunto propio de él. Utilizando el concepto de variación libre, podemos dar una respuesta más formal a la pregunta anterior sobre si podemos concentrarnos en la distribución condicional. Exogeneidad débil. En el caso donde los parámetros de interés son sólo aquellos de '2 (o alguna función de ellos) y '1 y '2 son variación libre, entonces se dice que X es débilmente exógena con respecto a '1 y f (x; '1 ) puede ser ignorada. En los casos donde X no es débilmente exógena con respecto a '1 necesitamos construir el modelo estadístico teniendo en cuenta las distribuciones condicional y marginal en (7.43); (véase Engle, Hendry y Richard (1983)). El concepto de exogeneidad débil se ilustra a continuación en el contexto de ejemplos especí…cos, empezando por el caso Normal de dos variables. (i) Normal bivariada. En el caso donde f (x; y; ) es Normal bivariada, como aparece en (7.9), notemos que '1 2 1 := R R+ y '2 := ( 0 ; 1 ; 2 ) 2 2 R+ . Por lo tanto, se puede argumentar que X es débilmente 2 := R exógena con respecto a '2 , ya que no importa qué valores de '1 en 1 se eligen, los parámetros '2 pueden tomar todos sus posibles valores en 2 . (ii) t de Student bivariada. En el caso de la distribución t de Student bivariada con v > 2 grados de libertad, denotada por: Y X ~St 1 2 ; 11 12 21 22 ; v (7.45) 6.4. EXOGENEIDAD DÉBIL 343 la densidad condicional de Y dado X = x y la densidad marginal de X también son también t de Student de la forma: (yjX = x) ~St 0+ 1 X; v 2 v 1 1+ X~St ( 2 ; 1 v [x 22 2] 2 v + 1 , x 2 R. (7.46) 22 ; v) donde los parámetros ( 0 ; 1 ; 2 ) coinciden con los de la Normal bivariada (ver (7.44)). La parametrización involucrada toma la forma: := ( 1 ; 2 ; 12 ; 11 ; 22 ) 2 := R3 R2+ ; '1 := ( 2 ; 22 ) 2 1 := (R R+ ) ; '2 := ( 0 ; 1 ; 2 ; 22 ; 2 ) 2 2 := R3 R2+ . En vista de estos resultados podemos argumentar que X no es débilmente exógena con respecto a '2 , porque los valores de parámetros tomados por '2 en 2 pueden ser directamente restringidos a través de '1 debido a que ( 2 ; 22 ) aparecen en los dos conjuntos de parámetros desconocidos. Como resultado de esto, la modelación no puede ignorar la distribución marginal de X, incluso si los parámetros de interés son aquellos en '2 . En este sentido, la condicionalidad anterior es bastante engañosa; deberíamos haber utilizado en su lugar condicionalidad sobre -campo (X), con la regresión y curvas cedásticas siendo: E (Y j (X)) = 0 + 1 X, V ar (Y j (X)) = v 2 v 1 1+ 1 v 22 [x 2] 2 (7.47) Concluimos esta sección haciendo notar dos características importantes de exogeneidad débil. (i) El concepto de exogeneidad débil está inextricablemente ligado a la distribución conjunta y su parametrización en relación a la de las distribuciones condicionales y marginales. (ii) Teniendo en cuenta los resultados en las dos secciones anteriores, es probable que exogeneidad débil sea la excepción y no la regla en la práctica. 344 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS 6.5 El concepto de mecanismo generador estadístico (MG) Como se ha argumentado en el capítulo 1, para que los datos observados proporcionen evidencia sin prejuicios en la evaluación de la validez de una cierta teoría, es imperativo que construyamos el modelo estadístico (un resumen conveniente de los datos) en términos de conceptos no teóricos (non-theory concepts). En los capítulos 2-6 introdujimos varios conceptos probabilísticos que tienen por objeto sentar los fundamentos y el andamiaje del marco de referencia en el contexto del cual tales modelos estadísticos se pueden construir. El concepto de modelo estadístico de…nido hasta el momento sólo cuenta con dos componentes, los modelos de probabilidad y muestral. Aunque esto es su…ciente para modelos estadísticos simples, para la modelación de fenómenos económicos que muestran dependencia y heterogeneidad necesitamos introducir un tercer componente que llamamos mecanismo generador estadístico (MG). El objetivo principal de este componente es proporcionar un puente entre el modelo estadístico y el modelo teórico sugerido por la teoría económica. El objetivo último de la modelación empírica no es sólo el resumen de la información sistemática en los datos en forma de un modelo paramétrico parsimonioso, sino el uso de estos modelos para entender fenómenos económicos. En este sentido, relacionar tales modelos estadísticos con los modelos de la teoría económica es de fundamental importancia. En este libro relacionar un modelo estadístico adecuado con los modelos de la teoría económica en cuestión se llama identi…cación (ver también Spanos (1986,1990)). 6.5.1 El ángulo de visión de la teoría La tesis anterior debe ser contrastada con el enfoque de libro de texto tradicional a la modelación econométrica (véase, en particular Gujarati (1995)), que asume desde el principio que el MG estadístico y el modelo teórico coinciden, además de algún término de error, independientemente de la naturaleza y la estructura de los datos observados. Consideremos la teoría-modelo conocida como la hipótesis de ingreso absoluto: Ct = + Y D , donde > 0, 1 < < 1, NOTA. En el libro de Spanos dice "Ct = a + Y D , donde > 0, 6.5. EL CONCEPTO DE MECANISMO GENERADOR ESTADÍSTICO (MG)345 1 < b < 1" (p. 68). En la ecuación y en las desigualdades los coe…cientes no son los mismos. donde C y Y D designan las variables teóricas consumo e ingreso, respectivamente. Este modelo es metamorfoseado en el Modelo de Regresión lineal: Ct = + YtD + "t , "t ~N IID 0; 2 , t = 1; 2; :::; Y . (7.48) (I) pretendiendo que estas variables de la teoría coinciden con lo que los datos observados disponibles pretenden medir y (ii) adjuntando un término de error ruido blanco (normal) al modelo de la teoría. Ni que decir tiene que (i) es infantil ingenuo y (ii) destruye al principio cualquier posibilidad de que los datos podrían proporcionar evidencia sin prejuicios en la evaluación de la validez de la teoría en cuestión. El modelador simplemente forza la teoría a los datos y luego procede a jugar morfogeométricamente ("Procrustes"); corta los trozos que parecen sobresalir! Además, este punto de vista da la impresión de que un modelo teórico en la forma de una ecuación lineal entre dos variables observables es un requisito previo para que el modelador sea capaz de especi…car un modelo de regresión lineal. Esto constituye el ángulo de visión de la teoría: viendo (7.48) de derecha a izquierda, como un mecanismo que genera Ct dado YtD ; "t . El argumento es que este punto de vista asume que: (a) el término de error "t es una prótesis autónoma al modelo teórico, (b) los parámetros teóricos ( ; ) gozan de una interpretación clara de la teoría ( es el ingreso de subsistencia, es la propensión marginal al consumo), que son los invariantes del sistema y sin relación con las variables YtD ; "t . Este ángulo de visión es adecuado para analizar los aspectos teóricos del modelo de la teoría como un sistema, pero puede ser miope y engañoso cuando se utiliza para analizar los aspectos estadísticos del modelo. Para este último caso tenemos que introducir un punto de vista alternativo que contemple (7.48) en términos puramente probabilísticos y está directamente integrado en la estructura de los datos observados. Este punto de vista contempla (7.48) como un MG estadístico que, en pocas palabras, constituye una descomposición ortogonal de la variable aleatoria Ct dado la conjunto de información asociado con el valor de la variable aleatoria YtD . Vamos a considerar este concepto con algún detalle. 346 6.5.2 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS El concepto de conjunto de información condicional Sea el espacio de probabilidad de interés (S; =; P (:)). En vista del hecho de que todos los eventos de interés son elementos de =, de…nimos información en términos de subconjuntos de =, es decir, Ð constituye información en el contexto del espacio de probabilidad (S; =; P (:)) si Ð =, donde Ð abarca desde el caso no informativo Ð0 = fS; ?g, lo sabemos a priori, al caso completamente informativo Ð = =, lo sabemos todo. En vista del hecho de que siempre podemos de…nir una variable aleatoria X tal que el mínimo -campo generado por X coincide con Ð, es decir, (X) =ÐX , podemos pensar la información como una restricción sobre el espacio de eventos = relativo a algún aspecto observable del mecanismo aleatorio de que se trate. Esto nos permitirá poner en práctica las expresiones de la forma E(Y jÐ), que se puede interpretar como la esperanza condicional de la variable aleatoria Y dado el subconjunto Ð: un conjunto de eventos conocidos por el modelador. Además, sabemos que por la transformación de la información no hay posibilidad de aumentarlo, pero hay una cierta posibilidad de que la transformación podría reducirlo. Más formalmente, para cualquier función (Borel) bien comportada g(:) de X : (g (:)) (X) , pero lo contrario también es cierto sólo en el caso de que la función es uno a uno, es decir, (g (:)) = 6.5.3 (X) , sólo si g (:) : RX ! R es uno a uno. Descomposiciones ortogonales del MG estadístico El MG estadístico en relación con el primer momento condicional estocástico de una variable aleatoria Y respuesta (asumiendo que E jY j2 < 1 , referido al conjunto de información Ð se especi…ca para ser la descomposición ortogonal de la forma: Y = E(Y jÐ) + u, E(Y jÐ): el componente sistemático, (7.49) 6.5. EL CONCEPTO DE MECANISMO GENERADOR ESTADÍSTICO (MG)347 u = Y E(Y jÐ): el componente no sistemático, en relación con el conjunto de información condicionante Ð. La existencia de tal descomposición ortogonal está garantizada por la existencia de un segundo momento (integrabilidad cuadrática para los peritos en matemática) de la variable aleatoria Y . Su unicidad es la equivalencia casi segura (o con probabilidad uno) discutida anteriormente; véase también el capítulo 9. Al ver las variables aleatorias con varianza acotada como elementos de un espacio lineal, E(Y jÐ) representa una proyección ortogonal y la descomposición (7.49) es análoga al teorema de proyección ortogonal (ver Luenberger (1969)), con E(Y jÐ), el mejor predictor en el sentido de…nido por la propiedad EC4 anterior. La conexión entre las proyecciones ortogonales y esperanzas condicionales se remonta a Kolmogorov (1941a, b), extendieno el trabajo de Wold (1938). El componente no sistemático a menudo se llama término error o perturbación. Los dos componentes cumplen las siguientes propiedades: (i) E(ujÐ) = 0; (ii) E(u2 jÐ) = V ar (Y jÐ) < 1; (iii) E(u [E(Y jÐ)]) = 0: (7.50) La descomposición ortogonal anterior es puesta en funcionamiento cuando el conjunto de información condicionante Ð es relacionado con variables aleatorias observables como en el caso donde: Ð= (X), donde X es un vector de variables aleatorias de…nidas en el mismo espacio de probabilidad (S; =; P (:)). NOTE que en este caso (7.49) es una descomposición de la función de regresión. La descomposición ortogonal anterior se puede extender fácilmente a las funciones momento condicional de orden superior en el sentido de que (asumiendo que los momentos requeridos existen): ur = E (ur jÐ) + vr ; r = 2; 3; ::: donde u = Y E(Y jÐ). De particular interés son los primeros momentos centrales condicionales. IMPORTANTE: las descomposiciones anteriores suponen implícitamente la existencia de momentos hasta un cierto orden. En general, la descomposición ortogonal de r-ésimo momento condicional existe cuando los momentos hasta orden 2r están acotados, por ejemplo, E jY j2r < 1. 348 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS En la sección 2 se argumentó que el objetivo principal de los modelos de regresión es modelar (7.6) a través de las primeras funciones momento condicional tal como se de…nen en (7.11). Usando las anteriores descomposiciones ortogonales podemos proceder a especi…car los modelos de regresión en términos de las primeras cuatro funciones momento condicional de la siguiente manera: Yt = E (Yt j (Xt )) + ut , urt = E (urt j (Xt )) + vrt , r = 2; 3; 4. Consideremos varios ejemplos de tales descomposiciones. MG estadístico simple Para entender el papel del conjunto de información condicionante Ð, consideremos primero el caso en que no hay información de dependencia. En este caso elegimos que Ð sea el conjunto no informativo conjunto Ð0 = fS; ?g. Se dice que no es informativo porque, como se mencionó anteriormente, para cualquier variable aleatoria Y de…nida sobre S, E(Y jÐ0 ) = E (Y ). En este caso, la descomposición en (7.49) toma la forma: Yk = E (Yk ) + "k , k 2 N, y las condiciones [i] - [iii] son trivialmente ciertas. Modelo Normal simple [1] MG estadístico: Yk = E (Yk ) + "k , k 2 N, [2] Modelo de probabilidad: = ff (y; )g = : = ( 1; ( 11 ) ; E ( 11 ) p 2 (X) = 1 2 exp 1; V 1 2 2 1) (y 11 ar (X) = ) ; 2R R+ , x2R; 11 . [3] Modelo muestral: Y := (Y1 ; Y2 ; :::; Yn ) es una muestra aleatoria. Este es un ejemplo particularmente importante de un modelo estadístico simple que se utiliza ampliamente en los capítulos 11-15. Por lo tanto, en el caso de modelos estadísticos simples (una muestra aleatoria se postula), podemos complementar los modelos de probabilidad y muestral con un MG estadístico de la forma simple dada anteriormente. MG estadístico de Regresión. En el caso donde Ð incluye alguna información de dependencia como en el caso de los modelos de regresión donde: Ðt = (Xk = xk ), el MG estadístico toma la forma general: 6.5. EL CONCEPTO DE MECANISMO GENERADOR ESTADÍSTICO (MG)349 Yk = E (Yk jXk = xk ) + uk , k 2 N. Por diseño, los componentes sistemático y no sistemático, se de…nen por: (xk ) := E (Yk jXk = xk ) ; uk = Yk E (Yk jXk = xk ), k 2 N, respectivamente, son ortogonales. Esto se deduce directamente de las propiedades de esperanza condicional EC1-EC3 (véase más atrás): [i] E (uk jXk = xk ) = E fYk E [(Yk jXk = xk )] jXk = xk g = E (Yk jXk = xk ) E (Yk jXk = xk ) = 0, k 2 N. es decir, uk condicionada Xk = xk , no tiene efectos sistemáticos medios. Además, [ii] E fuk (xk )g = E (E fuk E [(Yk jXk = xk )]g jXk = xk ) = E (Yk jXk = xk ) E f(uk jXk = xk )g = 0, k 2 N. de EC2, EC3, y [i], es decir, uk y E (Yk jXk = xk ), condicional a Xk = xk , son mutuamente ortogonales; denotado por: uk ? E (Yk jXk = xk ), k 2 N. Además de las propiedades [i] - [ii] podemos mostrar que uk y Yk tienen la misma varianza condicional: [iii] E (u2k jXk = xk ) = V ar (Yk jXk = xk ), k 2 N, de EC1. Por otra parte, la media no condicional de uk también es cero [iv] E (uk ) = E (E (uk jXk = xk )) = 0, k 2 N, de EC2, EC2 y EC3, es decir uk es ortogonal a Xk . IMPORTANTE: es importante tener en cuenta que media condicional cero para el componente no sistemático implica media no condicional cero: E (uk jXk = xk ) = 0 ) E (uk ) = 0, pero lo contrario no es cierto : E (uk ) = 0 ; E (uk jXk = xk ) = 0. Para ver esto consideremos el siguiente ejemplo. Ejemplo Volviendo a la distribución conjunta (7.7) y las distribuciones condicionales relacionadas, se observa que ninguna de estas esperanzas condicionales es cero. Por otro lado, la esperanza no condicional de Y , evaluada usando la ley de esperanzas iteradas es: 350 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS 1 1 (0:5) (0:5) = 0. 5 5 Del mismo modo, ortogonalidad condicional entre Xk y uk implica ortogonalidad no condicional: E (Xk uk jXk = xk ) = 0 ) E (Xk uk ) = 0, pero lo contrario no es cierto: E (Xk uk ) = 0 ; E (Xk uk jXk = xk ) = 0. NOTA: la intuición detrás de este resultado es que para la media no condicional hay un promedio más (sobre los valores de X), más allá de la media condicional. Regresión lineal/Normal. El modelo de regresión más ampliamente utilizado es el de regresión Lineal/Normal, cuyo MG estadístico toma la forma: donde el término de error ut , satisface las propiedades [i] - [v] obtenidas anteriormente. La especi…cación completa del modelo de regresión lineal/Normal toma la forma: [1] MG estadístico: Yt = 0 + 1 Xt + ut , t 2T, [2] Modelo de probabilidad: E (Y ) = E fE (Y jX = x)g = = ff (yt jxt ; )g = 0 : = 0; 1; : = E (Yt ) 2 ; ( 1 p exp 2 := R2 1 E (Xt ) , ( (y 2 1 xt ) 0 2 2 ) ; 2 ) , yt 2R ; R+ , 1 = Cov (Xt ; Yt ) , V ar (Xt ) 2 := V ar (Yt ) [Cov (Xt ; Yt )]2 . V ar (Xt ) [3] Modelo muestral: Y := (X1 ; X2 ; :::; Xn ) es una muestra independiente secuencialmente extraída de f (yt jxt ; ), t = 1; 2; :::; T . Una comparación directa entre los modelos Normal simple y de regresión lineal/Normal revela algunas diferencias interesantes. Al comparar los dos modelos de probabilidad, podemos ver que el modelo de regresión se expresa en términos de la distribución condicional f (yt jxt ; ), pero el modelo Normal simple en términos de la distribución marginal f (yt ; ). Una comparación de los modelos muestrales revela que en el caso de la regresión la muestra ya no aleatoria (independientes e idénticamente distribuida), es sólo independiente. Este es el caso, ya que las densidades condicionales f (yt jxt ; ), t 2T, están cambiando con t, porque las medias condicionales están cambiando con xt : 6.5. EL CONCEPTO DE MECANISMO GENERADOR ESTADÍSTICO (MG)351 (Yt jXt = xt ) ~N I ( 0 + 2 1 xt ; ), t 2T; es decir, ellas no están idénticamente distribuidas. Como argumentamos antes, utilizando las funciones momento condicional (a menudo las funciones de regresión y cedástica) introducidas en la sección anterior, podemos especi…car un modelo de regresión diferente para cada distribución bivariada. El modelo de regresión lineal/Normal puede ser muy engañoso como la base de los modelos de regresión en general, debido a que una serie de temas importantes no surgen en su contexto. Más allá del modelo de regresión lineal/Normal se plantean varias cuestiones nuevas. Se puede obtener alguna idea de las di…cultades planteadas por otros modelos de regresión al considerar el modelo de regresión lineal t de Student. Regresión lineal t de Student [1] MG estadístico: Yt = 0 +i 1 Xt + ut , t 2T, h 2 1 v 2 2 + v2t ut = (v 1) 1 + v 22 [Xt 2] [2] Modelo de probabilidad: = f (yt jxt ; ) f (x; ff (yt jxt ; )g = f (xt ; 2) ; 1 2 1 2 [v + 2] [v + 1] 1 2 [v + 1] 1 v 2 2) = 22 = V ar (Xt ) ; 2 : := = V ar (Yt ) 0 0; ! ! 1; ((v [v 2 2; ; 2 R3 22 1) ht (xt )) 22 ] = E (Yt ) 1 2 1+ 1 2; 1 2 ( 1+ 1 v 1 = R2+ , (xt ; yt ) 2 R2 ; [Xt 22 2 (yt (v 2] 0 1 xt ) 1) ht (xt ) 2 ) 1 (v+2) 2 1 (v+1) 2 , Cov (Xt ; Yt ) , V ar (Xt ) [Cov (Xt ; Yt )]2 . V ar (Xt ) [3] Modelo muestral: Y := (X1 ; X2 ; :::; Xn ) es una muestra independiente secuencialmente extraída de f (yt jxt ; ), t = 1; 2; :::; T . Este modelo di…ere del de regresión lineal/Normal en dos aspectos importantes: (i) X no es débilmente exógena con respecto a los parámetros de la distribución condicional, y por lo tanto no podemos ignorar la distribución marginal f (x; 2 ). 2 = E (Xt ) ; 352 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS (ii) La varianza condicional es heterocedástica, por lo que necesitamos completar la descomposición ortogonal de la función de regresión con la de la función cedástica. Para concluir esta subsección notamos que la literatura econométrica tradicional hasta la década de 1980 se limitó a la función de regresión. Recientemente, sin embargo, ha habido intentos por relacionar la teoría económica con la función cedástica, especialmente en relación con los modelos teóricos en …nanzas. El hecho de que los momentos condicionales de orden superior no se hallan tenido en cuenta es el resultado de ver estos momentos desde el ángulo de visión de la teoría que exige la teoría económica para introducir las relaciones conectadas con estos momentos. 6.5.4 El ángulo de visión estadístico El MG estadístico como se de…ne en (7.49) con las propiedades (7.50) de…ne el punto de vista estadístico, en contraste con el teórico discutido en la subsección anterior. Como podemos ver, el MG estadístico se de…ne para todos los modelos estadísticos, no sólo para los modelos de regresión, y tiene una interpretación puramente probabilística. Por ejemplo, en el caso del modelo lineal/Normal el ángulo de visión estadístico considera: Yt = 0 + 1 xt + ut ; t 2 T; (7.53) de izquierda a derecha como una descomposición ortogonal de la variable aleatoria observable (Yt ) en un componente sistemático E (Yt jXt = xt ) y un componente no sistemático (no modelado) ut = Yt E (Yt jXt = xt ). En contraste con los supuestos implícitos (a) - (b) del ángulo de visión de la teoría, el ángulo de visión estadístico postula explícitamente que: (a)* el término de error ut es deducido y vinculado a la estructura probabilística de (Yt ; Xt ), (b)* los parámetros estadísticos ( 0 ; 1 ; 2 ) gozan de una interpretación probabilística clara y que están indisolublemente ligados a la estructura probabilística de (Yt ; Xt ). Una mirada más de cerca a los otros modelos estadísticos especidicados anteriormente pone de mani…esto que todos los parámetros tienen una interpretación probabilística en términos de los momentos de las variables aleatorias observables involucradas y no hay parte de…nida en términos de los conceptos de la teoría. En los próximos capítulos de estos modelos se ex- 6.5. EL CONCEPTO DE MECANISMO GENERADOR ESTADÍSTICO (MG)353 tenderán en una serie de direcciones, pero su estructura básica seguirá siendo la misma. Un mecanismo generador estocástico. Resulta que para ciertos aspectos del análisis estadístico, el MG estadístico podría ser provechosamente visto como un mecanismo generador estocástico. Es decir, un punto de vista que contemple (7.53) de derecha a izquierda, como un mecanismo que genera a Yt dado (xt ; ut ). Esta interpretación alternativa parece en un primer momento tener una cierta a…nidad con el punto de vista teórico, pero, de hecho, la semejanza resulta para ser más aparente que real. El MG estadístico del modelo Normal simple, cuando se ve como un mecanismo generador estocástico, se expresa en la forma: Yk = 1 +( 11 ) 1 2 k ; k ~N IID (0; 1) ; k 2 N: (7.54) La forma más fácil de interpretar esto es como el mecanismo que cuando se simula utilizando números pseudoaleatorios (véase el capítulo 5) dará datos con la misma estructura probabilística que la muestra postulada;Normal Independiente e Idénticamente Distribuida (NIID). Del mismo modo, el MG estadístico de los modelos de regresión Normal y t de Student, como mecanismos generadores estocásticos, toman la forma: Yt = Yt = 0 + 1 xt + t ; t ~N IID (0; 1) ; t 1 2 + 1 Xt + (h (Xt )) v 2 1 donde h (Xt ) = 1+ [Xt (v 1) v 22 0 2T t ; t ~St (0; 1; v 2 2] + 1) ; Xt ~St ( 2 ; 22 ; v) ; t , respectivamente. Hay varias cosas que tener en cuenta sobre esta interpretación. En primer lugar, se trata de una interpretación estadística porque el principal objetivo es simular (utilizando números pseudo aleatorios) una estructura probabilística de la muestra (Y1 ; Y2 ; :::; Yn ) como se de…ne por su distribución conjunta. En segundo lugar, una parte integral del punto de vista de la simulación es la interpretación estadística de los parámetros involucrados. Como hemos visto, estos parámetros se de…nen en términos de los momentos de las variables aleatorias observables implicadas, por lo que las simulaciones bien diseñadas deben tener esto en cuenta, ya que representan restricciones implícitas. Esto es particularmente crucial cuando se diseñan 2T (7.55) 354 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS simulaciones Monte Carlo para abordar los difíciles problemas de distribución muestral. Un diseño que ignore cualquiera de las restricciones implícitas sobre los parámetros y los momentos de las distribuciones subyacentes es problable que puedan dar lugar a resultados engañosos. En tercer lugar, la interpretación del mecanismo generador estocástico se basa en el MG estadístico del primero momento condicional, pero debe ser modi…cado para incluir la información contenida en los momentos condicionales de orden superior. En el caso de los modelos Normal simple y de regresión lineal /Normal no hay ninguna información adicional porque el segundo momento es constante. En el caso del modelo de regresión t de Student, sin embargo, esto ya no es así y la información adicional deberá integrarse en el MG estadístico como se mostró anteriormente. 6.5.5 Razón de dependencia* El concepto de mecanismo generador estadístico (GM), introducido anteriormente, sugiere una forma natural para medir la dependencia entre Y y la variable aleatoria(s) X, de…niendo el conjunto de información condicional. Correspondiente a la descomposición ortogonal basada en la media condicional: Y = E (Y jX) + u, existe una relación entre las varianzas de los tres términos: V ar (Y ) = V ar [E (Y jX)] + V ar (u) : (7.56) Esto se deduce directamente de la ortogonalidad de los componentes sistemático y no sistemático e indirectamente de la igualdad: V ar (Y ) = E [V ar (Y jX)] + V ar [E (Y jX)] , y del hecho de que (propiedad EC2 anterior): E [V ar (Y jX)] = E E u2 jX = E u2 = V ar (u) . Dado que u representa el componente no sistemático (la parte no modelada) del MG estadístico, una medida de dependencia que se sugiere en si misma, es la razón de dependencia: Dr (Y jX) = V ar fE (Y jX)g =1 V ar (Y ) E fV ar (Y jX)g =1 V ar (Y ) V ar (u) . V ar (Y ) 6.5. EL CONCEPTO DE MECANISMO GENERADOR ESTADÍSTICO (MG)355 Esto se introdujo por primera vez por Kolmogorov (1933a), quien lo llamó razón de correlación, atribuyendo la idea a Pearson (1903). Como se mencionó en el capítulo 6, esta medida es de dependencia que se puede utilizar cualquiera que sea el sistema de medición de las variables aleatorias en cuestión. La razón de dependencia, como una medida de dependencia, satisface ciertas propiedades deseables: [1]. 0 Dr (Y jX) 1. [2]. Dr (Y jX) = 0, si X y Y son independientes. [3]. Dr (Y jX) = 1, si y sólo si Y = h (X) c.s. La primera propiedad se deriva de (7.56) directamente. La segunda propiedad se deduce del hecho de que cuando X e Y son independientes: E (Y jX) = E (Y ) ) V ar [E (Y jX)] = 0. La parte si de la tercera propiedad es trivial ya que Dr (Y jX) = 1 implica que: E [Y E (Y jX)]2 = 0 ) Y = h (X) c.s. La parte sólo si se deduce del hecho de que si Y = h (X), entonces la función h (X) (X), y por lo tanto h (X) = E (Y jX) con probabilidad uno (c.s). En vista de la propiedad [3], Dr (Y jX) se puede interpretar como una medida de dependencia probabilística análoga a la noción matemática de dependencia funcional Y = h (X), donde la función h (:) coincide con la función de regresión de Y dado X = x. Para dar un paso más, esta propiedad puede ser utilizada para caracterizar la función de regresión. Es decir, Dr (Y jX) se puede interpretar como la correlación máxima entre Y y todas las posibles funciones h(X), con el máximo alcanzado por la función de regresión h0 (X) = E (Y jX): Dr (Y jX) maxCorr2 [Y; h (:)] = Corr2 [Y; h0 (:)] h(:) (7.57) Renyi (1970) introduce tal caracterización añadiendo las siguientes condiciones: [1]. E [h0 (X)] = E (Y ), [2]. V ar [h0 (X)] = V ar (Y ) Dr (Y jX), [3]. E [h0 (X) Y ] > 0. 356 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Esto se deduce de la propiedad EC4 que dice que la media condicional de Y dado X proporciona el mejor predictor (en el sentido de error cuadrático medio) de Y . OBSERVACIONES: (i) La razón de dependencia no es una función simétrica de Y y X, como lo es el coe…ciente de correlación. La razón intuitiva para la asimetría es el hecho de que las dos funciones de regresión, por ejemplo E (Y jX) = h (X) y E (XjY ) = g (Y ) no necesariamente tienen la misma forma funcional. (ii) En el caso donde la función de regresión es lineal en X, E(Y jX) = 0 + 1 X, la razón de dependencia coincide con el coe…ciente de correlación al cuadrado: Dr (Y jX) = [Corr (X; Y )]2 . Esto se deduce del hecho, de que en este caso: V ar [E (XjY )] = [Cov (X; Y )]2 . V ar (X) Para concluir esta sección observamos que una ventaja importante de la razón de dependencia es que se puede extender fácilmente al caso en que X es un vector de variables aleatorias, por ejemplo X := (X1 ; X2 ; :::; Xm ): Dr (Y jX) = V ar fE (Y jX)g =1 V ar (Y ) E fV ar (Y jX)g . V ar (Y ) En el caso donde la función de regresión E (Y jX) es lineal en X, Dr (Y jX) coincide con el coe…ciente de correlación múltiple R2 , donde: R2 = maxCorr2 (Y; Xm 2 0 X= i Xi y Corr (:), la correlación al cuadrado (ver Spanos (1986), i=1 capítulo 15). 6.6 La tradición biométrica en estadística Como se ha dicho en Spanos (1995b), el enfoque de los libros de texto tradicionales puede ser visto como un híbrido de dos antiguas tradiciones en estadística: la teoría de los errores y las tradiciones de diseño experimental. También se a…rma que ambas tradiciones son más adecuadas para la modelación de datos experimentales en lugar de datos observacionales (no experimentales); el resultado de la observación pasiva de un sistema sin los medios 0 X), 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 357 para interferir o controlar el proceso de generación de datos. Se mencionó en el capítulo 1 que la tradición biométrica, desarrollada a …nales del siglo 19 y 20 es más adecuada para la modelación con datos observacionales. En esta sección hacemos una breve digresión para rastrear las raíces de la tradición biométrica. Para una discusión más amplia ver entre otros, Stigler (1986), Porter (1986), MacKenzie (1981) y Kevles (1985)). 6.6.1 Galton El concepto de regresión es uno de los muy pocos conceptos en estadística, cuyas raíces son a la vez claras e incuestionables. El concepto fue propuesto por primera vez por Galton (1877), formalizado en Galton (1885,1886), extendido por Pearson (1894,1895,1896) y relacionado con la tradición de mínimos cuadrados por Yule (1897). El padre de la moderna inferencia estadística R. A Fisher acredita a Galton y sus estudios pioneros en la herencia de proporcionar los fundamentos de la estadística moderna. En el prólogo de Fisher (1956) él alaba los estudios pioneros de Galton y continúa: El gran regalo de Galton estaba en su conciencia, que creció durante su vida, de la vaguedad de muchas de las frases en las que los hombres trataron de expresar la descripción de fenómenos naturales. Se adelanto a su tiempo en su reconocimiento de que la imprecisión podría ser eliminada y una cierta precisión de pensamiento intentada encontrando de…niciones cuantitativas en condiciones de tomar el lugar de frases tales como "el hombre medio", "variabilidad", "la fuerza de la herencia", y así sucesivamente, a través del conjunto de datos objetivos, y su examen sistemático ... (Fisher (1956), p. 2). Galton fue muy impresionado por la variedad de variables medidas cuya histograma Quetelet (1849) fue capaz de describir utilizando la distribución normal (conocido en ese tiempo como la ley de error), abarcando desde el número de suicidios y violaciones en París en un año a algunas medidas antropomór…cas. El interés de Galton estabe principalmente en la eugenesia: la mejora de la raza humana de Gran Bretaña mediante la reproducción selectiva (ver Kevles (1985)). Según MacKenzie (1981, p. 11): Un conjunto especí…co de objetivos sociales es común a la obra de Galton, Karl Pearson y R. A Fisher. Todos eran eugenistas. A…rmaron que la característica humana más importante, como la capacidad mental, eran heredada de una generación a la siguiente. Los ancestros de la gente, en lugar de su entorno, es fundamental para determinar sus características. La única forma 358 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS segura a largo plazo para mejorar la sociedad, argumentaron, era mejorar las características de los individuos en ella, y la mejor manera de hacer esto es asegurar que los de la generación actual con buenas características (el "apto") tengan más hijos que aquellos con malas características (el "no apto ") ... En un giro terrible del destino, la atroz causa de la eugenesia utilizada por Hitler para dar una justi…cación seudo cientí…ca a sus políticas racistas, proporcionó el impulso principal para el desarrollo de la estadística moderna. Vamos a recorrer los primeros pasos de la estadística moderna que llevaron a la regresión y correlación. Quetelet aplicó ampliamente la más temprana tradición estadística, la teoría de errores (ver Spanos (1995b)), desarrollada por primera vez en la astronomía y la geodesia, al análisis estadístico de las medidas sociales con la esperanza de desarrollar la física social. En la tradición de la teoría de los errores, el centro de atención fue dado a los errores de medición. Los datos observados se consideraron como medida de la misma (verdadera), variable pero cada observación tenía un error de medición que podría ser descrito como aleatorio. Además, cuando algunas observaciones se recolectaron ellas tendían a mostrar el patrón de regularidad aleatoria asociado a la distribución Normal en forma de campana. En este contexto, el objetivo principal de la modelación era descubrir la verdadera variable reduciendo al mínimo los errores de medición. Gauss introdujo la distribución normal como la que, bajo ciertas restricciones, descubre la verdadera variable a través de la media de la distribución. Quetelet adapto este procedimiento para dar lugar a la física social, mediante la asociación de la media con l’homme moyen (el hombre promedio), representando una especie de ideal y viendo el comportamiento social como desviaciones del hombre promedio; ver Stigler (1986), Porter (1986). Galton, continuando con la tradición asociada a Quetelet, utilizó la curva de frecuencia de la ley de error (Normal) para describir algunos conjuntos de datos de medidas antropomór…cas, como la capacidad mental y características físicas de las poblaciones humanas, tales como altura y peso, y se sorprendió por lo bien que la curva normal describía estos datos. El primer problema que Galton tuvo que enfrentar fue la interpretación de las desviaciones de la media heredado de Quetelet. Al describir la capacidad mental usando la curva normal, la pregunta obvia es si ¿un genio constituye un error de la naturaleza y la mente promedio el ideal? Para una eugenista la respuesta era ciertamente no! Además, para Galton la variación alrededor de 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 359 la media no era un error a ser minimizado. En sus memorias Galton (1908, p. 305) explica cómo tuvo que romper con la tradición de la teoría de errores: Los objetos principales de la Ley de Gauss de los errores se oponían exactamente, en un sentido, a aquellos a los que se les aplica. Ellos tenían que ser eliminados o proporcionar una asignación justa de los errores. Pero estos errores o desviaciones fueron las mismas cosas que yo quería preservar y conocer... En este sentido, Galton volcó la mesa a la teoría de la tradición errores viendo la aleatoriedad como inherente a la naturaleza y no introducida como un intento de observar y medir. Además, la variabilidad asociada con esta aleatoriedad era precisamente en lo que se interesaba. Como resultado de este cambio de actitud las variables aleatorias observables tomaron el centro del escenario y la media fue sólo una característica de la distribución describiendo esta variabilidad. De hecho, Galton (1875a) fue un paso más allá y propuso sustituir la noción de media y de error probable con los conceptos de mediana y rango intercuartil (ver capítulo 3), como medidas más adecuadas para las mediciones antropomór…cas. El rompimiento de Galton con la tradición de la teoría de los errores pueden ser fácilmente discernida de su propuesta de sustituir el término de error estándar (conocida en ese entonces como error probable) con el término desviación estándar; las desviaciones de la media ya no eran vistas como errores. La segunda principal separación de la teoría de errores iniciada por Galton fue motivada por su interés en el descubrimiento de la dependencia entre las variables lo cual condujo naturalmente a las distribuciones conjuntas y condicionales. Los conceptos más in‡uyentes introducido por Galton fueron los de regresión y correlación, que, como se muestra en este y en los últimos capítulos, se basan en las distribuciones condicionales y conjuntas y se pueden utilizar para modelar (y cuanti…car) la dependencia entre variables aleatorias. El término regresión fue acuñado por Galton (1885) en el contexto del estudio de la herencia en las poblaciones humanas. En su intento de descubrir una relación entre la altura de los padres y la altura de sus hijos, introdujo el concepto de curva de regresión en el contexto de poblaciones Normales. Es bastante interesante que él formuló el concepto de regresión mediante el estudio de la relación entre dos conjuntos de datos usando diagramas de dispersión. Veamos esto en detalle. El concepto de regresión, se propuso por primera vez por Galton (1877) al estudiar las características heredadas entre dos generaciones de chícharos y se llamó inicialmente reversión. El documento que puso regresión en estadística 360 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS fue Galton (1885), estudiando la relación entre la altura del padre y el de la descendencia.Galton (1885), examinando la distribución de la altura de una generación de seres humanos a la siguiente, observó que la distribución de la altura (histograma) de su población muestral parece seguir siendo la misma, como en el caso de los chícharos (véase Galton (1877 )). Para ser más especí…co, en su estudio de la herencia, Galton notó que el histograma de las mediciones: Xt - la altura de la mitad de los padres y Yt - la altura de la descendencia, se podría describir con una curva de frecuencia casi idéntica a la Normal. Él de…ne la altura de la mitad de los padres como: Xt := X1t + (1:08) X2t 2 donde X1t es la altura del padre y X2t es la altura de la madre. La escala de 1:08 se basó en la diferencia entre la altura media de los hombres frente a la de las mujeres. La pregunta que naturalmente surge en la mente de Galton fue la misma que en el caso de los chícharos: ¿Cómo es que, aunque cada individuo no tiene como regla, dejar detrás de él, sin embargo, las sucesivas generaciones se parecen entre sí con gran exactitud en todas sus características generales? ... (Galton (1877), p. 492) Su explicación última de este aparente enigma se basó principalmente en la línea de regresión de…nida por: [E (Yt jXt = xt ) E (Yt )] = Cov (Yt ; Xt ) V ar (Xt ) [xt E (Xt )] , xt 2 R. Cómo Galton derivó la línea de regresión es una historia fascinante que vale la pena contar con algún detalle. Paso 1. Trazó el diagrama de dispersión de los dos conjuntos de datos f(xt ; yt ) ; t = 1; 2; :::; T g. Paso 2. Unió los puntos de datos con aproximadamente la misma frecuencia de ocurrencia y se dio cuenta de que estas curvas de igual frecuencia forman curvas elípticas concéntricas. 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 361 Paso 3. Usando el argumento de que "cuando el número de observaciones aumenta las curvas de igual frecuencia se obtienen curvas más lisas y suaves", supone que en el límite ellas forman elipses perfectas. Paso 4. Al darse cuenta de que su formación matemática no fue su…ciente para aprovechar estos contornos concéntricos elípticos de la distribución bivariada correspondiente, él requisó la ayuda de su amigo matemático Dickson. Con la ayuda de Dickson, deriva la densidad normal bivariada (véase el apéndice de Galton (1886)). Paso 5. Utilizando un argumento ingenioso, Galton sugirió que la línea que describe mejor la relación entre (Xt ; Yt ) (lo que él llama la línea de regresión) es la que pasa por el centro de las elipses (el punto en el que los dos ejer principales se encuentran) y corta las elipses en su punto de tangencia con las líneas paralelas al eje y. En la …gura 7.21 podemos ver los contornos de una densidad Normal bivariada con parámetros: E (Yt ) = 1:0, E (Xt ) = 2:0, V ar (Yt ) = 0:8, V ar (Xt ) = 1:8, Cov (Xt ; Yt ) = 0:6, y las dos líneas de regresión: E (Yt jXt = xt ) = 0:333 + 0:333xt , E (Yt jXt = xt ) = 1:25 + 0:75yt . Tenga en cuenta que la línea de regresión: t ;Xt ) [yt E (Yt )], yt 2 R, [E (Xt jYt = yt ) E (Xt )] = Cov(Y V ar(Yt ) también pasan por el centro de las elipses, pero las corta en el punto de tangencia con las líneas rectas paralelas al eje x; otra idea de Galton! Figura 7.27. Normal bivariada (= 0:5) contornos y lineas de regresión. Lo que es fascinante desde nuestro punto de vista es que Galton fue capaz de proceder a partir de los datos observados, generar la densidad teórica 362 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS bivariada subyacente a estos datos usando al diagrama de dispersión y luego proceder a de…nir la línea de regresión. OBSERVACIONES: (i) Galton asume implícitamente que E (Yt ) = E (Xt ) := y V ar (Xt ) = V ar (Yt ), en cuyo caso la línea de regresión anterior se reduce a la relación proporcional: [E (Yt jXt = xt ) ] = (xt := Corr (Xt ; Yt ) ; j j ) , xt 2 R (7.59) 1 (7.60) A partir de esto Galton concluyó que hay una tendencia a regresar a la media (debido a j j 1) en el sentido de que padres muy altos producen vástagos que no son tan altos y padres muy bajos producen descendientes que no son tan bajos. (ii) Galton vio (7,59) como la ley de la herencia que subyace a la aparente estabilidad de las características de la población en las generaciones sucesivas. Galton estaba claramente equivocado en la elaboración de las implicaciones de causalidad basado únicamente en la curva de regresión, porque por la misma razón, desde el punto de vista estadístico, la regresión inversa: [E (Xt jYt = yt ) ] = (yt ) , yt 2 R tiene tanto justi…cación como la original. La regresión inversa corta las elipses en su punto de tangencia con las líneas paralelas al eje x (véase la …gura 7.21). (iii) Cabe señalar que Galton supone implícitamente normalidad conjunta y marginal, para las variables aleatorias Xt y Yt . Para un estudiante moderno de estadística parece muy extraño que la noción de correlación fue introducida por Galton (1888) (inicialmente como co-relación) a través de la regresión utilizando las pendientes de las líneas de regresión y regresión inversa: [E (Yt jXt = xt ) ]= Cov (Xt ; Yt ) V ar (Xt ) [xt ] , xt 2 R. [E (Xt jYt = yt ) ]= Cov (Xt ; Yt ) V ar (Yt ) [yt ] , yt 2 R. 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 363 La multiplicación de las dos pendientes da lugar al cuadrado del coe…ciente de correlación: Corr (Xt ; Yt ) = Cov (Xt ; Yt ) V ar (Xt ) Cov (Xt ; Yt ) V ar (Yt ) . Para los detalles de esta fascinante historia ver Stigler (1986). 6.6.2 Karl Pearson Karl Pearson fue el primero en apreciar la importancia de las contribuciones de Galton en relación a la regresión y correlación y procedió a formalizar y ampliar ambas en direcciones diferentes. La primera contribución fundamental de Pearson (1895,1896) fue la formalización del procedimiento de curvas de frecuencia de ajuste a los datos observados, mediante la utilización de los cuatro primeros momentos (veáse capítulo 3); el ajuste de la distribución Normal antes de Pearson tomó la forma de dibujar la curva en forma de campana en el histograma de los datos observados. Es interesante NOTAR que el concepto de momentos se ha utilizado durante los siglos 18 y 19, pero Pearson acuñó el término e introdujo el concepto en la estadística; Chebyshev utilizó el concepto de momentos en la teoría de probabilidades en relación con el Teorema Central del Límite en la década de 1870 , pero los dos hechos fueron separados en gran medida hasta mediados del siglo 20. Pearson (1895) también fue el primero en introducir los conceptos de asimetría y curtosis. Pearson comenzó su trabajo estadístico sobre las cuestiones planteadas por el intento de Weldon para aplicar los resultados de Galton a la correlación de las poblaciones de cangrejos; Weldon fue un distinguido zoólogo en la University College donde Pearson fue profesor de Matemática Aplicada. Resultó que el histograma de las mediciones de los cangrejos de Nápoles era a la vez asimétrico y bimodal y Pearson (1894), en su primer documento estadístico, intentó demostrar que el histograma puede ser descrito por la suma de dos curvas normales con diferentes medias y varianzas; el primer intento por tratar con el problema de heterogeneidad. La asimetría mostrada por los datos biológicos y los datos de precios de Edgeworth convenció a Pearson de que la distribución normal no era de aplicación universal, como previamente había creido Quetelet y Galton. Esta situación llevó a la segunda contribución importante de Pearson a la tradición biométrica que llegó en la forma de lo que hoy llamamos la familia de distribuciones Pearson, que incluye la 364 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS normal y la mayoría de las distribuciones más utilizadas, incluyendo varias distribuciones no simétricas, como casos especiales (ver capítulo 4). Relacionado con el procedimiento de modelación de las curvas de frecuencias de ajuste de la familia Pearson a los datos observados es la tercera contribución importante de Pearson, la prueba de chi cuadrado para evaluar la bondad de ajuste como parte de su estrategia de modelación; véase Pearson (1900). Esta prueba constituye la primera prueba de errores de especi…cación (ver capítulo 15), que tuvo un impacto crucial en el desarrollo de la inferencia estadística en el siglo 20. Pearson es el más conocido por los cientí…cos sociales con algún interés en estadística por esta prueba que por cualquiera de sus otras contribuciones. La cuarta contribución importante de Pearson fue la formalización y extensión de la regresión y la correlación de distribuciones bivariadas a multivariadas; véase Pearson (1896,1901,1902,1903,1904). Las fórmulas modernas para los coe…cientes de correlación y regresión son en gran parte debidas a Pearson. En relación con estas fórmulas también debemos mencionar a Yule (1895-96,1896) que fue el primer alumno de Pearson, y más tarde su ayudante; en sus publicaciones él le da todo el crédito a este maestro. Las extensiones de correlación y regresión incluyen no sólo la correlación múltiple, sino también la correlación parcial. Es interesante notar que Pearson fue también el primero en advertir el modelador del problema de correlación espuria en el caso de las variables medidas como razones con denominadores comunes y / o numeradores (véase Pearson (1897)). La quinta, y posiblemente la menos in‡uyente de sus aportaciones, es su extensión de la regresión y las funciones momento condicional de orden superior a distribuciones conjuntas no Normales; véase Pearson (1905,1906,1920,1923 a-b, 1924,1925). Pearson fue el primero en apreciar la generalidad del concepto de regresión y procedió a argumentar que el concepto se aplica a todas las distribuciones conjuntas cuyos dos primeros momentos existen. Él conjetura que la linealidad y la homocedasticidad están inextricablemente ligados con el supuesto de normalidad conjunta e instó a los modeladores a explorar distribuciones conjuntas no simétricas. La investigación conjunta de Pearson con Weldon sobre poblaciones de cangrejos le llevó a las distribuciones no simétricas y conjeturó que la curva de regresión es poco probable que sea lineal y homoscedástica en estos casos. Sin embargo, Pearson no podría ofrecer ejemplos concretos de otras formas funcionales de las curvas de regresión, porque no había otras distribuciones de dos variables en ese tiempo. Desafortunadamente, antes de tales distribuciones estuvieran ampliamente 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 365 disponibles su propuesta fue superada por ciertos acontecimientos cruciales. En un artículo seminal Yule (1897) fue más allá de Galton y de Pearson y propuso una relación directa entre la regresión de Galton y la relación lineal entre dos variables como sugiere la tradición de la teoría de los errores (mínimos cuadrados): Yt = 0 + 1 xt + "t , "t ~IID 0; 2 , t = 1; 2; ::::; T . Luego pasó a señalar que: (a) (7.58) se puede estimar mediante el método de mínimos cuadrados (véase el capítulo 13) y (b) el supuesto de normalidad no juega ningún papel en la estimación. Él procedió a argumentar en favor del uso de los mínimos cuadrados para aproximar una línea de regresión, incluso en los casos en que la línea imaginaria a través de la grá…ca" no es del todo una línea recta" (Yule (1897), p. 817). Karl Pearson se opuso de inmediato a la generalidad aparente de Yule y argumentó a favor de mantener la normalidad de la distribución conjunta para propósitos de especi…cación: Pearson quería empezar con una super…cie de frecuencia y, si una línea de regresión se buscaba, encontrar esa línea apropiada a la super…cie. Si la super…cie sigue la ley normal, entonces se podría aceptar el camino de las líneas rectas de ajuste por mínimos cuadrados. Pero, "¿ pero, por qué no debería otra ley incluso de frecuencia simétrica conducir a las p-ésimas potencias de los residuos siendo mínimos? "... (Stigler (1986), p. 352)?" ... (Stigler (1986), p. 352) Desafortunadamente para la estadística Pearson fue mucho menos persuasivo que Yule y como resultado, el modelo de regresión lineal se confunde a menudo con un número de diferentes modelos lineales, como el modelo lineal de Gauss (ver Spanos (1986,1999)). La convicción de Pearson no tuvo impacto en la estadística porque sus esfuerzos por generar distribuciones bivaridas no simétricas a través de un par de ecuaciones diferenciales parciales estuvo en gran parte sin éxito hasta la década de 1930 (véase el capítulo 6 y Mardia (1970). El principal obstáculo fue la disponibilidad de distribuciones conjuntas cuyas funciones momento condicional pudieran derivarse analíticamente y luego usadas para especi…car modelos de regresión. Los intentos parcialmente exitosos por Pretorius (1930) y después por Van Uven (1947a, b, 48a,b) tuvieron muy poco impacto debido a que en los 1930 el éxito de 366 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Yule fue completo . Desde el punto de vista de la regresión, los resultados de Van Uven (véase el capítulo 6) son interesantes en la medida en que las distribuciones condicionales implícitas en las ecuaciones diferenciales parciales restringidas pertenecen a la familia Pearson en el sentido de que cumplen la relación general: g1 (x; y) @Inf (yjx) = @y g2 (x; y) El grado de éxito de Yule era tal que incluso el éxito anterior de Narumi (1923a, b), que invierte el procedimiento especi…cando las funciones de regresión y cedástica y luego procede a derivar la distribución conjunta, pasó desapercibido. Los resultados de Narumi son de interés en el contexto actual y se resumen para …nes de referencia; para más detalles vea la Mardia (1970). El impacto de Yule, puede ser parcialmente explicado por el hecho de que él escribió el primer libro de texto ampliamente utilizado en estadística (ver Yule (1911)). Motivado por la relación: f (x; y; ) = f (yjx; '2 ) fX (x; '1 ) , para todo (x; y) 2 RX RY . la función de densidad bivariada de Narumi toma la forma restringida: f (x; y) = 1 (x) '1 y h1 (x) g1 (x) , f (y; x) = 2 (y) '2 x h2 (y) g2 (y) . Esta distribución bivariada está restringida poque pertenece a la familia de distribuciones localización-escala. Las densidades condicionales tienen la forma: f (yjx) = c1 '1 y h1 (x) g1 (x) , f (xjy) = c2 '2 x h2 (y) g2 (y) , donde c1 y c2 son dos constantes de normalización. Aunque Narumi exploró varios casos mediante la especi…cación de la forma funcional de las funciones de regresión y cedástica, los más interesantes desde nuestro punto de vista son los siguientes. 1. Regresión lineal y varianza condicional homocedástica. Postulando: 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 2 (yjx) = (yjx) = 0 + 1 x, 2 2 (xjy) 1, (xjy) = = 22 , 0 + 367 1 x, derivó densidades condicional y marginal que resultaron ser Normales, produciendo una distribución Normal bivariada. Regresión lineal y varianza condicional heterscedástica (lineal). Al postular 2 (yjx) = 0 + 1 x, (xjy) = 0 + 1 x, (yjx) = a1 + x, 2 (xjy) = a2 + y, deriva una densidad conjunta de la forma general: f (x; y) = c0 ( x + ) 1 ( y + ) 2 (ax + by + c) 3 . Esta distribución conjunta incluye las distribuciones Beta bivariada, Pareto y la F (véase el apéndice B) como casos especiales. Al restringir la varianza condicional de Y dado X a ser: 2 (yjx) = a1 , Narumi deriva la densidad de dos variables: f (x; y) = c0 ( x + ) 1 e 2y (ax + by + c) 3 , que incluye la distribución Gamma (McKay) (véase el apéndice B) como un caso especial. Regresión lineal y varianza heterocedástica condicional (parabólica). Al postular (yjx) = + 1 x, (xjy) = 0 + 1 x, p0 p 2 a1 + x2 , (xjy) = a2 + y 2 , (yjx) = muestra que la densidad conjunta toma la forma general: f (x; y) = c0 ax2 + by 2 + 2 1 xy + 2 2 x + 2 3 y + c m . 368 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Esta distribución conjunta incluye las distribución bivariada de Cauchy, la t Student y la Pearson tipo II (véase el apéndice B) como casos especiales. NOTA: el lector perspicaz habría dado cuenta de la conexión entre los resultados de Narumi y de Van Uven (véase el capítulo 6). Un siglo después del primer intento fallido de Pearson para generar distribuciones conjuntas podemos ahora argumentar que Pearson estaba en lo cierto desde el principio. La sección 2 anterior se puede interpretar como prueba de la tesis de Pearson presentando varios modelos de regresión asociados con diferentes distribuciones bivariadas. En efecto, si la sugerencia de Yule se sigue cuando se estiman modelos de regresión, tal como la asociada a la distribución exponencial bivariada, el resultado es probable que esté lejos de su objetivo! En la subsección siguiente regresamos a la estrategia de modelación de Pearson. 6.6.3 Revisando la estrategia de modelación de Pearson Desde el punto de vista de la modelación empírica, la estrategia de modelación de Pearson (véase Pearson (1905, 1923a, b, 1924,1925)) tiene perfectamente buen sentido y proporciona el fundamento para el planteamiento adoptado en este libro. La aproximación de Galton a la regresión lineal/Normal se puede extender fácilmente a algunos otros modelos de regresión como se discute en la sección 2. En el capítulo 6 consideramos la cuestión de utilizar los diagramas de dispersión con el …n de tener una idea de la naturaleza de la densidad bivariada por suavizamiento del estereograma (histograma bivariado). Esto es simplemente una versión moderna del procedimiento de Galton como se describio anteriormente. La super…cie suavizada del estereograma (véase el capítulo 6) da al modelador ideas en cuanto a la distribución bivariada más acorde, y esta información se puede utilizar con el …n de postular el modelo de regresión adecuado. Para ilustrar la relación entre la densidad bivariada y las curvas de regresión volvamos a las distribuciones bivariadas en el capítulo 6. En las …guras 7.22-7.23 podemos ver la densidad bivariada F con := (12; 8; 8) y los contornos de equiprobabilidad correspondientes que son claramente no elípticos y asimétricos. La relación entre la distribución conjunta y la línea de regresión se puede ver en la …gura 7.23 que tiene una cierta a…nidad con la de la distribución conjunta Normal en la …gura 7.21, pero también hay 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 369 una diferencia obvia. Las líneas de regresión Normales y F son similares en tanto que el signo del coe…ciente de correlación determina su pendiente, pero di…eren en la medida en cuanto que este último no pasa por la moda de la densidad bivariada. Además, no existe una relación evidente simple entre la pendiente de los contornos en los puntos de intersección con la línea de regresión como señaló Galton en el caso de la densidad Normal bivariada. NOTE que el coe…ciente de correlación en las …guras 7.22 a 7.23 es = 0:444. Figura 7.22. Bivariada F (23,8,8) la densidad de la super…cie. Figura 7.23. Bivariada F (12,8,8) contornos y línea de regresión. En las …guras 7.24-7.25 podemos ver las misma grá…cas en el caso en que la correlación entre las variables aleatorias (X; Y ) es bastante alta ( = 0:953). Como podemos ver la línea de regresión está mucho más cerca a (pero no 370 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS coincide con) el eje principal de los contornos elípticos casi simétricos. Al igual que en el caso de la distribución normal, aumentando el coe…ciente de correlación tiene el efecto de aplastar los contornos. Figura 7.24. Bivariada F (5,60,60) la densidad de la super…cie. Figura 7.25. Bivariada F (5,60,60) contornos y la línea de regresión. La conexión entre el coe…ciente de correlación y la recta de regresión se hace más clara en las …guras 7.26-7.27 donde la correlación entre las variables aleatorias (X; Y ) es baja ( = 0:035), con…rmando la relación directa entre el coe…ciente de correlación y la pendiente de la línea de regresión. Figura 7.26. Bivariada F (80,4,1) la densidad de la super…cie. 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 371 372 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS Figura 7.27. Bivariada F (80,4,1) contornos y la línea de regresión. En las …guras 7.28-7.29 podemos ver la densidad Gamma bivariada (Cherian) (2,3,4) y los contornos correspondientes con la línea de regresión insertada, respectivamente. Como podemos ver, la Gamma bivariada es muy similar a la distribución F, pero con una forma diferente de asimetría. La línea de regresión es similar a las líneas de regresión Normal y F en la medida en que están directamente relacionadas con el coe…ciente de correlación. Este es el resultado general que se deriva en la sección 3 anterior que dice que en el caso de regresiones lineales, la línea toma la forma: E (Y j (X)) = E (Y ) Cov (X; Y ) [X V ar (X) E (X)] . (7.61) En las …guras 7.30-7.31 podemos ver la densidad versión Beta bivariada (3,3,6) y la densidad de los contornos correspondientes con la línea de regresión insertda, respectivamente. Una vez más, la asimetría mostrada por los contornos es muy diferente tanto de la distribución F como de la Gamma bivariada. Como se muestra en el apéndice B, esta forma de la distribución Beta bivariada sólo permite correlación negativa y por lo tanto la línea de regresión, también de la forma general (7.61), sólo puede tener pendiente negativa. Figura 7.30. Beta bivarida (3,3,6). Super…cie de la densidad. Figura 7.31. Beta bivarida (3,3,6) contornos y línea de regresión. 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 373 En un intento por evitar la impresión errónea de que "las curvas de regresión son normalmente las líneas rectas" presentamos dos distribuciones bivariadas con funciones de regresión no lineales. En las …guras 7.32 a 7.33 podemos ver la densidad bivariada Exponencial y los contornos correspondientes con la curva de regresión insertada, respectivamente. Una vez más notamos la aparente falta de conexión entre la pendiente de los contornos y la curva de regresión en los puntos de intersección. La forma de las funciones de regresión para esta y las otras distribuciones discutidas anteriormente fueron señaladas en la sección 2 anterior. Figura 7.32. Bivariada Exponencial ( = 1) densidad de la super…cie. Figura 7.33. Exponencial bivariada ( = 1) contornos y curva de regresión. 374 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS En las …guras 7.34 y 7.35 podemos ver la densidad logística bivariada (estándar) la y los correspondientes contornos con la curva de regresión insertada, respectivamente. Figura 7.34. Super…cie de la densidad logística bivariada. Figura 7.35. Logística bivariada contornos y línea de regresión. Una comparación entre las …guras 7.35 y 7.29 sugiere que decidir si la regresión es lineal o no lineal con sólo mirar el diagrama de dispersión puede ser peligroso! Una mejor estrategia de modelación será evaluar los contornos del estereograma suavizado (véase el capítulo 6) antes tomar cualquier decisión relativa a la naturaleza de la función de regresión. De hecho, la estrategia de modelación de Pearson puede ser la mejor elección: primero decidir sobre la 6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 375 distribución conjunta (utilizando los contornos del estereograma suavizado) y luego proceder a la regresión y otras funciones momento condicional; véase Pearson (1905,1920,1923 a-b, 1924,1925 ). Esta estrategia puede ser complementada por la regresión suavizada de kernel no paramétrico discutido a continuación a …n de evaluar la idoneidad de la distribución conjunta postulada. 6.6.4 Kernel suavizado y regresión Las técnicas de kernel suavizado introducidas en los capítulos 5-6 se pueden utilizar para proporcionar al modelador una ayuda visual para decidir sobre la idoneidad del modelo de regresión postulado. La idea básica es utilizar la información transmitida por el diagrama de dispersión para evaluar una curva de regresión no paramétrica directamente. Como se ha dicho anteriormente, la función de regresión se de…ne por: Z E (Y jX = x) = y f (yjx) dy = h (x) , x 2 RX . y2RY Sustituyendo f (yjx) = f (x;y) fX (x) E (Y jX = x) = Z en esta de…nición resulta: y2RY y f (x; y) dy = h (x) , x 2 RX . fX (x) A partir de esta relación podemos observar que el modelador puede obtener una evaluación no paramétrica de la curva de regresión a partir del histograma suavizado (véase el capítulo 5) y estereograma (véase el capítulo 6), 376 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS que representan los equivalentes empíricos de las densidades fX (x) y f (x; y), respectivamente: 1 Xn xk x Kx ; hx > 0 k=1 nhx hx yk y 1 Xn xk x Ky fb(x; y) = Kx k=1 nhx hy hx hy fbX (x) = ; hx > 0; hy > 0, donde ambos kernels Z satisfacen las propiedades: [a] K (z) 0, [b] K (z) dz = 1. z2RZ La función de regresión puede ser evaluada empíricamente a través de: b =x E Y jX Z = f (x; y) dy fX (x) y y2RY Xn k=1 Xn = Xn = Kx k=1 k=1 xk x hx yk xk x hx Kx (7.62) wk yk , x 2 RX . donde las ponderaciones la forma: Kx wk = Xn k=1 xk x hx Kx xk x hx . El lado derecho de (7.62) se deduce del hecho de que: Z Z KY (y) dy = 1 y y KY (y) dy = 0. y2RY y2RY El evaluador no paramétrico de la función de regresión en (7.62) se conoce como el "estimador" Nadaraya-Watson. Para más so…sticados evaluadores de la función de regresión basado en técnicas de suavizado de kernel y otros ver Hardle (1990). Intuitivamente, las anteriores curvas suavizadas de regresión equivalen a tomar una media ponderada (siendo los pesos wk , k = 1; 2; :::; n) de todos los 6.7. RESUMEN 377 puntos (xk ; yi ) en el intervalo (xk hx ) cuando k varía sobre todos los valores de X. En la …gura 7.36 podemos ver un intervalo de este tipo (0:6 0:1) dentro del cual varios puntos se promediarán verticalmente para reducirlos a un punto. En este libro consideramos el anterior evaluador no paramétrico de la función de regresión no como un sustituto de la estrategia de modelación expuesta anteriormente, sino como un complemento de la evaluación de la idoneidad del modelo de regresión postulado. Esto se debe a que el evaluador de la regresión suavizada hace caso omiso de las otras funciones condicionales momento. Por el contrario, postulando una distribución bivariada permite al modelador derivar las funciones momento condicional de orden superior. Como hemos visto en la sección 2 anterior, la mayoría de las distribuciones bivariadas dan lugar a funciones de varianza condicional heterocedástica. Por lo tanto, el mejor uso de la regresión suavizada es para el modelador superponer la curva de regresión teórica (que corresponde a la distribución bivariada postulada) y la curva de regresión empírica no paramétrica en un diagrama de dispersión para evaluar visualmente lo adecuado de la primera. Para otros usos de tales evaluadores no paramétricos véase el capítulo 15. 6.7 Resumen El principal objetivo de los anteriores tres últimos capítulos ha sido la extensión del modelo estadístico simple, construido sobre el concepto de muestra aleatoria, hacia modelos más realistas que pueden acoger alguna dependencia y / o heterogeneidad. Después de haber argumentado que la mejor manera de modelar la dependencia y la heterogeneidad es a través de distribuciones conjuntas, se procedió a encontrar formas de lidiar con los problemas de la multidimensionalidad y sobreparametrización derivados de tales distribuciones. En el capítulo 6, además de desarrollar una serie de conceptos de dependencia, se mostró que la condicionalidad secuencial proporciona una manera más e…caz de lidiar con el problema de la dimensionalidad planeado por las distribuciones conjuntas. Cualquier distribución conjunta se puede reducir a un producto de distribuciones condicionales univariadas. Sin embargo, este producto a menudo representa una familia in…nita de densidades cuya información no puede ser modelada utilizando los momentos condicionales ordinarios. El objetivo principal de este capítulo ha sido el desarrollo del concepto de función estocástica momento condicional. Estas funciones 378 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS se de…nen en términos de los momentos condicional, pero se consideran funciones de las variables condicionantes. Las funciones condicional momento más conocidas son las funciones de regresión y cedástica. Otro de los objetivos de este capítulo ha sido mostrar que las funciones momento condicional (regresión, cedástica, clítica y curtica) pueden ser integradas en la especi…cación de modelos estadísticos mediante la introducción de un componente adicional, el mecanismo generador estadístico (MG). El MG estadístico tendrá un papel importante en la estimación y en la etapa de identi…cación: relacionando un modelo estadístico a un modelo teórico. El enfoque propuesto en este capítulo para modelar la dependencia / heterogeneidad utilizando modelos de regresión general se remonta a la tradición biométrica fundada por Galton, formalizada y ampliada por Karl Pearson (y hasta cierto punto Yule) y transformada en la estadística moderna por Fisher (véanse los capítulos 11-15). Nuestro interés en la tradición biométrica se ha restringido a su dimensión de modelación empírica y no se ha hecho referencia a su relación con el tema de la Biología; para esto ver a MacKenzie (1981) y Kevles (1985). Sin embargo, es importante mencionar la lección fundamental que se aprendió del fracaso de la tradición biométrica para dar lugar a la biología estadística, como fue originalmente pensado por Karl Pearson. La lección es que los modelos estadísticos por sí solos proporcionan una descripción y no una explicación. Para esto último necesitamos sintetizar modelos estadísticos empíricamente adecuados con los modelos teóricos (ver capítulo 1). Cuando Fisher (1930) sintetiza la tradición estadística biométrica con la teoría de la herencia de Mendel, el híbrido resultó ser un gran éxito! La demanda de Fisher a la fama no es sólo como el padre de la estadística moderna, sino también como una …gura importante en la genética del siglo 20; véase MacKenzie (1981). 6.8 Ejercicios 1. Explique cómo la noción de condicionamiento nos permite tratar con el problema de la dimensionalidad planeatdo por las distribuciones conjuntas de las muestras. 2. Explique por qué en la reducción f (x; y) = f (yjx) fx (x), usando momentos condicionales para los propósitos de la modelación, plantea un problema en relación con x 2 RX . 3. Considere la distribución conjunta dada enseguida: 6.8. EJERCICIOS xny -1 0 1 fY (y) 1 0.10 0.15 0.02 0.45 379 2 0.08 0.06 0.20 0.34 3 0.02 0.09 0.10 0.21 fx (x) 0.2 0.3 0.5 1 (a) Deduzca las distribuciones condicionales de (Y jX = x) para todos los valores de la variable aleatoria X. (b) Derive la regresión y funciones cedásticas de las distribuciones en (a). 4. Sea la función de densidad conjunta de dos variables aleatorias X e Y: xny 0 1 2 0 0.1 0.2 0.2 1 0.2 0.1 0.2 (a) Derive los siguientes momentos condicionales: E(Y jX = 1), V ar(Y jX = 1), Ef[Y E(Y jX = 1)]3 jX = 1g. (b) Veri…que las igualdades: (i) V ar(Y jX = 1) = E(Y 2 jX = 1) fE[Y jX = 1]g2 . (ii) E(Y ) = EfE(Y jX)g. (iii) * V ar(Y ) = EfV ar(Y jX)g + V arfE(Y jX)g. 5. Compare y contraste los conceptos E[Y jX = X] y E[Y j (X)]. 6. De…na y explique los siguientes conceptos: (a) Funciones condicionales momento, (b) función de regresión, (c) función Cedástica, (d) homoscedasticidad, (e) heterocedasticidad. 7. De las distribuciones de dos variables del capítulo 7, recoger las funciones de regresión que son lineales y las funciones cedásticas que son homoscedásticas. 8. Explique el concepto de regresión lineal. Explique la diferencia entre la linealidad en x y la linealidad en los parámetros. 9. Considere la distribución normal conjunta representada por: Y X ~N 1 2 ; 11 12 21 22 . (a) Para los valores 1 = 1, 2 = 1:5, 11 = 1; 12 = 0:8, 22 = 2, gra…que la esperanza condicional E (Y jX = x) y la varianza condicional V ar (Y jX = x) para x = 0; 1; 2. 380 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS b) Gra…que E (Y jX = x) y V ar (Y jX = x) para x = 0; 1; 2, para una distribución t de Student bivariada, cuyos momentos toman los mismos valores que los indicados en (a) para v = 3; 5; 7. (c) Exprese las distribuciones marginales de Y y X. 10. Explique el concepto de función estocástica momento condicional.¿Porqué nos importa? 11. Explique el concepto de exogenedad débil. ¿Porqué nos importa? 12. Explique el concepto de mecanismo generador estadístico. ¿Porqué lo necesitamos? 13. Sea Y una variable aleatoria y de…na el término de error por: u = Y E (Y j (X)). Muestre que, por de…nición, esta variable aleatoria cumple las siguientes propiedades: [i] E (uj (X)) = 0, [ii] E (u Xj (X)) = 0, [iii] E (u) = 0, [iv] E fu [E (Y j (X))] j (X)g = 0. 14 Explique la diferencia entre dependencia temporal y contemporánea. 15 Compare y contraste el MG estadístico de: (a) el modelo Normal simple, (b) el modelo de regresión lineal /Normal, y (c) el modelo lineal/autorregresivo Normal. 16. Compare y contraste los modelos de regresión Normal simple y lineal/Normal en términos de sus modelos de probabilidad y muestral. 17 Compare y contraste los modelos de regresión lineal/Normal y t de Student en términos de sus modelos de probabilidad y muestral. 18 Explique la estrategia de Karl Pearson en la postulación de modelos de regresión. 19 "El argumento de que, observando las exposiciones grá…cas de distribuciones bivariadas y la grá…ca de contorno asociada a la curva de regresión, es muy engañoso cuando se tienen m > 2 variables, es equivalente a decirle a los astrónomos que abandonen sus telescopios, ya que sólo pueden ver dos por ciento del universo a lo más". Discuta. Capítulo 7 Procesos estocásticos 7.1 introducción En el capítulo 6 nos propusimos ampliar el alcance previsto del modelo estadístico simple basado en el concepto de muestra aleatoria (un conjunto de (X1 ; X2 ; :::; Xn ) variables aleatorias independientes e idénticamente distribuidas (IID)) para incluir fenómenos estocásticos que no pueden ser considerados como realizaciones de muestras aleatorias. En este capítulo analizamos el concepto de dependencia en general. El problema de la modelización de la dependencia se prosiguió en el capítulo 7, donde llegamos a la conclusión de que una forma e…caz de abordar las cuestiones planteadas por la modelización fue través de las distribuciones condicionales y, en particular, a través de las funciones condicionales momento estocásticas. La discusión en ambos capítulos se limito al caso de dos variables con el …n de eludir algunos problemas adicionales planteados por el caso general. El objetivo principal de este capítulo es regresar al caso general de n variables y unir los cabos sueltos. El concepto básico requerido es el de proceso estocástico que extiende el concepto de variable aleatoria. 7.1.1 La historia hasta ahora Como se muestra en los capítulos 6 y 7, el cali…cativo simple en un modelo estadístico simple proviene del hecho de que el supuesto de muestra aleatoria simpli…ca considerablemente el análisis; la distribución conjunta de la muestra es reducida a un producto distribuciones marginales univariadas 381 382 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS (idénticas)1 : I f (x1 ; x2 ; :::; xn ; ) = n Y fk (xk ; k) IID = k=1 n Y k=1 f (xk ; ) ; para todo x := (x1 ; x2 ; :::; xn ) 2 RnX : (8.1) Como se muestra en el capítulo 6, en el caso de una muestra no aleatoria la correspondiente reducción basada en el condicionamiento secuencial toma la forma: f (x1 ; x2 ; :::; xn ; ) no IID = f1 (x1 ; 1) n Y k=2 fk (xk j xk 1 ; :::; x1 ; k ) ; 8x 2 RnX : (8.2) Al comparar las dos reducciones (8.1) y (8.2) podemos ver que la clave para la modelización de la no aleatoriedad se presenta en la forma de distribuciones condicionales. En efecto, de la discusión preliminar del problema de medir la dependencia en el capítulo 6 concluimos que la vía más prometedora se presenta en forma de momentos condicionales. En el capítulo 7, sin embargo, se hizo evidente que los momentos condicionales no podíaa hacer el trabajo porque para cada k: fk (xk jxk 1 ; :::; x1 ; k ) ; (xk 1 ; :::; x1 ) 2 RkX 1 : (8.3) representa una colección completa de funciones de densidad; una para cada valor posible en RkX 1 , cada una con sus propios momentos condicionales. La solución a este problema viene bajo la forma de funciones condicionales momento, tales como la función de regresión y cedástica. Incluso estas funciones, sin embargo, no son su…cientes para hacer frente al problema, ya que ignoran la estructura probabilística de la variable condicionante. En el capítulo 7 extendemos las funciones condicionales momento para tener en cuenta la estructura probabilística de las variables condicionantes en forma de funciones estocásticas condicionales momento. A lo largo de la discusión en los dos capítulos anteriores nos hemos concentrado en el caso simple de dos variables: 1 En el libro de Spanos (1999), la expresión 8.1 en lugar de la primera igualdad aparece sólo I y en lugar de la segunda aparece III. 7.1. INTRODUCCIÓN f (x; y; ) = f (yjx; '2 ) fx (xj; '1 ) ; para todo (x; y) 2 RX 383 RY : (8.4) por una razón muy buena: esquivar dos problemas interrelacionados que surgen en el contexto de las distribuciones condicionales secuenciales (8.3): (i) El conjunto de información condicionante cambiante: el número de cambios en las variables condicionantes con el índice en el sentido de que el número de variables condicionantes que intervienen en (xk jxk 1 ; :::; x1 ; k ) cambia con k = 2; 3; :::; n, haciendo estas densidades diferentes, por ejemplo para el n = 5: f2 (x2 jx1 ; 2 ) f3 (x3 jx2 ; x1 ; 3 ) f4 (x4 jx3 ; x2 ; x1 ; 4 ) f5 (x5 jx4 ; x3 ; x2 ; x1 ; 5 ) : ii) La heterogeneidad inherente: además del hecho de que las densidades condicionales puede ser diferentes para cada k (fk (:j:) ; k = 1; 2; :::; n), existe también el problema de la heterogeneidad introducida por el cambiante conjunto de información condicionante. Con el …n de motivar la discusión que sigue, vamos a proceder a aplicar las soluciones propuestas en el capítulo 7 para el caso general (8.3). En particular, vamos a considerar los conceptos de funciones condicionales momento en el caso de la secuencia de densidades condicionales (8.3). Lo primero que se hace evidente observando estas densidades es que no podemos utilizar las funciones ordinarias condicionadas momento debido a que las densidades marginales son sin duda relevantes.Con la excepción de las últimas Xn variables aleatorias, las otras aparecen a ambos lados del condicionamiento. Por lo tanto, debemos tener en cuenta las funciones estocásticas condicionales momento. Las dos primeras funciones estocásticas condicionales momento, conocidas como funciones autorregresivas y autocedásticas, toman la forma general: E (Xk j (Xk 1 ; :::; X1 )) = hk (Xk 1 ; :::; X1 ) ; k = 2; 3; :::; n V ar (Xk j (Xk 1 ; :::; X1 )) = gk (Xk 1 ; :::; X1 ) ; k = 2; 3; :::; n (8.5) Un vistazo a (8.5) revela que esas no producen modelos operativos, porque ellas cambian con el índice k. Esto indica que sin algunas restricciones 384 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS sobre la dependencia y la heterogeneidad del conjunto de variables aleatorias (X1 ; X2 ; :::; Xn ), no surgen modelos operativos a través de los momentos condicionales estocásticos; el problema de la imposición de tales restricciones se llevará a cabo en este capítulo. 7.1.2 Variables aleatorias y ordenamiento En el caso de una muestra aleatoria (X1 ; X2 ; :::; Xn ), el ordenamiento de las variables aleatorias involucradas, aunque se especi…ca, es irrelevante debido a que las variables aleatorias son réplicas de cada una y no podemos distinguir entre, por ejemplo X1 y X3 , incluso si quisiéramos, a menos que la realización de estos valores se lleve a cabo en sucesivos momentos y su orden se tome en cuenta. Esto es evidente en (8.1), porque cualquier reorganización de la secuencia no hará ninguna diferencia en el lado derecho. En contraste con esto, en el caso de una muestra no aleatoria la reducción de (8.2) hace perfectamente claro que el orden es muy importante. El concepto de variable aleatoria X (ver capítulo 3) de…nida en un espacio de probabilidad (S; =; P (:)), (donde S denota el conjunto de resultados, = el conjunto apropiado de eventos de interés y P (:) una función conjunto de probabilidad), como una función de la forma: X (:) : S ! R tal que X 1 ( 1; x] 2 = es, básicamente, adimensional y no puede ser dotado de dependencia y heterogeneidad. En nuestro intento de de…nir el concepto de muestra no aleatoria necesitamos dotar al concepto de variable aleatoria con dependencia y heterogeneidad. Ambos conceptos se de…nen en relación con algún ordenamiento de las variables aleatorias involucradas. Esto hace que debamos dotar al concepto de variable aleatoria de una dimensión (un índice) que representa a este ordenamiento y representa a menudo tiempo, posición, espacio, etc. La sucesión indexada de variables aleatorias fX1 ; X2 ; :::; Xn g, llamada proceso estocástico, es la extensión requerida. El lector perspicaz habrá notado que el concepto de proceso estocástico fue implícitamente utilizado en los tres capítulos anteriores, cuando la muestra fue especi…cada. 7.1.3 Una vista panorámica del capítulo El objetivo principal de este capítulo es de…nir y explicar el concepto de proceso estocástico y las restricciones relacionadas de dependencia y hetero- 7.1. INTRODUCCIÓN 385 geneidad, necesarias para especi…car modelos estadísticos operacionales que se pueden utilizar para la modelización de datos no IID. La discusión de los procesos estocásticos puede llegar a ser una de las partes más enmarañadas y confusas de la teoría de la probabilidad, debido principalmente a los numerosos tipos de procesos estocásticos traslapados que uno encuentra. Las di…cultades de dominar el material se mitigan cuando la discusión se estructura de una manera que hace que sea más fácil comparar y contrastar los distintos procesos estocásticos. En un intento por mitigar la confusión para los no iniciados utilizamos las siguientes ayudas de aprendizaje: i) Comenzamos la discusión con una breve reseña de los primeros desarrollos en procesos estocásticos. Esto se hace para aminorar el problema de introducir demasiados conceptos muy rápidamente y establecer cierta terminología básica. (ii) La estructura probabilística de procesos estocásticos se discute en relación con las tres categorías básicas de supuestos probabilísticos: (D)Distribución, (M)Dependencia, (H)Homogeneidad. ((8.6)) Esto hace la comparación entre los diferentes procesos mucho más clara y más intuitiva. (iii) Utilizamos varias taxonomías de procesos estocásticos, comenzando la discusión con la distinción discreto / continuo. (iv) En vista del hecho de que la mayoría de los procesos estocásticos se especi…can indirectamente como funciones de otros procesos estocásticos (a menudo más simples), hacemos hincapié en la distinción entre los puntos de vista distrbucional y constructivista. En la sección 2 de…nimos el concepto de proceso estocástico y discutimos su estructura básica. En la sección 3, consideramos brevemente los primeros desarrollos de algunos de los procesos estocásticos más importantes y las asociadas restricciones de dependencia y heterogeneidad. Una discusión más completa de las restricciones de dependencia y heterogeneidad de los procesos estocásticos se da en las secciones 4 y 5, respectivamente. Se hace hincapié en la distinción entre los enfoques distribucional y construccionista a la especi…cación de los procesos estocásticos; la primera se re…ere a la especi…cación a través de la distribución conjunta de un número …nito de elementos del proceso y la segunda a la especi…cación de un proceso estocástico a través de una función de otro proceso (a menudo más simple). La 386 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS sección 6 se presentan algunos de los procesos estocásticos utilizados como bloques de construcción para la construcción de tales procesos. Las principales categorías de procesos estocásticos, procesos Markov, procesos de caminata aleatoria, procesos martingala, procesos de Gaussianos y procesos Punto, se discuten en las secciones 7-11. En relación con la especi…cación de un proceso estocástico, concluimos el problema de la especi…cación de modelos estadísticos operativos mediante la imposición de restricciones de dependencia y heterogeneidad en la sección 10. 7.2 7.2.1 El concepto de proceso estocástico De…nición de un proceso estocástico Un proceso estocástico es simplemente una colección indexada de variables aleatorias fXt ; t 2 T g de…nidas en el mismo espacio de probabilidad (S; =; P (:)), es decir, Xt es una variable aleatoria en relación a (S; =; P (:)), para cada t en el conjunto índice T . Ejemplo El número de llamadas telefónicas llegando a una central telefónica en el intervalo [0; t] se puede modelar usando una secuencia indexada de variables aleatorias, donde Xt mide el número de llamadas hasta el momento t; sus valores posibles son: 0; 1; 2; 3; ::: Recordando que una variable aleatoria X es una función del conjunto de resultados S a la línea real R, observamos que un proceso estocástico es una función con dos argumentos: X (:; :) : S T ! R: Una notación más atenta de un proceso estocástico es: fX (s; t) ; s 2 S; t 2 T g : Teniendo en cuenta los dos argumentos, podemos considerar un proceso estocástico a partir de dos diferentes pero interrelacionados entre sí ángulos de visión. (i) El ángulo de visión variable aleatoria. Para un determinado t = t, X s; t ; s 2 S : X :; t : S ! R, 7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 387 es una variable aleatoria ordinaria respecto a (S; =; P (:)) con sus propias funciones de distribución y densidad, como antes. Para un determinado subconjunto de T , por ejemplo ft1 ; t2 ; :::; tn g, fX (:; t1 ) ; X (:; t2 ) ; :::; X (:; tn )g es simplemente una colección de variables aleatorias, similar a la que usamos para de…nir el concepto de muestra en los capítulos anteriores. La estructura probabilística de esta colección está completamente descrita por su distribución conjunta acumulada o por su función de densidad conjunta f (x (t1 ) ; x (t2 ) ; :::; x (tn )). (ii) El ángulo de visión funcional. Para un determinado s = s, fX (s; t) ; t 2 T g: X (s; :) : T ! R, es solo una función ordinaria de T a R. La grá…ca de esta función se llama a menudo trayectoria muestral (o realización muestral), porque ésta es la característica del proceso estocástico que a menudo asociamos con los datos observados. En las …guras 8.1 y 8.2 podemos ver las trayectorias muestrales de un proceso estocástico discreto y continuo, respectivamente. Figura 8.1. Una trayectoria muestral discreta 388 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS Figura 8.2. Una trayectoria muestral continua Permitiendo que s cambie (siempre dentro de S) y tomando los valores, por ejemplo fs1 ; s2 ; s2 ; :::; sk g, las funciones fX (s1 ; :) ; X (s2 ; :) ; :::; X (sk ; :)g, t 2 T , de…nen una colección de diferentes trayectorias muestrales, que se llama un ensamble. La estructura matemática del ensamble también desempeña un papel importante en la formalización del concepto de proceso estocástico. NOTAS: (a) Es importante destacar en esta etapa que es una práctica común conectar los puntos de un trayectoria muestral de un proceso discreto. Esto sugiere una cierta precaución cuando se observan grá…cas para evitar confundir un proceso discreto con uno continuo, debido a que uno observa una trayectoria muestral continua (ver …gura 8.2). (b) A menudo no se puede resistir la tentación de interpretar a t como el tiempo por conveniencia, pero fácilmente podría haber alguna otra dimensión que nos interese, como el espacio y la posición geográ…ca, siempre y cuando el conjunto índice para la dimensión particular esté ordenado. (c) El índice t puede fácilmente ser multidimensional en el sentido de que el proceso estocástico fXt ; t 2 R3 g podría representar la velocidad de una partícula suspendida en un líquido con t siendo su posición en el espacio euclidiano tridimensional. (d) El proceso estocástico fXt ; t 2 T g se puede extender fácilmente al caso en que Xt es un vector k 1 de variables aleatorias k31: Xt = (X1t ; X2t ; :::; Xkt )T . Desde el punto de vista de la modelización hay una diferencia muy importante entre tener una realización xt := (x1 ; x2 ; :::; xT ) a partir de una muestra aleatoria (X1 ; X2 ; :::; XT ) o a partir de un proceso estocástico no 7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 389 IID fXt ; t 2 T g. En el caso de la muestra aleatoria, debido al hecho de que cada valor de xt proviene de la misma distribución f (x; ), la fecha t carece de importancia ya que las variables aleatorias son réplicas de cada una. Como resultado de esto, podemos utilizar los promedios t (momentos muestrales), tales como: 1 XT xrt , r = 1; 2; ::: t=1 T (8.7) para estimar los correspondientes momentos de la distribución (promedios de probabilidad): r E (X ) = Z xr f (x) dx, r = 1; 2; ::: (8.8) x2RX En cierto sentido, (8.7) se de…ne promediando sobre t 2 T y (8.8) promediando s 2 S; recuerde el espacio de probabilidad (S; =; P (:)). Esos dos tipos de promedio puede ser visualizados en el contexto de la …gura 8.3 que representa 5 trayectorias muestrales de un proceso estocástico IID Normal. El promedio t se realiza en sentido horizontal y el promedio de distribución se realiza verticalmente. Cuando estas trayectorias muestrales constituyen realizaciones de muestras IID los promedios t (momentos muetrales) convergen a los promedios de distribución (momentos), porque sabemos que las variables aleatorias involucradas tienen momentos comunes XT xrt , convergen a y como se muestra en el capítulo 9 los promedios t, T1 t=1 estos momentos comunes. Sin embargo, la situación en el contexto de una muestra no aleatoria es radicalmente diferente, ya que, sin ninguna restricción de dependencia y heterogeneidad, cada valor de Xt , proviene de una distribución diferente y por lo tanto no hay momentos comunes a los que los promedios t converjan! 390 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS Figura 8.3 Un ensamble de cinco trayectorias muestrales Otra forma de ver este problema es observar que para un proceso estocástico no IID los parámetros desconocidos t en f (xt ; t ) son, por de…nición, funciones de los momentos que cambian con t: E (Xtr ) = r ( t ; t), r = 1; 2; :::; t 2 T . En cierto sentido, el problema es que tenemos sólo una observación para cada conjunto de parámetros desconocidos t . La pregunta que se sugiere en esta etapa, es si sólo en el caso de variables aleatorias IID los promedios t convergerán a los promedios distribución (momentos). La respuesta es no necesariamente, pero las variables aleatorias involucradas tienen que tener algo en común para que la convergencia tenga lugar. Este algo en común se de…ne en términos de las restricciones sobre la estructura probabilística del proceso en cuestión a …n de permitir al modelador utilizar promedios t tales como (8.7) como estimaciones con…ables de los parámetros desconocidos (momentos). Esto requiere restricciones de dependencia/heterogeneidad que serán el centro de este capítulo. 7.2.2 Clasi…cación de los procesos estocásticos La estructura del proceso estocástico fXt ; t 2 T g depende parcialmente de la naturaleza de dos conjuntos: el conjunto índice T y el rango de la variable aleatoria X, por ejemplo RX . Dado que el rango de la aleatoria Xt puede cambiar con t, de…nimos el rango del proceso estocástico fXt ; t 2 T g como la unión de la conjuntos de valores de X (:; T ) para cada t, digamos RX(t) : 7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 391 <x = [t2T RX(t) conocido como el espacio de estado del proceso estocástico. Lo que hace que al proceso estocástico matemáticamente diferente es que los conjuntos (T , <x ) sean numerables o no numerables; una distinción ya encontrada en el capítulo 2. (a) En el caso en que T es un conjunto numerable, tal como T = f0; 1; 2; 3; :::g, llamamos a fXt ; t 2 T g un proceso estocástico de índice discreto. Por otro lado, cuando T es un conjunto no numerable, tal como T = [0; 1), llamamos a fXt ; t 2 T g un proceso estocástico de índice continuo. Cuando tenemos que enfatizar la distinción entre procesos de índice continuo y discreto para …nes expositivos, utilizaremos la NOTACIÓN: fXt ; t 2 T g para un proceso de índice continuo. (b) Del mismo modo, el espacio de estado <x del proceso estocástico fXt ; t 2 T g, puede ser numerable o no numerable, introduciendo una cuarta forma de conjunto índice/espacio de estado (T , <) de los procesos estocásticos: D-D D-C C-D C-C Conjunto índice T numerable numerable no numerable no numerable Espacio de estado < Ejemplo numerable Caminata aleatoria simple no numerable Proceso Normal numerable Proceso Poisson no numerable Proceso movimiento Browniano Esta clasi…cación constituye una representación esquemática, agrupando procesos estocásticos mutuamente excluyentes que es útil para organizar nuestros pensamientos en las etapas iniciales de la interiorización del material, pero no es la única, o aún la clasi…cación más útil, ya que hace caso omiso de la estructura probabilística de un proceso estocástico. Varias otras clasi…caciones traslapadas de procesos estocásticos, tales como estacionario/no estacionario, Markov/no Markov, Gaussiano /no Gaussiano, ergódica / no ergódico, se basan en su estructura probabilística y proporcionar agrupaciones útiles de los procesos estocásticos. Una vista panorámica de una clasi…cación basada en la estructura probabilística de procesos estocásticos se da en la …gura 8.4 (véase Srinivasan y Mehata (1988) para más detalles). 392 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS Figura 8.4 Una taxonomía de los procesos estocásticos 7.2.3 Especi…cación de un proceso estocástico Dado que la estructura probabilística de un conjunto de variables aleatorias se describe mejor por su distribución conjunta, es natural utilizar el mismo dispositivo para especi…car la estructura probabilística de un proceso estocástico. Sin embargo, esto plantea el problema de especi…car distribuciones de dimensión in…nita porque el proceso astochastic fXt ; t 2 T g tiene a menudo un conjunto índice in…nito. Una solución efectiva a este problema fue propuesta por Kolmogorov en el mismo libro de 1933 que fundó la moderna teoría de probabilidad. RECURSO DE NOTACIÓN. En muchos casos, durante la exposición que sigue vamos a discutir los conceptos que son aplicables a ambos procesos estocásticos de índices discreto y de ínidce continuo. La notación para los procesos de índice discretos es, por supuesto, más natural y menos complicada que la de procesos de índice continuo y las más de las veces se utilizará la primera. Sin embargo, en los casos en que queremos hacer hincapié en la aplicabilidad general de un concepto, usamos un recurso de notación que en cierto sentido nos permite utilizar la notación discreta para cubrir ambos casos. En lugar de utilizar la sucesión fXk g1 k=1 , que es claramente discreta, usamos fXtk g1 , de tal manera que: k=1 0 < t1 < t2 < < tn < < 1, donde tk 2 T , para k = 1; 2; :::; n; ::: Se dice que un proceso estocástico fXt ; t 2 T g está especi…cado si es …nita la función de distribución acumulativa conjunta (fda): 7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 393 F (xt1 ; xt2 ; :::; xtn ), se de…ne para todos los subconjuntos …nitos ft1 ; t2 ; :::; tn g T . Este resultado es muy útil debido a que su opuesto también es cierto (ver Kolmogorov (1933a)). El teorema de extensión de Kolmogorov Para cada n, sea Fn (xt1 ; xt2 ; :::; xtn ) la función de distribución acumulada conjunta. Si la condición de consistencia se cumple: lim Fn+1 xt1 ; xt2 ; :::; xtn ; xtn+1 = Fn (xt1 ; xt2 ; :::; xtn ), xtn+1 !1 para cada (n + 1) > 1 y (xt1 ; xt2 ; :::; xtn ) 2 Rn , existe un espacio de probabilidad (S; =; P (:)) y un proceso estocástico fXt ; t 2 T g de…nido en él, tal que Fn (xt1 ; xt2 ; :::; xtn ) es la función de distribución acumulada conjunta de (Xt1 ; Xt2 ; :::; Xtn ) para cada n (ver Billinsgley (1986)). En este sentido, estamos seguros para asumir que la estructura probabilística de un proceso estocástico se puede describir por completo usando solamente distribuciones conjuntas de dimensión …nita. Es interesante NOTAR que el precedente teorema de extensión permite al modelador de pasar de la distribución conjunta F2 (xt1 ; xt2 ) a la marginal lim F2 (xt1 ; xt2 ) = F1 (xt1 ) y luego a la condicional F2j1 (xt2 jxt1 ) = Z x2 xt2 !1 f (xt1 ;u) du. f (xt1 ) 1 La visualización de un proceso estocástico a través de la distribución conjunta de un subconjunto …nito de componentes se llama punto de vista distributivo. Históricamente, sin embargo, el concepto de proceso estocástico surgió en el siglo 20 como función de procesos IID simples. Este punto de vista construccionista es equivalente a la especi…cación de un proceso estocástico fYk ; k 2 Ng de…niéndolo como una función de un proceso estocástico simple (a menudo IID o únicamente independiente) fXt ; t 2 T g: Yk = g (Xt1 ; Xt2 ; :::; Xtn ) ; k 2 N: ((8.9)) Esto signi…ca que podemos pensar en una gran cantidad de procesos estocásticos como sistemas construidos usando bloques de construcción simples. La estructura probabilística del proceso construido fYk ; k 2 Ng se determina a partir de la del proceso más simple fXt ; t 2 T g vía el mapero (8.9). Ejemplos (i) Considere la siguiente función: 394 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS Yk = X1 cos !k + X2 sen !k, Xi ~N IID (0; 2 ), i = 1; 2, k 2 N. Esto de…ne un proceso estocástico fYk ; k 2 Ng. (ii) un mapeo muy importante que desempeña un papel fundamental para el punto de vista constructivista es la de…nición de mapeos como sumas parciales de un proceso fXk ; k 2 Ng: Yk = Xk i=1 Xi , k 2 N El proceso estocástico fYk ; k 2 Ng ha jugado un papel importante en el desarrollo del concepto de proceso estocástico como se ha señalado. Debe hacerse hincapié, sin embargo, que incluso en el contexto de la aproximación construccionista la mejor manera de comprender la estructura de un proceso estocástico es deducir la distribución conjunta de los procesos construidos. Volviendo a la distribución conjunta de un subconjunto …nito de elementos de un proceso estocástico, como la descripción más general de un proceso estocástico, notemos que para propósitos de modelización necesitamos domesticar el proceso mediante la imposición de algún tipo de estructura probabilística sobre el mismo. La razón es que tal y como está (sin restricciones) la distribución conjunta no proporciona modelos operativos. Partiendo de un proceso estocástico general fXk ; k 2 Ng, procedemos a domarlo imponiéndole ciertas restricciones de distribución, heterogeneidad y dependencia. Estas restricciones nos permitirán hacer frente tanto a los problemas de dimensionalidad como a los de sobreparametrización planteados en los capítulos 6-7. En un intento por explorar algunos de los conceptos relativos a las restricciones de dependencia y la heterogeneidad, proporcionamos una breve perspectiva histórica de algunos de los primeros intentos para enfrentarse con el concepto de proceso estocástico. 7.3 Procesos estocásticos: una visión preliminar El concepto matemático de proceso estocástico, dado anteriormente, fue formulado en la década de 1930. Antes de ese momento el concepto de proceso 7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 395 estocástico sólo existía en la forma de un modelo para determinados fenómenos estocásticos. Estos modelos de los fenómenos estocásticos eran casi exclusivamente en la física. La notable excepción a esto es el intento de Bachelier (1900) para presentar un modelo para el comportamiento de los precios en el mercado de valores de París. Desde el punto de vista probabilístico, los conceptos necesarios para de…nir un proceso estocástico no se desarrollaron hasta la década de 1920. De hecho, desde la época de Cardano (1501-1576), cuando el concepto de independencia entre dos eventos se encontró por primera vez y luego formalizado por Moivre en la década de 1730, hasta …nales del siglo 19, la dependencia fue vista como un estorbo e interpretada negativamente como la falta de independencia. Más allá del bien conocido territorio de la independencia se encuentra un territorio inexplorado conocido como no independencia/heterogeneidad. Comenzamos con una breve reseña de los primeros intentos por formular un modelo para el fenómeno físico conocido como movimiento browniano. 7.3.1 El movimiento browniano y los fundamentos de la probabilidad El proceso movimiento browniano, acuñado después de que el botánico Robert Brown (1773-1858) observó el movimiento errático de una partícula de polen suspendida en ‡uido, se remonta a 1827. Se pensaba erróneamente en ese momento que el comportamiento errático era el resultado de las moléculas que viajan a toda velocidad. Resultó ser que este movimiento fue el resultado del bombardeo de las partículas por millones de moléculas de ‡uido causado por difusión térmica. El efecto de la colisión de una particula con una de cualesquiera de las moléculas es insigni…cante, pero el efecto acumulativo de millones de tales colisiones produce la comportamiento errático observable que exhibe ciertos patrones de regularidad aleatoria. El primer intento sistemático para modelar patrones observables de regularidad aleatoria del comportamiento errático de las partículas fue hecho por Einstein en 1905 utilizando una ecuación diferencial estocástica de la siguiente forma: @f (x;t) @t donde := lim t!0 ( x)2 2 t = @ 2 f (x;t) @x2 , , es el coe…ciente de difusión y f (x:t) dx es la probabilidad de que X(t) se encuentre en el intervalo (x; x + dx). Resolviendo 396 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS esta ecuación diferecial sujeta a la condición inicial X(0) = 0, se puede demostrar que la distribución del desplazamiento de partículas (después de un tiempo t su…cientemente largo) toma la forma: f (x; t) = pn 4 t exp n Esta es la densidad Normal con momentos: x2 4 t o E (X (t)) = 0, V ar (X (t)) = 2 t. Intuitivamente, esto puede explicarse por el hecho de que el desplazamiento neto de la partícula X( ) durante cualquier intervalo de tiempo X(t, t + ) será la suma de numerosas pequeñas contribuciones (en gran parte independientes) de impactos de moléculas individuales. El Teorema Central del Límite (véase el capítulo 9) sugiere que en estas condiciones el desplazamiento errático de la partícula se puede aproximar por una variable aleatoria Normalmente distribuida X( ). El movimiento browniano como un proceso estocástico puede verse como la integral de un proceso NIID: Z t X(t) = Z (u) du, Z (t) ~N IID (0; 1), t 2 (0; 1) . 0 El primer intento por formular este proceso como un modelo para los cambios de las tasas de cambio de las acciones, fue hecha por Bachelier (1900). Desafortunadamente, su tesis no fue apreciada por matemáticos como Poincaré (uno de sus dos examinadores) y sus resultados, publicados en su libro The Calculus of Probability (publicado en 1912), pasaron desapercibidos hasta principios de 1930, cuando Kolmogorov (1931) se re…ere en términos poco halagadores a su rigor matemático. Dejando a un lado el rigor matemático, a Bachelier debe atribuirse la primera formulación del proceso estocástico que hoy conocemos como movimiento browniano. Es interesante notar que Bachelier entendió el problema de la modelización mucho mejor que algunos de los matemáticos en la década de 1920. Él llegó incluso a reconocer la necesidad de restricciones de dependencia/heterogeneidad y a introducir lo que llegó a ser conocido más tarde como dependencia Markov y homogeneidad Markov (véase Von Plato (1994)). La primera formulación 7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 397 matemática rigurosa del proceso estocástico movimiento Browniano fue dada por Wiener en 1920 y desarrollada más ampliamente por Levy en los años 1930 y 1940. El movimiento browniano es con mucho el más importante proceso estocástico de índice continuo cuyo estudio inicial se basó en sus trayectorias muestrales. Sin embargo, las trayectoias seguidas por el movimiento irregular de las partículas resultaron ser continuas pero no diferenciables en ninguna parte. Eso fue una conmoción para la comunidad cientí…ca porque eso signi…caba que las partículas viajan a velocidades in…nitas! La teoría de Einstein fue con…rmada en 1916 por Pierre Perrin, quien recibió el premio Nobel en 1926 por sus esfuerzos. La pelota estaba de lleno en el patio de los probabilistas que no tenían una teoría consistente de la probabilidad para cubrir el modelo de Einstein. La teoría clásica de la probabilidad basada en el modelo de una lotería era muy insu…ciente para tal …n. En la década de 1920 Wiener demostró la existencia de probabilidades para el modelo de Einstein, pero una teoría consistente de la probabilidad que cubriera este modelo tuvo que esperar hasta 1933, cuando Kolmogorov publicó su libro clásico sobre los fundamentos de la teoría de la probabilidad (1933a). El teorema de extensión de Kolmogorov, en términos generales, sugiere que los fenómenos que presentan regularidad aleatoria se pueden modelar dentro del marco de referencia matemático delimitado por el espacio de probabilidad (S; =; P (:)), dotado de la estructura matemática dada en el capítulo 2, a menos que contengan inconsistencias de la forma mencionada en el teorema. El fundamento de Kolmogorov se convirtió en un éxito inmediato ya que aclaró todo el asunto creado con el estudio del movimiento browniano y liberó al tema de la camisa de fuerza impuesta por el modelo de lotería de la probabilidad. 7.3.2 Sumas parciales y procesos estocásticos asociados Un número importante de procesos estocásticos, tales como Markov, caminata aleatoria, incrementos independientes y martingalas y sus restricciones de dependencia y heterogeneidad asociadas, se pueden ver en el contexto del enfoque construccionista como sumas parciales de variables aleatorias independientes. Es natural que los primeros intentos por extender los procesos estocásticos IID fZt gt2T se asociaran con funciones simples de tales proce- 398 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS sos, como la suma. En efecto, el proceso movimiento browniano tal como se de…ne por (8.10) es la integral (suma sobre un continuo) de un proceso NIID. Considere una sucesión de variables aleatorias IID fZt gt2T que para 0 < t1 < < tk < < 1, tk 2 T , k = 1; 2; :::; es parcialmente sumada para crear un proceso derivado fSk g1 k=1 : Sk = Xk i=1 ((8.13)) Zti ; k = 1; 2; 3; ::: El primero en aventurarse en el territorio desconocido de los procesos estocásticos no IID desde el punto de vista probabilístico fue Markov en 1908 quien se percató que el proceso derivado fSk g1 k=1 ya no es IID; tiene tanto dependencia como heterogeneidad. Para ver esto vamos a simpli…car el problema considerando los dos primeros momentos (suponiendo que existen) de la sucesión IID: (i) E (Ztk ) = , k = 1; 2; 3; :::; (ii) V ar (Ztk ) = 2 , k = 1; 2; 3; :::; Utilizando la linealidad de la esperanza (ver capítulo 3) podemos deducir que: (a) E (Sk ) = k ; k = 1; 2; 3; :::; (b) V ar (Sk ) = k 2 ; k = 1; 2; 3; :::; (c) Cov (Sk ; Sm ) = 2 min (k; m) ; k; m = 1; 2; 3; ::: ((8.12)) Los resultados (a) y (b) son triviales de obtener pero (c) puede demostrarse como sigue: Cov (Sk ; Sm ) = E f(Sk k ) (Sm m )g ( k ! m X X = E Ztj (Zti ) i=1 = k X m X E (Zti j=1 !) ) Ztj i=1 j=1 min(k;m) = X E (Zti )= 2 min (k; m) , i=1 ya que Cov Zti ; Zttj = 0, i 6= j. La sucesión de las sumas parciales 7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 399 fSk g1 k=1 fue llamada más tarde, un proceso de caminata aleatoria proporcionó el impulso para numerosos avances en los procesos estocásticos. PRECAUCIÓN. Se recuerda al lector una vez más que la estructura anterior es sólo indicativa de la estructura de dependencia más general de las sumas parciales, debido a que nos hemos concentrado exclusivamente en los dos primeros momentos, los que, en general, ni siquiera pueden existir! Markov estaba trabajando en un marco de referencia espacio de estado discreto/conjunto índice discreto y se concentró principalmente en la estructura de dependencia de tales procesos. En particular, se dio cuenta de dos cosas: (i) todos los elementos del proceso fSk g1 k=1 son mutuamente dependientes, independientemente de la distancia entre ellos, pero (ii) la dependencia se vuelve más fácil modelar cuando se ve a través de la distribución condicional. ¿Qué es tan especial de este proceso? La distribución condicional de Sk dado su pasado (Sk 1 ; Sk 2 ; :::; S1 ) depende sólo del pasado más reciente, es decir, = fk (sk jsk 1 ; 'k ) , para todo sk 2 Rk , k = 2; 3; ::: (8.13) Es decir, la estructura de dependencia entre Sk y su pasado (Sk 1 ; Sk 2 ; :::; S1 ) es totalmente capturada por su distribución condicional dado su pasado más reciente Sk 1 ; lo llamamos dependencia Markov. Los procesos que satisfacen esta restricción de dependencia se llaman procesos Markov. El resultado de Markov se formalizó en su generalidad por Kolmogorov (1928b, 1931); ver sección 7. Es muy importante destacar que la Markovenes no implica restricción alguna de heterogeneidad. Una forma evidente de tratar el problema de heterogeneidad en este contexto es asumir homogeneidad de las distribuciones condicionales, es decir fk (sk jsk 1 ; :::; s1 ; k) fk xtk jxtk 1 ; 'k = f xtk jxtk 1 ; ' , k = 2; 3; :::; n que podríamos llamar homogeneidad Markov. NOTE que esto involucra sólo las densidades condicionales; no hay supuesto de homogeneidad para la densidad marginal f1 xt1 jxtk 1 ; 1 , que todavía puede ser una fuente de heterogeneidad. 400 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS Otro proceso estocástico importante que surge sumando parcialmente variables aleatorias independientes es el proceso de caminata aleatoria. El proceso estocástico fSk g1 k=1 se dice que es una caminata aleatoria si se puede especi…car como la suma parcial de variables aleatorias IID fZt gt2T , es decir, para 0 < t1 < < tk < < 1, tk 2 T , k = 1; 2; :::; es decir: Sk = Xk i=1 Zti , donde Zti ~IID (:) , i = 1; 2; :::; k = 1; 2; 3; ::: ((8.14)) NOTE que esta notación nos permite de…nir el proceso de suma parcial (un proceso de índice discreto) en términos de un proceso IID fZtk g1 k=1 que puede ser o bien un proceso de índice discreto o continuo. Para un proceso continuo de suma parcial es necesario sustituir la suma por una integral como en (8.10). En términos de nuestra taxonomía de los supuestos probabilísticos, los procesos Markov y de caminata aleatoria se de…nen sin ningún tipo de supuesto de distribución y por lo tanto se debe tener cuidado cuando se discute su estructura de dependencia y de heterogeneidad en términos de momentos. La tendencia a concentrarse en los dos primeros momentos del proceso puede ser muy engañoso debido a que: (a) ellos podrían no existir (Zi ~Cauchy (0,1), i = 1; 2; :::), (b) ellos capturan sólo formas limitadas de dependencia/heterogeneidad. En cierto sentido, el concepto de proceso de caminata aleatoria es una caja vacía que se puede llenar con numerosos casos especiales, mediante la imposición de algún tipo de estructura probabilística adicional. Eligiendo la distribución a ser discreta (por ejemplo, de Poisson) o continua (por ejemplo, Normal) podemos de…nir algunos distintos tipos de procesos estocásticos los cuales, sin embargo, comparten una estructura común determinada. Es instructivo examinar brevemente esta estructura común. La estructura probabilística impuesta al concepto genérico de caminata aleatoria se realiza a través de su de…nición como una sucesión de sumas parciales de variables aleatorias IID. La estructura probabilística del proceso de IID fZtk g1 k=1 (utilizamos la notación índice discreto por conveniencia) es transformada a través de las sumas parciales para determinar indirectamente la estructura probabilística del proceso de caminata aleatoria fSk g1 k=1 . Vamos a considerar el problema de la determinación de la estructura probabilística de fSk g1 k=1 partir de los principios básicos. En primer lugar, vamos a considerar la estructura de la dependencia de 7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 401 un proceso de caminata aleatoria. A partir de (8.14) podemos deducir que el proceso de suma parcial se puede escribir en la forma: Sk = S k 1 + Zk , k = 1; 2; 3; :::; con S0 = 0. Como podemos ver, el proceso de caminata aleatoria tiene una estructura de dependencia Markov porque: f (sk jsk 1 ; sk 1 ; :::; s1 ) = f (sk jsk 1 ) , k = 2; 3; ::: Es importante señalar que el concepto de proceso de Markov es considerablemente más general que el de caminata aleatoria. En el caso de esta última, la Markovenes es inducida por la transformación de las sumas parciales. La dependencia Markov, sin embargo, no depende de la transformación suma parcial como lo muestra el siguiente ejemplo. Ejemplo Sea fZtk g1 k=1 un proceso IID con media cero (E (Zk ) = 0, k = 1; 2; :::). Entonces la sucesión de…nida por la recursión: Yk = h (Yk 1 ) + Zk , k = 2; 3; :::; para cualquier función (Borel) bien comportada h (:) es un proceso Markov. Esto demuestra más claramente que la estructura de dependencia Markov no depende de la linealidad de la transformación, sino de su recursividad. Regresando a la estructura de dependencia de un proceso de caminata aleatoria, llegamos a la conclusión de que su forma se restringe a la de dependencia Markov. En vista de la discusión anterior, no debería ser una sorpresa descubrir que la estructura de heterogeneidad de un proceso de caminata aleatoria también es de un tipo especial. Esto también surge del hecho de que, como mostramos anteriormente, el proceso fSk g1 k=1 tiene in1 crementos fSk Sk 1 gk=1 que son variables aleatorias IID. Por lo tanto, la distribución conjunta toma forma: f (s1 ; s2 ; :::; sn ; ) = f1 (s1 ; 1) n Y k=2 fk (sk sk 1 ; k ) = f1 (s1 ; 1) n Y k=2 f (sk sk 1 ; ) , s 2 Rn ((8.16)) donde la primera igualdad se sigue del hecho de que el proceso de incrementos fSk Sk 1 g1 k=1 es independiente y el segundo del supuesto ID para el 402 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS mismo proceso. Esto sugiere que la estructura de heterogeneidad del proceso de caminata aleatoria fSk g1 k=1 tendrá un componente que es común a todos los subconjuntos del proceso y un componente que depende de la distancia desde la condición inicial S0 = 0; lo que llamamos heterogeneidad separable. Esto es mejor empli…cado utilizando los dos primeros momentos deducidos anteriormente (asumiendo que existen!). Observando (8.12), podemos ver que los dos primeros momentos son separables en el sentido de que tienen un componente ID (el momento correspondiente del proceso IID) y un componente heterogéneo que es una función del índice de las variables aleatorias involucradas. Una formulación más general de este tipo de heterogeneidad, conocido como heterogeneidad separable de segundo orden, toma la forma: (a) E (Xk ) : = k = h (k) , k = 1; 2; :::; (c) Cov (Xk ; Xm ) : = vk;m = q (k; m) 2 , k; m = 1; 2; ::: ((8.17)) Nótese que en el caso de un proceso de caminata aleatoria fSk g1 k=1 : h (k) = k, q (k; m) = min (k; m). Tales formas de heterogeneidad dan lugar a modelos operativos en un número de casos interesantes encontrados en la práctica. Esto debe contrastarse con la heterogeneidad arbitraria que signi…ca que los momentos son funciones del índice con el tipo de dependencia funcional sin especi…car (la primera igualdad en (a) y (b)). Históricamente, el concepto de proceso Markov se introdujo a principios de 1900 y a principios de 1920 (ver Kolmogorov (1928a, b)) otras formas de procesos estocásticos, a menudo motivadas por la formulación de suma parcial, hicieron su aparición. Ya hemos encontrado el proceso de incrementos IID asociado con un proceso de caminata aleatoria. Una extensión natural de esto es relajar el supuesto ID y de…nir un proceso fXt gt2T que tiene incrementos independientes para todo 0 < t0 < t1 < t2 < < tn < 1, los n incrementos fXtk Xtk 1 gk 1 son independientes: f (xt1 ; xt2 ; :::; xtn ; ) = f1 (xt1 ; 1) n Y k=2 fk xtk xtk 1 ; k , x 2 Rn . ((8.18)) En términos de su estructura de la dependencia, sabemos de la discusión anterior que un proceso de incrementos independientes fXt gt2T es dependiente Markov: 7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR fk xtk jxtk 1 ; 'k = fk xtk xtk 1 ; k , k = 2; 3; ::: 403 ((8.19)) Lo que una sucesión de incrementos independiente tiene además, sin embargo, es un tipo de linealidad incorporada a la estructura de la sucesión de variables aleatorias fXt gt2T , cuando se toma la diferencia entre variables aleatorias adyacentes. Esto puede verse mediante la de…nición de sucesión independiente fYtk g1 k=1 , donde: Yt1 := Xt1 , Ytk := Xtk Xtk 1 , k = 2; 3; :::; y observando que: Xk Yti , k = 1; 2; 3; :::; n Xtk = i=1 De esto podemos deducir que Xtk se relaciona linealmente con los incrementos anteriores: Xk Xti Xti 1 . Xtk = Xt1 + i=2 Esta linealidad suma parcial restringe la distribución conjunta f (xt1 ; xt2 ; :::; xtn ; ) en la medida en que la distribución de Xt3 Xt2 debe ser la misma que la distribución de la suma (Xt3 Xt2 ) + (Xt2 Xt1 ). Por el contrario, si fYtk g1 k=1 es un proceso independiente, entonces, por alguna variable aleatoria arbitraria Xt1 , el proceso fXtk g1 k=1 de…nido por: Xn Xtn Xt1 = Yti , n 1, i=1 es un proceso estocástico con incrementos independientes. Regresando a (8.18), se observa que la de…nición de una sucesión con incrementos independientes plantea un problema de homogeneidad más allá del supuesto de Distribución Idéntica, en la medida en que la de…nición implica la marginal así como las distribuciones de las diferencias fk xtk xtk 1 ; k , k = 2; 3; :::Una solución obvia es la de imponer el supuesto ID sobre las distribuciones marginales de ambas sucesiones fXtk g1 Xtk 1 g1 k=1 y fXtk k=1 : (i) fk (xtk ; k ) = f (xtk ; ), k = 1; 3; ::: (ii) fk xtk xtk 1 ; k = f xtk xtk 1 ; , k = 2; 3; ::: El supuesto de homogeneidad (ii) se podría llamar incrementos Idénticamente Distribuidos. Nótese que en vista de la relación (8.19), esto es equivalente a homogeneidad Markov. Las condiciones de homogeneidad presentadas anteriormente han conducido al importante concepto de Estacionariedad. Khinchine (1934) se dio cuenta de que la condición de homogeneidad (ii) es equivalente a la restricción de que la distribución conjunta de dos variables aleatorias adyacentes 404 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS sólo depende de la diferencia de las fechas no de las fechas reales, es decir, para cualesquiera dos fechas: 0 < t1 < t2 < 1: ft1 ;t2 (xt1 ; xt2 ; ) = ft2 t1 (xt1 ; xt2 ; ). Siguiendo la misma línea, esto se puede extender al caso de n variables fXt1 ; Xt2 ; :::; Xt1n g, 0 < t1 < < tk < 1, tk 2 T , k = 1; 2; :::; de tal manera que la densidad conjunta depende únicamente de las (N 1) diferencias ft2 t1 ; t3 t1 ; t4 t1 ; :::; tn t1 g es decir (iii) ft1 ;t2 ;:::;tn (xt1 ; xt2 ; :::; xtn ; ) = ft2 t1 ;t3 t1 ;t4 t1 ;:::;tn t1 (xt1 ; xt2 ; :::; xtn ; ). Khinchine mostró que esas condiciones de homogeneidad equivalen a la restricción de que la distribución conjunta de fXt1 ; Xt2 ; :::; Xt1n g es invariante a un cambio de las fechas, es decir, ft1 ;t2 ;:::;tn (xt1 ; xt2 ; :::; xtn ; ) = ft1 + (xt1 + ; xt2 + ; :::; xtn + ; ) : ((8.20)) Esto se conoce como la condición de estacionariedad estricta que se convirtió en la restricción de homogeneidad dominante en el desarrollo de dichas sucesiones de variables aleatorias. Otro proceso estocástico importante motivado por la formulación de sumas parciales es el proceso martingala. La importancia de este proceso se deriva del hecho de que permite su…ciente dependencia y heterogeneidad para que el proceso de sumas parciales se comporte asintóticamente como un proceso IID simple. El concepto de proceso martingala se introdujo a …nales de 1930 pero su importancia no se aprecia plenamente hasta los años 1950. El concepto de proceso martingala, en contraste con el proceso de Markov, se concentra principalmente en el primer momento condicional en lugar de la distribución misma. Consideremos el proceso estocástico de sumas parciales fSk g1 k=1 donde Sk = Xk i=1 ;:::;tn + Zi , donde Zi ~D (0; :) , i = 1; 2; :::; k = 1; 2; 3; ::: ((8.21)) son variables aleatorias independientes pero no distribuidas ID con medias cero (E (Zk ) = 0, k = 1; 2; :::; n). Como se muestra anteriormente, el proceso de sumas parciales se puede escribir en la forma: Sk = Sk 1 + Zk ; S0 = 0; k = 1; 2; 3; ::: Podemos mostrar que la esperanza condicional de Sk dado su pasado toma la forma: 7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 405 E (Sk jSk 1 ; Sk 2 ; :::; S1 ) = E (Sk 1 + Zk jSk 1 ; Sk 2 ; :::; S1 ) ((8.22)) = Sk 1 ; k = 2; 3; :::; n. Esto se deduce de la propiedad CE4 “taking what is known out” (véase el capítulo 7) y el hecho de que (Sk 1 ; Sk 2 ; :::; S1 ) = (Zk 1 ; Zk 2 ; :::; Z1 ), es decir, los dos espacios de eventos coinciden en vista del mapero uno a uno entre ellos, y por lo tanto: E (Zk jSk 1 ; Sk 2 ; :::; S1 ) = E (Zk jZk 1 ; Zk 2 ; :::; Z1 ) = E (Zk ) = 0 El elemento esencial de este argumento no es la independencia de los Zk s sino la combinación de las medias cero condicionales y no condicionales: (a) E (Zk ) = 0, k = 1; 2; ::::; (b) E (Zk jZk 1 ; Zk 2 ; :::; Z1 ) = 0, k = 2; 3; ::: ninguno de los cuales requiere independencia sino la existencia del primer momento. En la sección 8 llamaremos al proceso fZk g1 k=1 satisfaciendo (a) (b) un proceso martigala diferencia. Recolectando juntos los elementos anteriormente señalados, podemos decir que el proceso estocástico fYk g1 k=1 es una martingala si (i) E (jYk j) < 1, k = 1; 2; :::; (ii) E (Yk j (Yk 1 ; Yk 2 ; :::; Y1 )) = Yk 1 , k = 2; 3; :::; n: ((8.23)) Un proceso martingala se especi…ca exclusivamente en términos del primer momento condicional en el que también implícitamente se impone una restricción de heterogeneidad. Esto se debe a la condición de dependencia martingala (8.23) implica que si usamos la propiedad CE1 "la ley de esperanzas iteradas" tenemos: (ii) E (E (Yk j (Yk 1 ; Yk 2 ; :::; Y1 ))) = E (Yk ) = E (Yk 1 ), k = 2; 3; :::; n, que se cumple sólo en el caso en que la media del proceso es constante. Esta es una restricción de homogeneidad que se de…ne en términos del primer momento y llama homogeneidad de primer orden (o media). En la …gura 8.5 resumimos la relación entre los procesos estocásticos discutidos anteriormente para …nes de referencia. Como podemos ver, la caminata aleatoria y los procesos incrementos independientes son subconjuntos 406 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS de la categoría proceso Markov. Por otro lado, los procesos martingala no son un subconjunto propio de la categoría de procesos Markov, porque el primero impone la restricción adicional de un primer momento acotado que ninguna de las otras categorías requiere. Figura 8.5 Procesos Markov y relacionados con él 7.3.3 Proceso Gaussiano Como se ha mencionado en muchas ocasiones hasta ahora, la Normal (gaussiana) es con mucho la distribución más importante en la teoría de la probabilidad y en la inferencia estadística. Cuando aplicamos los anteriores conceptos de dependencia (Markov, incrementos independientes, martingala) a un proceso estocástico Normal (Gaussiano) fXk g1 k=1 nos encontramos observando distribuciones Normales bivariadas de la forma (ver capítulo 4): (1 fx1 ;x2 (xt1 ; xt2 ; 12 ) = p 2 2 ) 1 2 11 22 exp ( 2 (1 2 ) 1 x1 p 2 1 11 2 x1 p ((8.24)) donde 12 := ( 1 ; 2 ; 11 ; 22 ; ) 2 R2 R2+ [ 1; 1] ; (x1 ; x2 ) 2 R2 . Esto es debido a que estas formas de dependencia pueden ser capturadas por variables aleatorias contiguas. Como se argumentó en el capítulo 6, bajo Normalidad la única forma posible de dependencia es dependencia de primer orden capturada por el coe…ciente de correlación . El razonamiento anterior en relación con la distribución Normal dio lugar a una forma de dependencia especi…cada en términos de los dos primeros 1 11 x2 p 2 22 7.4. RESTRICCIONES DE DEPENDENCIA 407 momentos de cualesquiera variables aleatorias Xk y Xm (m > k); conocida como dependencia lineal de…nida por (véase el capítulo 6): k;m := Corr (Xk ; Xm ) 6= 0. ((8.25)) Como con los otros conceptos de dependencia, el concepto de variables aleatorias correlacionadas plantea el problema de la homogeneidad asociada con él. En analogía directa con la estacionariedad estricta (8.20) podemos especi…car las siguientes condiciones en términos de los dos primeros momentos: (a) E (Xk ) = E (Xk+ ), para todo k; = 1; 2; ::: (b) E (Xk Xm ) = E (Xk+ Xm+ ), para todo k; m; = 1; 2; ::: Estas condiciones garantizan que la correlación (8.25) estará libre de fechas. Una manera más transparente, pero equivalente de expresar esto es que los dos primeros momentos no dependen ni de k ni de m, sino de la diferencia jm kj: (a) E (Xk ) = , para todo k = 1; 2; :::; (b) E [Xk E (Xk )]2 = 2 , para todo k = 1; 2; :::; (c) E f[Xk E (Xk )] [Xm E (Xm )]g = h (jm kj) 2 , k; m = 1; 2; ::: Las condiciones (a) - (c) de…nen lo que se conoce como estacionariedad débil (o de segundo orden). 7.4 Restricciones de dependencia Después de haber introducido una serie de conceptos importantes utilizando el desarrollo histórico de los procesos estocásticos, procedemos a de…nir algunas restricciones de dependencia y heterogeneidad. Nos limitamos a muy pocos ejemplos, porque el resto de este capítulo estará dedicado a la utilidad de los conceptos introducidos en esta sección en el contexto de distintos procesos estocásticos. Por conveniencia de notación utilizamos la notación de índice discreto, pero con ligeras modi…caciones los siguientes conceptos pueden ser escritos en la notación más general 0 < t1 < < tk < 1. 7.4.1 Conceptos basados en distribución Históricamente, la primera restricción de dependencia adoptada fue el caso extremo de no dependencia. 408 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS Independencia. Se dice que el proceso estocástico fYt ; t 2 T g es independiente de si: f (y1 ; y2 ; :::; yT ; ) = YT i=1 f (yt ; t) , para todo y := (y1 ; y2 ; :::; yT ) 2 <Y . Este concepto ha sido discutido ampliamente en los capítulos anteriores. Procedemos a de…nir supuestos menos restrictivos en relación a la dependencia. Dependencia Markov. El proceso estocástico fYt ; t 2 T g se dice que es Markov dependiente si: fk (yk jyk 1 ; yk 2 ; :::; y1 ; 'k ) = fk (yk jyk 1 ; k) , k = 2; 3; ::: Esta noción de dependencia se puede extender fácilmente a órdenes mayores de la siguiente manera. Dependencia Markov de orden m. El proceso estocástico fYt ; t 2 T g se dice que es Markov dependiente de orden m si para m 1: fk (yk jyk 1 ; yk 2 ; :::; y1 ; 'k ) = fk (yk jyk 1 ; :::; yk m; k) , k = m + 1; m + 2; :::. La intuición detrás de este tipo de dependencia es que la información condicional relevante para predecir yn es sólo el pasado reciente que se remonta a sólo m periodos. Dependencia diferencia martingala. El proceso estocástico fYt ; t 2 T g se dice que es dependiente diferencia martingala si E (Yk ) = 0, k = 1; 2; :::; y: E (Yk j (Yk 1 ; Yk 2 ; :::; T1 )) = 0, k = 2; 3; ::: Es decir, el proceso es de primer orden condicionalmente independiente de su pasado. m-dependencia. El proceso estocástico fYt ; t 2 T g se dice que es mdependiente si para m > 0: f y1 ; :::; yn ; yn+ ; yn+ +1 ; y2n+ ; n; = f (y1 ; :::; yn ; n) f yn+ ; :::; y2n+ ; n; . 7.4. RESTRICCIONES DE DEPENDENCIA 409 La intuición detrás de esta forma de dependencia es que cuando los elementos del proceso estocástico están m o más períodos separados son independientes. Esta forma de dependencia surge naturalmente cuando el modelador considera una sucesión IID fYk g1 k=1 con media cero y de…ne: Yk := Xk Xk+m , k = 1; 2; ::: El proceso estocástico fYk g1 k=1 es un proceso m-dependiente. Independencia asintótica. El proceso estocástico fYt ; t 2 T g se dice que es asintóticamente independiente si cuando ! 1: f yn+ jyn ; yn 1 ; :::; y1 ; n; ' f yn+ ; n; . La intuición detrás de esta forma de dependencia es que los elementos del proceso estocástico llegan a ser independientes cuando la distancia entre ellos aumenta hasta in…nito. 410 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS Capítulo 8 Estimación I: Propiedades de los estimadores 8.1 Introducción Para cualquier forma de inferencia estadística (paramétrica), como se describe en el capítulo anterior, el modelador necesita dos componentes básicos: (A) modelo estadístico: S := ( ; X), - modelo de probabilidad, X modelo muestral, (B) conjunto de datos: x := (x1 ; x2 ; :::; xn ). Los datos son entonces interpretados una realización del mecanismo aleatorio especi…cado por el modelo estadístico. El objetivo principal de la inferencia estadística es utilizar la información de los datos para extraer conclusiones en relación con el mecanismo de probabilidad de que se trate. La estimación equivale a utilizar la información en los datos para elegir un determinado valor de de . Una vez que el parámetro es estimado por algún estimador b, tenemos una descripción probabilística del mecanismo aleatorio en cuestión Sb := b ; X . En el caso de un modelo estadístico simple, este mecanismo estocástico se puede describir utilizando el modelo de probabilidad estimado: n o b := f x; b ; x 2 RX . (12.1) Es importante destacar, en primer lugar que la estimación de no es el último objetivo de la modelación; la estimación de es un medio para un …n. El objetivo …nal es obtener una descripción estadística empírica adecuada 411 412CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES del mecanismo estocástico que dió origen a los datos que, en el caso anterior, es el modelo estadístico estimado (12.1). La teoría de la estimación en su forma moderna comienza con el trabajo seminal de 1922 de Fisher "Sobre los fundamentos matemáticos de la estadística teórica", donde algunos de los conceptos fundamentales de la estimación, tales como verosimilitud, información, e…ciencia y consistencia, se propusieron por primera vez. 8.1.1 Vista panorámica del capítulo En la sección 2 discutimos el concepto de estimador y conceptos relacionados, y lps ilustramos con dos ejemplos básicos que forman la columna vertebral de la discusión en este capítulo. Un concepto fundamental es el de distribución muestral que forma la base de la discusión de lo que constituye un buen estimador. El concepto de buen estimador se formaliza en términos de varias propiedades de…nidas en términos de la distribución muestral del estimador. Las propiedades de los estimadores se dividen en las propiedades de muestra …nita (insesgamiento y e…ciencia) examinadas en la sección 3 y propiedades asintóticas (consistencia, Normalidad asintótica y e…ciencia asintótica) examinadas en la sección 4. A lo largo de la discusión utilizamos dos modelos estadísticos muy simple, el Bernoulli y el Normal (de un parámetro) con el …n de ilustrar las diversas ideas y conceptos. Estos ejemplos son elegidos para mantener las manipulaciones matemáticas a un mínimo absoluto. En la sección 5 discutimos el modelo estadístico más ampliamente utilizado, el modelo Normal simple, en un intento de hacer resaltar algunas de las características más sutiles de la estimación óptima. En la sección 6 discutimos la propiedad de un estadístico (en función de la muestra), el cual se puede utilizar para diseñar estimadores óptimos: la propiedad de su…ciencia. 8.2 La de…nición de un estimador La estimación del parámetro una función de la forma: desconocido, es equivalente a la de…nición de h (x) : X ! donde es el espacio muestral (el conjunto de todas las posiblres realizaciones de la muestra), y representa el espacio de parámetros (el conjunto 8.2. LA DEFINICIÓN DE UN ESTIMADOR 413 de todos los valores posibles de ). La función, que se denota por: b = h (X1 ; X2 ; :::; Xn ) , se conoce como un estimador de . Un estimador, (que es una función de las variables aleatorias (X1 ; X2 ; :::; Xn ), es en mismo una variable aleatoria que toma diferentes valores dependiendo de la realización muestral. Un valor particular de este estimador, basado en una realización particular de la ` ` ` muestra x1 ; x2 ; :::; xn , se llama una estimación de ` ` ` b=h x 1 ; x2 ; :::; xn . y se representa por: El signi…cado de siempre está claro por el contexto, dependiendo de si representa una variable aleatoria o un valor de una variable aleatoria (un número). Ejemplo 1 Considere el modelo Bernoulli simple: [i] MG estadístico: Xi = + "i , i 2 N. [ii] Modelo de probabilidad: = f (x; ) = x (1 )1 x , 0 1; x = 0; 1 ; [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. Las siguientes funciones constituyen estimadores probables de : (a) b1 = X1 , (b) b2 = 12 (X1 + X2 ), Xn (d) bn = n1 Xi , (c) b3 = 21 (X1 + X2 + X3 ), i=1 X Xn n 1 1 Xi , (f) bn+2 = n+2 Xi . (e) bn+1 = n+1 i=1 i=1 Nota. En Spanos (pg. 603) en el inciso (c) dice b3 = 12 (X1 + X2 + Xn ); debería decir b3 = 21 (X1 + X2 + X3 ). Contraejemplos Las siguientes funciones f (X1 ; X2 ; :::; Xn ) no constituyen estimadores de : g) b4 = (X1 Xn )u 45 (X12Xn). El rango de esta función no es = [0; 1]; puede tomar valores Xnfuera de el X1 = 0 y Xn = 1. 1 (h) b5 = n Xi . El dominio de la función no es el espacio muesi=1 tral, sino que depende de algún escalar desconocido . (i) b5 = 0:8. Su dominio no es el espacio muestral. Ejemplo 2 Considere el modelo Normal simple (de un parámetro): [i] MG estadístico: Xi = + "i , i 2 N. 414CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES [ii] Modelo de probabilidad: n 1 (x = f (x; ) = p12 exp 2 )2 , := o 2 R; x 2 R ; [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. NOTE que el modelo de probabilidad se de…ne en términos de: X~N ( ; 1). Las siguientes funciones constituyen estimadores posibles de : (i) b1 = X1 , (ii) b2 = 12 (X1 + X2 ), Xn (iii) b3 = (X1 Xn ), (iv) bn = n1 Xi , i=1X Xn n 1 1 Xi , (vi) bn+2 = n+2 Xi . (v) bn+1 = n+1 i=1 i=1 Dado que el parámetro toma valores en el conjunto de la recta real (R), será imposible de…nir una función de la muestra (X1 ; X2 ; :::; Xn ), que no sea un estimador de . En vista del hecho de que es muy fácil de…nir numerosos posibles estimadores, la pregunta que surge naturalmente es: ¿cómo se puede elegir uno entre tales estimadores? Intuitivamente, la respuesta a esta pregunta es obvia: se elige el estimador que se aproxima al verdadero parámetro desconocido 0 con la mayor precisión posible. La formalización del concepto de aproximación precisa resulta ser complicado porque no podemos de…nirlo en la forma matemática usual b 0 ' 0. Esto se debe a que tal distancia: (a) depende del parámetro desconocido 0 , y (b) b = h (X1 ; X2 ; :::; Xn ) es una variable aleatoria que puede tomar muchos valores diferentes. Sin embargo, el hecho de que un estimador b = h (X1 ; X2 ; :::; Xn ) sea una variable aleatoria, sugiere que cualquier formalización del concepto de aproximación precisa implicará su distribución, la cual podemos llamar distribución muestral de . Distribuciones muestrales de los estimadores La distribución muestral de un estimador de b = h (X1 ; X2 ; :::; Xn ) := h (X) se de…ne como la distribución de la función h (X1 ; X2 ; :::; Xn ). Su función de densidad se representa por: f b; x1 ; x2 ; :::; xn := f b; x , con el …n de enfatizar su dependencia de la muestra (X1 ; X2 ; :::; Xn ). Como argumentamos en el capítulo 11, el problema del establecimiento de tales distribuciones muestrales fue considerado por Fisher como uno de los 8.2. LA DEFINICIÓN DE UN ESTIMADOR 415 tres aspectos básicos de la inferencia estadística, siendo las otras dos especi…caciones la especi…cación y la estimación: (iii) Problemas de distribución incluyen la deducción matemática de la naturaleza exacta de las distribuciones en muestras aleatorias de nuestras estimaciones de los parámetros ... (Fisher (1925b), p. 8). De la discusión en los capítulos 4 y 11, sabemos que matemáticamente podemos de…nir la función de distribución acumulada (cdf) de cualquier función b = h (X1 ; X2 ; :::; Xn ) a través de: P b ZZ y = Z fh(X1 ;X2 ;:::;Xn ) g f x1 ; x2 ; :::; xn ; b dx1 dx2 dxn (12.2) donde (a) (X) := fh (X1 ; X2 ; :::; Xn ) yg representa el rango de valores Y = h (X1 ; X2 ; :::; Xn ) para todo (x1 ; x2 ; :::; xn ) 2 X . (b) f x1 ; x2 ; :::; xn ; b denota la distribución de la muestra: la dis- tribución conjunta de las variables aleatorias X := (X1 ; X2 ; :::; Xn ). Ejemplo 1. Bernoulli (continuación). Armados con un lema del capítulo 11, que dice que una suma de variables aletorias distribuidas Bernoulli IID es Binomialmente distribuida, podemos proceder a derivar la distribución muestral de los estimadores (a) - (e). En vista del hecho de que todos estos estimadores son funciones lineales de la muestra, podemos deducir que sus distribuciones muestrales son todas Binomiales. Todo lo que resta es obtener su media y varianza utilizando las propiedades deX E(:) (véase el capítulo 3). Por ejemplo, la distribución muesn 1 b Xi es Binomial con media y varianza: tral de n = n i=1 E bn V ar bn = 1 n = 1 n E 2 Xn i=1 Xn i=1 Xi = V ar (Xi ) = 1 n n , 1 n 2 (n (1 )) = 1 n (1 ). Estos resultados se obtienen usando la independencia de la muestra y las propiedades de la media y la varianza (ver capítulo 3). Por lo tanto, las distribuciones muestrales son las siguientes: 416CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES (a) b1 = Bi ( ; (1 (b) b2 = Bi ; 12 (1 ) ; 1), );2 , (d) bn = Bi (e) bn+1 = Bi ; n n+1 (1 ) ;n n , (1 ) ; n(n+1) 2 ;n , (1 ) n (b) b2 = Bi ; 31 (1 );3 , (f) bn+2 = Bi n+2 ; n(n+2) 2 ;n . Estos resultados distribucionales sugieren que los estimadores (a) - (d) tienen distribuciones muestrales con la misma media (igual al parámetro que pretenden estimar), pero diferentes varianzas. La varianza de bn es menor que cualquiera de los otros, para cualquier tamaño muestral n > 3. En efecto, la varianza de bn es n veces más pequeña que la varianza de las variables aleatorias en en la muestra! La distribución muestral de bn+1 no está centrada en , pero su varianza es menor que la de los otros. Sobre la base de su distribución muestral, bn parece ser el mejor estimador de en este grupo. Este argumento intuitivo de mejor estimador se formalizará en la próxima sección. Ejemplo 2. Normal (continuación). Utilizando el lema 2 del capítulo 11, que dice que la suma de variables aleatorias Independientes Normalmente variables es Normalmente distribuida, podemos deducir que para el modelo Normal las distribuciones muestrales de los estimadores (i) - (vi) son: (i) b1 = N ( ; 1), (ii) b2 = N ; 21 , (iii) b3 = N (0; 2), (iv) bn = N ; n1 , n n n n (v) bn+1 = N n+1 (vi) bn+2 = N n+2 ; (n+1) ; (n+2) 2 , 2 . Por razones intuitivas bn parece ser el mejor estimador en este grupo porque su distribución muestral tiene una media igual a (el parámetro 2 que tiene por objeto estimar) y su varianza V ar (bn ) = n es n veces más pequeña que la varianza de las variables aleatorias individuales V ar (Xi ), i = 1; 2; :::; n. En la …gura 12.1 podemos ver cuánto se reduce la varianza por un tamaño muestral tan pequeño como n = 12. Este es un resultado importante que a menudo es explotado por diversas técnicas de muestreo tales como los métodos Monte Carlo y bootstrap (véase el capítulo 11.8). Figura 12.1. Xi ~N (0; 2 ) frente a bn ~N (0; 2n ) para 2 = 4, n = 12. NOTA: el lector perspicaz habrá notado que los mejores estimadores en los modelos Normal y Bernoulli coinciden. La pregunta que surge naturalmente es: ¿Es una coincidencia que para los parámetros y de los modelos XnBernoulli 1 Xi ? y Normal, respectivamente, el mejor estimador parece ser n i=1 8.3. PROPIEDADES DE MUESTRA FINITA 417 El hecho de importancia es que hay una buena razón para este resultado. En ambos casos el parámetro que queremos Xn estimar es la media de la dis1 tribución E(X) y el mejor estimador n Xi es la media muestral. La i=1 idea de la estimación de un momento de la distribución usando el correspondiente momento muestral tiene una larga historia en la estadística que se remontan al siglo XIX (véase el capítulo 13, sección 2). 8.3 8.3.1 Propiedades de muestra …nita Motivación: el estimador ideal Como mostramos en la sección anterior, es muy fácil de…nir estimadores. Esto plantea el problema de elegir el mejor entre estos estimadores. Dado que los estimadores son funciones de la muestra (variables aleatorias) ellas son variables aleatorias en sí mismas. Por lo tanto, cualquier discusión de mejor estaría relacionadaa con su distribución. El problema de la de…nición de un buen estimador se asemeja a una situación en la que un arquero está parado al pie de una colina con el objetivo en el otro lado de la colina más allá de su visión. Lo que tiene que hacer es diseñar una estrategia (regla) en relación con los factores dentro de su control, tales como el ángulo de disparo y la potencia de tiro, lo cual asegurará que la ‡echa caiga lo más cerca que sea posible del objetivo. El modelador tiene que elegir una regla (un estimador) de una manera que garantice la proximidad al valor desconocido del parámetro . Con el …n de motivar a algunas de las propiedades óptimas de los, vamos 418CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES a considerar en primer lugar el concepto del estimador ideal. Idealmente, queremos tener un estimador, por ejemplo: = h (X), que toma sólo un valor ( 0 el verdadero valor de ), con probabilidad uno, independientemente de la realización muestral. Es decir, la distribución muestral de toma la forma: P( = 0) = 1, es decir, es igual a 0 con probabilidad uno; tiene una distribución degenerada. En la …gura 12.2 podemos ver el estimador ideal y lo que parece ser una buena aproximación de su distribución muestral. Figura 12.2 La distribución del estimador ideal aproximación. y una posible "buena" En cuanto a la analogía del arquero, estimador ideal equivale a un procedimiento que asegure que el arquero acierte al blanco cada vez. Desafortunadamente, para un dado tamaño muestral n, no existe tal estimador.Estimadores factibles generalmente proporcionan diferentes estimaciones para diferentes realizaciones muestrales. Por lo tanto, necesitamos tener en cuenta criterios de optimización que se basen en un distribución muestral no degenerada del estimador en cuestión. El mejor entre tales estimadores será el que más se aproxime al estimador ideal. ¿Cómo formalizar el concepto más próximo al estimador ideal? En vista del hecho de que ningún estimador factible podría aproximar la distribución muestral del estimador ideal (siendo degenerada), vamos a 8.3. PROPIEDADES DE MUESTRA FINITA 419 considerar aproximaciones basadas en los dos primeros momentos. Heurísticamente, podemos ver el estimador ideal en términos de sus dos primeros momentos: (i) E ( ) = 0, (ii) V ar ( ) = 0. Esto sugiere que un estimador óptimo será uno cuya media está localizada en el verdadero valor del parámetro que pretende estimar y su varianza es cero. Para un tamaño de muestra …nito n, la segunda propiedad no puede ser emulada por los estimadores factibles, pero cuando n tiende a in…nito algunos estimadores pueden de hecho emularla. Debido a esto podemos distinguir entre las propiedades de muestra …nita (válidas para cualquier n) y propiedades asintóticas (válidas cuando n tiende a in…nito). Insesgamiento Formalizamos la propiedad de localización en la forma de insesgamiento. Una estimador b se dice que es un estimador insesgado de si su distribución muestral tiene una media igual al parámetro 0 que tiene por objeto estimar, es decir, E b = 0. De lo contrario u se dice que es sesgado, el sesgo se de…ne por: ð b; 0 = E b 0. NOTA: Para evitar notación engorrosa, el subíndice de 0 será omitido cuando no parezca no ser necesario. Ejemplo 1. (continuación) En el caso de los anteriores estimadores (a) - (f), podemos ver que b1 ; b2 ; b3 y bn son estimadores insesgados de pero bn+1 y bn+2 no. El sesgo de estos estimadores es: 1 1 , (f) ð bn+2 = . (e) ð bn+1 = n+1 n+2 ¿Signi…ca esto que los estimadores bn+1 y bn+2 son inferiores a los otros estimadores? Como se muestra a continuación, la respuesta no es tan obvia como parece a primera vista, debido a que el insesgamiento no es la única propiedad, o incluso la propiedad más deseable para buenos estimadores. 420CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES Otras propiedades relacionadas con los momentos de orden superior suelen ser más importantes. El concepto de insesgamiento es intuitivamente atractivo, pero no deja de tener sus problemas. 1. Estimadores insesgados no siempre existen. Ejemplo 2 Considere el modelo Exponencial simple: [i] MG estadístico: Xk = 1 + uk , k 2 N. [ii] Modelo de probabilidad: = ff (x; ) = f exp f xg , > 0; x > 0gg ; [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. Se puede demostrar (véase Schervish (1995), p. 297) que ningún estimador insesgado de existe! 2. Estimadores insesgados no son invariantes a transformaciones de los parámetros desconocidos. Es decir, si bn := h (X) es un estimador insesgado de , es decir, E bn = , entonces, en general, para # = g ( ), donde g (:) : bn 6= #. E # ! bn = g bn : y# Ejemplo 3. Exponencial (continuación). Considere el modelo Exponencial simple como se especi…có anteriormente. Hemos visto que ningún estimador insesgado X de existe, pero podemos n 1 1 bn = demostrar que para # = , el estimador # Xi es insesgado. Esto n i=1 se sigue del hecho de que: Xn bn = 1 E # E (Xi ) = i=1 n 1 n Xn i=1 #= 1 n# = #. n E…ciencia La idea de que la distribución muestral debe ser lo más concentrada que sea posible alrededor del verdadero valor de se puede formalizar en términos de la varianza de la distribución muestral de un estimador. Esta propiedad se conoce como e…ciencia: qué tan disperso está el estimador alrededor del 8.3. PROPIEDADES DE MUESTRA FINITA 421 verdadero valor de . Consideramos dos tipos de e…ciencia: e…ciencia relativa y e…cienciaompleta. b de , se dice E…ciencia relativa. Para dos estimadores insesgados b y # b si: que b es relativamente más e…ciente que # V ar b b . V ar # Ejemplo 1. Bernoulli (continuación). En el caso de los estimadores insesgados b1 ; b2 ; b3 y bn , b2 es relativamente más e…ciente que b1 , b3 es relativamente más e…ciente que b2 y bn es relativamente más e…ciente que b3 , es decir, V ar bn V ar b3 V ar b2 V ar b1 . La e…cacia relativa no es una propiedad muy valiosa, porque la comparación es siempre relativa a algunos estimadores alternativos especí…cos. Esto, sin embargo, sugiere que un estimador que es mejor que algunos estimadores terribles no es necesariamente un buen estimador. Por lo tanto, la pregunta que inmediatamente viene a la mente es si existe un punto más bajo a partir del cual la varianza del estimador no puede pasar. Esto plantea la cuestión de la e…ciencia absoluta o total. El desafío de diseñar una cota absoluta inferior se cumplió con éxito en 1945- 6 por dos pioneros de la estadística moderna H. Cramer (1946a) y C. R. Rao (1945). Utilizando diferentes enfoques ambos llegaron a la misma conclusión. La cota absoluta inferior para los estimadores insesgados se relaciona con un concepto introducido por Fisher (1922a) y, posteriormente, llamado información de Fisher. Información de Fisher para la muestra En el contexto de la teoría de la Probabilidad de…nimos información en el contexto de nuestro universo de discurso, el espacio de probabilidad (S; =; P (:)), de una manera muy sencilla. Cualquier forma de conocimiento que reduce = a un cierto subconjunto del mismo, se considera como información. Es decir, sabiendo que nuestro espacio de eventos se ha reducido de = a =1 donde: =1 se considera como información. =, 422CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES En la inferencia estadística, la información tiene que ver con cómo el modelador utiliza la información para sacar conclusiones relacionadas con el mecanismo estocástico que dió origen a los datos. Intuitivamente, la información tiene que ver con lo bien que el modelador puede …ltrar la información sistemática que sale de los datos observados. El grado de nuestra utilización de la información sistemática de los datos será re‡ejado en la precisión de nuestras estimaciones y pruebas estadísticas relativas a los parámetros desconocidos . Una medida de tal información es la información de Fisher para la muestra de los modelos de probabilidad regulares. Modelos regulares probabilidad. Se dice que un modelo de probabilidad es regular si la distribución de la muestra f (x; ) := (x1 ; x2 ; :::; xn ; ) satisface las siguientes condiciones de regularidad: (Rf1) el espacio de parámetros es un subconjunto abierto de Rm , m < n, (Rf2) el soporte de la distribución: X0 := fx : f (x; ) > 0g es la misma para todo 2 , (Rf3) @Inf@ (x; ) existe y es …nita para todo 2 , x 2X0 , (Rf3) h ((X) podemos intercambiar diferenciación e integración, es decir, @ @ Z Z Z Z h ((X) f (x; ) dx1 dx2 ; :::; dxn h ((X) = @ f (x; ) dx1 dx2 ; :::; dxn < 1. @ La primera condición excluye los puntos fronterizos para garantizar que las derivadas (de ambos lados de un punto) existan. Para este tipo de modelos regulares de probabilidad podemos proceder a de…nir la información de Fisher para la muestra que está diseñada para proporcionar una medida de la información emitida por la muestra para un parámetro 2 . La información de Fisher para la muestra (X1 ; X2 ; :::; Xn ) se de…ne por:. ( ) 2 dInf (x; ) . (12.3) In ( ) := E d Hay varias cosas que NOTAR sobre este concepto. (1) Surgen di…cultades cuando el rango de X depende de ; véase el ejemplo 4 anterior. 8.3. PROPIEDADES DE MUESTRA FINITA 423 (2) Bajos las condiciones de regularidad (I) - (III) se puede demostrar que: ( ) 2 dInf (x; ) d2 Inf (x; ) . In ( ) := E =E d d 2 Esto a menudo proporciona una manera más conveniente para obtener la información de Fisher y por lo tanto la cota inferior de Cramer-Rao. (3) La forma de la información de Fisher depende fundamentalmente del modelo estadístico postulado y no tiene nada que ver con estimadores o estadísticos de prueba. Por ejemplo, en el caso de una muestra independiente: E df (x; ) d = Xn i=1 df (x; ) d . en el caso de la muestra aleatoria la información de Fisher toma la forma aún más simple: ( ) 2 dInf (x; ) In ( ) = nI ( ) := nE , d donde f (x; ) representa la función de densidad de cualquier variable aleatoria Xk IID, k = 1; 2; :::; n y: ) ( 2 dInf (x; ) , I ( ) := E d representa la información de Fisher para una observación individual. Su dependencia de la forma del modelo de probabilidad puede ser ilustrada en el caso de una muestra aleatoria de una distribuciónNormal (un parámetro): Xk ~N ( ; 1), k = 1; 2; :::n, es decir, f (x; ) = 1 e 2 1 (x 2 )2 , d f (x; ) = (x d ) , I ( ) = 1, In ( ) = n. NOTA: el término información de la muestra proviene del hecho de que la varianza de la mejor estimador insesgado es igual a la inversa de ésta. A medida que la información aumenta esto reduce la varianza y por lo tanto se gana más información acerca de . 424CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES La desigualdad de Cramer-Rao. Utilizando la información de Fisher para la muestra Cramer (1946a) y Rao (1945) propusieron una cota inferior absoluta para estimadores insesgados. Cota inferior de Cramer-Rao. Asumiendo que la información de Fisher para la muestra existe y In ( ) > 0 para todo 2 , la varianza de cualquier estimador de un parámetro , por decir, b, no puede ser menor que la inversa de In ( ), es decir, V ar b 1 CR ( ) := In ( ) := ( E dInf (x; ) d 2 ) 1 . (12.4) En el caso de que el modelador se interese en alguna función diferenciable de , por ejemplo q ( ) y qb ( ) es un estimador de q ( ), la cota inferior de Cramer-Rao adopta la forma: Var (b q ( )) 1 CR (q ( )) := In (q ( )) := 1 d E (q ( ))2 d In 1 ( ) . (12.5) Utilizando (12.5) podemos ampliar la cota inferior de Cramer-Rao para el caso de cualquier estimador, por ejemplo e (no necesariamente insesgado): Var b 0 @ d E b db 12 ( A E dInf (x; ) d 2 ) 1 . (12.6) para todo estimador e de . El siguiente ejemplo ilustra la utilidad de la condición Rf2 para la derivación de la cota inferior de Cramer-Rao. Ejemplo 4 Considere el modelo Uniforme simple: [i] MG estadístico: Xk = E (Xk ) + k , k 2 N. [ii] Modelo de probabilidad: = f (x; ) = 1 ; 2 (0; 1) ; 0 < x < ; [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. En este caso, el rango de X depende de y la condición de regularidad Rf2 no se cumple. Si utilizamos la cota mínima de Cramer-Rao (C-R) en 8.3. PROPIEDADES DE MUESTRA FINITA 425 este caso vamos a obtener resultados muy engañosos, porque lo que parece ser una cota mínima C-R: dInf (x; ) dIn = d d 1 n = dIn ( nIn ) = d n ) In ( ) = n 2 , en realidad no es aplicable. E…ciencia completa. Una estimador insesgado b se dice que es un estimador plenamente e…ciente si su varianza alcanza la cota mínima C-R: V ar b = CR ( ) := In 1 ( ) . Una condición necesaria y su…ciente para que un estimador insesgado b de alcance este límite es que b se pueda expresar en la forma: b = h (x) d In f (x; ) , d (12.7) para alguna función h (x). Ejemplo 2. Normal (continuación) En el caso del modeloNormal (un parámetro), la distribución de la muestra toma la forma: f (x; ) := 1 2 n exp ( 1X (xi 2 i=1 n )2 ) , In f (x; ) = n In 2 2 1X (xi 2 i=1 n La primera y segunda derivadas toman la forma: d In f (x; ) X = (xi d i=1 n ), d2 In f (x; ) = d 2 n. Por lo tanto, In ( ) = n y la cota mínima C-R es CR ( ) := In 1 ( ) = n1 , n X 1 lo que con…rma que el estimador bn = n Xi es un estimador totalmente i=1 e…ciente. En este caso se cumple la igualdad (12.7) ya que: 1 d In f (x; ) 1X )= = (Xi n d n i=1 n (bn ). )2 . 426CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES Ejemplo 1. Bernoulli (continuación) Como mostramos anteriormente, la distribución de la muestra para el modelo de Bernoulli es: n X f (x; ) := n X xi (1 i=1 (1 xi ) . ) i=1 Por lo tanto: In f (x; ) = d In f (x; ) = d 2 d In f (x; ) = d 2 2 E d In f (x; ) d 2 = n X i=1 n X i=1 n X ! xi In xi ! i=1 ! n (1 ) xi n X + [1 i=1 1 1 2 n X [1 i=1 n X [1 i=1 ! xi ] In (1 ! xi ] xi ] (1 ! 1 ) ). . 2 1 (1 . ) . Esto se sigue del hecho que: E n X i=1 xi ! =n , E n X [1 ! xi ] i=1 =n n X E (xi ) = n (1 ), i=1 y entonces: (1 ) . n Si volvemos a los estimadores (a) - (d) para , podemos ver que el único estimador insesgado de , que es plenamente e…ciente es bn , ya que: CR ( ) = (1 ) (1 ) = = CR ( ) . n n Ejemplo 4? . Uniforme (continuación) max (X1 ; X2 ; :::; Xn ) de . Se Considere el estimador insesgado bn = n+1 n puede demostrar que la distribución muestral del estadístico de mayor orden V ar bn = 8.3. PROPIEDADES DE MUESTRA FINITA 427 n 1 Y := max (X1 ; X2 ; :::; Xn ) es f (y; ) = ny n , 0 < y < (ver capítulo 10). El uso de este, nos lleva a la conclusión errónea de que bn es un estimador super plenamente e…ciente, pues: n+1 E bn := n Z 1 y ny n 1 n 0 = , V ar bn := 2 2 n (n + 2) < n2 . 2 en el supuesto de que In 1 ( ) := n2 es la cota mínima. Por supuesto, este argumento es erróneo porque la información de Fisher no se puede de…nir en el caso de la distribución Uniforme debido a que las condiciones de regularidad no se cumplen. Estimadores mínimo ECM Las medidas anteriores de e…ciencia nos permite elegir entre estimadores insesgados pero no ofrecen una guía sobre la cuestión de elegir entre un estimador sesgado y uno insesgado tal como bn+1 , bn+2 y b1 ; b2 ; b3 , respectivamente, en el contexto del modelo de Bernoulli. Esto es interesante porque los estimadores plenamente e…cientes e insesgados no siempre existen y los estimadores insesgados no siempre son buenos estimadores. Hay casos en los que podemos elegir un estimador sesgado en lugar de uno insesgado, porque el primero tiene menor varianza. En el caso de los anteriores b1 ; b2 y b3 , podemos ver que su varianza puede ser considerablemente mayor que la de bn+1 , bn+2 para cualquier valor razonable de n. ¿Cómo podemos comparar estimadores sesgados e insesgados? b no debemos usar su Si queremos penalizar el sesgo de un estimador #, varianza como una medida de su dispersión, ya que esto pasa por alto el b 6= 0 . En su lugar, debemos utilizar una medida de la hecho de que E # variación en torno a 0 . La medida más ampliamente utilizada es el Error Cuadrático Medio de…nido en = 0 como: b ECM #; 0 := E b # 2 0 . NOTE que en el caso de un estimador insesgado b, ECM b; pero en el caso de un estimador sesgado: 0 = V ar b , 428CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES b ECM #; 0 := E b # b +E # b E # h b + g #; b = V ar # 2 0 0 i , donde el sesgo se ha de…nido anteriormente para ser: b #; 0 b =E # 0. Esto se puede deducir directamente de la de…nición de la ECM (veri…quelo!). Un estimador b se dice que es un estimador mínimo ECM de si: ECM b; b ECM #; 0 , b y todos los valores de . para cualquier otro estimador # Ejemplo 1. Bernoulli (continuación) En términos del ECM, bn+1 , bn+2 son mejores estimadores de b1 ; b2 y b3 , ya que para n > 3: ECM bn+1 n = (1 (n + 1)2 n (1 )+ 2 = (n + 1)2 ECM bn+2 = n (1 (n + 2)2 n (1 )+ 2 = (n + 2)2 2 )+ (n + 1) ECM bi ; i = 1; 2; 3, 2 )+ (n + 2) ECM bi ; i = 1; 2; 3, y la mayoría de los valores de . Además, ECM bn+1 >ECM bn+2 . Inadmisibilidad de los estimadores. La anterior propiedad de mínimo ECM puede ser utilizada como una extensión de las formas de la e…ciencia b2 y # b1 , de…nidas anteriormente. En el caso de cualesquiera dos estimadores, # si: 8.3. PROPIEDADES DE MUESTRA FINITA b2 ECM # 429 b1 ECM # para todo ECM bn+1 para todo 2 , b2 domina a # b1 en el sentido de ECM y se dice que # b1 es decimos que # inadmisible. Ejemplo 1. Bernoulli (continuación) En el caso de bn+1 , bn+2 : ECM bn+2 2 [0; 1] , y por lo tanto bn+1 es inadmisible. Sin embargo, ambos estimadores alcanza sus respectivas cotas inferiores de Cramer-Rao: E bn+1 E bn+2 = n n+1 , = n n+2 , dE b db dE b db = n n+1 , = n n+2 . Por lo tanto, de (12.6) las cotas inferiores de Cramer-Rao para estos estimadores sesgados son: CR bn+1 CR bn+2 n n+1 2 = n n+2 2 = (1 n ) (1 n ) = n (1 ) 2 , (n + 1) = n (1 ) 2 . (n + 2) que son iguales a sus respectivas varianzas. Hay otro sentido en el que bn+1 , bn+2 son estimadores mucho mejores que los estimadores insesgados b1 ; b2 y b3 . Esto surge del hecho de que las varianzas de b1 ; b2 y b3 no sólo son más grandes que las de bn+1 , bn+2 , sino que ellas no disminuyen a medida que se añaden observaciones adicionales a la muestra. Esto nos lleva convenientemente a las propiedades asintóticas de los estimadores. Llamamos a tales propiedades asintóticas porque, a diferencia de 430CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES las anteriores propiedades de muestra …nita que se re…eren a la distribución muestral …nita f b; x , ellas se re…eren a las propiedades de sucen o1 siones de distribuciones de muestreo f bn ; x . En pocas palabras, las n=1 propiedades asintóticas equivalenX a extender los teoremas límite discutidos n en el capítulo 9 (para la función Xk ), al caso de funciones arbitrarias k=1 bn := h (X1 ; X2 ; :::; Xn ). 8.4 Propiedades asintóticas Debido a que el estimador ideal de…nido por P ( = ) = 1, no es posible para un tamaño de muestra n …jo, al modelador le gustaría tener estimadores que alcancen su forma ideal a medida que el tamaño de la muestra aumenta hacia in…nito. Es decir, estimadores cuya distribución muestral se aproxima a la distribución muestral ideal P ( = ) = 1, en un sentido probabilístico cuando n ! 1. El sentido probabilístico en términos del cual esto se puede lograr asintóticamente viene en dos versiones: convergencia en probabilidad y convergencia casi segura encontradas en relación con la Ley de los Grandes Números (LGN) discutida en el capítulo 9. La convergencia en probabilidad, asociada a la Ley Débil de los Grandes Números da lugar a la propiedad conocida como consistencia, mientras que la convergencia casi segura da lugar a la propiedad conocida como consistencia fuerte. Además, el Teorema Central del límite a menudo puede ser utilizado para determinar la distribución de bn := h (X1 ; X2 ; :::; Xn ) cuando n ! 1. Este último puede ser utilizado como una aproximación de la distribución de muestra …nita del estimador en cuestión. Cabe señalar una vez más que sin una distribución de muestreo no es posible la inferencia estadística. 8.4.1 Consistencia Una estimador bn se dice que es un estimador consistente de , si para cualquier " > 0: lim P n!1 bn P < " = 1, representado por: bn ! (12.8) 8.4. PROPIEDADES ASINTÓTICAS 431 Esto se lee "el límite de la probabilidad del evento que bn di…era del verdadero por menos de alguna constante positiva " > 0, tiende a uno cuando n tiende a in…nito"; véase el capítulo 9. OBSERVACIONES: (i) bn en esta de…nición es sinónimo de un estimador genérico y no el estimador particular utilizado en el ejemplo 1; el subíndice n se utiliza para destacar el papel del tamaño de la muestra. (ii) En cierto sentido, la consistencia es una extensión de la LGN para las funciones de la muestra, por ejemplo h (X1 ; X2 ; :::; Xn ), que no sea la suma. (iii) En el caso de que bn tenga una varianza acotada, podemos comprobar su consistencia utilizando la desigualdad de Chebyshev (ver capítulo 3): P bn Esto se debe a que E bn " 2 1 2 E bn . "2 es simplemente el error cuadrado medio 2 E (bn ) de bn . Por lo tanto, si ECM bn ! 0 cuando T ! 1, entonces !0 "2 y (12.8) se mantiene. i2 h , podemos ver = V ar bn + bn ; Usando la de…nición ECM bn ; que: ECM bn ! 0 si V ar bn ! 0 y bn ; ! 0. Esto sugiere dos condiciones fácilmente veri…cables para que bn sea un estimador consistente de cuando los momentos necesarios de su distribución muestral existen: (a) limn!1 E bn = , (b) limn!1 V ar bn = 0. Esto sugiere que en el caso de que bn tenga una varianza acotada, podemos comprobar su consistencia mediante la comprobación de las anteriores condiciones (su…cientes): ellas son sólo condiciones su…cientes debido a que bn puede ser consistente, aunque su varianza no podría existir. El concepto de consistencia basado en (a) - (b) se llama a veces consistencia en media cuadrática. Ejemplo 1. Bernoulli (continuación) 432CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES En el caso de los estimadores b1 ; b2 y b3 y sabemos que son insesgados de modo que (i) se cumple automáticamente. Sin embargo, dado que: (a) V ar b1 = (1 1 ) , (b) V ar b2 = (1 2 1 ) , (b) V ar b3 = (1 3 ), podemos deducir que ninguno de estos estimadores cumple la segunda condición, y por lo tanto todos ellos son inconsistentes. Otra forma de ver esto es que el segundo momento de las distribuciones muestrales de estos estimadores no cambia cuando n cambia. En otras palabras, para la precisión de estos estimadores no importa si uno tiene n = 5 o n = 105 . En contraste, los estimadores (bn+1 ; bn+2 ), son consistentes, ya que: (e) lim E bn+1 n!1 (f ) lim E bn+2 n!1 = = lim E n!1 lim E n!1 n (n + 1) n (n + 2) = , lim V ar bn+1 = lim E n!1 n!1 = , lim V ar bn+2 = lim E n!1 n!1 n (1 ) 2 (n + 1) n (1 ) 2 (n + 2) Es importante hacer hincapié en el hecho de que la consistencia es una propiedad mínima. Es decir, cuando un estimador es inconsistente, no es digno de una consideración sreia, pero el hecho de que sea consistente no lo hace un buen estimador. Hay numerosos ejemplos de estimadores consistentes, sin embargo, que son prácticamente inservibles (ver Rao (973), p. 344). Los estimadores b1 ; b2 y b3 , siendo inconsistentes se pueden eliminar de la lista de buenos estimadores de y la elección está entre bn y bn+1 . Dado que bn es a la vez sesgado y plenamente e…ciente y bn+1 es sesgado, preferimos bn a bn+1 . Ejemplo 2. (continuación) Uso de las distribuciones muestrales de los estimadores (i) - (vi), derivado anterioremte, podemos ver que: = 0, = 0, 8.4. PROPIEDADES ASINTÓTICAS 433 , V ar (b1 ) = 1, es decir, insesgado pero consistente, 1 (ii) E (b2 ) = , V ar (b2 ) = , es decir, insesgado pero consistente, 2 (iii) E (b3 ) = 0, V ar (b3 ) = 2, es decir, sesgado e inconsistente, 1 (iv) E (bn ) = , V ar (bn ) = , es decir, insesgado plenamente e…ciente, n n n , es decir, sesgado pero inconsistente, (v) E bn+1 = , V ar bn+1 = n+1 (n + 1)2 n n (vi) E bn+2 = , V ar bn+2 = , es decir, sesgado pero inconsistente, n+2 (n + 2)2 Xn Xi es el De la comparación anterior podemos concluir que bn = n1 i=1 mejor estimador de . NOTA. En Spanos (p. 617) en (vi) dice: V ar bn+1 ; debería decir V ar bn+2 . Es importante señalar que en el caso de los ejemplos anteriores (y en muchos casos en la práctica), utilizamos sólo sus primeros dos momentos cuando se decide la optimalizdad de los distintos estimadores; la distribución muestral no es explícitamente utilizada. Para efectos de la inferencia estadística en general, sin embargo, a menudo requerimos la distribución muestral en sí, no sólo sus primeros dos momentos. (i) E (b1 ) = 8.4.2 Consistencia fuerte Un estimador bn se dice que es un estimador fuertemente consistente de si: P lim bn = n!1 n a:s: = 1 representado por: bn ! n. Esta es exactamente la versión asintótica de la propiedad de estimador ideal de…nida anteriormente. El concepto de convergencia subyacente a consistencia fuerte se conoce como convergencia casi segura (c.s.). En el capítulo 9 se muestra que la convergencia caso segura es más fuerte que la convergencia en probabilidad y no es sorprendente que la primera implique la segunda. Ejemplo 1. Bernoulli (continuación) 434CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES En el caso del estimador bn de n discutido anteriormente, podemos utilizar LGN fuerte de Borel (véase el capítulo 9) directamente para deducir a:s: que: bn ! n Ejemplo 2. Normal (continuación) En el caso del estimador bn de discutido anteriormente, podemos utilizar la segunda LGN fuerte de Kolmogorov (véase el capítulo 9) para deducir que: a:s: bn ! n . Como se mencionó anteriormente, la consistencia (débil y fuerte) es una extensión de la Ley de los Grandes NúmerosX a funciones de la muestra, por n ejemplo h (X1 ; X2 ; :::; Xn ), más allá de suma Xi . De la misma manera, i=1 la siguiente propiedad asintótica, conocida como Normalidad asintótica, es una extensión del Teorema Central del Límite (TCL), discutido en el capítulo 9. 8.4.3 Normalidad asintótica Una estimador bn de n se dice que es asintóticamente Normal si podemos encontrar una sucesión de normalización fcn g1 n=1 tal que: cn bn ~N (0; V1 ( )) , para V1 ( ) 6= 0 a OBSERVACIONES: (a) "~" se lee "asintóticamente distribuida". a (b) V1 ( ) denota la varianza asintótica de bn . (c) La sucesión fcn g1 n=1 es una función de n. Por ejemplo, en el caso p de una muestra aleatoria la sucesión de normalización se de…ne por cn = n. Ejemplo 1. Bernoulli (continuación) En el caso de los estimadores bn y bn+1 de discutidos anteriormente, podemos demostrar que tienen la misma distribución asintóticamente Normal: p n bn ~N (0; (1 a )) , p n bn+1 ~N (0; (1 a )) . (12.9) Ejemplo 2. Normal (continuación) En el caso de los estimadores bn y bn+1 de discutidos anteriormente, podemos demostrar que tienen la misma distribución asintóticamente Normal: 8.4. PROPIEDADES ASINTÓTICAS p n (bn ) ~N (0; 1) , a p 435 n bn+1 ~N (0; 1) . a (12.10) Para estimadores consistentes y asintóticamente normales (CAN) de , utilizamos la varianza asintótica para elegir entre ellos. La varianza asintótica más pequeña posible, en el caso de que las condiciones de regularidad de Cramer-Rao se cumplen, está dada por la información asintótica de Fisher de…nida en términos de: ! 2 1 In ( ) , CR1 ( ) = [I1 ( )] 1 . I1 ( ) = lim n!1 cn donde CR1 ( ) signi…ca cota inferior asintótica de Cramer-Rao. Ejemplo 1. Bernoulli (continuación) En el caso del modelo de Bernoulli se mostró anteriormente que E n . Por lo tanto: (1 ) I1 ( ) = lim n!1 1 n n (1 ) 1 = (1 ) ) CR1 ( ) = (1 d2 In f (x; ) d 2 ). Ejemplo 2. Normal (continuación) En el caso del modelo Normal discutido anteriormente, hemos demostrado d2 In f (x; ) que E = n. Por lo tanto: d 2 I1 ( ) = lim n!1 8.4.4 1 n = 1 ) CR1 ( ) = 1. n E…ciencia asintótica Un estimador CAN bn de cn bn se dice que es asintóticamente e…ciente si: ~N 0; [I1 ( )] a 1 , asumiendo I1 ( ) 6= 0. Es decir, la varianza asintótica es igual a la cota mínima asintótica de Cramer-Rao. Ejemplo 1. Bernoulli (continuación) En el caso del modelo de Bernoulli hemos demostrado anteriormente que los estimadores en (12.9) son, en efecto asintóticamente e…cientes. = 436CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES Ejemplo 2. Normal (continuación) En el caso del modelo normal hemos demostrado anteriormente que los estimadores de (12.10) son, en efecto asintóticamente e…cientes. Esto sugiere que los estimadores CAN bn y bn+1 son asintóticamente e…cientes, porque alcanzan cota mínima asintótica de Cramer-Rao. Como podemos ver el estimador bn se se se distingue porque satisface todas las propiedades deseables, muestra …nita y asintótica. 8.4.5 Distribuciones muestrales y propiedades de los estimadores La discusión en esta sección y las anteriores giraba principalmente en torno a los dos primeros momentos de las distribuciones muestrales de los estimadores. Esto podría dar la impresión errónea de que la distribución muestral en sí misma no es necesaria y sólo los dos primeros momentos son requeridos. De…nimos insesgamiento y e…ciencia en términos de la media y la varianza de la distribución muestral de un estimador, respectivamente. Aunque la de…nición de la consistencia: lim P n!1 bn < " = 1, / pone de relieve el papel de la distribución muestral en la evaluación de la sucesión de probabilidades: fpn g1 n=1 , donde pn := P bn <" , la forma más conveniente de probar la consistencia es a menudo el comportamiento asintótico del ECM; este último involucra sólo los dos primeros momentos. Del mismo modo, las otras propiedades asintóticas implican la distribución muestral, pero a menudo esto no es explícitamente claro. El hecho de importancia es que en la inferencia estadística lo que a menudo se necesita es la distribución muestral del estimador mismo, no sólo los primeros momentos. Nuestro enfoque en los dos primeros momentos se basa principalmente en la conveniencia. Hay varias otras propiedades que no están de…nidas en términos de los momentos de la distribución muestral, sino en algunas otras características numéricas. Insesgamietno de moda (mode unbiasedness). Un estimador bn de se dice que es moda insesgada si la distribución muestral de b1 tiene una 8.4. PROPIEDADES ASINTÓTICAS 437 moda que coincide con el parámetro desconocido : Moda bn = , para toda 2 . Ejemplo 4 *. Uniforme (continuación) Considere el estimador de de…nido por: b[n] = max (X1 ; X2 ; :::; Xn ) , Se puede demostrar (véase el capítulo 11) que la distribución muestral de b[n] es: f (x; ) = nxn n 1 ,0<x< . En vista del hecho de que para cualquier > 0 la función de densidad f (x; ) tiene un máximo único en el punto h ( ) = , el estimador b[n] es un estimador moda insesgada de : Moda bn = , para toda 2 (0; 1) . Ejemplo 2. Normal (continuación) En el caso del normal hemos mostrado anteriormente que el esXmodelo n 1 timador bn = n Xk es media insesgada con una distribución muestral k=1 Normal. Esto último implica que bn también es estimador moda y mediana insesgada. Además utilizando las características numéricas de la distribución muestral, hay otras maneras de de…nir la cercanía de un estimador al verdadero valor del parámetro que ponen de relieve el papel de la distribución muestral con mayor claridad. Por ejemplo, podemos de…nir el concepto de la cercanía de dos estimadores b y e del parámetro desconocido al veradero valor 0 utilizando la siguiente medida de concentración: P b 0 c P e 0 c , para todo c > 0. En el caso donde la condición anterior sea válido y la desigualdad estricta se cumpla para algunos valores de c > 0, entonces se dice que b está más concentrado en torno a 0 que e. Como podemos ver, la comparación anterior involucra directamente las distribuciones muestrales de los dos estimadores. 438CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES Una medida de la cercanía a lo largo de estas líneas es la medida de cercanía de Pitman (ver Pitman (1937)): 1 , para todo 2 . 2 Estas medidas no se proseguirán más allá en este libro, pero se señalan para destacar el papel de la distribución muestral en la evaluación de la optimalidad de los estimadores. P 8.5 b 0 < e 0 El modelo Normal simple En la sección anterior utilizamos dos ejemplos muy simples en un intento por mantener las di…cultades técnicas en un mínimo y concentrarse en las ideas y conceptos. En esta sección utilizamos el modelo (posiblemente) más ampliamente discutido en estadística en un esfuerzo por ilustrar algunos de los puntos más …nos de los buenos estimadores. 8.5.1 La distribución muestral de la media de la muestra Ejemplo 5 Considere el modelo Normal simple (dos parámetros): Modelo Normal simple [1] MG estadístico: Xk = + "k , k 2 N, [2] Modelo de probabilidad: = ff (y; )g = 1 p exp 2 1 2 2 (x )2 ; := ; 2 2R R+ , [3] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. Ya hemos decidido que el mejor estimador de , en el caso de un modelo Normal de un parámetro es: 1 Xn Xk . (12.11) k=1 n El argumento intuitivo de por qué este estimador resulta ser un buen estimador fue dado anteriormente como la coincidencia entre la distribución bn = 8.5. EL MODELO NORMAL SIMPLE 439 y los momentos muestrales, lo que llamamos el principio de los momentos coincidentes (moment matching principle) en el próximo capítulo. Es decir, parece como si bn resulta ser un estimador óptimo debido a que el parámetro desconocido es la media de la distribución Normal (E(X) = ) y el estimador anterior es justamente la media de la muestra (X1 ; X2 ; :::; Xn ). Usando el mismo argumento intuitivo para 2 , donde sabemos que V ar (X) = 2 , debemos considerar la varianza de la muestra como un estimador posible de 2 : b2n = 1 Xn (Xi i=1 n bn )2 . (12.12) Utilizando el lema 2 del capítulo 11 se puede deducir que la distribución muestral de bn toma la forma: 2 bn ~N ; n . Esta distribución muestral se puede utilizar para establecer las propiedades de este estimador. En el caso del modelo normal de un parámetro ( 2 = 1), hemos visto que bn es un estimador insesgado, plenamente e…ciente y fuertemente consistente de . Lo único que cambia es la cota inferior de CramerRao límite, pero como se muestra a continuación bn es totalmente e…ciente ya que alcanza la nueva cota mínima. Considere la nueva distribución de la muestra: 440CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES 1 1 Xn p exp (xi )2 , 2 i=1 2 2 n 1 Xn n 2 In (2 ) In (xi i=1 2 2 2 2 1 Xn (xi ), 2 n f x; ; 2 = In f x; ; 2 = @In f (x; ; @ @In f (x; ; @ 2 @ 2 In f (x; ; @ 2 2 @ In f (x; ; @ ( 2 )2 @ 2 In f (x; ; @ 2@ 2 2 2 2 2 ) ) ) ) ) = )2 , i=1 n 1 Xn (xi + i=1 2 2 2 ( 2 )2 1 Xn ( 1) , 2 = = )2 , i=1 n 1 Xn (xi )2 , 6 i=1 2 4 1 Xn = (xi )2 . 4 = i=1 En este caso, la matriz de información de Fisher para la muestra toma la forma: In ; 2 0 B E := B @ E @ 2 In f (x; ; @ 2 2 f (x; ; @ 2@ 2 @ 2 In ) E ) @ 2 In f (x; ; @ 2@ 2 f (x; ; 2 @ 2 In E @( 2 )2 ) ) 1 C C A y la cota mínima de Cramer-Rao para cualesquiera estimador insesgado de ( ; 2 ) es: CR Debido a que E ; @ 2 In f (x; ; @ 2@ 2 2 := In ) ; 2 1 . = 0, la matriz de información de Fisher toma la forma: In ; 2 n := 2 0 0 n 2 4 , y así la cota mínima de Cramer-Rao para cualesquiera estimadores insesgados de los dos parámetros es la siguiente: 8.5. EL MODELO NORMAL SIMPLE 441 2 4 . (12.13) n n Como podemos ver, bn alcanza esta cota. Además, es fácil demostrar que bn goza de todas las propiedades óptimas asintótica: consistencia, Normalidad asintótica y e…ciencia: 2 CR ( ) := p 8.5.2 n (bn 2 , CR := 2 ) ~N 0; . a La distribución muestral de la varianza de la muestra Con el …n de derivar la distribución muestral de b2n observamos que ésta es una función cuadrática de variables aleatorias normalmente distribuidas; (X1 ; X2 ; :::; Xn ) se asume que son NIID y bn es normal como una combinación lineal de estas variables aleatorias. Usando el lema 4 (la suma de los cuadrados de n variables aleatorias independientes Normal estándar es chi cuadrado con n grados de libertad), podemos deducir que: dado que Zi = Xi ~N (0; 1) ) Xn i=1 Zi2 = Xn 2 Xi ~ i=1 2 (n) . Nuestro estimador, sin embargo, no es exactamente de esta forma porque involucra bn en lugar de y los dos son muy diferentes; el primero es una variable aleatoria; el último es una constante. Sin embargo, podemos demostrar que: Xn i=1 Xi 2 = Xn 2 bn Xi i=1 +n bn 2 . (12.14) (ver Spanos (1986), p. 240). Teniendo en cuenta (12.11) podemos deducir que: n bn 2 ~ 2 (n) . Xn 2 2 Xi bn Además, podemos demostrar que n bn y son indei=1 pendientes ya que este último se puede escribir como una función únicamente 442CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES de (X2 bn ; X3 bn ; :::; Xn bn ), y estas cantidades son independientes de bn . En primer lugar, observamos que: Xn i=1 (Xi Xn bn )2 = (Xi bn )2 + (Xi bn )2 i=2 hX n i2 X n = (Xi bn ) + (Xi i=2 por el hecho de que es decir: Xn i=1 bn ) = 0 y entonces (Xi (Xi b2n = g (X2 i=2 bn ; X3 bn ; :::; Xn bn )2 , bn ) = Xn i=2 (Xi bn ) . La independencia de b2n y bn se deduce del hecho de que cuando cualesquiera variables aleatorias son independientes también lo son las funciones de ellas (véase el capítulo 4). En vista del hecho de que el lado izquierdo de (12.14) se distribuye como 2 (n) y el lado derecho se compone de dos variables aleatorias independientes y una tiene una distribución 2 (1), se sigue del lema (8b) (véase el capítulo 11) que: n b2n 2 = Xn bn Xi i=1 2 ~ 2 (n 1) . (12.15) Usando el hecho de que la media de una variable aleatoria distribuida chi cuadrado es igual a los grados de libertad (ver Apéndice A), podemos deducir 2 que E n b2n = (n 1), lo que implica que b2n es un estimador sesgado de 2 debido a que: E b2n = (n 1) 2 2 . n Debido a este sesgo, el estimador insesgado alternativo: s2n := n n 1 b2n = n n 1 Xn i=2 (Xi 6= bn )2 , E s2n := 2 , a menudo se pre…ere en la práctica. La cuestión que se plantea es si s2n , además de insesgadez, tiene otras ventajas sobre b2n . Para obtener la varianza del estimador insesgado s2n dos usamos el resultado de que la varianza de una variable aleatoria distribuida bn ), 8.5. EL MODELO NORMAL SIMPLE 443 chi cuadrado es igual al doble de sus grados de libertad (ver Apéndice A), para deducir que: V ar (n 1) s2n 1) ) V ar = 2 (n 2 s2n 2 4 = > CR n 1 2 2 4 = . n Es decir, el estimador s2n no alcanza la cota mínima de Cramer-Rao. La búsqueda de estimadores e…cientes plenamente con la cota mínima de Cramer-Rao ha dejado a dos preguntas importantes sin respuesta. En primer lugar: ¿qué hacer cuando las condiciones de regularidad no se cumplen? Una respuesta parcial a esta es proporcionada por la desigualdad de Chapman Robbins (véase Stuart y Ord (1991)). En segundo lugar: ¿cómo jusgamos a los estimadores, como s2n , que no alcanzan la cota mínima? La respuesta es proporcionada por (12.7), puesto que 2 @In f (x; ; @ 2 ) 1 Xn (xi i=1 n n + 2 4 = lo que implica que: 1 Xn (xi i=1 n )2 2 2 4 n = )2 @In f (x; ; @ 2 2 2 ) , , (12.16) Por lo tanto, el húnico de 2 que alcanza la cota i Xnestimador 2insesgado (xi ) , que constituye un estimador, sin mínima CR ( 2 ) es n1 i=1 embargo, sólo si es conocido. En otras palabras, sabemos que no hay estimador insesgado que alcance esta cota a menos que sea conocido. En vista de esta información: ¿cómo podemos juzgar la optimalidad de s2n ? Comparemos s2n con b2n = (nn 1) s2n : (i) V ar b2n = n 1 2 n (ii) ECM b2n = 2(n 1) n2 2 4 n 1 + = 2(n 1) n2 n 1 n 2 4 , 2 2 = 2(n 1) n2 4 . Esto nos permite a…rmar que en términos del Error Cuadrático Medio b2n tiene menor concentración en torno al verdadero valor de 2 que s2n : ECM b2n = 2 (n 1) n2 4 < ECM s2n = 2 n 4 1 . 444CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES A su vez, s2n no alcanza la cota mínima de Cramer-Rao para estimadores sesgados ya que: CRB 2 = = dE b2n d 2 n 1 n !2 ( E 2 2 4 n 2 d In f (x; ; d 2 = 2 (n 1)2 n3 2 ) ! 4 ) 1 . Después de todas las comparaciones anteriores entre los estimadores b2n y s2n no somos más acertados en cuanto a cuál es el óptimo en términos de su concentración en torno al verdadero valor de 2 , principalmente porque la cota mínima de Cramer-Rao no puede ser alcanzada por cualquiera de estos estimadores. Sabemos por (12.16) que no existe estimador insesgado de 2 que alcance la CR ( 2 ). La pregunta que surge naturalmente en esta etapa es: ¿existe algún otro estimador que esté más cerca a este límite? La respuesta es proporcionada por otra cota inferior que es más alcanzable. Bhattacharyya (1946), viendo que la desigualdad de Cramer-Rao se basa d f (x; ) 1 , proen la correlación entre un estimador h (X) y d In df (x; ) = f (x; ) d puso una desigualdad más nítida sobre la base de la correlación múltiple entre h (X) y: d f (x; ) 1 d 2 f (x; ) 1 d 3 f (x; ) 1 d m f (x; ) 1 ; ; ; :::; ,m f (x; ) d f (x; ) f (x; ) f (x; ) d m d 2 d 3 En lugar de ser capaz de expresar la diferencia bn como una función lineal de la primera derivada (véase (12.7)), se extiende para incluir mayores derivadas en el sentido de que: bn = h( ) Xm 1 d k f (x; ) ak k=1 f (x; ) d k ,m 1, (12.17) para una función h ( ) y las constantes k = 1; 2; :::; m. En el caso de que (12.7) se cumpla, podemos usar la cota inferior Bhattacharyya: Xm cij ( ) ai aj , para algún m 1, V ar b i;j=1 1. 8.5. EL MODELO NORMAL SIMPLE i 445 j d f (x; ) d f (x; ) 1 1 donde cij = E , los coe…cientes se def (x; ) f (x; ) d i d j …nen por el sistema de ecuaciones: Xm cij ( ) aj , i = 1; 2; :::; m. ;j=1 En el caso donde [cij ( )]m i;j=1 es de…nida positiva con un inverso de la m ij forma [c ( )]i;j=1 , la cota mínima Bhattacharyya es: Xm V ar b cij ( ) , para algún m 1. i;j=1 En nuestro caso tenemos dos parámetros desconocidos y no podemos usar (12.17) directament; debe ampliarse para incluir los términos de productos cruzados. Para mostrar que el estimador insesgado s2n alcanza esta cota observemos que: @ f (x; ; 1 f (x; ) @ 2 1 @ 2 f (x; ; f (x; ) @ 2 2 2 @In f (x; ; 2 ) @ 2 n 1 Xn n 2 = + (x b ) + (b i n i=1 2 2 2 4 2 4 n @In f (x; ; 2 ) @In f (x; ; 2 ) + : = @ 2 @ 2 n n = + 4 (bn )2 . 2 ) : ) = )2 , 2 Tomando la siguiente combinación lineal de estas dos derivadas podemos mostrar que: s2n 2 = 2 4 n n n 1 @In f (x; ; @ 2 2 ) 1 @ 2 f (x; ; f (x; ) @ 2 1 2 (n 1) lo que con…rma que el estimador insesgado s2n es el mejor en el sentido de se alcanza la cota mínima Bhattacharyya. En términos de sus propiedades asintóticas ambos estimadores b2n y s2n disfrutan de todas las propiedades asintóticas óptimas: consistencia, Normalidad asintótica y e…ciencia asintótica: p n b2n 2 ~N 0; 2 a 4 , p n s2 2 ~N 0; 2 a 4 , 2 ) 446CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES en vista del hecho de que la matriz asintótica de información de Fisher es: I1 8.5.3 ; 2 := lim n!1 1 In n ; 2 1 := 2 0 0 1 2 . 4 Reduciendo el sesgo: estimadores navaja (jackknife estimators) Hay ocasiones en la práctica, donde necesitamos reducir el sesgo de ciertos estimadores. Sea bn (X) un estimador sesgado del parámetro desconocido y el sesgo expresado en la siguiente forma conveniente: ak ( ) a1 ( ) a2 ( ) + + + (12.19) 2 n n nk NOTE que en muchos casos encontrados hasta el momento el sesgo es de la forma de primer orden, es decir, E bn (X) = a1 ( ) . n Plegamiento (Jackkni…ng). Considere la sucesión de estimadores de especi…cada con n 1 observaciones: E bn (X) en 1 = X(k) , k = 1; 2; :::; n, (12.20) donde X(k) := (X1 ; X2 ; :::; Xk 1 ; Xk+1 ; :::; Xn ). Es decir, utilizamos la misma fórmula que la de bn (X), pero dejamos la k-ésima observación fuera en todo momento. Procedemos a de…nir el promedio (la media aritmética) de estos estimadores: Xn en (X) = 1 en 1 X(k) , (12.21) k=1 n luego tomamos una combinación convexa de éste y el estimador original para de…nir el estimador navaja: n (X) = nbn (X) (n 1) en (X) . Quenouille (1956) demostró que para el nuevo estimador de primer orden desaparece, es decir, (12.22) n (X) el sesgo 8.5. EL MODELO NORMAL SIMPLE 447 a2 ( ) ak ( ) + + (12.23) 2 n nk En el caso donde el sesgo fue de primer orden el estimador navaja es ahora insesgado. Además, el sesgo de primer orden se puede estimar utilizando: h i Sesgo bn (X) = (n 1) en (X) bn (X) . (12.24) E n (X) = Ejemplo Considere el modelo Normal como se especi…có anteriormente y la estimación del parámetro 2 . Apliquemos el estimador navaja en el caso del estimador sesgado: 1 Xn (Xk X)2 . k=1 n Como se muestra anteriormente, el sesgo de este estimador es de primer orden y toma la forma: 2 n := 2 E b2n 2 . n Xn 2 1 Xn 1 Xn bn (X) = 1 (Xi X)2 = Xi2 X . i i=1 i=1 i=1 n n n2 !2 Xn Xn 1 1 en 1 X(k) = Xi2 + Xi . i=1 i=1 (n 1) (n 1) i6=k i6=k Xn en (X) = 1 en 1 X(i) i=1 n 1 1 Xn 1 Xn 1 Xn 2 Xi2 X Xi2 = + (n 2) i i=1 i=1 i=1 n n n n (n 1)2 = . Después de la sustitución de éstos en el estimador navaja obtenemos: n (X) = = Xn i=1 Xi2 1 (n 1) Xn 1 Xn Xi i=1 n i=1 Xi2 2 1 n (n 1) n 1 n Xn Xn i=1 i=1 Xi Xi2 + 2 = (n 1 n (n 1) Xn 1 1) i=1 Como podemos ver el estimador navaja coincide con el estimador s2 discutido en la subsección anterior. Xn i=1 Xi Xi2 + X 2 (n 2) X n (n 1) 448CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES La idea de sentido común en la que se basa el concepto de plegamiento (jackkni…ng) es casi trivial, pero su intuición intrínseca es de gran alcance. Veamos cómo trabaja el plegamiento para eliminar el sesgo de primer orden de un estimador. A partir de la forma general de la sesgo como se indica en (12.19) se puede argumentar que el estimador en 1 X(k) satisface la relación similar pero basada en (n 1) observaciones: E nbn (X) (n E en (X) 1) en (X) a2 ( ) a1 ( ) + + n 1 (n 1)2 a2 ( ) = + n (n 1) = ak ( ) (n 1)k + Lo que hace de plegamiento una idea muy interesante, sin embargo, es el hecho de que involucra la operación de suavizamiento en la forma de promedio como se muestra en (12.21). Esto se ve mejor en el contexto del ejemplo donde el suavizamiento equivale a un promedio de los promedios: Xn en en (X) := 1 k=1 n 1 X(k) = 2 Xn 1 Xn 4 1 1 Xi2 + i=1 (n i=1 n 1) (n 1)2 i6=k Xn Esta idea tiene sus raíces en la teoría matemática de sumabilidad Cesaro de series divergentesnque se remontao a …nales de los siglos 19 y 20. Hay Xn 1 casos en que la serie sn = ak diverge, pero su versión suavizada k=1 n=1 o1 n Xn 1 sk converge (véase Knopp (1947)). Además, cuando la n = n k=1 n=1 n n o o1 X Xn 1 n serie sn = ak converge entonces n = n1 sk también k=1 k=1 n=1 n=1 converge al mismo límite, es decir: si lim sn = s ) lim n!1 n!1 n = s. Concluimos esta sección haciendo notar que la idea de plegamiento se puede extender fácilmente a la reducción de sesgo de orden superior. i=1 i6=k Xi !2 3 5. 8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *449 8.6 Estadísticos su…cientes y estimadores óptimos * La discusión de estimadores óptimos hasta el momento no ha arrojado ninguna luz sobre las circunstancias bajo las cuales se pueden obtener mejores estimadores. Regresando a la analogía de un arquero parado al pie de una colina con el blanco en el otro lado más allá de su visión, sólo hemos discutido la cuestión de la evaluación de la cercanía una vez que la ‡echa ha sido clavada. La cuestión de la elaboración de una estrategia relativa a los factores dentro de su control, tales como el ángulo de disparo y la potencia de tiro a …n de garantizar que la ‡echa se clave tan cerca del blanco como sea posible, no se ha discutido. La propiedad de los estimadores conocida como su…ciencia aborda esta pregunta y en términos de esta analogía se propone colocar una especie de red a la ‡echa diseñada de una manera que garantice una cobertura óptima. 8.6.1 Su…ciencia La idea de su…ciencia se remonta a Fisher (1922b), pero el concepto se formalizó a principios de 1930. El concepto de su…ciencia plantea la posibilidad de reducir la dimensionalidad de los datos observados sin ninguna pérdida de información. La información de la muestra original viene en forma de un conjunto de datos x := (x1 ; x2 ; :::; xn ), considerado como una realización de una muestra en particular X := (X1 ; X2 ; :::; Xn ) especi…cada a priori por el modelo estadístico S := ( ; X). Un estadístico h (X), una función de…nida en el espacio muestral X (no necesariamente un estimador), es su…ciente si resume toda la información relevante para el modelo estadístico postulado S. A menudo se llama un estadístico su…ciente para , porque el modelo estadístico se determina una vez que se determina. Intuitivamente, la su…ciencia se re…ere a qué tan bien un estimador (una función de un estadístico) utiliza la información de la muestra en relación con el modelo estadístico postulado . La utilidad del concepto de su…ciencia surge del hecho de que el estadístico h (X) es a menudo de la dimensión mucho menor que la muestra n-dimensional. Antes de embarcarse en las de…niciones es importante explicar la intuición en que se basa la propiedad mediante un ejemplo. Ejemplo 1. Bernoulli (continuación) En el caso del modelo de Bernoulli, sabemos que la muestra X := (X1 ; X2 ; :::; Xn ) 450CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES se compone de variables aleatorias IID distribuidas Bernoulli con P (Xk = 1) = y P (Xk = 0) = (1 ). Una realización de la muestra incluirá una sucesión de ceros y unos, por ejemplo, x := (0; 1; 0; 0; 1; :::; 1) . En vista del hecho de que la localización exacta de unos en esta realización es irrelevante debido a los supuestos IID, es intuitivamente evidente que el conocimiento de la suma es equivalente a conocer Xn la realización exacta. En este caso parece que el estadístio h (X) = Xk contiene toda k=1 la información relevante en relación con el modelo estadístico de Bernoulli . Es decir, el conocimento de la realizaciónX completa x es equivalente al n xk . El resutlado …nal es conocimiento únicamente de la suma h (x) = k=1 que en vez de portar los n números de la realización de la muestra portamos sólo uno, su suma; una reducción signi…cativa en la dimensión. Por lo tanto, intuitivamente parece que este estadístico es su…ciente para (o ). Este ejemplo pone de mani…esto la conveniencia de un estadístico su…ciente, mostrando que el estadístico en si mismo contiene la misma información sobre que la muestra original, pero tiene una dimensión mucho menor. El atractivo de un estadístico su…ciente surge del hecho de que si existe un mejor estimador entonces es necesariamente una función del estadístico su…ciente. Además, la búsqueda de un estadístioa su…ciente se puede utilizar como el primer paso para de…nir un estimador óptimo. Vamos a discutir todos estos resultados iniciando con la de…nición de su…ciencia. Intuitivamente, la su…ciencia de un estadístico Y = h (X) para un parámetro signi…ca que cuando el valor de la estadística se da, cualquier otra forma de información es irrelevante para . Esto sugiere que el conocimiento de la realización de toda la muestra X, cuando el valor de Y = h (X) es conocido, no añade información relevante para (o ). La formalización de esta idea intuitiva da lugar a la siguiente de…nición de la su…ciencia. Su…ciencia. Se dice que un estadístico h (X) es un estadístico su…ciente para si y sólo si la distribución condicional de la muestra X dado h (X) = y no depende de : f (xjh (x) = y; ) = q (x) , para todo x 2X, 2 . (12.25) Esta de…nición, aunque intuitiva, no provee al modelador de una forma directa de encontrar estadísticos su…cientes. El modelador tiene que conjeturar h (X) y luego proceder a veri…car (12.25), lo cual no parece trivial. El 8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *451 siguiente teorema, debido a Halmos y Savage (1949), simpli…can la tarea del modelador considerablemente. Teorema de factorización. Un estadístico h (X) se dice que es un estadístico su…ciente para si y sólo si existen funciones g (h (X) ; ) y v (X), donde la primera depende de X sólo a través de h (X), mientras que la segunda es libre de , tal que la distribución de los factores de la muestra en el producto: f (x; ) = g (h (x) ; ) v (x) , para todo x 2X, 2 . (12.26) Encontrar un estadístico su…ciente usando este teorema implica la inspección de la distribución de la muestra y algo de imaginación para poder darse cuenta de la factorización. Ejemplo 2. Normal (continuación) Considere el modelo Normal (un parámetro) ( 2 se supone conocido): f (x; ) = n Y k=1 = = 1 (x k 2 2 1 p e 2 exp 2 n 2 1 2 2 2 exp 2 2 1 Xn 2 k=1 1 Xn 2 n 2 1 = n 2 1 2 )2 k=1 2 exp (xk x+x (xk x)2 + n (x 2 1 Xn 2 k=1 )2 (xk )2 )2 . Este resultado se puede utilizar para factorizar la distribución de la muestra en (12.26): h f (x; ) = exp n n (x 2 2 2 ) oi " n 2 1 2 2 exp 2 1 Xn 2 k=1 (xk 2 x) donde el primer entre corchetes depende de sólo a través del Xfactor n 1 estadístico X = n Xi y el segundo es libre de . En vistas del teorema i=1 anterior, el estadístioa es su…ciente para . Es importante NOTAR que el teorema de factorización está directamente relacionado con la condición necesaria y su…ciente para e…ciencia plena de un estimador b de en el sentido de que la condición: # . 452CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES b d In f (x; ) d = h( ) , implica que la distribución de la muestra tiene la forma (12.26). Esto sugiere que existe un estimador e…ciente si y sólo si existe un estadístico su…ciente; lo contrario, sin embargo, no es necesariamente cierto. Ejemplo 5. Normal de 5 (continuación) Considere el modelo Normal (de dos parámetros) ( 2 supuesto desconocido). Usando la igualdad: Xn k=1 2 (Xk ) = hX n k=1 Xk2 i hX n 2 k=1 i Xk + n 2 [h1 (X)] + n 2 , = h2 (X) 2 podemos proceder a factorizar la distribución de la muestra en: f x; ; 2 n 2 1 = " = exp 2 2 n 2 1 2 2 2 k=1 1 exp 2 1 Xn 2 2 )2 (xk h2 (X) = g h (x) ; ; # 2 [h1 (X)] + n 2 2 [1] . Xn Xn Xk2 , Xk , h2 (X) := Por lo tanto, los estadísticos h1 (X) := k=1 k=1 son su…cientes para los parámetros desconocidos ( ; 2 ). Utilizando estos estadísticos podemos de…nir los estimadores: bn = s2n : 1 n = h1 (X) = 1 n 1 1 n h2 (X) Xn k=1 Xk , (h1 (X))2 = 1 n 1 Xn k=1 (Xk bn )2 , v (x) para los parámetros ( ; 2 ), respectivamente. En la sección anterior se demostró que estos dos estimadores son, en efecto, óptimos. Ejemplo 4. Uniforme (continuación) La distribución de la muestra en este caso toma la forma: 8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *453 f (x; ) = n Y 1 = 1 n , para 0 x[1] x[n] , k=1 donde X[1] = min (X1 ; X2 ; :::; Xn ) y X[n] = max (X1 ; X2 ; :::; Xn ) son los dos extremos para los estadísticos. Usando la función heaviside (pesantez): h (x) = 0, para x < 0, 1, para x 1, x[n] h x[1] . podemos expresar f (x; ) como: f (x; ) = 1n h Esto sugiere que X[n] es un estadístic o su…ciente para y en la búsqueda de estimadores óptimos debemos considerar las funciones de X[n] . Recordamos n al lector que utilizamos el estimador bn = n+1 X[n] , en una de las ilustraciones relacionadas con la cota mínima de Cramer-Rao. 8.6.2 Su…ciencia e insesgamiento Volvamos a nuestro objetivo principal que es diseñar una estrategia para la de…nición de estimadores óptimos. Veremos en esta sección que existe una relación directa entre estadísticos su…cientes y estimadores insesgados. Intuitivamente, la relación entre su…ciencia y insesgamiento es que si el modelador comienza con algún estimador insesgado arbitrario y a continuación de…ne otro estimador por condicionamiento de un estadístico su…ciente, el estimador resultante a menudo tendrá una varianza más pequeña que el estimador insesgado original. Con el …n de deducir esta relación recordamos dos propiedades importantes de la esperanza condicional para cualesquiera dos variables aleatorias X y Y tales que V ar (X) < 1, V ar (Y ) < 1: (a) E (E (Y jX)) = E (Y ), (b) V ar (Y ) = E (V ar (Y jX)) + V ar (Y jX) = E (Y ); véase el capítulo 7, sección 3. Teorema de Rao-Blackwell (véase Blackwell (1947), Rao (1949)). Sea b un estimador insesgado de E b = , y sea h(X) un estadístico su…ciente para . El estadístico de…nido por: e = E bjh(X) , satisface las siguientes propiedades: 454CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES (i) e es un estimador de , (ii) insesgado: E e = , (iii) relativamente más e…ciente que b: V ar e V ar b . La propiedad (ii) se deduce del hecho de que: h i b b E = E E jh(X) = E e = , y la propiedad (iii) a partir de: V ar b h i = V ar E bjh(X) + E V ar bjh(X) i h V ar e . = V ar e + E V ar bjh(X) El lector perspicaz podría preguntarse si la su…ciencia se requiere para los resultados que acabamos para tener, ya que no se usó la su…ciencia en la deducción de (ii) - (iii). El hecho de importancia es que e es un estimador (que no depende de parámetros desconocidos) precisamente porque h(X) es un estadístico su…ciente. El teorema de Rao-Blackwell proporciona una forma de mejorar un estimador insesgado, ofreciendo un estimador relativamente más e…ciente que el original, pero no nos dice nada acerca de la e…ciencia plena del estimador resultante. El modelador puede proceder a inspeccionar la cota mínima de Cramer-Rao, pero si el estimador resultante no la alcanza, ella no es acertada. 8.6.3 Su…ciencia mínima Los resultados anteriores sugieren que en la búsqueda de mejores estimadores insesgados la mejor estrategia para el modelador es comprobar la presencia de estadísticos su…cientes y, a continuación proceder a de…nir los estimadores óptimos en términos de estos estadísticos su…cientes usando el teorema de Rao-Blackwell o sólo inspiración. Sin embargo, la propia muestra X (y de cualquier función uno a uno de ella) es un estadístico su…ciente (el estadístico su…ciente trivial) y esta estrategia sólo será fructífera si se puede basar en un estadístico su…ciente que economice sobre las dimensiones. Esto lleva al concepto de estadístico su…ciente mínimo que alcanza la máxima reducción posible de datos sin pérdida de información. Teniendo en cuenta el hecho de 8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *455 que en la búsqueda de estimadores óptimos de debemos considerar las funciones de un estadístico su…ciente h (X), por ejemplo g (h(X)), llamamos al último estadístico necesario. El estadístico necesario no contiene necesariamente toda la información relevante en los datos. Pero cuando un estadístico es a la vez necesario y su…ciente debe ser un estadístico su…ciente mínimo. Estadístico su…ciente mínimo. Un estadístico su…ciente h (X) es mínimo si todo otro estadístico su…ciente g (X) es una función de él, es decir, para cualquier estadístico su…ciente g (X): g (X) = q (h (X)) para alguna función q (:) . Es importante tener en cuenta que para cualquier modelo estadístico, tal como se de…ne en este libro, siempre existe un estadístico su…ciente mínimo; sin excluir a la propia muestra en dimensión. Ni la de…nición de estadístico su…ciente ni el teorema de factorización proporciona una manera fácil de concebir estadísticos su…cientes. El siguiente resultado, sin embargo, proporciona una manera relativamente fácil de obtener estadísticos su…cientes mínimos. La idea se debe a Lehmann y Sche¤é (1950). Teorema de Lehmann-Sche¤é 1. Supongamos que existe un estadístico h (X) tal que para dos diferentes realizaciones de la muestra x y z (x 2X, z 2X), la razón: f (x; ) es libre de f (z; ) si y sólo si h (X) = h (Z) , entonces h (X) es un estadístico su…ciente mínimo para . Ejemplo 1. Bernoulli (continuación) En el caso del modelo Bernoulli, la razón: f (x; ) = f (z; ) Xn Xk=1 n k=1 xk (1 ) zk (1 ) Xn Xk=1 n k=1 (1 (1 xk ) zk ) = 1 Xn k=1 (xk zk ) , Xn Xn es libre de si y sólo si: Xk = Zk . Por lo tanto, el estadístico k=1 k=1 Xn Xk no sólo es su…ciente sino su…ciente mínimo. k=1 Ejemplo 5. Normal (continuación) 456CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES Considere el modelo Normal (de dos parámetros) ( razón: f (x; ; f (z; ; n 2 1 2 ) = 2) 2 2 n 2 1 2 2 = exp es libre de ( ; 2 Xn exp 2 n n 1 2 exp 2 h X n 1 2 2 k=1 1 2 k=1 Xn Xn x2k (xk (zk Xn k=1 k=1 2 desconocido). La o )2 o 2 ) i n hX n zk2 + 2 k=1 xk Xn k=1 ) si y sólo si: Xn Xn Zk2 ; Xk Zk . k=1 k=1 k=1 k=1 Xn Xn Xk no sólo son su…Xk2 , Por lo tanto, los estadísticos k=1 k=1 cientes, sino su…cientes mínimos. 8.6.4 Xk2 Xn Completitud Volviendo a nuestro objetivo principal que es encontrar estimadores óptimos utilizando estadísticos su…cientes, observamos que el concepto de estadístico su…ciente mínimo no puede garantizar la unicidad de este estimador porque cualquier función uno a uno de un estadístico su…ciente mínimo es también su…ciente y mínima. Para garantizar la unicidad de los estimadores óptimos necesitamos otra característica de los estadísticos su…cientes llamada exhaustividad. La exhaustividad es una propiedad de una familia de densidades e intuitivamente signi…ca que el único estimador insesgado de cero es cero sí mismo. La familia de densidades = ffX (x; ) ; 2 g se dice que es completa si, para cada función (X), se cumple la siguiente relación: E ( (X)) = 0 ) (X) = 0 (c.s.) para todo x 2 fx : fX (x; ) > 0g . Esta idea puede ser trasplantados sin cambios para el caso de la distribución de la muestra f (x; ), mediante la sustitución de X por la muestra X en la relación anterior. En el caso de un estadístico su…ciente, tenemos que de…nir la completitud en términos de la distribución de este estadístico. zk i , 8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *457 Completitud. Una estadístico su…ciente Y = h (X) se dice que es completo si la familia de las densidades Ģ:= ffY (y; ) ; 2 g es completa. NOTA: la utilidad de la propiedad de completitud se deriva del hecho de que si h (X) es un estadístico su…ciente completo y b = g (h (X)), un estimador insesgado de , es decir E (g (h (X))) = , entonces este estimador es único. La relación entre un estadístico su…ciente completo y un estadístico su…ciente mínimo es que un estadístico su…ciente completo es su…ciente mínimo (véase Lehmann y Sche¤é (1950)). Esto nos lleva al …nal de nuestra búsqueda de mejores estimadores insesgados mediante la utilización de estadísticos su…cientes. El resultado principal es dado por el siguiente teorema (véase Lehmann y Sche¤é (1955)). Teorema de Lehmann-Sche¤é 2. Sea h (X) un estadístico su…ciente completo para (o mejor, de un modelo estadístico S). Si existe un estimador insesgado b de , que es una función de h (X) (es decir, b = g (h (X))), entonces este estimador es el mejor y el único. Ejemplo 4. Uniforme (continuación En un intento de ilustrar algunos de los resultados anteriores, volvamos a la problemática del modelo Uniforme discutido anteriormente. En vista del hecho de que: E (X) = , 2 podría ser tentador usar la correspondencia entre los momentos Xn de la 1 b Xk . distribución y de la muestra para obtener el estimador = 2 n k=1 Este ciertamente no es un mal estimador porque es a la vez insesgado: E b =2 y consistente: 1 Xn (Xk ) k=1 n V ar b = = 2 n n 2 = , 2 3n ! 0 cuando n ! 1. Sin embargo, no es la mejor estimator. Sabemos de la discusión anterior que: 458CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES X[n] = max (X1 ; X2 ; :::; Xn ) , es un estadístico su…ciente para . Usando el teorema de Rao-Blackwell procedemos a de…nir el estimador: 1 Xn (Xk ) jX[n] k=1 n e = E bjX[n] = E 2 = n X[n] . n+1 Resulta que la familia de las densidades consideradas es completa y, por lo tanto, este estimador es el mejor estimador de insesgado de ; es también único. La principal desventaja de la estrategia anteriormente mencionada se encuentra en asegurar que un cierto estadístico su…ciente mínimo también es completo. Para hacerse una idea de las di…cultades considerar el caso relativamente simple en el ejemplo siguiente. Ejemplo 1. Bernoulli (continuación) Xn En el caso del modelo de Bernoulli el estadístico Sn := Xk es k=1 su…ciente mínimo, con una distribución muestral (véase el lema 1) de la forma: n s f (sn ; ) = s )n (1 s , 2 [0; 1] . Considere un estimador ÷ (X) tal que E (÷(X)) = 0, para todo Xn s=0 ÷ (X) n s s (1 )n s = 0, para todo 2 [0; 1]: 2 [0; 1]. Xn n s (1 s 0 es un polinomio en 1 con raíces a lo más n, es igual a cero si y sólo si: Xn ÷ (X) = 0 para todo s = 1; 2; :::; n. Esto sugiere que Sn := Xk también k=1 es un estadístico su…ciente completo. Combinando el teorema anterior con el de Rao-Blackwell, el modelador puede formar la siguiente estrategia: en el caso de que un estadístico su…ciente completo exista, ella debe comenzar con un estimador insesgado arbitrario y luego proceder a obtener la esperanza condicional dado el estadístico su…ciente; ver Casela y Berger (1990). Teniendo en cuenta el hecho de que la función g ( ) = s=0 ÷ (X) )n s = 8.7. ¿QUÉ VIENE A CONTINUACIÓN? 459 Volviendo a la analogía de un arquero parado al pie de una colina con el objetivo en el otro lado más allá de su visión, la cuestión de la elaboración de una estrategia relativa a los factores dentro de su control, ahora pueden ser contestada: conectar una red que llamamos un estadístico su…ciente completo sobre la ‡echa en un intento de especi…car un estimador insesgado. 8.6.5 Exponencial de la familia de distribuciones Hay una familia importante de densidades para la cual el problema de encontrar un estadístico su…ciente mínimo, que también es completo, es relativamente fácil. Esta es la familia exponencial (no el modelo exponencial). Familia exponencial de las densidades. Un modelo de probabilidad = ff (x; ) ; 2 g se dice que pertenece a la familia exponencial si la función de densidad se puede expresar en la forma: f (x; ) = c ( ) h (x) exp Xk i=1 gi ( ) i (x) , (a) c ( ) 0, (b) h (x) 0, (c) gi ( ), i = 1; 2; :::; k, funciones reales (sin x), (d) i (x), i = 1; 2; :::; k, funciones reales (sin ). Muchas distribuciones conocidas como la Normal, Gamma, Beta, Binomial, Poisson y Binomial Negativa pertenecen a esta familia. Para esta familia, los estadísticos: Xn i (xj ) , i = 1; 2; :::; k , j=1 son estadísticos su…cientes mínimos para (gi ( ), i = 1; 2; :::; k), y en el caso de que el número de parámetros desconocidos es es k, estos estadísticos son también completos. 8.7 ¿Qué viene a continuación? El objetivo de este capítulo ha sido formalizar el concepto de estimador óptimo. Usando el concepto intuitivo de estimador ideal motivamos las propiedades de muestra …nita de insesgamiento y e…ciencia y las propiedades asintóticas de consistencia, normalidad asintótica y e…ciencia asintótica. Usando el concepto de reducción óptima de la información relevante en los datos 460CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES motivamos la propiedad de su…ciencia. En el siguiente capítulo procedemos a discutir los métodos de estimación que a menudo dan lugar a los estimadores óptimos. 8.8 Ejercicios 1. Explique brevemente lo que hacemos cuando construimos un estimador. ¿Por qué un estimador es una variable aleatoria? 2. "De…nir la distribución muestral de un estimador es teórcamente trivial, pero deducirla es muy difícil". Discuta. 3. Para el modelo estadístico Bernoulli: (i) Discutir si las siguientes funciones constituyen estimadores posibles de : 1 1 (a) b1 = Xn ; (b) b2 = (X2 X1 ) ; (c) b3 = (X1 2 3 Xn Xn 1 1 (d) bn = Xi ; (e) bn + 1 = Xi . i=1 i=1 n n+1 X2 + Xn ) ; (ii) Para aquellos que constituyen estimadores obtienen sus distribuciones de muestreo. 4. Explique brevemente las propiedades de insesgamiento y e…ciencia de los estimadores. 5. "En la evaluación de la optimalidad de un estimador tenemos que observar solamente los dos primeros momentos de su distribución muestral." Discuta. 6. Explique brevemente qué es un estimador consistente. ¿Cuál es la manera más fácil de probar la consistencia de los estimadores con segundos momentos acotados? 7. Explique brevemente la diferencia entre consistencia débil y fuerte de los estimadores. 8. "La normalidad asintótica de un estimador es una extensión del Teorema Central del Límite para las funciones de la muestra más allá de la media muestral." Discuta. 9. Explique la diferencia entre e…ciencia completa y e…ciencia asintótica. 10. Explicar el concepto de estimador ideal y explicar intuitivamente cómo su de…nición se relaciona con las propiedades de insesgamiento, e…ciencia y consistencia. 8.8. EJERCICIOS 461 11. Explique la diferencia entre las cotas inferiores de Cramer-Rao y de Bhattacharyya. 12. Explique el concepto de su…ciencia. 13. Explique el concepto de estadístico su…ciente mínimo y cómo se relaciona con el mejor estimador insesgado. 14. Explique el teorema de Rao-Blackwell y cómo puede ser utilizado para obtener los mejores estimadores insesgados. 15. Considere el modelo estadístico normal (dos parámetros). (a) Derive (no conjeture!) las distribuciones muestrales de los estimadores siguientes: (i) b1 = Xn , (iii) b3 = (X1 Xn ) , 1 (X1 + X2 + X3 ) 3 1 Xn (iv) bn = Xi , i=1 n (ii) b2 = (SUGERENCIA: indicar explícitamente las propiedades de E (:) o cualquier lema que utilice). (b) Compare estos estimadores en términos de las propiedades óptimas, insesgamiento, e…ciencia y consistencia. Xn (Xi bn )2 y sb2n = c) Compare y contraste los estimadores b2n = n1 i=1 Xn 1 (Xi bn )2 , en términos de sus propiedades. n+1 i=1 462CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES Capítulo 9 Estimación II: métodos de estimación 9.1 Introducción En el capítulo anterior discutimos estimadores y sus propiedades. Las principales propiedades deseables de muestra …nita discutidas en el capítulo 12 fueron: Insesgamiento, E…ciencia, siendo la su…ciencia una propiedad relacionada con los modelos especí…cos de probabilidad. Las propiedades asintóticas deseables discutidas en el capítulo anterior fueron los siguientes: Consistencia, Normalidad Asintótica, E…ciencia Asintótica. El concepto de estimador ideal se usó como vara de comparación con el …n de mejorar la comprensión intuitiva de estas propiedades. La cuestión de cómo se pueden construir buenos estimadores se eludió en el capítulo anterior. El objetivo principal de este capítulo es examinar esta cuestión con cierto detalle discutiendo cuatro métodos de estimación: 1. El principio de momento de coincidencia, 2. El método de mínimos cuadrados, 3. El método de momentos y 4. El método de máxima verosimilitud. 463 464 9.1.1 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Una vista panorámica del capítulo En la sección 2 se discute una aproximación a la estimación que tiene un atractivo intuitivo, pero carece de generalidad. Llamamos a este procedimiento el principio de momento de coincidencia porque estimamos los parámetros desconocidos haciendo coincidir la distribución y los momentos de la muestra. La relación entre la distribución y los momentos de la muestra es también de interés en el contexto de los otros métodos. La sección 3 presenta el método de mínimos cuadrados, en primer lugar como un método de aproximación matemática y después como un método de estimación característico de la inferencia estadística moderna. En la sección 4 discutimos el método de momentos de Pearson y luego lo comparamos con el método paramétrico de momentos, una adaptación del método original para el paradigma actual de la inferencia estadística El método de máxima verosimilitud se discute en la sección 5. 9.1.2 Métodos de estimación: una visión preliminar La discusión que sigue se diferencia de la discusión de libros de texto tradicionales en una serie de formas que resumimos desde el principio. Se argumenta que el principio de momentos coincidentes surgio durante el siglo 19 y 20 como parte de la confusión general entre frecuencias relativas y probabilidades. La misma confusión impregna el método de momentos en la forma propuesta por Pearson en 1895, diseñado para utilizar los datos con el …n de elegir una descripción adecuada en la forma de una curva de frecuencias de la familia Pearson. Ambos procedimientos se desarrollaron en el contexto de lo que hoy llamamos estadística descriptiva. El método de Pearson, sin embargo, se adaptó más tarde para satisfacer a la aproximación moderna a la inferencia estadística. A …n de distinguir entre el método de Pearson y el método adaptado nos referimos a este último como el método paramétrico de momentos. Una tesis particular adoptada en la discusión que sigue es que todos los métodos de estimación se entienden mejor en el contexto del marco de referencia estadístico (paradigmas) en el que se desarrollaron por primera vez. En este sentido, el único método de estimación especí…camente desarrollado para el enfoque moderno de la inferencia estadística, que implica postular un modelo estadístico a priori y la interpretación de los datos como una realización del mecanismo estocástico descrito por este modelo, es el de máxima verosimilitud, propuesto por Fisher en la década de 1920; sus raíces 9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 465 se remontan a Fisher (1912). Los otros tres métodos se han desarrollado en el contexto de paradigmas diferentes y es importante tenerlo en mente cuando hablamos de estos métodos. El método de mínimos cuadrados, como una técnica de aproximación matemática (la aproximación de una función desconocida en un intervalo), se desarrolló a principios de 1800 en el contexto de un paradigma estadístico conocido como la teoría de errores. En la sección 3 proponemos una interpretación alternativa de los mínimos cuadrados como el equivalente muestral a la descomposición ortogonal usada para de…nir el concepto de mecanismo generador estadístico (MG) en el capítulo 7. El método de máxima verosimilitud (MV) fue desarrollado especí…camente para utilizar toda la información disponible en la fase de especi…cación de la modelación: el modelo estadístico y los datos observados. Por eso, el método MV tiene ciertas ventajas evidentes sobre los otros métodos. Por ejemplo, el principio de momentos coincidentes y el método de momentos con frecuencia producen estimadores menos e…cientes, ya que no utilizan toda la información disponible en el modelo estadístico; ellos ignoran parte de la información relativa al modelo de probabilidad. Esto puede explicarse por el hecho de que el paradigma en el contexto del cual estos métodos se han desarrollado, no implica postular un modelo estadístico a priori. En su lugar, la modelación procedió de los datos al mejor modelo descriptivo en el forma de una curva de frecuencias. Del mismo modo, mínimos cuadrados se desarrolló originalmente como una técnica de ajuste de curvas para las funciones de…nidas sobre un dominio determinado. La estructura probabilística se introdujo posteriormente en la formulación a través del error de aproximación de una manera no esencial. En contraste, el método de máxima verosimilitud ha sido diseñado para un enfoque donde el modelador postula un modelo estadístico a priori y los datos observados son vistos como una realización del mecanismo aleatorio especi…cado por el modelo estadístico postulado. 9.2 Principio de momentos coincidentes El principio de momento coincidentes no puede ser acreditado a ningún estadistico famoso porque se puede decir que el caso, esencialmente, surgió de una confusión fundamental entre los momentos de la distribución y los momentos de la muestra. En su artículo clásico, que sentó las bases de la inferencia estadística moderna, Fisher atribuye el abandono de las bases 466 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN teóricas de los métodos estadísticos a dos razones: (i) Una razón …losó…ca: ya que la estadística es "un tema en el que todos los resultados están sujetos a errores mayores o menores, la de…nición precisa de las ideas o conceptos es, si no imposible, al menos no una necesidad práctica" (Fisher (1922b), p. 311). (ii) Una razón metodológica: "ha ocurrido que en estadística una confusión puramente verbal ha di…cultado la formulación de los distintos problemas estadísticos; es costumbre aplicar el mismo nombre, media, desviación estándar, coe…ciente de correlación, etc, tanto al verdadero valor que nos gustaría conocer, pero sólo se puede estimar, como al valor particular al que queremos llegar por nuestros métodos de estimación" (Fisher (1922b), p. 311). Fisher señaló una confusión entre tres conceptos distintos: el momento de una distribución de probabilidad, su estimador y la estimación correspondiente basada en una realización de la muestra especí…ca. Una confusión provocada debido a la utilización del mismo término para los tres distintos conceptos. Desafortunadamente para la estadística esta elección de terminología inadecuada todavía impregna el tema. El precio de esta inadecuada y a menudo confusa terminología es pagado por los estudiantes y profesores de estadística que tienen que perder mucho tiempo valioso tratando de distinguir entre distintos conceptos que llevan implícita la misma terminología. La tabla 13.1 presenta tres grupos muy diferentes de momentos que llevan el mismo nombre. La primera columna presenta estos momentos en el contexto de la estadística descriptiva donde ellos representan formas de resumir los datos observados utilizando medidas de localización, dispersión, etc. Como tales, estos momentos se re…eren a los momentos de lo que llamamos las frecuencias relativas de los datos observados y que denotan sólo un resumen de números. Estos números deben compararse con los momentos de la muestra en la tercera columna, donde las fórmulas son idénticas aparte del hecho de que usamos letras mayúsculas en lugar de minúsculas para X. A pesar de la apariencia los momentos de la muestra son cualitativamente muy diferentes de los momentos de la estadística descriptiva. Los momentos de la muestra son funciones de una muestra (X1 ; X2 ; :::; Xn ), cuya estructura probabilística se determina a priori por el modelo estadístico elegido. Como tal, los momentos muestrales representan variables aleatorias en lugar de sólo los números como en el caso de los momentos de estadística descriptiva. Estos últimos, como señala Fisher, también di…eren cualitativamente de los valores particulares adoptados por los momentos muestrales basados en la realización 9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 467 de la muestra en particular, a pesar de que a menudo utilizamos notación idéntica; ellos representan un valor particular de una variable aleatoria no sólo un resumen de números. Por último, los momentos de una distribución de probabilidad se diferencian de todos esos otros momentos, en la medida en que representan constantes desconocidas que se de…nen en términos de funciones de densidad particulares. Optamos por de…nir estos momentos para variables aleatorias continuas en términos de integrales con el …n de hacer el contraste más evidente. Para variables aleatorias discretas los momentos crudos se de…nen a través de: X 0 r xr f (x) ; r = 1; 2; ::: r := E (X ) = x2RX Tabla 13.1 Momentos Lo que distingue a estos momentos de todos los demás es la presencia de una función de densidad particular en la de…nición. Como se ha dicho en el capítulo 3, los momentos de la distribución de probabilidad son a menudo la mejor manera de tratar con los parámetros desconocidos . Esto se sigue del hecho de que estos momentos dependen fundamentalmente de la naturaleza de la función de densidad, que a su vez es una función de y, por lo tanto, los momentos son funciones de . Esta relación se ejempli…ca en los momentos crudos siguientes: Z 0 r xr f (x; ) dx = 0r ( ) ; r = 1; 2; ::: r := E (X ) = x2RX La confusión entre los diversos usos del término momentos se ve agravada por el hecho de que en la inferencia estadística a menudo hablamos de los 468 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN momentos de los momentos de la muestra. En un intento por hacer frente a esta di…cultad, utilizamos la notación ( 0r (:) , r (:)) que nos permite ser especí…cos respecto a qué momentos nos estamos re…riendo cuando no es evidente por el contexto. Por lo tanto, la notación 0r X , r = 1; 2; :::, denota los momentos crudos de la distribución muestral de la media muestral. Durante los siglos 18 y 19 la distinción entre probabilidades y frecuencias relativas no existía; en la mente de los matemáticos de la época las dos coinciden. En vista de esto, no debería ser una sorpresa para nadie saber que la transición de la estadística descriptiva a la inferencia estadística en la primera parte del siglo 20, pasó casi desapercibida, incluso por pioneros como Karl Pearson (ver más adelante). Por lo tanto, la práctica endémica de confundir los momentos de la distribución y los momentos muestrales (estadística descriptiva) durante este período de transición, mucho más tarde se convirtió en el principio de momento coincidentes: la de…nición de estimadores, haciendo coincidir los momentos de la distribución con los momentos de la muestra. El principio de momentos coincidentes se lleva a cabo en dos pasos: Paso 1. Relacionar el parámetro desconocido con los momentos de la distribución en términos de los cuales se especi…ca el modelo de probabilidad, por ejemplo, = g ( 01 ; 0 2) . Paso 2. Sustituir los momentos muestrales en el lugar de los momentos de la distribución: 1 Xn 1 Xn Xi , b02 = Xi2 . i=1 i=1 n n es decir, construir un estimador de , a través de b =g b01 ; b02 . NOTA: vale la pena señalar en este procedimiento es al revés del utilizado por el Método de Momentos (véase más adelante), donde tenemos la relación especi…cada en términos de los momentos, por ejemplo 01 = h1 ( 1 ; 2 ), 02 = h2 ( 1 ; 2 ), sustituir los momentos muestrales en lugar de ( 01 ; 02 ) y resolver para ( 1 ; 2 ) para de…nir sus estimadores. Ejemplo 1. Considere el modelo Bernoulli simple: [i] MG estadístico: Xk = + "k , k 2 N, [ii] Modelo de probabilidad: = ff (x; ) = x (1 )1 x ; 2 [0; 1] ; x = 0; 1g, b01 = 9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 469 [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. Teniendo en cuenta el hecho de que para el modelo Bernoulli el parámetro desconocido coincide con la media de X: E (X) = , el principio de momentos coincidentes sugiere que un estimador natural de es la media muestral: Xn b= 1 Xi . i=1 n Ejemplo 2 Considere el modelo Normal simple: [i] MG estadístico: Xk = + uk , k 2 N, [ii] Modelo de probabilidad: = 1 f (x; ) = p exp 2 1 2 2 (x )2 ; := ; 2 2R R+ ; x 2 R , [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. Para el modelo Normal especi…cado anteriormente los parámetros desconocidos := ( ; 2 ) están relacionados con los momentos de distribución a través de: E (X) = , V ar (X) = 2 . El principio de momentos coincidentes propone la media muestral y la varianza muestral, respectivamente, como los estimadores evidentes de estos parámetros, es decir, b= 1 Xn 1 Xn Xi , b2 = (Xi i=1 i=1 n n b)2 . Ejemplo 3 Considere el modelo de regresión lineal Normal: [i] MG estadístico: Yt = 0 + 1 xt + ut , t 2 N, [ii] Modelo de probabilidad: 1 = f (yt jxt ; ) = p 2 exp 1 2 2 (Yt 0 2 1 xt ) ; := ; 2 2 R2 R + ; yt 2 R , 470 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN , [iii] Modelo muestral: Y := (Y1 ; Y2 ; :::; Yn ) es una muestra aleatoria extraída secuencialmente de f (yt jxt ; ), t = 1; 2; :::; T . En este caso los parámetros desconocidos están relacionados con los momentos de las variables aleatorias y y X a través de: 0 = E (Yt ) 1E (Xt ) , 1 Cov (Yt ; Xt ) , = V ar (Xt ) 2 (Cov (Yt ; Xt ))2 = V ar (Yt ) . V ar (Xt ) Mediante la sustitución de los momentos muestrales en lugar de los momentos de la distribución, obtenemos los siguientes estimadores del principio de momentos coincidentes: b =Y 0 1 x, b = 1 1 T XT t=1 1 T Yt XT t=1 Y (xt (xt x) x)2 1 XT , b2 = Yt t=1 T Y 2 En todos los casos anteriores los estimadores sugeridos por el principio de momentos coincidentes disfrutan de varias propiedades óptimas. Por ejemplo, como se muestra en el capítulo anterior, b es un estimador insesgado, e…ciente y consistente de y b es un estimador insesgado, e…ciente y consistente de . La pregunta que naturalmente surge es si los estimadores sugeridos por el principio de momentos coincidentes disfrutan siempre de tales propiedades óptimas. La respuesta es que dichos estimadores tienden con tener buenas propiedades, pero a menudo no tan buenas como sugieren estos ejemplos. Consideremos esta proposición con algún detalle más. 9.2.1 1 T XT Yt XT t=1 1 T t=1 Momentos muestrales y sus propiedades Como se ha dicho anteriormente, los momentos crudos y centrales de una variable aleatoria univariada X: 0 r ( ) := Z r x f (x; ) dx; r = 1; 2; ::: r x2RX corresponden a los momentos muestrales: ( ) := Z x2RX (x )r f (x; ) dx; r = 2; 3; ::: Y (xt 9.2. PRINCIPIO DE MOMENTOS COINCIDENTES b0r = 1 Xn Xi ; r = 1; 2; 3; ::: i=1 n br ( ) = 1 Xn (Xi i=1 n 471 b)r ; r = 2; 3; :::. Del mismo modo, en el capítulo 4 de…nimos los momentos crudos y centrales de la distribución conjunta: b0r;s ( ) : = Z x2RX br;s ( ) : = Z x2RX Z xr y s f (x; y; ) dxdy; r; s = 1; 2; 3; ::: y2RY Z r x) (x y s y y s f (x; y; ) dxdy; r; s = 1; 2; 3; ::: y2RY Los correspondientes momentos conjuntos crudos y centrales son: b0r;s = 1 Xn Xir Yis ; i=1 n r;s = 1 Xn (Xi i=1 n bx )r Yi by s , r; s = 1; 2; 3; :::. Para la aplicación del principio de momentos coincidentes, en el cuadro 13.2 se resumen las primeras distribuciones y los momentos muestrales correspondientes. Tabla 13.2 Momentos De interés en el contexto actual son las distribuciones muestrales de los momentos muestrales anteriores y sus propiedades. En general, la distribución de cualquier momento muestral depende fundamentalmente de los modelos de probabilidad y muestral postulados. Como vimos en el capítulo anterior, en el caso de una muestra aleatoria de la distribución Bernoulli, el 472 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Xn estimador b = n1 Xi (la media de la muestra) se distribuye Binomial y i=1 resulta ser un estimador insesgado, plenamente e…ciente y consistente Xnde . 1 Además, en el caso del modelo Normal simple, el estimador b = n Xi i=1 tiene una distribución Normal y resulta ser un estimador insesgado, plenamente e…ciente y consistente de . En la práctica los estimadores del principio de momentos coincidentes se utilizan a menudo en los casos de modelos estadísticos simples incompletos donde no se postula explícitamente a priori ningún modelo de probabilidad. En tales casos, por supuesto, no podemos determinar la distribución muestral de un estimador (a menos que se recurra a la teoría asintótica) y los resultados disponibles a menudo se re…eren a los primeros momentos de esta distribución desconocida. En el caso de un modelo estadístico simple incompleto (es decir, independientemente de la naturaleza explícita de , pero asumiendo que los momentos necesarios existen) podemos obtener los resultados en la tabla 13.3 para la momentos muestrales crudos. Tabla 13.3 Momentos muestrales crudos Estos resultados sugieren que, en el caso de una muestra aleatoria, independientemente de la distribución subyacente (suponiendo que los momentos requeridos existen), los momentos muestrales crudos proporcionan estimadores insesgados y consistentes para los momentos crudos de la distribución. La consistencia se deduce del hecho de que la varianza de los momentos muestrales crudos V ar ( 0r ) tiende a cero cuando n ! 1. Un ejemplo particularmente importante de estos momentos es la media muestral cuyos primeros momentos se muestran en la tabla 13.4. 9.2. PRINCIPIO DE MOMENTOS COINCIDENTES Tabla 13.4 Media muestral b = 1 n Xn i=1 473 Xi Las fórmulas para los momentos centrales muestrales no son tan simples como las de los momentos muestrales crudos porque implican la variación de muestreo de la media muestral. La tabla 13.5 muestra la aproximación de los dos primeros momentos de los momentos centrales muestrales (véase Stuart y Ord (1994)) donde la notación o nk y O nk indican el orden de aproximación. Tabla 13.5 Momentos centrales muestrales La NOTACIÓN an =o nk , para algún k 6= 0, indica una sucesión k fan g1 n=1 de orden menor que n , es decir, an = 0, n!1 nk indica una sucesión fan g1 n=1 a lo más de orden lim y la notación an =O nk n , es decir, k lim n!1 jan j nk K, donde 0 < K < 1, 474 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN (ver Spanos (1986)). Nótese que para k > 0: an =O nk ) an =o nk+1 . Para tener una idea de lo que estas aproximaciones re…eren, vamos a considerar los momentos de la varianza de la muestra, que se muestran en la tabla 13.6. La covarianza de b2 y b sugiere que en el caso de que la muestra aleatoria provenga de una distribución simétrica ( 3 = 0), b y b2 no están correlacionados, es decir Cov b; b2 = 0. Tabla 13.6 Varianza muestral NOTE que r , r = 2; 3; 4 indican los momentos de la distribución del modelo de probabilidad subyacente. En el caso de los momentos muestrales centrales de orden superior, los resultados en la tabla 13.5 son sólo resultados aproximados en el sentido de que en el caso en que r sea par: 1 r 2 r 1 +o n 1 , n r+1 y por lo tanto para una distribución simétrica r+1 ; r 1 serán cero, ya que son momentos impares y por lo tanto no correlacionados para el orden n 1: Cov (b; br ) = Cov (b; br ) = 0 + o n 1 . Los resultados de los momentos centrales muestrales indican que ya que: (a) lim E (br ) = n!1 r, P (b) lim V ar (br ) = 0, para r = 2; 3; ::: ) br ! n!1 r, es decir, br es un estimador consistente de r , para r = 2; 3; ::: En el caso de los momentos muestrales conjuntos crudos podemos demostrar (véase la tabla 13.7) que los resultados son muy similares para los momentos muestrales crudos ordinarios (véase Stuart y Ord (994)). 9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 475 Tabla 13.7 Momentos muestrales conjuntos El estadístico más utilizado basado en el segundo momento muestral conjunto es el coe…ciente de correlación: Xn b = rh X n i=1 i=1 (Xi (Xi 2 bx ) b x ) Yi i hX n i=1 by by Yi 2 i. Como podemos ver, la varianza del coe…ciente de correlación muestral es una función muy complicada de varios momentos conjuntos de la distribución subyacente al modelo de probabilidad postulado. En el caso de un modelo Normal de dos variables, con varianzas unitarias (véase el capítulo 6) esta expresión se reduce a: V ar (b) = 1 1 n 2 2 +o n 1 . Tabla 13.8 Coe…ciente de correlación muestral Resulta que los resultados anteriores para los momentos muestrales se simpli…can notablemente en el caso del modelo Normal simple; en el cuadro 13.9 se resumen estas simpli…caciones (véase Stuart y Ord (1994)). 476 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Tabla 13.9. Varianzas de estadísticos frecuentes Los resultados en relación a los primeros momentos de los momentos muestrales muestran más claramente la di…cultad de deducir y operacionalizar tales resultados. Obtener resultados aún aproximados para los momentos muestrales superiores al cuarto resulta ser muy enmarañado y complicado. Fisher (1929), sin embargo, nos demostró que esto no es la mejor manera de proceder. En su lugar, demostró que los llamados estadísticos k relacionados con los cumulantes son mucho más fáciles de manejar porque sus cumulantes muestrales se pueden obtener utilizando métodos combinatorios (ver McCullagh (1987)). Hasta ahora hemos encontrado que en el caso de una muestra aleatoria, los estimadores sugeridos por el principio de los momentos coincidentes, son en general consistentes y a veces insesgados; el principal ejemplo de éxito de este procedimiento es el caso de los momentos crudos. ¿Qué pasa con la e…ciencia y normalidad asintótica? Los estimadores sugeridos por el principio de los momentos coincidentes suelen ser ine…cientes porque los estimadores ignoran información importante relacionada con el modelo de probabilidad: la naturaleza de la distribución subyacente. Ellos son, sin embargo, asintóticamente normales. Este resultado se sigue del hecho de que una forma estandarizada de los momentos muestrales crudos es normal con media cero y varianza 02r ( 0r )2 es decir: h i p 0 0 2 0 n b0r ~ N 0; ( ) , 2r r r a donde, ~ se lee "asintóticamente distribuido como". Del mismo modo: a 9.2. PRINCIPIO DE MOMENTOS COINCIDENTES p n [br 9.2.2 r ] ~N a (0; V1 ( r )) , donde V1 ( r ) = 2r 477 2r 2 r r 1 r+1 + r2 Funciones de los momentos de la muestra Como argumentamos anteriormente, la estimación de un parámetro utilizando el principio de momentos coincidentes implica relacionarlo con ciertos momentos de la distribución y sustituirlo en esta última con los correspondientes momentos muestrales. Por lo tanto, a menudo los resultados anteriores no se puede utilizar directamente a menos que coincida con un cierto momento de la distribución. En este sentido, es de interés considerar la distribución muestral de la función, digamos g(:), de los momentos muestrales. La forma más fácil de hacer frente a este problema es obtener resultados aproximados sobre la base de expansiones en series de Taylor de la función del momento muestral (ver Ser‡ing (1980)): g b0r = g ( 0r ) + @g ( 0r ) 0 br @ 0r 0 r + 1 @ 2 g ( 0r ) 0 br 2 @ ( 0r )2 0 2 r + 0 Tomando en cuenta que E b0r r = 0, esta expansión se puede utilizar para deducir resultados aproximados de los primeros momentos de esta función (véase Sargan (1974)): E g b0r V ar g b0r ' g ( 0r ) + ' 1 @ 2 g ( 0r ) E b0r 2 0 2 @ r @ 2 g ( 0r ) @ ( 0r )2 0 2 r , 2 E b0r 0 2 r , dónde ' indica aproximación asintótica. Utilizando estos resultados podemos deducir que en el caso de una función diferenciable g(:) de los momentos muestrales cuya derivada en 0r (el verdadero valor) no es cero, es 0) r decir, @g( 6= 0: @ 0r ! 2h i 0 p @g ( ) 2 0 r 0 n g br g ( 0r ) ~N 0; ( 0r ) . 2r a @ 0r 2 2 r 1 . 478 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Las derivaciones son un poco más complicadas cuando la función g(:) involucra más de un momento muestral. Considere el caso donde g b01 ; b02 ; :::; b0m , m < n: g b01 ; b02 ; :::; b0m = g ( 01 ; donde 0 2 ; :::; 0 m) + Xm @g ( 0 ) 0 bk k=1 @ 0 k 0 k O n 1 , = b01 ; b02 ; :::; b0m . De esto podemos deducir que: E g b01 ; b02 ; :::; b0m ' g ( 01 ; 02 ; :::; 0m ) 2 Xm @g ( 0 ) 0 0 ' E bk k k=1 @ 0 k 2 Xm Xm Xm @g ( 0 ) 0 V ar b + = k k=1 l=1 k=1 @ 0k V ar g b01 ; b02 ; :::; b0m k6=l @g ( 0 ) @ 0k Recordamos al lector una vez más que estos resultados se basan en el supuesto restrictivo de muestra aleatoria. 9.3 El método de mínimos cuadrados 9.3.1 El principio de mínimos cuadrados El principio de mínimos cuadrados fue originalmente propuesto como un procedimiento de aproximación matemática por Legendre en 1805; ver Harter (1974-76). El principio proporciona una forma para aproximar: una función desconocida y =g(x), mediante una función casi conocida Xk h (x) = ai i (x), donde 0 (x) ; 1 (x) ; 2 (x) ; :::; k (x) son funciones i=0 conocidas de x apropiadamente elegidas: (por ejemplo, 0 (x) = 1; 1 (x) = x; 2 (x) = x2 ; :::; k (x) = xk ), de una manera que asegura que g(x) y h (x) coinciden tanto como sea posible en un cierto dominio D; a menudo un conjunto de T puntos discretos (T > k). El concepto de aproximación óptima, en el sentido de mínimos cuadrados se de…ne en términos de minimizar la suma de errores al cuadrado, donde el error se de…ne por: @g ( 0 ) @ 0l 9.3. EL MÉTODO DE MÍNIMOS CUADRADOS t Xk = yt i=0 ai i 479 (xt ) , en el dominio D = f(yt ; xt ) , t = 1; 2; :::; T g. Es decir, los parámetros a0 ; a1 ; a2 ; :::; ak se eligen para minimizar la función objetivo: l (a0 ; a1 ; a2 ; :::; ak ) = XT yt t=1 Xk i=0 2 ai i (xt ) . NOTA: (i) Para el método de mínimos cuadrados la linealidad que importa es la linealidad en los parámetros a0 ; a1 ; a2 ; :::; ak , no la linealidad en x como en el caso del modelo de regresión lineal/Normal (ver Spanos (1986, disponible)), (ii) no hay supuestos probabilísticos que estén involucrados en el problema anterior. Ejemplo En el caso simple donde k = 1 y 0 (x) = 1; 1 (x) = x, la función objetivo toma la forma: l (a0 ; a1 ) = XT t=1 (yt a0 a1 xt )2 . Considerando que la función es in…nitamente diferenciable podemos encontrar el mínimo usando cálculo. Las condiciones de primer orden darán lugar a las llamadas ecuaciones normales: XT @l = ( 2) (yt t=1 @a0 a0 a1 xt ) = 0, XT @l = ( 2) (yt t=1 @a1 a0 a1 xt ) xt = 0, cuya solución da como resultado: b a0 = y b a1 x, b a1 = XT (yt XT t=1 t=1 y) (xt (xt x) 2 x) , para XT t=1 (xt x)2 6= 0. Xn Xn donde y = T1 yt y x = T1 xt . Esto se puede ver geométricat=1 t=1 mente como el ajuste de una línea a un grá…co de dispersión de f(yt ; xt ) , t = 1; 2; :::; T g, como se muestra en la …gura 13.1. 480 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Figura 13.1. Línea ajustada de mínimos cuadrados NOTA. En Spanos (1999) pg. 648 se escriben las soluciones como: b 0 y b 1 ; creo que deberían escribirse: b a0 y b a1 . La principal justi…cación de Legendre para el método de mínimos cuadrados fue que en el caso donde la función de aproximación es una constante, es decir, h (x) = a0 , el valor de a0 que minimiza la función: l (a0 ) = XT t=1 (yt a0 )2 , coincide con la media aritmética: 1 XT yt . t=1 T Esto se deduce de la condición de primer orden: b a0 = XT dl = ( 2) (yt t=1 da0 a0 ) = 0. En ese momento, la media aritmética se consideró la mejor manera de resumir la información contenida en los T puntos de datos y1 ; y2 ; :::; yT . NOTA. En Spanos (1999) pg. 649 se escribe la solución como: b 0 ; creo que debería escribirse como b a0 . La primera interpretación probabilística de mínimos cuadrados fue propuesta por Gauss en 1809. Sostuvo que para una sucesión de T variables aleatorias independientes y1 ; y2 ; :::; yt , cuyas funciones de densidad f (yt ) satisfacen ciertas condiciones de regularidad, si la media aritmética y es la combinación más probable de todos los valores de las variables aleatorias y cada 9.3. EL MÉTODO DE MÍNIMOS CUADRADOS T 1, entonces para algún de densidad es Normal: 2 481 > 0 (véase Heyde y Seneta (1977)) su función f (yt ) = 2 1 2 2 1 exp 2 y2 2 t . Utilizando este argumento, Gauss iba refundar el argumento de aproximación por mínimos cuadrados en la forma probabilística siguiente: yt = Xk i=0 ai i (xt ) + t , t ~N IID 0; 2 , t = 1; 2; :::; T . y 0 (x) ; 1 (x) ; :::; k (x) son funciones conocidas de x; NIID signi…ca Normal, Independientes e Idénticamente Distribuidas. Un argumento más convincente para el uso de la distribución Normal de los errores fue proporcionada por Laplace en 1812 en la forma de la ley de los errores; conocida como el Teorema Central del Límite (véase el capítulo 9). La idea era que en los casos en que los errores representan la suma de varios factores que in‡uyen, que individualmente no dominan la suma, la distribución de la suma se aproxima a la normal, cuando el número de factores que in‡uyen aumenta a in…nito. Laplace también señaló que la mínimización de: XT t=1 (yt h (xt ))2 , es equivalente de la maximización del logaritmo de la distribución conjunta de los errores: In f ( 1 ; 2 ; :::; T) = T In 2 2 2 2 1 XT 2 t=1 (yt h (xt ))2 . Esta idea puede ser vista como un precursor del método conocido hoy como el método de máxima verosimilitud (ver más adelante). En términos de propiedades de muestra …nita de los estimadores de mínimos cuadrados, el resultado el resultado más célebre es el teorema de Gauss-Markov discutido enseguida. 9.3.2 Teorema de Gauss-Markov. Sea la relación estadística entre yt y las xit : 482 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN yt = Xk i=0 ai i (xt ) + t , t = 1; 2; :::; T , donde 0 (x) ; 1 (x) ; :::; k (x) son funciones conocidas de x. Bajo los supuestos: (i) E ( t ) = 0, t = 1; 2; :::; T , 2 , t 6= s (ii) Cov ( t ; s ) = t; s = 1; 2; :::; T; , 0, t = s 0 (x) ; 1 (x) ; :::; k (x) son funciones linealmente independientes (en el sentido matemático) de x, podemos deducir que los estimadores de mínimos cuadrados: (donde t b ai = XT t=1 (i) son funciones de t (i) yt , i = 0; 1; 2; :::; k, 0 (x) ; 1 (x) ; :::; a) mejores (relativamente e…ciente): V ar (b ai ) k (13.1) (x)) son: ` V ar ai , para cualquier ` otro estimador lineal ai que sea también insesgado, (b) funciones lineales de (y1 ; y2 ; :::; yt ), (c) estimadores insesgados de ai : E (b ai ) = ai , i = 0; 1; 2; :::; k. Es decir, los estimadores de mínimos cuadrados (13.1) son los mejores, dentro de la clase de los estimadores lineales (en términos de yt ) e insesgados (MELI). NOTAS: (a) No hay ninguna hipótesis de distribución involucrada en las especi…caciones anteriores y por lo tanto no podemos considerar la cuestión de la e…ciencia completa. (b) El teorema de Gauss-Markov depende fundamentalmente de la linealidad del MG estadístico en términos de los parámetros desconocidos (a0 ; a1 ; a2 ; :::; ak ). Por otra parte, la linealidad de la regresión lineal/Normal, discutida en el capítulo 7, es con respecto a las variables condicionantes. (c) El teorema de Gauss-Markov es útil en los casos en los que sólo queremos tener en cuenta los estimadores que son lineales en yt . Si permitimos que los estimadores no sean lineales en yt podemos hacer mucho más que estimadores de mínimos cuadrados (ver Judge et al. (1988)). Propiedades asintóticas Se puede mostrar que b a1 es consistente y asintóticamente normal bajo XT ciertas restricciones sobre el comportamiento de x2t cuando T ! 1. t=1 9.3. EL MÉTODO DE MÍNIMOS CUADRADOS 483 En particular: XT P (i) x2t ! 1 cuando T ! 1 implica b a1 ! a1 . t=1 XT p (ii) lim x2t = qx implica T (b a1 a1 ) ~N (0; T !1 t=1 a 2 [1=qx ]). Antes de proceder a una interpretación más estadística del método de los mínimos cuadrados, es importante destacar que a pesar de la introducción de terminologías probabilísticas, tales como distribuciones y medias, el método, como se describió anteriormente, es esencialmente uno de aproximación matemática. Además, su interpretación probabilística no es tan robusta ante cambios en el supuesto de distribución de Normalidad como a menudo se supone (véase Pearson (1920)). 9.3.3 El método estadístico de mínimos cuadrados El propósito de esta sección es el de reinterpretar el método de mínimos cuadrados como método de estimación general en el contexto de la especi…cación del modelo estadístico dado en el capítulo 7. En particular, relacionar el método de mínimos cuadrados con la especi…cación del Mecanismo Generador Estadístico (MG). Como se ha dicho en el capítulo 7, el MG estadístico para los modelos estadísticos en este libro se basan en el siguiente esquema de descomposición: yt = E (yt jDt ) + ut , t 2 T (13.2) donde yt es una variable aleatoria tal que V ar (yt ) < 1. El objetivo principal para el modelador es elegir Dt a …n de asegurar que no hay información sistemática en los datos que se deje en el componente no sistemático (error) ut . La idea es elegir Dt con el …n de minimizar el componente no sistemático ut , que se de…ne como la parte no modelada de yt : ut = y t E (yt jDt ) , t 2 T, o de forma equivalente elegir Dt con el …n de maximizar el componente sistemático: ut = E (yt jDt ) , t 2 T. 484 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Por construcción el error no es sistemático en relación con el conjunto de información Dt , es decir, (i) E (ut jDt ) = 0 (ii) E ( t ut jDt ) = 0 ; T 2 T: (13.3) (véase el capítulo 7). Sobre la base de los supuestos probabilísticos, el componente sistemático tendrá una forma paramétrica, por ejemplo: E (yt jDt ) = g (xt ; ) , t 2 T. (13.4) El método de mínimos cuadrados se asegura de que las propiedades (13.3) se cumplan por los componentes estimados sistemático y no sistemático. Esto se consigue eligiendo el valor del parámetro desconocida , por ejemplo bM C , que minimiza la suma de los cuadrados de los errores fut , t = 1; 2; ::; T g. Es decir, mínimos cuadrados sugiere minimizar la función absoluta (loss function): l( ) = XT t=1 (yt g (xt ; ))2 , con respecto a . Para el valor bM C la función absoluta tiene su mínimo en el punto: l b = XT t=1 yt g xt ; bM C 2 , y los componentes estimados sistemático y no sistemático son: bt = g xt ; bM C y u bt = yt g xt ; bM C . La optimalidad de los estimadores de mínimos cuadrados se deriva del hecho de que las condiciones (13.3) son válidas para los componentes estimados en el sentido de que: 1 XT 1 XT u bt = 0 y g xt ; bM C u bt = 0. t=1 t=1 T T Ejemplo 1. Bernoulli (continuación) El MG estadístico del modelo Bernoulli toma la forma: Xi = E (Xi jDi ) + ui , i 2 N = f1; 2; 3; :::g , 9.3. EL MÉTODO DE MÍNIMOS CUADRADOS 485 donde Di = fS; g (el conjunto no informativo) y, por lo tanto, E (Xi jDi ) = E (Xi ) = 0. El método de mínimos cuadrados para la estimación de sobre la base de la muestra (X1 ; X2 ; ::; Xn ) equivale a minimizar: Xn l( ) = (Xk )2 . k=1 Del cálculo elemental sabemos que la forma más fácil de localizar el mínimo de una función diferenciable es resolver la condición de primer orden: Xn dl = ( 2) (Xk k=1 d Sabemos que l bM C ) = 0 para , que da como resultado: bM C = = 2 puesto que: dd 2l j con las propiedades: Xn k=1 Xk h k=1 bM C Xk bM C bM C bM C 2 bM C Xk 1 XT b bt = 0, MC u t=1 T Xn Xk k=1 Xn = bM C k=1 nbM C = Xk k=1 Xn k=1 Xk bM C = 0. cumple Xn k=1 Xk = 0 NÓTESE que el estimador de mínimos cuadrados de coincide con el estimador propuesto por el principio de los momentos coincidentes y comparte las mismas propiedades óptimas: insesgado, plenamente e…ciente consistente y asintóticamente normal. Ejemplo 2. Normal (continuación) El MG estadístico del modelo Normal tiene la misma forma: Xt = + ut , t 2 N, y por lo tanto el método de mínimos cuadrados para estimar base de la muestra (X1 ; X2 ; ::; Xn ) equivale a minimizar: Xn l( ) = (Xk )2 . k=1 Xk . es un mínimo de l ( ) = 2n > 0. bM C y u bk = = i Xk k=1 1 Xn u bk = 0 y k=1 T puesto que: Xn =bM C Xn Xn sobre la 486 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Resolviendo la condición de primer orden para da como resultado: bM C = XT t=1 dl d = ( 2) Xn k=1 (Xk )=0 Xt : Como en el caso Bernoulli bM C yb ut = (Xk bM C ) satisfacen los equivalentes muestrales de las condiciones (13.3). Una vez más, el estimador de mínimos cuadrados de coincide con el estimador sugerido por el principio de los momento coincidentes y goza de las mismas propiedades óptimas como insesgamiento, e…ciencia completa, consistencia y Normalidad asintótica (ver capítulo 12). El método de mínimos cuadrados no sugiere un estimador de 2 , pero la intuición sugiere que podemos usar el mínimo de la función objetivo l ( ) para de…nir el siguiente estimador de 2 : 1 XT (Xt bM C )2 . t=1 T Este es también el estimador propuesto por el principio de los momentos coincidentes. Como se muestra en el capítulo anterior, la distribución muestral de b2 toma la forma: b2 = T b2 = 2 XT Xt t=1 b 2 ~ 2 (n 1) . y por lo tanto b2 es un estimador sesgado de 2 puesto que E b2 = (T 1) 2 6= 2 . Debido a este sesgo, el estimador de alternativo: T s2 = 1 T 1 XT t=1 (Xt bM C )2 ~ 2 (n 1) , se utiliza a menudo en la práctica (ver la discusión en el capítulo 12). 9.3.4 Propiedades de estimadores de mínimos cuadrados En la anterior interpretación estadística de mínimos cuadrados, está claro que las propiedades de muestra …nita de los estimadores de mínimos cuadrados dependen fundamentalmente de los supuestos probabilísticos sobre la variable aleatoria yt y el conjunto de información condicionante Dt . En vista de ello, los únicos resultados generales de optimalidad para los estimadores mínimos 9.4. EL MÉTODO DE MOMENTOS 487 cuadrados son asintóticos. Bajo ciertas condiciones de regularidad y en vista del hecho de que los componentes estimados sistemático y no sistemático: bt = g xt ; bM C y u bt = yt g xt ; bM C , respectivamente, satisfacen las condiciones de ortogonalidad: 1 XT u bt = 0 y t=1 T 1 XT h g xt ; bM C t=1 T i u bt = 0, podemos demostrar que el estimador de mínimos cuadrados bM C de , es a la vez consistente y asintóticamente Normal. Las condiciones de regularidad se re…eren a la función g(xt ; ), garantizando la existencia y unicidad del estimador de mínimos cuadrados bM C como una solución a la minimización de la función absoluta: l( ) = Xn k=1 (yk g (xt ; ))2 . En particular, en el caso de una muestra independiente: P bM C ! , y: p T bM C ~N (0; V1 ( )) , a pero bM C no es necesariamente asitóticamente e…ciente. 9.4 El método de momentos El método de momentos fue propuesto originalmente en 1895 por Karl Pearson en el contexto de lo que hoy llamamos (so…sticado) estadística descriptiva. El método original fue propuesto como un método de especi…cación y de estimación, pero más tarde (en la década de 1920) fue adaptado simplemente como un método de estimación en el contexto de la inferencia estadística moderna. Para entender las limitaciones del método en este último contexto, es aconsejable considerar el método en el contexto originalmente concebido. El enfoque actual a la inferencia estadística sustituye la estadística descriptiva sólo de forma gradual y en cierta medida, este cambio pasó desapercibido. 488 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN El cambio de paradigmas de la estadística descriptiva a la inferencia estadística propiamente estaba en marcha en la década de 1910 pero no se terminó hasta mediados de 1930. La confusión entre los momentos de la distribución y muestrales en la literatura estadística del primer trimestre del siglo 20 da testimonio del hecho de que el cambio de paradigmas no era ni obvio ni claro para muchos participantes. Karl Pearson murió en 1936 sin darse cuenta de que su método era inferior al método de máxima verosimilitud, principalmente porque fue desarrollado para un enfoque muy diferente a la estadística; un enfoque para el cual el método de máxima verosimilitud fue inútil. 9.4.1 Método de momentos de Pearson La estadística descriptiva, como una aproximación al modelado de datos, procede a partir de los datos y utilizando técnicas como el histograma busca un resumen parsimonioso de los datos en términos de una curva de frecuencia: un modelo descriptivo.Cuando Pearson propuso su método de momentos la idea era que el modelador utilizara los momentos crudos de los datos para elegir la curva de frecuencia más apropiada de una familia especí…ca, la familia Pearson. Esto es muy diferente del enfoque clásico de la estadística donde un modelo estadístico (un mecanismo aleatorio) se postula a priori y los datos observados se interpretan como una realización del mecanismo aleatorio postulado. El enfoque de Pearson a la estadística se puede resumir como se muestra en la …gura 13.2. Figura 13. 2. El método de momentos de Person La familia Pearson de curvas de frecuencia se puede expresar en términos de la siguiente ecuación diferencial en cuatro parámetros desconocidos: df (x) (x a) = f (x) . dx b0 + b1 x + b2 x 2 9.4. EL MÉTODO DE MOMENTOS 489 Dependiendo de los valores tomados por los parámetros (a; b0 ; b1 ; b2 ), esta ecuación puede generar numerosas curvas de frecuencia, como la Normal, la t de Student, la Beta, la Gamma, la Laplace y la Pareto; en el contexto de la probabilidad moderna ellas se conocen como funciones de densidad. Pearson invento esta familia de curvas de frecuencia al observar que la función de densidad normal (x) satisface la siguiente ecuación diferencial: d (x) = dx (x) (x a) b0 , donde 2 =ay = b0 . Usando las correspondientes ecuaciones en diferencia asociadas con las distribuciones Binomial e hipergeométrica, pasó a extender esto a la ecuación diferencial (13.5). En el contexto de la teoría de la probabilidad, hemos visto que podemos relacionar los parámetros desconocidos, por ejemplo ( 1 ; 2 ; 3 ; 4 ), con los momentos de una función de densidad dada f (x; 1 ; 2 ; 3 ; 4 ) (véase el capítulo 3) a través de: 0 r ( 1; 2; 3; 4) = Z xr f (x; 1 ; 2 ; 3 ; 4 ) dx, para r = 1; 2; ::: x2RX Al interpretar las curvas de frecuencia como funciones de densidad, se puede adaptar la relación anterior en conjunción con la ecuación diferencial (13.5) para relacionar la familia Pearson con los momentos crudos mediante la integración de ambos lados: Z x r b0 + b1 x + b2 x 2 df = x2RX Z xr f (x a) f (x) dx, para r = 1; 2; ::: x2RX Reuniendo los términos de la misma potencia en x, obtenemos la siguiente relación recursiva entre los momentos y los parámetros (véase Stuart y Ord (1991)): kb0 0 k 1 + f(k + 1) b1 ag 0 k + f(k + 2) b2 + 1g 0 k+1 = 0, k = 1; 2; ::: De esto podemos ver que primeros cuatro momentos 01 , 02 , 03 y 04 son su…cientes para seleccionar la f (x) particular de la familia Pearson a través de las cuatro primeras ecuaciones: 490 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN (b1 b0 + (2b1 2b0 01 + (3b1 3b0 02 + (4b1 a) + 2 (b2 + 1) a) 01 + 3 (b2 + 1) a) 02 + 4 (b2 + 1) a) 03 + 5 (b2 + 1) 0 1 0 2 0 3 0 4 = = = = 0 0 0 0. Pearson propuso sustituir los cuatro primeros cuatro momentos crudos de los datos b01 , b02 , b03 y b04 , en el sistema anterior y resolverlo para los parámetros (a; b0 ; b1 ; b2 ). La solución a estas ecuaciones se ocuparía de los dos problemas simultáneamente: (a) especi…cación: la elección de un modelo descriptivo (una curva de frecuencia), sobre la base de los valores particulares de b01 , b02 , b03 y b04 y (b) estimación: la atribución de valores numéricos a los parámetros desconocidos (a; b0 ; b1 ; b2 ). Por ejemplo, en el caso de que los valores numéricos obtenidos de los parámetros fueran: b0 < 0, b1 ' 0 y b2 ' 0, los datos sugieren que el modelo descriptivo más apropiado, entre los de la familia Pearson, es la curva de frecuencia Normal. Es instructivo ver el anterior procedimiento en el contexto de la inferencia estadística clásica, donde el modelo estadístico se elige a priori y los datos son vistos como una realización del mecanismo aleatorio descrito por el modelo postulado. La primera diferencia importante entre los dos enfoques es que no hay ningún argumento inductivo integrado en el enfoque de Pearson, que es esencialmente uno de estadística descriptiva. En segundo lugar, el enfoque de Pearson parece ignorar el concepto de modelo muestral. En efecto, el enfoque involucra el supuesto implícito de que los datos constituyen una realización de una muestra aleatoria. En otras palabras, sólo considera modelos estadísticos simples. La tercera limitación importante del enfoque de Pearson es que la familia de modelos descriptivos se limita a los de la familia Pearson. Además de ser importante desde el punto de vista histórico, el método de Pearson de seleccionar una función de densidad utilizando los momentos estimados es también de cierto interés en el contexto de la inferencia estadística, en los casos en que la distribución de muestra …nita de un estadístico es desconocida y se sospecha que la distribución asintóticamente Normal induce a error. En tales casos, podría ser de interés considerar ajustes de la familia de Pearson con el …n de tener una idea sobre la naturaleza de la falta de normalidad. 9.4. EL MÉTODO DE MOMENTOS 9.4.2 491 El método paramétrico de momentos El método paramétrico de momentos (MPM) es una adaptación del método anterior para su aplicación adecuada a la inferencia estadística. En este último caso el modelo de probabilidad adecuado es elegido a priori y, por lo tanto, el único papel que queda para el método de momentos es el de estimar sus parámetros usando los momentos muestrales. Como se ha dicho en el capítulo 3, la mejor manera de tratar los parámetros desconocidos es relacionarlos con los momentos de la función de densidad de que se trate a través de: Z 0 xr f (x; 1 ; 2 ; :::; k ) dx, r = 1; 2; ::: r ( 1 ; 2 ; :::; k ) = x2RX La idea detrás de la MPM es que coincidan los momentos poblacionales crudos requeridos con sus momentos muestrales correspondientes: 1 XT Xtr , t = 1; 2; 3. t=1 T y resolver el resultante sistema de ecuaciones para los parámetros desconocidos ( 1 ; 2 ; :::; k ). Ejemplo 2. (continuación) En el caso del modelo Normal, tenemos dos parámetros desconocidos := ( ; 2 ) y por lo tanto necesitamos al menos dos momentos crudos. El primer paso es obtener la relación entre estos parámetros y los momentos de la población: Z 0 2 ; = xr f x; ; 2 dx, r = 1; 2. r b0r = x2RX Considerando el hecho de que la función generatriz de momentos (fgm) 1 2 2 es: mx (t) = e t+ 2 t (ver capítulo 3), podemos deducir que: 0 1 0 2 1 2 2 dmx (t) 1 2 jt=0 = e t+ 2 t + t jt=0 = dt 2 " 2 d2 mx (t) 1 2 t+ 12 2 t2 = j = e + t + e t=0 dt2 2 = t+ 12 2 t2 2 # = 2 + t=0 El segundo paso es igualar los momentos poblacionales y los muestrales y resolver para los parámetros desconocidos, es decir, 2 . 492 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN 1 XT 1 XT Xt = , b02 = Xt2 = t=1 t=1 T T Resolviéndolas para y 2 x, b01 = 2 + 2 . 1 XT 1 XT Xt = , b2 = (Xt b)2 . t=1 t=1 T T De nuestra discusión anterior, sabemos que estos estimadores coinciden con los estimadores sugeridos por el principio de momento coincidentes y el método de mínimos cuadrados y disfrutan de varias propiedades óptimas. En particular, b es un estimador insesgado, completamente e…ciente y consistente de . b2 no es insesgado pero se puede transformar en un estimador insesgado usando s2 = T T 1 b2 . s2 no es sólo insesgado, es también un estimador relativamente e…ciente, consistente y asintóticamente Normal de 2 . Ejemplo 4. Considere el modelo Gamma simple: [i] MG estadístico: Xt = + ut , t 2 N, [ii] Modelo de probabilidad: b= = f (x; ) = ( 1 ( ) 1 x exp x ; ) := ( ; ) 2 R2+ ; x > 0 , , [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. Tomando en cuenta el hecho de que la fgm es: mx (t) = (1 t) podemos deducir que (ver capítulo 3): 1 2 h dmx (t) jt=0 = dt h d2 mx (t) = j = t=0 dt2 = ( 2 ) (1 ( + 1) (1 t) 1 t) i = i , . t=0 2 = ( + 1) 2 , t=0 o forma equivalente E (X) = , V ar (X) = ( + 1) 2 . Por lo tanto, los estimadores MPM se obtienen resolviendo el sistema de ecuaciones: b01 = , b02 = ( + 1) 2 , resultando: ! 2 X b2 b= ,b= , b2 X 9.4. EL MÉTODO DE MOMENTOS 493 XT XT 2 donde X = T1 Xt y b2 = T1 Xt X . t=1 t=1 Ejemplo 5. Considere el modelo log-Normal simple: [i] MG estadístico: Xt = + ut , t 2 N, [ii] Modelo de probabilidad: = f (x; ) = ( x 1 p 2 exp ( In x 2 2 2 ) ; := ( ; 2 ) ), x > 0 , [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. En este ejemplo va a poner de mani…esto la no invarianza del estimador MPM a las transformaciones. Teniendo en cuenta las siguientes relaciones: 0 1 =e + 21 2 , 0 2 = e + 12 2 2 e , el camino más directo para obtener los estimadores MPM de := ( ; es resolver las siguientes ecuaciones para los parámetros desconocidos: 1 2 1 Xn 1 Xn Xk = e + 2 , Xk2 = e k=1 k=1 n n Esto produce los siguientes estimadores: 9 8 i2 > p h 1 XT > > = < T T Xt > t=1 r , b2 = In b = In X > > T > > ; : Xt2 t=1 8 > < 1 T + 12 2 XT t=1 2 ) 2 e . Xt2 9 > = i2 > . h XT > : 1 ; X t T t=1 Otra forma de obtener los estimadores de MPM de := ( ; 2 ) en este caso es utilizar la información de que: E (In X) = , V ar (In X) = 2 , para deducir los estimadores MPM alternativos: 1 XT 1 XT Xt , b2 = (In Xt b)2 , t=1 t=1 T T que son de hecho muy diferentes de los anteriores. Por último, es importante señalar que los estimadores MPM no coinciden con los estimadores sugeridos por el principio de los momentos coincidentes. El contra ejemplo evidente es proporcionado por el modelo de regresión lineal, discutido anteriormente, donde el método de momentos no se puede aplicar directamente porque estamos tratando con momentos condicionales. b= 494 9.4.3 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Propiedades de los estimadores MPM En general, las únicas propiedades óptimas que los estimadores MPM disfrutan son asintóticas. Como se ha indicado anteriormente, en el caso de una muestra aleatoria (X1 ; X2 ; :::; Xn ), los momentos muestrales crudos: b0r = 1 XT Xtr , r = 1; 2; :::, t=1 T son estimadores consistentes de los momentos poblacionales crudos (suponiendo que existan), es decir, P b0r ! 0 r. En el caso de que 0r ( 1 ; 2 ; :::; k ) sea una función bien comportada de las s podemos deducir que para los estimadores MPM b := b1 ; b2 ; :::; bk , donde bi := bi b0 ; b0 ; :::; b0 , i = 1; 2; :::; k: 1 2 P bM P M ! k y p T bM P M ~N (0; V1 ( )) , a pero estos estimadores no son necesariamente asintóticamente e…cientes. La cuestión de las propiedades óptimas de los estimadores MPM frente a las de los estimadores de máxima verosimilitud, discutida a continuación, se remonta a la década de 1930. Fisher (1937) argumentó que el método de momentos dio lugar a estimadores ine…cientes, salvo en los casos en que la distribución en cuestión estaba cerca de la normal. Karl Pearson montó una respuesta enérgica, pero perdió el argumento porque no se dio cuenta de que Fisher había cambiado las reglas del juego de las de estadística descriptiva (utilizar los datos para elegir un modelo descriptivo) a las de la inferencia estadística (postular un modelo estadístico a priori y utilizar los datos para estimar los parámetros de este modelo). Como se argumenta a continuación el método de máxima verosimilitud está hecho a la medida para la inferencia estadística, pero es completamente inútil en el contexto del enfoque de Pearson. El hecho de que el método MPM a menudo da lugar a estimadores menos e…cientes no debe resultar una sorpresa debido a que un vistazo a la discusión anterior revela que el método no utiliza toda la información contenida en el modelo postulado. A partir del modelo de probabilidad utiliza sólo la parte de la información referente a algunos de los momentos de la densidad postulada y es bien sabido que, la mayoría de las veces, conocer un 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 495 número …nito de momentos no es equivalente a conocer la distribución propia (véase el capítulo 3). 9.5 El método de máxima verosimilitud 9.5.1 La función de verosimilitud Como se mencionó en la introducción, el método de máxima verosimilitud (MV) fue desarrollado especí…camente para el enfoque moderno de la inferencia estadística propuesto por Fisher (1912,1922 b, 1925a). Este enfoque postula un modelo estadístico S := ( ; X) que tiene por objeto describir (probabilísticamente) el mecanismo estocástico que dio origen a los datos observados x := (x1 ; x2 ; :::; xn ). Como se muestra en la …gura 13.3, la información a priori en la forma del modelo estadístico es encapsulada por la distribución de la muestra X := (X1 ; X2 ; :::; Xn ): D (X1 ; X2 ; :::; Xn ; ) , la distribución conjunta de las variables aleatorias que conforman la muestra. NOTACIÓN: para subrayar la diferencia entre la muestra y la realización de la muestra, se usa la notación D (X1 ; X2 ; :::; Xn ; ) y no la notación f (x1 ; x2 ; :::; xn ; ) utilizada en los capítulos anteriores. Figura 13.3. La aproximación clásica a la inferencia estadística El método de verosimilitud, visualizando los datos observados x como una realización de la muestra, de…ne a la función de verosimilitud como 496 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN proporcional a la distribución de la muestra, pero interpretada como una función de : L ( ;x1 ; x2 ; :::; xn ) / D (X1 ; X2 ; :::; Xn ; ) . En este sentido, la función de verosimilitud evalúa la posibilidad, asociada con los diferentes valores de , de que han sido los verdaderos parámetros del mecanismo estocástico los que dieron lugar a la realización muestral particular x. NOTE que la proporcionalidad es importante para propósitos matemáticos porque L ( ;x1 ; x2 ; :::; xn ) se interpreta como una función de , pero D (X1 ; X2 ; :::; Xn ; ) es una función de X y por lo general tienen dimensiones muy diferentes. Una forma equivalente de de…nir la función de verosimilitud es: L ( ;x1 ; x2 ; :::; xn ) := k (x) D (X1 ; X2 ; :::; Xn ; ) , donde k (x) sólo depende de la realización de la muestra x y no de Formalmente, la función de verosimilitud viene de…nida por: L (:; x) := . ! [0; 1), y por lo tanto la verosimiltud no se podría interpretar como la asignación de probabilidades a . El hecho de que el método de máxima verosimilitud esté hecho a la medida para el enfoque moderno a la inferencia estadística se puede ver en el diagrama. 13.3, donde la distribución de la muestra se de…ne a …n de incorporar toda la información relevante contenida en el modelo estadístico postulado. Esto está en contraste con el método paramétrico de momentos donde sólo la información referida a los momentos de f (x; ) es utilizada. En un intento por proporcionar una cierta comprensión intuitiva del concepto de función de verosimilitud, consideremos el siguiente ejemplo. Ejemplo 1. (continuación) En el caso del modelo Bernoulli, la distribución muestral toma la forma: D (X1 ; X2 ; :::; Xn ; ) = n Y k=1 f (xk ; ) = n Y k=1 xk (1 1 xk ) = Xn k=1 xk (1 Xn ) La primera igualdad se deduce del supuesto de muestreo de una muestra aleatoria (variables aleatorias IID) y la segunda del supuesto de probabilidad k=1 (1 xk ) . 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 497 de que las Xk s se distribuyen Bernoulli. La función de verosimilitud viene de…nida por: Xn Xn L ( ; x) / xk k=1 (1 ) (1 xk ) k=1 . En la …gura 13.4 la función de verosimilitud L ( ; x) se muestra en el caso en que k (x) = 1000 (elegido para evitar números muy pequeños) y la realización muestral es: x := (0; 0; 0; 1; 0; 0; 1; 0; 0; 1) . Como podemos ver, L ( ; x) es una función continua de , en contraste con XnD (x; ) que es una función discreta de x o de forma equivalente yn = xk . k=1 Figura 13.4. Una función de verosimilitud 9.5.2 Estimadores de máxima verosimilitud Con el …n de poder obtener resultados con cierta generalidad limitamos la discusión a los modelos estadísticos regulares que cumplen las restricciones Rf1-TRf4 que aseguran la existencia de la información de Fisher (ver capítulo 12). La medida en que estas condiciones de regularidad restringen los modelos de probabilidad se ha discutido en el capítulo anterior; ver Gourieroux y Monfort (1995) para más detalles. Por simplicidad de exposición y conveniencia de notación, vamos a considerar el caso en que es un escalar. La estimación de máxima verosimilitud 498 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN signi…ca encontrar el valor particular b = h (x) que maximiza la función de verosimilitud, es decir, L b; x = maxL b; x . 2 b = h (X) se conoce como el estimador de máxima verosimilitud (EMV) de y b = h (x) como la estimación de máxima verosimilitud. Hay varias cosas a destacar en esta de…nición: (a) el EMV puede no existir, (b) el EMV puede no ser único, (c) el EMV pueden no tener una expresión de forma cerrada b = h (x). A pesar de los casos patológicos para los que la existencia y unicidad del EMV no está garantizada (Gourieroux y Monfort (1995)), en la inmensa mayoría de los casos en la práctica b existe y es único. A …n de reducir los casos patológicos para los que b puede no existir a menudo restringimos nuestra discusión a los casos en los que: Rf5. L (:; x) := ! [0; 1), es continua en todos los puntos 2 . Además, en un intento por reducir los casos patológicos para los que b puede no ser única, restringimos nuestro análisis a los casos en que b es identi…cable: Rf5. Para todo 1 6= 2 donde 1 2 , 2 2 , f (x; 1 ) 6= f (x; 1 ), x 2 RnX M . En el caso donde la función de verosimilitud es diferenciable, se puede encontrar el máximo diferenciando L ( ; x). El EMV se obtiene mediante la resolución de las condiciones de primer orden: d2 L ( ; x) dL ( ; x) = g bM V = 0, dado que j =bM V < 0. d d 2 A menudo, es preferible máximizar la función de log-verosimilitud en su lugar, porque tienen el mismo máximo (el logaritmo es una transformación monótona): dInL ( ; x) = l bM V d = 1 l dL ( ; x) = d 1 l g bM V = 0, dado L 6= 0. Ejemplo 1. (continuación) En el caso del modelo Bernoulli la función de verosimilitud es: 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD InL ( ; x) = const + Xn k=1 xk In + Xn k=1 (1 499 xk ) In (1 ), donde const representa la constante de proportionalidad. Diferenciando la función de log-verosimilitud con respecto a resulta: 1 Xn d InL ( ; x) = xk k=1 d Xn 1 1 k=1 o bien Xn k=1 xk 1 b =b n Xn k=1 (1 xk ) bM V = xk ) = 0, 1 Xn Xi . i=1 n NOTA. En Spanos igualXn p. 663, la suma después de la primera Xn dad está escrita xk ; creo que debería escribirse xk . i=1 k=1 Como podemos ver, el estimador de máxima verosimilitud (EMV) coincide con el estimador propuesto por los tres métodos anteriores, el principio de los momentos coincidentes, mínimos cuadrados y el método paramétrico de momentos (MPM). Podemos asegurar que en efecto esto es un máximo, b b considerando Xn la segunda derivada evaluada en = M V . Puesto que M V > 0 yn > xi podemos deducir que bM V de…ne un máximo ya que la i=1 condición de segundo orden evaluada en bM V es negativa: d2 InL ( ; x) = d 2 " 1 2 Xn k=1 xk 1 1 2 Xn k=1 (1 xk ) # < 0. =bEM V La función puntuación (score function) La cantidad dd InL ( ; x) se encontró en el capítulo 12 en relación a la e…ciencia completa, pero en ese momento utilizamos el log de la distribución de la muestra Inf (x; ) en lugar de InL ( ; x) para de…nir la información de Fisher: ( ) 2 @ In f (x; ) In ( ) := E (13.6) @ 500 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN En términos de la función logaritmo de verosimilitud la desigualdad de Cramer-Rao toma la forma: " ( V ar b E 2 @ In f (x; ) @ )# 1 , (13.7) para cualquier estimador insesgado b de . La función s ( ; X) := dd InL ( ; X), cuando se ve como una función de X, se llama función puntuación y goza de las siguientes propiedades: (sc1) E [s ( ; X)] = 0, d2 InL ( ; X) := In ( ). (sc2) V ar [s ( ; X)] = E [s ( ; X)]2 = E d 2 Como se muestra en el capítulo anterior, un estimador insesgado b de alcanza la cota mínima de Cramer-Rao si y sólo si b puede expresarse en la forma: b = h ( ) s ( ; X) para alguna función h ( ). Ejemplo 1. (continuación) En el caso del modelo Bernoulli la función puntuación toma la forma: s ( ; X) := d 1 Xn InL ( ; X) = Xk k=1 d Xn 1 1 k=1 (1 Xk ) . Tomando en cuenta el hecho de que: bM V (1 n Xn = ) s ( ; X) , podemos deducir que bM V = n1 Xi es de hecho completamente e…i=1 ciente. Esto se con…rma usando la información de Fisher: E d2 InL ( ; x) = d 2 d2 InL ( ; x) = d 2 Xn i=1 n (1 ) Xi 1 2 ) CR ( ) = Xn i=1 (1 n ) (1 . Xi ) 1 1 2 . 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 501 Caso de un solo parámetro Ejemplo 6. Considere el modelo exponencial simple: [i] MG estadístico: Xt = + uk , k 2 N, x [ii] Modelo de probabilidad: = f (x; ) = 1 exp ; > 0; x > 0 [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. La distribución de la muestra toma la forma: D (X1 ; X2 ; :::; Xn ; ) = n Y n Y 1 f (xk ; ) = k=1 1 exp xk = 1 n exp k=1 y por lo tanto la función de log-verosimilitud es: InL ( ; x) = const d InL ( ; X) = d n + 1 Xn nIn 1 Xn 2 k=1 k=1 xk , xk = 0 ) bM V = 1 Xn Xk . k=1 n Considerando el hecho de que E (Xt ) = , este estimador coincide con los estimadores sugeridos por el principio de los momentos coincidente, el método paramétrico de momentos, así como el método de mínimos cuadrados. La condición de segundo orden: d2 InL ( ; x) = d 2 n 2 2 3 < 0, =bM V asegura que L b; x es un máximo y no mínimo o un punto de in‡exión. Usando la segunda derivada de la función log-verosimilitud podemos obtener la información de Fisher: In ( ) := E 9.5.3 d2 InL ( ; x) d 2 = n 2 Caso multiparámetros En el caso donde contiene más de un parámetro, por ejemplo := ( 1 ; 2 ), las condiciones de primer orden para los EMV adoptan la forma de un sistema de ecuaciones: , 1 Xn k=1 xk , 502 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN @InL ( ; x) @InL ( ; x) = 0, = 0, @ 1 @ 2 que necesita ser resuelto simultáneamente a …n de obtener los EMV. Ejemplo 2. (continuación) En el caso del modelo Normal, el supuesto de muestra aleatoria implica que la función de verosimilitud tiene la forma: L ; 2 ;x / n Y 1 p exp 2 k=1 1 (xk 2 2 2 1 p 2 = ) n exp 2 1 Xn La función de log-verosimilitud es: n 1 Xn In 2 (xk )2 . 2 k=1 2 2 Por lo tanto, podemos obtener los EMV de y 2 mediante las condiciones de primer orden: In L 2 ; ; x = const @InL ( ; x) = @ @InL ( ; x) = @ 2 1 ( 2) Xn (xk k=1 2 2 n 1 Xn + (xk k=1 2 2 2 4 Al resolver este sistema para 2 y ) = 0, ) = 0. resulta: 1 Xn 1 Xn Xk y b2M V = (Xk bM V )2 . k=1 k=1 n n Una vez más, los EMV coinciden con los estimadores sugeridos por los otros tres métodos. InL b; x para b := b; b2 es de hecho un máximo ya que las segundas derivadas en = b toman los siguientes signos: bM V = @ 2 InL ( ; x) @ 2 @ 2 InL ( ; x) @ 2@ @ 2 InL ( ; x) @ 4 j j j =bEM V =bEM V =bEM V n = = = 2 j 1 Xn 4 n 2 4 =bEM V k=1 (xk 1 Xn 6 = k=1 n < 0, b2 )j (xk =bEM V )2 j = 0, =bEM V = n2 < 0, b6 2 k=1 (xk ) 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 503 y entonces @ 2 InL ( ; x) @ 2 @ 2 InL ( ; x) @ 4 @ 2 InL ( ; x) @ 2@ j =bEM V > 0. Por el modelo Normal simple las segundas derivadas de la función logverosimilitud y sus valores esperados son: @ 2 InL ( ; x) @ 2 @ 2 InL ( ; x) @ 2@ @ 2 InL ( ; x) @ 4 = = = n 2 = 1 Xn 4 n 2 4 n , b2 k=1 ), (xk 1 Xn 6 @ 2 InL ( ; x) n = 2, 2 @ 2 @ InL ( ; x) E = 0, @ 2@ @ 2 InL ( ; x) n E = 4. 4 @ 2 E k=1 )2 , (xk Estos resultados sugieren que matriz de información de Fisher toma la forma: n In ( ) := 2 0 0 n 2 4 . Por lo tanto, las cotas inferiores de Cramer-Rao para cualesquiera estimadores insesgados de y 2 son (ver capítulo 12): 2 4 (a) CR( ) = n (b) CR( 2 ) = 2n . Teniendo en cuenta el hecho de que (véase el capítulo 12): 2 2 (i) bM V ~N ; n , (ii) nbM2 V ~ 2 (n 1). bM V es un estimador insesgado, e…ciente y consistente de , pero b2M V no es insesgado, es, sin embargo, consistente y asintóticamente Normal y asintóticamente e…ciente (véase el capítulo 12 para los detalles). En este punto es importante hacer una digresión por unos segundos con el …n de introducir un concepto a veces utilizado en lugar de la matriz de información de Fisher. El concepto se llama la matriz de información observada y se de…ne por: Jn ( ) = @ 2 InL ( ; x) @ @ 0 . En el caso del modelo Normal simple esta matriz toma la forma: 504 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN n Jn ( ) = 1 4 1 2 Xn k=1 4 (xk n 2 4 ) Xn 1 + 6 (xk k=1 Xn k=1 ) )2 (xk ! . Como podemos ver que esto es mucho más fácil de evaluar porque no hay esperanzas que deban tomarse. Antes de que el lector llege a la conclusión errónea de que los tres métodos de estimación proporcionan estimadores idénticos, consideremos el siguiente ejemplo, donde EMV y los estimadores MPM son diferentes. Ejemplo 4. (continuación) En el caso del modelo Gamma, la distribución de la muestra toma la forma: D (X1 ; X2 ; :::; Xn ; ; ) = n Y f (xk ; ; ) = k=1 n Y k=1 La función log-verosimilitud con xk exp . := ( ; ) toma la forma: InL ( ; x) = const nIn [ ] n In +( donde 1 xk [ ] 1) 2 1 Xn 2 k=1 In xk Xn xk k=1 [ ] es la función Gamma (ver Apéndice A). n @InL ( ; x) = @ @InL ( ; x) = @ n + 0 [ ] 1 Xn 2 k=1 n In xk = 0, + Xn k=1 In xk = 0, d donde 0 [z] := dz In [z] se conoce como la función di-gamma (véase Abramowitz y Stegum (1970)). resolver la primera ecuación se obtiene: XAl n Xn 1 b Xk . Sustituyendo esto en la segunda M V = b , donde X n = n k=1 ecuación resulta: l( ) = n 0 [ ] n In X n Xn + In Xk = 0, k=1 b (13.9) , 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 505 que no pueden ser resueltas explícitamente para b ; pueden resolverse numéricamente. Antes de considerar la cuestión de la evaluación numérica vale la pena señalar que estos EMV son diferentes de los estimadores MPM de y : 2 b2 Xn , , b = = MP M MP M Xn b2 obtenido en la sección anterior. Evaluación numérica Al igual que en el caso del modelo Gamma simple discutido anteriormente, cuando se resuelven las condiciones de primer orden para EMV el modelador a menudo tiene que utilizar métodos numéricos ya que ninguna expresión en forma cerrada b = h (X) se puede obtener. El problema es entonces resolver numéricamente la ecuación función puntuación: b l ( ) = 0, que es una función no lineal de . Hay varios algoritmos numéricos que se pueden utilizar para resolver este problema, que son apropiados para diferentes circunstancias. Uno de los algoritmos más simples y más utilizado es el de Newton-Raphson, que podemos describir brevemente de la siguiente manera. Paso 1. Elija una solución inicial (tentativa): 0 . Paso 2. El algoritmo de Newton-Raphson mejora esta solución eligiendo: dl ( 0 ) . d Esto se basa en tomar una aproximación de primer orden de Taylor: 1 = 0 [l0 ( 0 )] 1 l ( 0 ) , donde l0 ( 0 ) = l ( 1) ' l ( 0) + ( 0 1) l 0 ( 0) igualándola a cero l ( 1 ) = 0 y resolviéndola para 1 . Esto proporciona una aproximación cuadrática de la función l ( ). Paso 3. Continuar iterando usando el algoritmo: h i 1 0 b bk+1 = bk l l bk , k = 1; 2; :::; N + 1, k hasta que la diferencia entre bk+1 y bk sea menor que un pequeño valor preasignado , por ejemplo = 0:00001, es decir, 506 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN bN +1 bN < . h i NOTE que l0 bk es la información observada (matriz) encontrada anteriormente. Paso 4. El EMV se elige sea el valor bN +1 para el que: l0 bN +1 ' 0. Como se puede ver, este algoritmo requiere la elección de una conjetura inicial para el estimador que a menudo se elige sea el estimador de MPM. Un algoritmo numérico relacionado, conocido como el método de puntuación, sustituye l0 bk con la información de Fisher In ( ), siendo la justi…cación el resultado de convergencia: 1 0 b c:s: l k ! In ( ) , n dando el esquema de iteración: i 1 1h l bk , k = 1; 2; :::; N + 1. In bk n IMPORTANTE: resulta que todo lo que modelador tiene que hacer para lograr estimadores asintóticamente e…cientes es usar cualquiera de los esquemas de iteración anteriores para una iteración! Una iteración es su…ciente para la e…ciencia asintótica. Para una discusión extensa de estos algoritmos numéricos utilizados en la econometría, veáse Gourieroux y Monfort (1995), Hendry (1995) y Davidson y McKinnon (1993). Ejemplo 7 Consideremos el modelo Logístico simple (un parámetro): [i] MG estadístico: Xk = E (Xk ) + n k , k 2 N, bk+1 = bk [ii] Modelo de probabilidad: = f (x; ) = exp( (x )) ; [1+exp( (x ))]2 o 2 R > 0; x 2 R , [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. La función de log-verosimilitud y las condiciones de primer orden son: InL ( ; x) = Xn k=1 (xk dInL ( ; x) =n d ) 2 2 Xn k=1 Xn k=1 In [1 + exp ( (xk exp ( (xk )) = 0. [1 + exp ( (xk ))] ))] , 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 507 El EMV de se puede obtener utilizando el algoritmo de Newton-Raphson con: l0 ( ) = 2 Xn k=1 exp ((xk [1 + exp ((xk )) , ))]2 y X n como un valor inicial para . Para efectos de comparación OBSERVEMOS que: p 2 2 n Xn ~N a 0; 3 , donde 3 = 3:2899 y p n bEM V ~N (0; 3) . a Ejemplo 4. (continuación). En el caso del modelo Gamma, los EMV de := ( ; ) puede ser obtenidos a través del algoritmo de Newton-Raphson con: ! 00 1 ( ) 0 , l ( )=n 2X n 1 3 2 d donde 00 (z) = dz [z] se conoce como la función tri-gamma (véase 2 In Abramowitz y Stegum (1970)). El método de puntuación simpli…ca esto a: ! 00 ( ) 1 . In ( ) = n 1 2 Ambos algoritmos numéricos requieren algunas estimaciones iniciales para ( ; ) para las que el modelador puede utilizar las estimaciones de MPM (13.10). Usando el algoritmo de Newton-Raphson para evaluar (13.9) se obtiene el esquema de iteración: b k+1 = b k + 1 n Xn k=1 In Xk 0 In X n 00 [b k ] 1 bk [b k ] + In [b k ] , k = 1; 2; :::. Verosimilitud y la distancia de Kullback-Leibler* Alguna intuición sobre lo tratan los EMV se puede obtener al considerar la relación entre la función de log-verosimilitud y la distancia de KullbackLeibler (véase Kullback (1959)). Considere el modelo estadístico simple cuyo modelo de probabilidad toma la forma: 508 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN = ff (x; ) = [p1 ( ) ; p2 ( ) ; :::; pm ( )] , que corresponde a [x1 ; x2 ; :::; xm ] , 2 g Asumiendo que nk representa el número de Xi s que toman el valor xk , la función log-verosimilitud promedio en este caso toma la forma: Xn Xm nk 1 InL ( ; x) = In f (xk ; ) = In pk ( ) . k=1 k=1 n n La última expresión puede estar relacionada con la información de la distancia de Kullback-Leibler entre dos densidades: Z f0 (x) f0 (x) K (f0 ; f1 ) = E In f0 (x) dx, = In f1 (x) f1 (x) x2RX encontrada por primera vez en el capítulo 6, en relación a la medición de la dependencia. Esta medida en el caso donde las dos distribuciones implicadas son: nm n1 n2 ; ; :::; fb(x) := n n n y f (x; ) := [p1 ( ) ; p2 ( ) ; :::; pm ( )] , toma la forma: K fb; f = Xm k=1 " (n ) # k nk n In = n pk ( ) Xm k=1 Xm nk nk nk In pk ( )+ In . k=1 n n n Teniendo en cuenta el hecho de que el último término es una constante, esto sugiere que una manera equivalente a ver la deducción del EMV bM V es minimizando la distancia de Kullback-Leibler. Intuitivamente, esto implica que el EMV se obtiene minimizando la distancia entre el modelo de probabilidad postulado y las frecuencias empíricas. Para los conocedores en matemática esto se puede escribir de manera más formal en términos de la distancia entre la función de distribución acumulada empírica y la fda postulada usando la integral de Riemann-Stieltjes (véase Stuart y Ord (1994)): " # Z b (x) d F K Fb; F = In dFb (x) . dF (x; ) x2@ 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 509 Esta observación refuerza el caso que se argumentó en el capítulo 10 que la función de distribución acumulada estimada proporciona el puente entre la teoría de la probabilidad y la inferencia estadística. Ejemplo Por conveniencia del argumento asumamos que en el caso del modelo Bernoulli, toma sólo dos valores, digamos = f0:2g [ f0:8g; en lugar del habitual [0; 1]. Recordando que = P (X = 1): ¿Cuál es el valor probable de que ha dado lugar a la realización muestal x := (0; 0; 0; 1; 0; 0; 1; 0; 0; 1)? Tomando en cuenta el hecho de que el evento X = 1, se ha producido sólo en tres de los diez casos, la intuición sugiere que el verdadero valor de es más probable que sea = 0:2 en lugar de = 0:8. En términos de la 3 distancia de Kullback-Leibler la frecuencia empírica 10 está mucho más cerca de = 0:2 que de = 0:8. 9.5.4 Propiedades de los EMV Propiedades de muestra …nita Los estimadores de máxima verosimilitud no son insesgados en general pero en su lugar disfrutan de una propiedad muy útil: que son invariantes con respecto a parametrizaciones funcionales bien comportadas. [1] Invarianza con respecto a parametrización Para =g( ) una función bien comportada (Borel) de , el EMV de viene dado por: b MV = g bM V . Ejemplo 6. (continuación) En el caso del modelo Exponencial se especi…cado anteriormente, a menudo estamos interesados en = 1 . A partir de esta propiedad del EMV podemos deducir que el EMV de es: bM V = 1 bM V n = Xm k=1 . (13.11) Xk Con el …n de con…rmar esto vamos a expresar la función de densidad en términos de decir: 510 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN f (x; ) = y obtenemos el EMV de verosimilitud: exp f xg , mediante la maximización de la función log- Xn InL ( ; x) = const + n In xk . k=1 Xn Dado que @@ InL ( ; x) = n xk = 0, el resultado es (13.11). k=1 Esta propiedad es particularmente útil en el contexto del enfoque defendido en este libro, porque los parámetros teóricos de interés rara vez coinciden con los parámetros estadísticos y esta propiedad nos permite deducir los EMV de los primeros. Tomando en cuenta el hecho de que, en general: E bM V 6= g bM V , podemos pensar en el sesgo en algunos EMV como el precio que tenemos que pagar por la propiedad invariancia. Por lo tanto, si bM V es un estimador insesgado de , es decir, E bM V = , no hay ninguna razón para creer que b MV va a ser un estimador insesgado de , en general E bM V 6= . [2] Insesgamiento - e…ciencia completa En un modelo estadístico regular (véase el capítulo 12), si un estimador insesgado, que también alcanza la cota mínima de Cramer-Rao, existe, por ejemplo bU , entonces coincide con el estimador de máxima verosimilitud bM V , es decir, bU = bM V . Ejemplo 8 Consideremos el modelo Poisson simple: [i] MG estadístico: Xk = E (Xk ) + n k , k 2 N, [ii] Modelo de probabilidad: = f (x; ) = x e x! o ; > 0; x 2 N0 = f0; 1; 2; :::g , [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. Tomando en cuenta el hecho de que E (Xt ) = , podemos deducir que el estimador Xn propuesto por los tres últimos métodos de estimación sería: bU = 1 Xk . Usando la linealidad de E (:) (ver capítulo 3) podemos n k=1 demostrar que: E bU = y V ar bU = n . 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 511 De la distribución de la muestra: D (X1 ; X2 ; :::; Xn ; ) = n Y f (xk ; ) = k=1 n Y xk 1 xk ! e k=1 Xn = xk k=1 e n 1 xk ! podemos deducir la cota mínima de Cramer-Rao. Teniendo en cuenta: d2 d 2 InL (x; ) = d d In ( ) = E 1 Xn Xk d2 InL (x; ) d 2 = n+ k=1 = n 1 Xn 2 k=1 ) CR ( ) = n Xk . . Esto sugiere que bU es a la vez insesgado y totalmente e…ciente. En vista de la propiedad anterior de EMV, bU debe coincidir con el EMV de . Con el …n de veri…car este resultado, vamos a obtener el EMV de . La condición de primer orden: 1 Xn 1 Xn d InL (x; ) = n + Xk ) bM V = Xk . k=1 k=1 d n Este, efectivamente, coincide con el estimador insesgado, completamente e…ciente bU . [3] Su…ciencia Como se ha dicho en el capítulo 12, el concepto de estadístico su…ciente se analiza mejor utilizando el teorema de Factorización. Un estadístic h (X) se dice que es un estadístico su…ciente para si y sólo si existen funciones g(h (X) ; ) y v (X), donde la primera depende de X sólo a través de h (X), mientras que la última es libre de , de tal manera que la distribución de la muestra se factoriza en el producto: f (x; ) = g (h (X) ; ) v (X) , para todo x 2 X, 2 . (13.12) Esto sugiere que si existe un estadístico su…ciente h (X), entonces el EMV es una función de él porque: L (x; ) = [k (X) v (X)] g (h (X) ; ) , , 512 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN y la maximización de la función de verosimilitud es equivalente a maximizar g(h (X) ; ), que depende de la muestra sólo a través del estadístico su…ciente. Propiedades asintóticas (muestra aleatoria) Vamos a considerar las propiedades asintóticas de EMV en el caso de muestra aleatoria simple cuando In ( ) = nI ( ) . (13.13) Con el …n de poder obtener resultados generales necesitamos imponer algunas condiciones de regularidad, además de Rf1-Rf6 utilizadas hasta ahora. Rf7. E (In f (x; )) existe, c:s: Rf8. n1 In L ( ; x) ! E (In f (x; )) para todo 2 . [4] Consistencia (a) Consistencia débil. Bajo estas condiciones de regularidad, los EMV son débilmente consistentes, es decir: P lim bM V = n!1 c:s: = 1, denotado por: bM V ! . Véase el capítulo 9 para una discusión acerca de estos dos distintos tipos de convergencia. [5] Normalidad asintótica Para Normalidad asintótica de los EMV tenemos que asegurarnos de que, además de las condiciones de regularidad Rf1-Rf6, mencionadas anteriormente, se cumplen las siguientes condiciones (Gourieroux y Monfort (1995)): Rf9. La información de Fisher para una observación: 0 <I( ) < 1, donde ! 2 d2 Inf (x; ) dInf (x; ) , I ( ) := E =E d d 2 Rf10. In L ( ; x) es dos veces diferenciable en un intervalo abierto alrededor de . Bajo las condiciones de regularidad Rf1-Rf10, los EMV son asintóticamente normales, es decir: p n bM V ~N (0; V1 ( )) a donde V1 ( ) denota la varianza asintótica de bM V . 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 513 [6] E…ciencia asintótica Bajo las mismas condiciones de regularidad la varianza asintótica de los estimadores de máxima verosimilitud alcanza la cota mínima asintótica de Cramer-Rao, que, en vista de (3.13) toma la forma: V1 bM V =I 1 ( ). Ejemplos (1) El modelo Bernoulli. Los resultados anteriores en relación con este modelo indican que: p n bM V )) . ~N (0; (1 a (2) El modelo Exponencial. Los resultados anteriores en relación con este modelo indican que: p n bM V ~N 0; a 2 . 3) El modelo Normal. A la vista de los resultados en (13.8) se puede deducir que: p n (bM V ) ~N 0; a 2 , p n b2M V ~N 0; 2 4 a . Propiedades asintóticas (muestra no ID, pero independiente) Las propiedades asintóticas anteriores necesitan modi…carse en cierta medida en el caso de que la muestra sea independiente pero no idénticamente distribuida. En este caso, la relación entre la información de observación individual de Fisher I( ) y la información de Fisher de la muestra In ( ) no se relacionan como en (13.13). En su lugar, las dos están relacionadas a través de: In ( ) = Xn k=1 Ik ( ) , donde Ik ( ) = E dInf (xk ; ) d 2 ! , (13.14) debido a la independencia. Para que las anteriores propiedades se cumplan necesitamos imponer determinadas restricciones sobre In ( ). Estas restricciones estarán relacionadas con su comportamiento asintótico y, en particular, su orden de magnitud (ver Spanos (1986), cap. 10). En términos brutos estas condiciones equivalen a: 514 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN (1). lim In ( ) = 1, n!1 (2). Existe una sucesión fcn g1 n=1 tal que 1 In ( ) c2n lim n!1 = I1 ( ) donde 0 < I11 ( ) < 1. La primera condición asegura consistencia y la segunda asegura Normalidad asintótica. La Normalidad asintótica en estas condiciones toma la forma: cn bM V ~N 0; I11 ( ) . a Ejemplo 3. (continuación) Considere el modelo de regresión lineal normal simple. Resulta que los EMV de := ( 0 ; 1 ; 2 ) coinciden con los estimadores principio de momentos coincidentes: b0 = y b1 x, b1 = Xn (yk k=1 Xn y) (xk k=1 x) x)2 (xk , b2 = 1 Xn (yk k=1 n y)2 1 n Xn 1 n (13.15) Para ver esto vamos a de…nir la función de verosimilitud: L 0; 1; 2 ;y / = Yn k=1 2 n 1 p exp 2 (2 ) n 2 1 2 exp 2 2 (yk 1 Xn 2 2 1 xk ) 0 k=1 (yk 0 2 1 xk ) . Como suele ser el caso, para localizar los EMV utilizamos la función logverosimilitud, que en el presente caso es: InL ( ; y) = const n In 2 2 2 1 Xn 2 k=1 (yk 0 Por lo tanto, al resolver las condiciones de primer orden: 2 1 xk ) . (yk Xn k=1 k=1 y) (xk (xk x) 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD @In L ( ; y) = @ 0 @In L ( ; y) = @ 1 @In L ( ; y) = @ 2 1 2 2 1 Xn ( 2) k=1 (yk Xn ( 2) (yk k=1 2 2 n 1 Xn (yk + k=1 2 2 2 4 515 0 1 xk ) 0 1 xk ) xk = 0, 2 1 xk ) = 0, 0 = 0, tenemos los EMV (13.15). Para ver las di…cultades en relación con el orden de magnitud de la matriz de información de Fisher la deducimos. Las segundas derivadas y sus valores esperados producen: @ 2 In L ( ; y) @ 20 @In L ( ; y) @ 21 @ 2 In L ( ; y) @ 1@ 0 @ 2 In L ( ; y) @ 2@ 0 @ 2 In L ( ; y) @ 2@ 1 @In L ( ; y) @ 4 n , 2 = 1 Xn = 2 2 0; 4 k=1 1 Xn = 4 k=1 n 2 4 = 1; k=1 1 Xn = donde ut = yt la forma: In k=1 1 Xn = x2k , )E xk , )E uk , )E uk xk , )E 1 Xn 6 k=1 1 xt . 0 2 @ 2 In L ( ; y) n = 2, 2 @ 0 @In L ( ; y) 1 Xn x2k , = 2 k=1 @ 21 @ 2 In L ( ; y) 1 Xn = 2 xk , k=1 @ 1@ 0 @ 2 In L ( ; y) = 0, @ 2@ 0 @ 2 In L ( ; y) = 0, @ 2@ 1 @In L ( ; y) n = 4, 4 @ 2 )E 0 B =@ u2k = 0, Por lo tanto, la matriz de información toma n 1 2 1 2 )E Xn k=1 0 2 xk 1 2 Xn Xk=1 n k=1 0 xk x2k 0 1 C 0 A (13.16) n 2 4 Para la consistencia requerimos que esta matriz de información converja a in…nito como en (1). Esto se logra si: 516 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Xn k=1 x2k ! 1. n!1 Sin embargo, para la normalidad asintótica del estimador b1 el modelador Xn también necesita saber la tasa de convergencia de x2k con el …n de k=1 de…nir la sucesión de normalización fcn g1 n=1 . A falta de dicha información él o ella siempre pueden utilizar: cn = Xn k=1 x2k 1 2 ) Xn k=1 x2k NOTA. En Spanos, p. 674, dice E b1 1 @ 2 In L( ;y) @ 20 ~N 0; a = T 2 2 . ; creo debería 2 @ In L( ;y) decir E = n2 . @ 20 Propiedades asintóticas (muestra no aleatoria)* En el caso de una muestra no aleatoria Xn := (X1 ; X2 ; :::; Xn ) la información de Fisher no satisface (13.13) ni (13.14). La forma más sencilla de obtener una forma comparable es a través del condicionamiento secuencial utilizado en los capítulos 6-8 para muestras no aleatorias. Tomando en cuenta el hecho de que: D (X1 ; X2 ; :::; Xn ; ) = D (X1 ; 1) n Y k=2 Dk (Xk jXk 1 ; :::; X1 ; k) , X 2 @. En los casos en que el índice de dependencia del parámetro pueda ser restringido por la imposición de una cierta restricción de heterogeneidad, cuya forma débil es: lim n = , la función de log-verosimilitud se puede n!1 expresar en la forma: Xn InLn ( ; x) / In Dk (Xk jXk 1 ; :::; X1 ; ) , 2 , k=1 donde por k = 1 la distribución es marginal inicial D (X1 ; ). La función puntuación toma la forma: sn ( ; x) = Xn @ Xn @ InLn ( ; x) = In Dk (Xk jXk 1 ; :::; X1 ; ) := uk ( ; x) , k=1 @ k=1 @ Por lo tanto, viendo sk ( ; :) y uk ( ; :) como funciones de la historia pasada de Xt+1 : 2 . 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 517 Xk := (X1 ; X2 ; :::; Xk ) , podemos deducir que para s0 ( ) = 0: (i) uk ( ; Xk ) = X sk ( ; Xk ) sk 1 ( ; Xk 1 ), k = 1; 2; :::; n, n (ii) sn ( ; X) = [sk ( ; Xk ) sk 1 ( ; Xk 1 )], k=1 o de manera equivalente: sk ( ; Xk ) = sk 1 ( ; Xk 1 ) + uk ( ; Xk ), k = 1; 2; :::; n. 1 Estos resultados sugieren que los procesos fsk ( ; Xk )g1 k=1 y fuk ( ; Xk )gk=1 son, respectivamente, un proceso martingala y un proceso de diferencia martingala con respecto a (Xk 1 ), ya que: (iii) E (uk ( ; Xk ) j (Xk 1 )) = 0, k = 1; 2; :::; n, (iv) E (sk ( ; Xk ) j (Xk 1 )) = sk 1 ( ; Xk 1 ), k = 1; 2; :::; n; véase el capítulo 8. Además, fsk ( ; Xk )g1 k=1 es una martingala de media cero debido a que: E (sk ( ; Xk )) = E fE (sk ( ; Xk ) j (Xk 1 ))g = 0; k = 1; 2; :::; n, con…rmando la propiedad sc1 de la función puntuación antes mencionada. Dado que el EMV bM V es una raíz de la ecuación de la función puntuación sn ( ; X) = 0 y fsk ( ; Xk ) , (Xk 1 )g1 k=1 es una martingala de media cero que puede ser escrita como la suma: sn ( ; X) = Xn k=1 uk ( ; Xk ) , podemos usar los teoremas límite del capítulo 9 para probar tanto la consistencia como la Normalidad asintótica. La forma más sencilla de ver esto es de…nir el proceso (segundo orden) de información condicional: n ( ; X) = Xn k=1 E u2k ; Xk j (Xk 1 ) , que también es una martingala, porque el proceso de diferencia martingala fuk ( ; Xk )g1 k=1 se comporta como un proceso no correlacionado (véase el capítulo 8) NOEA que la información de Fisher es sólo la media de este proceso, es decir: In ( ) = E s2n ( ; X) = E n ( ; X) . 518 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Bajo ciertas condiciones regularidad similares a las condiciones de la matriz de información en el caso no ID, se puede demostrar que: 1 (a) [In ( )] 1 2 (b) [In ( )] Xn c:s: k=1 Xn uk ( ; Xk ) ! 0. k=1 n!1 D uk ( ; Xk ) ! N (0; 1) . n!1 Ejemplo 9 Consideremos el modelo autorregresivo Normal: [i] MG estadístico: Xk = Xk 1 +(uk , k 2 N, [ii] Modelo de probabilidad: f (x1 ; ) = :=( ; p 1p 0 2 0 ), 2 2 (1 exp = = 2 ) x2k 2 0 t=2 , f (xk jxk 1 ; ) = 2 0 2 E(Xk 1 Xk ) , E (Xk2 1 ) f (x1 ; x2 ; :::; xn ; ) = f (x1 ; ) = E Xk2 0 1 p 2 exp [E(Xk 1 Xk )]2 E (Xk2 1 ) 1 n Y n f (xk jxk 1 ; ) , 1 (xk 2 [iii] Modelo muestral: (X1 ; X2 ; :::; Xn ) es una muestra estacionaria dependiente Markov extraída secuencialmente de f (xk jxk 1 ; ), k 2 N. La distribución de la muestra X := (X1 ; X2 ; :::; Xn ) se determina a través de: X1 ~N 0; Xk Xk k; = 1; 2; :::; n. 2 0 1 2 0 ~N @ , 0 0 2 2 0 2 0 2 1 ;4 2 0 1 2 1 j j 2 j j 2 0 1 2 31 5A , La función de log-verosimilitud toma la forma: 1 InL ( ; x) = In 1 2 di;j = Xn i k=j+1 2 n In 2 2 0 xk xk+i j , i; j = 0; 1. Las condiciones de primer orden son: 1 2 2 0 d00 2 d01 + 2 d11 , xk 2 0 1) 2 o , 2( 1 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD ( n 1 n @In L( ;x) = 2n2 + 2 1 4 @ 20 0 0 @In L( ;x) = @ (1 b20 = d11 b 3 + fd00 2 n 2 d11 2d01 2 20 = 0, 2) 1 d00 n n 2 d01 + d11 g = 0 2b d01 + b 2 d11 , d01 b 2 519 d11 + d00 n ) ) b + d01 = 0. La primera ecuación da el EMV de 2 , pero la segunda es una ecuación cúbica con tres raíces, pero la única relevante es la raíz relacionada con el intervalo (21,1). Aunque hay una solución de forma cerrada a esta ecuación es muy complicada y a menudo se estima utilizando un algoritmo de aproximación numérica, como el de Newton-Raphson descrito anteriormente. La derivación se puede simpli…car de manera signi…cativa, dejando la distribución de la observación fuera y obtener el EMV aproximado basado en: n InL ( ; x) = 1 2 2 0 In 2 1 Xn 2 0 k=2 (xk xk 1 )2 . Por lo tanto, obtenemos los EMV aproximados resolviendo las condiciones de primer orden: @In L ( ; x) = @ @In L ( ; x) @ 20 @ 2 In L ( ; x) @ 2 @In L ( ; x) @ 20 @ @In L ( ; x) @ 40 = 1 Xn 2 0 k=1 (xk n 1 + 2 20 2 X n 1 xk 1 ) xk 1 Xn 4 0 k=2 1 Xn = 0, ) b = Xk=2 n xk xk k=2 (xk xk 1 )2 = 0, ) b20 = 2 x2k 1 1 1 n , 1 Xn k=2 1 Xn (xk b xk 1 )2 , @ In L ( ; x) j (Xk 1 ) = 2 x2k 1 , k=2 k=2 @ 2 0 1 Xn @In L ( ; x) = (xk x k 1 ) xk 1 , ) E j (Xk 1 ) = 0, 4 k=2 @ 20 @ 0 n 1 1 Xn @In L ( ; x) n 1 = (xk xk 1 )2 = 0, ) E j (Xk 1 ) = . 4 6 4 k=2 2 0 @ 0 2 40 0 = 2 0 x2k 1 , ) E La matriz de información condicional toma la forma: 520 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN 1 ; n 2 0; X 2 0 = Xn k=2 x2k 0 1 n 1 2 40 0 ! que recuerda a una de la regresión lineal discutida anteriormente. Teniendo en cuenta que: In ( ) = E E @ 2 In L ( ; x) j (Xk 1 ) @ 2 = Xn 1 E 2 n (b ) ~N 0; 1 a 2 , p n b20 1 ~N 0; 2 4 0 k=2 0 Por lo tanto, podemos concluir que: p x2k 2 0 a = 2 0 1 2 0 1 . Heyde (1975) sugiere el uso de la información condicional para la normalización: r Xn x2k 1 (b ) ~N 0; 20 . k=2 9.5.5 a El método de máxima verosimilitud y sus críticos Los resultados relativos a los EMV discutidos anteriormente justi…can la amplia aceptación de la máxima verosimilitud (ML) como el método elegido para los propósitos de estimación. Resulta que hay buenas razones para que también el método ML se pre…era para propósitos de prueba (véase el capítulo 14). A pesar de la amplia aceptación del método MV hay también críticos que señalan varios ejemplos en los que el método no produce resultados satisfactorios. Estos ejemplos incluyen los casos en que (a) el tamaño de la muestra es excesivamente pequeño, (b) las condiciones de regularidad no se cumplen y (c) el modelo postulado está mal especi…cado. En cuanto a lo que se re…ere a la primera categoría de ejemplos, investigando para un buen estimador en los casos en que el tamaño de la muestra es excesivamente pequeño, la crítica está completamente fuera de lugar porque el modelador está buscando el famoso almuerzo gratis. La crítica del método de MV basada en ejemplos que no cumplen las condiciones de regularidad está también fuera de lugar porque si el modelador busca métodos con cualquier caracter general las condiciones de regularidad son inevitables. Sin condiciones de regularidad cada problema de estimación será considerado único; ningún principios 2 = 1 1 2 . 9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 521 uni…cador es posible. La tercera categoría merece más discusión, ya que pone de mani…esto un problema importante en la modelación empírica. En esta categoría clasi…camos todos los modelos estadísticos que especi…can los parámetros desconocidos que, o bien crecen con el tamaño de la muestra o bien se relacionan con alguna operación extrañamente impuesta tal como truncamiento o censura de la muestra (véase Cohen (1991)). De esta última categoría vamos a considerar el ejemplo por excelencia. Ejemplo 10 Consideremos el modelo de Neyman y Scott (1948): [i] MG estadístico: Xij = E (Xij ) ( + ij , i 2 N, j 2 N, donde E (Xij ) = i , n Y N Y 2 1 i) g p1 ef 2 2 (xij ; [ii] Modelo de probabilidad: = f (x; ) = 2 i=1 j=1 [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra independiente. Los "EMV" se obtienen de la resolución de las condiciones de primer orden: 8 < : @In L( ;x) @ 2 @In L( ;x) @ i = 1 nM 2 2 + 1 = 2 2 4 XN (Xij Xj=1 n XN i=1 j=1 i) = 0 9 = 2 ; i) = 0 (Xij ) 1 Xn XN 1 Xn 2 1 XN 2 Xij , = (Xij bi )2 = si , j=1 i=1 j=1 i=1 N nN n XN (Xij bi )2 . El argumento comúnmente utilizado donde s2i := n1 j=1 contra el método de MV se basa en el resultado de que: bi = E s2i = (N 1) 2 c:s: ) b2 ! (N 1) 2 , N N y por lo tanto b2 es un estimador inconsistente de 2 . Un momento de re‡exión, sin embargo, revela que el argumento de inconsistencia sobre la base de n ! 1, está mal pensado, porque al mismo tiempo, el número de parámetros desconocidos ( 1 ; 2 ; :::; m ) aumenta hasta in…nito! El modelador debe ser escéptico de cualquier método de estimación que proporciona un estimador consistente de 2 sin imponer algunas restricciones adicionales relativas a lo que ocurre con n cuando n ! 1. Consideramos el 2Rn ) R+ , xij 2R , 522 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN hecho de que el método MV no proporciona estimadores óptimos en los casos en los que el modelo estadístico está mal especi…cado como un argumento a su favor, no en contra! 9.6 Ejercicios 1. Compare los dos primeros momentos crudos de la muestra y los momentos centrales de la muestra en relación con los parámetros que pretenden estimar. 2. Compare mínimos cuadrados como método de aproximación matemática y el método estadístico de mínimos cuadrados. 3. Compare y contraste el método de momentos de Pearson con el método paramétrico de momentos. 4. Explique por qué constituye un anacronismo comparar el método de máxima verosimilitud con el método paramétrico de momentos. 5. "La comparación de los estimadores de máxima verosimilitud y del método paramétrico momentos por razones de e…ciencia no es un ejercicio muy interesante." Discuta. 6. Describa los principales inconvenientes del método de Pearson para deducir un modelo descriptivo. 7. Explique el principio de los momentos coincidentes y comparelo con el método paramétrico de momentos. 8. Para el modelo estadístico Bernoulli obtenga el estimador de mínimos cuadrados de , su distribución muestral y sus propiedades. 9. Considere el modelo estadísticoNormal simple. (a) Obtenga los EMV de ( ; 2 ) y sus distribuciones muestrales. (b) Obtenga los estimadores de mínimos cuadrados de ( ; 2 ) y sus distribuciones muestrales. (c) Compare estos estimadores en términos de las propiedades óptimas, insesgamiento, e…cacia completa y consistencia. 10. Considere el modelo estadísticoNormal simple con = 0, es decir, el modelo de probabilidad es: = 1 f (x; ) = p exp 2 Deducir el EMV de 1 2 2 x2 ; := 2 > 0, x2R . y compararlo con el estimador: 9.6. EJERCICIOS 523 e2 = 1 Xn Xk , k=1 n+2 en términos de su ECM. 11. Considere el modelo estadístico simple de Laplace basado en el modelo de probabilidad: = f (x; ) = 1 e 2 1 jxj , > 0, x2R . Deducir el EMV de y compararlo con los estimadores MPM y de mínimos cuadrados. 12. Consideremos el modelo estadístico simple de Pareto basado en el modelo de probabilidad: = f (x; ) = x0 x ( +1) ; > 0, x > x0 > 0, x2R . 13. Exponga las propiedades óptimas de los estimadores de máxima verosimilitud (muestras …nitas y asintóticas). 14. Explique la diferencia entre: (a) información de la muestra y de observación individual de Fisher, (b) matrices de información y de información observada de Fisher,. (c) matrices de información y de información condicional de Fisher. 15. "El método de máxima verosimilitud minimiza la distancia entre las probabilidades teóricas y sus contrapartes empíricas según su de…nición por la función de distribución acumulada empírica (fdae)." Discuta. 16* Obtenga el esquema iterativo para el método de puntuación en la evaluación del EMV de las condiciones de primer orden en el caso del modelo logístico simple. 17* Obtenga el esquema iterativo para el método de puntuación en la evaluación del EMV de uno en el caso del modelo Gamma simple. 1 18* Explique por qué los procesos fsk ( ; Xk )g1 k=1 y fuk ( ; Xk )gk=1 , de…nidos en la sección 5.4, constituyen, respectivamente, un martingala y un proceso de diferencia martingala con respecto a (Xk 1 ). 524 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN Capítulo 10 Prueba de hipótesis 10.1 Introducción 10.1.1 Las di…cultades inherentes en el dominio de las pruebas de hipótesis Las prueba de hipótesis es una de los más importantes, pero también una de las partes más confusas de la inferencia estadística, por varias razones, entre ellas las siguientes: (i) la necesidad de introducir numerosos nuevos conceptos antes de que uno sea capaz de de…nir el problema de manera adecuada, (ii) el hecho de que la discusión actual de libros de texto del problema constituye un híbrido inepto de dos enfoques fundamentalmente diferentes a las pruebas (lo que Gigerenzer (1987) llama la "teoría híbrida") y (iii) el hecho de que no existe un método único para la construcción de "buenas" pruebas en la mayoría de circunstancias, comparable con el método de estimación de máxima verosimilitud. Se hace un intento para mitigar estos problemas mediante la utilización de una serie de técnicas de enseñanza, la más importante de las cuales es el desarrollo histórico de las pruebas desde …nales del siglo 19. Hay que decir que esta se utiliza como un recurso de enseñanza y no intenta dar una explicación completa del desarrollo histórico de las pruebas: una tarea importante que aún no se ha realizado. La dimensión histórica de la prueba se utiliza principalmente para facilitar el problema de la introducción de muchos conceptos demasiado rápido y para poner de mani…esto las diferencias entre 525 526 CAPÍTULO 10. PRUEBA DE HIPÓTESIS los enfoques de Fisher y Neyman-Pearson a la prueba. Como preludio a la discusión resumimos una serie de diferencias fundamentales entre la explicación tradicional de las pruebas y las interpretaciones propuestas en la discusión que sigue: (a) la prueba híbrida "forjada" por los libros de texto de estadística en la década de 1960 es de…ciente, (b) la formulación de Neyman-Pearson no ha superado la de Fisher, (c) las dos formulaciones son diferentes pero complementarias, (d) el enfoque de Neyman-Pearson se adapta mejor a las pruebas dentro de los límites demarcados por el modelo postulado y (e) el enfoque de Fisher se adapta mejor a las pruebas fuera de los mismos límites. La discusión en este capítulo se entremezcla con ejemplos y algunos de los conceptos más difíciles se han introducido a través de ejemplos de este tipo. 10.1.2 Una vista panorámica del capítulo En la sección 2 discuimos el enfoque de Fisher (a menudo llamado pruebas de signi…cancia pura), considerado como una extensión natural de los procedimientos de prueba heredados de Edgeworth y Pearson. En la sección 3 se examina el enfoque de Neyman-Pearson, prestando especial atención a su relación con el enfoque de Fisher. La sección 4 discute brevemente los tres procedimientos de prueba asintótica: la razón de verosimilitud, puntuación e…ciente y los procedimientos de prueba de Wald. En la sección 5 de los dos enfoques se comparan y contrastan. Se argumenta que el enfoque de Fisher es más adecuado para la prueba de hipótesis que van más allá de los límites demarcados por el modelo estadístico postulado. Por otro lado, el enfoque de Neyman-Pearson es esencialmente pruebas dentro de los límites del modelo estadístico postulado. En este sentido, los dos enfoques, aunque fundamentalmente diferentes, son considerados como complementarios. IMPORTANTE: como todas las demás formas de inferencia estadística, la prueba de hipótesis comienza con la postulación por parte del modelador de un modelo estadístico que pretende describir el mecanismo estocástico que dio origen a los datos observados en cuestión y por lo tanto los resultados de inferencia dependen fundamentalmente de la su…cienca del modelo estadístico postulado. 10.2. PRELIMINARES AL ENFOQUE DE FISHER 10.2 527 Preliminares al enfoque de Fisher La prueba de hipótesis en el principio del siglo 19 alcanzó a nada más que una comparación informal entre los valores de los parámetros especi…cados por la hipótesis considerada y de las estimaciones correspondientes. Es decir, la prueba de una hipótesis de la forma: = 0, (14.1) tomó la forma de comprobar si la discrepancia entre una estimación b de y el valor especi…cado 0 era "cercano a cero" o no, es decir, b 0 0. (14.2) Qué tan grande debe ser la diferencia para ser considerada "lo su…cientemente grande" nunca se formalizó adecuadamente. En esta primera etapa podemos distinguir varias características que serán conservadas en el desarrollo posterior de las pruebas de hipótesis. Estas características incluyen: (i) una noción primitiva de una hipótesis de interés: = 0 y (ii) una función distancia: b 0 . Esta es claramente la prehistoria de la prueba. La historia real de la prueba comienza con Edgeworth. 10.2.1 Edgeworth Un ejemplo típico de un procedimiento de prueba a …nales del siglo 19 es proporcionado por Edgeworth (1885) al comparar la diferencia entre dos medias. La idea fue comparar dos muestras diferentes (o submuestras) para evaluar si tienen la misma media o no. Una forma de ver este problema es comenzar con una muestra X := (X1 ; X2 ; :::; Xn ) y dividirla en dos submuestras de tamaño n1 > 2 y n2 > 2 observaciones, respectivamente (n = n1 + n1 ): X := (X1 ; X2 ; :::; Xn1 ; Xn1+1 ; :::; Xn ) . El sentido común y el conocimiento estadístico de la época sugirió buscar en los dos primeros momentos submuestrales (a posteriori interpretados como estimadores momento principio de coincidencia): 528 b1 = CAPÍTULO 10. PRUEBA DE HIPÓTESIS n1 n1 1 X 1 X Xi , b21 = (Xi n1 i=1 n1 i=1 b1 )2 , b2 = n1 n 1 X 1 X Xi , b22 = (Xi n2 i=n +1 n2 i=n +1 1 1 Edgeworth argumentó que si la distancia estandarizada entre las dos medias submuestrales es mayor que una constante preespeci…cada: p jb b2 j > 2 2, (X) := q 1 b21 + b22 b2 )2 , (14.3) la diferencia entre las dos medias no se puede justi…car como "accidental" y parecerá ser signi…cativa. ¿De dónde proviene la constante? En aquel entonces la única distribución disponible para este tipo de análisis estadístico fue la Normal y, de manera inevitable, la constante 2 fue relacionada con ella.p Resulta que la probabilidad de la distribución Normal más allá del valor 2 2 es igual a 0.005; el valor de ocurrencia accidental. Retrospectivamente, la prueba de Edgeworth podría interpretarse como una prueba de la hipótesis: 1 = 2 = . permitiendo la posibilidad de que las varianzas sean diferentes, es decir, Xk ~N 1; 2 1 , k = 1; 2; :::; n1 , Xk ~N 2; 2 2 en el contexto de un modelo Normal simple: [i] MG estadístico: Xk = E (Xk ) + n uk , k 2 N, [ii] Modelo de probabilidad: = f (x; ) = p1 2 , k = n1 + 1; :::; n, ef 1 (x 2 2 )2 g ; := ( ; [iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. Comparando este resultado con el concepto primitivo de prueba antes de la época de Edgeworth, podemos ver que añadió dos características: (iii) el concepto de distancia (estandarizada): (X), p (iv) una regla de rechazo: (X) > 2 2. Las cuatro características fueron desarrolladas aún más por Pearson y posteriormente formalizadas por Fisher en el siglo 20. 2 ) 2R R+ , x2R 10.2. PRELIMINARES AL ENFOQUE DE FISHER 10.2.2 529 Pearson La primera prueba importante que se extiende tanto a la tradición estadística de Pearson como a la de Fisher (ver capítulo 13), es la llamada prueba chi cuadrada de Pearson. Pearson (1900) propuso esta prueba como una forma de medir la "bondad de ajuste" en el caso de elegir un modelo descriptivo de un conjunto particular de datos dentro de la familia Pearson (Pearson (a; b0 ; b1 ; b2 )), como se describe en el capítulo 13. Utilizando los primeros cuatro momentos crudos de la "muestra" X := (X1 ; X2 ; :::; Xn ), el procedimiento de Pearson estima los cuatro parámetros a; bb0 ; bb1 ; bb2 que de…nen la familia Pearson. A su vez estas estimaciones b := b selecciona un miembro de la familia Pearson, por ejemplo f0 (x), que describe mejor los datos con f0 x; b , su contraparte empírica. La hipótesis de interés de Pearson era si la elección de f0 (x) es válida, es decir, f (x) = f0 (x) , donde f (x) 2 Pearson (a; b0 ; b1 ; b2 ) (14.5) Dado que el procedimiento de Pearson alcanzó a ajustar una curva en el histograma, no es sorprendente descubrir que Pearson obtuvo su prueba al comparar las frecuencias empíricas (no las frecuencias relativas) (fbi , i = 1; 2; :::; m) con las correspondientes frecuencias teóricas (fi , i = 1; 2; :::; m) (según lo especi…cado por f0 (x)), donde los intervalos (i = 1; 2; :::; m) son mutamente excluyentes y cubren el rango de los valores de la variable aleatoria considerada . La función distancia estandarizada tomó la forma de suma de cuadrados estandarizados: (X) = m fbi X i=1 2 fi . fi (14.6) Se demostró que, suponiendo que la curva de frecuencia teórica f0 (x) es apropiada, (X) tiene una distribución asintótica chi cuadrada con (m 1) grados de libertad, es decir, (X) ~ a NOTAS: 2 (m 1) (14.7) 530 CAPÍTULO 10. PRUEBA DE HIPÓTESIS (i) El uso de las distribuciones asintóticas se utilizó rutinariamente durante los siglos 19 y 20. Lo que cambio con el tiempo esta práctica fue el resultado seminal de Gosset (1908). (ii) Lo importante de este resultado es que la distribución (asintótica) no depende ni de la naturaleza de la curva de frecuencia elegida por los datos ni del número de puntos de datos; es muy sensible, sin embargo, al número de intervalos m. (iii) El resultado distribucional en (14.7) se obtiene del supuesto implícito de que la hipótesis de interés es válida; este es un supuesto que fue hehco explícitamente por Fisher. La intuición sugiere que cuanto mayor sea el valor de , peor es el ajuste. Por lo tanto, para un valor dado de (X), por ejemplo (x) (basado en los datos observados x), el modelador decidiría si la distancia era lo su…cientemente grande como para indicar una "mal ajuste" usando la probabilidad de la cola 2 (m 1): P ( (X) > (x)) = p. (14.8) Un pequeño valor de p corresponde a un valor grande de y, por lo tanto, cuanto menor sea el valor de p, peor será el ajuste. Las contribuciones Karl Pearson a las pruebas se puede resumir de la siguiente manera: (a) la ampliación de la especi…cación de la hipótesis de interés, (b) la deducción de una función distancia, cuya distribución es libre de f0 (x) y, (c) el uso de la probabilidad de una cola para evaluar la validez de la hipótesis de interés. El uso de probabilidad de una cola está implícito en Edgeworth, pero Pearson lo formalizó al poner en escena de manera explícita la distribución (asintótica) de la función distancia. Por lo tanto, Pearson, además de mejorar algunas de las características heredadas, agregó algo más: (v) la distribución (14.7) de una función de distancia y (vi) la probabilidad de una cola (14.8). La lógica del sentido común de la probabilidad de una cola era que si el valor de (X) pasara a pertenecer a una área de alta probabilidad de la distribución chi cuadrado entonces los datos observados parecerían apoyar la hipótesis de interés, pero si cae en una área de muy baja probabilidad (en la remota cola derecha de la distribución) no la apoya. 10.2. PRELIMINARES AL ENFOQUE DE FISHER 531 A pesar de que la anterior prueba de ajuste fue desarrollada por Pearson para pruebas dentro de la familia Pearson, cuando se ve en el contexto de la inferencia estadística, su aplicabilidad es más amplia que su ámbito de aplicación original, como lo ilustra ejemplo siguiente. Ejemplo Considere uno de los ejemplos históricos más importantes usando datos de Mendel basado en su experimento clásico de mejoramiento de la forma y el color de las plantas de chícharos. La teoría de Mendel sobre la herencia en relación con las variables aleatorias X-forma, Y -color, de…nida de la siguiente manera: X(round) = 0, X(rugoso) = 1, Y (amarillo) = 0, Y (verde) = 1, dio lugar a una distribución bivariada de la forma: ynx 0 1 fy (y) 0 0:5625 0:1875 0:750 1 0:1875 0:0625 0:250 fx (x) 0:750 0:250 1:000 Tabla 14.1. Distribución de dos variables f (x; y) En una muestra aleatoria de tamaño 556, los datos de Mendel dieron lugar a las frecuencias observadas tal como se indican en el cuadro 14.2. ynx 0 1 b fx (x) 315 556 108 556 0 = 0:566 = 0:194 0:760 101 556 32 556 1 = 0:182 = 0:058 0:240 fby (y) 0:748 0:252 1:000 Tabla 14.2. Frecuencias relativas observadas Aplicando la prueba chi cuadrada de Pearson usando las frecuencias esperadas: (0:5625)(556) = 312:75; (0:1875)(556) = 104:25; (0:0625)(556) = 34:75; 532 (X) = CAPÍTULO 10. PRUEBA DE HIPÓTESIS (315 ! ! ! 312:75)2 (108 104:25)2 (32 34:75)2 + + = 0:470. 312:75 104:25 34:75 Utilizando la probabilidad de la cola de 2 (3) se obtiene: P ( (X) > 0:470) = 0:925. En vista de este valor, los datos proporcionan un excelente apoyo a la teoría de Mendel. Cabe señalar que muchos estadísticos, incluido Fisher, consideran estos datos sospechosamente "exactos". Para concluir este apartado observamos que cuando uno ve la contribución de Pearson de forma retrospectiva (desde el punto de vista de la inferencia estadística moderna y no en el contexto de la estadística descriptiva de Pearson (ver capítulo 13)), dos cuestiones importantes son evidentes: (i) las hipótesis son en última instancia, proposiciones acerca de la distribución y no de los parámetros como tales, (ii) las pruebas puede ser dentro o fuera de los límites del modelo estadístico postulado. En el caso de la prueba chi cuadrada dada anteriormente la prueba es fuera porque la hipótesis va más allá de los límites del modelo postulado; prueba su validez. 10.2.3 Gosset El trabajo seminal de Gosset 1908 proporciona la piedra angular sobre la que Fisher fundó la inferencia estadística moderna. En ese momento se sabía que n X Xi en el caso del modelo Normal simple (véase (14.4)), el estimador b = n1 i=1 tenía la siguiente distribución "muestral ": 2 2 bn ~N ; n ) X; ; 2 := n 1 2 (bn )= p n (bn ) ~N (0; 1) . Se sabía también que en el caso de que 2 se sustituya por el estimador n X 1 s= n 1 (Xi bn )2 , la distribución de la función: i=1 10.2. PRELIMINARES AL ENFOQUE DE FISHER 533 p n (bn ) N (0; 1) , (14.9) s donde se lee "no se distribuye como." Era bien sabido que era normal sólo asintóticamente: p n (bn ) (X; ) = N (0; 1) . (14.10) a s (X; ) = p Esto se debe a que (X; ) = n(bsn ) es una razón de una variable aleatoria con distribución normal y la raíz cuadrada de la variable aleatoria s2 , cuya distribución no se conocía. Gosset iba a "adivinar" la distribución de s2 deduciendo sus primeros cuatro momentos crudos y sustituyéndolos en las cuatro ecuaciones de la familia Pearson (ver capítulo 13). Este ejercicio le llevó a concluir que s2 muy probablemente tenía una distribución chi cuadrada. Después de establecer que bn y s2 no estaban correlacionadas (y pensar erróneamente que era lo mismo que ser independientes), pasó a obtener la distribución de la relación (14.9) usando un argumento casi heurísticoa para los estándares actuales. En la terminología de hoy, usando el lema 7 del capítulo 11, (X; ) es la prazón entre dos variables aleatorias independientes, el numerador U = n(bn ) es normalmente distribuido y el 2 es distribuido chi cuadrado, por lo tanto: denominador, V = (n 1)s 2 p n (bn ) (X; ) = St (n 1) , (14.11) s donde St(n 1) designa la distribución t de Student con (n 1) grados de libertad. Lo más destacable de este resultado es que, en contraste con (14.10), fue el primer resultado de muestra …nita; un resultado distribucional que era válido para cualquier tamaño de la muestra, no sólo para grandes n. El resulado de Gosset (14.11) es importante para las pruebas de hipótesis porque representa la primera cantidad clave (pivotal quantity), la quintaesencia de muchos estadísticos de prueba. Una función clave (pivotal function) para es una función monótona de de la forma q (X; ): q (:; :) : X ! R, cuya distribución de "muestreo" está libre de los parámetros desconocidos ( ). Es decir, adada la distribución de la muestra D (X; ), la distribución 534 CAPÍTULO 10. PRUEBA DE HIPÓTESIS de q (X; ) es la misma para todo 2 . La función (14.11) es clave, porque su distribución es conocida y está excenta de los parámetros desconocidos ( ; 2 ) del modelo estadístico subyacente porque St(n 1) no involucra estos parámetros. Otra importante cantidad clave ya ha sido encontrada anteriormente: v X; 2 = (n 1) s2 2 2 (n 1) . Una vez más su distribución está libre de parámetros desconocidos. Un estadístico h (X), a diferencia del concepto de función clave, es una función de la forma: h (:) : X ! R. Es decir, no involucra ningún parámetro desconocido (ver capítulo 11). 10.2.4 La formulación de Fisher El resultado (14.11) fue formalmente comprobado y ampliado por Fisher (1915) y utilizado subsecuentemente como base para varias pruebas de hipótesis asociadas a una serie de diferentes modelos estadísticos en una serie de trabajos, que culminó con su libro de 1925. Fisher usó el resultado (14.11) para obtener una prueba de lo que él llamó: Hipótesis nula: H0 : = 0. En términos del marco de referencia de la inferencia estadística moderna, Fisher considerá la cuestión de deducir una prueba para la hipótesis nula anterior en el contexto del modelo Normal simple (véase (14.4)). Su razonamiento se basó en la de…nición de distancia estandarizada de tal manera que cuanto más lejos el "verdadero" valor de esté del valor especi…cado por H0 , cuanto mayor sea la distancia, lleva a: p (bn n (bn 0) 0) q = . 2 s s n Fisher llegó a deducir un estadístico de prueba argumentando que a pesar de que (14.11) sea válida para el "verdadero" valor de , bajo el supuesto de que H0 es válida, el verdadero valor es 0 y se puede inferir: 10.2. PRELIMINARES AL ENFOQUE DE FISHER (X) = p n (bn s 0) H0 St (n 535 1) , (14.12) H donde " 0 " se lee "bajo H0 se distribuye como". Un estadístico de prueba. La esencia del resultado de Fisher (14.12) es que él transformó la función clave de Gosset (X; ) en un estadístico de prueba (X): la función distancia de la muestra (un estadístico) cuya distribución es conocida y no depende de los parámetros desconocidos . Esto se logró deduciendo la distribución del estadístico (X; 0 ), que no involucra ningún parámetro desconocido bajo H0 : = 0 ; es decir, deduciendo la distribución muestral de (X; ), asumiendo que la hipótesis nula es válida . Utilizando este resultado, Fisher procedió a derivar una medida de "cuánto se desvía una realización muestral particular de H0 ", sobre la base de la probabilidad del área de la cola de la distribución (14.12) más allá del valor observado (x) del estadístico (X). Esta medida, conocida como el valor de probabilidad o p-value por brevedad, toma la forma: P ( (X) (x) ; H0 es válida) = p. (14.13) Por de…nición, el p-value evalúa el peor escenario posible para la hipótesis nula en el sentido de que involucra el valor observado del estadístico y las realizaciones más dañinas para la nula. Mide la probabilidad de observar una realización de la muestra que produciría un valor estadístico igual o peor que el que ya se ha observado. La interpretación de Fisher del p-value puede ser considerada como una formalización de la opinión heredada: si el p-value es pequeño, esto implica que o bien la realización observada del estadístico de prueba constituye un suceso muy raro o bien la hipótesis nula postulada no es válida. En los casos en que el p-value es pequeño, la primera opción se considera prácticamente imposible y el modelador adopta el punto de vista de que la hipótesis postulada no es válida. En vista del hecho de que cuanto mayor es el valor de (x), menor es el p-value, el modelador puede interpretar los valores pequeños de p como evidencia contra H0 ; cuanto menor sea el valor de p, menos plausible es H0 . En cierto sentido, el p-value puede ser interpretado como una medida de qué tan adecuadamente la hipótesis nula describe el mecanismo que da lugar a los datos observados. En las primeras etapas de su trabajo, Fisher sugirió p-values de 0.05 y 0.01 para ser utilizado como umbrales intuitivos. Más 536 CAPÍTULO 10. PRUEBA DE HIPÓTESIS tarde, sin embargo, insistió en que hay que separar el p-value de la decisión de aceptar o rechazar H0 (véase Fisher (1935a, 1956)). En resumen, Fisher construye obre el trabajo previo de Edgeworth y Pearson pero proporciona más estructura al procedimiento de prueba de hipótesis: (a) introduciendo explícitamente el concepto de hipótesis nula, (b) utilizando el concepto de función clave (pivotal function), (c) introduciendo el concepto de distribución de muestra …nita de la clave bajo H0 , (d) formalizando el concepto de p-value, (e) introduciendo la naturaleza inferencial de la prueba de hipótesis. En el contexto del enfoque de Fisher, para de…nir una prueba se requiere de una "función distancia" que utiliza un "buen" estimador del parámetro en cuestión. Esta es, entonces, transformada en una función clave, tal como (14.11). Esta función clave, bajo H0 , no involucra parámetros desconocidos y por lo tanto se convierte en un estadístico de prueba. Para tomar una decisión sobre la validez de H0 , se utiliza una medida de cuánto una realización particular se desvía de H0 . Para Fisher, la decisión que se deberá tomar es si la evidencia sugiere que la hipótesis nula es creíble o no Ejemplos 1. En el caso del modelo Normal simple (véase (14.4)), utilizando los datos de las puntuaciones del cuadro 1.6 (véase el capítulo 1), considerar la prueba de la hipótesis nula: H0 : = 70. Para los datos de puntuaciones (ver tabla 1.6): bn = 71:686, s2 = 13:606 y n = 70. Sustituyendo estos en la función clave (14.12) se obtiene: (X) = p 70 (71:686 13:606 70) ! = 3:824, P (j (X)j > 3:824; 0 = 70) = 0:00014, donde el valor 0.00014 se encuentra en las tablas St(69). El p-value relativamente bajo indica que los datos no apoyan la validez de H0 . 2. Conjetura de Arbuthnot. La hipótesis más ampliamente discutida durante el siglo 18 fue la famosa hipótesis de Arbuthnot (1710), basada en la observación de que en la ciudad de Londres, por un período de 82 años consecutivos, nacieron sistemáticamente más hombres que mujeres en cualquier 10.2. PRELIMINARES AL ENFOQUE DE FISHER 537 año; la conjetura de Arbuthnot era que las probabilidades de hombres a mujeres en los recién nacidos no es "justa".La hipótesis de "juego justo" pueden formularse en el contexto del modelo simple de Bernoulli: [i] MG estadístico: Xi = E (Xi ) + i ; i 2 N, [ii] Modelo de probabilidad : = f (x; ) = x (1 )1 x ; 2 [0; 1] , x =(14.14) 0; 1 , [iii]Modelo muestral : X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria. La variable aleatoria se de…ne por: {mujeres}= fX = 1g, {hombres}= fX = 0g, y la hipótesis nula se especi…ca como sigue: H0 : = 0:5. 3. La conjetura de N. Bernoulli. N. Bernoulli llevo la conjetura un paso más allá y propuso las probabilidades 18:17 para los hombres (véase Hacking (1965)). La conjetura de Bernoulli puede ser formulado en forma de la hipótesis nula: H0 : = 0:4857. Las dos hipótesis toman la forma general: H0 : = 0 , 0 2 (0; 1). b b La función distancia que se sugiere en este caso es: n 0 , donde n = Xn 1 Xk ; se muestra en el capítulo 12 que es el "mejor" estimador de . n k=1 Dado que bn es una variable aleatoria, bn 0 es un evento cuya probabilidad de ocurrencia puede ser evaluada utilizando la distribución muestral de bn . En el capítulo 12, se demostró también que bn Binomialmente distribuida con media y [ (1 ) =n], denotado por: Esto sugiere que: bn Bi ; p n bn ( (X; ) = p 0 (1 (1 n 0 ) 0) ) ;n . Bi(( 0 ) ; 1; n). Por lo tanto, podemos proceder a obtener el estadístico de prueba: p n bn (X; ) = p 0 (1 0 0) H0 Bi (0; 1; n) . (14.15) 538 CAPÍTULO 10. PRUEBA DE HIPÓTESIS Prueba de la conjetura de Bernoulli. Los datos observados se re…eren al número de nacimientos (hombre, mujer) durante el período 1974-6 en Chipre: n = 25928, 13375 hombres y 12553 mujeres. bn = 12553 = 0:48415, 25928 (x) = P (j (X)j > p 25928(0:48415 0:4857) p = 0:4857(0:5143) 0:49988; 0:49988. = 0:4857) = 0:617. El alto p-value sugiere que la evidencia es fuerte en favor de H0 ; la conjetura de Bernoulli es apoyada por los datos en el caso de Chipre! Aunque Fisher ofreció inicialmente algunas reglas empiricas en relación con los p-values y la solidez de la evidencia a favor o en contra de la hipótesis nula, posteriormente hizo un gran esfuerzo por explicar que no eran más que toscas orientaciones. En la siguiente tabla ofrecemos similares orientaciones de "reglas empíricas " para ayudar a los no iniciados, a sabiendas de que puede ser fácilmente criticada como ad hoc e injusti…cada. p 0:05 0:02 p 10.2.5 > < < < 0:10: datos que p < 0:10: datos p < 0:05: datos 0:01: datos que indican un fuerte apoyo para H0 , que indican poco apoyo para H0 , que indican falta de apoyo para H0 , indican una fuerte falta de apoyo para H0 . Resumen Pruebas en el contexto del enfoque de Fisher comienzan con la especi…cación de una hipótesis nula, cuya forma más simple es: H0 : = 0. A pesar de las apariencias, una hipótesis nula no es sólo una proposición acerca de un parámetro, ella es, en última instancia, una proposición sobre el modelo estadístico subyacente y, como tal, puede tomar varias formas diferentes. Para simpli…car, nos limitamos a esta forma simple en esta sección. La construcción de una prueba se puede resumir en los siguientes pasos. 10.2. PRELIMINARES AL ENFOQUE DE FISHER 539 Paso 1. Especi…car una "distancia", que intuitivamente tiene sentido para considerar H0 como válida cuando esta distancia es "pequeña". Por lo general, esto implica la elección de un buen estimador, por ejemplo b del parámetro desconocido y tomar una función de la diferencia entre este estimador y el valor especi…cado por la hipótesis nula tal como como b 0 2 o b . 0 Paso 2. Transformar la función distancia en una función clave. Esto a menudo implica la estandarización de la distancia b utilizando la 0 distribución de b bajo H0 (asumiendo que H0 es válida): (X) = h b 0 V ar b i 21 o (X) = b 2 0 V ar b , y determinar la distribución de (X). Esto a veces implica la sustitución de los parámetros desconocidos y después deducir la distribución de (X) suponiendo H0 es válida. En los casos en los que la distribución exacta de (X) bajo H0 es desconocida, la aproximamos, en su lugar, con la distribución asintótica de (X) bajo H0 . Paso 3. Utilizando la distribución de (X) bajo H0 , especi…car los pvalues de la siguiente manera: P ( (X) (x) ; H0 es válida) = p. (14.16) Por lo tanto, los principales elementos de una prueba de Fisher f (X) ; pg son las siguientes: (i) una hipótesis nula H0, (ii) un estadístico de prueba (X), (iii) la distribución de (X) bajo H0 , (iv) el p-value P ( (X) (x) ; H0 es válida) = p, donde (x) denota el valor del estadístico de prueba (X), dada la realización muestral particular X = x. El p-value puede ser visto como una indicación de que tan satisfactoria es H0 , dados los datos observados. En cierto sentido, el p-value representa el peor de los escenarios para la hipótesis nula, teniendo en cuenta no sólo la realización muestral observada, sino también realizaciones más desfavorable. La cuestión de la aceptación o rechazo de H0 es un problema aparte y el p-value no debe confundirse con el nivel 540 CAPÍTULO 10. PRUEBA DE HIPÓTESIS de signi…cancia del marco de referencia de las pruebas de Neyman-Pearson discutido a continuación. 10.3 El marco de referencia de Neyman-Pearson El resumen anterior pone de mani…esto una importante limitación del enfoque de Fisher: ¿Cómo debe el modelador elegir el estadístico de prueba (X)? Los argumentos de sentido común utilizados por Fisher no constituyen un procedimiento óptimo para deducir la "mejor" prueba posible, de forma análoga a la de un "mejor" estimador. Esto proporcionó la motivación para Neyman y Pearson (1928a), cuyo objetivo declarado era hacer frente a esta limitación del enfoque de Fisher; algo que Fisher nunca Fisher acepto y que dio lugar a numerosas discusiones acaloradas entre Neyman y Fisher (véase, por ejemplo, Fisher (1956) ). Neyman y Pearson (b 1928a, de 1933 a, b) motivaron su propio enfoque de prueba argumentando que Fisher no tenía una base lógica para: (a) su elección de estadísticos de pruebas tales como (14.12) y (b) su uso del p-value como una medida de la credibilidad otorgada a H0 por la realización muestral. Estaba claro que para cada hipótesis nula se podría construir varios estadísticos de prueba y el enfoque de Fisher no proporciona una forma de decidir cuál es el más adecuado entre estas funciones. Su solución a este problema fue ver las pruebas de hipótesis como una elección entre hipótesis rivales y así cambiar el enfoque de la prueba de hipótesis de proporcionar una medida de la cantidad de credibilidad que los datos observados dan a la hipótesis nula, a decidir si aceptar o rechazar la hipótesis nula sobre la base de los datos observados. La clave de su enfoque fue la introducción del concepto de hipótesis alternativa para complementar el concepto de hipótesis nula y por lo tanto transformar la prueba en una elección entre diferentes hipótesis. En un intento por mantener nuestros ojos en el bosque vamos a considerar el desarrollo del argumento de Neyman-Pearson en etapas. Antes de disponernos a estudiar el procedimiento de Neyman-Pearson vale la pena repetir una vez más que subyacente a todo tipo de inferencia estadística existe (a) un modelo estadístico ( ; X) postulado a priori y (b) un conjunto de datos 10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 541 observados x := (x1 ; x2 ; :::; xn ), vistos como una realización de la muestra x := (X1 ; X2 ; :::; Xn ); x es un punto en el espacio muestral n-dimensional: @ Rnx (véanse los capítulos 10 - 11). 10.3.1 Etapa I - El concepto de hipótesis alternativa La hipótesis de interés en conexión con los modelos Normal simple y de Bernoulli fue de la forma simple: H0 : = 0. La especi…cación de Neyman-Pearson de la hipótesis nula y alternativa a menudo toma la forma: H0 : = conta H1 : 0 6= 0, pero 2 f 0g . (14.17) Esta especi…cación divide el espacio de parámetros del modelo estadístico que se considere, en dos subconjuntos mutuamente excluyentes: 0 := f 0 g y 1 f 0 g , donde := 0 \ 1 = ?, 0 [ 1 = . Ejemplos (a) En el caso del modelo Normal simple la hipótesis nula H0 : = 10, ahora puede ser reconsiderada en la formulación de Neyman-Pearson en conjunción con una hipótesis alternativa, tomando la forma: H0 : = 10 contra H1 : 2 R f10g, donde 0 := f10g es un número único y 1 := R f10g; R excluido el número 10. (b) En el caso del modelo simple de Bernoulli la hipótesis nula H0 : = 0:5, ahora puede ser reconsiderada en la formulación de Neyman-Pearson en conjunción con una hipótesis alternativa, tomando la forma: H0 : = 0:5 contra H1 : 2 [0; 1] f0:5g, donde 0 := f0:5g y 1 := [0; 1] (0:5) es el intervalo [0; 1] excluyendo el número 0:5. Una formulación más general de la especi…cación Neyman-Pearson de la hipótesis nula y la hipótesis alternativa toma la forma: H0 : Ejemplos 2 0 contra H1 : 2 1 := 0. (14.18) 542 CAPÍTULO 10. PRUEBA DE HIPÓTESIS (i) En el caso del modelo Normal simple (véase (14.4)) la hipótesis nula y alternativa pueden ser de la forma: H0 : 2 [40; 100] contra H1 : 2 R [40; 100], donde 0 := [40; 100] y 1 := R [40; 100]. (ii) En el caso del modelo simple de Bernoulli la hipótesis nula y alternativa pueden ser de la forma: H0 : 2 [0; 0:5] contra H1 : 2 (0:5; 1]. La especi…cación Neyman-Pearson de la hipótesis nula y la alternativa dada en (14.18), divide, en efecto, el modelo de probabilidad (original) postulado: = ff (x; ) ; 2 ; x 2 Rx g , en subconjuntos mutuamente excluyentes usando la partición del espacio de parámetros = 0 [ 1 : 0 = ff (x; ) ; 2 0; x 2 Rx g , 1 = ff (x; ) ; 2 1; x 2 Rx g . Esta fórmula pone de mani…esto el hecho de que las hipótesis nula y alternativa son en última instancia acerca de la distribución y no de los parámetros como parece a primera vista. Por lo tanto, asumiendo que la "verdadera" distribución de probabilidad para los datos considerados es f (x), un manera más atenta de especi…car estas hipótesis es en términos de sus modelos de probabilidad implícitos en cada caso: H0 : f (x) 2 0 contra H1 : f (x) 2 1. (14.19) Hipótesis simples frente a hipótesis compuestas En el caso de que 0 o 1 incluyan sólo un elemento (distribución), se dice que la hipótesis nula o la alternativa es simple, respectivamente; de lo contrario la llamamos compuesta. En los ejemplos (a) y (b) anteriores la hipótesis nula es simple, pero la alternativa es compuesta. En los ejemplos (i) y (ii) tanto la hipótesis nula como la alternativa son compuestas. Ejemplo Considere el modelo Normal simple (véase (14.4)) y la hipótesis: Considere el modelo simple normal (véase (14.4)) y las hipótesis: H0 : = 0 contra H1 : = 1, ( 1 > 0) . Caso A: 2 es conocido. Las hipótesis nula y alternativa H0 y H1 son simples porque los modelos de probabilidad bajo H0 y H1 son, respectivamente: 10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 0 = ff (x; 0) ; x 2 Rx g y 1 = ff (x; 1) ; x 543 2 Rx g . Es decir, H0 y H1 son simples porque 0 y 1 contienen sólo un elemento. Caso B: 2 es desconocido. En este caso la hipótesis nula: H0 : = 0 es compuesta porque 0 = ff (x; 0 ; 2 ) ; 2 2 R+ , x 2 Rx g , representa una familia completa de funciones de densidad, una para cada valor de 2 > 0. De la misma manera, la especi…cación: H0 : = 0, 2 = 2 0 contra H1 : = 2 1, tiene una H0 simple y una H1 simple, ya que ambos 0 = f x; 0; 2 0 ; x 2 Rx y 1 = f x; 1; 2 1 = 0 2 1 y , 1 son únicos: ; x 2 Rx . Una forma aún más ‡exible de la especi…cación Neyman-Pearson de la hipótesis nula y alternativa es: H0 : 2 0 contra H1 : 2 1 , 1 \ 0 = ?. (14.20) Ejemplos (i) En el caso del modelo Normal simple la hipótesis nula y alternativa pueden ser de la forma: H0 : = 0 contra H1 : > 0 . (ii) En el caso de la conjetura de N. Bernoulli, la especi…cación de la hipótesis nula y la hipótesis alternativa sería adoptar la forma: H0 : = 0:4857 contra H1 : > 0:4857. Esto se debe a que sólo estamos interesados en las alternativas en la dirección de un "juego justo". En estos casos la hipótesis alternativa no está de…nida en términos del complemento de 0 con respecto a , sino como un subconjunto de la misma. Ésta es diseñada para proporcionar al modelador la ‡exibilidad de ignorar ciertas partes del espacio de parámetros de ningún interés a …n de mejorar las propiedades de la prueba (en términos de potencia; véase más adelante). 10.3.2 Etapa II - La región de rechazo El objetivo principal de la prueba se convierte en la formulación de una regla de decisión la que, para cualquier realización x de la muestra postulada X, permite al modelador decidir si acepta o rechaza H0 . En el caso de una hipótesis nula como se especi…ca en (14.17), la decisión de aceptar o rechazar 544 CAPÍTULO 10. PRUEBA DE HIPÓTESIS H0 se basará en un estadístico de prueba (X). En efecto, el estadístico de prueba implica una partición del espacio muestral @ en dos conjuntos complementarios C0 y C1 , conocidas como las regiones de aceptación y rechazo, respectivamente: C0 [ C1 = @ y C0 \ C1 = ?. Las decisiones de aceptar o rechazar H0 se pueden especi…car en términos de estas dos regiones (véase la …gura 14.4): (i) si x 2C0 : aceptar H0 , (ii) si x 2C1 : rechazar H0 . Figura 14.4. c para una prueba de una cola Ejemplos (i) En el caso del modelo Normal simple, la prueba de las hipótesis: H0 : = 70 contra H1 : 6= 70, podría basarse en el estadístico de prueba: p n (bn 70) H0 St (n 1) , (X) = s y la intuición sugiere que es probable que la región de rechazo sea de la forma: C1 = fx : j (X)j > cg , para alguna c > 0 elegido apropiadamente. 10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 545 (ii) En el caso del modelo simple de Bernoulli, la prueba de la conjetura de Bernoulli: H0 : (X) := = 0:48 contra H1 : > 0:48; (14.21) ! p n (b 0:48) H0 p n Bi (0; 1; n) , 0:48(0:52) y otra vez la intuición sugiere que es probable que la región de rechazo sea de la forma: C1 = fx : j (X)j > cg , para alguna c > 0 elegida apropiadamente. NOTA. En Spanos, p. 695 esta última igualdad se escribe: C1 = fx : (X) > cg; creo debería escrbirse: C1 = fx : j (X)j > cg. 10.3.3 Etapa III - Los dos tipos de errores En el caso de las dos hipótesis que se han especi…cado anteriormente la decisión de aceptar o rechazar H0 es acompañada por la posibilidad de cometer uno de los dos tipos de errores: (i) error tipo I: rechazar la hipótesis nula cuando en realidad es válida, (ii) error de tipo II: Aceptar la hipótesis nula cuando en realidad no es válida. Es interesante observar que Neyman y Pearson (1928a) criticó a Fisher para reconocer sólo el error tipo I haciendo caso omiso del error de tipo II. Esta crítica, sin embargo, estaba fuera de lugar porque Fisher no vio las pruebas de hipótesis como una decisión de aceptar o rechazar H0 . Consideraba las pruebas de hipótesis como un procedimiento inferencial que permite al modelador evaluar el apoyo otorgado por los datos a la hipótesis de que se trate. Aceptar H0 Rechazar H0 H0 válida H0 no válida decisión correcta error tipo II error tipo I decisión incorrecta (a) La probabilidad del error tipo I 546 CAPÍTULO 10. PRUEBA DE HIPÓTESIS La probabilidad de error tipo I en un punto se puede expresar por: P (x 2 C1 ; = 0) = 0, en su forma general = . Considere el modelo simple de Bernoulli (véase (14.14)) y la hipótesis especi…cada por: H0 : = 0:5 contra H1 : 6= 0:5. La intuición sugiere que la región de rechazo para H0 tomará la forma j n 0:5j > c, donde c es alguna constante y la proposición "cuando en realidad H0 es válida", sugiere que la distribución relevante para evaluar la probabilidad del error tipo I es (14.15). Es decir, necesitamos evaluar: bn P 0:5 > c; H0 es válida = , para diferentes valoes de c = 0:005, 0:01, 0:02, 0:05, 0:1, 0:2, utilizando las tablas de probabilidades Binomial1 : P P P bn 0:5 > 0:005 ' 0:472, P 0:5 > 0:010 ' 0:444, P bn 0:5 > 0:020 ' 0:388, P bn bn 0:5 > 0:050 ' 0:239, bn 0:5 > 0:200 ' 0:0024. bn 0:5 > 0:100 ' 0:078, NOTE que n = 50. Como podemos ver, haciendo el intervalo alrededor b de n más pequeño, la probabilidad de error tipo I aumenta (véase la …gura 14.1). La pregunta que surge naturalmente en esta etapa es: ¿Por qué no simplemente hacemos este intervalo muy grande? En el caso de que el intervalo sea bastante grande, digamos 0:1 < bn 0; 9, es decir, c = 0:4, la probabilidad de tomar la decisión equivocada es muy cercana a cero. En particular: P bn 0:5 > 0:4 ' 0:000. El problema con esta sugerencia es que, cuando ampliamos este intervalo incrementamos la probabilidad de tomar otra decisión incorrecta: aceptar la hipótesis nula cuando no es válida (error tipo II ). 1 Cómo obtener estas probabilidades no es importante en esta etapa. 10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 547 Figura 14.1. De…nición de una prueba de Neyman-Pearson (b) La probabilidad del error de tipo II La probabilidad de error de tipo II en un punto general se puede expresar por: P (x 2 C0 ; = 1) = = 1, en su forma ( 1) . En el caso del modelo simple de Bernoulli, para poder evaluar la probabilidad del error de tipo II necesitamos la distribución del estadístico de prueba (14.15): p (X) = n bn p (1 0:5 ) H1 Bi p n (0:55 p 0:55 (1 0:5) 0:55) ! ; 1; n . (14.22) En el caso del error de tipo II, tomar la decisión equivocada signi…ca aceptar H0 ; decidir que la diferencia bn 0:5 no es "signi…cativamente distinta de cero". Utilizando la distribución (14.22) podemos evaluar la probabilidad del error tipo II usando los mismos valores de c como para la probabilidad del error tipo I c = 0:005, 0:01, 0:02, 0:05, 0:1, 0:2, P bn 0:5 c; = 0:55 = (0:55), de la siguiente manera: 548 P P P CAPÍTULO 10. PRUEBA DE HIPÓTESIS bn 0:5 > 0:005 ' 0:043, P 0:5 > 0:010 ' 0:089, P bn 0:5 > 0:020 ' 0:178, P bn bn 0:5 > 0:050 ' 0:422, bn 0:5 > 0:200 ' 0:984. bn 0:5 > 0:100 ' 0:645, A partir de estas probabilidades, podemos ver que a diferencia del error tipo I, la probabilidad de error tipo II disminuye cuando el intervalo alrededor de la hipótesis nula se hace más pequeño. ¿Cómo interpretar los dos tipos de errores? La interpretación de Neyman y Pearson es en términos de repetir el experimento un gran número de veces (el largo plazo). Es decir, una probabilidad 0:05 de error tipo I signi…ca que en pruebas repetidas del mismo experimento (modelo estadístico) 5 por ciento de estos casos serán erróneamente rechazados (ver Neyman y Pearson (1933a)). Esta interpretación fue el tema central de desacuerdo entre Neyman y Fisher durante varias décadas. Fisher siguió insistiendo en que aún si este procedimiento es apropiado para largas sucesiones de pruebas de control de calidad, es completamente inapropiado para la inferencia cientí…ca (véase Fisher (1956)). Región de rechazo 0:005 P x: bn 0:5 P (error tipo I; = 0:5) P (error tipo I; 0:472, 0:043, 0:5 0:010 0:444, 0:089, 0:5 0:020 0.388, 0.178, 0:5 0:050 0.239, 0.422, 0:5 0:100 0.078, 0.645, 0:5 0:200 0.002, 0.984. P x: bn P x: bn P x: bn P x: bn P x: bn = 0:55) La tabla de arriba y la …gura 14.1 sugieren que existe un intercambio (trade-o¤) entre las probabilidades de los errores tipo I y tipo II: a medida que disminuye la probabilidad del error tipo I la probabilidad del error tipo II aumenta y viceversa. ¿Cómo podemos resolver este problema de intercambio? 10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 10.3.4 549 Etapa IV - Construcción de pruebas óptimas La solución de Neyman-Pearson (1928a, b, 1933a, b) es darle más importancia a la hipótesis nula que a la alternativa. Esto signi…ca que preferimos asegurar que la probabilidad de rechazar la hipótesis nula cuando válida (error tipo I) es pequeña, y luego elegir una prueba que minimice la probabilidad del error tipo II. En el contexto anterior, esto equivale a decidir que la probabilidad del error tipo I es pequeña, por ejemplo = 0:05 o = 0:01, y elegir una prueba que minimice el error tipo II. Es decir, asumiendo que rechazamos la hipótesis nula cuando j (X)j > c , para alguna constante c , elegimos el estadístico de prueba j (X)j, de tal manera que: (a) P (j (X)j > c ; H0 válida) = , (b) P (j (X)j c ; H1 ( ) válida) = ( ), para 2 1 se minimiza. NOTA: la notación H1 ( ) se usa para enfatizar la dependencia de H1 de ya que ésta varía en el espacio de parámetros 1 . La anterior solución representa una convención que considera el error tipo I como mucho más grave y, por lo tanto, las hipótesis nula y alternativa son tratadas asimétricamente. Al …jar el error tipo I a ser un número pequeño, digamos 0:01, lo consideremoa como mucho más importante que el error tipo II. Por lo tanto, consideramos que el error de rechazar la hipótesis nula cuando es válida es mucho más grave que el de aceptar la hipótesis nula cuando es falsa. Una forma emocionalmente cargada de racionalizar esta opción convencional es en términos de la analogía con una prueba de delito penal. El jurado en una prueba de delito penal es instruido por el juez para no encontrar al acusado culpable hasta que se han convencido de que "más allá de cualquier duda razonable" por la evidencia presentada en la corte durante las deliberaciones.