pruebas de hipótesis con variables dependientes e idénticamente

COLEGIO DE POSTGRADUADOS INSTITUCIÓN DE ENSEÑANZA E INVESTIGACIÓN EN CIENCIAS AGRÍCOLAS INSTITUTO DE SOCIOECONOMÍA, ESTADÍSTICA E INFORMÁTICA PROGRAMA EN ESTADÍSTICA PRUEBAS DE HIPÓTESIS CON VARIABLES DEPENDIENTES E IDÉNTICAMENTE DISTRIBUIDAS EDUARDO GUTIÉRREZ GONZÁLEZ T E S I S PRESENTADA COMO REQUISITO PARCIAL PARA OBTENER EL GRADO DE: M A E S T R O EN C I E N C I A S MONTECILLO, TEXCOCO, EDO. DE MÉXICO 2004 La presente tesis titulada: PRUEBAS DE HIPÓTESIS CON VARIABLES DEPENDIENTES E IDÉNTICAMENTE DISTRIBUIDAS, realizada por el alumno: Eduardo Gutiérrez González, bajo la dirección del consejo particular indicado, ha sido aprobada por el mismo y aceptada como requisito parcial para obtener el grado de MAESTRO EN CIENCIAS PROGRAMA EN ESTADÍSTICA CONSEJO PARTICULAR CONSEJERO Dr. José A. Villaseñor Alva ASESOR Dr. Humberto Vaquera Huerta ASESOR Dr. Filemón Ramírez Pérez ASESOR Dr. Barry C. Arnold MONTECILLO, TEXCOCO, EDO. DE MÉXICO; JULIO DEL 2004 III Agradecimientos Al consejo nacional de ciencia y Tecnología por el apoyo económico brindado para la realización de mis estudios de Maestría en Ciencias. Al Colegio de Postgraduados por la oportunidad que me brindó. Al Consejo particular integrado por Dr. José A. Villaseñor Alva, Dr. Humberto Vaquera Huerta, Dr. Filemón Ramírez Pérez, y el Dr. Barry C. Arnold por el trabajo y el tiempo dedicado a esta tesis. IV Resumen V RESUMEN En este trabajo se estudia el problema de probar la hipótesis H 0 : p ≤ p0 H1 : p > p0 en donde, p 0 es una constante conocida y p es la probabilidad de que las variables aleatorias tomen valores por encima de un valor q constante y definido de antemano, es decir, p = P[ X i > q] , para toda i. cuando se tiene variables aleatorias intercambiables X 1 , X 2 ,K , X n , idénticamente distribuidas normalmente con parámetros µ y σ 2 . I. En primera instancia se trata el problema para el caso cuando las variables son independientes, en donde se sigue el esquema clásico basándose en los estimadores de máxima verosimilitud para los parámetros media y varianza y el resultado de que X y S X2 son independientes. Posteriormente, se determina que el estadístico de prueba q − µˆ T= (en donde, µ̂ y σ̂ son los estimadores de máxima verosimilitud de µ y σˆ σ ), tiene una distribución t no central. Con base en una aproximación a la t central se obtiene la expresión de la constante crítica para el tamaño de la prueba. II. Para el caso de variables aleatorias dependientes normales con covarianzas homogéneas, se siguen las mismas ideas que en la situación de independencia. En donde, primeramente se estudian las restricciones para la covarianza para poder utilizar los resultados de la distribución multivariada, concluyendo que la covarianza debe ser positiva. Posteriormente se obtiene una transformación de las variables, con la cual se puede demostrar que X y S X2 siguen siendo independientes. Por otro lado, se encuentra la distribución de la media y varianza muestrales y se usa el mismo q − µˆ estadístico de prueba que en el caso de variables independientes, T = (en donde, σˆ µ̂ y σ̂ son los estimadores de momentos de µ y σ ). Se encuentra que la distribución de T es también una distribución t no central, pero con otro parámetro de no centralidad diferente al caso de independencia. Con base en una aproximación a la t central se obtiene la expresión de la constante crítica para un tamaño de la prueba dado, la cual resulta ser igual al caso de variables independientes. III. Finalmente se presenta una extensión de la prueba t para observaciones intercambiables. V Resumen VI ABSTRACT This work studies the problem of proving the hypothesis H 0 : p ≤ p0 H1 : p > p0 where p 0 is a known constant and p is the probability that the variables have values above q constant and defined beforehand p = P[ X i > q] , for all i. When there are exchangeable random variables X 1 , X 2 ,K , X n , identically distributed normally with parameters µ and σ 2 . I. Firstly the problem is when the variables are independent following the classic scheme based on the estimates of maximum likelihood for the mean and variance parameters and the result of X and S X2 are independent. Later it is determined that the test q − µˆ statistic T = (where µ̂ and σ̂ are the estimates of maximum likelihood of µ σˆ and σ ) has a non central t distribution. Based on an approximation of the central t, the expression of the constant critical for the size of the test is obtained. II. In the case of normal dependent variables with homogenous covariants the same ideas are followed as in the independent situation. Where first the restrictions for the covariants are studied to utilize the results of the multivariable distribution, concluding that the covariance must be positive. Then a transformation of the variables is obtained with which it can be demonstrated that X and S X2 remain independent. On the other hand we find the distribution of the mean and sample variants and use the same test q − µˆ statistic as in the case of the variable independents , T = (where µ̂ and σ̂ are σˆ the moment estimators of µ and σ ). It is found that the distribution of T is also a non central t distribution, but with another parameter not centralized different to the independent case. Based on an approximation of central t the expression of the constant critical for the size of the given test is obtained and results equal to the case of the variable independents. III. Finally an extension of the test t for exchangeable observation is presented. VI Contenido Contenido VII Introducción 1 Predicción con variables aleatorias dependientes. 1 Objetivos. 2 Antecedentes de variables aleatorias dependientes. 3 Capítulo 1 5 Marco Teórico. PARTE I. PROPIEDADES DE LA NORMAL MULTIVARIADA 1.1 DISTRIBUCIÓN NORMAL MULTIVARIADA 5 5 5 1.2 PROPIEDADES DEL VALOR ESPERADO Y VARIANZA DE LA NORMAL MULTIVARIDA PARTE II. MÉTODO DE MÁXIMA VEROSIMILITUD 1.3 FUNCIONES Y ESTIMADORES DE MÁXIMA VEROSIMILITUD Función de verosimilitud. Estimadores de máxima verosimilitud. PARTE III. PRUEBAS DE HIPÓTESIS 7 8 8 8 9 9 1.4 REGIONES CRÍTICAS 9 1.5 TIPOS DE ERRORES Y FUNCIÓN DE PRUEBA 10 Prueba de tamaño alfa. 11 Función de prueba. 11 1.6 FUNCIÓN DE POTENCIA DE LA PRUEBA PARTE IV. MATRICES 1.7 VALORES Y VECTORES CARACTERÍSTICOS 11 13 13 Teorema 1.1 Condiciones para el valor propio. 13 Teorema 1.2 Sistema de valores propios. 14 VII Pruebas de hipótesis para variables dependientes idénticamente distribuidas y normales VIII Teorema 1.3 Multiplicidad de valores propios. 14 Teorema 1.4 Cantidad de vectores propios. 14 1.8 DIAGONALIZACIÓN Matrices similares. Teorema 1.5 matrices similares y vectores propios. Matriz diagonalizable. Teorema 1.6 Matriz diagonalizable y vectores propios. 1.9 MATRICES SIMÉTRICAS Y DIAGONALIZACIÓN ORTOGONAL Matriz diagonalizable ortogonalmente. 14 14 14 15 15 15 15 Teorema 1.7 Matriz simétrica real y vectores propios. 15 Teorema 1.8 Matriz simétrica real y vectores propios ortonormales. 15 Teorema 1.9 Matriz simétrica real y diagonalización. 15 Capítulo 2 16 Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas. 2.1 PLANTEAMIENTO DEL PROBLEMA . 2.1.1 Estadística de Prueba. 2.2 ESTIMADORES DE MÁXIMA VEROSIMILITUD PARA µ Y σ 2 16 17 17 2.2.1 Derivada con respecto al parámetro media. 17 2.2.2 Derivada con respecto al parámetro varianza. 18 2.3 DISTRIBUCIÓN DE LA MEDIA Y LA VARIANZA 18 2.3.1 Distribución de la media muestral. 18 2.3.2 Distribución de la varianza. 19 2.4 DISTRIBUCIÓN DE LA ESTADÍSTICA DE PRUEBA. Teorema 2.1 Distribución de la estadística de prueba (t-nocentral). 2.5 APROXIMACIÓN DE LA T NO-CENTRAL CON LA T CENTRAL. Proposición 2.1 Monotonía de la función G(δ ). 19 20 21 22 2.6 VALORES CRÍTICOS PARA MUESTRAS GRANDES. 24 2.7 VALORES CRÍTICOS PARA MUESTRAS PEQUEÑAS. 29 VIII Contenido IX Capítulo 3 30 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 3.1 PLANTEAMIENTO DEL PROBLEMA . 3.1.1 Estadística de Prueba. 3.2 ACOTACIONES DEL PROBLEMA 30 30 31 Teorema 3.1 Determinante de la matriz de covarianzas. 32 3.2.1 Restricción del problema en la covarianza. 33 3.3 REPRESENTACIÓN DE LA MATRIZ DE COVARIANZAS 34 3.3.1 Valores propios de la matriz J. 34 3.3.2 Vectores propios de la matriz J. 35 3.4 SISTEMA DE VECTORES ORTOGONALES EQUIVALENTE A LOS VECTORES PROPIOS DE LA MATRIZ J. 37 3.4.1 Ortonormalización del sistema de vectores equivalente a los vectores propios de la matriz J. 38 3.5 MATRIZ DE TRANSFORMACIÓN. 41 3.5.1 Distribución de las variables transformadas. 41 Teorema 3.2 Distribución de la matriz transformada. 42 3.6 PROPIEDADES DE LAS VARIABLES TRANSFORMADAS 44 3.7 DISTRIBUCIÓN DE LA MEDIA Y LA VARIANZA 45 3.7.1 Distribución de la media muestral. 45 3.7.2 Distribución de la varianza muestral. 46 3.8 DISTRIBUCIÓN DE LA ESTADÍSTICA DE PRUEBA. 46 Teorema 3.3 Distribución de la estadística de prueba (t-nocentral). 46 3.8.1 Estudio del coeficiente de la estadística de prueba. 49 Proposición 3.1 Monotonía de la función h (ρ) . 49 3.9 APROXIMACIÓN DE LA T NO-CENTRAL CON LA T CENTRAL. Proposición 3.2 Monotonía de la función G(δ ). 50 51 IX Pruebas de hipótesis para variables dependientes idénticamente distribuidas y normales X 3.10 VALORES CRÍTICOS PARA MUESTRAS GRANDES. 51 3.11 VALORES CRÍTICOS PARA MUESTRAS PEQUEÑAS. 54 Capítulo 4 56 Aplicaciones. 4.1 VARIABLES ALEATORIAS INTERCAMBIABLES O SIMÉTRICAMENTE DEPENDIENTES 56 Teorema Variables intercambiables binomiales 57 4.2 MATRIZ DE COVARIANZAS PARA DATOS INTERCAMBIABLES Teorema 4.1 Covarianza de variables intercambiables 4.3 APLIACIONES A DATOS INTERCAMBIABLES 57 57 59 4.4 EXTENSIÓN DE LA PRUEBA T PARA OBSERVACIONES DEPENDIENTES 59 4.4.1 Caso de independencia. 60 4.4.1 Caso de dependencia. 60 Capítulo 5 64 Conclusiones. Discusión 65 Apéndice A 66 Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. A.1 PLANTEAMIENTO DEL PROBLEMA . 66 A.2 ESTIMADORES DE MÁXIMA VEROSIMILITUD PARA µ, σ 2 Y C 67 A.2.1 Derivada con respecto al parámetro media. 69 A.2.2 Derivada con respecto al parámetro varianza. 70 A.2.3 Derivada con respecto al parámetro de covarianza. 74 Apéndice B 77 Simulación de valores críticos para muestras pequeñas. 77 B.1 PROGRAMA EN S-PLUS. 77 B.2 TABLAS DE CUANTILES 80 X Contenido XI B.3 COMPARACIONES Bibliografía 83 85 XI Introducción PREDICCIÓN CON VARIABLES ALEATORIAS DEPENDIENTES Uno de los objetivos de la Estadística consiste en realizar predicciones de los diferentes fenómenos aleatorios con base en observaciones del fenómeno con fines de hacer una mejor planeación. Por ejemplo, para planear la compra de acciones de una cierta empresa se puede hacer mediante la predicción de su precio en las próximas semanas, meses o años. El problema de la predicción tiene siglos estudiándose. Desde sus orígenes hasta la aparición de aparatos que facilitaron su estudio, las predicciones se llevaban a cabo mediante supuestos que transformaban el problema en otro mucho más sencillo de resolver. Por ejemplo, se suponía normalidad e independencia en las variables. Actualmente con los avances tecnológicos los diferentes fenómenos aleatorios se han ido estudiando con base en su naturaleza, es decir, analizando sus distribuciones sin suponer cierto comportamiento, pero debido a la complejidad de su análisis en el caso de variables dependientes en muchas situaciones se sigue suponiendo la independencia. Los problemas sobre variables aleatorias dependientes son poco tratados en la literatura clásica de Estadística (ver [3], [12], [16], [19]). Algunos autores de libros como W. Feller, tienen sólo algunas secciones que le dedican a las variables aleatorias dependientes (ver [7]). En general, los textos clásicos en donde se habla sobre variables aleatorias dependientes, se refieren a los procesos estocásticos (ver [15], [17]) y series de tiempo (ver [2], [3] y [5]), en donde se tratan diferentes tipos de dependencias. Por ejemplo, en las finanzas, en donde las variables aleatorias X t pueden representar el valor diario del índice de la bolsa de valores o los precios diarios de una acción y lo único que se conoce de ellas es que provienen de la misma distribución y que son dependientes con ciertas covarianzas. En ese tipo de problemas resulta de interés poder contar con una prueba para el contraste de hipótesis: 1 Introducción H 0 : p ≤ p0 H1 : p > p0 en donde, p es la probabilidad de que al tiempo t la variables aleatoria X (t ) tome valores por encima de un valor q constante y definido de antemano, esto es: p = P[ X (t ) > q ] . Aquí el valor constante q puede representar el valor del índice de la bolsa de valores a partir del cual el inversionista considera óptima su participación y por consiguiente quiere realizar el contraste de hipótesis, para conocer la significancia del riesgo de su inversión. Por desgracia este tipo de pruebas resultan demasiado complicadas para el caso de dependencia. Pero si se hacen algunas consideraciones sobre las covarianzas, de tal forma que se tenga un proceso débilmente estacionario, se puede llegar a un resultado interesante para el contraste de hipótesis antes mencionado. OBJETIVOS 1. Proponer una prueba estadística para el caso cuando las variables aleatorias X 1 , X 2 ,K , X n son iid con distribución normal y parámetros µ y σ 2 , para el contraste de hipótesis: H 0 : p ≤ p0 H1 : p > p0 en donde, p es la probabilidad de que las variables aleatorias del proceso X i tomen valores por encima de un valor dado q constante y definido de antemano, esto es: P[ X i > q ] ≤ p 0 , para toda i. 2. Proponer una prueba estadística para el contraste de hipótesis anterior cuando las variables aleatorias X 1 , X 2 ,K , X n tienen la misma distribución normal con parámetros µ y σ 2 , y covarianzas homogéneas, c. 3. Desarrollar aplicaciones de las pruebas propuestas. 2 Introducción. 3 ANTECEDENTES DE VARIABLES ALEATORIAS DEPENDIENTES Como se sabe algunos de los primeros estudios sobre fenómenos aleatorios con variables dependientes se tienen en los procesos estocásticos. En donde, uno de sus principales estudiosos fue el botánico R. Brown quien en 1827 descubrió el movimiento que lleva su nombre, movimiento browniano. En física, la teoría de difusión y la teoría cinética de la materia estudian los movimientos agregados de colisiones de moléculas o partículas en las que hay un movimiento continuo producto de las colisiones entre partículas. En 1923 N. Wiener establece un fundamento matemático del proceso del movimiento Browniano. En la parte financiera se tiene a Luis Bachelier, quien en 1900 realizó la primera aplicación importante del movimiento browniano, en su tesis doctoral (dirigida por H. Poincare). Bachelier, quien es considerado el fundador de los métodos cuantitativos en Finanzas, hizo una descripción de las fluctuaciones de precios del mercado financiero francés. Su trabajo lo titulo “Teoría de la especulación”. Actualmente los procesos estocásticos se usan en una gran gama de aplicaciones, en las diferentes esferas de las ciencias, como son: • Administración. Debido a que los procesos estocásticos proporcionan un método para estudiar y manejar las operaciones económicas. Se tiene que éstos desempeñan un papel importante en las disciplinas modernas de la ciencia de la administración y la investigación operativa. Los dos campos en los que los procesos estocásticos han encontrado la mayor aplicación en la administración son en control de inventarios y el análisis de las líneas de espera. Además, en los diferentes negocios se ha incrementado el uso de los procesos estocásticos para mejorar la administración de publicidad, etc. • Finanzas. Por ejemplo, en la fluctuación de precios de mercado, bolsa de valores, cotización del dólar, etc. • Economía. Compañías de seguros. • En diferentes fenómenos sociales, biológicos, físicos, etc. Otra rama de la Estadística que estudia variables aleatorias dependientes es la de series de tiempo (ver [2], [3], [5] y [14]). En esta parte se tiene que prácticamente con el libro de Box-Jenkins (1970) se inició una nueva era en las aplicaciones de los modelos de series de tiempo. Puesto que antes de 1970 la metodología de ajuste de modelos de Series de Tiempo era demasiado complicada y poca gente la dominaba. Box y Jenkins 3 Introducción simplificaron considerablemente la metodología de series de tiempo, por lo que ahora muchas más personas usan apropiadamente esta metodología. En el enfoque de Box-Jenkins se emplean modelos estadísticos para estimación de parámetros, las predicciones tienen propiedades óptimas y se obtienen intervalos de confianza para las predicciones. Otro tema de la Estadística que estudia variables aleatorias dependientes se refiere a las variables intercambiables, las cuales inicialmente fueron estudiadas por B. de Finetti en 1970 (ver [7], Capítulo 7, parágrafo 4). Actualmente dicho tipo de variables se usa en la medicina en datos apareados. Por otro lado, también aparecen en los datos que son reunidos en bloques completamente aleatorizados con k tratamientos. Uno de los estadísticos que ha dedicado parte de su tiempo a este tipo de problemas es el Dr. Ronald Randles de la Universidad de Florida. 4 Capítulo 1 Marco teórico En el presente capítulo se revisarán los conceptos principales que servirán para el desarrollo del trabajo en los Capítulos 2, 3 y el Apéndice A. En la primera parte se discutirán las propiedades principales de variables aleatorias con distribución normal, su valor esperado y varianza. En una segunda parte se discute el método de máxima verosimilitud para estimadores puntuales. En la tercera parte se revisan algunos resultados de la Inferencia Estadística para pruebas de hipótesis. Finalmente en una cuarta parte se revisan algunos resultados del Álgebra de matrices simétricas. PARTE I. PROPIEDADES DE LA NORMAL MULTIVARIADA 1.1 DISTRIBUCIÓN NORMAL MULTIVARIADA El papel fundamental que desempeña la distribución normal multivariada en la teoría de los fenómenos aleatorios (consultar [15]) se debe a lo siguiente: • La mayor parte de los fenómenos aleatorios importantes se pueden aproximar mediante variables aleatorias normales multivariadas. • La mayor parte de las preguntas que se presentan se pueden responder para variables normales multivariadas con más facilidad que para otras variables. Se dice que las n variables aleatorias X 1 , X 2 ,K , X n están distribuidas normalmente conjuntamente si su función característica conjunta es dada, para todos los números reales, por: 5 Capítulo 1  n 1 ϕX1 ,K, X n ( u1 ,K , u n ) = exp i ∑ u j m j − 2  j =1  u K u ∑ j jk k  , j , k =1  n donde, j , k = 1, 2,K , n y además m j = E{X j } , K jk = cov{X j , X k }. Si la matriz de covarianzas está dada por:  K11 K Ó =  21  M K  n1 K12 K 22 M K n2 L K1n  L K 2 n  , O M  L K nn  y es tal que posee una matriz inversa:  K11 K Ó−1 =  21  M K  n1 K12 K 22 M K n2 L K1n  L K 2 n  O M  L K nn  −1  K 11  21 =K  M  K n1  K 12 K 22 M K n2 L K 1n   L K 2n  , O M  L K nn  entonces se puede demostrar que X 1 , X 2 ,K , X n tiene una densidad de probabilidad conjunta dada para todos los números reales x1 , x 2 ,K , xn mediante f X ( x) = Así, sea 1 ( 2π) n X 1 , X 2 , K, X n 2  1 exp −  2 det( Ó) n  j , k =1  ∑ (x j − m j )K jk ( xk − mk ) . una muestra aleatoria, cuya función de densidad de probabilidades conjunta es la siguiente: f X ( x) = 1 ( 2π) n 2  1  exp − ( x − ì ) t Ó−1 ( x − ì )  , det( Ó)  2  en donde el vector de variables aleatorias X i tiene al vector x como una realización de la muestra con vector de medias ì y matriz de covarianzas Ó. 6 Marco Teórico. 7 1.2 PROPIEDADES DEL VALOR ESPERADO Y VARIANZA DE LA NORMAL MULTIVARIADA Supóngase que X = ( X 1 ,K , X n ) t son variables aleatorias distribuidas conjuntamente con distribución normal y medias ì = ( µ1 ,K , µn ) t y varianzas ó 2 = (σ12 , K, σn2 ) t , respectivamente. (i). c, k, a1 , K, a n y b1 ,K , bn representan constantes reales. (ii). a = ( a1 ,K , a n ) t , b = (b1 , K, bn ) t , c = ( c1 , K , c n ) t y k = ( k1 , K, k n ) t representan vectores reales. (iii). A, B, C, K representan matrices no aleatorias. Entonces se tienen las siguientes propiedades { } 1. E c + a t X = c + a t E{X} 2. E{c + AX} = c + AE{X} 3. E{C + AXK } = C + AE{X}K 4. cov{X , Y } = cov{Y , X } 5. cov{X, Y} = cov{Y, X}t 6. cov{X , Y } = E{[X − E ( X ) ][Y − E (Y )]} = E {XY } − E{X }E{Y } 7. cov{X, Y} = E [X − E ( X) ][Y − E ( Y)]t = E XY t − E{X}[E{Y}]t 8. cov c + a t X, k + b t Y = a t cov{X, Y}b 9. { } { } { } var {c + a X} = cov{c + a X, c + a X} = a t t t t var {X}a 10. cov{c + AX, k + BY} = A cov{X, Y}B t 11. var {c + AX} = A var {X}A t { } 12. var c + a t X = ∑∑ ai a j cov{X i , X j } n n i =1 j =1 13. La matriz var {X} es no-negativa definida 14. Si X ~ N (ì , Ó) y se define la transformación lineal Y = c + AX , entonces ( Y ~ N c + Aì , AÓ A t ) 7 Capítulo 1 15. Si X ~ N (ì , Ó) y sea X1 un subvector de X, entonces X1 ~ N ( ì 1 , Ó11 ) . En donde, ì 1 es el correspondiente subvector de ì y Ó11 la correspondiente submatriz de Ó . 16. Sea X ~ N (ì , Ó) , entonces las variables X 1 , K, X n son independientes si y sólo si Ó es una matriz diagonal cuyos elementos son las varianzas de las variables. PARTE II. MÉTODO DE MÁXIMA VEROSIMILITUD 1.3 FUNCIONES Y ESTIMADORES DE MÁXIMA VEROSIMILITUD El método de máxima verosimilitud (consultar [1], [4], [6], [12], [16]) considera un problema de estimación muy simple. Se basa en la función de densidad conjunta de n variables aleatorias X 1 , K, X n , dependientes de un vector de parámetros è = (θ1 ,K ,θm ) , sobre los cuales se maximiza la función de densidad conjunta para el caso de una realización x1 , K, x n . Definición 1.1 Función de verosimilitud (ver [12]) La función de verosimilitud de n variables aleatorias X 1 , K, X n está definida como la densidad conjunta de las n variables, es decir, f X ( x; è ) , la cual es considerada como una función de è . En particular, si X 1 , K, X n es una muestra aleatoria de densidades f ( x; è ) , entonces la función de verosimilitud es n f X ( x; è ) = ∏ f ( x i ; è ) . i =1 Note que la función de verosimilitud es una función de è y se suele utilizar la notación L(è ; x1 , K, x n ) = f X ( x; è ) . La función de verosimilitud L(è ; x1 , K, x n ) da la verosimilitud cuando las variables aleatorias asuman un valor particular x1 , K, x n . La verosimilitud es el valor de una función de densidad, y en el caso de las variables aleatorias discretas la verosimilitud es una probabilidad. Si se denota por Θ al espacio de parámetros, se tiene que el problema de los estimadores de máxima verosimilitud consiste en determinar el valor de è ∈ Θ , él cual se denotará por èˆ , y será tal que maximiza la función de verosimilitud L(è ; x1 , K, x n ) . El valor de èˆ , que maximiza la función de verosimilitud en general es una función de x1 , K, x n , es decir, 8 Marco Teórico. 9 èˆ = g ( x1 ,K , xn ) . ˆ = g ( X , K, X ) es llamada el estimador de Cuando esto sucede la variable aleatoria È 1 n máxima verosimilitud del estimador è . Definición 1.2 Estimador de máxima verosimilitud (ver [12]) Sea L(è ) = L(è ; x1 , K , x n ) la función de verosimilitud para las variables aleatorias X 1 , K, X n . Si èˆ (donde èˆ = g ( x1 ,K , xn ) es una función de las observaciones x1 , K, x n ) es el valor de è ∈ Θ con el cual se maximiza L(è ) , entonces la variable ˆ = g ( X , K, X ) es el estimador de máxima verosimilitud de è . aleatoria È 1 n Mientras que èˆ = g ( x1 ,K , xn ) es el estimador de máxima verosimilitud de è para la realización x1 , K, x n . Nota Para obtener el máximo de la función L(è ) = L(è ; x1 , K , x n ) , se aplican las diferentes técnicas del cálculo como son: máximos y mínimos relativos, máximos y mínimos absolutos y extremos de funciones monótonas, así como métodos numéricos. PARTE III. PRUEBAS DE HIPÓTESIS 1.4 REGIONES CRÍTICAS Sea X 1 , K, X n una muestra aleatoria con densidades f ( x; θ ) , en donde θ es el parámetro de la distribución, por otro lado, se formula el contraste de hipótesis H 0 : θ > θ0 H A : θ ≤ θ0 Introduciendo el conjunto Χ = {x | x una realización de X} , y formando una partición del conjunto X a la que se denota por {Χ A , Χ R } , en donde, Χ A se le llama región de no rechazo. Χ R se le llama región de rechazo o región critica. 9 Capítulo 1 Por otro lado, en general, si X es un vector de observaciones con densidad f ( x; θ ) en donde θ ∈ Ω las hipótesis serán del tipo siguiente: H 0 :θ ∈ ω H A :θ ∈ Ω −ω donde ω ⊂ Ω y Ω ⊂ R k . Así, en realidad el problema consiste en buscar una familia de densidades, de tal manera que basados en X se quiere decidir si se rechaza o no H 0 . Para esto último se tiene una regla de decisión dada por: Rechazar H 0 si x ∈ Χ R . No rechazar H 0 si x ∈ Χ A . 1.5 TIPOS DE ERRORES Y FUNCIÓN DE PRUEBA Generalmente cuando se usa una prueba ( Χ R ), se está propenso a cometer dos tipos de errores. Error tipo I: Cuando se rechaza H 0 siendo que es verdadera. Error tipo II: Cuando no se rechaza H 0 siendo que es falsa. De tal forma que es razonable identificar la prueba que minimiza las probabilidades de ambos errores respecto a todas las pruebas posibles. Sin embargo, generalmente cuando se minimiza la probabilidad de uno de los errores el otro aumenta. Por lo tanto, dado un valor α ∈ (0, 1) se considera todas las pruebas tales que P{Error tipo I usando Χ R } ≤ α , y entre ellas se busca la prueba que tiene mínima probabilidad de error tipo II, a la que se le llama la prueba más poderosa. Definición 1.3 Una prueba Χ R que satisface P{Error tipo I usando Χ R } ≤ α se dice que es una prueba de tamaño α. 10 Marco Teórico. 11 De la definición se puede notar que una prueba queda completamente especificada si se define a Χ R . Definición 1.4 Se dice que una función Φ : Χ → {0, 1} es una función de prueba, cuando 0, indica no rechazar H 0 Φ ( x) =  1, indica rechazar H 0 Obsérvese que a cada partición de X en Χ A y Χ R , le corresponde una función de prueba 0, si x ∈ Χ A Φ Χ R ( x) =  1, si x ∈ Χ R e inversamente a cada función de prueba Φ (x ) le corresponde una partición Χ A (Φ ) = {x | Φ ( x) = 0} Χ R (Φ ) = {x | Φ ( x) = 1} . 1.6 FUNCIÓN DE POTENCIA DE UNA PRUEBA Supóngase que se tiene el contraste de hipótesis H 0 : θ ∈ ω vs H A : θ ∈ Ω − ω y nótese que una prueba Φ es de tamaño α, si P{Φ (x) = 1 | θ ∈ ω} ≤ α . Además, Φ ( x) = 1 ⇔ x ∈ Χ R , de tal forma que resulta la siguiente definición. Definición 1.5 Se dice que una función βΦ : Ω → [0, 1] es la función de potencia de la prueba Φ , cuando βΦ (θ) = P{Φ( x) = 1 | θ} = P{rechazar H 0 usando Φ | θ} . Definición 1.6 Se dice que una prueba Φ es de tamaño α ∈ (0, 1) si max βΦ (θ) = α . θ ∈ω 11 Capítulo 1 La prueba será de tamaño α, si la máxima probabilidad de cometer el error tipo I es menor o igual que α. Obsérvese que si θ ∈ Ω − ω , entonces βΦ (θ ) = P{Φ (x ) = 1 | θ} = 1 − P{Φ (x ) = 0 | θ} = 1 − P{Error tipo II usando Φ | θ} Esto es, P{Error tipo II usando Φ | θ} es pequeña cuando βΦ (θ ) es próxima a uno con θ ∈ Ω − ω . Por lo tanto, es deseable encontrar una prueba Φ * de tamaño α tal que su función de potencia βΦ* (θ) es uniformemente máxima respecto a todas las pruebas de tamaño α. Es decir, Φ * es tal que 1) max βΦ* (θ) ≤ α . θ ∈ω 2) βΦ* (θ ) ≥ βΦ (θ) , con θ ∈ Ω − ω . Para toda prueba Φ , que satisface (1). Si se cumple (2), entonces Φ * es la prueba que tiene la mínima probabilidad de error tipo II. Finalmente se discutirá brevemente algunos temas del Álgebra lineal para matrices simétricas y sus valores y vectores propios. Estos temas se pueden consultar en las siguientes referencias [9], [11] y [18]. 12 Marco Teórico. 13 PARTE 4. MATRICES 1.7 VALORES Y VECTORES CARACTERÍSTICOS Sea V un espacio vectorial y T una transformación lineal T : V → V , se tiene que en muchos casos es útil hallar un vector v ∈ V , tal que Tv y v sean paralelos. Es decir, se busca un vector v y un escalar λ , tales que Tv = λv , con v ≠ 0 . Se dice que λ es un valor característico de T mientras que a v se le llama el vector característico de T correspondiente al valor característico λ . Cuando V es de dimensión finita, entonces T se puede representar mediante una matriz A, de tal forma que se analizan los valores y vectores propios de una matriz cuadrada A. Definición 1.7 Sea A una matriz de tamaño (orden) n × n con elementos reales. El número λ (real o complejo) recibe el nombre de valor característico o propio de A si existe algún vector diferente de cero v ∈ C n tal que Av = λv , con v ≠ 0 En este caso se dice que el vector v ≠ 0 es un vector característico o propio de A correspondiente al valor propio λ . En este trabajo sólo se empleará el caso cuando ambos vector y valor propio son reales. Con respecto a los valores y vectores propios existen diferentes resultados, el primero de ellos se refiere a la forma de calcularlos. Teorema 1.1 Sea A una matriz real de n × n , entonces λ es un valor propio de A si y sólo si P( λ) = det( A − λI ) = 0 En donde, la igualdad P( λ) = 0 recibe el nombre de la ecuación característica de A y a P(λ) se le llama el polinomio característico de A. Por el teorema fundamental del álgebra P( λ) = 0 tiene n valores propios, incluyendo multiplicidades. 13 Capítulo 1 Teorema 1.2 Sea A una matriz real de orden n × n y λ1 , λ2 ,K , λm diferentes valores propios de A con vectores propios correspondientes v1 , v 2 , K, v m , entonces v1 , v 2 , K, v m son linealmente independientes. Además si λ1 , λ2 ,K , λm son reales, entonces v1 , v 2 , K, v m forman una base del espacio euclidiano R m . Cuando los valores propios son de multiplicidad, se tiene el siguiente resultado. Teorema 1.3 Sea A una matriz real de orden n × n y λ uno de sus valores propios, entonces la multiplicidad geométrica de λ es igual a la nulidad de A − λI . Por otro lado, multiplicidad geométrica de λ ≤ multiplicidad algebraica de λ . Del teorema anterior se concluye un resultado sobre la independencia de los vectores propios. Teorema 1.4 Sea A una matriz real de orden n × n , entonces A tiene n vectores propios linealmente independientes si y sólo si la multiplicidad geométrica de cada valor propio es igual a su multiplicidad algebraica. 1.8 DIAGONALIZACIÓN Aquí se verá una relación interesante que puede existir entre dos matrices. Definición 1.8 Se dice que las matrices A y B de orden n × n son similares, si existe una matriz C del mismo orden, tal que B = C−1 AC Teorema 1.5 Si A y B son matrices similares de orden n × n , entonces A y B tienen la misma ecuación característica, y por lo tanto tienen los mismos valores propios. 14 Marco Teórico. 15 Definición 1.9 Se dice que la matriz A de orden n × n es diagonalizable si y sólo si existe una matriz diagonal D del mismo orden, tal que A sea similar a D. Teorema 1.6 Una matriz A de orden n × n es diagonalizable, si y sólo si tiene n vectores propios linealmente independientes. Además si λ1 , λ2 ,K , λn son los valores propios de A y sus vectores propios correspondientes v1 , v 2 , K, v m , entonces D(λ1 ,K , λn ) = C −1AC en donde la matriz C, tiene como columnas a los vectores propios v1 ,K , v n . 1.9 MATRICES SIMÉTRICAS Y DIAGONALIZACIÓN ORTOGONAL Cuando las matrices son simétricas los resultados anteriores se siguen cumpliendo con ciertas propiedades adicionales. Teorema 1.7 Sea A una matriz simétrica real de orden n × n , entonces los vectores propios de A son reales. Teorema 1.8 Sea A una matriz simétrica real de orden n × n , entonces A tiene n vectores propios ortonormales y reales. Definición 1.10 Se dice que una matriz A de orden n × n es diagonalizable ortogonalmente si existe una matriz ortogonal Q tal que Q t AQ = D Teorema 1.9 Sea A una matriz real de orden n × n , entonces A es diagonalizable ortogonalmente si y sólo si A es simétrica. 15 Capítulo 2 Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas 2.1 PLANTEAMIENTO DEL PROBLEMA Sean X 1 , X 2 ,K , X n variables aleatorias independientes normalmente distribuidas con parámetros µ y σ 2 . Se quiere encontrar una prueba para el contraste de hipótesis: H 0 : p ≤ p0 H1 : p > p0 en donde, p 0 es una constante conocida y p es la probabilidad de que las variables aleatorias tomen valores por encima de un valor q constante y definido de antemano, esto es: P[ X i > q ] , para toda i. Por la normalidad de las variables aleatorias y estandarizando resulta: q − µ q − µ  p = 1 − Φ ,  = P Z > σ   σ   donde Φ (x ) es la función de distribución normal estándar. De donde, H 0 es equivalente a  q − µ 1 − p 0 ≤ Φ .  σ  Así, las hipótesis anteriores son equivalentes a: H0 : q−µ ≥ Φ −1 (1 − p0 ) σ q−µ H1 : < Φ −1 (1 − p0 ) σ (2.1) 16 Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 17 2.1.1 ESTADÍSTICA DE PRUEBA De la expresión (2.1) se propone una prueba basada en la estadística dada por: T= q − µˆ , σˆ (2.2) en donde, µ̂ y σ̂ son los estimadores de máxima verosimilitud de µ y σ . Así, la prueba rechaza cuando T < k α , donde k α es tal que P(T < kα | H 0 ) ≤ α (2.3) para una α ∈ (0,1) dada. 2.2 ESTIMADORES DE MÁXIMA VEROSIMILITUD PARA µ y σ 2 En base al estadístico de prueba se buscan los estimadores de máxima verosimilitud para la media y la varianza. X 1 , X 2 , K, X n Sean las variables aleatorias independientes normalmente distribuidas con parámetros µ y σ 2 , de tal forma que su función de verosimilitud está dada por:  1  exp − ( xi − µ) 2  = 2  2σ  i =1 σ 2π n 1 L( µ, σ ) = f X |µ~ , σ~ 2 ( x | µ, σ ) = ∏ 2 2 = 1 σ n ( 2π ) n 2  1 exp − 2  2σ  ( xi − µ)  ∑ i =1  n (2.4) 2 Extrayendo el logaritmo natural se tiene { } l( x | µ,σ 2 ) = − ln (2π) n 2 − n 1 ln( σ 2 ) − 2 2σ 2 n ( xi − µ) 2 ∑ i =1 (2.5) 2.2.1 DERIVADA CON RESPECTO AL PARÁMETRO MEDIA Derivando la expresión (2.5) con respecto a la media [ ] ∂ 1 l X |µ~ ,σ~ 2 (x | µ, σ 2 ) = 2 ∂µ σ n n ( x i − µ) = 2 ( x − µ) ∑ σ i= 1 Igualando a cero la expresión de la derivada y despejando la media, 17 Capítulo 2 n σ2 ( x − µ) = 0 , se obtiene el estimador de máxima verosimilitud para la media µ̂ = x . (2.6) 2.2.2 DERIVADA CON RESPECTO AL PARÁMETRO VARIANZA Para la varianza se deriva la expresión (2.5) con respecto a σ 2 [ ] [ ] ∂ n ∂ 1 n ∂  1  2 2 l ( x | µ , σ ) = − ln( σ ) − ( x i − µ) 2 ∑ 2 2 2 ∂σ 2 i=1 ∂σ ∂σ 2  σ 2  =− n 2σ + 2 1 ( ) 2σ n ∑ (xi − µ)2 2 2 i =1 Al igualar a cero la derivada anterior resulta la ecuación − n 2σ 2 + n 1 ( x i − µ) 2 = 0 . ∑ 2 2 i= 1 ( ) 2σ Multiplicando la ecuación anterior por 2σ 4 se obtiene la ecuación n − nσ 2 + ∑ ( xi − µ) 2 = 0 . i =1 Despejando la varianza de la expresión anterior y sustituyendo el estimador de máxima verosimilitud para la media se obtiene el estimador de máxima verosimilitud para la varianza σˆ 2 = 1 n ( x i − µˆ ) 2 ∑ n i=1 (2.7) σˆ 2 = s 2 2.3 DISTRIBUCIÓN DE LA MEDIA Y LA VARIANZA Se obtuvo en la expresión (2.2) que la estadística de prueba está dada en función de los estimadores de la media y la varianza por consiguiente se necesita la distribución de estos dos estimadores. 2.3.1 DISTRIBUCIÓN DE LA MEDIA MUESTRAL Primeramente se nota que el vector de variables tiene la distribución: 18 Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 19 ( ) X ~ N ( n ) µ1, σ 2 I , (2.8) Ahora de las propiedades de la distribución normal (capítulo 1) y (2.8) resulta:  σ2 X ~ N  µ, n   .   (2.9) 2.3.2 DISTRIBUCIÓN DE LA VARIANZA De forma similar a la media muestra se puede formular el resultado:  n −1 σ2 S X2 ~ Γ ,2 n  2 En donde, S X2 =  .   (2.10) 1 n (X i − X )2 . ∑ n i=1 Comprobación Se deduce inmediatamente del resultado para muestras aleatorias con distribución normal estándar Z1 , Z 2 , K, Z n (ver [12], páginas 243-246), el cual concluye que (Z i − Z ) ∑ i =1 n 2 ~ χn2− 1 , además Z 2 y S Z2 son independientes. Luego, nS X2 σ 2 X − X = ∑ i i =1   σ n 2 [ 2 n X −µ n  1 n  X i − µ  i − ∑  = ∑ Z i − Z  = ∑ σ n i=1  σ   i=1  i =1 Así, de esta forma resulta nS X2 σ 2 ] 2 ~ χn2−1  n −1 σ2  n −1  ~ χn2−1 = Γ ,2  , de donde S X2 ~ Γ ,2 n  2   2  .   2.4 DISTRIBUCIÓN DE LA ESTADÍSTICA DE PRUEBA De la expresión (2.2) se tiene que el estadístico de prueba es: T= q − µˆ . σˆ Como se puede observar el estadístico de prueba es función de la media y desviación estándar muestrales, de tal forma que utilizando los resultados anteriores se formula el siguiente Teorema. 19 Capítulo 2 Teorema 2.1 Sean X 1 , K, X n variables aleatorias independientes igualmente distribuidas, y ( ) X ~ N ( n ) µ1, σ 2 I , en donde I es la matriz identidad de orden n × n , entonces la estadística de prueba T = q − µˆ , tiene una distribución t no central con σˆ parámetro de no centralidad µ− q  n  .  σ  Demostración Es bien conocido que en este caso, X y S X2 son independientes. u De la expresión (2.10), se nota que  n  2 σ  2  n −1  ,2  = χn2−1 .  S X ~ Γ   2  (2.11) Transformando la estadística de prueba y utilizando la expresión (2.11), se obtiene: T= ˆ q− X q− µ = = σˆ S X2 =− =− q−X  n  2  σ 2   2 S X   σ   n  1 X −q σ 2 ( n − 1) n  n  S X2  2  σ  n −1 1 X −q σ 2 ( n − 1) n χn2−1 ( n − 1) Por medio de la expresión (2.9), se tiene  σ2 X − q ~ N  µ − q, n   ,   de tal forma que 20 Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 21     µ−q  X −q ~ N ,1 . 2 2 σ  σ    n  n  (2.12) Así, la estadística de prueba se puede transformar en  X −q   2  σ σ    n n  T =−   σ 2 ( n − 1)  χn2−1 ( n − 1)    n     2   µ − q    Z no central  n    1   σ    =−   n −1  χn2−1 ( n − 1)      Por otro lado, de la definición de una distribución t student no central se tiene que la estadística de prueba cumple con la distribución T =−   µ − q  Tno* central  n   . n −1   σ  1 El teorema queda demostrado. t 2.5 APROXIMACIÓN DE LA T NO-CENTRAL CON LA T CENTRAL En la sección anterior se probó que la estadística de prueba para el problema planteado es una t no central, por consiguiente, se requiere la forma de pasar a una t central. Problema que no resulta sencillo, de hecho las formas de trabajarse siempre son con aproximaciones, por ejemplo, consultar los artículos [7], [9] y [12]. En está sección se estudiará la aplicación del artículo [9] al problema que se está tratando en la Tesis. Para esto se usa la simbología • ν grados de libertad, • δ parámetro de no centralidad, 21 Capítulo 2 • k * percentil y • la función r ( z ) = z z 2 +ν . Ahora con base en el resultado de HELENA CHMURA KRAEMER de Stanford University y MINJA PAIK (Agosto de 1979) de Department of Statistics California State University, Hayward, se tiene que para cada valor k * fijo, [ ]   ν r ( k * ) − r (δ ) lim  FT * ( δ ) k * − FT0  ν →∞ ν  1 − r 2 ( k * ) 1 − r 2 (δ )  { } [ ][ ]   = 0 ,  donde T0 tiene distribución t central con ν grados de libertad. Para la aplicación de dicho resultado se requiere estudiar la monotonía del argumento de la distribución de T0 central. Para esto se representa el argumento como G(δ ) = [ ν r ( k * ) − r (δ ) [1 − r 2 ][ ] ] ( k * ) 1 − r 2 (δ ) . (2.13) De tal forma que el resultado anterior se escribe de la siguiente manera [ { } ] lim FT * ( δ ) k * − FT0 {G (δ )} = 0 . ν →∞ ν (2.14) Proposición 2.1 La función G(δ ) es una función monótona decreciente. Demostración u La función en estudio está dada en la expresión (2.13), sustituyendo los valores de r (k * ) y r (δ ) se obtiene: 22 Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 23 [ ν r ( k * ) − r (δ ) G(δ ) = [1 − r 2 ][ ] ( k * ) 1 − r 2 (δ ) ]  k*  δ  ν −  k * 2 + ν δ 2 + ν  = 2  k *  δ2  1 − 2  1 − 2   k * + ν   δ + ν   *  2 *2 k δ + ν − δ k +ν  ν 2   k * +ν δ 2 +ν   = ν 2 k * +ν δ 2 +ν 1  * 2 *2 k δ + ν − δ k + ν    ν = Derivando respecto a δ ,  1  δk * 2 − k * +ν   2 ν  δ + ν  G′(δ ) = (2.15) Analizando cuando δ = 0 , resulta 2 G′( 0) = − k * +ν ν < 0. Similarmente, para el caso en que k * = 0 se cumple G ′(δ ) = −1 < 0 . Por lo tanto, considerando δ ≠ 0 y k * ≠ 0 , de tal forma que se puede factorizar δ y k * en la expresión (2.15), obteniendo: 23 Capítulo 2   1  δk * ν G′(δ ) = − k* 1+ 2 ν ν k*  δ 1+ 2 δ        =  ν    2 δk * k*  − 1  ν  δ k * 1+ ν 1 + ν  2 *2   δ k =     k +ν  1 * sign (δk ) − 1  ν  1 + ν 1+ ν  2 *2   δ k k* 1+ Como 1 + ν k *2 *2 ν > 1 y 1+ δ2 > 1 esto implica que 1 1+ ν k *2 1+ ν < 1. δ2 Por lo tanto, 1 1+ ν k* 2 1+ ν 1 sign(δk * ) ≤ 1+ δ2 ν k* 2 1+ < 1. ν δ2 De donde, G′(δ ) < 0 , luego, la función es monótona decreciente. La proposición queda demostrada. t 2.6 VALORES CRÍTICOS PARA MUESTRAS GRANDES Primeramente se define al conjunto { } ω = è = ( µ,σ ) : q ≥ µ + σΦ −1 (1 − p0 ) ∈ R . 24 Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 25 Ahora buscando el valor de una constante k, tal que max P{T < k | è ∈ ω} ≤ α . (2.16) è ∈ω Para esto se emplea el Teorema 2.1 sustituyendo el estadístico de prueba y calculando la probabilidad siguiente   1 P{T < k | è ∈ ω} = P − T * < k | è ∈ ω . n −1     µ − q  En donde, T * tiene la distribución t no central  n   .   σ  Continuando con el cálculo de la probabilidad del error tipo I, multiplicando por − n − 1 , se obtiene { } P{T < k | è ∈ ω} ≤ P T * > −k n − 1 | è ∈ ω ( = 1 − FT * − k n − 1 ) Así, ( ) P{T < k | è ∈ ω} ≤ 1 − FT * − k n − 1 . (2.17) Ahora utilizando una aproximación de la distribución t no central con la distribución t central, para lo cual se emplea la siguiente simbología: • ν = n − 1 grados de libertad, • µ− q  El parámetro de centralidad δ = n  ,  σ  • k * = −k ν y • la función r ( z ) = z z +ν . 2 Así sustituyendo en (2.17) el resultado de la aproximación (2.14), se tiene: 25 Capítulo 2 ( ) P{T < k | è ∈ ω} ≤ 1 − FT * − k n − 1 ( ) = 1 − FT * k * = 1 − FT0 (G(δ ) ) = FT0 (G(δ) ) Como la función FT0 es decreciente, su máximo lo alcanza cuando el argumento, G(δ) , es mínimo. Por otro lado, se demostró en la proposición (2.1) que G(δ) es decreciente por lo tanto, su mínimo lo alcanza cuando su argumento, δ, es máximo. Para encontrar el valor máximo de δ, se usa la representación anterior y el hecho de que è ∈ ω,  µ− q   q − µ δ = n  = − n   σ   σ  ≤ −Φ −1 (1 − p 0 ) n Como p 0 se considerará mayor a 0.5, se tiene que δ ≤ δ0 = −Φ − 1 (1 − p 0 ) n . Por otro lado, − Φ − 1 (1 − p0 ) n > 0 , esto es δ0 > 0 . (2.18) De esta forma, por la monotonía de G(δ) , P{T < k | θ ∈ ω} ≤ FT0 (G(δ ) ) ≤ FT0 (G(δ0 ) ) = 1 − FT0 (G(δ0 ) ) ≤ α . Ahora, para encontrar el valor de k, note que FT0 (G(δ0 ) ) ≥ 1 − α G(δ0 ) ≥ FT−01 (1 − α) Definiendo α0 por 26 Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 27 α0 = FT−0 1 (1 − α) . (2.19) Considerando α ≤ 0.5 , se tiene: α0 = FT−0 1 (1 − α) > 0 . (2.20) Sustituyendo k * = − ν k , se obtiene lo siguiente 1  *  2 *2 k δ0 + ν − δ0 k + ν  ν  1  = − ν k δ02 +ν − δ0 νk 2 + ν     ν G(δ0 ) = = − k δ02 + ν − δ0 k 2 + 1 Es decir, por (2.20), k es tal que − k δ02 + ν − δ0 k 2 + 1 ≥ α0 . Ahora falta encontrar el valor de k. Para esto se observa que − k δ02 + ν ≥ α0 + δ0 k 2 + 1 > 0 . Luego, de (2.18) y (2.20) se tiene que necesariamente, k <0 (2.21) Resolviendo la ecuación − k δ02 + ν − δ0 k 2 + 1 = α0 en k, considerando (2.18). (2.20) y (2.21) − k δ02 + ν − δ0 k 2 + 1 = α0 k δ02 + ν + δ0 k 2 + 1 = −α0 δ0 k 2 + 1 = −α0 − k δ02 + ν ( ) ( δ02 k 2 + 1 = α02 + 2α0 k δ02 +ν + k 2 δ02 + ν ) δ02 k 2 + δ02 = α02 + 2α0 k δ02 +ν + k 2δ02 + k 2ν δ02 = α02 + 2α0 k δ02 +ν + k 2ν [ ] k 2ν + k  2α0 δ02 + ν  + α02 − δ02 = 0   27 Capítulo 2 Se resuelve la ecuación [ ] k 2ν + k  2α0 δ02 + ν  + α02 − δ02 = 0 ,   y se obtiene que ( 2 − 2α0 δ02 + ν ± 2α0 δ02 +ν  − 4ν α02 − δ02   k= 2ν = = ) − 2α0 δ02 + ν ± 4α02δ02 + 4α02ν − 4να02 + 4νδ02 2ν − α0 δ + ν ± δ0 α + ν 2 0 2 0 ν Así de esta forma las dos raíces son k= − α0 δ02 + ν + δ0 α02 + ν k =− ν α0 δ02 + ν + δ0 α02 + ν ν De las cuales la segunda raíz siempre es negativa, luego, cumple con (2.21) y por consiguiente es un valor de k. Mientras que la primera raíz cumple (2.21), cuando − α0 δ02 + ν + δ0 α02 + ν < 0 Al resolver se introducen raíces extrañas. Así, para p 0 ≥ 0.5 , α ≤ 0.5 y tamaños de muestras, n, grandes; la constante crítica k está dada por: k =− α0 δ02 + ν + δ0 α02 + ν ν . 28 Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 29 2.7 VALORES CRÍTICOS PARA MUESTRAS PEQUEÑAS Note que en la demostración del Teorema 2.1, se obtuvo que el estadístico de prueba   µ − q    Z no central  n    1   σ    T =−   n −1  χn2−1 ( n − 1)      donde Z no central y χn2−1 son variables aleatorias independientes. Luego,     µ − q    Z no central  n      1   σ      P(T < k | è ∈ ω) ≤ P  −   < k è ∈ ω 2 n −1  χn −1 ( n − 1)             µ−q   n −Z    1   σ     ≤P −   < k H0   2 n − 1  χn− 1 (n − 1)            q − µ  + Z  n  σ    ≤P < k H 0  utilizando la hipótesis nula  2  χn− 1      nΦ −1 (1 − p ) + Z   ≤P < k H0   2  χn−1   Así, de la última expresión se pueden calcular las probabilidades por simulación para valores dados de n, p y k. De tal forma que para valores dados de n, p y tamaño de prueba α ∈ ( 0,1) , se obtiene el valor critico k. En el Apéndice B, se muestran algunas tablas de valores críticos para ciertos n, p y α ∈ ( 0,1) y el programa en S-PLUS con el cual se generaron y por último una tabla de comparaciones de los valores críticos calculados por simulación con los valores obtenidos por la aproximación para muestras grandes, k = − α0 δ02 + ν + δ0 α02 + ν ν . 29 Capítulo 3 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas 3.1 PLANTEAMIENTO DEL PROBLEMA Sean X 1 , X 2 ,K , X n variables aleatorias dependientes normalmente distribuidas con parámetros µ y σ 2 . Se quiere encontrar una prueba para el contraste de hipótesis: H 0 : p ≤ p0 H1 : p > p0 en donde, p 0 es una constante conocida y p es la probabilidad de que las variables aleatorias tomen valores por encima de un valor q constante y definido de antemano, esto es: p = P[ X i > q] , para toda i. Suponiendo normalidad de las variables aleatorias y estandarizando resulta que H 0 es equivalente a q − µ q − µ  1 − Φ  ≤ p0 .  = P Z > σ   σ   De donde,  q − µ 1 − p 0 ≤ Φ .  σ  Así, las hipótesis son equivalentes a: H0 : q−µ ≥ Φ −1 (1 − p0 ) σ q−µ H1 : < Φ −1 (1 − p0 ) σ (3.1) 30 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 31 3.1.1 ESTADÍSTICA DE PRUEBA De la expresión (3.1) se propone una prueba basada en la estadística dada por: T= q − µˆ . σˆ (3.2) En donde, la distribución de la estadística de prueba depende de los estimadores de momentos de la media µ̂ y varianza σ̂ 2 , y a partir de los cuales se encuentra la distribución de T bajo H 0 . Así, la prueba rechaza cuando T < k α , donde k α es tal que P(T < kα | H 0 ) ≤ α (3.3) para una α ∈ (0,1) dada. 3.2 ACOTACIONES DEL PROBLEMA En está sección se estudiarán las acotaciones que se harán en la solución del problema sobre el contraste de hipótesis (3.1). Sean X 1 , X 2 ,K , X n variables aleatorias dependientes normalmente distribuidas con parámetros µ y σ 2 , cuya función de densidad de probabilidad conjunta es la siguiente: f X ( x) = 1 ( 2π) n 2  1  exp − ( x − ì ) t Ó−1 ( x − ì )  , det( Ó)  2  en donde x es una realización de la muestra, con vector de medias ì y matriz de covarianzas Ó. Para el caso de estudio se supondrá que se tiene la misma media, ì = µ1 , varianza, σ 2 , y cuando cualquier par de variables aleatorias tienen la misma covarianza, cov( X i , X j ) = c con i ≠ j . Es decir, σ2 c  2 Ó=  c σ M  M  c c  L c   L c  O M  L σ 2  (3.4) 31 Capítulo 3 En el siguiente Teorema, se puede apreciar una condición para que la matriz de covarianzas sea positiva definida y se pueda aplicar la teoría de las distribuciones normales. Teorema 3.1 Sea la matriz de covarianzas dada en la expresión (3.4), entonces se cumple [ ] det( Ó) = (σ 2 − c) n −1 c( n − 1) + σ 2 . Demostración u Para calcular el determinante de la matriz de covarianzas se denota a las matrices σ 2 c  2 Ón =  c σ M  M  c c  c c L c    2 L c  y Ó* =  c σ n O M   M M 2  L σ  c c L c  L c  . O M  L σ 2  En donde, n representa el orden de la matriz. De esta forma después de cambiar el renglón 1 por el mismo menos el renglón dos y usando los menores resulta σ 2 − c c − σ 2  σ2 det( Ó) = det  c M  M c  c L 0   L c  O M  L σ2  ( = (σ 2 − c) det ( Ón −1 ) − (c − σ 2 ) det Ó*n −1 [ ( = (σ 2 − c) det ( Ón −1 ) + det Ó*n −1 ) )] Antes de continuar se puede notar que si en la matriz Ó*n se lleva a cabo la misma reducción entre renglones se obtiene:  0 c − σ2  σ2 det Ó*n = det  c M M c c ( ) L 0   L c  O M  L σ2  ( = −( c − σ 2 ) det Ó*n−1 ( = (σ 2 − c ) det Ó*n −1 ) ) 32 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 33 Tomando en cuenta esta última consideración y continuando con el mismo procedimiento en ambas matrices [ ( det( Ó) = (σ 2 − c) det ( Ón−1 ) + det Ó*n−1 [ [det (Ó [det ( Ó )] ( ) ( = (σ 2 − c) 2 det (Ón − 2 ) + det Ó*n − 2 + det Ó*n − 2 = (σ 2 − c) 2 = (σ 2 − c) 3 n −2 n− 3 ) + 2 det (Ó*n −2 )] )] ) + 3 det (Ó*n −3 )] M [ ( )] = (σ 2 − c) n − 2 det (Ó2 ) + ( n − 2) det Ó*2 Por otro lado, calculando los determinantes de segundo orden ( )  2 c  * c c  2 2 4 2 det ( Ó2 ) = det σ 2  = σ − c y det Ó2 = det  c σ 2  = cσ − c .    c σ  Finalmente, se tiene [ [σ + (n − 2)cσ [c (n − 1) + σ ] ] ] det( Ó) = (σ 2 − c) n− 2 σ 4 − c 2 + ( n − 2)( cσ 2 − c 2 ) = (σ 2 − c) n− 2 = (σ 2 − c) n−1 4 2 − ( n − 1) c 2 2 El teorema queda demostrado. t 3.2.1 RESTRICCIÓN DEL PROBLEMA EN LA COVARIANZA Para desarrollar la solución del problema se hará uso de la teoría de las distribuciones normales, cuestión que restringe el problema debido a que la matriz de covarianzas respectiva debe ser positiva definida. Luego, resulta que la matriz de covarianzas del problema, (3.4), tiene que ser positiva definida. Es decir, el determinante calculado en el teorema 3.1 debe ser positivo. Así, del teorema anterior se tiene: [ ] det( Ó) = (σ 2 − c) n −1 c ( n − 1) + σ 2 > 0 . Como σ 2 > c , la expresión anterior se puede dividir entre (σ 2 − c ) n −1 , obteniendo c (n − 1) + σ 2 > 0 . 33 Capítulo 3 De donde, la condición para que la matriz de covarianzas sea positiva definida es: ρ> − 1 n −1 (3.5) Restricciones Así, para las restricciones del problema se tomará en cuenta sólo variables aleatorias X 1 , X 2 ,K , X n que tengan • • la misma distribución marginal, sean dependientes, • con covarianzas homogéneas y positivas. Para la solución del, problema en el apéndice A se mostrará que no se pueden utilizar los estimadores de máxima verosimilitud para los parámetros µ, σ y c ya que estos no existen. Por consiguiente, surge la necesidad de levar a cabo otro desarrollo diferente al caso de variables independientes. 3.3 REPRESENTACIÓN DE LA MATRIZ DE COVARIANZAS Para resolver el problema, primeramente se representa la matriz de covarianzas (3.4) como: Ó = cJ − (c − σ 2 )I . En donde, J es la matriz de unos de orden n × n , mientras que I se refiere a la matriz identidad del mismo orden. Ahora se calculan los valores y vectores propios de la matriz J. 3.3.1 VALORES PROPIOS DE LA MATRIZ J Sea J la matriz de unos de orden n × n , se buscarán sus valores propios. Para tal efecto, se escribe el sistema de ecuaciones Jv = λv . Para la solución se forma el sistema homogéneo ( J − λI ) v = 0 . (3.6) En donde, se buscan los valores propios λ , tal que satisfagan la ecuación siguiente: det ( J − λI ) = 0 34 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 35 Así, 1 1 − λ  1 1 − λ det  M  M 1  1 L 1  L 1  =0 O M  L 1 − λ Un determinante de este tipo se resolvió en el teorema 3.1, para la matriz de covarianzas. De esta forma, al sustituir los valores c = 1 y σ 2 = 1 − λ , se tiene 1 1 − λ  1 1 − λ det  M  M 1 1  L 1  L 1  = (1 − λ − 1) n −1 [n − 1 + 1 − λ] O M  . L 1 − λ = ( −λ) n −1 [n − λ] = 0 De donde resultan los valores propios λ = n es un valor propio simple. Mientras que λ = 0 es un valor propio de multiplicidad n − 1 . 3.3.2 VECTORES PROPIOS DE LA MATRIZ J El valor propio λ = n , se sustituye en el sistema de ecuaciones (3.6). Por otro lado, de la definición de valor propio se puede eliminar una ecuación cualesquiera del sistema. Eliminando la primera ecuación queda la matriz ampliada del sistema (3.6) 1 1 1 1 1 − n 1 1 1− n 1 1  1 1 1 1 − n 1  1 1 1 1 1− n M M M M M 1 1 1 1 1  L L L L O L 1 1 1 1 1 1 1 1 M M 1 1− n 0 0  0 0 M 0  Se hacen ceros los elementos de la primera columna, a partir de la segunda fila 35 Capítulo 3 1 1 1 1− n 1 0 n −n 0 0  0 n 0 − n 0  0 n 0 0 −n M M M M M 0 n 0 0 0  L L L L O L 1 1 0 0 0 0 0 0 M M 0 −n 0 0  0 0 M 0  Ahora a partir de la segunda fila se dividen entre n todas las restantes, 1 1 1 1− n 1 0 1 −1 0 0  0 1 0 − 1 0  0 1 0 0 −1 M M M M M 0 1 0 0 0  L L L L O L 1 1 0 0 0 0 0 0 M M 0 −1 0 0  0 0 M 0  Si x n = t ⇒ x2 = t ⇒ x3 = x 4 = L = xn −1 = t , luego de la ecuación 1, del sistema anterior (reducido), resulta que x1 = t . De tal forma que el vector propio para λ = n está dado por:  1  1 v1 =   = 1 .  M   1 Para el otro valor propio, se sustituye λ = 0 en el sistema de ecuaciones (3.6). Por otro lado, de la definición de valor propio de multiplicidad n − 1 , resulta que se pueden eliminar n − 1 ecuaciones del sistema. Eliminando las primeras n − 1 ecuaciones queda la matriz ampliada del sistema (3.6) (1 1 1 L 1 0) . De donde, x1 = t1 , x 2 = t 2 , ..., x n −1 = t n −1 y x n = −(t1 + t 2 + L + t n−1 ) . Así, los vectores propios resultantes para λ = 0 son:  1  0  0  0  1  M       v 2 =  0  , v 3 =  0  , ..., v n =  0  .  M  M  1  − 1  − 1  − 1       36 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 37 Con lo cual el sistema de vectores propios de la matriz J queda completo e igual a:  1  0  0  1  0  1  M  1       v1 =   = 1 , v 2 =  0  , v 3 =  0  , ..., v n =  0  . M    M  M  1  1  − 1  − 1  − 1       3.4 SISTEMA DE VECTORES ORTOGONALES EQUIVALENTE A LOS VECTORES PROPIOS DE LA MATRIZ J Utilizando las mismas ideas que en el caso de variables aleatorias independientes se encontrará una matriz adecuada para transformar las variables de tal forma que con las nuevas variables se demuestre que X y S X2 son independientes. Para esto se obtendrá un sistema de vectores propios equivalente al anterior. Ahora se buscan los nuevos vectores ortonormalizados como combinaciones lineales ( de los vectores propios, considerando que el primer vector ortonormalizado sea 1 ) n 1. Como los vectores propios son independientes se tiene que forman una base de R n . De tal forma que por medio de combinaciones lineales entre ellos se puede obtener otra representación de los vectores propios también independientes. Así, de esta manera por medio de las combinaciones lineales siguientes  − 1  − 1  − 1  1      0 1 0   v1* = v1 =  1M  , v *2 = v 3 − v 2 =  0  , v *3 = v 4 − v 2 =  1 , ..., v *n = − v 2 =  M  . (3.7)  M  M  0  1  0  0  1         En general,  − 1 1  0   v *k = v k+1 − v 2 para k = 2, 3, K, n − 1 y v1* = v 1 = 1M  , v *n = − v 2 =  M  .  0 1  1     Resulta un nuevo sistema de vectores independientes que se va a normalizar con el proceso de ortonormalización de Gram-Schmidt. 37 Capítulo 3 3.4.1 ORTONORMALIZACIÓN DEL SISTEMA DE VECTORES EQUIVALENTE A LOS VECTORES PROPIOS DE LA MATRIZ J Para la ortonormalización se usa el proceso de Gram-Schmidt, con u k +1 = w k+1 . w k+1 En donde, w k +1 = v *k +1 − ( v *k +1 ⋅ u1 )u1 − ( v *k +1 ⋅ u 2 )u 2 − L − ( v *k +1 ⋅ u k ) u k ; k = 1, 2,K , n − 1 . (3.8) Con ( v ⋅ u ) igual al producto escalar ( ( v ⋅ u ) = v t u ) de los vectores v y u . De tal forma que u1 = w1 w1 = v *1 v *1 1 1 1  . = n  M  1 Similarmente para u 2 , primeramente se ortogonaliza con los vectores anteriores,  − 1  − 1  1  1  1   1  1     =  0 . w 2 = v *2 − ( v *2 ⋅ u1 )u1 =  0  − 0  M   M  n  M  0  1  0      Ahora normalizando el vector ortogonalizado  − 1 w2 1  1 u2 = = 0 . w2 2  M  0 Similarmente para u 3 , primeramente se ortogonaliza con los vectores anteriores, 38 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 39 w 3 = v *3 − ( v *3 ⋅ u1 )u 1 − ( v *3 ⋅ u 2 )u 2   − 1  − 1    − 1  − 1     1  0     1 1 1   0   1   1  1  − =  1 − 0   1 ⋅  0    0 n  M  2  M  M 2  M  M  0 1  0  0   0           − 1  − 1  − 1  0  1     1   1  − 1 =  1 −  0  =  2   M 2  M 2  M   0  0  0       Ahora normalizando el vector ortogonalizado u3 = w3 w3  − 1  − 1 1   =  2 = 1 + +1 + 4  M  0    − 1   1  − 1  2 . 3 × 2  M  0   Similarmente para u 4 , primeramente se ortogonaliza con los anteriores, w 4 = v *4 − ( v *4 ⋅ u1 )u1 − ( v *4 ⋅ u 2 )u 2 − ( v *4 ⋅ u 3 ) u 3 =   − 1  − 1    − 1  − 1   − 1  − 1  − 1            1  0    − 1 0 1 1 0 −1   1  1 1       1   1      1    − =  0 − 0   0 ⋅  0    0 ⋅  2   0 −  2 M n 2 2 3 × 2 3 × 2      1  1   M   M   1   M   M  1  0    0  0   0  0    0  0                  1 1   1 1 1  1   − 1+ +   −1 + + −   −  2 3×2   2 2 3  3  − 1  − 1  − 1  1 1   1 1 1  1  0  1  − 1         0 − 2 + 3×2   0 − 2 + 2 − 3 − 3 1  2  0 1 0 = =  −  − = 1 1 1 =  1 =  1 2  0  3 × 2  0   0 + 0 − × 2  0 + 0 − −   −  3× 2 2 3  3  M  M  M    1  1  1  0  0  0         M  M  M      0 0 0        − 1  − 1   1  − 1 3  3  M  0   Ahora normalizando el vector ortogonalizado 39 Capítulo 3 u4 = w4 w4  − 1  − 1   1  − 1 = = 1 +1 +1 + 9  3  M  0    − 1  − 1   1  − 1 = 3 + 3 2  3  M  0    − 1  − 1   1  − 1 . 4 × 3  3  M  0   En forma general, para u k + 1 , primeramente se ortogonaliza con los vectores anteriores, w k +1 = v *k +1 − ( v *k +1 ⋅ u1 )u1 − ( v *k + 1 ⋅ u 2 ) u 2 − L − ( v *k + 1 ⋅ u k )u k k 1 ui i = 2 i ( i − 1) = v *k +1 − ∑ k 1  1 = v *k +1 − ∑  − u i i i =2  i − 1 k  1   − 1   1   −1 + ∑  −  i  − 1    k i =2  i − 1 1  − 1 k     1 1  1 −     0 − + −     ∑ k M 2 ×1 i= 3  i − 1 i     M  1  = M  =  1  = k  − 1  k   k −2 1   −   1  M  0 + 0 + L + 0 − + − k       ( k − 1 )( k − 2 ) k − 1 k     1      0 M   M   0    0  Ahora normalizando el vector ortogonalizado u k +1 = w k +1 w k +1  − 1  − 1    M  1 =  − 1 = 2 11 +42 1+ L +1+ k  k  43  M  k veces   0  − 1  − 1    M  1  − 1 = 2 k+k  k   M    0  − 1  − 1    M  1  − 1 . ( k + 1)k  k   M    0 De tal forma que la matriz ortonormal queda 40 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 41 U * = (u1 u2       L un ) =        1 1 − n 1 n 1 2(1) 1 2(1) 1 − 3( 2) 1 − 3( 2) 2 0 n M 1 M 3( 2) M 0 0 n   n( n − 1)   1 L −  n( n − 1)  . 1 L −  n( n − 1)  O M  n −1  L  n( n − 1)  1 L − Se probará que µ̂ = X y σˆ 2 = S X2 son independientes y que tienen distribuciones normal y Ji-cuadrada, respectivamente. distribución del estadístico de prueba. Con estos resultados es posible obtener la T= q − µˆ . σˆ Antes de continuar se deben analizar algunas de las propiedades que se obtienen con la matriz de transformaciones. 3.5 MATRIZ DE TRANSFORMACIÓN La matriz de transformación adecuada se representa como: 1   n  1   − 2(1)  *t A = U = 1  − 3( 2)  M  1 −  n (n − 1)  1 1 n 1 − − L n 0 L 2(1) 1 2 L 3(2) M 1 3( 2) M 1 n( n − 1) − n (n − 1) O L   n   0    0   M  n −1  n (n − 1)  1 (3.9) La matriz por construcción es ortonormal. 3.5.1 DISTRIBUCIÓN DE LAS VARIABLES TRANSFORMADAS En la subsección anterior se obtuvo la matriz de transformación adecuada para la independencia de variables aleatorias normales dependientes. Ahora se estudiará un teorema que muestra la distribución de las variables transformadas. 41 Capítulo 3 Teorema 3.2 Sean X 1 , X 2 , K, X n variables aleatorias dependientes e idénticamente distribuidas, con distribución normal, además con covarianzas homogéneas, (3.4) y sea la transformación Y = AX (en donde la matriz de transformación A está dada en (3.9)), entonces se cumple Y ~ N (n ) ( )) ( n µ e 1 , D c ( n − 1) + σ 2 , (σ 2 − c), K , (σ 2 − c ) . En donde, D es la matriz diagonal de orden n y e′1 = (1, 0, 0, K, 0) . Demostración u Si Y = AX , de la teoría de variables aleatorias con distribución normal resulta lo siguiente ( ) Y = AX ~ N ( n) µA1, AÓAt . (A3) Llevando a efecto los cálculos se tiene n n   1    0 µA1 = µ 0  = n µ  = nµ e 1 ,  M   M   0   0   (B3)  1  0 en donde, e1 =   .  M   0 Por otro lado, { } AÓAt = A cJ − (c − σ 2 ) I A t = cAJA t − ( c − σ 2 )I . (C3) Calculando el primer término del segundo miembro de la igualdad (C3), se tiene de (B3) cAJA t = cA(1, 1, K, 1) A t = c n (e1 , e 1 ,K , e 1 ) A t [ = c n A(e1 , e1 ,K , e 1 ) t [ ] ] =c t n [A(1, 0,K , 0)]t t = c n ( ne1 , 0, K, 0) = c n ( n e1 , 0,K , 0) = cn( e1 , 0,K , 0) 42 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 43 en donde, (e 1 , e 2 , K, e n ) representa una matriz cuyas columnas son los vectores dados. Además los vectores e1 , e 2 ,K , e n forman la base canónica del espacio euclideano R n , es decir, e i representa al vector con todas sus componentes cero, excepto la i-ésima, la cual vale 1. Por lo tanto, sustituyendo en (C3) la igualdad anterior AÓAt = cn( e1 , 0,K, 0) − ( c − σ 2 )I = cn(e 1 , 0, K, 0) − ( c − σ 2 )(e 1 , e 2 ,K , e n ) ([ ] = cn − ( c − σ 2 ) e1 , (σ 2 − c )e 2 ,K , (σ 2 − c )e n ( = D c( n − 1) + σ 2 , (σ 2 − c), K , (σ 2 − c ) Se obtiene ) ) ( ) AÓAt = D c ( n − 1) + σ 2 , (σ 2 − c ), K, (σ 2 − c) . ( En donde, D c( n − 1) + σ 2 , (σ 2 − c ),K , (σ 2 − c) ) (D3) representa una matriz diagonal con elementos en la diagonal principal c (n − 1) + σ 2 , (σ 2 − c ), K, (σ 2 − c) , respectivamente. Sustituyendo (B3) y (D3) en (A3), se obtiene la distribución de las variables transformadas Y ~ N (n ) ( )) ( n µ e 1 , D c ( n − 1) + σ 2 , (σ 2 − c), K , (σ 2 − c ) . El teorema queda demostrado. t Nota De la expresión (D3) se obtiene una demostración mucho más simple del Teorema 3.1, despejando la matriz de covarianzas: ( ) Ó = A t D c( n − 1) + σ 2 , (σ 2 − c ),K , (σ 2 − c) A . Ahora calculando el determinante [( )] det( Ó) = det( A t ) det D c (n − 1) + σ 2 , (σ 2 − c ),K , (σ 2 − c) det( A) ( = det( A t ) det( A)(σ 2 − c) ( n−1) c( n − 1) + σ 2 ( = (σ 2 − c) ( n−1) c( n − 1) + σ 2 ) ) 43 Capítulo 3 3.6 PROPIEDADES DE LAS VARIABLES TRANSFORMADAS Con la transformación Y = AX , resultan las siguientes propiedades. Propiedad 1 Las Yi tienen distribución normal y son independientes. Comprobación Del Teorema 3.2, se tiene Y1 ~ N ( n µ, c( n − 1) + σ 2 ( ) ) Yi ~ N 0,σ 2 − c , para toda i = 2, 3, K, n y además son independientes. Propiedad 2 n n i =1 i=1 ∑ Yi 2 = ∑ X i2 . Comprobación n n i =1 i =1 ∑ Yi 2 = Y t Y = (AX)t (AX) = Xt At AX = Xt X = ∑ X i2 . Propiedad 3 Y1 = n X . Comprobación Y1 = 1 n ∑Xi n i=1 = 1 n nX = n X . Propiedad 4 S X2 = 1 n 2 ∑ Yi . n i= 2 Comprobación S X2 = 1 n 2 Xi − X 2 ∑ n i=1 Prop. (2) = Prop. (3) 1 n 1 n 2 1 2 1 n 2 2 2 Y − X = Y − Yi . ∑ i ∑ i n Y1 = n ∑ n i= 1 n i =1 i =2 Propiedad 5 X y S X2 son independientes. 44 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 45 Comprobación Se deduce de las propiedades (1), (3) y (4). 3.7 DISTRIBUCIÓN DE LA MEDIA Y LA VARIANZA Una de las dificultades para determinar las distribuciones muestrales de la media y la varianza reside en que las variables son dependientes y por consiguiente no existen resultados conocidos en estos casos. Para resolver el problema se usarán las ideas del capítulo anterior para caso de variables aleatorias independientes. En la sección 3.1.1 se vio que la estadística de prueba estaba en función de la media y la varianza, por consiguiente, se requiere de la distribución de estas dos estadísticas. Primeramente se nota que el vector de variables tiene distribución: X ~ N ( n ) (µ1, Ó) , (3.10) con Ó = cJ − (c − σ 2 )I y J la matriz de unos de orden n × n , mientras que I se refiere a la matriz identidad del mismo orden con cov( X i , X j ) = c > 0 para toda i ≠ j . 3.7.1 DISTRIBUCIÓN DE LA MEDIA MUESTRAL Después de haber visto las subsecciones anteriores, está todo preparado para ver la distribución de la media. De las propiedades anteriores se tiene lo siguiente:  c( n − 1) + σ 2 X ~ N  µ, n   .   (3.11) Comprobación De la propiedad (3) X= 1 n Y1 . Por la propiedad (1) X=  1 c ( n − 1) + σ 2 Y1 ~ N  n µ, n n  n 1  .   Luego,  c( n − 1) + σ 2 X ~ N  µ, n   .   45 Capítulo 3 3.7.2 DISTRIBUCIÓN DE LA VARIANZA MUESTRAL De forma similar a la media muestra resulta:  n −1 σ 2 − c  . S X2 ~ Γ ,2 n   2 (3.12) Comprobación De la propiedad (4) 1 n 2 σ 2 − c n  Yi S = ∑ Yi = ∑ n i= 2 n i = 2  σ 2 − c 2 X 2   .   De la propiedad (1), se tiene que 2  Yi    ~ χn2−1 = Γ n − 1 ,2  . ∑    2  i =2  σ 2 − c  n Luego, σ 2 − c n  Yi S = ∑ n i = 2  σ 2 − c 2 X 2 2   ~ Γ n − 1 , 2 σ − c  .  2  n    3.8 DISTRIBUCIÓN DE LA ESTADÍSTICA DE PRUEBA En la sección 3.1 se estableció el estadístico de prueba que se requiere para probar el contraste de hipótesis y se ha visto que está en función de la media y la varianza muestrales, de tal forma que utilizando los resultados anteriores se puede establecer el siguiente Teorema. Teorema 3.3 Sean X 1 , X 2 , K, X n variables aleatorias dependientes e idénticamente distribuidas, con distribución conjunta normal y con covarianzas homogéneas y positivas, esto es X ~ N ( n ) (µ1, Ó) con Ó = cJ − (c − σ 2 )I , c > 0 y J la matriz de unos de orden n × n , mientras que I se refiere a la matriz identidad del q − µˆ mismo orden, entonces la estadística de prueba T = , tiene una σˆ distribución t no central con parámetro de no centralidad   µ− q . n  σ ρ(n −1) + 1    46 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 47 Demostración u De la expresión (3.12), se nota que  n  2  n −1  ,2  = χn2−1 .  2 S X ~ Γ σ − c   2  (3.13) Trasformando la estadística de prueba y utilizando la expresión (3.13) se obtiene: T= q − µˆ q − X = = 2 σˆ SX =− =− q−X  n  2  σ 2 − c   2 SX  σ − c   n  1 X −q (σ 2 − c)( n − 1) n  n  S X2  2   σ − c  n −1 1 X −q (σ 2 − c)( n − 1) n χn2− 1 (n − 1) Por medio de la expresión (3.11), se tiene  c( n − 1) + σ 2 X − q ~ N  µ − q, n   ,   de tal forma que       X −q µ−q ~ N ,1 . 2 c( n − 1) + σ 2  c( n − 1) + σ    n  n  (3.14) Así de esta manera la estadística de prueba se puede expresar como 47 Capítulo 3 X −q T =− c( n − 1) + σ 2 n c ( n − 1) + σ 2 n (σ 2 − c)( n − 1) n χn2−1 (n − 1)    µ− q    Z  no central  n  2 c( n − 1) + σ 2   c( n − 1) + σ  =−  (σ 2 − c)( n − 1)  χn2−1 ( n − 1)                 Por otro lado, transformado su representación del numerador y denominador de la cantidad subradical, cambiando c por σ 2 ρ , se tiene: Numerador c (n − 1) + σ 2 = σ 2 ρ( n − 1) + σ 2 = σ 2 ( ρ( n − 1) + 1) . Denominador (σ 2 − σ 2 ρ)( n − 1) = σ 2 (1 − ρ)( n − 1) . Cociente c( n − 1) + σ 2 (σ − c )( n − 1) 2 = σ 2 ( ρ( n − 1) + 1) σ (1 − ρ)( n − 1) 2 = ρ( n − 1) + 1 . (1 − ρ)( n − 1) Sustituyendo el cociente por esta última expresión y definiendo el coeficiente por: h ( ρ) = − ρ( n − 1) + 1 (1 − ρ)(n − 1) (3.15) Resulta que la estadística de prueba tiene la distribución 48 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 49    µ−q     Z no central  n  2 ρ( n − 1) + 1   c (n − 1) + σ  T =−  (1 − ρ)( n − 1)  χn2−1 ( n − 1)      ρ( n − 1) + 1 * µ−q =− Tno central  n  2  (1 − ρ)( n − 1)   c( n − 1) + σ                    µ− q  . = h ( ρ)Tno* central  n     σ ρ(n − 1) + 1   El teorema queda demostrado. t 3.8.1 ESTUDIO DEL COEFICIENTE DE LA ESTADÍSTICA DE PRUEBA En el teorema anterior resulto una función, en el coeficiente del estadístico de prueba. Por otro lado, al estudiar el tamaño de la prueba se tendrá que acotar la estadística de prueba, luego, es conveniente que se analice la monotonía de la función h (ρ) . Proposición 3.1 La función h (ρ) resultante en la estadística de prueba T, es negativa y monótona decreciente en [0, 1) . Demostración u La función en estudio está dada en la expresión (3.15) por: h ( ρ) = − ρ( n − 1) + 1 . (1 − ρ)(n − 1) Está claro que la función es negativa, luego sólo falta probar su monotonía. Para esto se calcula la derivada de la expresión del subradical dado que es positivo, resultando: 49 Capítulo 3 d  ρ( n − 1) + 1  [(1 − ρ)( n − 1) ]( n − 1) − [ρ( n − 1) + 1]( −( n − 1))  = dρ  (1 − ρ)( n − 1)  [(1 − ρ)( n − 1) ]2 = = = Así, (1 − ρ)( n − 1) 2 + [ρ(n − 1) + 1]( n − 1) (1 − ρ) 2 ( n − 1) 2 (1 − ρ)( n − 1) + [ ρ( n − 1) + 1] (1 − ρ) 2 (n − 1) n (1 − ρ) 2 ( n − 1) > 0, para n > 1 ρ( n − 1) + 1 es monótona creciente, luego (1 − ρ)( n − 1) ρ( n − 1) + 1 , (1 − ρ)( n − 1) h ( ρ) = − es monótona decreciente (negativa) para 0 ≤ ρ < 1 . La proposición queda demostrada. t 3.9 APROXIMACIÓN DE LA T NO-CENTRAL CON LA T CENTRAL Al igual que en la sección 2.5 se trabajará con una aproximación de la t no central por medio de la t central. Para esto se usa la simbología • ν grados de libertad, • δ parámetro de centralidad, • k * percentil y • la función r ( z ) = z z +ν . 2 Ahora con base en el resultado de HELENA CHMURA KRAEMER de Stanford University y MINJA PAIK (agosto de 1979) de Department of Statistics California State University Hayward, se tiene que para un valor dado k * , [ ]   ν r ( k * ) − r (δ ) lim  FT * ( δ ) k * − FT0  ν →∞ ν  1 − r 2 ( k * ) 1 − r 2 (δ )  { } [ ][ ]   = 0 .  donde T0 tiene distribución t central con n − 1 grados de libertad. 50 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 51 Para la aplicación de dicho resultado, se requiere estudiar la monotonía del argumento de la distribución central. Para esto se representa el argumento como G(δ ) = [ ν r ( k * ) − r (δ ) [1 − r 2 ][ ] ] ( k * ) 1 − r 2 (δ ) . (3.16) De tal forma que el resultado anterior se puede formular de la siguiente manera [ ] { } lim FT * ( δ ) k * − FT0 {G (δ )} = 0 . ν →∞ ν (3.17) Proposición 3.2 La función G(δ ) es una función monótona decreciente. La demostración es idéntica a la realizada en la sección 2.5. 3.10 VALORES CRÍTICOS PARA MUESTRAS GRANDES Primeramente se define el espacio paramétrico bajo la hipótesis como { } ω = è = ( µ, σ, c) : q ≥ µ + σΦ −1 (1 − p0 ) ∈ R , c > 0 . Ahora para que la prueba sea de tamaño α se busca el valor de una constante k, tal que max P{T < k | è ∈ ω} ≤ α . (3.18) è ∈ω Para esto se usa el Teorema 3.3, sustituyendo el estadístico de prueba y calculando la siguiente probabilidad { } P{T < k | è ∈ ω} = P h ( ρ)T * < k | è ∈ ω .    µ− q   con n − 1 grados de En donde, T * tiene la distribución t no central  n     σ ρ( n − 1) + 1   libertad Continuando con el cálculo de la probabilidad del error tipo I, dividiendo entre h (ρ) , y considerando el resultado de la Proposición 3.1 se tiene 51 Capítulo 3   k P{T < k | è ∈ ω} ≤ PT * > | è ∈ ω h( ρ)    k   = 1 − FT *   h( ρ)  De tal forma que 1 es creciente (negativa), luego su mínimo se obtiene cuando ρ h( ρ) es mínima, es decir, ρ = 0 . Así,  k   . P{T < k | è ∈ ω} ≤ 1 − FT *   h( 0)  (3.19) Ahora utilizando una aproximación de la T * no central con la T0 central, para lo cual se usa la siguiente simbología: • ν = n − 1 grados de libertad, •   µ− q , El parámetro de centralidad δ = n   σ ρ(n − 1) + 1    • k* = • la función r ( z ) = k y h (0) z z 2 +ν . Así al sustituir en (3.19) el resultado de la aproximación (3.17), se tiene:  k   P{T < k | è ∈ ω} ≤ 1 − FT *   h( 0)  ( ) = 1 − FT * k * = 1 − FT0 (G(δ ) ) = FT0 (G(δ ) ) Como la función FT0 es decreciente, su máximo lo alcanza cuando el argumento, G(δ) , es mínimo. 52 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 53 Por otro lado, se demostró en la proposición (3.2) que G(δ) es decreciente, por lo tanto, su mínimo lo alcanza cuando su argumento, δ, es máximo. Para obtener el valor máximo de δ bajo H 0 se usa la representación anterior,     µ− q 1  = − n  q − µ   δ = n  σ ρ( n − 1) + 1   σ   ρ( n − 1) + 1      1  ≤ −Φ −1 (1 − p 0 ) n   ρ( n − 1) + 1    − Φ − 1 (1 − p0 ) n ≤ −1  − Φ (1 − p 0 ) si − Φ −1 (1 − p 0 ) > 0 ( ρ = 0) si − Φ −1 (1 − p0 ) ≤ 0 ( ρ → 1) − Φ −1 (1 − p 0 ) n = −1  − Φ (1 − p 0 ) si Φ −1 (1 − p0 ) < 0 ( ρ = 0) si Φ −1 (1 − p0 ) ≥ 0 ( ρ → 1) Como p 0 se considerará mayor a 0.5, resultando la cota δ ≤ δ0 = −Φ − 1 (1 − p 0 ) n . Por otro lado, − Φ − 1 (1 − p0 ) n > 0 , esto es δ0 > 0 . (3.20) De esta forma, se selecciona k tal que P{T < k | è ∈ ω} ≤ FT0 (G(δ ) ) ≤ FT0 (G (δ0 ) ) = 1 − FT0 (G(δ0 ) ) ≤ α . Despejando el argumento FT0 (G(δ0 ) ) ≥ 1 − α G(δ0 ) ≥ FT−01 (1 − α) Definiendo α0 por α0 = FT−0 1 (1 − α) . (3.21) Considerando α ≤ 0.5 , se tiene: 53 Capítulo 3 α0 = FT−0 1 (1 − α) > 0 Sustituyendo k * = k =− h(0) 1 k n −1 (3.22) = − ν k , resulta lo siguiente 1  *  2 *2 k δ + ν − δ k +ν 0 0  ν  1  = − ν k δ02 +ν − δ0 νk 2 + ν    ν G(δ0 ) = = − k δ02 + ν − δ0 k 2 + 1 Por lo tanto, − k δ02 + ν − δ0 k 2 + 1 ≥ α0 Falta encontrar el valor de k. Para esto de las expresiones (3.21) y (3.22) se nota que − k δ02 + ν ≥ α0 + δ0 k 2 + 1 > 0 Luego, k <0 (3.23) De forma similar como se resolvió en el capítulo 2 en las páginas 27 y 28, se resuelve la ecuación − k δ02 + ν − δ0 k 2 + 1 = α0 en k, y se obtiene el valor de la constante crítica k. Así, para p 0 ≥ 0.5 , α ≤ 0.5 y tamaño de muestra n, la constante crítica k es dada por: k =− α0 δ02 + ν + δ0 α02 + ν ν . 3.11 VALORES CRÍTICOS PARA MUESTRAS PEQUEÑAS Note que en la demostración del Teorema 3.3, se obtuvo que el estadístico de prueba     µ− q    Z no central  n  2 c( n − 1) + σ 2   c( n − 1) + σ  T =−  (σ 2 − c)( n − 1)  χn2−1 ( n − 1)                 54 Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 55 donde Z no central y χn2−1 son variables aleatorias independientes. Luego,     µ− q      Z no central  n   2 c( n − 1) + σ 2   c( n − 1) + σ   P(T < k | è ∈ ω) ≤ P −  2 χn2−1 ( n − 1)  (σ − c )( n − 1)            µ−q      n −Z    2 c ( n − 1) + σ 2   c (n − 1) + σ   = P −  <k 2  2 σ −c  χn −1          consideran do que c ≥ 0, se tiene              < k H0           è ∈ ω       q − µ  + Z  n  σ    ≤P < k H0   2  χn−1     utilizando la hipótesis nula  nΦ −1 (1 − p ) + Z  ≤ P < k H0    χn2−1   Así, la última expresión coincide con la obtenida en 2.7. Luego en el Apéndice B, se muestran algunas tablas de valores críticos para ciertos n, p y α ∈ ( 0,1) y el programa en SPLUS con el cual se generaron y por último una tabla de comparaciones de los valores críticos calculados por simulación con los valores obtenidos por la aproximación para muestras grandes, k = − α0 δ02 + ν + δ0 α02 + ν ν . 55 Capítulo 4 Aplicaciones 4.1 VARIABLES ALEATORIAS INTERCAMBIABLES O SIMÉTRICAMENTE DEPENDIENTES Una generalización de las variables aleatorias iid son las intercambiables primeramente introducidas por B. De Finetti en 1970. variables aleatorias Definición 4.1 Las variables aleatorias X 1 , K, X n se llaman simétricamente dependientes o variables intercambiables (exchangeable random variables), si cualquier permutación de cualquier subconjunto de ellas de tamaño k ( k ≤ n ) tiene la misma distribución. De Finetti demostró un elegante teorema para cualquier sucesión infinita de variables aleatorias intercambiables. Él demostró que cualquier sucesión de variables intercambiables es una mezcla de variables aleatorias iid. El siguiente teorema muestra que la distribución de una sucesión infinita de variables intercambiables {X n } se obtiene de una aleatorización de una distribución binomial. Aquí, S n = X 1 + L + X n y se llama al suceso {X k = 1} éxito. Teorema Para cada sucesión infinita de variables intercambiables, que toman sólo valores de 0 y 1, les corresponde una distribución F dada en [0,1], tal que P{X 1 = 1,K , X k 1 = 1, X k +1 = 0,K , X n = 0} = ∫ θ k (1 − θ) n− k F {dθ} 0 1  n P{S n = k } =   ∫ θ k (1 − θ ) n − k F {dθ} . k  0 56 Aplicaciones 57 Generalización Se puede llevar acabo un razonamiento similar con variables aleatorias, que permiten tres valores, en tal caso se tendrán dos parámetros libres. En general, el teorema y su demostración se pueden utilizar con variables aleatorias que tomen un número finito de valores. Este hecho significa que en un caso más general, las variables aleatorias intercambiables se obtienen de sucesiones de variables aleatorias independientes con una aleatorización por medio de algún parámetro. En algunos casos no se tiene ninguna dificultad, pero el problema en general es difícil, puesto que los parámetros no están definidos claramente. A pesar de todo esto, se han demostrado resultados generales del teorema. Ver Hewitt E., Savage L. J., Symmetric measures on Cartesian products, Trans. American Math. Soc., 80 (1956), 470-501. Ver Loève (1963). Ver Bühlmann H., Austauschbare stochastische Variabeln und ihre Grenzwertsätze, Univ. of California Publications in Statistics, 3, No. 1 (1960), 1-36. 4.2 MATRIZ DE COVARIANZAS PARA DATOS INTERCAMBIABLES En el caso de que las variables aleatorias X 1 , X 2 ,K , X n sean intercambiables, su matriz de covarianzas es del tipo que se ha utilizado en el capítulo anterior para la prueba de hipótesis. De manera más formal, se tiene el siguiente teorema. Teorema 4.1 Sean las variables aleatorias X 1 , X 2 ,K , X n intercambiables, entonces su matriz de varianzas y covarianzas es de la forma: σ2 c  2 Ó=  c σ M  M  c c  L c   L c . O M  L σ 2  Demostración u Sea el vector X = ( X1 , X 2 ,K, X n ) , en donde las variables X 1 , X 2 ,K , X n son intercambiables. Sea τ(⋅) una permutación del argumento. Aplicando la permutación al vector anterior, se obtiene un nuevo vector de variables dado por 57 Capítulo 4 τ( X) = ( X τ (1) , X τ ( 2) ,K , X τ ( n ) ) . Por otro lado, de la definición de variables intercambiables se tiene que la distribución de los vectores X y τ(X) es la misma. Se sabe que si dos vectores tienen la misma distribución, entonces sus matrices de covarianzas deben ser iguales. Así, de esta forma la matriz de covarianzas para cualquier permutación τ(X) es la misma Óτ ( X )  στ2(1)  =  cτ ( 2), τ (1) M  c  τ ( n ),τ (1) L cτ (1), τ ( n )   L cτ ( 2), τ ( n )  O M   2 L στ ( n )  cτ (1),τ ( 2) στ2( 2) M cτ ( n ),τ ( 2) Sea τ * ( X) otra permutación de las variables, luego su matriz de covarianzas está dada por: Óτ * ( X )  σ 2*  τ (1) c =  τ * ( 2), τ * (1) M  c * *  τ ( n), τ (1) cτ * (1), τ * ( 2 ) στ2* ( 2) M cτ * ( n ),τ * ( 2 ) L cτ * (1),τ * ( n )   L cτ * ( 2 ),τ * ( n )  . O M  L στ2* ( n )   De tal forma que Óτ ( X ) = Óτ * ( X ) . Pero del Álgebra de matrices se sabe que dos matrices son iguales cuando sus elementos correspondientes son iguales, de tal forma que se cumple στ2( i) = στ2* (i ) para toda i = 1, 2,K , n . Como τ(i ) y τ * (i ) son dos permutaciones cualesquiera para i = 1, 2,K , n , se debe satisfacer στ2( i) = στ2* ( i ) = σ 2 para toda i = 1, 2,K , n . Similarmente para las covarianzas. cτ ( i ),τ ( j) = cτ * ( i), τ * ( j ) para toda i , j = 1, 2, K, n y i ≠ j . 58 Aplicaciones 59 Pero τ(⋅) y τ * (⋅) son dos permutaciones cualesquiera para i = 1, 2,K , n , luego, se debe cumplir que cτ ( i ),τ ( j ) = cτ * ( i ),τ * ( j ) = c para toda i , j = 1, 2, K, n y i ≠ j . Así, se concluye que Óτ ( X ) σ 2 c  2 = c σ M  M  c c  L c   L c . O M  L σ 2  El teorema queda demostrado. t 4.3 APLICACIONES A DATOS INTERCAMBIABLES Se ha visto que en el caso de que las variables aleatorias X 1 , X 2 ,K , X n sean intercambiables, su matriz de covarianzas es del tipo que se ha utilizado en la prueba del contraste de hipótesis visto en el capítulo 3. Por otro lado, los datos intercambiables resultan en diferentes áreas. Por ejemplo, el Dr. Ronald Randles de la Universidad de Florida ha hecho uso de la intercambiabilidad en datos apareados, aplicados a la medicina. Él ha supuesto que cada paciente tiene una medida tomada antes y después del tratamiento, con base en este hecho a formulado la hipótesis nula de que las medidas antes de que y después de que son tomadas en un tratamiento son intercambiables, es decir, que ninguna medida es afectada por el tratamiento. Así los pares (Antes de, Después de) y (Después de, Antes de) tienen la misma distribución. Otra aplicación de datos intercambiados se tiene cuando los datos son reunidos en bloques completamente aleatorizados en los que cada uno de los k tratamientos medidos dentro de cada bloque, la hipótesis nula se refiere a que no existe ningún efecto del tratamiento es que las k ! observaciones dentro de cada bloque es intercambiable, es decir, que todas las k ! permutaciones de los datos dentro de cada bloque serían igualmente probables. 59 Capítulo 4 4.4 EXTENSIÓN DE LA PRUEBA t PARA OBSERVACIONES DEPENDIENTES 4.4.1 Caso de independencia Para el caso de una muestra aleatoria X 1 , X 2 ,K , X n de variables N ( µ,σ 2 ) se analiza (ver [12], páginas 428-431), por medio del método de pruebas de la razón de verosimilitudes generalizada, el contraste de hipótesis H 0 : µ = µ0 , σ 2 > 0 H1 : µ ≠ µ0 , σ 2 > 0 en donde, µ0 es una constante conocida, el parámetro σ 2 es desconocido, el espacio { paramétrico bajo la hipótesis nula es ω = è = ( µ, σ 2 ) | µ = µ0 , σ 2 } y el espacio paramétrico Ω = R × R + . Para utilizar el método anterior primeramente se obtienen los estimadores de máxima verosimilitud de los parámetros ( µ, σ 2 ) bajo Ω = R × R + , los cuales resultan iguales a ( µˆ , σˆ 2 ) = ( X , S n2−1 ) . Por otro lado, los estimadores de los parámetros bajo ω son   1 n ( µ0 ,σˆ 2 ) =  µ0 , ( X i − µ0 ) 2  . ∑ n − 1 i=1   De está manera al aplicar el método de la razón de verosimilitudes generalizada y el resultado de que X y Sn2−1 son independientes, se obtiene el estadístico de prueba T= X − µ0 S n −1 . n Donde T tiene una distribución t-student con n − 1 grados de libertad y la hipótesis nula se rechaza cuando T < −k o T > k , con la constante crítica k igual al cuantil t1−α 2 ( n − 1) . 4.4.2 Caso de dependencia Para el caso en que las variables aleatorias X 1 , X 2 ,K , X n son dependientes la prueba anterior se complica enormemente, y su solución depende de la matriz de covarianzas. En general, en la literatura de Estadística no se tienen pruebas para estos casos. Cuando X 1 , X 2 ,K , X n son variables aleatorias intercambiables normalmente distribuidas con parámetros µ, σ 2 y con covarianzas homogéneas, c, se demuestra en el 60 Aplicaciones 61 apéndice A que no se puede aplicar el método de pruebas de la razón de verosimilitudes generalizada, debido a que no existen los estimadores de máxima verosimilitud para µ, σ 2 y c. De tal forma que si X 1 , X 2 ,K , X n son variables aleatorias intercambiables normalmente distribuidas con parámetros µ, σ 2 y c la prueba para el contraste de hipótesis H 0 : µ = µ0 , σ 2 > 0 H1 : µ ≠ µ0 , σ 2 > 0 en donde, µ0 es una constante conocida, el parámetro σ 2 es desconocido, el espacio { } paramétrico bajo la hipótesis nula es ω = è = ( µ, σ 2 , c) | µ = µ0 ,σ 2 , c y el espacio paramétrico Ω = R × R + × R + ; se busca en base a un estadístico similar al caso de independencia. En las sección 3.7.1 y 3.7.2 se demostró que en el caso de variables intercambiables normalmente distribuidas con parámetros µ y σ 2 se tiene que  c( n − 1) + σ 2 X ~ N  µ, n    n −1 σ2 − c   y S n2 ~ Γ    2 ,2 n     además, en la propiedad 5 de la sección 3.6 se demostró que X y Sn2−1 siguen siendo independientes. De tal forma que bajo H 0 se cumple X − µ0 c( n − 1) + σ 2 n ~ N (0,1) y  n −1  ~ Γ ,2  = χn2−1 y son independientes. σ −c  2  nS n2 2 Así la distribución de la siguiente estadística T * se obtiene de la distribución t central con n − 1 grados de libertad T* = c( n − 1) + σ 2 n . 2 2 nS n (σ − c ) n −1 ( X − µ0 ) Simplificando la expresión anterior, se obtiene 61 Capítulo 4 T* = X − µ0 S n−1 X − µ0 σ2 − c = c( n − 1) + σ 2 S n −1 n n 1− ρ ρ( n − 1) + 1 De tal forma que T* = en donde, X h ( ρ) = X − µ0 S n−1 n h( ρ) ~ t n −1 , y S n2−1 son la media y varianza muestrales y son independientes, y 1− ρ con 0 ≤ ρ < 1 . ρ( n − 1) + 1 Para llevar a cabo la prueba se usará un estadístico similar al caso de variables aleatorias independientes, y que se denota por T= X − µ0 S n −1 . n Ahora se busca la constante crítica k, tal que 1 − α = max P{− k < T < k | H 0 } 0≤ ρ < 1   T* = max P− k < < k | H0  0≤ ρ < 1 h( ρ)   { = max P T * < kh( ρ) | H 0 0≤ ρ < 1 } = max FT * [kh( ρ) ] 0≤ ρ < 1 = F T *  k  max h( ρ)    0≤ ρ <1  Proposición La función h (⋅) es monótona decreciente Para probar se deriva 1− ρ ρ(n − 1) + 1 d  1 − ρ  − [ρ( n − 1) + 1] − (1 − ρ)( n − 1) n = − < 0.  = dρ  ρ( n − 1) + 1  [ρ( n − 1) + 1]2 [ρ( n − 1) + 1]2 62 Aplicaciones 63 Luego, 1− ρ es monótona decreciente y la función raíz cuadrada es monótona ρ(n − 1) + 1 creciente, esto implica que h (ρ) es monótona decreciente. De la proposición anterior resulta que el máximo de la función h (⋅) se obtiene cuando ρ = 0 , es decir, cuando h (0) = 1 . Así,   1 − α = F T * k  max h( ρ)      0 ≤ ρ <1 = F T * [kh( 0) ] = F T * [k ] Finalmente se tiene que la prueba no rechaza H 0 cuando − k < T < k , donde k es tal que para α ∈ ( 0,1) , ( ) P − k < T * < k | H0 ≤ 1 − α . Con k = t 1−α 2 (n − 1) el 1 − α 2 cuantil de la distribución t- student con n − 1 grados de libertad. De tal forma que se obtiene la misma prueba que en el caso de independencia. 63 Capítulo 5 Conclusiones Dadas las variables aleatorias X 1 , X 2 ,K , X n , normalmente distribuidas con parámetros µ y σ 2 la prueba para el contraste de hipótesis H 0 : p ≤ p0 H1 : p > p0 en donde, p 0 es una constante conocida y p es la probabilidad de que las variables aleatorias tomen valores por encima de un valor q constante y definido de antemano; está basada en una distribución t, tanto para el caso de independencia como el de variables aleatorias dependientes normalmente distribuidas con covarianzas homogéneas. Teniendo como resultado la coincidencia de la prueba en ambos casos. Aquí se puede hacer notar que aún cuando las pruebas coinciden, en el caso de dependencia no existen los estimadores de máxima verosimilitud para los parámetros, como los utilizados en el caso de variables aleatorias independientes. En el caso de variables aleatorias intercambiables resulta que éstas cumplen las condiciones de variables aleatorias dependientes con covarianzas homogéneas, por consiguiente, se puede aplicar la prueba anterior a este tipo de datos. Por otro lado, el método de la razón de verosimilitud generalizada para la prueba de hipótesis de la media de variables aleatorias independientes con distribución normal y parámetros µ y σ 2 resulta una herramienta muy útil, sin embargo, para el caso de variables aleatorias intercambiables no es posible implementar el método, ya que no existen los estimadores de máxima verosimilitud de los parámetros respectivos. 64 64 Conclusiones 65 De esta forma para llevar acabo una prueba de hipótesis sobre la media de variables aleatorias intercambiables se propone usar un estadístico de prueba similar al que se obtiene en el método de la razón de verosimilitud generalizada para el caso de variables aleatorias independientes. Resultando que aún cuando se trate de variables aleatorias intercambiables la prueba coincide con la de variables aleatorias independientes. DISCUSIÓN En el desarrollo de la prueba para las variables aleatorias dependientes con covarianzas homogéneas se lleva a efecto una transformación para las variables. En esta parte se puede apreciar que las ideas y resultados que aquí se obtiene se pueden extender a otro tipo de matrices de varianzas y covarianzas, en especial para el caso de procesos estocásticos con covarianzas estacionarias. Cabe señalar que aunque las ideas parecen ser propicias para llevar a cabo una prueba en estas últimas condiciones, queda la pregunta abierta referente a la transformación adecuada para llegar a la independencia de X y S X2 o de alguna función lineal de estas. 65 Apéndice A Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas A.1 PLANTEAMIENTO DEL PROBLEMA Sean X 1 , X 2 ,K , X n variables aleatorias dependientes normalmente distribuidas con parámetros µ y σ 2 . Se quiere encontrar una prueba para el contraste de hipótesis: H 0 : p ≤ p0 H1 : p > p0 en donde, p 0 es una constante conocida y p es la probabilidad de que las variables aleatorias tomen valores por encima de un valor q constante y definido de antemano, esto es: p = P[ X i > q] , para toda i. Suponiendo normalidad de las variables aleatorias y estandarizando resulta: q − µ q − µ  p = 1 − Φ .  = P Z > σ   σ   De donde,  q − µ 1 − p 0 ≤ Φ .  σ  Así, las hipótesis son equivalentes a: H0 : q−µ ≥ Φ −1 (1 − p0 ) σ q−µ H1 : < Φ −1 (1 − p0 ) σ (a.1) 66 Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 67 De donde, la estadística de prueba para la solución del problema está dada por: T= q − µˆ . σˆ (a.2) Es decir, se buscará la distribución de la estadística de prueba T de tal forma que cumpla con el contraste de hipótesis H 0 : T ≥ Φ − 1 (1 − p 0 ) (a.3) H1 : T < Φ −1 (1 − p0 ) A.2 ESTIMADORES DE MÁXIMA VEROSIMILITUD PARA µ , σ y c Sean X 1 , X 2 , K, X n las variables aleatorias del proceso de manera que su función de verosimilitud está dada por f X|µ~ , σ~ 2 , ~c ( x | µ, σ 2 , c ) = 1 ( 2π ) n 2  1  exp − ( x − µ1) t Ó− 1 ( x − µ1) det( Ó)  2  (a.4) En donde, µ1 es el vector cuyas componentes son todas iguales a µ, x una realización de la muestra y Ó matriz de covarianzas con la misma varianza, σ 2 , y covarianzas homogéneas, cov( X i , X j ) = c . Es decir, para σ2 c  2 Ó=  c σ M  M  c c  L c   L c  O M  L σ 2  (a.5) Los cálculos de la inversa y el determinante se tienen en el Teorema A.1. Teorema A.1 Sea la matriz de covarianzas dada en la expresión (a.5), entonces se cumple −1 a).- Ó = ( ) (c (n − 1) + σ )I − cJ . = (σ − c) [c (n − 1) + σ ] cJ − c( n − 1) + σ 2 I 2 ( n − 1) c 2 − (n − 2)cσ 2 − σ 4 [ 2 2 ] b).- det( Ó) = (σ 2 − c) n −1 c( n − 1) + σ 2 . En donde I representa la matriz identidad de orden n × n , y J la matriz de unos también del mismo orden. 67 Apéndice A Demostración u Primeramente se representa la matriz de covarianzas de la siguiente forma: Ó = cJ + (σ 2−c )I a).- De esta manera la comprobación es sencilla, basta con verificar las igualdades ÓÓ− 1 = Ó−1 Ó = I Luego, se tiene ÓÓ−1 = = 1 [cJ + (σ −c)I][cJ − (n − 1)cI − σ I] 2 ( n − 1)c − ( n − 2) cσ − σ 2 2 4 2 [c JJ − (n − 1)c JI − σ cJI ] + [(σ −c )cIJ − (n − 1)(σ −c )cII − σ 2 2 2 2 2 ( n − 1)c − ( n − 2) cσ − σ 2 2 2 (σ 2−c) II ] 4 Como JJ = nJ , II = I , JI = IJ = J , se tendrá ÓÓ−1 = = = nc 2 J − (n − 1)c 2 J − σ 2 cJ + (σ 2−c) cJ − ( n − 1)(σ 2−c )cI − σ 2 (σ 2−c )I ( n − 1)c 2 − ( n − 2) cσ 2 − σ 4 [ ] c 2 J − c 2 J + − ( n − 1)(σ 2−c) c − σ 2 (σ 2−c ) I ( n − 1) c 2 − ( n − 2) cσ 2 − σ 4 [− (n − 1)σ c + (n − 1)c 2 2 ] − σ4 + σ2c I (n − 1)c − ( n − 2)cσ − σ 2 2 4 =I Similarmente Ó−1 Ó = I . b).- El determinante se cálculo en el teorema 3.1. El teorema queda demostrado. t Continuando con los cálculos, considerando el logaritmo natural de la expresión (a.4) 1 n 1 l X|µ~ , σ~ 2 , ~c ( x | µ, σ 2 , c ) = − (x − µ1) t Ó−1 ( x − µ1) − ln (2π ) − ln (det( Ó) ) . 2 2 2 (a.6) Falta derivar con respecto a los diferentes parámetros. 68 Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 69 A.2.1. DERIVADA CON RESPECTO A LA MEDIA [ ] ∂ 1 1 l X| µ~ ,σ~ 2 , ~c (x | µ, σ 2 , c) = 1 t Ó−1 (x − µ1) + ( x − µ1) t Ó−1 (1) ∂µ 2 2 = ( ) ( ) ( ) 1 t −1 1 1 1  1 Ó x − µ 1t Ó−1 1 + x t Ó−1 1 − µ 1 t Ó−1 1  2 2 2 2  Como cada término de la última igualdad es un número, esto significa que las transpuestas correspondientes son iguales, luego se tiene [ ] ∂ l X| µ~ ,σ~ 2 , ~c (x | µ, σ 2 , c) = 1t Ó−1 x − µ1t Ó−1 1 . ∂µ Igualando a cero la expresión de la derivada y despejando la media, se obtiene su estimador de máxima verosimilitud t −1 ˆ = 1 Ó x. µ 1t Ó−11 Empleando la inversa de la matriz de covarianzas del teorema anterior, para calcular el estimador de la media 1 t Ó−1 1 = = = = = = 1 ( n − 1) c − ( n − 2)cσ − σ 2 2 4 [ ] 1t cJ − c( n − 1)I − σ 2 I 1 [ ] 1 c1t J1 − c ( n − 1)1t 1 − σ 2 1t 1 2 4 ( n − 1) c − ( n − 2)cσ − σ 2 1 ( n − 1) c − ( n − 2)cσ − σ 2 2 ( n c − σ2 4 [cn 2 ] − c( n − 1) n − σ 2 n ) ( n − 1) c − ( n − 2)cσ 2 − σ 4 2 ( )( ) n c − σ2 c − σ 2 c( n − 1) + σ 2 ( ) n c ( n − 1) + σ 2 Similarmente, para el numerador 69 Apéndice A 1 t Ó−1 x = = = = 1 ( n − 1)c − ( n − 2) cσ − σ 2 2 [ ] 4 1t cJ − c (n − 1)I − σ 2 I x 4 [c1 Jx − c (n − 1)1 x − σ 1 x ] 1 t ( n − 1)c − ( n − 2) cσ − σ 2 2 t 2 t n n  n  2 cn x − c ( n − 1 ) x − σ xi  ∑ ∑ ∑ i i 2 2 4  ( n − 1)c − ( n − 2) cσ − σ  i =1 i=1 i =1  1 1 [cnx − σ nx ] 2 ( n − 1)c − ( n − 2) cσ − σ 2 2 ( 4 )   n c − σ2 = x 2 2 4   (n − 1)c − ( n − 2)cσ − σ    n = x 2   c( n − 1) + σ  Finalmente, resulta t −1 ˆ = 1 Ó 1( x ) = µ 1 t Ó−1 (1) (a.7) =x A.2.2. DERIVADA CON RESPECTO A LA VARIANZA Para la varianza se deriva la expresión (a.6) con respecto a σ 2 [ ] ( ) ∂ 1 1 ∂ 2 t ∂ −1  l ( x | µ , σ , c ) = − ( x − µ 1 ) Ó ( x − µ 1 ) − ln (det( Ó) ) (a.8) ~ ~ 2 ~  ∂σ 2  2 2 ∂σ 2 ∂σ 2 X |µ , σ , c Derivando la matriz inversa de covarianzas ∂ ∂σ 2 (Ó ) = −1 ∂  1 2  c J − c ( n − 1 ) I − σ I  ∂σ 2  ( n − 1) c 2 − (n − 2)cσ 2 − σ 4  [(n − 1)c = [ 2 ] [ ] ][ − ( n − 2)cσ 2 − σ 4 ( −I ) + cJ − c( n − 1) I − σ 2 I ( n − 2) c + 2σ 2 [(n − 1)c 2 − ( n − 2)cσ 2 − σ ] ] 4 2 Simplificando el numerador de la última expresión 70 Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 71 [( n − 1)c − (n − 2) cσ − σ ]( −I ) + [cJ − c (n − 1)I − σ I][( n − 2)c + 2σ ] = [( n − 1)c − (n − 2) cσ − σ ]( −I ) + cJ[(n − 2)c + 2σ ] − [c(n − 1) + σ ][( n − 2)c + 2σ ]I = J c[( n − 2 )c + 2σ ] − I{( n − 1) c − (n − 2) cσ − σ + [c( n − 1) + σ ][(n − 2) c + 2σ ]} = J c[( n − 2 )c + 2σ ] − I{( n − 1) c − (n − 2) cσ − σ + c (n − 1)( n − 2) + σ c[2 n − 2 + n − 2 ] + 2σ } = J c[( n − 2 )c + 2σ ] − I{( n − 1) c + 2( n − 1)cσ + σ }= = J c[(n − 2 )c + 2σ ] − I[( n − 1)c + σ ] 2 2 4 2 2 4 2 2 2 2 2 4 2 2 2 4 2 2 2 2 2 2 2 2 2 2 2 4 4 2 2 2 Sustituyendo la expresión para el numerador, se tiene: ( ) [ ] [ ∂ Jc ( n − 2) c + 2σ 2 − I (n − 1)c + σ 2 −1 Ó = 2 ∂σ 2 ( n − 1)c 2 − ( n − 2)cσ 2 − σ 4 [ ] ] 2 (a.9) Sustituyendo la expresión (a.9) en el primer término de la expresión (a.8) y reduciendo t [ ] [ 2  1 − I ( n − 1)c + σ 2  t  J c (n − 2)c + 2σ ( x − µ 1 ) = − ( x − µ 1 )   2 2   (n − 1) c 2 − ( n − 2 )cσ 2 − σ 4 ( )  ∂ − (x − µ1)  2 Ó−1 2  ∂σ 1 [ ] ] 2  (x − µ1) (a.10)  En la expresión (a.10) se tomarán los productos entre matrices y vectores ( x − µ1) t J (x − µ 1) = x t Jx − µ (1) t Jx − µx t J1 + µ 2 (1 ) t J1 2 n n  n  =  ∑ xi  − µn ∑ xi − µn ∑ xi + µ 2 n 2  i =1  i =1 i =1  n  =  ∑ xi − n µ   i =1  2 = n 2 (x − µ ) 2 De la expresión (a.10) =0 Similarmente con la matriz identidad. 71 Apéndice A ( x − µ1) t I (x − µ 1) = x t Ix − µ (1 ) t Ix − µ (x ) t I1 + µ 2 (1) t I1 n n i=1 i =1 = ∑ xi2 − 2 µ ∑ xi + µ 2 n 1 n  = n  ∑ x i2 − 2 µx + µ 2   n i=1  1 n  = n  ∑ x i2 − x 2 + x 2 − 2 µx + µ 2   n i=1  1 n  = n  ∑ x i2 − x 2 + ( x − µ ) 2   n i=1  1 n  = n  ∑ x i2 − x 2   n i=1  = nS n2 Sustituyendo los resultados de los productos entre matrices y vectores en la expresión (a.10), resulta −  ( )( x − µ1) = − 1 (x − µ 1)  Jc[(n − 2)c + 2σ ] − I[( n − 1)c + σ ] 2   [(n − 1)c − (n − 2 )cσ − σ ]  ∂ ( x − µ1 ) t  2 Ó−1 2  ∂σ 1 2 2 2 t 2 [ ] 2 [ 4 2  (x − µ1)  1  (x − µ 1) t J ( x − µ1 )c ( n − 2) c + 2σ 2 − (x − µ1) t I (x − µ 1) ( n − 1) c + σ 2 =−  2 2 (n − 1)c 2 − (n − 2 )cσ 2 − σ 4  [ [ ] nS n2 ( n − 1)c + σ 2 1  =  2  (n − 1)c 2 − (n − 2 )cσ 2 − σ 4  [ [ 2 ] nS n2 ( n − 1)c + σ 2 1  =  2  − (σ 2 − c) ( n − 1)c + σ 2  [ = 2 ( )] ] ] 2     2   ]  2   n S n2  2 2  2  (σ − c )  Esto es t  S n2 n  ( x − µ 1 ) =    2  (σ 2 − c) 2   ( )  ∂ − ( x − µ1)  2 Ó−1 2  ∂σ 1 (a.11) 72 Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 73 Por otro lado, de la expresión (a.6) se observa que falta la derivada del logaritmo del determinante de la matriz de covarianzas, para esto se utiliza la expresión del determinante calculado en el Teorema A.1. ∂ ∂σ 2 ln (det( Ó) ) = = = = = = ∂ ∂σ 2 [ ( ln (σ 2 − c) n−1 c(n − 1) + σ 2 ( )] ) ( n − 1)(σ 2 − c) n− 2 c( n − 1) + σ 2 + (σ 2 − c) n−1 (σ − c) 2 ( n−1 (c (n − 1) + σ ) 2 ) ( n − 1) c( n − 1) + σ 2 + (σ 2 − c) ( (σ − c ) c( n − 1) + σ 2 2 ) c( n 2 − 2 n + 1) + ( n − 1)σ 2 + σ 2 − c ( (σ 2 − c) c( n − 1) + σ 2 c (n 2 − 2 n ) + n σ 2 ( (σ 2 − c) c (n − 1) + σ 2 ( n c( n − 2) + σ 2 ( ) (σ − c) c (n − 1) + σ 2 2 ) ) ) Esto es 1 ∂ 2 ∂σ 2 ( )  n c (n − 2 ) + σ 2  2 2  2  (σ − c ) c( n − 1) + σ  ln (det( Ó)) = ( ) (a.12) Finalmente, sustituyendo (a.11) y (a.12) en (a.6) [ ( ] )  n  n  S n2 c( n − 2) + σ 2 l ( x | µ , σ , c ) = − ~ ~ ~ 2     2  (σ 2 − c ) 2  2  (σ 2 − c) c( n − 1) + σ 2  ∂σ 2 X |µ ,σ , c ∂ 2 ( ( ) ) =  n  S n2 c (n − 2) + σ 2 −  2  2  (σ − c ) 2 (σ 2 − c ) c (n − 1) + σ 2  = n  S n2 c( n − 1) + σ 2 − (σ 2 − c ) c (n − 2) + σ 2    2 (σ 2 − c) 2 c ( n − 1) + σ 2  ( ) ( ( ( ) ) ) Al igualar a cero la derivada, resulta la ecuación ( ) ( S n2 c (n − 1) + σ 2 − (σ 2 − c) c (n − 2) + σ 2 ( (σ − c ) c( n − 1) + σ 2 2 2 ) )=0 (a.13) 73 Apéndice A A.2.3. DERIVADA CON RESPECTO A LA COVARIANZA Para la covarianza se deriva la expresión (a.6) con respecto a c. [ ] ( ) ∂ 1 ∂ 1 ∂ l X |µ~ ,σ~ 2 ,~c (x | µ, σ 2 , c ) = − ( x − µ1) t  Ó−1  (x − µ1) − ln (det( Ó) ) ∂c 2 2 ∂c  ∂c  (a.14) Derivando la matriz inversa de covarianzas ∂ −1 ∂  1 2  Ó =  c J − c ( n − 1 ) I − σ I ∂c ∂c  (n − 1)c 2 − ( n − 2)cσ 2 − σ 4  [ ( ) = [(n − 1)c ] ] [(n − 1)c [ ][ − (n − 2)cσ 2 − σ 4 ( J − (n − 1)I) − cJ − c(n − 1)I − σ 2 I 2(n − 1)c − (n − 2)σ 2 2 2 − (n − 2)cσ − σ 2 ] ] 4 2 Simplificando el numerador de la última expresión [( n − 1)c − (n − 2) cσ − σ ]( J − (n − 1)I) − [cJ − c( n − 1)I − σ I ][2(n − 1)c − (n − 2)σ ] = = J {( n − 1) c − (n − 2 )cσ − σ − c[2 (n − 1)c − (n − 2 )σ ]}+ + I{− [( n − 1) c − (n − 2 )cσ − σ ]( n − 1) + [c(n − 1) + σ ][2 (n − 1)c − (n − 2 )σ ]}= = J {− ( n − 1)c − σ } + I{(n − 1) c + 2 c(n − 1)σ + σ }= = J {− ( n − 1)c − σ } + I [c( n − 1) + σ ] 2 2 2 4 2 2 2 4 2 2 2 4 2 4 2 4 2 2 2 2 2 4 2 2 Sustituyendo la expresión para el numerador, se tendrá: ( ) [ ] { 2 ∂ −1 I c (n − 1) + σ 2 − J ( n − 1)c 2 + σ 4 Ó = 2 ∂c ( n − 1) c 2 − ( n − 2)cσ 2 − σ 4 [ ] } (a.15) Sustituyendo la expresión (a.15) en el primer término de la expresión (a.14) [ ] { 2 2 − J (n − 1)c 2 + σ 4  (x − µ1) = − 1 (x − µ 1) t  I c (n − 1) + σ   2 2  (n − 1)c 2 − (n − 2)c σ 2 − σ 4 ( ) 1 ∂ − (x − µ1) t  Ó −1 2  ∂c [ ] }(x − µ1)  (a.16) En la expresión (a.16) se utilizan los productos entre matrices y vectores que se realizaron para la expresión (a.10), en donde resultó: t 2 ( x − µ1) t J (x − µ 1) = 0 y ( x − µ1) I (x − µ1) = nS n Se obtiene t [ ] 2 S n2 c( n − 1) + σ 2 n    (x − µ1) = − 2    ( c − σ 2 ) 2 c( n − 1) + σ 2 ( ) ∂ − ( x − µ1 )  Ó−1 2  ∂c 1 [   S n2 n (a.17) = −  2 2  2  2  (σ − c)   ] 74 Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 75 Por otro lado, de la expresión (a.14) se observa que falta la derivada del logaritmo del determinante de la matriz de covarianzas, para esto se utiliza la expresión del determinante calculado en el Teorema A.1. [ ∂ ∂ ln (det( Ó) ) = ln (σ 2 − c ) n −1 c( n − 1) + σ 2 ∂c ∂c = = = ( ( )] ) − ( n − 1)(σ 2 − c) n− 2 c (n − 1) + σ 2 + (σ 2 − c) n −1 ( n − 1) ( (σ 2 − c) n −1 c ( n − 1) + σ 2 [( ) − ( n − 1) c (n − 1) + σ 2 − (σ 2 − c) ( (σ 2 − c) c( n − 1) + σ 2 − cn (n − 1) ( (σ − c ) c ( n − 1) + σ 2 2 ) ] ) ) Esto es  1 ∂ n c ( n − 1) ln (det( Ó) ) = −  2 2  2 ∂c 2  (σ − c) c( n − 1) + σ  ( ) (a.18) Finalmente, sustituyendo (a.17) y (a.18) en (a.14) [ ]  n  ∂ n  S n2 c( n − 1) 2 l X |µ~ ,σ~ 2 , ~c (x | µ, σ , c) = −  2 +   = ∂c 2  (σ − c) 2  2  (σ 2 − c) c( n − 1) + σ 2  ( = )  n  − S n2 c (n − 1) +  2 = 2  (σ − c) 2 (σ 2 − c ) c (n − 1) + σ 2  ( ( ) ) n  − S n2 c ( n − 1) + σ 2 + (σ 2 − c )c ( n − 1)  =   2 (σ 2 − c) 2 c( n − 1) + σ 2  ( ) Al igualar a cero la derivada, resulta la ecuación ( ) − S n2 c ( n − 1) + σ 2 + (σ 2 − c )c (n − 1) ( (σ 2 − c) 2 c ( n − 1) + σ 2 ) =0 (a.19) Se forma el sistema de ecuaciones, para encontrar los estimadores de máxima verosimilitud. Así de las ecuaciones (a.7), (a.13) y (a.19) 75 Apéndice A   µ − x = 0 (a.7 )   2  S n c (n − 1) + σ 2 − (σ 2 − c ) c ( n − 2) + σ 2 = 0 (a.13)  (σ 2 − c ) 2 c( n − 1) + σ 2    − S n2 c( n − 1) + σ 2 + (σ 2 − c )c (n − 1) = 0 (a.19)  (σ 2 − c) 2 c ( n − 1) + σ 2  ( ) ( ( ( ( ) ) ) ) Sumando (a.13) + (a.19), se obtiene ( ) − (σ 2 − c ) c ( n − 2) + σ 2 + (σ 2 − c )c (n − 1) (σ 2 =0 ( ) − c) (c( n − 1) − c( n − 2) − σ ) =0 (σ − c) (c ( n − 1) + σ ) (σ − c ) c( n − 1) + σ 2 2 2 2 2 2 2 (σ 2 − c) 2 =0 (σ 2 − c) 2 c ( n − 1) + σ 2 ( ) 1 c ( n − 1) + σ 2 =0 Es decir, ¡no existen estimadores de máxima verosimilitud!, puesto que la última igualdad se cumple sólo cuando c o σ 2 crecen indefinidamente. Otra forma de demostrar que los estimadores de máxima verosimilitud no existen, se tiene al analizar la propiedad 1 del capítulo 3, página 44. En donde, se puede observar que las variables de la transformación Y = AX , Y1 y las restantes variables Yi 2 ≤ i ≤ n tienen diferentes varianzas y son independientes. Ahora, como se necesitan estimar 3 parámetros se puede dar un valor cualesquiera a uno de ellos y de esta forma se puede elegir una función de máxima verosimilitud cada vez más grande, sin acotación. 76 Apéndice B Simulación de valores críticos para muestras pequeñas B.1 PLOGRAMA EN S-PLUS A continuación se muestra el programa elaborado en S-PLUS, para calcular tanto la tabla de cuantiles, como los resultados de comparar los valores simulados, con los valores críticos calculados en la aproximación que se obtuvo de forma analítica. #SE PROGRAMA UNA SIMULACIÓN CON R REPETICIONES PARA CALCULAR LOS CUANTILES DE LA DISTRIBUCIÓN DESCONOCIDA numerador<-function(n,p,r) { (sqrt(n)*qnorm(1-p)+rnorm(r))/sqrt(n-1) } denominador<-function(n,r) { sqrt(rchisq(r,(n-1))/(n-1)) } Probabilidad<-function(n,p,r) { numerador(n,p,r)/denominador(n,r) } suma<-function(n,p,alfa,r) { s<-0 k<-1 ordenar<-sort(Probabilidad(n,p,r)) while(s <= alfa) { s<-s+abs(ordenar[k]/r) k<-k+1 } cuantil<-ordenar[k-1] cuantil } 77 Apéndice B teorico<-function(n,p,alfa) { alfa0<-qt(1-alfa,n-1) delta0<-(-qnorm(1-p)*sqrt(n)) -(alfa0*sqrt(delta0^2+n-1)+delta0*sqrt(alfa0^2+n-1))/(n-1) } final<-function(alfa, cp=c(0.6,0.7,0.75,0.8,0.9,0.95,0.99,0.995), cn=c(5:30,35,40,45,50),r=100000) { valoresp<- cp valoresn<-cn np<-length(valoresp) nn<-length(valoresn) resultados<-matrix(NA,nn,np) for(i in 1:np) for(j in 1:nn) { posi<-valoresp[i] posj<-valoresn[j] resultados[j,i]<-suma(posj,posi,alfa,r) } cat("\n"," Critical values for alfa=", alfa, "\n") presentacion<-matrix(NA,nn,np) for(i in 1:np) { presentacion[,i]<-resultados[,i] } row.names(presentacion)<- valoresn names(presentacion)<c("p=0.60","p=0.70","p=0.75","p=0.80","p=0.90","p=0.95","p=0.99" ,"p=0.995") print( presentacion) cat("\n" ) } tablas<-function(valoresf=c(0.01,0.02,0.025,0.05,0.10,0.20)) { for(i in 1:length(valoresf)) final(valoresf[i]) } comprobar<-function(ca=c(0.01,0.02,0.025,0.05,0.10,0.20), cn=c(5,10,15,20,25,30,40,50),cp=c(0.6,0.7,0.75,0.8,0.9,0.95,0.99 ,0.995), alfa,m=5,r=100000) { 78 Simulación de valores críticos para muestras pequeñas. 79 for(s in 1:length(ca)) { alfai<-ca[s] tn<-length(cn) tp<-length(cp) cat("\n"," Comparacion de resultados por simulacion y aproximado, respectivamente, para alfa=", alfai, "\n") comparacion<- matrix(NA,tn,tp) comparacion1<- matrix(NA,tn,tp) for(i in 1:tn) for(j in 1:(tp/2)) { aux<-2*j-1 jj<-aux+1 vni<-cn[i] vpj<-cp[j] comparacion[i,aux]<-suma(vni,vpj,alfai,r) comparacion[i,jj]<-teorico(vni,vpj,alfai) jc<-j+4 vpj<-cp[jc] comparacion1[i,aux]<-suma(vni,vpj,alfai,r) comparacion1[i,jj]<-teorico(vni,vpj,alfai) } row.names(comparacion)<- cn names(comparacion)<c("p=0.60","p=0.60","p=0.70","p=0.70","p=0.75","p=0.75","p=0.80" ,"0.80") print( comparacion) cat("\n") row.names(comparacion1)<- cn names(comparacion1)<c("p=0.90","p=0.90","p=0.95","p=0.95","p=0.99","p=0.99","p=0.995 ","0.995") print( comparacion1) } } B.2 TABLAS DE CUANTILES 79 Apéndice B n n 80 Simulación de valores críticos para muestras pequeñas. 81 n n 81 Apéndice B n n 82 Simulación de valores críticos para muestras pequeñas. 83 B.3 COMPARACIONES En las siguientes tablas se muestran algunas comparaciones entre los valores simulados y los valores calculados con la aproximación del valor crítico. n n n 83 Apéndice B n n n De las comparaciones anteriores, se puede apreciar que cuando el valor de p, es más grande ( 0.5 < p < 1 ) y el nivel de significancia disminuye los valores simulado y aproximado se asemejan más a partir de muestras de tamaño 30, en los demás casos se requieren muestras mayores. 84 Bibliografía [1] Billingsley, Patrick, Probability and Measure, JOHN WILEY & SONS, New York, 1979. [2] Box, George E. P; Jenkins, Gwilym M. and Reinsel, Gregory C., Time Series Analysis. Forecasting and Control, PRENTICE HALL INTERNATIONAL, INC., USA, 1994. [3] Brocwell, Peter J. and Richard A. Davis, Introduction to Time Series and Forecasting, SPRINGER-VERLANG, New-York, Inc. 1996. [4] Casella, G. & Berger, R.L., Statistical Inference, DUXBURY PRESS, Belmont, California, 1990. [5] Chatfield, Chris, The analysis of Time series an introduction (fifth edition), CHAPMAN & HALL/CRC, UK. 1999. [6] Chung, Kai Lai, A course in Probability Theory, Harcourt, Brace & World, Inc. 1968. [7] Feller, William, An Introduction to Probability Theory and its Applications V.2, Second edition, JOHN WILEY & SONS, New York, 1971. [8] Halperin, Max Approximations to the Non-Central t, With Applications, TECHNOMETRICS, Vol. 5, No. 3, pp 295-305, August 1963. [9] Herstein, I. N. & Winter, D. J., A primer on Linear Algebra, MACMILLAN PUBLISHING COMPANY, United States of America, 1988. [10] Kraemer, H. Ch., & Paik. A Central t Approximation to the Noncentral tDistribution, TECHNOMETRICS, Vol. 21, No. 3, pp 357-360, August 1979. [11] Maltsev, A. I. Fundamentos de Álgebra Lineal, Editorial Mir, Moscú, 1972. 85 Bibliografía [12] Mood, A.M., Graybill, F. A. & Boes, D. C., Introduction to the theory of statistics, Third Edition, McGraw Hill, Singapore, 1974. [13] Owen, D. B. A Survey of Properties and Applications of the Noncentral tDistribution, TECHNOMETRICS, Vol. 10, No. 3, pp 445-473, August 1968. [14] Pankrants, Alan, Forecasting with univariate Box-Jenkins Models. Concepts and Cases, JOHN WILEY & SONS Inc, New York, 1983. [15] Parzen, Emanuel, Procesos estocásticos, PARANINFO, Madrid-España, 1972. [16] Rohatgi, Vijay K., Statistical Inference, JOHN WILEY & SONS Inc, New York, 1984. [17] Ross, Sheldon M., Stochastic Processses, Second Edition, JOHN WILEY, New York, 1996. [18] Searle, S. R., Matrix Algebra Useful for Statistics, JOHN WILEY, New York, 1982. [19] Wilks, Samuel S., Mathematical Statistics, JOHN WILEY & SONS Inc, New York, 1962. 86

pruebas de hipótesis con variables dependientes e idénticamente

Documentos relacionados

Productos

Apoyo

pruebas de hipótesis con variables dependientes e idénticamente

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib