pruebas de hipótesis con variables dependientes e idénticamente

Anuncio
COLEGIO DE POSTGRADUADOS
INSTITUCIÓN DE ENSEÑANZA E INVESTIGACIÓN
EN CIENCIAS AGRÍCOLAS
INSTITUTO DE SOCIOECONOMÍA, ESTADÍSTICA E INFORMÁTICA
PROGRAMA EN ESTADÍSTICA
PRUEBAS DE HIPÓTESIS CON
VARIABLES DEPENDIENTES E
IDÉNTICAMENTE DISTRIBUIDAS
EDUARDO GUTIÉRREZ GONZÁLEZ
T E S I S
PRESENTADA COMO REQUISITO PARCIAL PARA
OBTENER EL GRADO DE:
M A E S T R O EN C I E N C I A S
MONTECILLO, TEXCOCO, EDO. DE MÉXICO
2004
La presente tesis titulada: PRUEBAS DE HIPÓTESIS CON VARIABLES DEPENDIENTES
E IDÉNTICAMENTE DISTRIBUIDAS, realizada por el alumno: Eduardo Gutiérrez
González, bajo la dirección del consejo particular indicado, ha sido aprobada por el mismo y
aceptada como requisito parcial para obtener el grado de
MAESTRO EN CIENCIAS
PROGRAMA EN ESTADÍSTICA
CONSEJO PARTICULAR
CONSEJERO
Dr. José A. Villaseñor Alva
ASESOR
Dr. Humberto Vaquera Huerta
ASESOR
Dr. Filemón Ramírez Pérez
ASESOR
Dr. Barry C. Arnold
MONTECILLO, TEXCOCO, EDO. DE MÉXICO; JULIO DEL 2004
III
Agradecimientos
Al consejo nacional de ciencia y Tecnología por el apoyo económico brindado para la realización
de mis estudios de Maestría en Ciencias.
Al Colegio de Postgraduados por la oportunidad que me brindó.
Al Consejo particular integrado por Dr. José A. Villaseñor Alva, Dr. Humberto Vaquera Huerta,
Dr. Filemón Ramírez Pérez, y el Dr. Barry C. Arnold por el trabajo y el tiempo dedicado a esta
tesis.
IV
Resumen V
RESUMEN
En este trabajo se estudia el problema de probar la hipótesis
H 0 : p ≤ p0
H1 : p > p0
en donde, p 0 es una constante conocida y p es la probabilidad de que las variables
aleatorias tomen valores por encima de un valor q constante y definido de antemano, es
decir,
p = P[ X i > q] , para toda i.
cuando
se
tiene
variables
aleatorias
intercambiables
X 1 , X 2 ,K , X n ,
idénticamente
distribuidas normalmente con parámetros µ y σ 2 .
I.
En primera instancia se trata el problema para el caso cuando las variables son
independientes, en donde se sigue el esquema clásico basándose en los estimadores de
máxima verosimilitud para los parámetros media y varianza y el resultado de que X y
S X2 son independientes. Posteriormente, se determina que el estadístico de prueba
q − µˆ
T=
(en donde, µ̂ y σ̂ son los estimadores de máxima verosimilitud de µ y
σˆ
σ ), tiene una distribución t no central. Con base en una aproximación a la t central se
obtiene la expresión de la constante crítica para el tamaño de la prueba.
II.
Para el caso de variables aleatorias dependientes normales con covarianzas
homogéneas, se siguen las mismas ideas que en la situación de independencia. En
donde, primeramente se estudian las restricciones para la covarianza para poder utilizar
los resultados de la distribución multivariada, concluyendo que la covarianza debe ser
positiva. Posteriormente se obtiene una transformación de las variables, con la cual se
puede demostrar que X y S X2 siguen siendo independientes. Por otro lado, se
encuentra la distribución de la media y varianza muestrales y se usa el mismo
q − µˆ
estadístico de prueba que en el caso de variables independientes, T =
(en donde,
σˆ
µ̂ y σ̂ son los estimadores de momentos de µ y σ ). Se encuentra que la distribución
de T es también una distribución t no central, pero con otro parámetro de no centralidad
diferente al caso de independencia. Con base en una aproximación a la t central se
obtiene la expresión de la constante crítica para un tamaño de la prueba dado, la cual
resulta ser igual al caso de variables independientes.
III.
Finalmente se presenta una extensión de la prueba t para observaciones
intercambiables.
V
Resumen VI
ABSTRACT
This work studies the problem of proving the hypothesis
H 0 : p ≤ p0
H1 : p > p0
where p 0 is a known constant and p is the probability that the variables have values above
q constant and defined beforehand
p = P[ X i > q] , for all i.
When there are exchangeable random variables X 1 , X 2 ,K , X n , identically distributed
normally with parameters µ and σ 2 .
I.
Firstly the problem is when the variables are independent following the classic scheme
based on the estimates of maximum likelihood for the mean and variance parameters
and the result of X and S X2 are independent. Later it is determined that the test
q − µˆ
statistic T =
(where µ̂ and σ̂ are the estimates of maximum likelihood of µ
σˆ
and σ ) has a non central t distribution. Based on an approximation of the central t, the
expression of the constant critical for the size of the test is obtained.
II. In the case of normal dependent variables with homogenous covariants the same ideas
are followed as in the independent situation. Where first the restrictions for the
covariants are studied to utilize the results of the multivariable distribution, concluding
that the covariance must be positive. Then a transformation of the variables is obtained
with which it can be demonstrated that X and S X2 remain independent. On the other
hand we find the distribution of the mean and sample variants and use the same test
q − µˆ
statistic as in the case of the variable independents , T =
(where µ̂ and σ̂ are
σˆ
the moment estimators of µ and σ ). It is found that the distribution of T is also a non
central t distribution, but with another parameter not centralized different to the
independent case. Based on an approximation of central t the expression of the constant
critical for the size of the given test is obtained and results equal to the case of the
variable independents.
III. Finally an extension of the test t for exchangeable observation is presented.
VI
Contenido
Contenido
VII
Introducción
1
Predicción con variables aleatorias dependientes.
1
Objetivos.
2
Antecedentes de variables aleatorias dependientes.
3
Capítulo 1
5
Marco Teórico.
PARTE I. PROPIEDADES DE LA NORMAL MULTIVARIADA
1.1 DISTRIBUCIÓN NORMAL MULTIVARIADA
5
5
5
1.2 PROPIEDADES DEL VALOR ESPERADO Y VARIANZA DE LA NORMAL
MULTIVARIDA
PARTE II. MÉTODO DE MÁXIMA VEROSIMILITUD
1.3 FUNCIONES Y ESTIMADORES DE MÁXIMA VEROSIMILITUD
Función de verosimilitud.
Estimadores de máxima verosimilitud.
PARTE III. PRUEBAS DE HIPÓTESIS
7
8
8
8
9
9
1.4 REGIONES CRÍTICAS
9
1.5 TIPOS DE ERRORES Y FUNCIÓN DE PRUEBA
10
Prueba de tamaño alfa.
11
Función de prueba.
11
1.6 FUNCIÓN DE POTENCIA DE LA PRUEBA
PARTE IV. MATRICES
1.7 VALORES Y VECTORES CARACTERÍSTICOS
11
13
13
Teorema 1.1 Condiciones para el valor propio.
13
Teorema 1.2 Sistema de valores propios.
14
VII
Pruebas de hipótesis para variables dependientes idénticamente distribuidas y normales VIII
Teorema 1.3 Multiplicidad de valores propios.
14
Teorema 1.4 Cantidad de vectores propios.
14
1.8 DIAGONALIZACIÓN
Matrices similares.
Teorema 1.5 matrices similares y vectores propios.
Matriz diagonalizable.
Teorema 1.6 Matriz diagonalizable y vectores propios.
1.9 MATRICES SIMÉTRICAS Y DIAGONALIZACIÓN ORTOGONAL
Matriz diagonalizable ortogonalmente.
14
14
14
15
15
15
15
Teorema 1.7 Matriz simétrica real y vectores propios.
15
Teorema 1.8 Matriz simétrica real y vectores propios ortonormales.
15
Teorema 1.9 Matriz simétrica real y diagonalización.
15
Capítulo 2
16
Prueba de hipótesis para variables aleatorias independientes e idénticamente
distribuidas.
2.1 PLANTEAMIENTO DEL PROBLEMA .
2.1.1 Estadística de Prueba.
2.2 ESTIMADORES DE MÁXIMA VEROSIMILITUD PARA µ Y σ 2
16
17
17
2.2.1 Derivada con respecto al parámetro media.
17
2.2.2 Derivada con respecto al parámetro varianza.
18
2.3 DISTRIBUCIÓN DE LA MEDIA Y LA VARIANZA
18
2.3.1 Distribución de la media muestral.
18
2.3.2 Distribución de la varianza.
19
2.4 DISTRIBUCIÓN DE LA ESTADÍSTICA DE PRUEBA.
Teorema 2.1 Distribución de la estadística de prueba (t-nocentral).
2.5 APROXIMACIÓN DE LA T NO-CENTRAL CON LA T CENTRAL.
Proposición 2.1 Monotonía de la función G(δ ).
19
20
21
22
2.6 VALORES CRÍTICOS PARA MUESTRAS GRANDES.
24
2.7 VALORES CRÍTICOS PARA MUESTRAS PEQUEÑAS.
29
VIII
Contenido IX
Capítulo 3
30
Prueba de hipótesis para variables aleatorias dependientes e idénticamente
distribuidas.
3.1 PLANTEAMIENTO DEL PROBLEMA .
3.1.1 Estadística de Prueba.
3.2 ACOTACIONES DEL PROBLEMA
30
30
31
Teorema 3.1 Determinante de la matriz de covarianzas.
32
3.2.1 Restricción del problema en la covarianza.
33
3.3 REPRESENTACIÓN DE LA MATRIZ DE COVARIANZAS
34
3.3.1 Valores propios de la matriz J.
34
3.3.2 Vectores propios de la matriz J.
35
3.4 SISTEMA DE VECTORES ORTOGONALES EQUIVALENTE A LOS VECTORES
PROPIOS DE LA MATRIZ J.
37
3.4.1 Ortonormalización del sistema de vectores equivalente a los vectores propios de
la matriz J.
38
3.5 MATRIZ DE TRANSFORMACIÓN.
41
3.5.1 Distribución de las variables transformadas.
41
Teorema 3.2 Distribución de la matriz transformada.
42
3.6 PROPIEDADES DE LAS VARIABLES TRANSFORMADAS
44
3.7 DISTRIBUCIÓN DE LA MEDIA Y LA VARIANZA
45
3.7.1 Distribución de la media muestral.
45
3.7.2 Distribución de la varianza muestral.
46
3.8 DISTRIBUCIÓN DE LA ESTADÍSTICA DE PRUEBA.
46
Teorema 3.3 Distribución de la estadística de prueba (t-nocentral).
46
3.8.1 Estudio del coeficiente de la estadística de prueba.
49
Proposición 3.1 Monotonía de la función h (ρ) .
49
3.9 APROXIMACIÓN DE LA T NO-CENTRAL CON LA T CENTRAL.
Proposición 3.2 Monotonía de la función G(δ ).
50
51
IX
Pruebas de hipótesis para variables dependientes idénticamente distribuidas y normales X
3.10 VALORES CRÍTICOS PARA MUESTRAS GRANDES.
51
3.11 VALORES CRÍTICOS PARA MUESTRAS PEQUEÑAS.
54
Capítulo 4
56
Aplicaciones.
4.1 VARIABLES ALEATORIAS INTERCAMBIABLES O SIMÉTRICAMENTE
DEPENDIENTES
56
Teorema Variables intercambiables binomiales
57
4.2 MATRIZ DE COVARIANZAS PARA DATOS INTERCAMBIABLES
Teorema 4.1 Covarianza de variables intercambiables
4.3 APLIACIONES A DATOS INTERCAMBIABLES
57
57
59
4.4 EXTENSIÓN DE LA PRUEBA T PARA OBSERVACIONES DEPENDIENTES 59
4.4.1 Caso de independencia.
60
4.4.1 Caso de dependencia.
60
Capítulo 5
64
Conclusiones.
Discusión
65
Apéndice A
66
Método de máxima verosimilitud para probar la hipótesis de variables aleatorias
dependientes e idénticamente distribuidas.
A.1 PLANTEAMIENTO DEL PROBLEMA .
66
A.2 ESTIMADORES DE MÁXIMA VEROSIMILITUD PARA µ, σ 2 Y C
67
A.2.1 Derivada con respecto al parámetro media.
69
A.2.2 Derivada con respecto al parámetro varianza.
70
A.2.3 Derivada con respecto al parámetro de covarianza.
74
Apéndice B
77
Simulación de valores críticos para muestras pequeñas.
77
B.1 PROGRAMA EN S-PLUS.
77
B.2 TABLAS DE CUANTILES
80
X
Contenido XI
B.3 COMPARACIONES
Bibliografía
83
85
XI
Introducción
PREDICCIÓN CON VARIABLES ALEATORIAS DEPENDIENTES
Uno de los objetivos de la Estadística consiste en realizar predicciones de los diferentes
fenómenos aleatorios con base en observaciones del fenómeno con fines de hacer una
mejor planeación. Por ejemplo, para planear la compra de acciones de una cierta empresa
se puede hacer mediante la predicción de su precio en las próximas semanas, meses o años.
El problema de la predicción tiene siglos estudiándose. Desde sus orígenes hasta la
aparición de aparatos que facilitaron su estudio, las predicciones se llevaban a cabo
mediante supuestos que transformaban el problema en otro mucho más sencillo de resolver.
Por ejemplo, se suponía normalidad e independencia en las variables.
Actualmente con los avances tecnológicos los diferentes fenómenos aleatorios se han
ido estudiando con base en su naturaleza, es decir, analizando sus distribuciones sin
suponer cierto comportamiento, pero debido a la complejidad de su análisis en el caso de
variables dependientes en muchas situaciones se sigue suponiendo la independencia.
Los problemas sobre variables aleatorias dependientes son poco tratados en la
literatura clásica de Estadística (ver [3], [12], [16], [19]). Algunos autores de libros como
W. Feller, tienen sólo algunas secciones que le dedican a las variables aleatorias
dependientes (ver [7]). En general, los textos clásicos en donde se habla sobre variables
aleatorias dependientes, se refieren a los procesos estocásticos (ver [15], [17]) y series de
tiempo (ver [2], [3] y [5]), en donde se tratan diferentes tipos de dependencias.
Por ejemplo, en las finanzas, en donde las variables aleatorias X t pueden representar
el valor diario del índice de la bolsa de valores o los precios diarios de una acción y lo
único que se conoce de ellas es que provienen de la misma distribución y que son
dependientes con ciertas covarianzas.
En ese tipo de problemas resulta de interés poder contar con una prueba para el
contraste de hipótesis:
1
Introducción
H 0 : p ≤ p0
H1 : p > p0
en donde, p es la probabilidad de que al tiempo t la variables aleatoria X (t ) tome valores
por encima de un valor q constante y definido de antemano, esto es:
p = P[ X (t ) > q ] .
Aquí el valor constante q puede representar el valor del índice de la bolsa de valores a
partir del cual el inversionista considera óptima su participación y por consiguiente quiere
realizar el contraste de hipótesis, para conocer la significancia del riesgo de su inversión.
Por desgracia este tipo de pruebas resultan demasiado complicadas para el caso de
dependencia. Pero si se hacen algunas consideraciones sobre las covarianzas, de tal forma
que se tenga un proceso débilmente estacionario, se puede llegar a un resultado interesante
para el contraste de hipótesis antes mencionado.
OBJETIVOS
1.
Proponer una prueba estadística para el caso cuando las variables aleatorias
X 1 , X 2 ,K , X n son iid con distribución normal y parámetros µ y σ 2 , para el
contraste de hipótesis:
H 0 : p ≤ p0
H1 : p > p0
en donde, p es la probabilidad de que las variables aleatorias del proceso X i tomen
valores por encima de un valor dado q constante y definido de antemano, esto es:
P[ X i > q ] ≤ p 0 , para toda i.
2.
Proponer una prueba estadística para el contraste de hipótesis anterior cuando las
variables
aleatorias
X 1 , X 2 ,K , X n
tienen la misma distribución normal con
parámetros µ y σ 2 , y covarianzas homogéneas, c.
3.
Desarrollar aplicaciones de las pruebas propuestas.
2
Introducción. 3
ANTECEDENTES DE VARIABLES ALEATORIAS DEPENDIENTES
Como se sabe algunos de los primeros estudios sobre fenómenos aleatorios con variables
dependientes se tienen en los procesos estocásticos. En donde, uno de sus principales
estudiosos fue el botánico R. Brown quien en 1827 descubrió el movimiento que lleva su
nombre, movimiento browniano. En física, la teoría de difusión y la teoría cinética de la
materia estudian los movimientos agregados de colisiones de moléculas o partículas en las
que hay un movimiento continuo producto de las colisiones entre partículas. En 1923 N.
Wiener establece un fundamento matemático del proceso del movimiento Browniano. En
la parte financiera se tiene a Luis Bachelier, quien en 1900 realizó la primera aplicación
importante del movimiento browniano, en su tesis doctoral (dirigida por H. Poincare).
Bachelier, quien es considerado el fundador de los métodos cuantitativos en Finanzas, hizo
una descripción de las fluctuaciones de precios del mercado financiero francés. Su trabajo
lo titulo “Teoría de la especulación”.
Actualmente los procesos estocásticos se usan en una gran gama de aplicaciones, en
las diferentes esferas de las ciencias, como son:
• Administración. Debido a que los procesos estocásticos proporcionan un método
para estudiar y manejar las operaciones económicas.
Se tiene que éstos
desempeñan un papel importante en las disciplinas modernas de la ciencia de la
administración y la investigación operativa. Los dos campos en los que los
procesos estocásticos han encontrado la mayor aplicación en la administración son
en control de inventarios y el análisis de las líneas de espera. Además, en los
diferentes negocios se ha incrementado el uso de los procesos estocásticos para
mejorar la administración de publicidad, etc.
• Finanzas. Por ejemplo, en la fluctuación de precios de mercado, bolsa de valores,
cotización del dólar, etc.
• Economía. Compañías de seguros.
• En diferentes fenómenos sociales, biológicos, físicos, etc.
Otra rama de la Estadística que estudia variables aleatorias dependientes es la de
series de tiempo (ver [2], [3], [5] y [14]). En esta parte se tiene que prácticamente con el
libro de Box-Jenkins (1970) se inició una nueva era en las aplicaciones de los modelos de
series de tiempo. Puesto que antes de 1970 la metodología de ajuste de modelos de Series
de Tiempo era demasiado complicada y poca gente la dominaba. Box y Jenkins
3
Introducción
simplificaron considerablemente la metodología de series de tiempo, por lo que ahora
muchas más personas usan apropiadamente esta metodología.
En el enfoque de Box-Jenkins se emplean modelos estadísticos para estimación de
parámetros, las predicciones tienen propiedades óptimas y se obtienen intervalos de
confianza para las predicciones.
Otro tema de la Estadística que estudia variables aleatorias dependientes se refiere a
las variables intercambiables, las cuales inicialmente fueron estudiadas por B. de Finetti
en 1970 (ver [7], Capítulo 7, parágrafo 4). Actualmente dicho tipo de variables se usa en la
medicina en datos apareados. Por otro lado, también aparecen en los datos que son
reunidos en bloques completamente aleatorizados con k tratamientos.
Uno de los
estadísticos que ha dedicado parte de su tiempo a este tipo de problemas es el Dr. Ronald
Randles de la Universidad de Florida.
4
Capítulo 1
Marco teórico
En el presente capítulo se revisarán los conceptos principales que servirán para el desarrollo
del trabajo en los Capítulos 2, 3 y el Apéndice A.
En la primera parte se discutirán las propiedades principales de variables aleatorias
con distribución normal, su valor esperado y varianza.
En una segunda parte se discute el método de máxima verosimilitud para estimadores
puntuales.
En la tercera parte se revisan algunos resultados de la Inferencia Estadística para
pruebas de hipótesis.
Finalmente en una cuarta parte se revisan algunos resultados del Álgebra de matrices
simétricas.
PARTE I. PROPIEDADES DE LA NORMAL MULTIVARIADA
1.1 DISTRIBUCIÓN NORMAL MULTIVARIADA
El papel fundamental que desempeña la distribución normal multivariada en la teoría de los
fenómenos aleatorios (consultar [15]) se debe a lo siguiente:
•
La mayor parte de los fenómenos aleatorios importantes se pueden aproximar
mediante variables aleatorias normales multivariadas.
•
La mayor parte de las preguntas que se presentan se pueden responder para
variables normales multivariadas con más facilidad que para otras variables.
Se dice que las n variables aleatorias X 1 , X 2 ,K , X n están distribuidas normalmente
conjuntamente si su función característica conjunta es dada, para todos los números reales,
por:
5
Capítulo 1
 n
1
ϕX1 ,K, X n ( u1 ,K , u n ) = exp i ∑ u j m j −
2
 j =1

u
K
u
∑ j jk k  ,
j , k =1

n
donde, j , k = 1, 2,K , n y además
m j = E{X j } , K jk = cov{X j , X k }.
Si la matriz de covarianzas está dada por:
 K11
K
Ó =  21
 M
K
 n1
K12
K 22
M
K n2
L K1n 
L K 2 n 
,
O
M 
L K nn 
y es tal que posee una matriz inversa:
 K11
K
Ó−1 =  21
 M
K
 n1
K12
K 22
M
K n2
L K1n 
L K 2 n 
O
M 
L K nn 
−1
 K 11
 21
=K
 M
 K n1

K 12
K 22
M
K n2
L K 1n 

L K 2n  ,
O
M 
L K nn 
entonces se puede demostrar que X 1 , X 2 ,K , X n tiene una densidad de probabilidad
conjunta dada para todos los números reales x1 , x 2 ,K , xn mediante
f X ( x) =
Así, sea
1
( 2π) n
X 1 , X 2 , K, X n
2
 1
exp −
 2
det( Ó)
n

j , k =1

∑ (x j − m j )K jk ( xk − mk ) .
una muestra aleatoria, cuya función de densidad de
probabilidades conjunta es la siguiente:
f X ( x) =
1
( 2π)
n 2
 1

exp − ( x − ì ) t Ó−1 ( x − ì )  ,
det( Ó)
 2

en donde el vector de variables aleatorias X i tiene al vector x como una realización de la
muestra con vector de medias ì y matriz de covarianzas Ó.
6
Marco Teórico. 7
1.2 PROPIEDADES DEL VALOR ESPERADO Y VARIANZA DE LA NORMAL
MULTIVARIADA
Supóngase que
X = ( X 1 ,K , X n ) t son variables aleatorias distribuidas conjuntamente con distribución
normal y medias ì = ( µ1 ,K , µn ) t y varianzas ó 2 = (σ12 , K, σn2 ) t , respectivamente.
(i). c, k, a1 , K, a n y b1 ,K , bn representan constantes reales.
(ii). a = ( a1 ,K , a n ) t ,
b = (b1 , K, bn ) t ,
c = ( c1 , K , c n ) t
y
k = ( k1 , K, k n ) t
representan vectores reales.
(iii). A, B, C, K representan matrices no aleatorias.
Entonces se tienen las siguientes propiedades
{
}
1.
E c + a t X = c + a t E{X}
2.
E{c + AX} = c + AE{X}
3.
E{C + AXK } = C + AE{X}K
4.
cov{X , Y } = cov{Y , X }
5.
cov{X, Y} = cov{Y, X}t
6.
cov{X , Y } = E{[X − E ( X ) ][Y − E (Y )]} = E {XY } − E{X }E{Y }
7.
cov{X, Y} = E [X − E ( X) ][Y − E ( Y)]t = E XY t − E{X}[E{Y}]t
8.
cov c + a t X, k + b t Y = a t cov{X, Y}b
9.
{
} { }
{
}
var {c + a X} = cov{c + a X, c + a X} = a
t
t
t
t
var {X}a
10. cov{c + AX, k + BY} = A cov{X, Y}B t
11. var {c + AX} = A var {X}A t
{
}
12. var c + a t X = ∑∑ ai a j cov{X i , X j }
n
n
i =1 j =1
13. La matriz var {X} es no-negativa definida
14. Si X ~ N (ì , Ó) y se define la transformación lineal Y = c + AX , entonces
(
Y ~ N c + Aì , AÓ A t
)
7
Capítulo 1
15. Si X ~ N (ì , Ó) y sea X1 un subvector de X, entonces X1 ~ N ( ì 1 , Ó11 ) . En donde,
ì 1 es el correspondiente subvector de ì y Ó11 la correspondiente submatriz de Ó .
16. Sea X ~ N (ì , Ó) , entonces las variables X 1 , K, X n son independientes si y sólo si Ó es
una matriz diagonal cuyos elementos son las varianzas de las variables.
PARTE II. MÉTODO DE MÁXIMA VEROSIMILITUD
1.3 FUNCIONES Y ESTIMADORES DE MÁXIMA VEROSIMILITUD
El método de máxima verosimilitud (consultar [1], [4], [6], [12], [16]) considera un problema de
estimación muy simple. Se basa en la función de densidad conjunta de n variables aleatorias
X 1 , K, X n , dependientes de un vector de parámetros è = (θ1 ,K ,θm ) , sobre los cuales se
maximiza la función de densidad conjunta para el caso de una realización x1 , K, x n .
Definición 1.1 Función de verosimilitud (ver [12])
La función de verosimilitud de n variables aleatorias X 1 , K, X n está definida
como la densidad conjunta de las n variables, es decir, f X ( x; è ) , la cual es considerada
como una función de è . En particular, si X 1 , K, X n es una muestra aleatoria de
densidades f ( x; è ) , entonces la función de verosimilitud es
n
f X ( x; è ) = ∏ f ( x i ; è ) .
i =1
Note que la función de verosimilitud es una función de è y se suele utilizar la notación
L(è ; x1 , K, x n ) = f X ( x; è ) .
La función de verosimilitud L(è ; x1 , K, x n ) da la verosimilitud cuando las variables
aleatorias asuman un valor particular x1 , K, x n . La verosimilitud es el valor de una función de
densidad, y en el caso de las variables aleatorias discretas la verosimilitud es una probabilidad.
Si se denota por Θ al espacio de parámetros, se tiene que el problema de los estimadores de
máxima verosimilitud consiste en determinar el valor de è ∈ Θ , él cual se denotará por èˆ , y será
tal que maximiza la función de verosimilitud L(è ; x1 , K, x n ) . El valor de èˆ , que maximiza la
función de verosimilitud en general es una función de x1 , K, x n , es decir,
8
Marco Teórico. 9
èˆ = g ( x1 ,K , xn ) .
ˆ = g ( X , K, X ) es llamada el estimador de
Cuando esto sucede la variable aleatoria È
1
n
máxima verosimilitud del estimador è .
Definición 1.2 Estimador de máxima verosimilitud (ver [12])
Sea L(è ) = L(è ; x1 , K , x n ) la función de verosimilitud para las variables aleatorias
X 1 , K, X n . Si èˆ (donde èˆ = g ( x1 ,K , xn ) es una función de las observaciones
x1 , K, x n ) es el valor de è ∈ Θ con el cual se maximiza L(è ) , entonces la variable
ˆ = g ( X , K, X ) es el estimador de máxima verosimilitud de è .
aleatoria È
1
n
Mientras que èˆ = g ( x1 ,K , xn ) es el estimador de máxima verosimilitud de è para
la realización x1 , K, x n .
Nota
Para obtener el máximo de la función L(è ) = L(è ; x1 , K , x n ) , se aplican las diferentes
técnicas del cálculo como son: máximos y mínimos relativos, máximos y mínimos
absolutos y extremos de funciones monótonas, así como métodos numéricos.
PARTE III. PRUEBAS DE HIPÓTESIS
1.4 REGIONES CRÍTICAS
Sea X 1 , K, X n una muestra aleatoria con densidades f ( x; θ ) , en donde θ es el parámetro
de la distribución, por otro lado, se formula el contraste de hipótesis
H 0 : θ > θ0
H A : θ ≤ θ0
Introduciendo el conjunto Χ = {x | x una realización de
X} , y formando una partición del
conjunto X a la que se denota por {Χ A , Χ R } , en donde,
Χ A se le llama región de no rechazo.
Χ R se le llama región de rechazo o región critica.
9
Capítulo 1
Por otro lado, en general, si X es un vector de observaciones con densidad f ( x; θ )
en donde θ ∈ Ω las hipótesis serán del tipo siguiente:
H 0 :θ ∈ ω
H A :θ ∈ Ω −ω
donde ω ⊂ Ω y Ω ⊂ R k .
Así, en realidad el problema consiste en buscar una familia de densidades, de tal
manera que basados en X se quiere decidir si se rechaza o no H 0 . Para esto último se
tiene una regla de decisión dada por:
Rechazar H 0 si x ∈ Χ R .
No rechazar H 0 si x ∈ Χ A .
1.5 TIPOS DE ERRORES Y FUNCIÓN DE PRUEBA
Generalmente cuando se usa una prueba ( Χ R ), se está propenso a cometer dos tipos de
errores.
Error tipo I: Cuando se rechaza H 0 siendo que es verdadera.
Error tipo II: Cuando no se rechaza H 0 siendo que es falsa.
De tal forma que es razonable identificar la prueba que minimiza las probabilidades
de ambos errores respecto a todas las pruebas posibles. Sin embargo, generalmente cuando
se minimiza la probabilidad de uno de los errores el otro aumenta. Por lo tanto, dado un
valor α ∈ (0, 1) se considera todas las pruebas tales que
P{Error tipo I usando Χ R } ≤ α ,
y entre ellas se busca la prueba que tiene mínima probabilidad de error tipo II, a la que se le
llama la prueba más poderosa.
Definición 1.3
Una prueba Χ R que satisface
P{Error tipo I usando Χ R } ≤ α
se dice que es una prueba de tamaño α.
10
Marco Teórico. 11
De la definición se puede notar que una prueba queda completamente especificada si
se define a Χ R .
Definición 1.4
Se dice que una función Φ : Χ → {0, 1} es una función de prueba, cuando
0, indica no rechazar H 0
Φ ( x) = 
1, indica rechazar H 0
Obsérvese que a cada partición de X en Χ A y Χ R , le corresponde una función de
prueba
0, si x ∈ Χ A
Φ Χ R ( x) = 
1, si x ∈ Χ R
e inversamente a cada función de prueba Φ (x ) le corresponde una partición
Χ A (Φ ) = {x | Φ ( x) = 0}
Χ R (Φ ) = {x | Φ ( x) = 1}
.
1.6 FUNCIÓN DE POTENCIA DE UNA PRUEBA
Supóngase que se tiene el contraste de hipótesis H 0 : θ ∈ ω vs H A : θ ∈ Ω − ω y nótese
que una prueba Φ es de tamaño α, si
P{Φ (x) = 1 | θ ∈ ω} ≤ α .
Además, Φ ( x) = 1 ⇔ x ∈ Χ R , de tal forma que resulta la siguiente definición.
Definición 1.5
Se dice que una función βΦ : Ω → [0, 1] es la función de potencia de la
prueba Φ , cuando
βΦ (θ) = P{Φ( x) = 1 | θ} = P{rechazar H 0 usando Φ | θ} .
Definición 1.6
Se dice que una prueba Φ es de tamaño α ∈ (0, 1) si
max βΦ (θ) = α .
θ ∈ω
11
Capítulo 1
La prueba será de tamaño α, si la máxima probabilidad de cometer el error tipo I es
menor o igual que α.
Obsérvese que si θ ∈ Ω − ω , entonces
βΦ (θ ) = P{Φ (x ) = 1 | θ} = 1 − P{Φ (x ) = 0 | θ}
= 1 − P{Error tipo II usando Φ | θ}
Esto es, P{Error tipo II usando Φ | θ} es pequeña cuando βΦ (θ ) es próxima a uno
con θ ∈ Ω − ω . Por lo tanto, es deseable encontrar una prueba Φ * de tamaño α tal que su
función de potencia βΦ* (θ) es uniformemente máxima respecto a todas las pruebas de
tamaño α. Es decir, Φ * es tal que
1) max βΦ* (θ) ≤ α .
θ ∈ω
2) βΦ* (θ ) ≥ βΦ (θ) , con θ ∈ Ω − ω .
Para toda prueba Φ , que satisface (1). Si se cumple (2), entonces Φ * es la prueba
que tiene la mínima probabilidad de error tipo II.
Finalmente se discutirá brevemente algunos temas del Álgebra lineal para matrices
simétricas y sus valores y vectores propios. Estos temas se pueden consultar en las
siguientes referencias [9], [11] y [18].
12
Marco Teórico. 13
PARTE 4. MATRICES
1.7 VALORES Y VECTORES CARACTERÍSTICOS
Sea V un espacio vectorial y T una transformación lineal T : V → V , se tiene que en
muchos casos es útil hallar un vector v ∈ V , tal que Tv y v sean paralelos. Es decir, se
busca un vector v y un escalar λ , tales que
Tv = λv , con v ≠ 0 .
Se dice que λ es un valor característico de T mientras que a v se le llama el vector
característico de T correspondiente al valor característico λ .
Cuando V es de dimensión finita, entonces T se puede representar mediante una
matriz A, de tal forma que se analizan los valores y vectores propios de una matriz
cuadrada A.
Definición 1.7
Sea A una matriz de tamaño (orden) n × n con elementos reales. El número λ
(real o complejo) recibe el nombre de valor característico o propio de A si
existe algún vector diferente de cero v ∈ C n tal que
Av = λv , con v ≠ 0
En este caso se dice que el vector v ≠ 0 es un vector característico o propio
de A correspondiente al valor propio λ .
En este trabajo sólo se empleará el caso cuando ambos vector y valor propio son
reales.
Con respecto a los valores y vectores propios existen diferentes resultados, el primero
de ellos se refiere a la forma de calcularlos.
Teorema 1.1
Sea A una matriz real de n × n , entonces λ es un valor propio de A si y sólo si
P( λ) = det( A − λI ) = 0
En donde, la igualdad P( λ) = 0 recibe el nombre de la ecuación característica de A y
a P(λ) se le llama el polinomio característico de A.
Por el teorema fundamental del
álgebra P( λ) = 0 tiene n valores propios, incluyendo multiplicidades.
13
Capítulo 1
Teorema 1.2
Sea A una matriz real de orden n × n y λ1 , λ2 ,K , λm diferentes valores
propios de A con vectores propios correspondientes v1 , v 2 , K, v m , entonces
v1 , v 2 , K, v m son linealmente independientes. Además si λ1 , λ2 ,K , λm son
reales, entonces v1 , v 2 , K, v m forman una base del espacio euclidiano R m .
Cuando los valores propios son de multiplicidad, se tiene el siguiente resultado.
Teorema 1.3
Sea A una matriz real de orden n × n y λ uno de sus valores propios, entonces
la multiplicidad geométrica de λ es igual a la nulidad de A − λI .
Por otro lado, multiplicidad geométrica de λ ≤ multiplicidad algebraica de λ .
Del teorema anterior se concluye un resultado sobre la independencia de los vectores
propios.
Teorema 1.4
Sea A una matriz real de orden n × n , entonces A tiene n vectores propios
linealmente independientes si y sólo si la multiplicidad geométrica de cada
valor propio es igual a su multiplicidad algebraica.
1.8 DIAGONALIZACIÓN
Aquí se verá una relación interesante que puede existir entre dos matrices.
Definición 1.8
Se dice que las matrices A y B de orden n × n son similares, si existe una
matriz C del mismo orden, tal que
B = C−1 AC
Teorema 1.5
Si A y B son matrices similares de orden n × n , entonces A y B tienen la misma
ecuación característica, y por lo tanto tienen los mismos valores propios.
14
Marco Teórico. 15
Definición 1.9
Se dice que la matriz A de orden n × n es diagonalizable si y sólo si existe una
matriz diagonal D del mismo orden, tal que A sea similar a D.
Teorema 1.6
Una matriz A de orden n × n es diagonalizable, si y sólo si tiene n vectores
propios linealmente independientes. Además si λ1 , λ2 ,K , λn son los valores
propios de A y sus vectores propios correspondientes v1 , v 2 , K, v m , entonces
D(λ1 ,K , λn ) = C −1AC
en donde la matriz C, tiene como columnas a los vectores propios v1 ,K , v n .
1.9 MATRICES SIMÉTRICAS Y DIAGONALIZACIÓN ORTOGONAL
Cuando las matrices son simétricas los resultados anteriores se siguen cumpliendo con
ciertas propiedades adicionales.
Teorema 1.7
Sea A una matriz simétrica real de orden n × n , entonces los vectores propios
de A son reales.
Teorema 1.8
Sea A una matriz simétrica real de orden n × n , entonces A tiene n vectores
propios ortonormales y reales.
Definición 1.10
Se dice que una matriz A de orden n × n es diagonalizable ortogonalmente si
existe una matriz ortogonal Q tal que
Q t AQ = D
Teorema 1.9
Sea A una matriz real de orden n × n , entonces A es diagonalizable
ortogonalmente si y sólo si A es simétrica.
15
Capítulo 2
Prueba de hipótesis para variables aleatorias independientes
e idénticamente distribuidas
2.1 PLANTEAMIENTO DEL PROBLEMA
Sean
X 1 , X 2 ,K , X n
variables aleatorias independientes normalmente distribuidas con
parámetros µ y σ 2 . Se quiere encontrar una prueba para el contraste de hipótesis:
H 0 : p ≤ p0
H1 : p > p0
en donde, p 0 es una constante conocida y p es la probabilidad de que las variables
aleatorias tomen valores por encima de un valor q constante y definido de antemano, esto
es:
P[ X i > q ] , para toda i.
Por la normalidad de las variables aleatorias y estandarizando resulta:
q − µ
q − µ

p = 1 − Φ
,
 = P Z >
σ 
 σ 

donde Φ (x ) es la función de distribución normal estándar. De donde, H 0 es equivalente a
 q − µ
1 − p 0 ≤ Φ
.
 σ 
Así, las hipótesis anteriores son equivalentes a:
H0 :
q−µ
≥ Φ −1 (1 − p0 )
σ
q−µ
H1 :
< Φ −1 (1 − p0 )
σ
(2.1)
16
Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 17
2.1.1 ESTADÍSTICA DE PRUEBA
De la expresión (2.1) se propone una prueba basada en la estadística dada por:
T=
q − µˆ
,
σˆ
(2.2)
en donde, µ̂ y σ̂ son los estimadores de máxima verosimilitud de µ y σ .
Así, la prueba rechaza cuando T < k α , donde k α es tal que
P(T < kα | H 0 ) ≤ α
(2.3)
para una α ∈ (0,1) dada.
2.2 ESTIMADORES DE MÁXIMA VEROSIMILITUD PARA µ y σ 2
En base al estadístico de prueba se buscan los estimadores de máxima verosimilitud para la
media y la varianza.
X 1 , X 2 , K, X n
Sean
las variables aleatorias independientes
normalmente distribuidas con parámetros µ y σ 2 , de tal forma que su función de
verosimilitud está dada por:
 1

exp −
( xi − µ) 2  =
2
 2σ

i =1 σ 2π
n
1
L( µ, σ ) = f X |µ~ , σ~ 2 ( x | µ, σ ) = ∏
2
2
=
1
σ n ( 2π ) n
2
 1
exp −
2
 2σ

( xi − µ) 
∑
i =1

n
(2.4)
2
Extrayendo el logaritmo natural se tiene
{
}
l( x | µ,σ 2 ) = − ln (2π) n 2 −
n
1
ln( σ 2 ) −
2
2σ 2
n
( xi − µ) 2
∑
i =1
(2.5)
2.2.1 DERIVADA CON RESPECTO AL PARÁMETRO MEDIA
Derivando la expresión (2.5) con respecto a la media
[
]
∂
1
l X |µ~ ,σ~ 2 (x | µ, σ 2 ) = 2
∂µ
σ
n
n
( x i − µ) = 2 ( x − µ)
∑
σ
i= 1
Igualando a cero la expresión de la derivada y despejando la media,
17
Capítulo 2
n
σ2
( x − µ) = 0 ,
se obtiene el estimador de máxima verosimilitud para la media
µ̂ = x .
(2.6)
2.2.2 DERIVADA CON RESPECTO AL PARÁMETRO VARIANZA
Para la varianza se deriva la expresión (2.5) con respecto a σ 2
[
]
[
]
∂
n ∂
1 n
∂  1 
2
2
l
(
x
|
µ
,
σ
)
=
−
ln(
σ
)
−
( x i − µ) 2
∑
2
2
2 ∂σ
2 i=1
∂σ
∂σ 2  σ 2 
=−
n
2σ
+
2
1
( )
2σ
n
∑ (xi − µ)2
2 2 i =1
Al igualar a cero la derivada anterior resulta la ecuación
−
n
2σ 2
+
n
1
( x i − µ) 2 = 0 .
∑
2
2
i= 1
( )
2σ
Multiplicando la ecuación anterior por 2σ 4 se obtiene la ecuación
n
− nσ 2 + ∑ ( xi − µ) 2 = 0 .
i =1
Despejando la varianza de la expresión anterior y sustituyendo el estimador de
máxima verosimilitud para la media se obtiene el estimador de máxima verosimilitud para
la varianza
σˆ 2 =
1 n
( x i − µˆ ) 2
∑
n i=1
(2.7)
σˆ 2 = s 2
2.3 DISTRIBUCIÓN DE LA MEDIA Y LA VARIANZA
Se obtuvo en la expresión (2.2) que la estadística de prueba está dada en función de los
estimadores de la media y la varianza por consiguiente se necesita la distribución de estos
dos estimadores.
2.3.1 DISTRIBUCIÓN DE LA MEDIA MUESTRAL
Primeramente se nota que el vector de variables tiene la distribución:
18
Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 19
(
)
X ~ N ( n ) µ1, σ 2 I ,
(2.8)
Ahora de las propiedades de la distribución normal (capítulo 1) y (2.8) resulta:
 σ2
X ~ N  µ,
n


.


(2.9)
2.3.2 DISTRIBUCIÓN DE LA VARIANZA
De forma similar a la media muestra se puede formular el resultado:
 n −1 σ2
S X2 ~ Γ
,2
n
 2
En donde, S X2 =

.


(2.10)
1 n
(X i − X )2 .
∑
n i=1
Comprobación
Se deduce inmediatamente del resultado para muestras aleatorias con distribución normal
estándar Z1 , Z 2 , K, Z n (ver [12], páginas 243-246), el cual concluye que
(Z i − Z )
∑
i =1
n
2
~ χn2− 1 , además Z 2 y S Z2 son independientes.
Luego,
nS X2
σ
2
X − X
= ∑ i
i =1 
 σ
n
2
[
2
n X −µ
n

1 n  X i − µ 
i
− ∑
 = ∑ Z i − Z
 = ∑
σ
n i=1  σ 

i=1 
i =1
Así, de esta forma resulta
nS X2
σ
2
]
2
~ χn2−1
 n −1 σ2
 n −1 
~ χn2−1 = Γ
,2  , de donde S X2 ~ Γ
,2
n
 2

 2

.


2.4 DISTRIBUCIÓN DE LA ESTADÍSTICA DE PRUEBA
De la expresión (2.2) se tiene que el estadístico de prueba es:
T=
q − µˆ
.
σˆ
Como se puede observar el estadístico de prueba es función de la media y desviación
estándar muestrales, de tal forma que utilizando los resultados anteriores se formula el
siguiente Teorema.
19
Capítulo 2
Teorema 2.1
Sean X 1 , K, X n variables aleatorias independientes igualmente distribuidas, y
(
)
X ~ N ( n ) µ1, σ 2 I , en donde I es la matriz identidad de orden n × n , entonces
la estadística de prueba T =
q − µˆ
, tiene una distribución t no central con
σˆ
parámetro de no centralidad
µ− q 
n 
.
 σ 
Demostración
Es bien conocido que en este caso, X y S X2 son independientes.
u De la expresión (2.10), se nota que
 n
 2
σ
 2
 n −1 
,2  = χn2−1 .
 S X ~ Γ

 2

(2.11)
Transformando la estadística de prueba y utilizando la expresión (2.11), se obtiene:
T=
ˆ q− X
q− µ
=
=
σˆ
S X2
=−
=−
q−X
 n  2  σ 2 
 2 S X 
 σ   n 
1
X −q
σ 2 ( n − 1)
n
 n  S X2
 2
 σ  n −1
1
X −q
σ 2 ( n − 1)
n
χn2−1 ( n − 1)
Por medio de la expresión (2.9), se tiene

σ2
X − q ~ N  µ − q,
n


,


de tal forma que
20
Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 21




µ−q 
X −q
~ N
,1 .
2
2
σ
 σ



n
 n 
(2.12)
Así, la estadística de prueba se puede transformar en
 X −q


2 
σ
σ 


n
n 
T =−


σ 2 ( n − 1)  χn2−1 ( n − 1) 


n




2


µ − q  
 Z no central  n 
 
1 
 σ  

=−


n −1 
χn2−1 ( n − 1)





Por otro lado, de la definición de una distribución t student no central se tiene que la
estadística de prueba cumple con la distribución
T =−
  µ − q 
Tno* central  n 
 .
n −1
  σ 
1
El teorema queda demostrado. t
2.5 APROXIMACIÓN DE LA T NO-CENTRAL CON LA T CENTRAL
En la sección anterior se probó que la estadística de prueba para el problema planteado es
una t no central, por consiguiente, se requiere la forma de pasar a una t central. Problema
que no resulta sencillo, de hecho las formas de trabajarse siempre son con aproximaciones,
por ejemplo, consultar los artículos [7], [9] y [12]. En está sección se estudiará la
aplicación del artículo [9] al problema que se está tratando en la Tesis. Para esto se usa la
simbología
•
ν grados de libertad,
•
δ parámetro de no centralidad,
21
Capítulo 2
•
k * percentil y
•
la función r ( z ) =
z
z 2 +ν
.
Ahora con base en el resultado de HELENA CHMURA KRAEMER de Stanford
University y MINJA PAIK (Agosto de 1979) de Department of Statistics California State
University, Hayward, se tiene que para cada valor k * fijo,
[
]


ν r ( k * ) − r (δ )
lim  FT * ( δ ) k * − FT0 
ν →∞ ν
 1 − r 2 ( k * ) 1 − r 2 (δ )

{ }
[
][
]

 = 0 ,

donde T0 tiene distribución t central con ν grados de libertad.
Para la aplicación de dicho resultado se requiere estudiar la monotonía del argumento
de la distribución de T0 central. Para esto se representa el argumento como
G(δ ) =
[
ν r ( k * ) − r (δ )
[1 − r
2
][
]
]
( k * ) 1 − r 2 (δ )
.
(2.13)
De tal forma que el resultado anterior se escribe de la siguiente manera
[
{ }
]
lim FT * ( δ ) k * − FT0 {G (δ )} = 0 .
ν →∞
ν
(2.14)
Proposición 2.1
La función G(δ ) es una función monótona decreciente.
Demostración
u La función en estudio está dada en la expresión (2.13), sustituyendo los valores de
r (k * ) y r (δ ) se obtiene:
22
Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 23
[
ν r ( k * ) − r (δ )
G(δ ) =
[1 − r
2
][
]
( k * ) 1 − r 2 (δ )
]
 k*

δ

ν
−
 k * 2 + ν
δ 2 + ν 
=
2

k * 
δ2 
1 − 2
 1 − 2

 k * + ν   δ + ν 
 *

2
*2
k
δ
+
ν
−
δ
k
+ν 
ν
2


k * +ν δ 2 +ν 

=
ν
2
k * +ν δ 2 +ν
1  *
2
*2
k
δ
+
ν
−
δ
k
+ ν 


ν
=
Derivando respecto a δ ,

1  δk *
2
− k * +ν 
 2
ν  δ + ν

G′(δ ) =
(2.15)
Analizando cuando δ = 0 , resulta
2
G′( 0) = −
k * +ν
ν
< 0.
Similarmente, para el caso en que k * = 0 se cumple
G ′(δ ) = −1 < 0 .
Por lo tanto, considerando δ ≠ 0 y k * ≠ 0 , de tal forma que se puede factorizar δ y k *
en la expresión (2.15), obteniendo:
23
Capítulo 2


1  δk *
ν
G′(δ ) =
− k* 1+ 2
ν
ν
k*
 δ 1+ 2
δ







=

ν 


2
δk *
k* 
− 1

ν
 δ k * 1+ ν 1 + ν

2
*2


δ
k
=




k +ν 
1
*
sign (δk ) − 1

ν
 1 + ν 1+ ν

2
*2


δ
k
k* 1+
Como 1 +
ν
k
*2
*2
ν
> 1 y 1+
δ2
> 1 esto implica que
1
1+
ν
k
*2
1+
ν
< 1.
δ2
Por lo tanto,
1
1+
ν
k*
2
1+
ν
1
sign(δk * ) ≤
1+
δ2
ν
k*
2
1+
< 1.
ν
δ2
De donde,
G′(δ ) < 0 ,
luego, la función es monótona decreciente. La proposición queda demostrada. t
2.6 VALORES CRÍTICOS PARA MUESTRAS GRANDES
Primeramente se define al conjunto
{
}
ω = è = ( µ,σ ) : q ≥ µ + σΦ −1 (1 − p0 ) ∈ R .
24
Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 25
Ahora buscando el valor de una constante k, tal que
max P{T < k | è ∈ ω} ≤ α .
(2.16)
è ∈ω
Para esto se emplea el Teorema 2.1 sustituyendo el estadístico de prueba y calculando
la probabilidad siguiente


1
P{T < k | è ∈ ω} = P −
T * < k | è ∈ ω .
n −1


  µ − q 
En donde, T * tiene la distribución t no central  n 
 .
  σ 
Continuando con el cálculo de la probabilidad del error tipo I, multiplicando por
− n − 1 , se obtiene
{
}
P{T < k | è ∈ ω} ≤ P T * > −k n − 1 | è ∈ ω
(
= 1 − FT * − k n − 1
)
Así,
(
)
P{T < k | è ∈ ω} ≤ 1 − FT * − k n − 1 .
(2.17)
Ahora utilizando una aproximación de la distribución t no central con la distribución t
central, para lo cual se emplea la siguiente simbología:
•
ν = n − 1 grados de libertad,
•
µ− q 
El parámetro de centralidad δ = n 
,
 σ 
•
k * = −k ν y
•
la función r ( z ) =
z
z +ν
.
2
Así sustituyendo en (2.17) el resultado de la aproximación (2.14), se tiene:
25
Capítulo 2
(
)
P{T < k | è ∈ ω} ≤ 1 − FT * − k n − 1
( )
= 1 − FT * k *
= 1 − FT0 (G(δ ) )
= FT0 (G(δ) )
Como la función FT0 es decreciente, su máximo lo alcanza cuando el argumento,
G(δ) , es mínimo.
Por otro lado, se demostró en la proposición (2.1) que G(δ) es decreciente por lo
tanto, su mínimo lo alcanza cuando su argumento, δ, es máximo.
Para encontrar el valor máximo de δ, se usa la representación anterior y el hecho de
que è ∈ ω,
 µ− q 
 q − µ
δ = n
 = − n

 σ 
 σ 
≤ −Φ −1 (1 − p 0 ) n
Como p 0 se considerará mayor a 0.5, se tiene que
δ ≤ δ0 = −Φ − 1 (1 − p 0 ) n .
Por otro lado, − Φ − 1 (1 − p0 ) n > 0 , esto es
δ0 > 0 .
(2.18)
De esta forma, por la monotonía de G(δ) ,
P{T < k | θ ∈ ω} ≤ FT0 (G(δ ) ) ≤ FT0 (G(δ0 ) ) = 1 − FT0 (G(δ0 ) ) ≤ α .
Ahora, para encontrar el valor de k, note que
FT0 (G(δ0 ) ) ≥ 1 − α
G(δ0 ) ≥ FT−01 (1 − α)
Definiendo α0 por
26
Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 27
α0 = FT−0 1 (1 − α) .
(2.19)
Considerando α ≤ 0.5 , se tiene:
α0 = FT−0 1 (1 − α) > 0 .
(2.20)
Sustituyendo k * = − ν k , se obtiene lo siguiente
1  *

2
*2
k δ0 + ν − δ0 k + ν 
ν

1 
=
− ν k δ02 +ν − δ0 νk 2 + ν 



ν
G(δ0 ) =
= − k δ02 + ν − δ0 k 2 + 1
Es decir, por (2.20), k es tal que
− k δ02 + ν − δ0 k 2 + 1 ≥ α0 .
Ahora falta encontrar el valor de k. Para esto se observa que
− k δ02 + ν ≥ α0 + δ0 k 2 + 1 > 0 .
Luego, de (2.18) y (2.20) se tiene que necesariamente,
k <0
(2.21)
Resolviendo la ecuación − k δ02 + ν − δ0 k 2 + 1 = α0 en k, considerando (2.18).
(2.20) y (2.21)
− k δ02 + ν − δ0 k 2 + 1 = α0
k δ02 + ν + δ0 k 2 + 1 = −α0
δ0 k 2 + 1 = −α0 − k δ02 + ν
(
)
(
δ02 k 2 + 1 = α02 + 2α0 k δ02 +ν + k 2 δ02 + ν
)
δ02 k 2 + δ02 = α02 + 2α0 k δ02 +ν + k 2δ02 + k 2ν
δ02 = α02 + 2α0 k δ02 +ν + k 2ν
[
]
k 2ν + k  2α0 δ02 + ν  + α02 − δ02 = 0


27
Capítulo 2
Se resuelve la ecuación
[
]
k 2ν + k  2α0 δ02 + ν  + α02 − δ02 = 0 ,


y se obtiene que
(
2
− 2α0 δ02 + ν ± 2α0 δ02 +ν  − 4ν α02 − δ02


k=
2ν
=
=
)
− 2α0 δ02 + ν ± 4α02δ02 + 4α02ν − 4να02 + 4νδ02
2ν
− α0 δ + ν ± δ0 α + ν
2
0
2
0
ν
Así de esta forma las dos raíces son
k=
− α0 δ02 + ν + δ0 α02 + ν
k =−
ν
α0 δ02 + ν + δ0 α02 + ν
ν
De las cuales la segunda raíz siempre es negativa, luego, cumple con (2.21) y por
consiguiente es un valor de k.
Mientras que la primera raíz cumple (2.21), cuando
− α0 δ02 + ν + δ0 α02 + ν < 0
Al resolver se introducen raíces extrañas.
Así, para p 0 ≥ 0.5 , α ≤ 0.5 y tamaños de muestras, n, grandes; la constante crítica k
está dada por:
k =−
α0 δ02 + ν + δ0 α02 + ν
ν
.
28
Prueba de hipótesis para variables aleatorias independientes e idénticamente distribuidas . 29
2.7 VALORES CRÍTICOS PARA MUESTRAS PEQUEÑAS
Note que en la demostración del Teorema 2.1, se obtuvo que el estadístico de prueba


µ − q  
 Z no central  n 
 
1 
 σ  

T =−


n −1 
χn2−1 ( n − 1)





donde Z no central y χn2−1 son variables aleatorias independientes. Luego,




µ − q  
 Z no central  n 

 

1 
 σ  



P(T < k | è ∈ ω) ≤ P  −

 < k è ∈ ω
2
n −1 
χn −1 ( n − 1)











 µ−q

 n
−Z 


1   σ 



≤P −

 < k H0 

2
n − 1  χn− 1 (n − 1) 








  q − µ

+ Z
 n

σ 


≤P
< k H 0  utilizando la hipótesis nula

2

χn− 1




 nΦ −1 (1 − p ) + Z


≤P
< k H0 

2

χn−1


Así, de la última expresión se pueden calcular las probabilidades por simulación para
valores dados de n, p y k. De tal forma que para valores dados de n, p y tamaño de prueba
α ∈ ( 0,1) , se obtiene el valor critico k.
En el Apéndice B, se muestran algunas tablas de valores críticos para ciertos n, p y
α ∈ ( 0,1) y el programa en S-PLUS con el cual se generaron y por último una tabla de
comparaciones de los valores críticos calculados por simulación con los valores obtenidos
por la aproximación para muestras grandes, k = −
α0 δ02 + ν + δ0 α02 + ν
ν
.
29
Capítulo 3
Prueba de hipótesis para variables aleatorias dependientes e
idénticamente distribuidas
3.1 PLANTEAMIENTO DEL PROBLEMA
Sean
X 1 , X 2 ,K , X n
variables aleatorias dependientes normalmente distribuidas con
parámetros µ y σ 2 . Se quiere encontrar una prueba para el contraste de hipótesis:
H 0 : p ≤ p0
H1 : p > p0
en donde, p 0 es una constante conocida y p es la probabilidad de que las variables
aleatorias tomen valores por encima de un valor q constante y definido de antemano, esto
es:
p = P[ X i > q] , para toda i.
Suponiendo normalidad de las variables aleatorias y estandarizando resulta que H 0 es
equivalente a
q − µ
q − µ

1 − Φ 
≤ p0 .
 = P Z >
σ 
 σ 

De donde,
 q − µ
1 − p 0 ≤ Φ
.
 σ 
Así, las hipótesis son equivalentes a:
H0 :
q−µ
≥ Φ −1 (1 − p0 )
σ
q−µ
H1 :
< Φ −1 (1 − p0 )
σ
(3.1)
30
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 31
3.1.1 ESTADÍSTICA DE PRUEBA
De la expresión (3.1) se propone una prueba basada en la estadística dada por:
T=
q − µˆ
.
σˆ
(3.2)
En donde, la distribución de la estadística de prueba depende de los estimadores de
momentos de la media µ̂ y varianza σ̂ 2 , y a partir de los cuales se encuentra la
distribución de T bajo H 0 .
Así, la prueba rechaza cuando T < k α , donde k α es tal que
P(T < kα | H 0 ) ≤ α
(3.3)
para una α ∈ (0,1) dada.
3.2 ACOTACIONES DEL PROBLEMA
En está sección se estudiarán las acotaciones que se harán en la solución del problema
sobre el contraste de hipótesis (3.1). Sean X 1 , X 2 ,K , X n variables aleatorias dependientes
normalmente distribuidas con parámetros
µ y σ 2 , cuya función de densidad de
probabilidad conjunta es la siguiente:
f X ( x) =
1
( 2π) n
2
 1

exp − ( x − ì ) t Ó−1 ( x − ì )  ,
det( Ó)
 2

en donde x es una realización de la muestra, con vector de medias ì y matriz de
covarianzas Ó. Para el caso de estudio se supondrá que se tiene la misma media, ì = µ1 ,
varianza, σ 2 , y cuando cualquier par de variables aleatorias tienen la misma covarianza,
cov( X i , X j ) = c con i ≠ j . Es decir,
σ2 c

2
Ó=  c σ
M
 M
 c
c

L c 

L c 
O M 
L σ 2 
(3.4)
31
Capítulo 3
En el siguiente Teorema, se puede apreciar una condición para que la matriz de
covarianzas sea positiva definida y se pueda aplicar la teoría de las distribuciones normales.
Teorema 3.1
Sea la matriz de covarianzas dada en la expresión (3.4), entonces se cumple
[
]
det( Ó) = (σ 2 − c) n −1 c( n − 1) + σ 2 .
Demostración
u Para calcular el determinante de la matriz de covarianzas se denota a las matrices
σ 2 c

2
Ón =  c σ
M
 M
 c
c

c c
L c 


2
L c  y Ó* =  c σ
n
O M 
 M M
2 
L σ 
c c
L c 
L c 
.
O M 
L σ 2 
En donde, n representa el orden de la matriz.
De esta forma después de cambiar el renglón 1 por el mismo menos el renglón dos y
usando los menores resulta
σ 2 − c c − σ 2

σ2
det( Ó) = det  c
M
 M
c
 c
L 0 

L c 
O M 
L σ2 
(
= (σ 2 − c) det ( Ón −1 ) − (c − σ 2 ) det Ó*n −1
[
(
= (σ 2 − c) det ( Ón −1 ) + det Ó*n −1
)
)]
Antes de continuar se puede notar que si en la matriz Ó*n se lleva a cabo la misma
reducción entre renglones se obtiene:
 0 c − σ2

σ2
det Ó*n = det  c
M
M
c
c
( )
L 0 

L c 
O M 
L σ2 
(
= −( c − σ 2 ) det Ó*n−1
(
= (σ 2 − c ) det Ó*n −1
)
)
32
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 33
Tomando en cuenta esta última consideración y continuando con el mismo
procedimiento en ambas matrices
[
(
det( Ó) = (σ 2 − c) det ( Ón−1 ) + det Ó*n−1
[
[det (Ó
[det ( Ó
)]
(
)
(
= (σ 2 − c) 2 det (Ón − 2 ) + det Ó*n − 2 + det Ó*n − 2
= (σ 2 − c) 2
= (σ 2 − c) 3
n −2
n− 3
) + 2 det (Ó*n −2 )]
)]
) + 3 det (Ó*n −3 )]
M
[
( )]
= (σ 2 − c) n − 2 det (Ó2 ) + ( n − 2) det Ó*2
Por otro lado, calculando los determinantes de segundo orden
( )
 2 c 
*
c c 
2
2
4
2
det ( Ó2 ) = det σ
2  = σ − c y det Ó2 = det  c σ 2  = cσ − c .


 c σ 
Finalmente, se tiene
[
[σ + (n − 2)cσ
[c (n − 1) + σ ]
]
]
det( Ó) = (σ 2 − c) n− 2 σ 4 − c 2 + ( n − 2)( cσ 2 − c 2 )
= (σ 2 − c) n− 2
= (σ 2 − c) n−1
4
2
− ( n − 1) c 2
2
El teorema queda demostrado. t
3.2.1 RESTRICCIÓN DEL PROBLEMA EN LA COVARIANZA
Para desarrollar la solución del problema se hará uso de la teoría de las distribuciones
normales, cuestión que restringe el problema debido a que la matriz de covarianzas
respectiva debe ser positiva definida. Luego, resulta que la matriz de covarianzas del
problema, (3.4), tiene que ser positiva definida. Es decir, el determinante calculado en el
teorema 3.1 debe ser positivo. Así, del teorema anterior se tiene:
[
]
det( Ó) = (σ 2 − c) n −1 c ( n − 1) + σ 2 > 0 .
Como σ 2 > c , la expresión anterior se puede dividir entre (σ 2 − c ) n −1 , obteniendo
c (n − 1) + σ 2 > 0 .
33
Capítulo 3
De donde, la condición para que la matriz de covarianzas sea positiva definida es:
ρ> −
1
n −1
(3.5)
Restricciones
Así, para las restricciones del problema se tomará en cuenta sólo variables
aleatorias X 1 , X 2 ,K , X n que tengan
•
•
la misma distribución marginal,
sean dependientes,
•
con covarianzas homogéneas y positivas.
Para la solución del, problema en el apéndice A se mostrará que no se pueden utilizar
los estimadores de máxima verosimilitud para los parámetros µ, σ y c ya que estos no
existen. Por consiguiente, surge la necesidad de levar a cabo otro desarrollo diferente al
caso de variables independientes.
3.3 REPRESENTACIÓN DE LA MATRIZ DE COVARIANZAS
Para resolver el problema, primeramente se representa la matriz de covarianzas (3.4) como:
Ó = cJ − (c − σ 2 )I .
En donde, J es la matriz de unos de orden n × n , mientras que I se refiere a la matriz
identidad del mismo orden.
Ahora se calculan los valores y vectores propios de la matriz J.
3.3.1 VALORES PROPIOS DE LA MATRIZ J
Sea J la matriz de unos de orden n × n , se buscarán sus valores propios. Para tal efecto, se
escribe el sistema de ecuaciones
Jv = λv .
Para la solución se forma el sistema homogéneo
( J − λI ) v = 0 .
(3.6)
En donde, se buscan los valores propios λ , tal que satisfagan la ecuación siguiente:
det ( J − λI ) = 0
34
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 35
Así,
1
1 − λ
 1
1
−
λ
det 
M
 M
1
 1
L
1 
L
1 
=0
O
M 
L 1 − λ
Un determinante de este tipo se resolvió en el teorema 3.1, para la matriz de
covarianzas. De esta forma, al sustituir los valores c = 1 y σ 2 = 1 − λ , se tiene
1
1 − λ
 1
1
−
λ
det 
M
 M
1
1

L
1 
L
1 
= (1 − λ − 1) n −1 [n − 1 + 1 − λ]
O
M 
.
L 1 − λ
= ( −λ) n −1 [n − λ] = 0
De donde resultan los valores propios
λ = n es un valor propio simple.
Mientras que
λ = 0 es un valor propio de multiplicidad n − 1 .
3.3.2 VECTORES PROPIOS DE LA MATRIZ J
El valor propio λ = n , se sustituye en el sistema de ecuaciones (3.6). Por otro lado, de la
definición de valor propio se puede eliminar una ecuación cualesquiera del sistema.
Eliminando la primera ecuación queda la matriz ampliada del sistema (3.6)
1
1
1
1 1 − n
1
1 1− n
1
1

1
1
1
1
−
n
1

1
1
1
1
1− n
M
M
M
M
M
1
1
1
1
1

L
L
L
L
O
L
1 1
1 1
1 1
1 1
M
M
1 1− n
0
0 
0
0
M
0 
Se hacen ceros los elementos de la primera columna, a partir de la segunda fila
35
Capítulo 3
1
1
1 1− n 1
0
n
−n 0
0

0
n
0
−
n
0

0
n
0
0 −n
M
M
M
M
M
0
n
0
0
0

L
L
L
L
O
L
1 1
0 0
0 0
0 0
M M
0 −n
0
0 
0
0
M
0 
Ahora a partir de la segunda fila se dividen entre n todas las restantes,
1
1
1 1− n 1
0
1
−1 0
0

0
1
0
−
1
0

0
1
0
0 −1
M
M
M
M
M
0
1
0
0
0

L
L
L
L
O
L
1 1
0 0
0 0
0 0
M M
0 −1
0
0 
0
0
M
0 
Si x n = t ⇒ x2 = t ⇒ x3 = x 4 = L = xn −1 = t , luego de la ecuación 1, del sistema
anterior (reducido), resulta que
x1 = t .
De tal forma que el vector propio para λ = n está dado por:
 1
 1
v1 =   = 1 .
 M 
 1
Para el otro valor propio, se sustituye λ = 0 en el sistema de ecuaciones (3.6). Por
otro lado, de la definición de valor propio de multiplicidad n − 1 , resulta que se pueden
eliminar n − 1 ecuaciones del sistema.
Eliminando las primeras n − 1 ecuaciones queda la matriz ampliada del sistema (3.6)
(1
1 1 L 1 0) .
De donde, x1 = t1 , x 2 = t 2 , ..., x n −1 = t n −1 y x n = −(t1 + t 2 + L + t n−1 ) .
Así, los vectores propios resultantes para λ = 0 son:
 1
 0
 0
 0
 1
 M
 
 
 
v 2 =  0  , v 3 =  0  , ..., v n =  0  .
 M
 M
 1
 − 1
 − 1
 − 1
 
 
 
36
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 37
Con lo cual el sistema de vectores propios de la matriz J queda completo e igual a:
 1
 0
 0
 1
 0
 1
 M
 1




 
v1 =   = 1 , v 2 =  0  , v 3 =  0  , ..., v n =  0  .
M
 
 M
 M
 1
 1
 − 1
 − 1
 − 1
 
 
 
3.4 SISTEMA DE VECTORES ORTOGONALES EQUIVALENTE A LOS
VECTORES PROPIOS DE LA MATRIZ J
Utilizando las mismas ideas que en el caso de variables aleatorias independientes se
encontrará una matriz adecuada para transformar las variables de tal forma que con las
nuevas variables se demuestre que X y S X2 son independientes. Para esto se obtendrá un
sistema de vectores propios equivalente al anterior.
Ahora se buscan los nuevos vectores ortonormalizados como combinaciones lineales
(
de los vectores propios, considerando que el primer vector ortonormalizado sea 1
)
n 1.
Como los vectores propios son independientes se tiene que forman una base de R n .
De tal forma que por medio de combinaciones lineales entre ellos se puede obtener otra
representación de los vectores propios también independientes. Así, de esta manera por
medio de las combinaciones lineales siguientes
 − 1
 − 1
 − 1
 1




 0
1
0
 
v1* = v1 =  1M  , v *2 = v 3 − v 2 =  0  , v *3 = v 4 − v 2 =  1 , ..., v *n = − v 2 =  M  . (3.7)
 M
 M
 0
 1
 0
 0
 1
 
 
 
 
En general,
 − 1
1
 0


v *k = v k+1 − v 2 para k = 2, 3, K, n − 1 y v1* = v 1 = 1M  , v *n = − v 2 =  M  .
 0
1
 1
 
 
Resulta un nuevo sistema de vectores independientes que se va a normalizar con el proceso
de ortonormalización de Gram-Schmidt.
37
Capítulo 3
3.4.1 ORTONORMALIZACIÓN DEL SISTEMA DE VECTORES EQUIVALENTE A
LOS VECTORES PROPIOS DE LA MATRIZ J
Para la ortonormalización se usa el proceso de Gram-Schmidt, con
u k +1 =
w k+1
.
w k+1
En donde,
w k +1 = v *k +1 − ( v *k +1 ⋅ u1 )u1 − ( v *k +1 ⋅ u 2 )u 2 − L − ( v *k +1 ⋅ u k ) u k ; k = 1, 2,K , n − 1 .
(3.8)
Con ( v ⋅ u ) igual al producto escalar ( ( v ⋅ u ) = v t u ) de los vectores v y u .
De tal forma que
u1 =
w1
w1
=
v *1
v *1
1
1 1
 .
=
n  M 
1
Similarmente para u 2 , primeramente se ortogonaliza con los vectores anteriores,
 − 1
 − 1
 1
 1  1
 
1  1  
  =  0 .
w 2 = v *2 − ( v *2 ⋅ u1 )u1 =  0  − 0
 M   M 
n
 M
 0
 1  0 
 
 
Ahora normalizando el vector ortogonalizado
 − 1
w2
1  1
u2 =
=
0 .
w2
2  M
 0
Similarmente para u 3 , primeramente se ortogonaliza con los vectores anteriores,
38
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 39
w 3 = v *3 − ( v *3 ⋅ u1 )u 1 − ( v *3 ⋅ u 2 )u 2
  − 1  − 1  
 − 1
 − 1
   
1
 0
 
 
1 1 1   0   1   1  1
 −
=  1 − 0
  1 ⋅  0  
 0
n  M 
2  M  M 2  M
 M
 0
1
 0
 0   0 
 
 
   
 − 1
 − 1
 − 1
 0
 1
 
  1   1  − 1
=  1 −  0  =  2 
 M 2  M 2  M 
 0
 0
 0
 
 
 
Ahora normalizando el vector ortogonalizado
u3 =
w3
w3
 − 1
 − 1
1
 
=
 2 =
1 + +1 + 4  M
 0
 
 − 1
 
1  − 1
 2 .
3 × 2  M
 0
 
Similarmente para u 4 , primeramente se ortogonaliza con los anteriores,
w 4 = v *4 − ( v *4 ⋅ u1 )u1 − ( v *4 ⋅ u 2 )u 2 − ( v *4 ⋅ u 3 ) u 3 =
  − 1  − 1 
  − 1  − 1 
 − 1
 − 1
 − 1
    
    
 1
 0


 − 1
0
1
1
0 −1
 
1  1 1       1  
1      1  
 −
=  0 − 0
  0 ⋅  0 
  0 ⋅  2 
 0 −
 2
M
n
2
2
3
×
2
3
×
2




 1

1


M


M


1


M

 M
 1
 0
 
 0
 0
  0  0 
  0  0 
 
 
 
    
    
1
1  
1 1 1  1

 − 1+ +
  −1 + + −   − 
2 3×2  
2 2 3  3
 − 1
 − 1
 − 1 
1
1  
1 1 1  1
 0
 1
 − 1 
 
 
   0 − 2 + 3×2   0 − 2 + 2 − 3 − 3
1  2 
0 1 0
=
=  −  −
=
1
1 1 =  1 =
 1 2  0  3 × 2  0   0 + 0 −
× 2  0 + 0 − −   − 
3× 2
2 3  3
 M
 M
 M 
 
1 
1  1
 0
 0
 0 
 
 
  
M 
M  M

 
  0
0
0

 
 

 − 1
 − 1
 
1  − 1
3  3
 M
 0
 
Ahora normalizando el vector ortogonalizado
39
Capítulo 3
u4 =
w4
w4
 − 1
 − 1
 
1
 − 1 =
=
1 +1 +1 + 9  3
 M
 0
 
 − 1
 − 1
 
1
 − 1 =
3 + 3 2  3 
M
 0
 
 − 1
 − 1
 
1  − 1
.
4 × 3  3
 M
 0
 
En forma general, para u k + 1 , primeramente se ortogonaliza con los vectores anteriores,
w k +1 = v *k +1 − ( v *k +1 ⋅ u1 )u1 − ( v *k + 1 ⋅ u 2 ) u 2 − L − ( v *k + 1 ⋅ u k )u k
k
1
ui
i = 2 i ( i − 1)
= v *k +1 − ∑
k
1
 1
= v *k +1 − ∑ 
− u i
i
i =2  i − 1
k

1
  − 1 
 1


−1 + ∑ 
− 
i
 − 1

  k
i =2  i − 1
1
 − 1
k




1
1
 1
− 
 

0
−
+
−




∑
k
M
2 ×1 i= 3  i − 1 i 

  M  1 
=
M
 =  1  = k  − 1
 k 

k −2
1   − 
 1
 M 
0
+
0
+
L
+
0
−
+
−
k




 
(
k
−
1
)(
k
−
2
)
k
−
1
k
 


1




 0
M


M


0

  0 
Ahora normalizando el vector ortogonalizado
u k +1 =
w k +1
w k +1
 − 1
 − 1
 
 M 
1
=
 − 1 =
2
11
+42
1+ L
+1+ k  k 
43
 M 
k veces
 
0
 − 1
 − 1
 
 M 
1
 − 1 =
2
k+k  k 
 M 
 
0
 − 1
 − 1
 
 M 
1
 − 1 .
( k + 1)k  k 
 M 
 
0
De tal forma que la matriz ortonormal queda
40
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 41
U * = (u1
u2






L un ) = 






1
1
−
n
1
n
1
2(1)
1
2(1)
1
−
3( 2)
1
−
3( 2)
2
0
n
M
1
M
3( 2)
M
0
0
n


n( n − 1) 

1
L −

n( n − 1) 
.
1
L −

n( n − 1) 
O
M

n −1

L

n( n − 1) 
1
L −
Se probará que µ̂ = X y σˆ 2 = S X2 son independientes y que tienen distribuciones
normal y Ji-cuadrada, respectivamente.
distribución del estadístico de prueba.
Con estos resultados es posible obtener la
T=
q − µˆ
.
σˆ
Antes de continuar se deben analizar algunas de las propiedades que se obtienen con
la matriz de transformaciones.
3.5 MATRIZ DE TRANSFORMACIÓN
La matriz de transformación adecuada se representa como:
1


n

1

 −
2(1)

*t
A = U =
1
 − 3( 2)

M

1
−

n (n − 1)

1
1
n
1
−
−
L
n
0
L
2(1)
1
2
L
3(2)
M
1
3( 2)
M
1
n( n − 1)
−
n (n − 1)
O
L


n


0



0


M

n −1 
n (n − 1) 
1
(3.9)
La matriz por construcción es ortonormal.
3.5.1 DISTRIBUCIÓN DE LAS VARIABLES TRANSFORMADAS
En la subsección anterior se obtuvo la matriz de transformación adecuada para la
independencia de variables aleatorias normales dependientes. Ahora se estudiará un
teorema que muestra la distribución de las variables transformadas.
41
Capítulo 3
Teorema 3.2
Sean
X 1 , X 2 , K, X n
variables aleatorias dependientes e idénticamente
distribuidas, con distribución normal, además con covarianzas homogéneas,
(3.4) y sea la transformación Y = AX (en donde la matriz de transformación A
está dada en (3.9)), entonces se cumple
Y ~ N (n )
(
))
(
n µ e 1 , D c ( n − 1) + σ 2 , (σ 2 − c), K , (σ 2 − c ) .
En donde, D es la matriz diagonal de orden n y e′1 = (1, 0, 0, K, 0) .
Demostración
u Si Y = AX , de la teoría de variables aleatorias con distribución normal resulta lo
siguiente
(
)
Y = AX ~ N ( n) µA1, AÓAt .
(A3)
Llevando a efecto los cálculos se tiene
n n 
 1


 0
µA1 = µ 0  = n µ  = nµ e 1 ,
 M 
 M 
 0 
 0


(B3)
 1
 0
en donde, e1 =   .
 M 
 0
Por otro lado,
{
}
AÓAt = A cJ − (c − σ 2 ) I A t = cAJA t − ( c − σ 2 )I .
(C3)
Calculando el primer término del segundo miembro de la igualdad (C3), se tiene
de (B3)
cAJA t = cA(1, 1, K, 1) A t = c n (e1 , e 1 ,K , e 1 ) A t
[
= c n A(e1 , e1 ,K , e 1 ) t
[
]
] =c
t
n [A(1, 0,K , 0)]t
t
= c n ( ne1 , 0, K, 0) = c n ( n e1 , 0,K , 0)
= cn( e1 , 0,K , 0)
42
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 43
en donde, (e 1 , e 2 , K, e n ) representa una matriz cuyas columnas son los vectores dados.
Además los vectores e1 , e 2 ,K , e n forman la base canónica del espacio euclideano R n , es
decir, e i representa al vector con todas sus componentes cero, excepto la i-ésima, la cual
vale 1. Por lo tanto, sustituyendo en (C3) la igualdad anterior
AÓAt = cn( e1 , 0,K, 0) − ( c − σ 2 )I = cn(e 1 , 0, K, 0) − ( c − σ 2 )(e 1 , e 2 ,K , e n )
([
]
= cn − ( c − σ 2 ) e1 , (σ 2 − c )e 2 ,K , (σ 2 − c )e n
(
= D c( n − 1) + σ 2 , (σ 2 − c), K , (σ 2 − c )
Se obtiene
)
)
(
)
AÓAt = D c ( n − 1) + σ 2 , (σ 2 − c ), K, (σ 2 − c) .
(
En donde, D c( n − 1) + σ 2 , (σ 2 − c ),K , (σ 2 − c)
)
(D3)
representa una matriz diagonal con
elementos en la diagonal principal c (n − 1) + σ 2 , (σ 2 − c ), K, (σ 2 − c) , respectivamente.
Sustituyendo (B3) y (D3) en (A3), se obtiene la distribución de las variables
transformadas
Y ~ N (n )
(
))
(
n µ e 1 , D c ( n − 1) + σ 2 , (σ 2 − c), K , (σ 2 − c ) .
El teorema queda demostrado. t
Nota
De la expresión (D3) se obtiene una demostración mucho más simple del
Teorema 3.1, despejando la matriz de covarianzas:
(
)
Ó = A t D c( n − 1) + σ 2 , (σ 2 − c ),K , (σ 2 − c) A .
Ahora calculando el determinante
[(
)]
det( Ó) = det( A t ) det D c (n − 1) + σ 2 , (σ 2 − c ),K , (σ 2 − c) det( A)
(
= det( A t ) det( A)(σ 2 − c) ( n−1) c( n − 1) + σ 2
(
= (σ 2 − c) ( n−1) c( n − 1) + σ 2
)
)
43
Capítulo 3
3.6 PROPIEDADES DE LAS VARIABLES TRANSFORMADAS
Con la transformación Y = AX , resultan las siguientes propiedades.
Propiedad 1
Las Yi tienen distribución normal y son independientes.
Comprobación
Del Teorema 3.2, se tiene
Y1 ~ N
(
n µ, c( n − 1) + σ 2
(
)
)
Yi ~ N 0,σ 2 − c , para toda i = 2, 3, K, n
y además son independientes.
Propiedad 2
n
n
i =1
i=1
∑ Yi 2 = ∑ X i2 .
Comprobación
n
n
i =1
i =1
∑ Yi 2 = Y t Y = (AX)t (AX) = Xt At AX = Xt X = ∑ X i2 .
Propiedad 3
Y1 = n X .
Comprobación
Y1 =
1
n
∑Xi
n i=1
=
1
n
nX = n X .
Propiedad 4
S X2 =
1 n 2
∑ Yi .
n i= 2
Comprobación
S X2 =
1 n 2
Xi − X 2
∑
n i=1
Prop. (2)
=
Prop. (3) 1 n
1 n 2
1 2 1 n 2
2
2
Y
−
X
=
Y
−
Yi .
∑ i
∑ i n Y1 = n ∑
n i= 1
n i =1
i =2
Propiedad 5
X y S X2 son independientes.
44
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 45
Comprobación
Se deduce de las propiedades (1), (3) y (4).
3.7 DISTRIBUCIÓN DE LA MEDIA Y LA VARIANZA
Una de las dificultades para determinar las distribuciones muestrales de la media y la
varianza reside en que las variables son dependientes y por consiguiente no existen
resultados conocidos en estos casos. Para resolver el problema se usarán las ideas del
capítulo anterior para caso de variables aleatorias independientes.
En la sección 3.1.1 se vio que la estadística de prueba estaba en función de la media y
la varianza, por consiguiente, se requiere de la distribución de estas dos estadísticas.
Primeramente se nota que el vector de variables tiene distribución:
X ~ N ( n ) (µ1, Ó) ,
(3.10)
con Ó = cJ − (c − σ 2 )I y J la matriz de unos de orden n × n , mientras que I se refiere a la
matriz identidad del mismo orden con cov( X i , X j ) = c > 0 para toda i ≠ j .
3.7.1 DISTRIBUCIÓN DE LA MEDIA MUESTRAL
Después de haber visto las subsecciones anteriores, está todo preparado para ver la
distribución de la media. De las propiedades anteriores se tiene lo siguiente:
 c( n − 1) + σ 2
X ~ N  µ,
n


.


(3.11)
Comprobación
De la propiedad (3)
X=
1
n
Y1 .
Por la propiedad (1)
X=
 1
c ( n − 1) + σ 2
Y1 ~ N 
n µ,
n
n
 n
1

.


Luego,
 c( n − 1) + σ 2
X ~ N  µ,
n


.


45
Capítulo 3
3.7.2 DISTRIBUCIÓN DE LA VARIANZA MUESTRAL
De forma similar a la media muestra resulta:
 n −1 σ 2 − c 
.
S X2 ~ Γ
,2
n 
 2
(3.12)
Comprobación
De la propiedad (4)
1 n 2 σ 2 − c n  Yi
S = ∑ Yi =
∑
n i= 2
n i = 2  σ 2 − c
2
X
2

 .


De la propiedad (1), se tiene que
2
 Yi


 ~ χn2−1 = Γ n − 1 ,2  .
∑


 2

i =2  σ 2 − c 
n
Luego,
σ 2 − c n  Yi
S =
∑
n i = 2  σ 2 − c
2
X
2
2

 ~ Γ n − 1 , 2 σ − c  .
 2

n 


3.8 DISTRIBUCIÓN DE LA ESTADÍSTICA DE PRUEBA
En la sección 3.1 se estableció el estadístico de prueba que se requiere para probar el
contraste de hipótesis y se ha visto que está en función de la media y la varianza muestrales,
de tal forma que utilizando los resultados anteriores se puede establecer el siguiente
Teorema.
Teorema 3.3
Sean X 1 , X 2 , K, X n variables aleatorias dependientes e idénticamente
distribuidas, con distribución conjunta normal y con covarianzas homogéneas y
positivas, esto es X ~ N ( n ) (µ1, Ó) con Ó = cJ − (c − σ 2 )I , c > 0 y J la matriz
de unos de orden n × n , mientras que I se refiere a la matriz identidad del
q − µˆ
mismo orden, entonces la estadística de prueba T =
, tiene una
σˆ
distribución t no central con parámetro de no centralidad


µ− q
.
n
 σ ρ(n −1) + 1 


46
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 47
Demostración
u De la expresión (3.12), se nota que
 n  2
 n −1 
,2  = χn2−1 .
 2
S X ~ Γ
σ − c 
 2

(3.13)
Trasformando la estadística de prueba y utilizando la expresión (3.13) se obtiene:
T=
q − µˆ q − X
=
=
2
σˆ
SX
=−
=−
q−X
 n  2  σ 2 − c 
 2
SX
 σ − c   n 
1
X −q
(σ 2 − c)( n − 1)
n
 n  S X2
 2

 σ − c  n −1
1
X −q
(σ 2 − c)( n − 1)
n
χn2− 1 (n − 1)
Por medio de la expresión (3.11), se tiene

c( n − 1) + σ 2
X − q ~ N  µ − q,
n


,


de tal forma que






X −q
µ−q
~ N
,1 .
2
c( n − 1) + σ 2
 c( n − 1) + σ



n

n

(3.14)
Así de esta manera la estadística de prueba se puede expresar como
47
Capítulo 3
X −q
T =−
c( n − 1) + σ 2
n
c ( n − 1) + σ 2
n
(σ 2 − c)( n − 1)
n
χn2−1 (n − 1)

 
µ− q

 
Z
 no central  n 
2
c( n − 1) + σ 2 
 c( n − 1) + σ

=−

(σ 2 − c)( n − 1) 
χn2−1 ( n − 1)



  

 
 





Por otro lado, transformado su representación del numerador y denominador de la
cantidad subradical, cambiando c por σ 2 ρ , se tiene:
Numerador
c (n − 1) + σ 2 = σ 2 ρ( n − 1) + σ 2 = σ 2 ( ρ( n − 1) + 1) .
Denominador
(σ 2 − σ 2 ρ)( n − 1) = σ 2 (1 − ρ)( n − 1) .
Cociente
c( n − 1) + σ 2
(σ − c )( n − 1)
2
=
σ 2 ( ρ( n − 1) + 1)
σ (1 − ρ)( n − 1)
2
=
ρ( n − 1) + 1
.
(1 − ρ)( n − 1)
Sustituyendo el cociente por esta última expresión y definiendo el coeficiente por:
h ( ρ) = −
ρ( n − 1) + 1
(1 − ρ)(n − 1)
(3.15)
Resulta que la estadística de prueba tiene la distribución
48
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 49

 
µ−q

 
 Z no central  n 
2
ρ( n − 1) + 1 
 c (n − 1) + σ

T =−

(1 − ρ)( n − 1) 
χn2−1 ( n − 1)



 
ρ( n − 1) + 1 *
µ−q
=−
Tno central  n 
2

(1 − ρ)( n − 1)
  c( n − 1) + σ
 

 
 









 

µ− q
 .
= h ( ρ)Tno* central  n 

  σ ρ(n − 1) + 1  
El teorema queda demostrado. t
3.8.1 ESTUDIO DEL COEFICIENTE DE LA ESTADÍSTICA DE PRUEBA
En el teorema anterior resulto una función, en el coeficiente del estadístico de prueba. Por
otro lado, al estudiar el tamaño de la prueba se tendrá que acotar la estadística de prueba,
luego, es conveniente que se analice la monotonía de la función h (ρ) .
Proposición 3.1
La función h (ρ) resultante en la estadística de prueba T, es negativa y
monótona decreciente en [0, 1) .
Demostración
u La función en estudio está dada en la expresión (3.15) por:
h ( ρ) = −
ρ( n − 1) + 1
.
(1 − ρ)(n − 1)
Está claro que la función es negativa, luego sólo falta probar su monotonía. Para esto
se calcula la derivada de la expresión del subradical dado que es positivo, resultando:
49
Capítulo 3
d  ρ( n − 1) + 1  [(1 − ρ)( n − 1) ]( n − 1) − [ρ( n − 1) + 1]( −( n − 1))

=
dρ  (1 − ρ)( n − 1) 
[(1 − ρ)( n − 1) ]2
=
=
=
Así,
(1 − ρ)( n − 1) 2 + [ρ(n − 1) + 1]( n − 1)
(1 − ρ) 2 ( n − 1) 2
(1 − ρ)( n − 1) + [ ρ( n − 1) + 1]
(1 − ρ) 2 (n − 1)
n
(1 − ρ) 2 ( n − 1)
> 0, para n > 1
ρ( n − 1) + 1
es monótona creciente, luego
(1 − ρ)( n − 1)
ρ( n − 1) + 1
,
(1 − ρ)( n − 1)
h ( ρ) = −
es monótona decreciente (negativa) para 0 ≤ ρ < 1 . La proposición queda demostrada. t
3.9 APROXIMACIÓN DE LA T NO-CENTRAL CON LA T CENTRAL
Al igual que en la sección 2.5 se trabajará con una aproximación de la t no central por
medio de la t central. Para esto se usa la simbología
•
ν grados de libertad,
•
δ parámetro de centralidad,
•
k * percentil y
•
la función r ( z ) =
z
z +ν
.
2
Ahora con base en el resultado de HELENA CHMURA KRAEMER de Stanford
University y MINJA PAIK (agosto de 1979) de Department of Statistics California State
University Hayward, se tiene que para un valor dado k * ,
[
]


ν r ( k * ) − r (δ )
lim  FT * ( δ ) k * − FT0 
ν →∞ ν
 1 − r 2 ( k * ) 1 − r 2 (δ )

{ }
[
][
]

 = 0 .

donde T0 tiene distribución t central con n − 1 grados de libertad.
50
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 51
Para la aplicación de dicho resultado, se requiere estudiar la monotonía del argumento
de la distribución central. Para esto se representa el argumento como
G(δ ) =
[
ν r ( k * ) − r (δ )
[1 − r
2
][
]
]
( k * ) 1 − r 2 (δ )
.
(3.16)
De tal forma que el resultado anterior se puede formular de la siguiente manera
[
]
{ }
lim FT * ( δ ) k * − FT0 {G (δ )} = 0 .
ν →∞
ν
(3.17)
Proposición 3.2
La función G(δ ) es una función monótona decreciente.
La demostración es idéntica a la realizada en la sección 2.5.
3.10 VALORES CRÍTICOS PARA MUESTRAS GRANDES
Primeramente se define el espacio paramétrico bajo la hipótesis como
{
}
ω = è = ( µ, σ, c) : q ≥ µ + σΦ −1 (1 − p0 ) ∈ R , c > 0 .
Ahora para que la prueba sea de tamaño α se busca el valor de una constante k, tal
que
max P{T < k | è ∈ ω} ≤ α .
(3.18)
è ∈ω
Para esto se usa el Teorema 3.3, sustituyendo el estadístico de prueba y calculando la
siguiente probabilidad
{
}
P{T < k | è ∈ ω} = P h ( ρ)T * < k | è ∈ ω .
 

µ− q
  con n − 1 grados de
En donde, T * tiene la distribución t no central  n 

  σ ρ( n − 1) + 1  
libertad
Continuando con el cálculo de la probabilidad del error tipo I, dividiendo entre h (ρ) ,
y considerando el resultado de la Proposición 3.1 se tiene
51
Capítulo 3


k
P{T < k | è ∈ ω} ≤ PT * >
| è ∈ ω
h( ρ)


 k 

= 1 − FT * 
 h( ρ) 
De tal forma que
1
es creciente (negativa), luego su mínimo se obtiene cuando ρ
h( ρ)
es mínima, es decir, ρ = 0 .
Así,
 k 
 .
P{T < k | è ∈ ω} ≤ 1 − FT * 
 h( 0) 
(3.19)
Ahora utilizando una aproximación de la T * no central con la T0 central, para lo cual
se usa la siguiente simbología:
•
ν = n − 1 grados de libertad,
•


µ− q
,
El parámetro de centralidad δ = n 
 σ ρ(n − 1) + 1 


•
k* =
•
la función r ( z ) =
k
y
h (0)
z
z 2 +ν
.
Así al sustituir en (3.19) el resultado de la aproximación (3.17), se tiene:
 k 

P{T < k | è ∈ ω} ≤ 1 − FT * 
 h( 0) 
( )
= 1 − FT * k *
= 1 − FT0 (G(δ ) )
= FT0 (G(δ ) )
Como la función FT0 es decreciente, su máximo lo alcanza cuando el argumento,
G(δ) , es mínimo.
52
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 53
Por otro lado, se demostró en la proposición (3.2) que G(δ) es decreciente, por lo
tanto, su mínimo lo alcanza cuando su argumento, δ, es máximo.
Para obtener el valor máximo de δ bajo H 0 se usa la representación anterior,




µ− q
1
 = − n  q − µ 

δ = n
 σ ρ( n − 1) + 1 

σ

 ρ( n − 1) + 1 




1

≤ −Φ −1 (1 − p 0 ) n 
 ρ( n − 1) + 1 


− Φ − 1 (1 − p0 ) n
≤
−1
 − Φ (1 − p 0 )
si − Φ −1 (1 − p 0 ) > 0 ( ρ = 0)
si − Φ −1 (1 − p0 ) ≤ 0 ( ρ → 1)
− Φ −1 (1 − p 0 ) n
=
−1
 − Φ (1 − p 0 )
si Φ −1 (1 − p0 ) < 0 ( ρ = 0)
si Φ −1 (1 − p0 ) ≥ 0 ( ρ → 1)
Como p 0 se considerará mayor a 0.5, resultando la cota
δ ≤ δ0 = −Φ − 1 (1 − p 0 ) n .
Por otro lado, − Φ − 1 (1 − p0 ) n > 0 , esto es
δ0 > 0 .
(3.20)
De esta forma, se selecciona k tal que
P{T < k | è ∈ ω} ≤ FT0 (G(δ ) ) ≤ FT0 (G (δ0 ) ) = 1 − FT0 (G(δ0 ) ) ≤ α .
Despejando el argumento
FT0 (G(δ0 ) ) ≥ 1 − α
G(δ0 ) ≥ FT−01 (1 − α)
Definiendo α0 por
α0 = FT−0 1 (1 − α) .
(3.21)
Considerando α ≤ 0.5 , se tiene:
53
Capítulo 3
α0 = FT−0 1 (1 − α) > 0
Sustituyendo k * =
k
=−
h(0)
1
k
n −1
(3.22)
= − ν k , resulta lo siguiente
1  *

2
*2
k
δ
+
ν
−
δ
k
+ν
0
0

ν

1 
=
− ν k δ02 +ν − δ0 νk 2 + ν 


ν
G(δ0 ) =
= − k δ02 + ν − δ0 k 2 + 1
Por lo tanto,
− k δ02 + ν − δ0 k 2 + 1 ≥ α0
Falta encontrar el valor de k. Para esto de las expresiones (3.21) y (3.22) se nota que
− k δ02 + ν ≥ α0 + δ0 k 2 + 1 > 0
Luego,
k <0
(3.23)
De forma similar como se resolvió en el capítulo 2 en las páginas 27 y 28, se resuelve
la ecuación − k δ02 + ν − δ0 k 2 + 1 = α0 en k, y se obtiene el valor de la constante crítica
k.
Así, para p 0 ≥ 0.5 , α ≤ 0.5 y tamaño de muestra n, la constante crítica k es dada por:
k =−
α0 δ02 + ν + δ0 α02 + ν
ν
.
3.11 VALORES CRÍTICOS PARA MUESTRAS PEQUEÑAS
Note que en la demostración del Teorema 3.3, se obtuvo que el estadístico de prueba

 

µ− q
 
 Z no central  n 
2
c( n − 1) + σ 2 
 c( n − 1) + σ

T =−

(σ 2 − c)( n − 1) 
χn2−1 ( n − 1)



  

 
 





54
Prueba de hipótesis para variables aleatorias dependientes e idénticamente distribuidas. 55
donde Z no central y χn2−1 son variables aleatorias independientes. Luego,


 
µ− q


 
 Z no central  n 

2
c( n − 1) + σ 2 
 c( n − 1) + σ


P(T < k | è ∈ ω) ≤ P −

2
χn2−1 ( n − 1)
 (σ − c )( n − 1) 






 


µ−q
 



n
−Z



2
c ( n − 1) + σ 2   c (n − 1) + σ 

= P −

<k
2

2
σ −c 
χn −1









consideran do que c ≥ 0, se tiene

  



 
 

 < k H0










è ∈ ω




  q − µ

+ Z
 n

σ 


≤P
< k H0 

2

χn−1




utilizando la hipótesis nula
 nΦ −1 (1 − p ) + Z

≤ P
< k H0 


χn2−1


Así, la última expresión coincide con la obtenida en 2.7. Luego en el Apéndice B, se
muestran algunas tablas de valores críticos para ciertos n, p y α ∈ ( 0,1) y el programa en SPLUS con el cual se generaron y por último una tabla de comparaciones de los valores
críticos calculados por simulación con los valores obtenidos por la aproximación para
muestras grandes, k = −
α0 δ02 + ν + δ0 α02 + ν
ν
.
55
Capítulo 4
Aplicaciones
4.1 VARIABLES ALEATORIAS INTERCAMBIABLES O SIMÉTRICAMENTE
DEPENDIENTES
Una generalización de las variables aleatorias iid son las
intercambiables primeramente introducidas por B. De Finetti en 1970.
variables
aleatorias
Definición 4.1
Las variables aleatorias X 1 , K, X n se llaman simétricamente dependientes o
variables intercambiables (exchangeable random variables), si cualquier
permutación de cualquier subconjunto de ellas de tamaño k ( k ≤ n ) tiene la
misma distribución.
De Finetti demostró un elegante teorema para cualquier sucesión infinita de variables
aleatorias intercambiables.
Él demostró que cualquier sucesión de variables
intercambiables es una mezcla de variables aleatorias iid. El siguiente teorema muestra que
la distribución de una sucesión infinita de variables intercambiables {X n } se obtiene de una
aleatorización de una distribución binomial. Aquí, S n = X 1 + L + X n y se llama al suceso
{X k = 1} éxito.
Teorema
Para cada sucesión infinita de variables intercambiables, que toman sólo valores
de 0 y 1, les corresponde una distribución F dada en [0,1], tal que
P{X 1 = 1,K , X k
1
= 1, X k +1 = 0,K , X n
= 0} = ∫ θ k (1 − θ) n− k F {dθ}
0
1
 n
P{S n = k } =   ∫ θ k (1 − θ ) n − k F {dθ} .
k
 0
56
Aplicaciones 57
Generalización
Se puede llevar acabo un razonamiento similar con variables aleatorias, que permiten tres
valores, en tal caso se tendrán dos parámetros libres. En general, el teorema y su
demostración se pueden utilizar con variables aleatorias que tomen un número finito de
valores.
Este hecho significa que en un caso más general, las variables aleatorias
intercambiables se obtienen de sucesiones de variables aleatorias independientes con una
aleatorización por medio de algún parámetro. En algunos casos no se tiene ninguna
dificultad, pero el problema en general es difícil, puesto que los parámetros no están
definidos claramente. A pesar de todo esto, se han demostrado resultados generales del
teorema. Ver Hewitt E., Savage L. J., Symmetric measures on Cartesian products, Trans.
American Math. Soc., 80 (1956), 470-501. Ver Loève (1963). Ver Bühlmann H.,
Austauschbare stochastische Variabeln und ihre Grenzwertsätze, Univ. of California
Publications in Statistics, 3, No. 1 (1960), 1-36.
4.2 MATRIZ DE COVARIANZAS PARA DATOS INTERCAMBIABLES
En el caso de que las variables aleatorias X 1 , X 2 ,K , X n sean intercambiables, su matriz de
covarianzas es del tipo que se ha utilizado en el capítulo anterior para la prueba de
hipótesis. De manera más formal, se tiene el siguiente teorema.
Teorema 4.1
Sean las variables aleatorias X 1 , X 2 ,K , X n intercambiables, entonces su matriz
de varianzas y covarianzas es de la forma:
σ2 c

2
Ó=  c σ
M
 M
 c
c

L c 

L c .
O M 
L σ 2 
Demostración
u Sea el vector
X = ( X1 , X 2 ,K, X n ) ,
en donde las variables X 1 , X 2 ,K , X n son intercambiables.
Sea τ(⋅) una permutación del argumento. Aplicando la permutación al vector anterior, se
obtiene un nuevo vector de variables dado por
57
Capítulo 4
τ( X) = ( X τ (1) , X τ ( 2) ,K , X τ ( n ) ) .
Por otro lado, de la definición de variables intercambiables se tiene que la distribución
de los vectores X y τ(X) es la misma. Se sabe que si dos vectores tienen la misma
distribución, entonces sus matrices de covarianzas deben ser iguales.
Así, de esta forma la matriz de covarianzas para cualquier permutación τ(X) es la
misma
Óτ ( X )
 στ2(1)

=  cτ ( 2), τ (1)
M

c
 τ ( n ),τ (1)
L cτ (1), τ ( n ) 

L cτ ( 2), τ ( n ) 
O
M 

2
L στ ( n ) 
cτ (1),τ ( 2)
στ2( 2)
M
cτ ( n ),τ ( 2)
Sea τ * ( X) otra permutación de las variables, luego su matriz de covarianzas está dada por:
Óτ * ( X )
 σ 2*
 τ (1)
c
=  τ * ( 2), τ * (1)
M

c * *
 τ ( n), τ (1)
cτ * (1), τ * ( 2 )
στ2* ( 2)
M
cτ * ( n ),τ * ( 2 )
L cτ * (1),τ * ( n ) 

L cτ * ( 2 ),τ * ( n ) 
.
O
M

L
στ2* ( n ) 

De tal forma que
Óτ ( X ) = Óτ * ( X ) .
Pero del Álgebra de matrices se sabe que dos matrices son iguales cuando sus
elementos correspondientes son iguales, de tal forma que se cumple
στ2( i) = στ2* (i ) para toda i = 1, 2,K , n .
Como τ(i ) y τ * (i ) son dos permutaciones cualesquiera para i = 1, 2,K , n , se debe
satisfacer
στ2( i) = στ2* ( i ) = σ 2 para toda i = 1, 2,K , n .
Similarmente para las covarianzas.
cτ ( i ),τ ( j) = cτ * ( i), τ * ( j ) para toda i , j = 1, 2, K, n y i ≠ j .
58
Aplicaciones 59
Pero τ(⋅) y τ * (⋅) son dos permutaciones cualesquiera para i = 1, 2,K , n , luego, se
debe cumplir que
cτ ( i ),τ ( j ) = cτ * ( i ),τ * ( j ) = c para toda i , j = 1, 2, K, n y i ≠ j .
Así, se concluye que
Óτ ( X )
σ 2 c

2
= c σ
M
 M
 c
c

L c 

L c .
O M 
L σ 2 
El teorema queda demostrado. t
4.3 APLICACIONES A DATOS INTERCAMBIABLES
Se ha visto que en el caso de que las variables aleatorias
X 1 , X 2 ,K , X n sean
intercambiables, su matriz de covarianzas es del tipo que se ha utilizado en la prueba del
contraste de hipótesis visto en el capítulo 3.
Por otro lado, los datos intercambiables resultan en diferentes áreas. Por ejemplo, el
Dr. Ronald Randles de la Universidad de Florida ha hecho uso de la intercambiabilidad en
datos apareados, aplicados a la medicina. Él ha supuesto que cada paciente tiene una
medida tomada antes y después del tratamiento, con base en este hecho a formulado la
hipótesis nula de que las medidas antes de que y después de que son tomadas en un
tratamiento son intercambiables, es decir, que ninguna medida es afectada por el
tratamiento. Así los pares (Antes de, Después de) y (Después de, Antes de) tienen la
misma distribución.
Otra aplicación de datos intercambiados se tiene cuando los datos son reunidos en
bloques completamente aleatorizados en los que cada uno de los k tratamientos medidos
dentro de cada bloque, la hipótesis nula se refiere a que no existe ningún efecto del
tratamiento es que las k ! observaciones dentro de cada bloque es intercambiable, es decir,
que todas las k ! permutaciones de los datos dentro de cada bloque serían igualmente
probables.
59
Capítulo 4
4.4 EXTENSIÓN DE LA PRUEBA t PARA OBSERVACIONES DEPENDIENTES
4.4.1 Caso de independencia
Para el caso de una muestra aleatoria X 1 , X 2 ,K , X n de variables N ( µ,σ 2 ) se analiza (ver
[12], páginas 428-431), por medio del método de pruebas de la razón de verosimilitudes
generalizada, el contraste de hipótesis
H 0 : µ = µ0 , σ 2 > 0
H1 : µ ≠ µ0 , σ 2 > 0
en donde, µ0 es una constante conocida, el parámetro σ 2 es desconocido, el espacio
{
paramétrico bajo la hipótesis nula es ω = è = ( µ, σ 2 ) | µ = µ0 , σ 2
}
y el espacio
paramétrico Ω = R × R + .
Para utilizar el método anterior primeramente se obtienen los estimadores de máxima
verosimilitud de los parámetros ( µ, σ 2 ) bajo Ω = R × R + , los cuales resultan iguales a
( µˆ , σˆ 2 ) = ( X , S n2−1 ) .
Por otro lado, los estimadores de los parámetros bajo ω son


1 n
( µ0 ,σˆ 2 ) =  µ0 ,
( X i − µ0 ) 2  .
∑
n − 1 i=1


De está manera al aplicar el método de la razón de verosimilitudes generalizada y el
resultado de que X y Sn2−1 son independientes, se obtiene el estadístico de prueba
T=
X − µ0
S n −1
.
n
Donde T tiene una distribución t-student con n − 1 grados de libertad y la hipótesis
nula se rechaza cuando T < −k o T > k , con la constante crítica k igual al cuantil
t1−α 2 ( n − 1) .
4.4.2 Caso de dependencia
Para el caso en que las variables aleatorias X 1 , X 2 ,K , X n son dependientes la prueba
anterior se complica enormemente, y su solución depende de la matriz de covarianzas. En
general, en la literatura de Estadística no se tienen pruebas para estos casos.
Cuando
X 1 , X 2 ,K , X n
son
variables
aleatorias
intercambiables
normalmente
distribuidas con parámetros µ, σ 2 y con covarianzas homogéneas, c, se demuestra en el
60
Aplicaciones 61
apéndice A que no se puede aplicar el método de pruebas de la razón de verosimilitudes
generalizada, debido a que no existen los estimadores de máxima verosimilitud para µ, σ 2
y c.
De tal forma que si
X 1 , X 2 ,K , X n
son variables aleatorias intercambiables
normalmente distribuidas con parámetros µ, σ 2 y c la prueba para el contraste de
hipótesis
H 0 : µ = µ0 , σ 2 > 0
H1 : µ ≠ µ0 , σ 2 > 0
en donde, µ0 es una constante conocida, el parámetro σ 2 es desconocido, el espacio
{
}
paramétrico bajo la hipótesis nula es ω = è = ( µ, σ 2 , c) | µ = µ0 ,σ 2 , c
y el espacio
paramétrico Ω = R × R + × R + ; se busca en base a un estadístico similar al caso de
independencia.
En las sección 3.7.1 y 3.7.2 se demostró que en el caso de variables intercambiables
normalmente distribuidas con parámetros µ y σ 2 se tiene que
 c( n − 1) + σ 2
X ~ N  µ,
n


 n −1 σ2 − c 
 y S n2 ~ Γ


 2 ,2 n 



además, en la propiedad 5 de la sección 3.6 se demostró que X y Sn2−1 siguen siendo
independientes. De tal forma que bajo H 0 se cumple
X − µ0
c( n − 1) + σ 2
n
~ N (0,1) y
 n −1 
~ Γ
,2  = χn2−1 y son independientes.
σ −c
 2

nS n2
2
Así la distribución de la siguiente estadística T * se obtiene de la distribución t central
con n − 1 grados de libertad
T* =
c( n − 1) + σ 2
n
.
2
2
nS n (σ − c )
n −1
( X − µ0 )
Simplificando la expresión anterior, se obtiene
61
Capítulo 4
T* =
X − µ0
S n−1
X − µ0
σ2 − c
=
c( n − 1) + σ 2
S n −1 n
n
1− ρ
ρ( n − 1) + 1
De tal forma que
T* =
en donde, X
h ( ρ) =
X − µ0
S n−1
n
h( ρ) ~ t n −1 ,
y S n2−1 son la media y varianza muestrales y son independientes, y
1− ρ
con 0 ≤ ρ < 1 .
ρ( n − 1) + 1
Para llevar a cabo la prueba se usará un estadístico similar al caso de variables
aleatorias independientes, y que se denota por
T=
X − µ0
S n −1
.
n
Ahora se busca la constante crítica k, tal que
1 − α = max P{− k < T < k | H 0 }
0≤ ρ < 1


T*
= max P− k <
< k | H0 
0≤ ρ < 1
h( ρ)


{
= max P T * < kh( ρ) | H 0
0≤ ρ < 1
}
= max FT * [kh( ρ) ]
0≤ ρ < 1
= F T *  k  max h( ρ) 
  0≤ ρ <1

Proposición
La función h (⋅) es monótona decreciente
Para probar se deriva
1− ρ
ρ(n − 1) + 1
d  1 − ρ  − [ρ( n − 1) + 1] − (1 − ρ)( n − 1)
n
=
−
< 0.

=
dρ  ρ( n − 1) + 1 
[ρ( n − 1) + 1]2
[ρ( n − 1) + 1]2
62
Aplicaciones 63
Luego,
1− ρ
es monótona decreciente y la función raíz cuadrada es monótona
ρ(n − 1) + 1
creciente, esto implica que h (ρ) es monótona decreciente.
De la proposición anterior resulta que el máximo de la función h (⋅) se obtiene cuando
ρ = 0 , es decir, cuando h (0) = 1 . Así,


1 − α = F T * k  max h( ρ)  

  0 ≤ ρ <1
= F T * [kh( 0) ]
= F T * [k ]
Finalmente se tiene que la prueba no rechaza H 0 cuando − k < T < k , donde k es tal
que para α ∈ ( 0,1) ,
(
)
P − k < T * < k | H0 ≤ 1 − α .
Con k = t 1−α 2 (n − 1) el 1 − α 2 cuantil de la distribución t- student con n − 1 grados
de libertad.
De tal forma que se obtiene la misma prueba que en el caso de independencia.
63
Capítulo 5
Conclusiones
Dadas las variables aleatorias X 1 , X 2 ,K , X n , normalmente distribuidas con parámetros µ
y σ 2 la prueba para el contraste de hipótesis
H 0 : p ≤ p0
H1 : p > p0
en donde, p 0 es una constante conocida y p es la probabilidad de que las variables
aleatorias tomen valores por encima de un valor q constante y definido de antemano; está
basada en una distribución t, tanto para el caso de independencia como el de variables
aleatorias dependientes normalmente distribuidas con covarianzas homogéneas. Teniendo
como resultado la coincidencia de la prueba en ambos casos. Aquí se puede hacer notar
que aún cuando las pruebas coinciden, en el caso de dependencia no existen los estimadores
de máxima verosimilitud para los parámetros, como los utilizados en el caso de variables
aleatorias independientes.
En el caso de variables aleatorias intercambiables resulta que éstas cumplen las
condiciones de variables aleatorias dependientes con covarianzas homogéneas, por
consiguiente, se puede aplicar la prueba anterior a este tipo de datos.
Por otro lado, el método de la razón de verosimilitud generalizada para la prueba de
hipótesis de la media de variables aleatorias independientes con distribución normal y
parámetros µ y σ 2 resulta una herramienta muy útil, sin embargo, para el caso de
variables aleatorias intercambiables no es posible implementar el método, ya que no existen
los estimadores de máxima verosimilitud de los parámetros respectivos.
64
64
Conclusiones 65
De esta forma para llevar acabo una prueba de hipótesis sobre la media de variables
aleatorias intercambiables se propone usar un estadístico de prueba similar al que se obtiene
en el método de la razón de verosimilitud generalizada para el caso de variables aleatorias
independientes. Resultando que aún cuando se trate de variables aleatorias intercambiables
la prueba coincide con la de variables aleatorias independientes.
DISCUSIÓN
En el desarrollo de la prueba para las variables aleatorias dependientes con covarianzas
homogéneas se lleva a efecto una transformación para las variables. En esta parte se puede
apreciar que las ideas y resultados que aquí se obtiene se pueden extender a otro tipo de
matrices de varianzas y covarianzas, en especial para el caso de procesos estocásticos con
covarianzas estacionarias. Cabe señalar que aunque las ideas parecen ser propicias para
llevar a cabo una prueba en estas últimas condiciones, queda la pregunta abierta referente a
la transformación adecuada para llegar a la independencia de X y S X2 o de alguna función
lineal de estas.
65
Apéndice A
Método de máxima verosimilitud para probar la hipótesis de
variables aleatorias dependientes e idénticamente distribuidas
A.1 PLANTEAMIENTO DEL PROBLEMA
Sean
X 1 , X 2 ,K , X n
variables aleatorias dependientes normalmente distribuidas con
parámetros µ y σ 2 . Se quiere encontrar una prueba para el contraste de hipótesis:
H 0 : p ≤ p0
H1 : p > p0
en donde, p 0 es una constante conocida y p es la probabilidad de que las variables
aleatorias tomen valores por encima de un valor q constante y definido de antemano, esto
es:
p = P[ X i > q] , para toda i.
Suponiendo normalidad de las variables aleatorias y estandarizando resulta:
q − µ
q − µ

p = 1 − Φ
.
 = P Z >
σ 
 σ 

De donde,
 q − µ
1 − p 0 ≤ Φ
.
 σ 
Así, las hipótesis son equivalentes a:
H0 :
q−µ
≥ Φ −1 (1 − p0 )
σ
q−µ
H1 :
< Φ −1 (1 − p0 )
σ
(a.1)
66
Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 67
De donde, la estadística de prueba para la solución del problema está dada por:
T=
q − µˆ
.
σˆ
(a.2)
Es decir, se buscará la distribución de la estadística de prueba T de tal forma que
cumpla con el contraste de hipótesis
H 0 : T ≥ Φ − 1 (1 − p 0 )
(a.3)
H1 : T < Φ −1 (1 − p0 )
A.2 ESTIMADORES DE MÁXIMA VEROSIMILITUD PARA µ , σ y c
Sean X 1 , X 2 , K, X n las variables aleatorias del proceso de manera que su función de
verosimilitud está dada por
f X|µ~ , σ~ 2 , ~c ( x | µ, σ 2 , c ) =
1
( 2π ) n
2
 1

exp − ( x − µ1) t Ó− 1 ( x − µ1)
det( Ó)
 2

(a.4)
En donde, µ1 es el vector cuyas componentes son todas iguales a µ, x una realización
de la muestra y Ó matriz de covarianzas con la misma varianza, σ 2 , y covarianzas
homogéneas, cov( X i , X j ) = c . Es decir, para
σ2 c

2
Ó=  c σ
M
 M
 c
c

L c 

L c 
O M 
L σ 2 
(a.5)
Los cálculos de la inversa y el determinante se tienen en el Teorema A.1.
Teorema A.1
Sea la matriz de covarianzas dada en la expresión (a.5), entonces se cumple
−1
a).- Ó =
(
)
(c (n − 1) + σ )I − cJ .
=
(σ − c) [c (n − 1) + σ ]
cJ − c( n − 1) + σ 2 I
2
( n − 1) c 2 − (n − 2)cσ 2 − σ 4
[
2
2
]
b).- det( Ó) = (σ 2 − c) n −1 c( n − 1) + σ 2 .
En donde I representa la matriz identidad de orden n × n , y J la matriz de unos
también del mismo orden.
67
Apéndice A
Demostración
u Primeramente se representa la matriz de covarianzas de la siguiente forma:
Ó = cJ + (σ 2−c )I
a).- De esta manera la comprobación es sencilla, basta con verificar las igualdades
ÓÓ− 1 = Ó−1 Ó = I
Luego, se tiene
ÓÓ−1 =
=
1
[cJ + (σ −c)I][cJ − (n − 1)cI − σ I]
2
( n − 1)c − ( n − 2) cσ − σ
2
2
4
2
[c JJ − (n − 1)c JI − σ cJI ] + [(σ −c )cIJ − (n − 1)(σ −c )cII − σ
2
2
2
2
2
( n − 1)c − ( n − 2) cσ − σ
2
2
2
(σ 2−c) II
]
4
Como JJ = nJ , II = I , JI = IJ = J , se tendrá
ÓÓ−1 =
=
=
nc 2 J − (n − 1)c 2 J − σ 2 cJ + (σ 2−c) cJ − ( n − 1)(σ 2−c )cI − σ 2 (σ 2−c )I
( n − 1)c 2 − ( n − 2) cσ 2 − σ 4
[
]
c 2 J − c 2 J + − ( n − 1)(σ 2−c) c − σ 2 (σ 2−c ) I
( n − 1) c 2 − ( n − 2) cσ 2 − σ 4
[− (n − 1)σ c + (n − 1)c
2
2
]
− σ4 + σ2c I
(n − 1)c − ( n − 2)cσ − σ
2
2
4
=I
Similarmente Ó−1 Ó = I .
b).- El determinante se cálculo en el teorema 3.1. El teorema queda demostrado. t
Continuando con los cálculos, considerando el logaritmo natural de la expresión (a.4)
1
n
1
l X|µ~ , σ~ 2 , ~c ( x | µ, σ 2 , c ) = − (x − µ1) t Ó−1 ( x − µ1) − ln (2π ) − ln (det( Ó) ) .
2
2
2
(a.6)
Falta derivar con respecto a los diferentes parámetros.
68
Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 69
A.2.1. DERIVADA CON RESPECTO A LA MEDIA
[
]
∂
1
1
l X| µ~ ,σ~ 2 , ~c (x | µ, σ 2 , c) = 1 t Ó−1 (x − µ1) + ( x − µ1) t Ó−1 (1)
∂µ
2
2
=
(
)
(
)
(
)
1 t −1
1
1
1

1 Ó x − µ 1t Ó−1 1 + x t Ó−1 1 − µ 1 t Ó−1 1 
2
2
2
2

Como cada término de la última igualdad es un número, esto significa que las
transpuestas correspondientes son iguales, luego se tiene
[
]
∂
l X| µ~ ,σ~ 2 , ~c (x | µ, σ 2 , c) = 1t Ó−1 x − µ1t Ó−1 1 .
∂µ
Igualando a cero la expresión de la derivada y despejando la media, se obtiene su
estimador de máxima verosimilitud
t
−1
ˆ = 1 Ó x.
µ
1t Ó−11
Empleando la inversa de la matriz de covarianzas del teorema anterior, para calcular
el estimador de la media
1 t Ó−1 1 =
=
=
=
=
=
1
( n − 1) c − ( n − 2)cσ − σ
2
2
4
[
]
1t cJ − c( n − 1)I − σ 2 I 1
[
]
1
c1t J1 − c ( n − 1)1t 1 − σ 2 1t 1
2
4
( n − 1) c − ( n − 2)cσ − σ
2
1
( n − 1) c − ( n − 2)cσ − σ
2
2
(
n c − σ2
4
[cn
2
]
− c( n − 1) n − σ 2 n
)
( n − 1) c − ( n − 2)cσ 2 − σ 4
2
(
)(
)
n c − σ2
c − σ 2 c( n − 1) + σ 2
(
)
n
c ( n − 1) + σ 2
Similarmente, para el numerador
69
Apéndice A
1 t Ó−1 x =
=
=
=
1
( n − 1)c − ( n − 2) cσ − σ
2
2
[
]
4
1t cJ − c (n − 1)I − σ 2 I x
4
[c1 Jx − c (n − 1)1 x − σ 1 x ]
1
t
( n − 1)c − ( n − 2) cσ − σ
2
2
t
2
t
n
n
 n

2
cn
x
−
c
(
n
−
1
)
x
−
σ
xi 
∑
∑
∑
i
i
2
2
4 
( n − 1)c − ( n − 2) cσ − σ  i =1
i=1
i =1

1
1
[cnx − σ nx ]
2
( n − 1)c − ( n − 2) cσ − σ
2
2
(
4
)


n c − σ2
=
x
2
2
4 
 (n − 1)c − ( n − 2)cσ − σ 


n
=
x
2 
 c( n − 1) + σ 
Finalmente, resulta
t
−1
ˆ = 1 Ó 1( x ) =
µ
1 t Ó−1 (1)
(a.7)
=x
A.2.2. DERIVADA CON RESPECTO A LA VARIANZA
Para la varianza se deriva la expresión (a.6) con respecto a σ 2
[
]
( )
∂
1
1 ∂
2
t ∂
−1 
l
(
x
|
µ
,
σ
,
c
)
=
−
(
x
−
µ
1
)
Ó
(
x
−
µ
1
)
−
ln (det( Ó) ) (a.8)
~
~
2
~
 ∂σ 2

2
2 ∂σ 2
∂σ 2 X |µ , σ , c
Derivando la matriz inversa de covarianzas
∂
∂σ 2
(Ó ) =
−1
∂ 
1
2 
c
J
−
c
(
n
−
1
)
I
−
σ
I

∂σ 2  ( n − 1) c 2 − (n − 2)cσ 2 − σ 4

[(n − 1)c
=
[
2
]
[
]
][
− ( n − 2)cσ 2 − σ 4 ( −I ) + cJ − c( n − 1) I − σ 2 I ( n − 2) c + 2σ 2
[(n − 1)c
2
− ( n − 2)cσ 2 − σ
]
]
4 2
Simplificando el numerador de la última expresión
70
Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 71
[( n − 1)c − (n − 2) cσ − σ ]( −I ) + [cJ − c (n − 1)I − σ I][( n − 2)c + 2σ ] =
[( n − 1)c − (n − 2) cσ − σ ]( −I ) + cJ[(n − 2)c + 2σ ] − [c(n − 1) + σ ][( n − 2)c + 2σ ]I =
J c[( n − 2 )c + 2σ ] − I{( n − 1) c − (n − 2) cσ − σ + [c( n − 1) + σ ][(n − 2) c + 2σ ]} =
J c[( n − 2 )c + 2σ ] − I{( n − 1) c − (n − 2) cσ − σ + c (n − 1)( n − 2) + σ c[2 n − 2 + n − 2 ] + 2σ } =
J c[( n − 2 )c + 2σ ] − I{( n − 1) c + 2( n − 1)cσ + σ }=
= J c[(n − 2 )c + 2σ ] − I[( n − 1)c + σ ]
2
2
4
2
2
4
2
2
2
2
2
4
2
2
2
4
2
2
2
2
2
2
2
2
2
2
2
4
4
2 2
2
Sustituyendo la expresión para el numerador, se tiene:
( )
[
] [
∂
Jc ( n − 2) c + 2σ 2 − I (n − 1)c + σ 2
−1
Ó =
2
∂σ 2
( n − 1)c 2 − ( n − 2)cσ 2 − σ 4
[
]
]
2
(a.9)
Sustituyendo la expresión (a.9) en el primer término de la expresión (a.8) y
reduciendo
t
[
] [
2

1
− I ( n − 1)c + σ 2

t  J c (n − 2)c + 2σ
(
x
−
µ
1
)
=
−
(
x
−
µ
1
)


2
2


(n − 1) c 2 − ( n − 2 )cσ 2 − σ 4
( )
 ∂
− (x − µ1)  2 Ó−1
2
 ∂σ
1
[
]
]
2

(x − µ1) (a.10)

En la expresión (a.10) se tomarán los productos entre matrices y vectores
( x − µ1) t J (x − µ 1) = x t Jx − µ (1) t Jx − µx t J1 + µ 2 (1 ) t J1
2
n
n
 n

=  ∑ xi  − µn ∑ xi − µn ∑ xi + µ 2 n 2
 i =1 
i =1
i =1
 n

=  ∑ xi − n µ 
 i =1

2
= n 2 (x − µ )
2
De la expresión (a.10)
=0
Similarmente con la matriz identidad.
71
Apéndice A
( x − µ1) t I (x − µ 1) = x t Ix − µ (1 ) t Ix − µ (x ) t I1 + µ 2 (1) t I1
n
n
i=1
i =1
= ∑ xi2 − 2 µ ∑ xi + µ 2 n
1 n

= n  ∑ x i2 − 2 µx + µ 2 
 n i=1

1 n

= n  ∑ x i2 − x 2 + x 2 − 2 µx + µ 2 
 n i=1

1 n

= n  ∑ x i2 − x 2 + ( x − µ ) 2 
 n i=1

1 n

= n  ∑ x i2 − x 2 
 n i=1

= nS n2
Sustituyendo los resultados de los productos entre matrices y vectores en la expresión
(a.10), resulta
−

( )( x − µ1) = − 1 (x − µ 1)  Jc[(n − 2)c + 2σ ] − I[( n − 1)c + σ ]
2

 [(n − 1)c − (n − 2 )cσ − σ ]
 ∂
( x − µ1 ) t  2 Ó−1
2
 ∂σ
1
2 2
2
t
2
[
]
2
[
4 2

(x − µ1)

1  (x − µ 1) t J ( x − µ1 )c ( n − 2) c + 2σ 2 − (x − µ1) t I (x − µ 1) ( n − 1) c + σ 2
=− 
2
2
(n − 1)c 2 − (n − 2 )cσ 2 − σ 4

[
[
]
nS n2 ( n − 1)c + σ 2
1 
= 
2  (n − 1)c 2 − (n − 2 )cσ 2 − σ 4

[
[
2
]
nS n2 ( n − 1)c + σ 2
1 
= 
2  − (σ 2 − c) ( n − 1)c + σ 2

[
=
2
(
)]
]
]
2




2 

]

2


n
S n2
 2
2 
2  (σ − c ) 
Esto es
t

S n2
n

(
x
−
µ
1
)
=



2  (σ 2 − c) 2 

( )
 ∂
− ( x − µ1)  2 Ó−1
2
 ∂σ
1
(a.11)
72
Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 73
Por otro lado, de la expresión (a.6) se observa que falta la derivada del logaritmo del
determinante de la matriz de covarianzas, para esto se utiliza la expresión del determinante
calculado en el Teorema A.1.
∂
∂σ
2
ln (det( Ó) ) =
=
=
=
=
=
∂
∂σ 2
[
(
ln (σ 2 − c) n−1 c(n − 1) + σ 2
(
)]
)
( n − 1)(σ 2 − c) n− 2 c( n − 1) + σ 2 + (σ 2 − c) n−1
(σ − c)
2
(
n−1
(c (n − 1) + σ )
2
)
( n − 1) c( n − 1) + σ 2 + (σ 2 − c)
(
(σ − c ) c( n − 1) + σ 2
2
)
c( n 2 − 2 n + 1) + ( n − 1)σ 2 + σ 2 − c
(
(σ 2 − c) c( n − 1) + σ 2
c (n 2 − 2 n ) + n σ 2
(
(σ 2 − c) c (n − 1) + σ 2
(
n c( n − 2) + σ 2
(
)
(σ − c) c (n − 1) + σ 2
2
)
)
)
Esto es
1 ∂
2 ∂σ
2
(
)

n
c (n − 2 ) + σ 2
 2
2 
2  (σ − c ) c( n − 1) + σ 
ln (det( Ó)) =
(
)
(a.12)
Finalmente, sustituyendo (a.11) y (a.12) en (a.6)
[
(
]
)
 n

n  S n2
c( n − 2) + σ 2
l
(
x
|
µ
,
σ
,
c
)
=
−
~
~
~
2




2  (σ 2 − c ) 2  2  (σ 2 − c) c( n − 1) + σ 2 
∂σ 2 X |µ ,σ , c
∂
2
(
(
)
)
=

n  S n2
c (n − 2) + σ 2
−
 2

2  (σ − c ) 2 (σ 2 − c ) c (n − 1) + σ 2 
=
n  S n2 c( n − 1) + σ 2 − (σ 2 − c ) c (n − 2) + σ 2 


2
(σ 2 − c) 2 c ( n − 1) + σ 2

(
)
(
(
(
)
)
)
Al igualar a cero la derivada, resulta la ecuación
(
)
(
S n2 c (n − 1) + σ 2 − (σ 2 − c) c (n − 2) + σ 2
(
(σ − c ) c( n − 1) + σ
2
2
2
)
)=0
(a.13)
73
Apéndice A
A.2.3. DERIVADA CON RESPECTO A LA COVARIANZA
Para la covarianza se deriva la expresión (a.6) con respecto a c.
[
]
( )
∂
1
∂
1 ∂
l X |µ~ ,σ~ 2 ,~c (x | µ, σ 2 , c ) = − ( x − µ1) t  Ó−1  (x − µ1) −
ln (det( Ó) )
∂c
2
2 ∂c
 ∂c

(a.14)
Derivando la matriz inversa de covarianzas
∂ −1
∂ 
1
2 
Ó = 
c
J
−
c
(
n
−
1
)
I
−
σ
I
∂c
∂c  (n − 1)c 2 − ( n − 2)cσ 2 − σ 4

[
( )
=
[(n − 1)c
]
]
[(n − 1)c
[
][
− (n − 2)cσ 2 − σ 4 ( J − (n − 1)I) − cJ − c(n − 1)I − σ 2 I 2(n − 1)c − (n − 2)σ 2
2
2
− (n − 2)cσ − σ
2
]
]
4 2
Simplificando el numerador de la última expresión
[( n − 1)c − (n − 2) cσ − σ ]( J − (n − 1)I) − [cJ − c( n − 1)I − σ I ][2(n − 1)c − (n − 2)σ ] =
= J {( n − 1) c − (n − 2 )cσ − σ − c[2 (n − 1)c − (n − 2 )σ ]}+
+ I{− [( n − 1) c − (n − 2 )cσ − σ ]( n − 1) + [c(n − 1) + σ ][2 (n − 1)c − (n − 2 )σ ]}=
= J {− ( n − 1)c − σ } + I{(n − 1) c + 2 c(n − 1)σ + σ }=
= J {− ( n − 1)c − σ } + I [c( n − 1) + σ ]
2
2
2
4
2
2
2
4
2
2
2
4
2
4
2
4
2
2
2
2
2
4
2 2
Sustituyendo la expresión para el numerador, se tendrá:
( ) [
]
{
2
∂ −1
I c (n − 1) + σ 2 − J ( n − 1)c 2 + σ 4
Ó =
2
∂c
( n − 1) c 2 − ( n − 2)cσ 2 − σ 4
[
]
}
(a.15)
Sustituyendo la expresión (a.15) en el primer término de la expresión (a.14)
[
]
{
2 2
− J (n − 1)c 2 + σ 4
 (x − µ1) = − 1 (x − µ 1) t  I c (n − 1) + σ


2
2
 (n − 1)c 2 − (n − 2)c σ 2 − σ 4
( )
1
∂
− (x − µ1) t 
Ó −1
2
 ∂c
[
]
}(x − µ1)

(a.16)
En la expresión (a.16) se utilizan los productos entre matrices y vectores que se
realizaron para la expresión (a.10), en donde resultó:
t
2
( x − µ1) t J (x − µ 1) = 0 y ( x − µ1) I (x − µ1) = nS n
Se obtiene
t
[
]
2
S n2 c( n − 1) + σ 2
n 

 (x − µ1) = − 2 

 ( c − σ 2 ) 2 c( n − 1) + σ 2
( )
∂
− ( x − µ1 ) 
Ó−1
2
 ∂c
1
[


S n2
n
(a.17)
=
−
 2
2 
2 
2  (σ − c) 

]
74
Método de máxima verosimilitud para probar la hipótesis de variables aleatorias dependientes e idénticamente distribuidas. 75
Por otro lado, de la expresión (a.14) se observa que falta la derivada del logaritmo del
determinante de la matriz de covarianzas, para esto se utiliza la expresión del determinante
calculado en el Teorema A.1.
[
∂
∂
ln (det( Ó) ) =
ln (σ 2 − c ) n −1 c( n − 1) + σ 2
∂c
∂c
=
=
=
(
(
)]
)
− ( n − 1)(σ 2 − c) n− 2 c (n − 1) + σ 2 + (σ 2 − c) n −1 ( n − 1)
(
(σ 2 − c) n −1 c ( n − 1) + σ 2
[(
)
− ( n − 1) c (n − 1) + σ 2 − (σ 2 − c)
(
(σ 2 − c) c( n − 1) + σ 2
− cn (n − 1)
(
(σ − c ) c ( n − 1) + σ 2
2
)
]
)
)
Esto es

1 ∂
n
c ( n − 1)
ln (det( Ó) ) = −  2
2 
2 ∂c
2  (σ − c) c( n − 1) + σ 
(
)
(a.18)
Finalmente, sustituyendo (a.17) y (a.18) en (a.14)
[
]
 n

∂
n  S n2
c( n − 1)
2
l X |µ~ ,σ~ 2 , ~c (x | µ, σ , c) = −  2
+


=
∂c
2  (σ − c) 2  2  (σ 2 − c) c( n − 1) + σ 2 
(
=
)

n  − S n2
c (n − 1)
+
 2
=
2  (σ − c) 2 (σ 2 − c ) c (n − 1) + σ 2 
(
(
)
)
n  − S n2 c ( n − 1) + σ 2 + (σ 2 − c )c ( n − 1) 
= 

2
(σ 2 − c) 2 c( n − 1) + σ 2

(
)
Al igualar a cero la derivada, resulta la ecuación
(
)
− S n2 c ( n − 1) + σ 2 + (σ 2 − c )c (n − 1)
(
(σ 2 − c) 2 c ( n − 1) + σ 2
)
=0
(a.19)
Se forma el sistema de ecuaciones, para encontrar los estimadores de máxima
verosimilitud. Así de las ecuaciones (a.7), (a.13) y (a.19)
75
Apéndice A


µ − x = 0 (a.7 )

 2
 S n c (n − 1) + σ 2 − (σ 2 − c ) c ( n − 2) + σ 2
= 0 (a.13)

(σ 2 − c ) 2 c( n − 1) + σ 2



− S n2 c( n − 1) + σ 2 + (σ 2 − c )c (n − 1)
= 0 (a.19)

(σ 2 − c) 2 c ( n − 1) + σ 2

(
)
(
(
(
(
)
)
)
)
Sumando (a.13) + (a.19), se obtiene
(
)
− (σ 2 − c ) c ( n − 2) + σ 2 + (σ 2 − c )c (n − 1)
(σ 2
=0
(
)
− c) (c( n − 1) − c( n − 2) − σ )
=0
(σ − c) (c ( n − 1) + σ )
(σ − c ) c( n − 1) + σ 2
2
2
2
2
2
2
(σ 2 − c) 2
=0
(σ 2 − c) 2 c ( n − 1) + σ 2
(
)
1
c ( n − 1) + σ 2
=0
Es decir, ¡no existen estimadores de máxima verosimilitud!, puesto que la última
igualdad se cumple sólo cuando c o σ 2 crecen indefinidamente.
Otra forma de demostrar que los estimadores de máxima verosimilitud no existen, se
tiene al analizar la propiedad 1 del capítulo 3, página 44. En donde, se puede observar que
las variables de la transformación Y = AX , Y1 y las restantes variables Yi 2 ≤ i ≤ n tienen
diferentes varianzas y son independientes. Ahora, como se necesitan estimar 3 parámetros
se puede dar un valor cualesquiera a uno de ellos y de esta forma se puede elegir una
función de máxima verosimilitud cada vez más grande, sin acotación.
76
Apéndice B
Simulación de valores críticos para muestras pequeñas
B.1 PLOGRAMA EN S-PLUS
A continuación se muestra el programa elaborado en S-PLUS, para calcular tanto la tabla
de cuantiles, como los resultados de comparar los valores simulados, con los valores
críticos calculados en la aproximación que se obtuvo de forma analítica.
#SE PROGRAMA UNA SIMULACIÓN CON R REPETICIONES PARA CALCULAR LOS
CUANTILES DE LA DISTRIBUCIÓN DESCONOCIDA
numerador<-function(n,p,r)
{
(sqrt(n)*qnorm(1-p)+rnorm(r))/sqrt(n-1)
}
denominador<-function(n,r)
{
sqrt(rchisq(r,(n-1))/(n-1))
}
Probabilidad<-function(n,p,r)
{
numerador(n,p,r)/denominador(n,r)
}
suma<-function(n,p,alfa,r)
{
s<-0
k<-1
ordenar<-sort(Probabilidad(n,p,r))
while(s <= alfa)
{
s<-s+abs(ordenar[k]/r)
k<-k+1
}
cuantil<-ordenar[k-1]
cuantil
}
77
Apéndice B
teorico<-function(n,p,alfa)
{
alfa0<-qt(1-alfa,n-1)
delta0<-(-qnorm(1-p)*sqrt(n))
-(alfa0*sqrt(delta0^2+n-1)+delta0*sqrt(alfa0^2+n-1))/(n-1)
}
final<-function(alfa, cp=c(0.6,0.7,0.75,0.8,0.9,0.95,0.99,0.995),
cn=c(5:30,35,40,45,50),r=100000)
{
valoresp<- cp
valoresn<-cn
np<-length(valoresp)
nn<-length(valoresn)
resultados<-matrix(NA,nn,np)
for(i in 1:np)
for(j in 1:nn)
{
posi<-valoresp[i]
posj<-valoresn[j]
resultados[j,i]<-suma(posj,posi,alfa,r)
}
cat("\n","
Critical values for alfa=", alfa, "\n")
presentacion<-matrix(NA,nn,np)
for(i in 1:np)
{
presentacion[,i]<-resultados[,i]
}
row.names(presentacion)<- valoresn
names(presentacion)<c("p=0.60","p=0.70","p=0.75","p=0.80","p=0.90","p=0.95","p=0.99"
,"p=0.995")
print( presentacion)
cat("\n" )
}
tablas<-function(valoresf=c(0.01,0.02,0.025,0.05,0.10,0.20))
{
for(i in 1:length(valoresf))
final(valoresf[i])
}
comprobar<-function(ca=c(0.01,0.02,0.025,0.05,0.10,0.20),
cn=c(5,10,15,20,25,30,40,50),cp=c(0.6,0.7,0.75,0.8,0.9,0.95,0.99
,0.995), alfa,m=5,r=100000)
{
78
Simulación de valores críticos para muestras pequeñas. 79
for(s in 1:length(ca))
{
alfai<-ca[s]
tn<-length(cn)
tp<-length(cp)
cat("\n"," Comparacion de resultados por simulacion y
aproximado, respectivamente, para alfa=", alfai, "\n")
comparacion<- matrix(NA,tn,tp)
comparacion1<- matrix(NA,tn,tp)
for(i in 1:tn)
for(j in 1:(tp/2))
{
aux<-2*j-1
jj<-aux+1
vni<-cn[i]
vpj<-cp[j]
comparacion[i,aux]<-suma(vni,vpj,alfai,r)
comparacion[i,jj]<-teorico(vni,vpj,alfai)
jc<-j+4
vpj<-cp[jc]
comparacion1[i,aux]<-suma(vni,vpj,alfai,r)
comparacion1[i,jj]<-teorico(vni,vpj,alfai)
}
row.names(comparacion)<- cn
names(comparacion)<c("p=0.60","p=0.60","p=0.70","p=0.70","p=0.75","p=0.75","p=0.80"
,"0.80")
print( comparacion)
cat("\n")
row.names(comparacion1)<- cn
names(comparacion1)<c("p=0.90","p=0.90","p=0.95","p=0.95","p=0.99","p=0.99","p=0.995
","0.995")
print( comparacion1)
}
}
B.2 TABLAS DE CUANTILES
79
Apéndice B
n
n
80
Simulación de valores críticos para muestras pequeñas. 81
n
n
81
Apéndice B
n
n
82
Simulación de valores críticos para muestras pequeñas. 83
B.3 COMPARACIONES
En las siguientes tablas se muestran algunas comparaciones entre los valores simulados y
los valores calculados con la aproximación del valor crítico.
n
n
n
83
Apéndice B
n
n
n
De las comparaciones anteriores, se puede apreciar que cuando el valor de p, es más
grande ( 0.5 < p < 1 ) y el nivel de significancia disminuye los valores simulado y
aproximado se asemejan más a partir de muestras de tamaño 30, en los demás casos se
requieren muestras mayores.
84
Bibliografía
[1]
Billingsley, Patrick, Probability and Measure, JOHN WILEY & SONS, New York,
1979.
[2]
Box, George E. P; Jenkins, Gwilym M. and Reinsel, Gregory C., Time Series
Analysis. Forecasting and Control, PRENTICE HALL INTERNATIONAL, INC.,
USA, 1994.
[3]
Brocwell, Peter J. and Richard A. Davis, Introduction to Time Series and
Forecasting, SPRINGER-VERLANG, New-York, Inc. 1996.
[4]
Casella, G. & Berger, R.L., Statistical Inference, DUXBURY PRESS, Belmont,
California, 1990.
[5]
Chatfield, Chris, The analysis of Time series an introduction (fifth edition),
CHAPMAN & HALL/CRC, UK. 1999.
[6]
Chung, Kai Lai, A course in Probability Theory, Harcourt, Brace & World, Inc.
1968.
[7]
Feller, William, An Introduction to Probability Theory and its Applications V.2,
Second edition, JOHN WILEY & SONS, New York, 1971.
[8]
Halperin, Max Approximations to the Non-Central t, With Applications,
TECHNOMETRICS, Vol. 5, No. 3, pp 295-305, August 1963.
[9]
Herstein, I. N. & Winter, D. J., A primer on Linear Algebra, MACMILLAN
PUBLISHING COMPANY, United States of America, 1988.
[10] Kraemer, H. Ch., & Paik. A Central t Approximation to the Noncentral tDistribution, TECHNOMETRICS, Vol. 21, No. 3, pp 357-360, August 1979.
[11] Maltsev, A. I. Fundamentos de Álgebra Lineal, Editorial Mir, Moscú, 1972.
85
Bibliografía
[12] Mood, A.M., Graybill, F. A. & Boes, D. C., Introduction to the theory of statistics,
Third Edition, McGraw Hill, Singapore, 1974.
[13] Owen, D. B. A Survey of Properties and Applications of the Noncentral tDistribution, TECHNOMETRICS, Vol. 10, No. 3, pp 445-473, August 1968.
[14] Pankrants, Alan, Forecasting with univariate Box-Jenkins Models. Concepts and
Cases, JOHN WILEY & SONS Inc, New York, 1983.
[15] Parzen, Emanuel, Procesos estocásticos, PARANINFO, Madrid-España, 1972.
[16] Rohatgi, Vijay K., Statistical Inference, JOHN WILEY & SONS Inc, New York,
1984.
[17] Ross, Sheldon M., Stochastic Processses, Second Edition, JOHN WILEY, New York,
1996.
[18] Searle, S. R., Matrix Algebra Useful for Statistics, JOHN WILEY, New York, 1982.
[19] Wilks, Samuel S., Mathematical Statistics, JOHN WILEY & SONS Inc, New York,
1962.
86
Descargar