Subido por Madai Danaé Guevara Arellano

Version Digital - Inferencia Estadistica para Estudiantes de Ciencias - Vazquez - 19-09-2020 (1)

Anuncio
Jaime Vázquez Alamilla
Lizbeth Naranjo Albarrán
Ruth Fuentes Garcı́a
Margarita Chávez Cano
inferencia estadı́stica
para estudiantes de ciencias
Facultad de Ciencias, UNAM
2020
519.5
Vázquez Alamilla, Jaime, autor.
Inferencia estadı́stica para estudiantes de ciencias / Jaime Vázquez Alamilla,
Lisbeth Naranjo Albarrán, Ruth Fuentes Garcı́a, Margarita Chávez Cano. – Ciudad de
México : Universidad Nacional Autónoma de México, Facultad de Ciencias, 2019.
xv, 384 páginas: ilustraciones ; 22 cm
Incluye ı́ndice
Bibliografı́a: páginas 375-378
ISBN: 978-607-30-2477-8
1. Estadı́stica matemática. 2. Probabilidades. I. Naranjo Albarrán, Lizbeth,
autor. II. Fuentes Garcı́a, Ruth, autor. III. Chávez Cano, Margarita, autor, IV.
Universidad Nacional Autónoma de México, Facultad de Ciencias, editor. V. Tı́tulo.
Biblioteca Nacional del México
Esta obra contó con el apoyo del proyecto PAPIME PE-107117
Inferencia estadı́stica para estudiantes de ciencias
1a edición, 29 de septiembre de 2019
c D.R. 2019. Universidad Nacional Autónoma de México.
Facultad de Ciencias.
Ciudad Universitaria. Delegación Coyoacán,
C. P. 04510, Ciudad de México
Coordinación de servicios editoriales: [email protected]
Plaza Prometeo: tienda.fciencias.unam.mx
ISBN: 978-607-30-2477-8
Diseño de portada Laura Uribe Hernández y Celia Ayala Escorza
Prohibida la reproducción parcial o total de la obra por cualquier medio,
sin autorización por escrito del titular de los derechos patrimoniales.
Impreso y hecho en México.
scdd 22
Agradecimientos
A la Dirección General de Asuntos del Personal Académico por el apoyo
para la realización de esta obra a través del Proyecto Papime PE107117.
A nuestro maestro de Inferencia Estadı́stica, el Dr. Federico O’Reilly
Togno, por sus sugerencias y por haber accedido a escribir el prólogo de este
libro, pero sobre todo por habernos transmitido el gusto por esta materia.
Es un honor, siendo él uno de los pilares de la estadı́stica en México.
A los colegas profesores e investigadores que nos hicieron comentarios
acerca de las notas que antecedieron a este texto. En particular al Dr. Eduardo Gutiérrez Peña por sus valiosas observaciones.
A Rafael Reyes Sánchez por su extraordinario apoyo en la edición y
formato de este libro.
A los ayudantes (profesores adjuntos), quienes con su labor han sido
parte fundamental del éxito de los cursos de Inferencia Estadı́stica que hemos
impartido. Gracias también por sus aportaciones para la realización de este
documento.
A nuestros estudiantes de la Facultad de Ciencias de la Universidad Nacional Autónoma de México, porque ellos son la razón de nuestro trabajo y
quienes nos motivaron a escribir el libro.
Índice general
Prólogo
XV
Introducción
XVII
1. ¿Qué es la estadı́stica?
1.1. La probabilidad y la estadı́stica . . . . .
1.2. Enfoques de la estadı́stica . . . . . . . .
1.2.1. El concepto de muestra aleatoria
1.3. Familia de localización y escala . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
3
6
8
2. Estadı́stica descriptiva
11
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Datos y variables . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Escalas de medición . . . . . . . . . . . . . . . . . . . 13
2.2.3. Formas de recolección . . . . . . . . . . . . . . . . . . 14
2.3. Los datos y R . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1. Cargando los datos . . . . . . . . . . . . . . . . . . . . 15
2.4. Representación gráfica de los datos . . . . . . . . . . . . . . . 16
2.4.1. Frecuencia, frecuencia relativa y frecuencia acumulada 17
2.4.2. Tablas de frecuencias . . . . . . . . . . . . . . . . . . . 17
2.4.3. Gráficas de barras . . . . . . . . . . . . . . . . . . . . 18
2.4.4. Gráficas de pay o pastel . . . . . . . . . . . . . . . . . 18
2.4.5. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . 21
2.4.6. Histograma . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4.7. Boxplot o diagrama de caja y brazos . . . . . . . . . . 24
2.5. Medidas muestrales de tendencia central . . . . . . . . . . . 27
2.5.1. La media muestral . . . . . . . . . . . . . . . . . . . . 27
2.5.2. La mediana muestral . . . . . . . . . . . . . . . . . . . 27
2.5.3. Porcentiles o percentiles . . . . . . . . . . . . . . . . . 28
v
vi
Índice general
2.6. Medidas de dispersión . . . . . . . . . . . . . . .
2.6.1. Varianza y desviación estándar muestrales
2.6.2. Rango muestral . . . . . . . . . . . . . . .
2.6.3. Rango intercuartil . . . . . . . . . . . . .
2.7. Otras medidas de resumen . . . . . . . . . . . . .
2.8. Relaciones lineales entre variables . . . . . . . . .
2.9. Anexo . . . . . . . . . . . . . . . . . . . . . . . .
2.10. Ejercicio . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
31
31
32
33
35
38
3. Estadı́sticas y distribuciones muestrales
39
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2. Distribución de las estadı́sticas . . . . . . . . . . . . . . . . . 44
3.2.1. Distribución de la media muestral . . . . . . . . . . . 44
3.2.2. La distribución de la varianza muestral . . . . . . . . 45
3.2.3. La distribución F de Fisher y el cociente de varianzas
muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.4. La distribución t de Student y algunas estadı́sticas relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3. Estadı́sticas de orden . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.1. r-ésima estadı́stica de orden (Yr ) . . . . . . . . . . . . 60
3.3.2. Distribución conjunta de las estadı́sticas de orden mı́nima y máxima . . . . . . . . . . . . . . . . . . . . . . . 61
3.4. Estadı́sticas suficientes . . . . . . . . . . . . . . . . . . . . . . 63
3.4.1. El concepto de suficiencia . . . . . . . . . . . . . . . . 65
3.4.2. El teorema de factorización . . . . . . . . . . . . . . . 70
3.4.3. La familia exponencial . . . . . . . . . . . . . . . . . . 76
3.4.4. Suficiencia minimal . . . . . . . . . . . . . . . . . . . . 78
3.5.
3.6.
3.7.
3.8.
Completez . . . . . . . .
Algunas generalizaciones
Estadı́sticas auxiliares .
Ejercicios . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
84
88
90
93
4. Estimación puntual
4.1. Introducción . . . . . . . . . . . . . . . . . . .
4.2. Métodos de estimación . . . . . . . . . . . . .
4.2.1. Método de momentos . . . . . . . . .
4.2.2. Estimadores basados en verosimilitud
4.2.3. Verosimilitud en el enfoque Bayesiano
4.2.4. Otros métodos de estimación . . . . .
4.3. Evaluación de estimadores . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
105
105
106
108
112
125
133
138
Índice general
4.3.1. Error cuadrático medio y estimadores insesgados
4.3.2. Consistencia . . . . . . . . . . . . . . . . . . . .
4.3.3. Funciones de pérdida y estimación . . . . . . . .
4.4. Estimación insesgada . . . . . . . . . . . . . . . . . . . .
4.4.1. La propuesta de Cramèr y Rao . . . . . . . . . .
4.4.2. El teorema de Rao-Blackwell . . . . . . . . . . .
4.4.3. El teorema de Lehmann-Scheffé . . . . . . . . . .
4.5. Propiedades asintóticas de los estimadores . . . . . . . .
4.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
144
146
148
149
159
160
167
172
5. Estimación por intervalos
5.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . .
5.1.1. Método pivotal para encontrar intervalos de confianza
5.1.2. El método de la cantidad pivotal para funciones de
distribución continuas . . . . . . . . . . . . . . . . . .
5.1.3. Método basado en estadı́sticas suficientes . . . . . . .
5.2. Intervalos para muestras de la distribución normal . . . . . .
5.2.1. Intervalos para la media . . . . . . . . . . . . . . . . .
5.2.2. Intervalo para la varianza . . . . . . . . . . . . . . . .
5.2.3. Región de confianza para (µ, σ 2 ) . . . . . . . . . . . .
5.2.4. Intervalo para la diferencia de medias de poblaciones
normales independientes . . . . . . . . . . . . . . . . .
5.2.5. Intervalo para el cociente de varianzas de poblaciones
normales independientes . . . . . . . . . . . . . . . . .
5.3. Intervalos de confianza para muestras grandes . . . . . . . . .
5.3.1. Intervalo de confianza para el parámetro p de una distribución binomial . . . . . . . . . . . . . . . . . . . .
5.4. Enfoque Bayesiano en la estimación por intervalos . . . . . .
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
183
183
189
6. Pruebas de hipótesis
6.1. Conceptos fundamentales en pruebas de hipótesis . . . . . . .
6.1.1. Hipótesis estadı́sticas . . . . . . . . . . . . . . . . . . .
6.1.2. Tipos y tamaños de los errores . . . . . . . . . . . . .
6.1.3. La función potencia . . . . . . . . . . . . . . . . . . .
6.2. Hipótesis simples . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1. Pruebas más potentes y el lema de Neyman-Pearson .
6.3. Pruebas uniformemente más potentes . . . . . . . . . . . . .
6.3.1. Hipótesis simple contra compuesta . . . . . . . . . . .
6.3.2. La razón monótona de verosimilitudes y el teorema de
Karlin-Rubin . . . . . . . . . . . . . . . . . . . . . . .
227
227
229
232
234
238
240
248
248
193
196
200
201
203
204
204
209
211
214
216
218
251
viii
Índice general
6.4. La razón de verosimilitudes generalizadas . . . . . . . . . . . 256
6.4.1. La prueba de la razón de verosimilitudes generalizadas 257
6.4.2. La distribución asintótica de la razón de verosimilitudes264
6.5. El valor p (p-value) . . . . . . . . . . . . . . . . . . . . . . . . 268
6.6. Algunas pruebas basadas en razón de verosimilitudes . . . . . 275
6.6.1. Prueba Ji-cuadrada para bondad de ajuste . . . . . . 276
6.6.2. La prueba de independencia en tablas de contingencia 286
6.7. Pruebas de hipótesis en el contexto Bayesiano . . . . . . . . . 296
6.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
A. Algunos conceptos y resultados de probabilidad
319
A.1. Espacios de probabilidad . . . . . . . . . . . . . . . . . . . . . 319
A.2. Probabilidad condicional e independencia . . . . . . . . . . . 320
A.3. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 321
A.4. Distribuciones conjuntas y condicionales . . . . . . . . . . . . 322
A.4.1. Variables aleatorias discretas . . . . . . . . . . . . . . 324
A.4.2. Variables aleatorias continuas . . . . . . . . . . . . . . 325
A.4.3. Distribución condicional e independencia estocástica . 327
A.5. Momentos de variables aleatorias . . . . . . . . . . . . . . . . 328
A.5.1. Esperanza y varianza . . . . . . . . . . . . . . . . . . . 328
A.5.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 329
A.5.3. Función generadora de momentos . . . . . . . . . . . . 330
A.5.4. Esperanza de g (X1 , . . . , Xn ) . . . . . . . . . . . . . . 331
A.5.5. Coeficiente de correlación ρxy . . . . . . . . . . . . . . 332
A.5.6. Esperanza condicional . . . . . . . . . . . . . . . . . . 333
A.5.7. Función generadora de momentos conjunta y momentos 334
A.5.8. Independencia y esperanza . . . . . . . . . . . . . . . 334
A.6. Resumen de familias paramétricas . . . . . . . . . . . . . . . 336
A.6.1. Uniforme Discreta . . . . . . . . . . . . . . . . . . . . 336
A.6.2. Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 336
A.6.3. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.6.4. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 337
A.6.5. Geométrica . . . . . . . . . . . . . . . . . . . . . . . . 338
A.6.6. Binomial negativa . . . . . . . . . . . . . . . . . . . . 338
A.6.7. Hipergeométrica . . . . . . . . . . . . . . . . . . . . . 339
A.6.8. Logarı́tmica . . . . . . . . . . . . . . . . . . . . . . . . 339
A.6.9. Uniforme continua . . . . . . . . . . . . . . . . . . . . 340
A.6.10. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 340
A.6.11. Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
A.6.12. Ji-cuadrada . . . . . . . . . . . . . . . . . . . . . . . . 342
A.6.13. Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
Índice general
ix
A.6.14. Normal . . . . . . . . . . . . . . . . . . . .
A.6.15. t de Student . . . . . . . . . . . . . . . . .
A.6.16. F de Fisher . . . . . . . . . . . . . . . . . .
A.6.17. Log-Normal . . . . . . . . . . . . . . . . . .
A.6.18. Logı́stica . . . . . . . . . . . . . . . . . . .
A.6.19. Log-logı́stica . . . . . . . . . . . . . . . . .
A.6.20. Pareto . . . . . . . . . . . . . . . . . . . . .
A.6.21. Gaussiana inversa . . . . . . . . . . . . . .
A.6.22. Gompertz . . . . . . . . . . . . . . . . . . .
A.6.23. Makeham . . . . . . . . . . . . . . . . . . .
A.6.24. Benktander . . . . . . . . . . . . . . . . . .
A.6.25. Gumbel . . . . . . . . . . . . . . . . . . . .
A.6.26. Weibull . . . . . . . . . . . . . . . . . . . .
A.6.27. Fréchet . . . . . . . . . . . . . . . . . . . .
A.7. Convergencia . . . . . . . . . . . . . . . . . . . . .
A.7.1. Convergencia puntual . . . . . . . . . . . .
A.7.2. Convergencia casi segura . . . . . . . . . . .
A.7.3. Convergencia en probabilidad . . . . . . . .
A.7.4. Convergencia en r-media (o r-ésima media)
A.7.5. Convergencia en distribución . . . . . . . .
B. Tablas de distribuciones de probabilidad
B.1. Cuantiles para la distribución normal estándar
B.2. Cuantiles para la distribución Ji-cuadrada . . .
B.3. Cuantiles para la distribución t de Student . .
B.4. Cuantiles para la distribución F de Fisher . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
343
343
343
343
344
344
345
346
346
346
347
347
348
348
348
348
349
350
350
350
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
351
351
353
354
355
Bibliografı́a
357
Índice analı́tico
361
Índice de figuras
2.1. Gráfica de barras correspondiente a las especies B (blue) u O
(orange) de los cangrejos. . . . . . . . . . . . . . . . . . . . .
19
2.2. Gráfica de pay para las especies de cangrejos. . . . . . . . . .
19
2.3. Diagrama de pay para las 5 respuestas de una encuesta. . . .
20
2.4. Histogramas para la caracterı́stica ancho del caparazón de los
cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.5. Diagrama de caja y brazos para la caracterı́stica ancho del
caparazón de la base de datos de los cangrejos crabs. . . . . .
24
2.6. Diagramas de caja y brazos para la caracterı́stica ancho del
caparazón por especie y por sexo para los datos de los cangrejos. 25
2.7. Gráfica de caja y brazos para la caracterı́stica ancho del caparazón para las diferentes variables asociadas a especie y sexo. 26
2.8. Gráfica de dispersión para la base crabs y que ilustra la relación entre las diferentes medidas morfológicas para los cangrejos. 33
2.9. Gráfica de correlación para las medidas morfológicas de los
cangrejos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
3.1. Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada
y estudió su distribución asintóntica. Se le considera el padre
de la estadı́stica. Imagen tomada de commons.wikipedia.org
(public domain). . . . . . . . . . . . . . . . . . . . . . . . . .
48
xi
xii
Índice de figuras
3.2. Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesitan sus héroes y Fisher fue sin duda el héroe de la estadı́stica
del siglo XX. Sus ideas transformaron nuestra disciplina de
tal forma que hasta un César o un Alejandro hubieran envidiado”: Efron (1998). “Lo que es y fue importante para mı́,
es cómo Fisher, en los 1920..., hizo que los estadı́sticos reflexionáramos acerca de las ideas fundamentales”: Egon Pearson (1974). Dos citas que hacen alusión a la importancia de
las contribuciones de Fisher en la estadı́stica. La distribución
que lleva su nombre fue producto del trabajo que realizó con
George Snedecor (1881-1974) de la Universidad de Iowa.
Imagen tomada de commons.wikipedia.org (public domain). .
3.3. William Sealy Gosset (1876-1937), quien usó el pseudónimo
de Student para publicar su trabajo, desarrolló la distribución
t como respuesta a problemas prácticos de variedades de cebada, trabajando en la cervecerı́a Guiness. Imagen tomada de
commons.wikimedia.org (public domain). . . . . . . . . . . .
55
58
4.1. Karl Pearson con Francis Galton. Ambos fundaron la revista
Biometrika en 1901. Imagen tomada de commons.wikipedia.org
(public domain). . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.2. Placa English Heritage dedicada a Fisher en la casa Inverforth.108
4.3. Gráfica de la función de verosimilitud para una muestra de
tamaño n de la distribución Uniforme continua en el intervalo
[0, θ]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.4. Estimación máximo verosı́mil para la familia Gama. . . . . . 125
4.5. Dulces smarties. Tomada de pixabay.com (imágenes gratuitas
de alta calidad). . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.6. Comportamiento de las funciones a priori, a posteriori y de
verosimilitud para la proporción de marcas defectuosas y distintos valores de la muestra en el ejemplo 4.22. . . . . . . . . 133
4.7. El estimador T1 = X es insesgado para µ en el ejemplo 4.26. . 142
4.8. El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado
para σ 2 , pero tiene un error cuadrático medio menor que T2
(ejemplo 4.26). . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.9. Ilustración de la consistencia de X en el contexto del ejemplo
4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
4.10. Ilustración de la consistencia de S 2 en el contexto del ejemplo
4.28. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Índice de figuras
xiii
5.1. Intervalos correspondientes a 100 muestras para tamaños de
muestra 10, 30 y 50, respectivamente y desviación estándar
de 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
5.2. Intervalos del 99 % de credibilidad para el ejemplo 5.10. . . . 217
5.3. Intervalos obtenidos por simulación para diferentes valores de
σ y distintos tamaños de muestra. . . . . . . . . . . . . . . . 219
6.1. Función potencia del ejemplo 6.1. . . . . . . . . . . . . . . . .
6.2. Funciones potencia del ejemplo 6.2. . . . . . . . . . . . . . . .
6.3. Funciones de densidad de la estadı́stica de prueba S = X bajo
ambas hipótesis y tamaños de los errores. . . . . . . . . . . .
6.4. Probabilidad posterior del modelo por tamaño de muestra. .
236
238
246
300
Prólogo
Es para mı́ un honor el que los autores me hayan pedido escribir el prólogo
a este libro. Lo es porque tengo un respeto muy grande por su trayectoria
académica y porque todos ellos fueron destacados estudiantes de la Maestrı́a
en Estadı́stica en la que tuve la suerte de participar desde su inicio; de hecho,
todos fueron mis alumnos del curso de Inferencia Estadı́stica que durante
muchos años he impartido. Es importante hacer notar que algunos de estos
autores obtuvieron posteriormente su doctorado mientras que otros atendieron tareas académico-administrativas y de superación. Su participación en
el Departamento de Matemáticas de la Facultad de Ciencias es y ha sido de
enorme valor.
Me tocó estar en el inicio de la Maestrı́a en Estadı́stica e Investigación
de Operaciones, que se ubicó dentro del CCH con la participación muy destacada de la Facultad de Ciencias y del ahora IIMAS. Esto, a principios de
los años 70, en que se inició formalmente un posgrado en estadı́stica.
Esa maestrı́a, junto con otros posgrados, en los 90’s se integraron en
el ahora Posgrado en Ciencias Matemáticas de la UNAM, siendo una de
sus áreas la estadı́stica y teniendo ya la posibilidad de ofrecer el nivel de
doctorado en ese campo particular.
En el posgrado, una materia central dentro de la estadı́stica sigue siendo
la inferencia. Pues bien, los autores de este libro cursaron la materia de
Inferencia Estadı́stica conmigo. Una de ellas la cursó en los inicios, durante
los 70’s, otros dos durante los 90’s, y la más reciente, cursó esa materia ya
entrado el 2000. Sus experiencias compartidas y el interés por hacer un libro
en estadı́stica los llevaron a escribir este tomo que yo califico como excelente.
Este libro, además de satisfacer sobradamente necesidades de los alumnos de la Facultad de Ciencias que quieran aprender estadı́stica, contiene
material de nivel de maestrı́a. El libro resulta una fuente de consulta y un
sólido texto para cursos serios introductorios y para cursos intermedios, incluido, repito, el nivel de maestrı́a. Algunas discusiones hechas en el libro
rememoran discusiones en clase cuando he impartido el curso.
xv
xvi
Prólogo
Mis felicitaciones por un libro muy necesitado; y me enorgullece como
universitario que un libro hecho por universitarios comprometidos tenga una
calidad que yo califico de internacional. Me siento muy afortunado también
por poder decir que con los autores he mantenido lazos académicos y de
amistad por muchos años.
Dr. Federico O’Reylli Togno
Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas
Universidad Nacional Autónoma de México
Introducción
Se puede decir que la estadı́stica es una disciplina reciente con relación a otras
ramas de las matemáticas, no obstante que desde la antigüedad existieron
actividades relacionadas con el manejo de cifras, tales como las cuentas y
datos vinculados con las poblaciones de las ciudades o, más generalmente,
de los estados; situación que posiblemente es la génesis del término “estadı́stica”. En Rao (1997), el estadı́stico hindú Radhakrishna Rao menciona
que “la estadı́stica tiene gran antigüedad pero escasa historia”, frase que
refleja el hecho de que la estadı́stica es joven como área formal, pero que
prácticamente ha estado presente a lo largo de la historia de la humanidad.
Entre los cientı́ficos que más han aportado a la estadı́stica para convertirla en la disciplina con el carácter matemático y de importante aplicación
para ayudar a explicar fenómenos del mundo real, sobresalen Francis Galton (1822-1911), Karl Pearson (1857-1936), Charles Spearman (1863-1945),
Ronald Fisher (1890-1962) y Jerzy Neyman (1894-1981), sólo por mencionar
algunos.
La inferencia estadı́stica es una disciplina que se basa en gran medida en
la probabilidad y que ayuda a resolver problemas haciendo conclusiones de
alguna caracterı́stica de la población, usando para ello datos muestrales de la
misma. Por ejemplo, los estadı́sticos pueden realizar estudios de opinión, en
donde a través del punto de vista de algunos ciudadanos que componen una
muestra suficientemente representativa, se puede medir el pulso de temas de
interés para el paı́s.
La estadı́stica involucra conceptos y resultados que pueden resumirse en
grandes temas: análisis exploratorio de datos, distribuciones muestrales, estimación puntual, estimación por intervalo y pruebas de hipótesis, los cuales
son fundamentales en el estudio y la aplicación de esta disciplina.
Para la lectura de este documento es importante contar con conocimientos de teorı́a de la probabilidad, ası́ como de cálculo diferencial e integral en
una y varias variables.
xvii
Capı́tulo 1
¿Qué es la estadı́stica?
El progreso de la ciencia con frecuencia se adscribe a la experimentación.
El investigador lleva a cabo un experimento, una encuesta o un conjunto
de mediciones; obtiene datos y con base en ellos se busca sustentar una
hipótesis o responder a una pregunta de investigación. Es decir, a partir de
un experimento particular, es deseable generalizar hacia la clase de todos los
experimentos similares.
La estadı́stica no se refiere únicamente a la recolección de datos y a la
presentación de cuadros y tablas resumen. Actualmente se comprende como la ciencia que basa la inferencia en datos observados y toma decisiones
en términos de incertidumbre. Aunque en su estado actual no puede manejar todas las situaciones que se presentan alrededor de la incertidumbre,
constantemente se desarrollan nuevas técnicas de análisis.
La estadı́stica está presente en muchos ámbitos: el cientı́fico, el social y el
empresarial, sólo por mencionar algunos. Por ejemplo, tanto en la iniciativa
privada como en el ámbito gubernamental, es vital contar con un manejo
adecuado de la información y el análisis de grandes bases de datos que sirva
a los diferentes agentes de la economı́a y la polı́tica al momento de tomar
decisiones. Actualmente existen profesionales de la estadı́stica que utilizan
diversas técnicas de este campo en empresas privadas, tales como casas encuestadoras que se dedican a hacer estudios de mercado, o bien en industrias
relacionadas con diversos campos de la actividad económica.
Ejemplos de instituciones en donde el uso de la estadı́stica es fundamental son: el INEGI, las secretarı́as de estado, el IMP, PEMEX, el Banco de
México y las aseguradoras, sólo por mencionar algunas, pues el análisis y modelado de datos puede hacerse prácticamente en cualquier entidad en donde
se cuente con información de cierto fenómeno o proceso. Adicionalmente, la
1
2
1. ¿Qué es la estadı́stica?
estadı́stica juega un papel importante en los estudios de mercado y otros procesos en donde es necesario obtener datos para posteriormente analizarlos y
llegar a conclusiones mediante un modelo que dependerá de la naturaleza de
dicha información. Algunos estadı́sticos participan en el diseño y validación
de encuestas y conteos rápidos relacionados con procesos electorales.
Se puede decir entonces que la estadı́stica se ocupa de los métodos cientı́ficos para recolectar, organizar, resumir, presentar y analizar datos usando
modelos, ası́ como de obtener conclusiones válidas y tomar decisiones con
base en ese análisis. Es la rama de la matemática que utiliza conjuntos de
datos para obtener inferencias basadas en el cálculo de probabilidades.
En los siguientes párrafos se pretende explicar la relación entre la probabilidad y la estadı́stica, ası́ como establecer la diferencias entre los enfoques
para analizar un conjunto de datos.
1.1.
La probabilidad y la estadı́stica
La teorı́a de probabilidad permite modelar ciertos fenómenos que ocurren en
la naturaleza, siendo el modelo básico un espacio de probabilidad (Ω, F, P) y
una variable aleatoria X definida en ese espacio. En el contexto paramétrico,
dada una variable aleatoria X, se tiene asociada una función de densidad
f (x; θ), la cual actúa en función de caracterı́sticas desconocidas llamadas
parámetros.
Gracias al conocimiento de la función de densidad de probabilidad, y
por lo tanto de la función de distribución de una variable aleatoria X, se
facilita la construcción de espacios de probabilidad adaptados a fenómenos
aleatorios concretos. Es decir, gracias a la teorı́a de la probabilidad se puede construir un modelo para describir una determinada variable aleatoria
real a través de su función de distribución. Por ejemplo, gracias a la teorı́a
de la probabilidad se pueden hacer aseveraciones como “el número de accidentes que ocurren en una importante intersección vial de la Ciudad de
México durante un determinado periodo de tiempo se puede modelar como
una variable aleatoria X que tiene una distribución Poisson(λ)” o “la vida
(tiempo de supervivencia) de un cierto tipo de foco tiene una distribución
Exponencial (λ)”. Asimismo, se pueden contestar preguntas probabilı́sticas
relacionadas con la variable aleatoria como: ¿cuál es la probabilidad de que
no haya accidentes en ese cruce importante de avenidas en un dı́a determinado? o ¿cuál es la probabilidad de que el foco dure más de un determinado
periodo de tiempo? Sin embargo, las respuestas a estas preguntas quedan
en términos de parámetros; por ejemplo, si X tiene distribución Poisson(λ),
P(X = 0) = e−λ , está en función de λ, donde λ > 0. Si se conociera el
1.2. Enfoques de la estadı́stica
3
valor de λ, serı́a posible obtener un valor numérico para las probabilidades
de interés asociadas a la variable aleatoria.
De esta manera, si se desea profundizar en la forma de adaptar un modelo probabilı́stico a cada fenómeno concreto, serı́a necesario llevar a cabo
observaciones del fenómeno en cuestión con la finalidad de poder hacer conclusiones acerca de los parámetros de una población y llegar a resultados
numéricos en el cálculo de probabilidades.
Es aquı́ donde la estadı́stica juega un papel importante al analizar e interpretar la información obtenida de una cierta población con la finalidad
de poder concluir sobre la ley de probabilidad que rige un fenómeno aleatorio. Este procedimiento se conoce como inferencia estadı́stica o estadı́stica
matemática.
Cuando se tiene un conjunto de observaciones acerca del fenómeno considerado, se entra al terreno de la estadı́stica con la finalidad de obtener
información acerca de la población en estudio con base en un conocimiento parcial o no exhaustivo de dicha población, ya que en la mayorı́a de los
casos, una observación exhaustiva es imposible o muy costosa. Por ejemplo,
si se desea saber la intención del voto para una elección presidencial, no
se encuestará a todos los ciudadanos en edad de votar, sino a una muestra
representativa de la población (cómo elegir una muestra representativa, el
tamaño adecuado de la misma y la forma de hacer la encuesta es objeto de
estudio de otra materia), y con las observaciones obtenidas y los métodos
de inferencia estadı́stica se puede decir con cierta precisión el porcentaje de
la población que en ese momento votarı́a por cada uno de los candidatos
de la contienda electoral.
Con frecuencia el término estadı́stica se entiende como el proceso de recolección de datos u observaciones, ası́ como el tratamiento numérico que se le
da a estos datos a través de gráficas y medidas que resumen la información,
pero es necesario recalcar que el objetivo de la inferencia estadı́stica es obtener conclusiones acerca de alguna caracterı́stica de la población en estudio
a través del análisis e interpretación de las observaciones. Sin embargo, el
tratamiento numérico de los datos no es menos importante e idealmente un
procedimiento de inferencia va antecedido por un tratamiento descriptivo.
1.2.
Enfoques de la estadı́stica
La estadı́stica se puede analizar desde dos enfoques: el descriptivo y el de
inferencia o inferencial.
Enfoque descriptivo: resumen y descripción de un conjunto de datos
mediante gráficas y medidas descriptivas.
4
1. ¿Qué es la estadı́stica?
Enfoque de inferencia: análisis e interpretación de la información
obtenida de una muestra de la población para hacer conclusiones generales acerca de las caracterı́sticas desconocidas de dicha población.
De acuerdo a lo que se desea conocer del parámetro, la inferencia estadı́stica puede abordarse de la siguiente manera:
1. Estimación puntual: consiste en obtener un valor numérico único
para el parámetro, que represente de la mejor manera el proceso que
generó las observaciones.
2. Estimación por intervalos: consiste en obtener un rango de valores
que el parámetro puede tomar, que represente de la mejor manera el
proceso que generó las observaciones.
3. Pruebas de hipótesis: consiste en contrastar dos aseveraciones acerca de la distribución de una variable aleatoria (usualmente representadas en términos de valores que el parámetro puede tomar).
Asimismo, la inferencia estadı́stica se puede realizar desde una perspectiva diferente (no clásica) conocida como método Bayesiano o estadı́stica
Bayesiana, el cual es un paradigma en el que se asocia una distribución inicial al parámetro y, junto con las observaciones, se obtiene una distribución
final para dicho parámetro. Con base en este planteamiento, se hacen inferencias desde la óptica de estimación puntual o por intervalos y de pruebas
Bayesianas.
También puede hablarse de inferencia estadı́stica paramétrica y no paramétrica. En el primer caso se conoce la forma de la distribución pero se
desconocen los parámetros y es sobre éstos que se realizará la inferencia. En
el segundo caso se desconocen la forma de la distribución y los parámetros
y las inferencias se hacen sobre ciertas caracterı́sticas que no tienen por qué
corresponder a parámetros de una distribución.
Definición 1.1 Al conjunto de valores que el parámetro θ puede tomar se
le llama espacio paramétrico (o parametral) y se le denota por Θ.
Ejemplos:
En el caso de la distribución Bernoulli Θ = [0, 1].
En el caso de la distribución Poisson Θ = (0, ∞).
La inferencia estadı́stica también suele denominarse estadı́stica inductiva
o inferencia inductiva, pues va de lo particular a lo general al hacer conclusiones de una población a partir de una muestra representativa de la misma.
1.2. Enfoques de la estadı́stica
5
La necesidad de trabajar con un conjunto reducido de la población está asociada a varios factores, siendo uno de los más importantes el económico. Se
puede decir que la población es el conjunto de observaciones o individuos
sobre los que se desea información y de ella se extrae un subconjunto al que
se denomina muestra. El procedimiento para obtener las observaciones con
las cuales se intenta disminuir el grado de desconocimiento de θ debe ser tal
que la recolección de datos se realice siempre bajo las mismas condiciones y
sin importar los resultados anteriores.
En un contexto experimental, la definición de la muestra puede depender
de cuáles son los tratamientos que se desea comparar, bajo qué condiciones y si las comparaciones se harán con tamaños de muestra y repeticiones
iguales. En la literatura sobre diseño de experimentos se aborda este
tipo de planteamiento. Si se hace referencia al estudio de poblaciones, hay
diferentes formas de obtener una muestra representativa. Aunque la teorı́a
del muestreo requiere una asignatura aparte, a continuación se resumen las
principales caracterı́sticas de los muestreos probabilı́sticos más usuales.
Muestreo aleatorio simple: se trata de un procedimiento de muestreo (sin
remplazo), en el que se seleccionan n unidades de las N en la población,
de forma que cualquier posible muestra del mismo tamaño tenga la misma
probabilidad de ser elegida.
Muestreo por conglomerados: se divide la población en grupos de acuerdo
con su proximidad geográfica o de otro tipo (conglomerados). Se busca que
cada grupo sea heterogéneo y que tenga representadas todas las caracterı́sticas de la población. Se selecciona una muestra de conglomerados al azar y
se toma el conglomerado completo o una muestra del mismo.
Muestreo estratificado: se divide la población en grupos homogéneos (estratos) de acuerdo con las caracterı́sticas a estudiar. Por ejemplo, en un estudio de las caracterı́sticas socioeconómicas de una ciudad los estratos pueden
ser las colonias de la misma, ya que las colonias suelen presentar caracterı́sticas diferenciales. Se selecciona una muestra aleatoria de cada estrato
tratando de que todos los estratos de la población queden representados.
En un muestreo estratificado se consideran todos los estratos y en cada
uno se considera una muestra de individuos. En el muestreo por conglomerados se seleccionan al azar los conglomerados que serán considerados y una
vez elegidos se estudian todos los individuos de cada conglomerado.
Existen otros tipos de muestreo, pero todo lo que se verá en los siguientes
capı́tulos está pensado para observaciones obtenidas con muestreo aleatorio
simple.
6
1. ¿Qué es la estadı́stica?
1.2.1.
El concepto de muestra aleatoria
El muestreo aleatorio simple garantiza una muestra representativa de la población y la obtención de observaciones independientes. Esta terminologı́a de
muestreo puede entenderse si se considera una de las siguientes situaciones
que aparecen frecuentemente en la estadı́stica:
(1) Se extraen los objetos, uno cada vez, de una colección finita llamada
población y se determina una caracterı́stica particular de interés de cada objeto extraı́do. Después de cada observación y antes de la siguiente
extracción, se devuelve el objeto extraı́do y se mezcla la población de
objetos.
(2) Se extraen los objetos de una población finita como en (1), excepto
que los objetos no se remplazan.
La población de objetos puede ser una colección de personas y la caracterı́stica observada puede ser el peso, color de ojos, preferencia polı́tica o
alguna otra.
Si se supone que cada selección es aleatoria, el muestreo en (1) recibe el
nombre de muestreo aleatorio con remplazo y en (2) muestreo aleatorio sin
remplazo o muestreo aleatorio simple.
En cierto sentido, el muestreo aleatorio sin remplazo es mejor que el
muestreo aleatorio con remplazo, ya que algunas veces la mezcla que se
requiere con el remplazo de los objetos no siempre es fácil de conseguir.
Considerando los casos extremos, suponga que hay solamente 2 objetos en la
población; cuando se extrae uno de ellos, la selección de un segundo objeto
proporciona la información completa acerca de la población original si el
primero no fue remplazado. Por otro lado, si una población es muy grande
con respecto al tamaño de la muestra que va a ser extraı́da, es prácticamente
lo mismo si los objetos extraı́dos son o no son remplazados; el muestreo sin
remplazo se convierte en muestreo con remplazo cuando el tamaño de la
población es infinito.
La diferencia básica entre los tipos de muestreo (1) y (2) no está en las
distribuciones marginales de las observaciones individuales, porque en ambos
casos estas observaciones son idénticamente distribuidas. Sin embargo, en el
caso (1) el resultado de cualquier observación no está afectado por los resultados de cualesquiera otras observaciones; las observaciones son fenómenos
aleatorios independientes. En el caso (2) las observaciones no son independientes.
Hay otro tipo de situación que ocurre continuamente, diferente de (1) y
(2), en la cual los resultados son matemáticamente del mismo tipo que (1):
7
1.2. Enfoques de la estadı́stica
(3) Las observaciones se obtienen como resultado de realizaciones independientes repetidas de un experimento, bajo condiciones que son idénticas
con respecto a los factores que pueden ser controlados.
Esta descripción incluye a (1) como un caso especial, aunque no necesariamente se refiere a una “población” tangible de la cual se va a seleccionar
un objeto. Sin embargo, es posible imaginar una población muy grande de
posibles resultados, en donde en cada repetición del experimento se cuenta con la misma colección que estaba disponible en el primer ensayo. Esto
es, repetir el experimento bajo condiciones idénticas significarı́a que el primer resultado es “remplazado” y es nuevamente uno de los candidatos a
ser “extraı́dos” la siguiente vez. En ambos tipos de muestreo (1) y (3), las
observaciones son independientes e idénticamente distribuidas. El término
muestreo aleatorio sin más especificación se referirá a tal proceso.
Suponga que cuando se extrae un objeto la caracterı́stica a medir se
denota por X. A la distribución de X se le llama la distribución poblacional.
Ejemplo 1.1 Una urna contiene cuatro bolas numeradas del 1 al 4. Se extraen 2 aleatoriamente, una cada vez. Sea X1 el número de la primera bola
extraı́da y X2 el número de la segunda bola extraı́da. Hay 12 posibles resultados del experimento:
(1, 2) (1, 3) (1, 4) (2, 3) (2, 4) (3, 4)
(2, 1) (3, 1) (4, 1) (3, 2) (4, 2) (4, 3)
Cada uno de estos 12 resultados tiene probabilidad 1/12. A partir de esto,
se pueden calcular las distribuciones de X1 y X2 . Por ejemplo,
P(X1 = 1) = P[(1, 2), (1, 3) o (1, 4)]
= P[(1, 2)] + P[(1, 3)] + P[(1, 4)] =
1
1
1
1
+
+
= .
12 12 12
4
Similarmente:
P(X2 = 1) = P[(2, 1), (3, 1) o (4, 1)]
= P[(2, 1)] + P[(3, 1)] + P[(4, 1)] =
1
1
1
1
+
+
= .
12 12 12
4
De la misma forma se encuentra que para X1 cada uno de los valores posibles
1, 2, 3 y 4 tiene probabilidad 1/4 y que X2 tiene exactamente la misma
distribución, la distribución poblacional.
8
1. ¿Qué es la estadı́stica?
De esta manera, se diseña un experimento y se lleva a cabo para proporcionar la observación X1 de la caracterı́stica observable X. El experimento
se repite bajo las mismas condiciones proporcionando el X2 . El proceso continúa hasta tener n observaciones X1 , X2 , . . . , Xn de la caracterı́stica X;
a estas observaciones se les llaman los valores muestrales de X y se dice
que constituyen una muestra aleatoria. Note que cuando se ha obtenido una
muestra se tienen n observaciones numéricas (x1 , x2 , . . . , xn ), pero cuando
se está planificando el procedimiento de muestreo y diseñando el método
para obtener inferencias aún no se sabe qué valores numéricos se obtendrán
y deben considerarse n variables aleatorias; estas variables aleatorias serán,
en el contexto que se discute, independientes e idénticamente distribuidas.
Definición 1.2 Si X1 , . . . , Xn es un conjunto de variables aleatorias, independientes e idénticamente distribuidas, entonces se dice que X1 , . . . , Xn es
una muestra aleatoria (m.a.).
Observación 1.1 Si X1 , . . . , Xn es una muestra aleatoria, entonces su función de densidad conjunta está dada por
fX1 ,...,Xn (x1 , . . . , xn ; θ) =
n
Y
f (xi ; θ).
i=1
Observación 1.2 La distribución de la muestra aleatoria (o simplemente distribución de la muestra) será la función de densidad conjunta
de las variables aleatorias que componen la muestra aleatoria y, por la observación anterior, se calculará como el producto de las densidades marginales
de dichas variables.
En el siguiente capı́tulo se estudiará el análisis exploratorio de datos
y en el capı́tulo 3 se analizarán funciones de la muestra aleatoria y sus
caracterı́sticas con la finalidad de usarlas posteriormente en el proceso de
estimación de parámetros.
Para cerrar este capı́tulo, se abordan brevemente los conceptos de parámetros de localización y escala.
1.3.
Familia de localización y escala
Una familia de localización y escala es una familia de distribuciones con
elementos obtenidos por traslación y cambio de escala de una familia de
elementos estándar.
1.3. Familia de localización y escala
9
Sea Z una variable aleatoria con distribución conocida. A las distribuciones de probabilidad de la variable aleatoria X que se pueden definir de la
forma:
X = a + bZ, a, b ∈ R, b > 0
se le denomina familia de localización y escala construida a partir de la
distribución de Z.
En particular, si Z es una variable aleatoria continua con función de
densidad de probabilidad f (·), la familia de funciones de densidad:
x−a
1
, a ∈ R, b > 0
f (x; a, b) = f
b
b
forman la familia de localización y escala de f (x).
El parámetro de escala expande a la distribución si b > 1 y la contrae si
b < 1. El parámetro de localización a traslada a la densidad por |a| unidades
a la derecha si a > 0 o a la izquierda si a < 0.
• Si b = 1 se tiene una familia de localización: f (x; a) = f (x − a) .
• Si a = 0 se tiene una familia de escala: f (x; b) = 1b f xb .
Ejemplo 1.2 La familia de distribuciones normales:
f (x; a, b) =
1/2
f (x) =
1
2π
1/2
1
2πb2
1
exp − x2
2
1
2
exp − 2 (x − a) , con a = µ y b = σ
2b
Ejemplo 1.3 La familia de distribuciones exponenciales:
f (x) = e−x , x > 0
f (x; a, b) =
1 −(x−a)/b
e
,x>a
b
f (x; a) = e−(x−a) , x > a
Ejemplo 1.4 La familia de distribuciones Cauchy:
f (x) =
f (x; a, b) =
1 1
, x∈R
π 1 + x2
1
1
, x∈R
πb 1 + x−a 2
b
Capı́tulo 2
Estadı́stica descriptiva
Se ha planteado ya que la recolección de datos es un proceso que requiere
planeación. Una vez que los datos están disponibles, su complejidad puede
variar tanto en el número, como en el tipo de variables que se miden o registran. Un procedimiento de análisis comienza con la extracción de resúmenes
útiles; ası́, cualquier procedimiento inductivo acerca de una población en
estudio debe confirmar las hipótesis planteadas mediante el análisis exploratorio. Es por ello que la estadı́stica descriptiva es el inicio de cualquier
procedimiento de análisis estadı́stico. En este capı́tulo se proporcionan los
elementos básicos para llevar a cabo un análisis exploratorio de datos.
2.1.
Introducción
La estadı́stica descriptiva se distingue de la inferencia estadı́stica en que
la primera tiene como objetivo resumir un conjunto de datos en lugar de
utilizarlos para hacer inferencias de la población que se cree que dichos datos representan. Esto generalmente significa que la estadı́stica descriptiva,
a diferencia de la inferencia estadı́stica, no se desarrolla sobre la base de
la teorı́a de la probabilidad. Su objetivo primario es entonces analizar un
grupo determinado, resumiendo los datos de manera que se pueda enfatizar
la información relevante que sea útil para el planteamiento de preguntas y
modelos.
Este tema se puede abordar desde diferentes ángulos, pero considerando
el objetivo del presente texto, que está más enfocado a la inferencia estadı́stica, sólo se hace una breve revisión de los conceptos más importantes de la
estadı́stica descriptiva. Se utilizan para ello datos que están disponibles en
el paquete estadı́stico R, con el fin de ilustrar también el uso y resultados de
11
12
2. Estadı́stica descriptiva
este software. La razón principal para usar R es que este paquete es asequible por ser de uso libre y que, además de la popularidad que ha adquirido
en los últimos años en el ámbito educativo, se utiliza ampliamente en otros
sectores.
También se exhiben los términos más importantes del análisis exploratorio de datos.
2.2.
Datos y variables
Una premisa básica en el análisis estadı́stico es que el origen del conocimiento estadı́stico está en los datos. Cualquier procedimiento inductivo acerca de
una población en estudio debe confirmar la fuerza de las diferencias encontradas mediante un procedimiento exploratorio. Es por ello que la estadı́stica
descriptiva debe anteceder a cualquier procedimiento de inferencia.
Una muestra es una parte de la población obtenida y se entiende por
datos a las mediciones u observaciones recolectadas de una muestra. Los
individuos son las personas, animales o cosas descritos en un conjunto de
datos; a veces se les llaman unidades experimentales. Una variable es cualquier caracterı́stica de un individuo. Las variables pueden tomar distintos
valores para distintos individuos.
Por ejemplo, los datos para un estudio del nivel socioeconómico y cultural
de los estudiantes de la Facultad de Ciencias tienen que hacer referencia a
todos los alumnos. Estos son los individuos descritos por el conjunto de
datos. Para cada individuo, los datos contienen los valores de variables como
la edad en años, el sexo (hombre o mujer), situación laboral (trabaja o no),
tipo de horario (matutino, vespertino, mixto), ingreso mensual del principal
sostén económico de su familia, tipo de entretenimientos (cine, TV, teatro,
otro), práctica de deportes (sı́, no), deporte preferido, entre otros.
No existe una única clasificación con respecto a la naturaleza de los datos.
A continuación se darán dos clasificaciones de los datos considerando dos
criterios: el tipo de escala en la que se miden los datos y la manera en la que
se recolectó la información.
2.2.1.
Tipos de variables
De acuerdo a su tipo, se puede clasificar a las variables en cualitativas y
cuantitativas.
Los datos cuantitativos son aquellos en los que las observaciones se miden
en una escala numérica. Los datos no-numéricos que sólo se pueden clasificar
por categorı́as se conocen como datos cualitativos o datos categóricos.
2.2. Datos y variables
13
El número de hijos que tienen las familias en cierto poblado, el sueldo
que perciben los trabajadores de cierta empresa, son datos cuantitativos.
Sin embargo, el tipo de sangre (O, A, B, AB) de los pacientes de cierto
hospital y el estado civil de las personas (soltero, casado, divorciado) son
datos categóricos.
2.2.2.
Escalas de medición
Para considerar la precisión con la que se evalúan los diferentes valores,
existen cuatro niveles de medición, los cuales se usarán de acuerdo al tipo
de variable que se esté usando.
Dato categórico en escala nominal. Como su nombre lo dice, este
tipo de variables hace referencia a “nombres”. Básicamente es una clasificación de los datos con respecto a cierto criterio. En esta escala no
hay ningún tipo de orden entre los datos. Son simples identificadores y
son completamente arbitrarios. La única operación que se puede realizar con este tipo de escala es el de conteo de los datos con el mismo
identificador. Ejemplos de datos en esta escala son el tipo de sangre de
los pacientes de cierto hospital y el estado civil de las personas.
Dato categórico en escala ordinal. Desde un punto de vista formal no
tienen un orden; sin embargo, se le puede asignar uno que tenga sentido
ya sea “creciente” o “decreciente”. Por ejemplo, pequeño, mediano o
grande; o mucho, poco o nada. Los valores de esta escala representan
categorı́as con cierto orden asociado pero no en una cantidad especı́fica,
es decir, no se puede determinar la distancia entre las categorı́as, sólo es
interpretable el orden entre sus valores. Se pueden hacer operaciones
de igualdad y “orden de magnitud”. Generalmente representan una
cualidad que se está “midiendo” y establecen si una observación tiene
más de una cualidad que otra. Un ejemplo de datos en esta escala es
el nivel socio-económico de las personas en una ciudad.
Dato cuantitativo en escala de intervalo. Mediante esta escala se
puede medir exactamente la intensidad con la que se posee una caracterı́stica. Para ello se usa una unidad de medición cuyo origen se
denomina “cero flotante” para enfatizar que cuando dicho origen
se alcanza no implica la ausencia del atributo. Esta escala representa
magnitudes, con la propiedad de igualdad de la distancia entre puntos
de escala de la misma amplitud. Aquı́ se puede determinar el orden
(formal) entre sus valores, hacerse comparaciones de igualdad, y medir
la distancia existente entre cada valor de la escala. La distancia igual
entre puntos de la escala significa que puede saberse cuántas unidades
14
2. Estadı́stica descriptiva
de más tiene una observación comparada con otra, con respecto a cierta caracterı́stica analizada. El ejemplo por excelencia de este tipo de
escala es cualquier escala de temperatura, ya que el cero en ellas no
significa que no haya temperatura.
Dato cuantitativo en escala de razón. Se dice que esta escala es la más
completa. Tiene las mismas propiedades que la escala de intervalo, pero
sı́ existe la noción de cero “absoluto”, ya que se sitúa un punto cero fijo
que al ser alcanzado implica ausencia de un atributo. En este caso, es
posible realizar operaciones aritméticas de producto y cociente, y ası́
comparar mediante proporciones o razones. A iguales diferencias entre
los números asignados corresponden iguales diferencias en el grado de
atributo estudiado. Ejemplos de datos en esta escala son longitud, peso,
distancia, ingresos, precios, etc.
Ahora, suponga que se va a realizar un estudio médico y para ello se
dispone de un conjunto de variables referentes a un grupo de pacientes. Las
variables son:
(a) Género (hombre o mujer).
(b) Edad (en años).
(c) Raza (asiática, blanca, negra u otras).
(d) Fumador (sı́ o no).
(e) Presión sanguı́nea sistólica (milı́metros de mercurio).
(f) Nivel de calcio en la sangre (microgramos por mililitro).
(g) Practica algún deporte o actividad deportiva (1 a 4 dı́as de la semana;
5 a 7 dı́as de la semana; ningún dı́a de la semana).
Como variables categóricas se distinguen a género (en escala nominal),
raza (en escala nominal), fumador (en escala nominal) y actividad deportiva
(en escala ordinal). Como variables cuantitativas se tienen a edad (en escala
de razón), presión sanguı́nea (en escala de intervalo) y nivel de calcio (en
escala de razón).
2.2.3.
Formas de recolección
También se puede clasificar a los datos con respecto a la manera en la que
se recolectaron.
15
2.3. Los datos y R
Los datos en sección cruzada son datos que se recolectan de diferentes
elementos o variables en el mismo punto del tiempo (o en el mismo
intervalo de tiempo).
Los datos en serie de tiempo o longitudes son datos que se recolectan
de un mismo elemento o variable en diferentes puntos en el tiempo (o
para diferentes periodos de tiempo).
2.3.
Los datos y R
R es un lenguaje y entorno de programación para análisis estadı́stico y gráfico. Se trata de un proyecto de software libre, resultado de la implementación
GNU del lenguaje S. R y S-Plus -versión comercial de S- son, probablemente,
los dos lenguajes más utilizados en investigación por la comunidad estadı́stica, siendo además muy populares en el campo de la investigación biomédica,
la bioinformática y las matemáticas financieras. R se puede descargar gratuitamente en la página oficial del proyecto http://www.r-project.org/.
Para ilustrar los conceptos fundamentales de la estadı́stica descriptiva,
se considerará un conjunto de datos, crabs que se encuentra en la biblioteca
de R MASS. Los datos corresponden a un marco de datos (data frame) de
200 renglones y 8 columnas, describiendo 5 medidas morfológicas de 50 cangrejos cada uno de dos colores y de ambos sexos, de la especie Leptograpsus
recolectada en Fremantle, W. Australia1 .
2.3.1.
Cargando los datos
Se cargarán los datos desde R de la siguiente manera:
>
>
>
>
library(MASS)
data(crabs)
help(crabs)
attach(crabs)
Los datos cargados están en el formato data.frame que es un formato
que está compuesto de varios campos. La ventaja de este tipo de formato es
que se pueden agrupar variables de varios formatos en una sola. Para saber
los campos que contiene el data.frame se puede utilizar la instrucción ls()
de la siguiente manera:
> ls(crabs)
[1] "BD"
"CL"
"CW"
"FL"
"index" "RW"
"sex"
"sp"
1 Campbell, N.A. and Mahon, R.J. (1974). A multivariate study of variation in two
species of rock crab of genus Leptograpsus. Australian Journal of Zoology 22, 417-425.
16
2. Estadı́stica descriptiva
Este conjunto de datos contiene las siguientes columnas:
sp especie - “B” o “O” para blue u orange.
sex sexo del cangrejo.
index ı́ndice 1 a 50, dentro de cada unos de los cuatro grupos.
FL tamaño del lóbulo frontal (mm).
RW ancho trasero (mm).
CL longitud del caparazón (mm).
CW ancho del caparazón (mm).
BD profundidad del cuerpo (mm).
En este punto se tienen las variables listas para realizar el análisis descriptivo.
2.4.
Representación gráfica de los datos
Una vez que se obtiene una muestra, para entender con más claridad el tipo
de información que se está analizando, es muy común representar dicha información a través de tablas o gráficas. Estas representaciones gráficas son muy
útiles ya que dan un recurso visual que muchas veces facilita el análisis de la
información al mostrar algunos patrones con respecto al comportamiento de
las variables que se están estudiando. En un primer curso de estadı́stica se
estudian datos asociados a una sola variable. Las representaciones gráficas
más comunes son:
Tabla de frecuencias.
Gráfica de pastel.
Gráfica de barras.
Histograma.
La información categórica generalmente se resume en tablas o gráficamente con gráficas de barras, diagramas de puntos y gráficas de pastel.
2.4. Representación gráfica de los datos
2.4.1.
17
Frecuencia, frecuencia relativa y frecuencia
acumulada
Suponga que se tienen los n elementos de una muestra de tamaño n, obtenida
de una población, con k valores asociados a los eventos observados al realizar
el experimento aleatorio que define la muestra, x1 , x2 , x3 , . . . , xk , y que de
ésta hay fi resultados idénticos a xi (i ∈ {1, . . . , k}).
Los números f1 , f2 , f3 , . . . , fk se conocen como freciencias de ocurrencia
de los valores x1 , x2 , x3 , . . . , xk , respectivamente; y satisfacen
f1 + · · · + fk = n.
Al cociente de una frecuencia fi entre el total de observaciones n (el
tamaño de la muestra), se le conoce como frecuencia relativa de ocurrencia
del valor xi correspondiente. Representando la frecuencia relativa de xi con
fi∗ , se tiene que
fi
fi∗ = , i ∈ {1, . . . , k}.
n
A partir de la definición de frecuencia relativa se obtienen de inmediato
las condiciones para que un conjunto de números sean frecuencias relativas
de los valores de una muestra. Éstas son
0 ≤ f1∗ ≤ · · · ≤ fk∗ ≤ 1 y f1∗ + · · · + fk∗ = 1.
Se conoce como frecuencia relativa acumulada de un valor xi , a la suma
de frecuencias relativas de todos los valores anteriores o iguales al valor xi .
Si Fi representa la frecuencia relativa acumulada de xi entonces
Fi = f1∗ + · · · + fi∗ .
2.4.2.
Tablas de frecuencias
Las tablas son muy usadas para resumir información. En R la función para
crear tablas es la función table(). En su uso más simple, table(x) encuentra todos los valores únicos en el vector x y tabula las frecuencias y su
ocurrencia.
La variable sexo (sex) puede ser tabulada como
> table(sex)
sex
F
M
100 100
18
2. Estadı́stica descriptiva
Si se quisieran tabular conjuntamente las variables sexo (sex) y la especie
del cangrejo (sp), se harı́a de la siguiente manera:
> table(sex,sp)
sp
sex B O
F 50 50
M 50 50
2.4.3.
Gráficas de barras
Los datos categóricos también se pueden resumir de manera gráfica. La representación más común quizá sea la gráfica de barras. Una gráfica de barras
es un arreglo simple que acomoda los niveles de la variable en algún orden
y representa su frecuencia con una barra.
Una gráfica de barras es una gráfica en la que las “barras” representan
las frecuencias (o frecuencias relativas) de las diferentes categorı́as.
En R, las gráficas de barras se hacen con la función barplot(). Ésta
usa un resumen de la información, frecuentemente el que hace la función
table(). Los datos resumidos pueden estar en frecuencias o en proporciones.
El resultado gráficamente será el mismo, sin embargo, la escala del eje Y será
distinto.
> barplot(table(sp),xlab="Especie",ylab="Frecuencia")
En la figura 2.1 se presenta una gráfica de barras para la base de datos
de los cangrejos.
2.4.4.
Gráficas de pay o pastel
La gráfica de pay o pastel se utiliza para representar las frecuencias relativas
o proporciones de las distintas posibles respuestas de una variable categórica.
Esta grafica, ası́ como la gráfica de barras es ampliamente utilizada en los
medios de difusión de información.
Para hacer una gráfica de pay en R se utiliza la función pie(), que utiliza
argumentos similares al histograma para cambiar colores y agregar nombres:
> pie(table(sp),radius = 0.68, cex=1.1,
col = c("cornflowerblue","coral4"),
labels=NA, main="Especies")
> text(0.1,-0.3,"50%", cex=1.2)
> text(0.1,0.3,"50%", cex=1.2)
> legend(-1.1,-0.56,c("Orange", "Blue"),
fill=c("cornflowerblue","coral4"),cex=0.8)
19
2.4. Representación gráfica de los datos
100
Frecuencia
75
Especie
Blue
50
Orange
25
0
B
O
Figura 2.1: Gráfica de barras correspondiente a las especies B (blue) u O
(orange) de los cangrejos.
En la figura 2.2 se muestra una gráfica de pay correspondiente a la base
de los cangrejos.
Especie
Orange
Blue
Figura 2.2: Gráfica de pay para las especies de cangrejos.
20
2. Estadı́stica descriptiva
Para ejemplificar el caso de más categorı́as, considere una encuesta con
5 posibles respuestas A, B, C, D y E, codificadas, respectivamente como 1,
2, 3, 4 y 5. Las respuestas obtenidas fueron
4, 2, 3, 2, 1, 2, 3, 3, 3, 3, 4, 3, 5, 3, 3, 2, 2, 4, 3, 2
Para generar el diagrama de pay se realiza lo siguiente:
> respuesta<-scan()
1: 4 2 3 2 1 2 3 3 3 3 4 3 5 3 3 2 2 4 3 2
21:
Read 20 items
La tabla de los resultados obtenidos en la encuesta es:
> (Tabla=table(respuesta))
respuesta
1 2 3 4 5
1 6 9 3 1
> names(Tabla) = c("A","B","C","D","E")
> pie(Tabla, main="Encuesta")
Una gráfica para los datos de la encuesta descritos arriba, puede observarse en la figura 2.3.
Respuesta
A
B
C
D
E
Figura 2.3: Diagrama de pay para las 5 respuestas de una encuesta.
21
2.4. Representación gráfica de los datos
2.4.5.
Diagrama de tallo y hojas
El diagrama de tallo y hojas es una variante del histograma para desplegar
la información muestral, especialmente cuando las observaciones tienen dos
dı́gitos y no son conjuntos muy grandes de datos. Algo conveniente de este
diagrama es el hecho de que se conserva la información de las observaciones
en lugar de sólo agruparlas en intervalos. Esta manera de desplegar los datos
se obtiene al ordenar las observaciones de acuerdo a su dı́gito principal. Para
ilustrar mejor este diagrama, antes de hacerlo en R se construirá el siguiente
ejemplo. Supóngase que se tienen las siguientes observaciones:
75
68
93
98
57
85
42
95
70
75
55
62
84
79
80
87
88
74
65
76
69
59
60
90
63
77
62
86
49
84
78
92
64
37
83
73
99
71
48
66
78
72
90
53
79
81
80
77
89
58
62
78
95
63
79
98
64
79
99
65
80
66
80
68
81
69
83
Ordenando los datos se tiene lo siguiente:
37
70
84
42
71
84
48
72
85
49
73
86
53
74
87
55
75
88
57
75
89
58
76
90
59
77
90
60
77
92
62
78
93
Primero se listan los dı́gitos principales a la izquierda de la lı́nea vertical.
Después, para cada observación se anota el segundo dı́gito a la derecha de la
lı́nea vertical en el renglón de su dı́gito principal. Por último, se ordenan los
dı́gitos de cada renglón y a la derecha de la lı́nea para que estén en orden
ascendente. Ası́, el diagrama queda de la siguiente manera:
> stem(x)
3
4
5
6
7
8
9
2.4.6.
7
289
35789
022345689
01234556778899
00134456789
0023589
Histograma
Un histograma es la representación visual de la distribución de un conjunto
de datos. Es decir, se intenta tener una idea acerca de cómo se comportan
pensando en una función de densidad empı́rica. El histograma tiene algunas
similitudes con la gráfica de barras (ver la función barplot()), en el sentido
22
2. Estadı́stica descriptiva
que también utiliza barras para indicar una frecuencia, pero a diferencia del
diagrama de barras, cada barra en el histograma representa la frecuencia
de un intervalo sobre el rango de las observaciones que se tienen. Cuando
se elabora un histograma, se toma una decisión acerca de cómo se va a
dividir el rango de la muestra en intervalos y cuán altas se dibujarán las
barras, dado que únicamente tienen que estar en la proporción correcta. R
tiene varios métodos para la selección de estos intervalos (Sturges, Scott y
Freedman–Diaconis). Las dos maneras de establecer la altura de las barras
son la frecuencia absoluta del intervalo y aquella que hace al área de la barra
igual a la frecuencia relativa del intervalo. Bajo este último método, el área
total de las barras sumará 1, lo cual es conveniente cuando se está pensando
en ajustar el modelo de una distribución de probabilidad.
En la función hist(), la longitud de los intervalos está controlada por el
parámetro breaks. Este puede ser especificado por el nombre de un algoritmo
que los genere, el número de intervalos deseados o la localización exacta de
los extremos de los intervalos deseados (breaks).
La siguiente instrucción imprime gráficas: 2 renglones, 2 columnas:
> par(mfrow=c(2,2))
O, un renglón y 2 columnas:
> par(mfrow=c(1,2))
Para graficar los histogramas la instrucción de R es:
> hist(CW,breaks="Sturges",freq=TRUE,col="lightgray",main=
"Ancho del caparazon", ylab="Frecuencia absoluta")
> hist(CW,breaks=30,probability=TRUE,col="gray",main="Ancho
del caparazon", ylab="Frecuencia relativa")
Los histogramas aparecen en la figura 2.4.
Puede notarse que los histogramas anteriores se graficaron de tal modo
que muestran la frecuencia absoluta (freq=TRUE o probability=FALSE) y
la frecuencia relativa (freq=FALSE o probability=TRUE) de los intervalos
dados, respectivamente.
Procedimiento y consideraciones para la construcción de una tabla
de frecuencias y un histograma
1. Determinar los valores mı́nimo y máximo de las observaciones y calcular la diferencia entre estos valores. A este número se le conoce como
rango.
23
2.4. Representación gráfica de los datos
Ancho del caparazón
Ancho del caparazón
0.06
Frecuencia relativa
Frecuencia absoluta
40
30
20
0.04
0.02
10
0
0.00
20
30
40
CW
50
20
30
40
50
CW
Figura 2.4: Histogramas para la caracterı́stica ancho del caparazón de los
cangrejos.
2. Seleccionar el número de clases M de tal forma que estas clases abarquen toda la información. Usualmente,
una forma aproximada para
√
elegir el número de clases es M = n ó M = log(n) + 1, donde n es
el número total de observaciones. La idea es utilizar suficientes clases
para mostrar la variación de los datos pero no tantas como para que
haya pocos datos en algunas de las clases. Una regla es que la longitud de las clases debe ser ligeramente mayor que el cociente max−min
M
donde M es el número de clases.
3. El primer intervalo debe tener extremo inferior ligeramente menor que
el mı́nimo de los datos y el último intervalo debe tener extremo superior
ligeramente mayor que el máximo de los datos. Los lı́mites de la clase
son los valores mı́nimo y máximo en cada clase. La marca de clase es
el punto medio del intervalo de clase.
4. Ninguno de los datos debe estar en las fronteras de las clases.
5. Para una tabla de frecuencias se deben enlistar los intervalos de clase
y escribir el número de datos en cada clase, fi , y también la frecuencia
relativa fi∗ = fni .
24
2. Estadı́stica descriptiva
6. La base de cada barra será la longitud de la clase y la altura será la
correspondiente frecuencia de dicha clase (es decir, el número de datos
que pertenecen a dicha clase).
2.4.7.
Boxplot o diagrama de caja y brazos
El boxplot o diagrama de caja y brazos es una manera de representar los
datos de una muestra a través de la información de sus cuartiles (ver sección
2.5). Estos diagramas tienen unas lı́neas que indican la variabilidad presente
fuera del intervalo intercuatil. Es una gráfica que suministra información
sobre los valores mı́nimo y máximo, los cuartiles Q1 , Q2 (mediana) y Q3 , y
sobre la existencia de valores atı́picos y la simetrı́a de la distribución.
Los diagramas de caja muestran la variación de una muestra sin hacer
suposiciones de la distribución probabilı́stica de la cual provienen, es decir,
tienen un enfoque no-paramétrico.
En R existe la instrucción boxplot() para dibujar este diagrama. En el
caso de los datos que se han estado utilizando (crabs):
> boxplot(CW,ylab="Ancho del caparazon")
Ancho del caparazón
La gráfica de caja y brazos para “ancho del caparazón” se muestra en la
figura 2.5.
50
40
30
20
Cangrejos
Figura 2.5: Diagrama de caja y brazos para la caracterı́stica ancho del caparazón de la base de datos de los cangrejos crabs.
También se usan los diagramas de cajas y brazos cuando se busca comparar una variable cuantitativa con una variable cualitativa:
25
2.4. Representación gráfica de los datos
> par(mfrow=c(1,2))
> boxplot(CW~sp, xlab="Especie",ylab="Ancho del caparazon")
> boxplot(CW~sex, xlab="Sexo",ylab="Ancho del caparazon")
Para una gráfica de caja y brazos con estas caracterı́sticas, véase la
figura 2.6.
50
40
Especie
Blue
Orange
30
20
Ancho de caparazón
Ancho del caparazón
50
40
Sexo
Femenino
Masculino
30
20
B
O
Especie
F
M
Sexo
Figura 2.6: Diagramas de caja y brazos para la caracterı́stica ancho del
caparazón por especie y por sexo para los datos de los cangrejos.
Inclusive se puede comparar una variable cuantitativa con más de una
variable cualitativa de manera simultánea:
> boxplot(CW~sp+sex, xlab="Especie y Sexo",ylab="Ancho del
caparazon")
Ver la figura 2.7.
Procedimiento para construir un diagrama de caja y brazos
1. Dibujar un eje de medida vertical y marcar Q1 , Q2 (la mediana) y Q3
en este eje.
2. Construir una caja rectangular cuya base inferior es el cuantil Q1 (primer cuartil) y su base superior es el cuantil Q3 (tercer cuartil).
26
2. Estadı́stica descriptiva
B
O
Ancho del caparazón
50
40
Sexo
Femenino
Masculino
30
20
F
M
F
M
Figura 2.7: Gráfica de caja y brazos para la caracterı́stica ancho del caparazón para las diferentes variables asociadas a especie y sexo.
3. Dibujar una lı́nea horizontal dentro de la caja a la altura de la mediana
Q2 .
4. Sea RI el rango intercuartil, es decir, RI = Q3 − Q1 . Dibujar un
segmento de recta del punto medio de la base inferior de la caja hacia
abajo de longitud 1.5 · RI .
5. Dibujar un segmento de recta del punto medio de la base superior de
la caja hacia arriba de longitud 1.5 · RI . A estos dos últimos segmentos
se les conoce como “brazos”.
6. Marcar en el diagrama con puntos aquellas observaciones que estén
por encima y por debajo en una distancia de a lo más 1.5 · RI . A estas
observaciones se les conoce como observaciones atı́picas moderadas.
7. Marcar en el diagrama con asteriscos aquellas observaciones que estén
por encima y por debajo en una distancia de al menos 1.5 · RI . A estas
observaciones se les conoce como observaciones atı́picas extremas.
2.5. Medidas muestrales de tendencia central
2.5.
27
Medidas muestrales de tendencia central
Los métodos gráficos vistos en la sección anterior ayudan a visualizar los
patrones de un conjunto de observaciones. Para obtener un resumen más
objetivo, el siguiente paso será obtener valores numéricos para saber dónde
están centrados los datos y la variabilidad presente en ellos. Las dos medidas
de tendencia central más comúnmente utilizadas son la media y la mediana.
2.5.1.
La media muestral
La media muestral de un conjunto de n observaciones x1 , x2 , . . . , xn es la
suma de estas observaciones divididas entre n. La media muestral se denota
como x. Es decir,
Pn
xi
x = i=1 .
n
Para calcular la media muestral del ancho del caparazón en R, se puede
hacer de la siguiente manera
> (sumaCW=sum(CW))
[1] 7282.9
> nCW<-length(CW)
> (mediaCW<-sumaCW/nCW)
[1] 36.4145
Otra manera es utilizar la función mean() que calcula la media muestral
de un conjunto de datos
> mean(CW)
[1] 36.4145
2.5.2.
La mediana muestral
Otra medida de tendencia central muestral utilizada es la mediana definida
de la siguiente manera.
La mediana muestral de un conjunto de n observaciones x1 , x2 , . . . , xn ,
es el valor mc definido en los siguiente dos casos:
Si n es impar, mc es el valor que ocupa la posición n+1
una vez que
2
los datos han sido ordenados, es decir, mc = x(n+1)/2 .
Si n es par, la mediana es la media aritmética de los dos valores centrales. Cuando n es par, los datos que están en el centro de la muestra
x
+x
ocupan las posiciones n2 y n2 + 1; ası́, mc = (n/2) 2((n/2)+1) .
28
2. Estadı́stica descriptiva
Para calcular la mediana muestral en R, se puede construir una función,
de acuerdo a la definición anterior, como se especifica a continuación:
mediana<-function(x){
n<-length(x)
x<-sort(x)
# sort() ordena el conjunto de datos
if(n%%2==0){
# n%%2 es n modulo 2
med<-(x[n/2]+x[1+(n/2)])/2
}else{
med<-x[ceiling(n/2)]} # ceiling() es la funcion techo
return(med)
}
Aplicando esta función, se tiene lo siguiente:
> mediana(CW)
[1] 36.8
Existe una función predefinida en R para el cálculo de la mediana muestral, que es median():
> median(CW)
[1] 36.8
2.5.3.
Porcentiles o percentiles
Si el tamaño de la muestra es razonablemente grande, es útil muchas veces
extender el concepto de la mediana y dividir los datos ordenados en cuartos.
Ası́, el punto que divide a la muestra en dos partes es la mediana y los puntos
que dividen a la muestra en cuartos son llamados cuartiles. De manera aún
más general se tiene la siguiente definición.
El 100 × p percentil es el valor tal que, una vez que se han ordenado
los datos de menor a mayor, al menos una proporción del 100 × p % de las
observaciones son menores o iguales a este valor.
Aunque el término correcto es porcentil, por referirse a porcentaje, es
común usar el término percentil.
Existen varias maneras equivalentes de calcular los percentiles, aquı́ se
proporciona una de ellas:
1. Se ordena la muestra de menor a mayor.
2. Se calcula el producto (tamaño de la muestra) × (proporción) = np.
Si np no es entero, el percentil p × 100 será el valor x(dnpe) , donde d·e
es la función techo.
Si k = np es entero, el percentil p × 100 será el valor
x(k) +x(k+1)
.
2
2.6. Medidas de dispersión
29
Claramente, los cuartiles son los percentiles 25, 50 y 75.
Para el cálculo de los percentiles en R, existe la función quantile(), que
recibe la muestra, el valor de p y el método type, la definición dada aquı́
corresponde a type=2, ası́, para calcular el tercer cuartil CW, se hace de la
siguiente manera:
> quantile(CW,0.75,type=2)
75%
42
Pueden darse diversos valores de p, agrupándolo como un vector. Para
calcular los cuartiles 1, 2 y 3 de ambas series se hará de la siguiente manera:
> quantile(CW,c(0.25,0.5,0.75),type=2)
25% 50% 75%
31.5 36.8 42.0
2.6.
Medidas de dispersión
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número,
si las diferentes puntuaciones de una variable están muy alejadas de la media
o mediana, o alguna otra medida de tendencia central. Cuanto mayor sea ese
valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a
la media. Ası́ se sabe si todos los casos son parecidos o varı́an mucho entre
ellos.
2.6.1.
Varianza y desviación estándar muestrales
Varianza muestral
Para calcular la variabilidad de una distribución respecto de su media, se
calcula la media de las desviaciones de las puntuaciones respecto a la media
aritmética. Pero la suma de las desviaciones es siempre cero, ası́ que lo que
usualmente se toma es un promedio de los cuadrados de las desviaciones. Es
decir, la varianza muestral para un conjunto de observaciones x1 , x2 , . . . , xn
está definida como:
n
1 X
2
2
(xi − x) .
s =
n − 1 i=1
Para hacer el cálculo en R, se puede hacer lo siguiente:
30
2. Estadı́stica descriptiva
> difs.CW=CW-mediaCW
# Diferencias respecto a la media
> difs.cuad.CW=difs.CW^2
# Diferencias cuadradas
> sum.difs.cuad.CW=sum(difs.cuad.CW)
# Suma
> var.CW=(sum.difs.cuad.CW)/(nCW-1)
# Varianza muestral
> var.CW
# Imprime el resultado
[1] 61.96768
Haciendo el cálculo de la varianza muestral para CM con menos variables
auxiliares
> x=CW
# Para hacer la notacion menos pesada
> var.CW=sum((x-mean(x))^2)/(length(x)-1) # Varianza muestral
> var.CW
# Imprimir el resultado
[1] 61.96768
Ahora, utilizando la función var(), la cual calcula automáticamente la
varianza muestral
> var(CW)
[1] 61.96768
Desviación estándar muestral
La varianza a veces no se interpreta claramente, ya que se mide en unidades
cuadráticas. Para evitar ese problema se define otra medida de dispersión,
que es la desviación tı́pica, o desviación estándar, que se halla como la raı́z
cuadrada positiva de la varianza. La desviación tı́pica informa sobre la dispersión de los datos respecto al valor de la media en las mismas unidades
que los datos; cuanto mayor sea su valor, más dispersos estarán los datos.
Ası́, la desviación estándar muestral estará dada por
v
u
n
√
u 1 X
2
s = s2 = t
(xi − x) .
n − 1 i=1
Haciendo el cálculo en R. La función sqrt() calcula la raı́z cuadrada del
valor dado
> (desv.est.CW=sqrt(var.CW))
[1] 7.871955
También se puede utilizar la función sd():
> sd(CW)
[1] 7.871955
2.6. Medidas de dispersión
2.6.2.
31
Rango muestral
Se denomina rango estadı́stico o recorrido estadı́stico al intervalo entre el
valor máximo y el valor mı́nimo, por ello tiene las mismas unidades que
los datos. El rango muestral es el tamaño del intervalo más pequeño que
contiene a todas las observaciones. Permite obtener una idea de la dispersión
de los datos: cuanto mayor es el rango, más dispersos están los datos de un
conjunto. Para un conjunto de observaciones {x1 , x2 , . . . , xn }, el rango está
definido por:
Rango = máx {x1 , x2 , . . . , xn } − mı́n {x1 , x2 , . . . , xn } .
Haciendo el cálculo en R,
> (rango.CW<-max(CW)-min(CW))
[1] 37.5
2.6.3.
Rango intercuartil
El rango intercuartil es la diferencia entre el tercer y el primer cuartil de una
muestra. Es una medida de la dispersión estadı́stica; a diferencia del rango,
no se ve afectada de la misma manera por datos atı́picos. Sea Q1 y Q3 los
cuartiles 1 y 3 respectivamente de una muestra {x1 , x2 , . . . , xn }, entonces el
rango intercuartil estará dado por:
rango intercuartil = Q3 − Q1 .
Haciendo el cálculo en R:
> CW.Q1.Q3<-quantile(CW,c(0.25,0.75),type=2)
> (CW.R.I<-diff(CW.Q1.Q3))
10.5
Resumen de la información y comparativo
Se hace ahora un resumen de los resultados obtenidos para el ancho del
caparazón de los cangrejos (CW) estudiado. Las estadı́sticas muestrales son:
32
2. Estadı́stica descriptiva
Tendencia
central
Dispersión
2.7.
mı́n
Q1
x
me
Q3
máx
Rango muestral
Rango intercuartil
Desv. Estándar
Varianza
CW
17.1
31.5
36.4145
36.8
42.0
54.6
37.5
10.5
7.871955
61.96768
Otras medidas de resumen
Sesgo
Se habla de sesgo negativo o hacia la izquierda si la cola izquierda es
más larga, es decir, si la distribución está concentrada a la derecha.
Se habla de sesgo positivo o hacia la derecha si la cola derecha es más
larga, es decir, si la distribución está concentrada a la izquierda.
Se define el sesgo como:
Sesgo =
µ3
.
σ3
En este caso, µ3 es el tercer momento alrededor de la media.
El sesgo muestral se define como:
Pn
1
3
m3
i=1 (xi − x̄)
n
P
.
=
n
1
3/2
( n i=1 (xi − x̄)2 )3/2
m2
Curtosis
La curtosis se define como:
µ4
,
σ4
donde µ4 es el cuarto momento alrededor de la media y σ es la desviación
estándar.
En ocasiones se mide con referencia a la distribución normal que tiene
una curtosis igual a 3,
µ4
γ2 = 4 − 3.
σ
33
2.8. Relaciones lineales entre variables
La distribución normal tiene entonces una medida γ2 = 0 y se llama mesocúrtica. Las distribuciones con una curtosis positiva se llaman leptocúrticas y son muy picudas y con colas pesadas. Las distribuciones con curtosis
negativa se llaman platicúrticas y tienen picos menores o son aplanadas y
con colas ligeras.
La curtosis muestral se define como:
Pn
1
(xi − x̄)4
m4
n
− 3.
K = 2 − 3 = 1 Pni=1
m2
( n i=1 (xi − x̄)2 )2
2.8.
Relaciones lineales entre variables
Considere las variables aleatorias continuas para la base crabs; si se observa
una gráfica de dispersión para ellas, se nota que existe una relación lineal
entre las parejas de variables.
> pairs(crabs[,4:8])
El resultado de esta instrucción se presenta en la gráfica de dispersión de
la figura 2.8.
18
● ●●
● ●
●
●●
●
●●
● ●
●● ●
●●
●●●●
●
● ● ●●
●●
●●●
●
●
●●●
●
●
●
●●●●
●
●
●
●●
●●
●●
●●
●
● ●●
●
●
●
●
●
●● ●
●
●
●●
●
●
●●●
●
●●
●●
●
●
●
●
●●
●
●
●●
●●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●●●●●●
●
●●
●
●
●●
●●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●●
●●
●
●
●
●
●●●●
●
●
●●●●
●
●●
●
●
●
●
FL
20
●
●
● ●●●●
●●●
●●
●
●● ●
●
●
●●
●
●
●●●
●
●
●
●
●
●●
●●
●●
●●●●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●●
●
●●
●
●●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●●●
●
●●
●●
●
●
●●●
●
●
●
●●
●●●
●●
●●
●
●●
●
●●
●
●
●
●●
●
●
●
●
6
10
16
●
20
40
●
●
●
●
●
●
●
●
●●
●●
●●●
● ●
●●
●
●●
●●●●
●
●
●
●
●
●
● ●●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●●●
● ●
●
●
●
●●
●
●●
●●
●
●●
●●
●
●
●
●
●●
●
●●●
●
●
●
●●●
●
● ●
●
●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●● ●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●●●
●
●●
●
●●
●●
●
●●●
●
●
●●
●●●
10
15
20
40
●● ●
●●
● ●
●●
●
●●
●●
●
●
●
● ●
●
●
●●● ● ●● ●●
●●
●
●●● ● ●●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●●●
●
●
●●●
●
●●
●●
●
●
●
●
●●●● ●●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●
●
●●●
●
●●●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●●
RW
●
●
●
●
●
●
● ●
●
●
●
● ● ● ●
●
●●
●
●●●
●
●●● ●● ●
●
●
●●●
●
●●
●
●●
●
●
●
●●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●●
●●
●●
●●
● ●
●●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
● ●
●
●
●
●
●
● ● ●
● ●
●●●●
●●●
● ●●
●
●
●●
●
●
●●
●●●
●
●
●●●
●
●
●●
●
●
● ●●
●
●
●
●
●
●
●●
●
●●
●●●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●●●
●
●●
●●
●
● ●
●
●
●●●
● ●
●●
●
●
●●
●
●
●● ●
●
●
●●
●●
● ●●
●
●
●
●
●
●
●
●●●●●●●●
●●
●●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
● ●●●
●●●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●●●●●●●●
●
●●●
●●
●
●●● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●●
●●
●
●
●
●●●●
●●
●●●●●
●●
●
●
●
●
●● ●
●●
●
●
●
●●
CL
●
●
●
●
●
●
●●
●●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●● ●
●
●●
●
●●
●●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●● ●
●●
●
●
●
●
●●
●●
●●
●
●●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●●●
●
●
●
●
●
●●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●●●●
●
●
●
●
●●●
●
15
25
35
45
●
●
●
●●●
●
●
●●
●●●
●
●●●●
●
●
●
●●
●
●
●
●
●●●●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●
50
●
●
●● ●
●●
●●● ●
●●●
●●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●
●● ●●
●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●●●●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●●
●●
●●
●
●
●●
●●
●
●
●●●
●●
●●
●●●
●
●
●●
●
● ●●
●
●
●
●
●
●
●
●●
●● ●
●●●
●
● ●
●
●
●●
●
● ●●●●
●●●●
●● ●
● ● ●●
●● ●●●●
●
●●
● ●●
●
● ●●●
●
●
●
●
●
●●
●
●
●
●●
●●●
●
●●
●
●●
●
●●●●
●
●
●
●
●
●
●
●
●●
●●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
● ●
●
●
●●
●
●●
●
●
●
●●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●●
●
●
●
●●
●●
●
●●●
●●
●●
●●
●● ●
●
● ●
●
●●
●
●
●
●●●●
●●
●●
●●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●●●●
●
●●
●
●●
●
●
●
●
●●
●
●●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●
●
●
●●
●
●
●●
30
●
●
●●
●
●
●
●●
●
●
● ●● ●
●
●●● ●●
●●
●●
●● ● ●
●●
●
●
●●
●
●●●
●●●
●
●
●
●
●●
●
●
●●●●●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●●●
●●
●
●
●
●
●
●
●
●●
●●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
● ●● ●
● ●
●
● ●●
●
●● ●
●
●
●●●●●●●
●
●●●●
●● ●
●●●●●
● ●●
●●
●●● ●●
●●●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●●
●
●●
●●●
●
●
●●●
●●
●●
●
●
●●
●
●●
●
●●
●●
●
●
●
●
●●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●●●
●
●
●●●
●●
●●●●●
●
●
●● ●
●
●●
● ●●
●● ●
●●●
●●●
●
●●
●●
●
●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
● ●●
●●
●
●
●●
●
●
●
●
●●
●●
●●●
●
●
●
●
●
●●●
●
●
●
●●
●
●
●
●●●
●
●
●●
●●
●
●●
●
●
●
●●●
●
●●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●●●
●
●●
●●
●
●●●
●
●●
●●
●
CW
●
●
●
●
10 15 20
14
15 25 35 45
10
●
●
●●
●
●●
●● ●
●
●
●●
●
●
●
●
●
●●
●
● ●●
●
●
●
●●●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●●●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●●
●●●
●
●●●
●
●
●●
●●
●●
●●
●● ●
●
●●
●●
●●
●●●
●
●
●
●●●
●●
● ●●●●
●
●
●
●
●
●
●●●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●●
●●
●
●
●●
●●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●●●●
●
●
●●
●
●●●
●●
●
●●
●
●
●
●
●
●●●
●
●
●●
●
●●
●
●
●●●
●
●●
●
●●●●
●
●●●
●
●
●
●●
10 15 20
6
BD
10
15
20
Figura 2.8: Gráfica de dispersión para la base crabs y que ilustra la relación
entre las diferentes medidas morfológicas para los cangrejos.
34
2. Estadı́stica descriptiva
Coeficiente de correlación de Pearson
Para dos variables aleatorias continuas X y Y , se define el coeficiente de
correlación como:
Cov(X, Y )
ρXY = p 2 2 .
(σX σY )
Note que −1 ≤ ρXY ≤ 1, ası́ valores cercanos a −1 y 1 indican una fuerte
relación lineal con pendiente negativa y positiva, respectivamente.
Para una muestra aleatoria de variables (xi , yi ), i = 1, 2, . . . , n; se define
el coeficiente de correlación muestral (conocido como coeficiente de correlación de Pearson) de la siguiente manera:
Pn
(xi − x̄)(yi − ȳ)
r = p Pn i=1
.
Pn
[ i=1 (xi − x̄)2 ] [ i=1 (yi − ȳ)2 ]
La información muestral para las variables continuas en los datos crabs,
puede resumirse en la gráfica de la figura 2.9, obtenida con la instrucción:
1
FL
0.8
0.6
0.91
RW
0.4
0.2
0.98
0.89
CL
0
−0.2
0.96
0.9
1
CW
−0.4
−0.6
0.99
0.89
0.98
0.97
BD
−0.8
−1
Figura 2.9: Gráfica de correlación para las medidas morfológicas de los cangrejos.
2.9. Anexo
35
>library(corplot)
>corrplot.mixed(cor(crabs[,4:8]),lower="number",upper="color")
Note que, como se ha observado en el diagrama o gráfica de dispersión,
la asociación lineal es fuerte entre las variables.
2.9.
Anexo
A continuación se dan las instrucciones para elaborar algunas de las gráficas
de este capı́tulo a través de la biblioteca ggplot2 de R.
En la siguiente liga se puede encontrar una guı́a rápida para visualización
de datos usando ggplot2.
https://rstudio.com/wp-content/uploads/2016/12/
ggplot2-cheatsheet-2.1-Spanish.pdf
######## Estadistica descriptiva con ggplot2 para los ########
######## ejemplos del capı́tulo 2 ########
>library(MASS)
>library(ggplot2)
>data("crabs")
>help("crabs")
>ls(crabs)
>summary(crabs)
>crabplot = ggplot(data=crabs)
# GRAFICA DE BARRAS
# fill se utiliza para que los ponga de distinto colores de
# acuerdo a sp scale_fill_discrete es para modificar
# las leyendas
>barplot = crabplot + geom_bar(aes(x=sp, fill=sp), alpha=0.4)
+ labs(x=" ", y="Frecuencia") +
scale_fill_brewer(labels=c("Blue","Orange"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=-1)
>barplot
#Las escalas de colores se pueden ver en
#RColorBrewer::display.brewer.all()
# GRAFICA DE PAY para el ejemplo de los cangrejos
>pieplot = crabplot + geom_bar(aes(x=as.factor(1),
36
2. Estadı́stica descriptiva
fill=as.factor(sp)), width=1)
>pieplot = pieplot + coord_polar(theta ="y") + labs(x="",y="")+
scale_fill_brewer(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"), type =
"seq", palette="Set1", direction=1) + theme_void()
>pieplot
# Alternativa: scale_fill_discrete(labels=c("Orange", "Blue"),
guide=guide_legend("Especie"))
# theme_void() para quitar las coordenadas
#Para el ejemplo de la encuesta
>respuesta = c(4,2,3,2,1,2,3,3,3,3,4,3,5,3,3,2,2,4,3,2)
>t_respuesta = as.data.frame(prop.table(table(respuesta)))
>t_respuesta$respuesta = c("A","B","C","D","E")
>pieplot_encuesta = ggplot(data=t_respuesta, aes(x=factor(1),
y=Freq, fill=as.factor(respuesta))) +
geom_bar(width=1, stat="identity")
>pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y")
+ guides(fill=guide_legend("Respuesta")) +
labs(x="", y="") + theme_void()
>pieplot_encuesta
# otra opción para el ejemplo de la encuesta
>pieplot_encuesta = ggplot(data=t_respuesta,
aes(x=factor(1),y=Freq, fill=as.factor(respuesta)))
+ geom_bar(width=1, stat="identity")
pieplot_encuesta = pieplot_encuesta + coord_polar(theta="y") +
scale_fill_brewer(labels=c("A", "B","C","D","E"),
guide=guide_legend("Respuesta"), type = "seq",
palette="Accent", direction=1) +
labs(x="", y="") + theme_void()
>pieplot_encuesta
#+ guides(fill=guide_legend("Respuesta")) se
#sustituyo por scale_fill_brewer
# HISTOGRAMA
#Frecuencia absoluta
>histogram_abs = crabplot + geom_histogram(aes(x=CW),
binwidth = 4.755) + labs(title="Ancho del caparazón",
2.9. Anexo
37
y="Frecuencia absoluta")
>histogram_abs
#Frecuencia relativa
>histogram_rel = crabplot +
geom_histogram(aes(x=CW, y=..density..),bins=30) +
labs(title="Ancho del caparazón", y="Frecuencia relativa")
>histogram_rel
#Para que aparezcan juntas (ver nota al final de este anexo)
>ggplot2.multiplot(histogram_abs, histogram_rel, cols=2)
# BOXPLOT
>boxplot_cangrejos = crabplot +
geom_boxplot(aes(x="", y=CW),fill="blue", alpha=0.3) +
labs(x="Cangrejos", y="Ancho del caparazón") +
scale_fill_brewer(type = "seq", palette="Set1", direction=-1)
>boxplot_cangrejos
# Especie
>boxplot_especie = crabplot +
geom_boxplot(aes(x=as.factor(sp), y=CW, fill=as.factor(sp)),
alpha=0.3) + labs(x="Especie", y="Ancho del caparazón") +
scale_fill_brewer(labels=c("Blue", "Orange"),
guide=guide_legend("Especie"), type = "seq",
palette="Set1", direction=-1)
>boxplot_especie
#Sexo
>boxplot_sexo = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
labs(x="Sexo", y="Ancho de caparazón")+
scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_sexo
>ggplot2.multiplot(boxplot_especie,boxplot_sexo, cols=2)
#Sexo/Especie
>boxplot_espsex = crabplot + geom_boxplot(aes(x=as.factor(sex),
y=CW, fill=as.factor(sex)), alpha=0.3) +
38
2. Estadı́stica descriptiva
facet_grid(.~as.factor(sp))
+ labs(x="", y="Ancho del caparazón")
+ scale_fill_brewer(labels=c("Femenino", "Masculino"),
guide=guide_legend("Sexo"), type = "seq",
palette="Set1", direction=1)
>boxplot_espsex
# guides(fill=guide_legend("Sexo"))
# Nota: para gráficas múltiples usar easyGgplot2
>install.packages("devtools")
>library(devtools)
>install_github("easyGgplot2","kassambara")
>library(easyGgplot2)
# Usar este comando para gráficas múltiples en una
# figura ggplot2.multiplot(plot1,plot2,plot3,plot4,cols=2)
2.10.
Ejercicio
Realice un análisis exploratorio para las variables de la base Cars93, incluida
en la biblioteca MASS de R. La base considera autos seleccionados aleatoriamente de entre los autos de pasajeros disponibles en el mercado en 19932 ,
listados por el Consumer Reports issue y el PACE Buying Guide.
2 Lock,
R. H. (1993). 1993 New Car Data. Journal of Statistics Education (1).
Capı́tulo 3
Estadı́sticas y
distribuciones muestrales
3.1.
Introducción
De acuerdo a la definición 1.2, una muestra aleatoria representa un conjunto de variables aleatorias X1 , . . . , Xn , las cuales son independientes e
idénticamente distribuidas. En este capı́tulo se estudiarán las propiedades
de funciones de la muestra aleatoria que serán fundamentales en el proceso
de inferencia.
Definición 3.1 El espacio de las muestras o espacio muestral es el
conjunto de valores que puede tomar la muestra aleatoria X1 , . . . , Xn y se
denotará por X.
Definición 3.2 Una estadı́stica es cualquier función T (X1 , . . . , Xn ) de la
muestra aleatoria que no depende de parámetros desconocidos.
Se denotará una estadı́stica por T (X1 , . . . , Xn ) o simplemente T (X),
donde X = X1 , . . . , Xn .
Observación 3.1 Note que una estadı́stica, al ser función de variables
aleatorias, es a su vez una variable aleatoria. De manera formal, se está
pidiendo implı́citamente que la función T : Rn → Rk sea Borel medible (medible en la σ-álgebra B n ), donde k es la dimensión de la estadı́stica; no obstante, la condición de medibilidad suele omitirse debido a que las funciones
de la muestra aleatoria que de manera habitual se utilizan, son claramente
39
40
3. Estadı́sticas y distribuciones muestrales
medibles. Pero la importancia de señalar la medibilidad en este momento
es enfatizar el hecho de que las estadı́sticas son variables aleatorias, puesto
que no es posible anticipar el valor que tomarán al obtener observaciones
concretas. Lo anterior tiene la implicación de que será necesario considerar
la función de densidad (o de distribución) de las estadı́sticas, lo que a su vez
permitirá calcular sus caracterı́sticas tales como la esperanza o la varianza. En este contexto, es común hablar de la distribución muestral de una
estadı́stica T (X) al referirse a la distribución de la variable aleatoria T (X).
Entre las estadı́sticas más comunes que se utilizarán en procedimientos de
inferencia destacan la media muestral, la varianza muestral y las estadı́sticas
de orden, las cuales se estudiarán con mayor detalle en este capı́tulo. A
continuación se enlistan algunas de estas funciones de la muestra aleatoria
con su respectiva notación.
T (X) =
T (X) =
Pn
i=1
Xi
:= X̄
n
Pn
2
i=1 (Xi −X̄)
n−1
media muestral.
:= S 2
varianza muestral.
T (X) = mı́n {X1 , X2 , . . . , Xn } := X(1) mı́nima estadı́stica de orden.
T (X) = máx {X1 , X2 , . . . , Xn } := X(n) máxima estadı́stica de orden.
T (X) =
1
n
n
P
i=1
Xir := Mr
r-ésimo momento muestral.
A continuación se probará que, en general, la esperanza de la media muestral es igual a la media poblacional, mientras que la varianza de la media
muestral es la varianza poblacional dividida entre el tamaño de la muestra. Asimismo, la esperanza de la varianza muestral es igual a la varianza
poblacional.
Proposición 3.1 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que
E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces
E(X̄) = µ y Var(X̄) =
σ2
.
n
Demostración.
Pn
E(X̄) = E
i=1
n
Xi
n
=
1X
1
E(Xi ) = · nµ = µ.
n i=1
n
41
3.1. Introducción
Ahora,
Pn
Var(X̄) = Var
i=1
Xi
n
=
n
1 X
σ2
nσ 2
.
Var(Xi ) = 2 =
2
n i=1
n
n
A continuación se da una identidad que será de utilidad más adelante.
Observación 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), entonces
n
n
X
X
(Xi − µ)2 =
(Xi − X̄)2 + n(X̄ − µ)2 .
i=1
(3.1)
i=1
Demostración. Ahora se comprobará (3.1):
n
n
X
X
(Xi − µ)2 =
(Xi − X̄ + X̄ − µ)2
i=1
i=1
n
X
(Xi − X̄)2 + 2(Xi − X̄)(X̄ − µ) + (X̄ − µ)2
=
i=1
=
n
X
(Xi − X̄)2 + 2(X̄ − µ)
i=1
=
n
X
n
X
(Xi − X̄) + n(X̄ − µ)2
i=1
(Xi − X̄)2 + n(X̄ − µ)2 .
i=1
En el siguiente resultado se probará que, en general, E(S 2 ) = σ 2 .
Proposición 3.2 Si X1 , . . . , Xn es una muestra aleatoria de f (x; θ), tal que
E (Xi ) = µ y Var (Xi ) = σ 2 , para toda i, entonces
E(S 2 ) = σ 2 .
42
3. Estadı́sticas y distribuciones muestrales
Demostración.
" n
#
X
1
2
E(S ) =
E
(Xi − X̄)
n−1
i=1
" n
#
X
1
2
2
E
(Xi − µ) − n(X̄ − µ)
=
n−1
i=1
( n
)
X 1
2
2
=
E (Xi − µ) − nE (X̄ − µ)
n − 1 i=1
" n
#
X
1
Var(Xi ) − n · Var(X̄)
=
n − 1 i=1
1
nσ 2
2
=
nσ −
n−1
n
2
= σ2 .
Ejemplo 3.1 Se quiere conocer la probabilidad θ de obtener sol con una
moneda, es decir, se está estudiando la variable aleatoria que toma valores
X = 1 si se obtiene sol y X = 0 si se obtiene águila, donde θ = P(X =
1), y para ello se realizarán tres lanzamientos de la moneda. En este caso,
f (x; θ) = θx (1 − θ)1−x con x = 0, 1; por lo tanto se está considerando una
muestra aleatoria de tamaño tres de la distribución Bernoulli(θ). En la tabla
siguiente se muestran los posibles resultados, la distribución de la muestra
especificada a través de su función de densidad, ası́ como los valores que
pueden tomar las estadı́sticas X y S 2 bajo los diferentes escenarios.
Resultados
s,s,s
s,s,a
s,a,s
a,s,s
a,a,s
a,s,a
s,a,a
a,a,a
x1 , x2 , x3
1,1,1
1,1,0
1,0,1
0,1,1
0,0,1
0,1,0
1,0,0
0,0,0
Distribución
θ3
2
θ (1 − θ)
θ2 (1 − θ)
θ2 (1 − θ)
θ(1 − θ)2
θ(1 − θ)2
θ(1 − θ)2
(1 − θ)3
x̄
1
2/3
2/3
2/3
1/3
1/3
1/3
0
s2
0
1/3
1/3
1/3
1/3
1/3
1/3
0
43
3.1. Introducción
Entonces, la función de densidad conjunta está dada por
fX1 ,X2 ,X3 (x1 , x2 , x3 )
=
3
Y
f (xi ; θ) =
i=1
3
P
3
Y
θxi (1 − θ)1−xi
i=1
xi
3−
= θi=1 (1 − θ)
3
P
i=1
xi
,
y las funciones de densidad de la media y la varianza muestrales son:

(1 − θ)3
si x̄ = 0;



3θ(1 − θ)2 si x̄ = 1/3;
fX̄ (x̄) =
3θ2 (1 − θ) si x̄ = 2/3;



θ3
si x̄ = 1.
(
θ3 + (1 − θ)3
si s2 = 0;
fS 2 (s2 ) =
2
2
3θ(1 − θ) + 3θ (1 − θ) si s2 = 1/3.
Se obtendrán ahora las caracterı́sticas numéricas de X y S 2 para ilustrar las
propiedades que se presentaron previamente.
2
1
E X
+ 3θ2 (1 − θ)
+ (1 − θ)3 (0)
= θ3 (1) + 3θ(1 − θ)2
3
3
= θ3 + θ 1 − 2θ + θ2 + 2θ2 (1 − θ)
=
θ3 + θ − 2θ2 + θ3 + 2θ2 − 2θ3
=
θ.
Por otro lado,
2
2
2
2
1
3
2
2
E X
+ 3θ (1 − θ)
+ (1 − θ)3 (0)
= θ (1) + 3θ(1 − θ)
3
3
4 2
1
= θ3 + θ 1 − 2θ + θ2 +
θ − θ3
3
3
2 2 1 3 4 2 4 3
1
3
= θ + θ− θ + θ + θ − θ
3
3
3
3
3
2 2 1
=
θ + θ.
3
3
Y
2 2 1
Var X
=
θ + θ − θ2
3
3
1 2 1
= − θ + θ
3
3
1
=
θ (1 − θ) ,
3
44
3. Estadı́sticas y distribuciones muestrales
es decir, la varianza poblacional dividida entre el tamaño de muestra.
Finalmente,
1 2
3θ(1 − θ)2 + 3θ2 (1 − θ)
E S
=
3
= θ − 2θ2 + θ3 + θ2 − θ3
= θ − θ2
= θ (1 − θ) .
3.2.
Distribución de las estadı́sticas muestrales bajo normalidad
Suponiendo ahora que las variables de la muestra aleatoria tienen una distribución
normal, se analizará
la distribución y las propiedades de la media
X̄ y la varianza S 2 muestrales.
3.2.1.
Distribución de la media muestral
Proposición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población
con distribución N (µ, σ 2 ), entonces
X̄ ∼ N (µ, σ 2 /n).
Demostración. Se obtendrá la función generadora de momentos de X̄.
Para ello, se usará el hecho de que si Xi ∼ N (µ, σ 2 ), la función generadora
de momentos de Xi está dada por:
1 2 2
mXi (t) = exp tµ + t σ .
2
Ası́,
mX̄ (t) =E(e
tX̄
!
Pn
n
Y
Xi
t
t· i=1
X
n
)=E e
=E
en i
i=1
n
t Y
=
E e n Xi
pues X1 , . . . , Xn son independientes
=
i=1
n
Y
i=1
mXi (t/n)
45
3.2. Distribución de las estadı́sticas
=
n
Y
t
t2
1
e n µ+ 2 · n2 σ
2
pues X1 , . . . , Xn son idénticamente distribuidas
i=1
1 2 σ2
n
=etµ+ 2 t
,
1 2 σ2
n
∴ mX̄ (t) = etµ+ 2 t
2
de donde se concluye que X̄ ∼ N µ, σn .
3.2.2.
,
La distribución de la varianza muestral
Enseguida se revisarán las distribuciones Gama y Ji-cuadrada, las cuales
serán de utilidad en los resultados que se analizarán más adelante.
La distribución Gama
Se dice que la variable aleatoria continua X tiene distribución Gama con
parámetros de forma r > 0 y de escala λ > 0, si su función de densidad de
probabilidad está dada por
f (x; r, λ) =
donde Γ(r) =
satisface:
R∞
0
λr r−1 −λx
x e
, x > 0,
Γ(r)
xr−1 e−x dx es conocida como la función Gama, la cual
Γ(r + 1) = rΓ(r)
y si r ∈ N entonces Γ(r + 1) = r!.
La notación X ∼ Gama(r, λ), significa que X tiene esta distribución.
Las expresiones para su media, varianza y función generadora de momentos se resumen a continuación:
E(X) = λr ,
V ar(X) =
r
λ2 ,
λ
λ−t
mX (t) =
r
.
46
3. Estadı́sticas y distribuciones muestrales
La distribución Ji-cuadrada es un caso particular de la distribución Gama, de tal manera que las propiedades de la segunda pueden utilizarse para
deducir las de la primera, la cual se presenta a continuación.
Distribución Ji-cuadrada
Se dice que la variable aleatoria continua X tiene distribución Ji-cuadrada
con k grados de libertad si su función de densidad de probabilidad está dada
por
f (x; k) =
1 k/2
k
1
2
x 2 −1 e− 2 x ,
k
Γ 2
x > 0.
Se denota como X ∼ χ2(k) . Además:
E(X) =
k/2
1/2
Var(X) =
= k,
k/2
1/4
= 2k,
k
1/2
1
mx (t) = ( 1/2−t
) 2 = ( 1−2t
)k/2 .
Estas propiedades pueden deducirse de las expresiones correspondientes
para la distribución Gama, notando que la distribución Ji-cuadrada es un
caso particular con r = k2 y λ = 12 .
El siguiente resultado establece una relación entre la distribución normal
y la distribución Ji-cuadrada.
Teorema 3.1 Sean X1 , . . . , Xn variables aleatorias independientes tales que
i
∀i ∈ {1, . . . , n}, Xi ∼ N (µi , σi2 ). Sea Zi = Xiσ−µ
, entonces:
i
1. Zi2 ∼ χ2(1) .
2.
n
P
i=1
Zi2 ∼ χ2(n) .
Demostración.
1. Como Zi ∼ N (0, 1), entonces
47
3.2. Distribución de las estadı́sticas
mZi2 (t) = E e
tZi2
Z
∞
2
2
1
etzi √ e−zi /2 dzi
2π
−∞
Z ∞
1 − 1 zi2 (1−2t)
√ e 2
dzi
=
2π
−∞
r
Z ∞
1 2
1
1
q
=
e− 2 zi (1−2t) dzi
1 − 2t −∞ 2π( 1 )
1−2t
r
Z ∞
2
1
1
1
1
q
e− 2 · 1/(1−2t) zi dzi
=
1 − 2t −∞ 2π( 1 )
1−2t
{z
}
|
=
1
=
1
1 − 2t
1/2
,
la cual corresponde a la función generadora de momentos de una distribución χ2(1) .
2. Para la segunda parte se utilizará el hecho de que la suma de variables
aleatorias independientes con distribución Gama tiene también distribución Gama con parámetro de forma igual a la suma de los parámetros
de forma de las variables que componen la suma, cuando el parámetro
de escala es el mismo para todas las variables aleatorias; además de
que la distribución Ji-cuadrada es un caso particular de la distribución Gama. OP
bien, calculando directamente la función generadora de
n
momentos de i=1 Zi2 :
mPn
i=1
Zi2 (t)
=
n
Y
i=1
mZi2 (t) =
n Y
i=1
1
1 − 2t
1/2
=
1
1 − 2t
n/2
.
En el siguiente resultado se analizará la distribución de S 2 . La primera parte se refiere a la independencia entre X y el vector de desviaciones
(X1 − X̄, . . . , Xn − X̄), la cual se justificará de dos formas: usando la función generadora de momentos y mediante una transformación. Otra manera
de abordar este resultado es a través de la independencia entre una forma
lineal y una forma cuadrática y las propiedades de la distribución normal
multivariada (ver Rencher y Schaalje (2008)); sin embargo, en este texto no
se estudiará ese enfoque.
48
3. Estadı́sticas y distribuciones muestrales
Teorema 3.2 Considere a X1 , . . . , Xn una muestra aleatoria de la distribución N (µ, σ 2 ). Entonces
1. X̄ y el vector (X1 − X̄, . . . , Xn − X̄) son independientes.
2. X̄ y S 2 son independientes.
3.
(n−1)S 2
σ2
∼ χ2(n−1) .
4. E(S 2 ) = σ 2 y Var(S 2 ) =
2σ 4
n−1 .
Figura 3.1: Karl Pearson (1857-1936). Desarrolló la estadı́stica Ji-cuadrada y
estudió su distribución asintóntica. Se le considera el padre de la estadı́stica.
Imagen tomada de commons.wikipedia.org (public domain).
49
3.2. Distribución de las estadı́sticas
Demostración.
1. Se considera la distribución conjunta de Y1 , Y2 , . . . , Yn , donde:
Y1 = X̄, Y2 = X2 − X̄, Y3 = X3 − X̄, . . . , Yn = Xn − X̄.
Con este cambio de variable,
= X̄ − X2 − X̄ − · · · − Xn − X̄
Y1 − Y2 − Y3 − · · · − Yn
=
nX̄ − X2 − · · · − Xn
= X1 + X2 + · · · + Xn − X2 − · · · − Xn
= X1 .
Expresando las Xi ’s en términos de las Yi ’s se obtiene:
X1
= Y1 − Y2 − Y3 − · · · − Yn ,
X2
= Y1 + Y2 ,
X3
= Y1 + Y3 ,
..
.
..
.
Xn
= Y1 + Yn .
El Jacobiano de esta transformación es igual a n, pues la matriz
tiene la forma:









1
1
1
1
..
.
−1
1
0
0
..
.
−1
0
1
0
..
.
−1
0
0
1
..
.
···
···
···
···
..
.
−1
0
0
0
..
.
1
0
0
0
···
1
∂Xi
∂Yj





,



la cual se puede transformar mediante operaciones elementales de renglones: para cada i, 2 ≤ i ≤ n, se suma el renglón i-ésimo al primer
50
3. Estadı́sticas y distribuciones muestrales
renglón, obteniendo la matriz:

n 0
 1 1

 1 0

 1 0

 .. ..
 . .
1
0 0
0 0
1 0
0 1
.. ..
. .
0 0 0
···
···
···
···
..
.
0
0
0
0
..
.
···
1





,



cuyo determinante es:
1
0
n .
..
0
1
0
0
0
0
0
···
···
..
.
0
0
..
.
···
1
= n.
Por otro lado, de acuerdo a (3.1):
n
X
2
(xi − µ)
=
i=1
n
X
2
(xi − x̄ + x̄ − µ)
i=1
=
n
X
2
2
(xi − x̄) + n (x̄ − µ) ,
i=1
la función de densidad conjunta
de X1 , X2 , . . . , Xn (la muestra aleatoria de la distribución N µ, σ 2 ) se puede escribir como:
n Pni=1 (xi −x̄)2 n(x̄−µ)2 −
− 2σ2
1
2σ 2
2
fX1 ,...,Xn x1 , . . . , xn ; µ, σ = √
e
,
2πσ
con −∞ < xi < ∞, i = 1, 2, . . . , n. Como y1 = x y, por lo tanto,
x1 − x = −y2 − y3 − · · · − yn , la función de densidad conjunta de
Y1 , Y2 , . . . , Yn es:


n
X
2
yi


n
 (−y2 − y3 − · · · − yn )2
1
n(y1 − µ)2 
i=2
,
(n) √
exp 
−
−
−


2σ 2
2σ 2
2σ 2
2πσ


−∞ < yi < ∞, i = 1, 2, . . . , n. El resultado obtenido es producto de la
función de densidad de Y1 , es decir, de
1
(y1 − µ)2
p
exp −
, −∞ < y1 < ∞,
2σ 2 /n
2πσ 2 /n
51
3.2. Distribución de las estadı́sticas
y una función de y2 , . . . , yn . De esta manera, Y1 es independiente de
las n − 1 variables aleatorias Y2 , Y3 , . . . , Yn y la función de y2 , . . . , yn
es la función de densidad de Y2 , Y3 , . . . , Yn . En conclusión, Y1 = X es
independiente de −Y2 −Y3 −· · ·−Yn = X1 −X, Y2 = X2 −X, . . . , Yn =
Xn − X.
Pn
(X −X̄)2
2. X̄ y S 2 son independientes porque S 2 = i=1n−1i
es función de
(X1 − X̄, . . . , Xn − X̄). O bien, puede verificarse notando que la variable
W1 =
n(Y1 − µ)2
n(X − µ)2
=
2
σ
σ2
es independiente de:
n
X
(Xi − X)2
W2 =
i=1
(−Y2 − · · · − Yn )2 +
Yi2
i=2
=
σ2
n
X
σ2
.
3. Observe que
(n − 1)S 2
=
σ2
Pn
i=1 (Xi
σ2
− X̄)2
Usando nuevamente la identidad
n
n
X
X
(Xi − µ)2 =
(Xi − X̄)2 + n(X̄ − µ)2
i=1
i=1
se tiene que
Pn
i=1 (Xi
σ2
n
P
− µ)2
Pn
=
i=1 (Xi
σ2
− X̄)2
+
n(X̄ − µ)2
σ2
(3.2)
(Xi −µ)2
2
2
Pn Pero note que
= i=1 Xiσ−µ ∼ χ2(n) y también n(X̄−µ)
=
σ2
σ2
2
X̄−µ
√
∼ χ2(1) ; y como X̄ es independiente de X1 − X̄, . . . , Xn − X̄,
σ/ n
entonces
Pn
2
i=1 (Xi − X̄)
∼ χ2(n−1) ,
2
σ
i=1
debido a que bajo el supuesto de
independencia y por (3.2), la función
P
generadora de momentos de
n
2
i=1 (Xi −µ)
σ2
se puede escribir como el
52
3. Estadı́sticas y distribuciones muestrales
producto de las funciones generadoras de W =
es decir:
−n/2
(1 − 2t)
= mW (t) × (1 − 2t)
Pn
−1/2
2
i=1 (Xi −X̄)
σ2
,
y
n(X̄−µ)2
,
σ2
t < 1/2
de donde,
−n/2+1/2
mW (t) = (1 − 2t)
= (1 − 2t)
−(n−1)/2
.
2
∴
(n − 1)S
∼ χ2(n−1) .
σ2
4. Anteriormente se probó que E(S 2 ) = σ 2 , sin embargo conociendo ya
2
, se puede obtener de la siguiente manera,
la distribución de (n−1)S
σ2
además de deducir la varianza correspondiente.
2
Como (n−1)S
∼ χ2(n−1) , entonces
σ2
(n − 1)S 2
(n − 1)
E
E S 2 = n − 1 ⇒ E S 2 = σ2 .
=n−1⇒
2
2
σ
σ
2
También, como (n−1)S
∼ χ2(n−1) , se tiene que
σ2
(n − 1)S 2
(n − 1)2
Var(S 2 ) = 2(n − 1)
Var
= 2(n − 1) ⇒
2
σ
σ4
2(n − 1)σ 4
2σ 4
⇒ Var(S 2 ) =
.
=
2
(n − 1)
n−1
2σ 4
∴ Var S 2 =
.
n−1
Demostración. Demostración alternativa para las partes 1, 2 y 3:
Se define la siguiente transformación:
Y1
Y2
Y3
Yn
1
√ (X1 + · · · + Xn ),
n
1
= √ (X1 − X2 ),
2
1
= √ (X1 + X2 − 2X3 ),
6
..
.
1
= p
(X1 + X2 + · · · + Xn−1 − (n − 1)Xn ).
n(n − 1)
=
53
3.2. Distribución de las estadı́sticas
Para la cual, la matriz Jacobiana correspondiente es:

√1
√1
√1
√1
...
n
n
n
n
−1

√1
√
0
.
.
.
0

2
2

−2
√1
√1
√
···
0

6
6
6
J = 

..
..
..

.
.
.

√ 1
√ 1
√ 1
· · · √−(n−1)
n(n−1)
n(n−1)
n(n−1)





.



n(n−1)
Esta matriz es una matriz ortogonal, esto significa que JJ t = J t J = I,
por lo tanto es posible escribir:
| det(J)| = | det(J t )|
= | det(JJ t )1/2 | = 1.
Ahora, la función de densidad conjunta de X1 , X2 , . . . , Xn es:
n
Y
1
1
2
√
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) =
exp − 2 (xi − µ)
2σ
2πσ
i=1
(
)
n
n
1
1 X
2
= √
exp − 2
(xi − µ)
2σ i=1
2πσ
)
(
n
n
1
1 X 2
(x − 2µxi + µ2 ) ,
= √
exp − 2
2σ i=1 i
2πσ
para −∞ < x1 , x2 , . . . , xn < ∞. Entonces la función de densidad conjunta
de Y1 , . . . , Yn es:
(
!)
n
n
X
√
1
1
2
2
√
yi − 2µ ny1 + nµ
g(y1 , y2 , . . . , yn ) =
exp − 2
2σ
2πσ
i=1
(
" n
#)
n
√
1
1 X 2
2
√
=
exp − 2
,
y + (y1 − nµ)
2σ i=2 i
2πσ
Pn
2
donde
−∞ < y1 , y2 , . . . , yn < ∞. Además puede verse que
i=1 xi =
Pn
2
i=1 yi , esto puede verificarse desarrollando para diferentes valores de n;
por ejemplo, para n = 2 :
Y12 + Y22
1
1
(X1 + X2 )2 + (X1 − X2 )2
2
2
1 2
1
1
1
=
X1 + X1 X2 + X22 + X12 − X1 X2 + X22
2
2
2
2
= X12 + X22 .
=
54
3. Estadı́sticas y distribuciones muestrales
Note que la función de densidad conjunta de Y1 , . . . , Yn puede reescribirse
como:
(
)
n−1
n
X
√
1
1
1
1
√
√
exp − 2
y2 ,
exp − 2 (y1 − nµ)2
2σ
2σ i=2 i
2πσ
2πσ
√
donde se observa que Y1 se distribuye como una N ( nµ, σ 2 ) y que Y1 , . . . , Yn
son variables aleatorias independientes con una distribución N (0, σ 2 ) para
Y2 , . . . , Yn . De la transformación definida, se puede escribir: X̄ = n−1/2 Y1 y
n
n
n
n
X
X
X
X
(Xi − X̄)2 =
Xi2 − nX̄ 2 =
Yi2 − Y12 =
Yi2 ,
i=1
i=1
i=1
i=2
Pn
concluyendo que X̄ es función de Y1 únicamente y que i=1 (Xi − X̄)2 depende funcionalmente
Pnde Y2 , . . . , Yn . Pero Y1 y Y2 , . . . , Yn son independientes,
por lo que X̄ y i=1 (Xi − X̄)2 son independientes.
√
Como X̄ = n−1/2 Y1 donde Y1 ∼ N ( nµ, σ 2 ) entonces la distribución
2
P
Pn Y 2
2
n
de X̄ es N (µ, σn ). Ahora, i=1 (Xiσ−2X̄) = i=2 σi2 , que es una suma de
(n − 1) variables Ji-cuadradas independientes, por lo tanto tiene distribución
χ2n−1 .
Ahora se presentarán dos distribuciones de probabilidad importantes en
la inferencia estadı́stica: la F de Fisher y la t de Student, ası́ como las
propiedades que serán de utilidad más adelante.
3.2.3.
La distribución F de Fisher y el cociente de varianzas muestrales
Distribución F de Fisher
Se dice que una variable aleatoria X tiene la distribución F de Fisher con
parámetros m y n (m y n grados de libertad), si su función de densidad está
dada por:
m−2
m m/2
Γ( m+n
x 2
2 )
f (x; m, n) =
x > 0, m, n ∈ N+ .
m+n
n
m
)Γ(
)
Γ( m
n
2
[1 + ( n )x]
2
2
Se denota como X ∼ F (m, n).
Teorema 3.3 Si U y V son variables aleatorias independientes tales que
U ∼ χ2(m) y V ∼ χ2(n) , entonces
U/m
∼ F (m, n).
V /n
3.2. Distribución de las estadı́sticas
55
Figura 3.2: Ronald A. Fisher (1890-1962). “Incluso los cientı́ficos necesitan
sus héroes y Fisher fue sin duda el héroe de la estadı́stica del siglo XX. Sus
ideas transformaron nuestra disciplina de tal forma que hasta un César o
un Alejandro hubieran envidiado”: Efron (1998). “Lo que es y fue importante para mı́, es cómo Fisher, en los 1920..., hizo que los estadı́sticos reflexionáramos acerca de las ideas fundamentales”: Egon Pearson (1974). Dos
citas que hacen alusión a la importancia de las contribuciones de Fisher en
la estadı́stica. La distribución que lleva su nombre fue producto del trabajo
que realizó con George Snedecor (1881-1974) de la Universidad de Iowa.
Imagen tomada de commons.wikipedia.org (public domain).
Demostración. Para probar este resultado se utilizará el teorema de cambio de variable. Sean
X=
U/m
nU
=
V /n
mV
y Y = V.
La función de densidad conjunta de U y V está dada por
fU,V (u, v) = fU (u)fV (v)
=
=
1 m/2
1 n/2
1
1
m
n
−1
−
u
2
2
2 −1 e− 2 v
u2 e 2
n v
Γ( m
)
Γ(
)
2
2
1 (m+n)/2
n
− 21 (u+v) m
2
u 2 −1 v 2 −1 .
n e
Γ( m
)Γ(
)
2
2
56
3. Estadı́sticas y distribuciones muestrales
Como U = m
n XY y además V = Y , entonces el Jacobiano de la transformación está dado por
J=
m
ny
m
nx
0
1
=
m
y.
n
La función de densidad conjunta de (X, Y ) está determinada por
fX,Y (x, y)
=
=
m+n
m m2 −1 n
(1) 2
m
− 12 ( m
n x+1)y
y 2 −1
y · 2m
e
xy
n
Γ( 2 )Γ( n2 )
n
m+n
m m2 m+n
( 12 ) 2
m
1 m
y 2 −1 x 2 −1 e− 2 ( n x+1)y .
m
n
Γ( 2 )Γ( 2 ) n
Y como la densidad marginal de X está dada por
Z ∞
fX (x) =
fX,Y (x, y)dy,
−∞
se tiene que:
fX (x)
=
=
m+n
m m2 m Z ∞ m+n
( 12 ) 2
1 m
x 2 −1
y 2 −1 e− 2 ( n x+1)y dy
n
Γ( m
)Γ(
)
n
0
2
2
m
1 m+n
2
(2)
Γ( m+n
m 2 m −1
2 )
x2
m+n
m
n
1 m
Γ( 2 )Γ( 2 ) n
[ ( x + 1)] 2
2
=
Γ( m+n
2 )
n
)Γ(
Γ( m
2
2)
·
m−2
m
2
2
(m
n) x
m+n
m
( n x + 1) 2
n
,
que corresponde a la función de densidad de una variable aleatoria con distribución F , es decir, X = U/m
V /n ∼ F (m, n).
La distribución F en el marco del muestreo de la distribución normal
Sean X1 , X2 , . . . , Xm+1 una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , Y2 , . . . , Yn+1 una muestra aleatoria de la distribución N (µy , σy2 ), de tal
manera que ambas muestras son independientes entre sı́.
Pm+1
1
En este caso X̄ = m+1
i=1 Xi , Ȳ =
Pn+1
1
2
2
X̄) y Sy = n j=1 (Yj − Ȳ )2 .
1
n+1
Pn+1
j=1
Yj , Sx2 =
1
m
Pm+1
i=1
(Xi −
3.2. Distribución de las estadı́sticas
57
Entonces,
nSy2
mSx2
2
∼
χ
y
∼ χ2(n) .
(m)
σx2
σy2
Por el teorema anterior, se concluye que:
Sx2 /σx2
∼ F (m, n).
Sy2 /σy2
3.2.4.
La distribución t de Student y algunas estadı́sticas relacionadas
Distribución t de Student
Se dice que una variable aleatoria continua X tiene distribución t de Student
con k grados de libertad, si su función de densidad está dada por
f (x; k) =
Γ( k+1
1
2 ) 1
√
, con k = 1, 2, . . .
2 k+1
Γ( k2 )
kπ (1 + xk ) 2
Se denota como X ∼ t(k) .
Teorema 3.4 Si Z y U son variables aleatorias independientes tales que
Z ∼ N (0, 1) y U ∼ χ2(k) , entonces √Z ∼ t(k) .
U/k
Demostración. La prueba de este resultado es similar a la del teorema
3.3, definiendo las variables
Z
X=p
y Y = U.
U/k
La distribución t a partir de una muestra con distribución normal
Si X1 , . . . , Xn es una muestra aleatoria de la distribución normal N µ, σ 2 ,
se sabe que
σ2
X ∼ N µ,
,
n
de donde:
Z=
X −µ
√ ∼ N (0, 1) .
σ/ n
58
3. Estadı́sticas y distribuciones muestrales
Figura 3.3: William Sealy Gosset (1876-1937), quien usó el pseudónimo de
Student para publicar su trabajo, desarrolló la distribución t como respuesta
a problemas prácticos de variedades de cebada, trabajando en la cervecerı́a
Guiness. Imagen tomada de commons.wikimedia.org (public domain).
Por otra parte:
(n − 1) S 2
∼ χ2(n−1) .
σ2
Por el teorema 3.4,
X−µ
√
σ/ n
q
(n−1)S 2
σ 2 (n−1)
=
X −µ
√ ∼ t(n−1) .
S/ n
Ahora considere a X1 , . . . , Xm una muestra aleatoria de la distribución
N µX , σ 2 y a Y1 , . . . , Yn una muestra aleatoria de la distribución N µY , σ 2 ,
tales que Xi es independiente de Yj , i {1, . . . , m} y j {1, . . . , n} . Por los
resultados vistos previamente, se puede concluir que
σ2
σ2
X ∼ N µX ,
y
Y ∼ N µY ,
,
(3.3)
m
n
59
3.3. Estadı́sticas de orden
mientras que
2
(m − 1) SX
∼ χ2(m−1)
σ2
y
(n − 1) SY2
∼ χ2(n−1)
σ2
(3.4)
De (3.3) se tiene que
X −Y ∼N
µX − µY ,
σ2
σ2
+
m
n
,
y por lo tanto,
X − Y − (µX − µY )
q
∼ N (0, 1) .
1
σ2 m
+ n1
De (3.4) y las propiedades de la distribución Ji-cuadrada se sabe que:
2
+ (n − 1) SY2
(m − 1) SX
∼ χ2(m+n−2) .
σ2
Ası́ que por el teorema 3.4 se concluye que
X−Y −(µX −µY )
q
1
1
σ2 ( m
+n
)
q
2 +(n−1)S 2
(m−1)SX
Y
σ 2 (m+n−2)
=q
X − Y − (µX − µY )
2 +(n−1)S 2
(m−1)SX
Y
(m+n−2)
1
m
+
1
n
,
tiene distribución t de Student con m + n − 2 grados de libertad.
3.3.
Estadı́sticas de orden
Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad f (x; θ). Considérese la muestra ordenada en forma ascendente X(1) ≤
X(2) ≤ . . . ≤ X(n) , sus elementos son llamados estadı́sticas de orden. Para
facilitar la notación, sea X(i) := Yi .
Las Yi0 s no son independientes, pues si Yj ≥ y entonces Yj+1 ≥ y, y
en general Yi no tiene por qué coincidir con Xi . Ası́, por ejemplo, Yn =
máx {X1 , . . . , Xn } puede ser cualquiera de las Xi0 s :

X1
si X1 ≥ X2 , . . . , Xn .



 X2 si X2 ≥ X1 , X3 , . . . , Xn .
Yn =
..
..

.
.



Xn si Xn ≥ X1 , . . . , Xn−1 .
En los siguientes párrafos se deducirán las funciones de distribución y
densidad para las estadı́sticas de orden, únicamente para el caso continuo.
60
3. Estadı́sticas y distribuciones muestrales
3.3.1.
r-ésima estadı́stica de orden (Yr )
Sea X1 , . . . , Xn una muestra aleatoria de una distribución continua con función de densidad f (x; θ) y función de distribución F (x; θ).
Para obtener FYr (y) = P(Yr ≤ y), observe que el evento {Yr ≤ y} ocurre
si
y
Pn sólo si al menos r de las Xi ’s son menores o iguales a y, es decir si
i=1 Zi ≥ r, donde
(
1 si Xi ≤ y,
Zi =
0 si Xi > y.
Note que Zi ∼ Bernoulli[P(Xi ≤ y)], entonces
| {z }
Pn
i=1
Zi ∼ Bin(n, F (y)).
F (y)
Por lo tanto,
n
X
FYr (y) = P(Yr ≤ y) = P
!
Zi ≥ r
j=r
i=1
∴ FYr (y) =
n X
n
j=r
=
n X
n
j
j
[F (y)]j [1 − F (y)]n−j .
[F (y)]j [1 − F (y)]n−j .
Usando este resultado se obtiene la distribución de Y1 , la mı́nima estadı́stica de orden, de la siguiente manera:
FY1 (y) =
n X
n
[F (y)]j [1 − F (y)]n−j
j
j=1
=[F (y) + 1 − F (y)]n − [1 − F (y)]n
=1 − [1 − F (y)]n .
Y diferenciando se deduce la función de densidad correspondiente:
fY1 (y) = n[1 − F (y)]n−1 f (y).
De la misma forma, se obtiene la distribución de la máxima estadı́stica de
orden Yn :
FYn (y) = [F (y)]n .
(3.5)
De donde:
fYn (y) = n[F (y)]n−1 f (y).
61
3.3. Estadı́sticas de orden
3.3.2.
Distribución conjunta de las estadı́sticas de orden
mı́nima y máxima
En teorı́a de la probabilidad se estudia que una propiedad de la función de
distribución de dos variables FX,Y (x, y) es la siguiente:
P[a < X ≤ b, c < Y ≤ d] = FX,Y (a, c) + FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c).
Lo que, junto con las otras propiedades:
lı́m FX,Y (x, y) = lı́m FX,Y (x, y) = 0
x→−∞
y→−∞
y
lı́m FX,Y (x, y) = FX (x)
y→∞
conduce a:
P[y1 < Y1 , Yn ≤ yn ] = FYn (yn ) − FY1 ,Yn (y1 , yn ).
(3.6)
Por otro lado, se tiene que, por ser Y1 y Yn la mı́nima y la máxima
estadı́sticas de orden, se satisface:
P(y1 < Y1 , Yn ≤ yn ) =P(y1 < X1 ≤ yn , y1 < X2 ≤ yn , . . . , y1 < Xn ≤ yn )
n
n
Y
Y
(F (yn ) − F (y1 ))
P[y1 < Xi ≤ yn ] =
=
i=1
i=1
n
=(F (yn ) − F (y1 )) .
Por lo tanto,
P(y1 < Y1 , Yn ≤ yn ) = (F (yn ) − F (y1 ))n .
(3.7)
Igualando (3.6) y (3.7) se obtiene que:
FYn (yn ) − FY1 ,Yn (y1 , yn ) = (F (yn ) − F (y1 ))n .
De esta manera, FY1 ,Yn (y1 , yn ) = FYn (yn )−(F (yn )−F (y1 ))n . Y por (3.5)
se llega a que:
FY1 ,Yn (y1 , yn ) = [F (yn )]n − (F (yn ) − F (y1 ))n .
Para obtener fY1 ,Yn (y1 , yn ) se usará la propiedad que relaciona a las
funciones de densidad y de distribución para el caso de dos variables, a
saber,
∂2
FX,Y (x, y) = fX,Y (x, y) ,
∂y∂x
62
3. Estadı́sticas y distribuciones muestrales
ası́:
∂
FY ,Y (y1 , yn ) = n(F (yn ) − F (y1 ))n−1 f (y1 ),
∂y1 1 n
y
∂2
FY ,Y (y1 , yn ) = nf (y1 )(n − 1)(F (yn ) − F (y1 ))n−2 f (yn ).
∂yn ∂y1 1 n
De esta forma se concluye que:
fY1 ,Yn (y1 , yn ) = n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn ).
(3.8)
Ejemplo 3.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución U (0, 1). Obtener: fY1 (y1 ), fYn (yn ) y fY1 ,Yn (y1 , yn ).
Ry
(x)
En este caso, f (x) = I(0,1) y F (y) = 0 dx = y. Entonces
FY1 (y) = 1 − [1 − F (y)]n = 1 − [1 − y]n y por tanto fY1 (y) = n(1 − y)n−1 .
FYn (y) = y n y por tanto fYn (y) = ny n−1 .
(y1 ) (yn )
fY1 ,Yn (y1 , yn ) = n(n − 1)(yn − y1 )n−2 I(0,1)
I(0,1) .
Algunas aplicaciones que tienen las expresiones obtenidas previamente
en esta sección, incluyen el cálculo de densidades correspondientes a funciones de las estadı́sticas de orden, por ejemplo, el rango R := Yn − Y1 y el
1
.
promedio T := Yn +Y
2
Para obtener fR,T (r, t) se utilizará la siguiente igualdad:
fR,T (r, t) = |J| fY1 Yn (y1−1 (r, t), yn−1 (r, t)).
Para encontrar la distribución conjunta del rango y el promedio, note lo
siguiente:
Yn = R + Y1 y sustituyendo en la expresión para T, se tiene que
1
T = Y1 +R+Y
= Y1 + R2 . Por lo tanto Y1 = T − R2 , entonces Yn =
2
R
R + Y1 = T + 2 .
(R, T ) 7→ (T −
J=
−1/2 1
1/2 1
R
2 ,T
+
R
2)
= − 12 −
= (Y1 , Yn ) es la transformación involucrada.
1
2
= −1.
Entonces al sustituir se obtiene
fR,T (r, t) =
h r
r in−2 r r
n(n − 1) F t +
−F t−
f t−
f t+
. (3.9)
2
2
2
2
63
3.4. Estadı́sticas suficientes
Otra expresión relacionada con las estadı́sticas de orden que puede ser de
interés es la densidad conjunta de Y1 , . . . , Yn , suponiendo nuevamente que
estas variables corresponden a las estadı́sticas de orden de una muestra aleatoria X1 , . . . , Xn . Ası́,
fX1 ,...,Xn (x1 , . . . , xn ; θ) =
n
Y
f (xi ; θ) ,
i=1
en cualquier punto (x1 , . . . , xn ) de Rn . Pero la densidad de Y1 , . . . , Yn estarı́a
dada por
n
Y
fY1 ,...,Yn (y1 , . . . , yn ; θ) = n!
f (yi ; θ) ,
i=1
debido a que, al ordenar la muestra, cada punto (y1 , . . . , yn ) acumula la
densidad
fX1 ,...,Xn (x1 , . . . , xn ; θ)
(3.10)
de cada punto (x1 , . . . , xn ) obtenido al permutar de forma arbitraria las coordenadas de (y1 , . . . , yn ) . Lo anterior se hace porque fY1 ,...,Yn (y1 , . . . , yn ; θ),
a diferencia de (3.10), está concentrada en la región de Rn en donde y1 ≤
y2 ≤ · · · ≤ yn y vale cero fuera de esa región; es decir, (y1 , . . . , yn ) se obtiene
de permutar la muestra, ası́ que n! considera las posibles permutaciones.
3.4.
Estadı́sticas suficientes
Una muestra aleatoria contiene información del parámetro desconocido θ en
f (x; θ) , por lo que para lograr el objetivo de disminuir el grado de desconocimiento de dicho parámetro, se usará la muestra aleatoria. Como ya se
ha señalado, una estadı́stica es una función de la muestra aleatoria y, como
se verá utilizando métodos de estimación, las estadı́sticas resultan ser los
estimadores de los parámetros. Usualmente las estadı́sticas representan una
reducción de dimensión con respecto a la muestra original X1 , . . . , Xn ; el
caso más común es una función T que va de Rn a R. Una pregunta que puede plantearse en este momento, es si estas estadı́sticas contienen la misma
información (con respecto a θ) que la muestra original o, si en el proceso
de transformación de la muestra aleatoria, se pierde información acerca del
parámetro desconocido. Es claro que no se desea perder la información original que contiene la muestra aleatoria, por lo que si se tuviera que elegir
entre una estadı́stica que contiene la misma información que la muestra contra otra que no, la decisión serı́a quedarse con la primera. Este razonamiento
lleva a un concepto muy importante en estadı́stica, el de suficiencia.
64
3. Estadı́sticas y distribuciones muestrales
Se puede decir que una estadı́stica S (X1 , X2 , . . . , Xn ) es suficiente si
conserva toda la información que contiene la muestra aleatoria X1 , . . . , Xn
acerca de θ. En otras palabras, es suficiente conocer la estadı́stica
S (X1 , X2 , . . . , Xn )
para saber del parámetro lo mismo que con X1 , . . . , Xn ; de ahı́ el nombre de
estadı́stica suficiente. Una forma alternativa de parafrasearlo es la siguiente:
una estadı́stica suficiente para un parámetro θ es aquella que usa toda la
información contenida en la muestra con respecto a θ; no obstante, no es
claro cómo se podrı́a saber si una estadı́stica es suficiente o no utilizando
esta descripción del concepto, al menos de que se tratara de un caso en
donde sea posible “recuperar” los datos a través de la estadı́stica que se esté
analizando.
Como ilustración de estas ideas, suponga que se tiene el caso descrito
en el ejemplo 3.1, en donde se quiere estudiar la probabilidad θ de obtener sol con una cierta moneda. En este ejemplo, se considera una muestra
aleatoria de tamaño 3: X1 , X2 , X3 , de una distribución Bernoulli(θ) y es un
ejercicio en donde se pueden escribir de manera sencilla los ocho posibles
valores de la muestra aleatoria. A continuación se reproduce parcialmente el
cuadro obtenido en el ejemplo 3.1, incluyendo los valores para la estadı́stica
S (X1 , X2 , X3 ) = X.
Resultados
s,s,s
s,s,a
s,a,s
a,s,s
a,a,s
a,s,a
s,a,a
a,a,a
x1 , x2 , x3
1, 1, 1
1, 1, 0
1, 0, 1
0, 1, 1
0, 0, 1
0, 1, 0
1, 0, 0
0, 0, 0
Distribución
θ3
2
θ (1 − θ)
θ2 (1 − θ)
θ2 (1 − θ)
θ(1 − θ)2
θ(1 − θ)2
θ(1 − θ)2
(1 − θ)3
x̄
1
2/3
2/3
2/3
1/3
1/3
1/3
0
Si se propone ahora otra estadı́stica definida como T (X1 , X2 , X3 ) =
X1 X2 + X3 , los posibles valores que puede tomar son (en el orden de la
tabla anterior): 2, 1, 0, 0, 1, 1, 1, 0.
Regresando a la discusión sobre la suficiencia, es claro que con
T (X1 , X2 , X3 ) = X1 X2 + X3
no se puede obtener o “recuperar” la información original, pues el primer
sumando siempre dará cero cuando al menos uno de X1 o X2 sean cero,
mientras que X sı́ permite reconstruir la información original en el sentido
65
3.4. Estadı́sticas suficientes
de que si se sabe que, por ejemplo, x = 31 , se puede concluir que se obtuvieron
dos águilas y un sol (o dos ceros y un uno). En otras palabras, S (X1 , X2 , X3 )
es suficiente y T (X1 , X2 , X3 ) no.
Observe también que una estadı́stica, en general, condensa la información
muestral en el sentido de que para cada valor t(x) de T (X) se obtiene un
subconjunto del conjunto de las posibles muestras. Sean {At } los elementos
de la partición generada por la estadı́stica T (asociada a T o inducida por
T ), definida como el conjunto de clases de equivalencia formadas por
At = {(x1 , x2 , . . . , xn ) ∈ X : T (x1 , x2 , . . . , xn ) = t} .
Ası́, la estadı́stica X = X1 +Xn2 +X3 genera la siguiente partición de las posibles muestras, especificada por los valores que toma la estadı́stica:
A1
= {(1, 1, 1)} ,
A 13 = {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} ,
A 23
= {(1, 1, 0) , (0, 1, 1) , (1, 0, 1)}
y
(3.11)
A0 = {(0, 0, 0)} ,
mientras que la estadı́stica T (X1 , X2 , X3 ) = X1 X2 + X3 genera la siguiente
partición:
A0
= {(0, 1, 0) , (1, 0, 0) , (0, 0, 0)} ,
A1
= {(0, 0, 1) , (1, 1, 0) , (0, 1, 1) , (1, 0, 1)} , y
A2
= {(1, 1, 1)} .
(3.12)
Puede decirse entonces que una estadı́stica suficiente condensa la información muestral (en clases de equivalencia) sin perder información relevante.
Note que otras estadı́sticas que sean funciones uno a uno de estadı́sticas suficientes, también
P3 son suficientes. En este ejemplo puede verse fácilmente que
la estadı́stica i=1 Xi es suficiente y, de hecho, genera la misma partición del
conjunto de posibles muestras que generó S (X1 , X2 , X3 ) = X, sólo que en
este caso, los valores de X1 + X2 + X3 (en el orden de la tabla) son: 3, 1, 2, 0.
Ası́, lo que resulta de interés para hacer inferencia sobre el parámetro es
saber la clase de equivalencia en la que está x.
A continuación se da una definición formal de suficiencia.
3.4.1.
El concepto de suficiencia
Definición 3.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ). La estadı́stica S(X) es suficiente si y sólo si la
función de densidad condicional de X1 , . . . , Xn dada S(X) = s no depende
de θ para cualquier valor s.
66
3. Estadı́sticas y distribuciones muestrales
Note que esta definición concuerda con la idea intuitiva discutida antes,
pues lo que dice es que, dado el conocimiento de S(X), la muestra aleatoria
no proporciona información adicional acerca de θ, es decir, toda la información está contenida en S(X).
Usando la definición de estadı́stica suficiente, se analizará la suficiencia
de S(X) y T (X) del ejemplo descrito en los párrafos anteriores. Ası́,
P(X1 = 0, X2 = 0, X3 = 0, T = 0)
P(T = 0)
(1 − θ)3
=
2θ(1 − θ)2 + (1 − θ)3
1−θ
1−θ
=
.
=
2θ + 1 − θ
1+θ
P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) =
Es decir P(X1 = 0, X2 = 0, X3 = 0|T (X) = 0) depende de θ, por lo tanto,
la estadı́stica T no es suficiente. Esto puede verificarse para otros valores.
Por otro lado,
P(X1 = 0, X2 = 0, X3 = 0, S = 0)
P(S = 0)
3
(1 − θ)
=
= 1,
(1 − θ)3
P(X1 = 0, X2 = 0, X3 = 0|S(X) = 0) =
que no depende de θ. En este último caso, debe verificarse para todos los
posibles valores y llegar a la conclusión de que esta probabilidad condicional
no depende de θ, para cualquier valor s (lo cual efectivamente ocurre).
El concepto de estadı́stica suficiente enfatiza el hecho de que cualquier
conocimiento adicional al valor de la estadı́stica, no da mayor información
acerca de θ. En el ejemplo, si S(X) = 23 , se puede decir que se obtuvieron
dos soles y un águila, pero no sólo eso: es posible concluir que cualquier
X = (X1 , . . . , Xn ) que satisfaga que S(X) = s, tiene la misma distribución
de probabilidad. Para verificarlo, suponga que sólo se tiene conocimiento
de que S(X) = s, pero no se conoce especı́ficamente el valor muestral que
generó este resultado (en el ejemplo hay tres posibles valores muestrales que
hacen que S(X) = 23 , a saber (0, 1, 1) , (1, 0, 1) y (1, 1, 0)). Conociendo la
densidad condicional P (X = x | S(X) = s) , donde
x ∈ As = {(x1 , x2 , . . . , xn ) ∈ X | S(x1 , x2 , . . . , xn ) = s} ,
se puede usar un proceso de simulación para generar un vector X 0 tal que
P X 0 = x | S(X) = s = P (X = x | S(X) = s) .
67
3.4. Estadı́sticas suficientes
Ası́
P (X = x)
=
P (X = x, S(X) = s)
=
P (X = x | S(X) = s) P (S(X) = s)
P X 0 = x | S(X) = s P (S(X) = s)
P X 0 = x, S(X) = s
P X0 = x ,
=
=
=
de tal manera que X y X 0 tienen la misma distribución. En conclusión,
toda la información acerca de θ está contenida en el conocimiento de que
S(X) = s.
Los siguientes ejemplos ilustran la definición de suficiencia.
Ejemplo 3.3 Sea X1 , X2 , . . . , Xn una
Pn muestra aleatoria de una población
con distribución Bernoulli (θ). ¿Es i=1 Xi una estadı́stica suficiente?.
En este caso, f (xi ; θ) = θxi (1 − θ)
nición de suficiencia:
P X1 = x1 , . . . , Xn = xn |
n
X
1−xi
, por lo que, de acuerdo a la defi-
!
Xi = s
=
θ
Pn
i=1
Xi
n−
(1 − θ)
Pn
i=1
Xi
n s
n−s
θ (1 − θ)
s
i=1
n−s
=
=
θs (1 − θ)
n s
n−s
θ (1 − θ)
s
1
n ,
s
Pn
que no depende de θ, por lo que P
i=1 Xi es una estadı́stica suficiente para
n
θ. Note que se usó el hechoPde que i=1 Xi tiene distribución Bin(n, θ), ası́
n
como la condición de que i=1 Xi = s.
Ejemplo 3.4 Sea X1 , X2 , . . . , XP
n una muestra aleatoria de una población
n
con distribución Poisson(θ). ¿Es i=1 Xi una estadı́stica suficiente?.
Recordando que si X ∼ P oisson(θ) entonces f (xi ; θ) =
que:
e−θ θ x
x! ,
se tiene
68
3. Estadı́sticas y distribuciones muestrales
P [X1 = x1 , . . . , Xn = xn |
Pn
i=1 Xi = s]
e−nθ
Qθ
n
Pn
=
Xi
i=1
i=1
xi !
s
e−nθ (nθ)
=
e
=
n
s
s!
e−nθ
θs
Q
n
x
i=1 i !
s
−nθ
;y
n
X
Xi = s
i=1
(nθ)
s!
n
Y
s!
,
xi !
i=1
Pn
que no depende de θ; por lo tanto, i=1PXi es una estadı́stica suficiente para
n
θ. En este caso se usó el hecho de que i=1 Xi ∼ P oisson (nθ) .
Observe que en los ejemplos anteriores, a no ser que la suma de los enteros
x1 , x2 , . . . , xn sea igual a s, la probabilidad condicional es igual a cero.
Observación 3.3 En general, sea k (s; θ) la función de densidad de la estadı́stica
S (X1 , X2 , . . . , Xn ) := S (X) ,
donde X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función
de densidad f (x; θ), θ ∈ Θ. La probabilidad condicional de X1 = x1 , X2 =
x2 , . . . , Xn = xn , dado que S (X) = s, es igual a
P [X1 = x1 , . . . , Xn = xn | S (X) = s] =
f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
,
k (s; θ)
siempre que x1 , . . . , xn , sean tales que S (x1 , x2 , . . . , xn ) = s, y esta probabilidad condicional vale cero en otro caso. Se dice que S (X1 , X2 , . . . , Xn ) es
una estadı́stica suficiente para θ si y sólo si esta razón no depende de θ.
Con las distribuciones del tipo continuo, no se puede hablar de la probabilidad de que X1 = x1 , X2 = x2 , . . . , Xn = xn . En este caso, se establece
que si la razón
f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ)
=
,
k (s; θ)
k (s; θ)
no depende de θ, entonces la distribución condicional de X1 , X2 , . . . , Xn dado
S (X) = s, no depende de θ. En general, las matemáticas para probar que
una estadı́stica es suficiente en una distribución continua, pueden representar
una dificultad mayor que para el caso discreto.
3.4. Estadı́sticas suficientes
69
Ejemplo 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución normal N (µ, σ 2 ), donde σ 2 es conocida. La media muestral,
S(X) = X̄ = (X1 + · · · + Xn )/n, es una estadı́stica suficiente para µ. Para
comprobarlo, se verificará que el cociente
fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2
(3.13)
k (s; µ, σ 2 )
no depende de µ (σ 2 es conocida), donde k s; µ, σ 2 es la función de densidad
de X̄. La función de densidad conjunta de la muestra es
n
Y
−(xi − µ)2
(2πσ 2 )−1/2 exp
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 =
2σ 2
i=1
Pn
− i=1 (xi − µ)2
= (2πσ 2 )−n/2 exp
2σ 2
Pn
− i=1 (xi − x̄ + x̄ − µ)2
,
= (2πσ 2 )−n/2 exp
2σ 2
al desarrollar el cuadrado en el exponente, esta expresión es equivalente a
" Pn
#
Pn
2
2
−
i=1 (xi − x̄) + 2(x̄ − µ)
i=1 (xi − x̄) + n(x̄ − µ)
2 −n/2
(2πσ )
exp
,
2σ 2
Pn
y como i=1 (xi − x̄) = 0, se tiene que
fX1 ,...,Xn x1 , . . . , xn ; µ, σ 2 =
"
#
Pn
2
2
−
i=1 (xi − x̄) + n(x̄ − µ)
2 −n/2
(2πσ )
exp
.
2σ 2
Recordando que la media muestral X̄ tiene distribución N (µ, σ 2 /n), entonces
el cociente (3.13) está dado por
fX1 ,X2 ,...,Xn x1 , x2 , . . . , xn ; µ, σ 2
k (s; µ, σ 2 )
Pn
−( i=1 (xi −x̄)2 +n(x̄−µ)2 )
2 −n/2
(2πσ )
exp
2σ 2
h
i
=
2
(2πσ 2 /n)−1/2 exp −n(x̄−µ)
2
2σ
Pn
(n−1)
− i=1 (xi − x̄)2
= n−1/2 (2πσ 2 )− 2 exp
,
2σ 2
que no depende de µ. Por lo tanto, la media muestral es una estadı́stica
suficiente para µ.
70
3. Estadı́sticas y distribuciones muestrales
3.4.2.
El teorema de factorización
El siguiente resultado conocido como el teorema de factorización de Neyman
o simplemente teorema de factorización, permite encontrar una estadı́stica
suficiente sin hallar la función de densidad de la estadı́stica de interés y, más
aún, sin tener que proponer dicha estadı́stica.
Teorema 3.5 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ); S(X) es suficiente si y sólo si, la función de
densidad conjunta de X1 , . . . , Xn puede factorizarse como:
fX1 ,...,Xn (x1 , . . . , xn ; θ) = g (S(x); θ) · h (x1 , . . . , xn ) ,
donde g y h son funciones no negativas tales que g (S(x); θ) depende de la
muestra sólo a través de S(x) y también depende de θ; y h (x1 , . . . , xn ) no
depende de θ.
Es decir, el teorema de factorización establece que
fX1 ,...,Xn (x1 , . . . , xn ; θ) =
g (S(x); θ)
| {z }
depende de θ y de la
muestra sólo a través de S
·
h (x1 , . . . , xn )
|
{z
}
depende sólo de la muestra
Demostración. (Caso discreto):
⇒ S(X) es suficiente.
Si x1 , x2 , . . . , xn , son tales que S (x1 , x2 , . . . , xn ) = s, la densidad conjunta de X1 , . . . , Xn puede escribirse como
P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 , . . . , Xn = xn ; S(X) = s) .
Usando la definición de probabilidad condicional, la expresión anterior es
equivalente a
P (X1 = x1 , . . . , Xn = xn )
= P ( X1 = x1 , . . . , Xn = xn | S(X) = s) · P [S(X) = s] . (3.14)
Por la suficiencia de S(X), la probabilidad condicional en (3.14) no depende
de θ, por lo que la densidad conjunta de X1 , . . . , Xn se puede expresar como:
P (X1 = x1 , . . . , Xn = xn ) = h(x1 , . . . , xn ) · g(S(x); θ),
donde
h(x1 , . . . , xn ) = P ( X1 = x1 , . . . , Xn = xn | S(X) = s)
71
3.4. Estadı́sticas suficientes
y
g(S(x); θ) = P [S(X) = s] .
⇐ Por demostrar que S(X) es suficiente, es decir, se debe probar que
P [ X1 = x1 , . . . , Xn = xn | S(X)]
no depende de θ, bajo el supuesto de que la factorización es válida.
Se tiene que
P [ X1 = x1 , . . . , Xn = xn | S(X) = s] =
P [X1 = x1 , . . . , Xn = xn , S(X) = s]
P[S(X) = s]
pero
P[S(X) = s] =
X
P[X1 = x1 , . . . , Xn = xn ],
(3.15)
As
donde:
As = {(x1 , x2 , . . . , xn ) ∈ X : S(x1 , x2 , . . . , xn ) = s}
y X representa el conjunto de todos los posibles valores de (X1 , . . . , Xn ) . Es
decir, As consta de todos aquellos (x1 , x2 , . . . , xn ) tales que S(x) = s (ver,
por ejemplo, (3.11) y (3.12)).
Por la hipótesis, P[X1 = x1 , . . . , Xn = xn ] se puede factorizar como el
producto g(S(x); θ)h(x), de tal manera que (3.15) se puede escribir como:
X
X
P[S(X) = s] =
g(S(x); θ)h(x) = g(s; θ)
h(x)
As
As
y
P [ X1 = x1 , . . . , Xn = xn | S(X) = s]
=
g(S(x); θ)h(x)
P
g(s; θ) As h(x)
=
g(s; θ)h(x)
P
g(s; θ) As h(x)
=
P
h(x)
,
As h(x)
si (x1 , x2 , . . . , xn ) es tal que S(x) = s y vale cero en otro caso. Es decir,
P [ X1 = x1 , . . . , Xn = xn | S(X) = s]
no depende de θ, por lo que S(X) es una estadı́stica suficiente.
Demostración. (Caso continuo):
72
3. Estadı́sticas y distribuciones muestrales
Se supone primero la factorización, es decir,
fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ)
=
Πni=1 f (xi , θ)
=
g (S (x) ; θ) h (x1 , x2 , . . . , xn ) .
Sea V1 = S (X1 , . . . , Xn ) y considere la transformación uno a uno definida
de la siguiente manera
v1 = S (x1 , x2 , . . . , xn ) ,
vi = ui (x1 , x2 , . . . , xn ) , para i = 2, . . . , n;
con funciones inversas
xi = wi (v1 , v2 , . . . , vn ) para i = 1, 2, . . . , n
y Jacobiano J = [∂wi /∂vj ], que denota la entrada (i, j) de la matriz.
Entonces la densidad conjunta de las variables V1 , V2 , . . . , Vn está dada
por:
kV1 ,...,Vn (v1 , . . . , vn ; θ)
= |J| g (v1 ; θ) h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) .
Ası́, la densidad de V1 puede obtenerse como
kV1 (v1 ; θ)
Z ∞
Z ∞
=
···
kV1 ,...,Vn (v1 , . . . , vn ; θ) dv2 · · · dvn
−∞
−∞
Z ∞
Z ∞
= g (v1 ; θ)
···
|J| h (w1 (v1 , . . . , vn ) , . . . , wn (v1 , . . . , vn )) dv2 · · · dvn .
−∞
−∞
Observe que θ no está involucrada ni en el Jacobiano, ni en los lı́mites de
integración, además de que la función h no depende de θ. Por lo tanto, la
integral múltiple es una función exclusivamente de v1 . Sea
m (v1 )
Z ∞
Z
=
···
−∞
∞
|J| h (w1 (v1 , v2 , . . . , vn ) , . . . , wn (v1 , v2 , . . . , vn )) dv2 · · · dvn ,
−∞
con lo que
kV1 (v1 ; θ) = g (v1 ; θ) m (v1 ) .
73
3.4. Estadı́sticas suficientes
Note que si m (v1 ) > 0, es posible escribir:
g (v1 ; θ) =
kV1 (v1 ; θ)
,
m (v1 )
o
g (S (x) ; θ) =
kV1 (S (x) ; θ)
,
m [S (x)]
con lo que la factorización que se ha supuesto como hipótesis, se puede
reescribir como:
fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ)
= g (S (x) ; θ) h (x1 , x2 , . . . , xn )
kV1 (S (x) ; θ)
=
h (x1 , x2 , . . . , xn )
m [S (x)]
h (x1 , x2 , . . . , xn )
,
= kV1 (S (x) ; θ)
m [S (x)]
de donde:
fX1 ,...,Xn (x1 , x2 , . . . , xn ; θ)
h (x1 , x2 , . . . , xn )
=
kV1 (S (x) ; θ)
m [S (x)]
no depende de θ, lo cual implica que V1 = S (X) es una estadı́stica suficiente
(ver observación 3.3).
Inversamente, si V1 = S (X) es suficiente, la factorización se puede hacer
tomando la función g como la densidad de S (X) , es decir, como kV1 (S (x) ; θ) .
Ejemplo 3.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Poisson(θ). Hallar una estadı́stica suficiente para θ.
Usando el teorema de factorización:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
=
Pn
i=1 Xi
n
i=1 xi !
e−nθ
Qθ
(xi )
i=1 I{0,1,... }
Qn
n
Y
Pn
1
(xi )
= e|−nθ θ{z i=1 X}i Qn
I{0,1,...
}
x
!
i
i=1
i=1
g(S(x);θ)
|
{z
}
h(x1 ,...,xn )
∴ S(X) =
Pn
i=1
Xi es una estadı́stica suficiente para θ.
74
3. Estadı́sticas y distribuciones muestrales
Ejemplo 3.7 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución Uniforme (0, θ). Para encontrar una estadı́stica suficiente para
θ, se tiene que:
fX1 ,...,Xn (x1 , . . . , xn ; θ) =
n
Y
f (xi ; θ) =
i=1
n
1 Y (xi )
I
.
θn i=1 (0,θ)
Como todas las observaciones son positivas, es decir xi > 0, para i =
1, 2, . . . , n, se tiene que
n
Y
(x )
i
I(0,θ)
=1
i=1
siempre y cuando yn = máx {x1 , . . . , xn } < θ. Por lo tanto, la densidad
conjunta puede escribirse como
fX1 ,...,Xn (x1 , . . . , xn ; θ) =
1 (yn )
I
,
θn (0,θ)
concluyendo que, por el teorema de factorización, Yn = máx {X1 , . . . , Xn }
(yn )
es suficiente, con g (s (x1 , x2 , . . . , xn ) ; θ) = θ1n I(0,θ)
y h (x1 , x2 , . . . , xn ) = 1.
Observe que esta factorización no es única, pueden proponerse otras; pero
Yn será la estadı́stica suficiente.
Ejemplo 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad:
θxθ−1 , 0 < x < 1, 0 < θ
f (x; θ) =
0,
en otro caso.
Se usará el teorema de factorización para probar que el producto
S (X1 , X2 , . . . , Xn ) = X1 X2 · · · Xn
es una estadı́stica suficiente para θ. La función de densidad conjunta de
X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
= f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ) = Πni=1 θxθ−1
i
= θn Πni=1 xθ−1
i
θ
n
n
=
θ (Πi=1 xi )
1
Πni=1 xi
donde 0 < xi < 1, i = 1, 2, . . . , n. En el teorema de factorización, sean:
θ
g (s (x1 , x2 , . . . , xn ) ; θ) = θn (Πni=1 xi )
75
3.4. Estadı́sticas suficientes
y
h (x1 , x2 , . . . , xn ) =
1
.
Πni=1 xi
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, el producto X1 X2 · · · Xn = Πni=1 Xi
es una estadı́stica suficiente para θ. Observe que si se hubiera querido usar
la definición para este ejercicio, era necesario obtener la densidad de la estadı́stica dada por el producto S(X) = X1 X2 · · · Xn = Πni=1 Xi ; de ahı́ lo
valioso del teorema de factorización.
Observación 3.4 La muestra ordenada (Y1 , . . . , Yn ) siempre es una estadı́stica suficiente, pues en el esquema de muestreo aleatorio que se está considerando, la función de densidad conjunta no depende del orden de las variables.
A pesar de que la muestra ordenada tiene la misma dimensión que la muestra original, al ordenar se elimina la información irrelevante con relación a la
posición con la que se produce cada observación. Una forma de comprobarlo
es usando el teorema de factorización. La función de densidad conjunta de
X1 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
= f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
= n!f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ) .
En el teorema de factorización, sean:
g (s (x1 , x2 , . . . , xn ) ; θ) = f (y1 ; θ) f (y2 ; θ) · · · f (yn ; θ)
y
h (x1 , x2 , . . . , xn ) = n!.
Ya que h (x1 , x2 , . . . , xn ) no depende de θ, la muestra ordenada (Y1 , . . . , Yn )
es una estadı́stica suficiente.
Ejemplo 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Logı́stica(µ,σ):
f (x; µ, σ) =
e−(x−µ)/σ
, − ∞ < x < ∞, −∞ < µ < ∞, σ > 0.
σ[1 + e−(x−µ)/σ ]2
La función de densidad conjunta de X1 , X2 , . . . , Xn es:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
= f (x1 ; θ) f (x2 ; θ) · · · f (xn ; θ)
n
Y
e−(xi −µ)/σ
=
σ[1 + e−(xi −µ)/σ ]2
i=1
= n!
n
Y
e−(yi −µ)/σ
,
σ[1 + e−(yi −µ)/σ ]2
i=1
76
3. Estadı́sticas y distribuciones muestrales
donde y1 , . . . , yn es la muestra ordenada. Debido a que no es posible factorizar la función de densidad conjunta de otra manera tal que se pueda aplicar
el teorema de factorización, entonces la muestra ordenada (Y1 , . . . , Yn ) es
una estadı́stica suficiente.
Cabe aclarar que la muestra ordenada se usará como la estadı́stica suficiente sólo cuando no sea posible obtener otra estadı́stica suficiente.
3.4.3.
La familia exponencial
Hay un conjunto de familias paramétricas de distribuciones que, por sus
propiedades, tiene gran relevancia dentro de la inferencia estadı́stica. Este
conjunto se conoce como la clase exponencial o la familia exponencial y su
importancia en este momento es que las densidades de esta clase tienen una
relación con el concepto de suficiencia, en el sentido de que si se sabe que
una densidad pertenece a la familia exponencial, es posible encontrar una
estadı́stica suficiente de una forma sencilla. En esta parte se revisará el caso
de densidades con un sólo parámetro, mientras que en la sección 3.6 se verá el
caso de dos o más parámetros. Algunas de las distribuciones más conocidas
como la Binomial, la Geométrica, la Binomial negativa, la Poisson, la Gama,
la Normal y la Beta, pertenecen a la familia exponencial.
Definición 3.4 Se dice que f (x; θ) pertenece a la familia exponencial (o
clase exponencial) si puede factorizarse como:
f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
θ ∈ Θ, − ∞ < x < ∞,
donde a(θ) y c(θ) son funciones de θ, y b(x) y d(x) son funciones de x.
Ejemplo 3.10 Las siguientes distribuciones pertenecen a la familia exponencial:
1. Si X tiene distribución Exponencial con parámetro θ, es decir,
X ∼ exp (θ),
su función de densidad está dada por
(x)
f (x; θ) = θ · e−θ·x · I(0,∞) .
(x)
En este caso, a(θ) = θ, b(x) = I(0,∞) , c(θ) = −θ y d(x) = x.
77
3.4. Estadı́sticas suficientes
2. Si X tiene distribución Poisson con parámetro θ, es decir
X ∼ Poisson (θ),
su función de densidad es
f (x; θ) =
e−θ θx (x)
1 (x)
I{0,1,...} = e−θ · I{0,1,...} · ex·ln(θ) ,
x!
x!
de donde puede verse que pertenece a la familia exponencial.
3. Si X tiene distribución Bernoulli con parámetro θ, es decir
X ∼ Bernoulli (θ),
con
f (x; θ) = θx (1 − θ)
1−x
= (1 − θ) · I{0,1} · ex·ln( 1−θ ) ,
(x)
θ
se tiene que pertenece a la familia exponencial.
4. Si X tiene distribución Geométrica con parámetro θ, es decir
X ∼ Geométrica(θ),
su función de densidad se puede escribir como
x (x)
(x)
f (x; θ) = θ (1 − θ) I{0,1,...} = θ · I{0,1,...} ex·ln(1−θ) ,
con lo que se concluye que la distribución Geométrica pertenece a la
familia exponencial.
Note que la distribución Uniforme en el intervalo (0, θ) no pertenece a la
familia exponencial.
El resultado que se enuncia a continuación proporciona la relación entre
los miembros de la familia exponencial y la suficiencia.
Proposición 3.4 Sea X1 , . . . , Xn una muestra aleatoria de una población
con función de densidad de la forma
f (x; θ) = a(θ)b(x)ec(θ)d(x) ,
es decir, f (x; θ) pertenece a la familia exponencial. Entonces
una estadı́stica suficiente.
Pn
i=1
d(xi ) es
78
3. Estadı́sticas y distribuciones muestrales
Demostración. Usando el teorema de factorización, se tiene que:
fX1 ,...,Xn (x1 , . . . , xn ; θ)
=
Qn
a(θ)b(xi )ec(θ)d(xi )
=
h
n
i=1
Pn
a (θ) ec(θ)
|
{z
i=1
d(xi )
i
·
}
g(S(X);θ)
n
Y
b(xi )
i=1
| {z }
h(X1 ,...,Xn )
∴ S(X) =
n
P
d(Xi ) es una estadı́stica suficiente para θ.
i=1
En la siguiente tabla se muestran algunas de las distribuciones más conocidas que pertenecen a la familia o clase exponencial, aunque en la sección
3.6 se ampliará esta lista.
Algunos miembros de la familia exponencial
f (x; θ) = a (θ) b (x) exp [c (θ) d (x)]
Distribución
f (x; θ)
a (θ)
b (x)
c(θ) 1−x
θ
x
Bernoulli (θ)
θ (1 − θ)
1−θ
1
ln 1−θ
n−x
n
n x
n
θ
Binomial (n, θ)
(1 − θ)
ln 1−θ
x θ (1 − θ)
x
x
Geométrica (θ)
θ (1 − θ)
θ
1
ln (1 − θ)
−θ x
1
e θ
−θ
e
ln θ
Poisson (θ)
x!
x!
Exponencial (θ)
θe−θx
θ
1
−θ
2
Rayleigh (θ)
3.4.4.
x
x − 2θ
2
θ2 e
1
θ2
x
− 2θ12
d (x)
x
x
x
x
x
x2
Suficiencia minimal
La idea de la suficiencia es no perder información relevante del parámetro
(contenida en la muestra) al usar una estadı́stica. Pero puede haber diferentes
estadı́sticas que satisfagan esa condición y lo ideal serı́a encontrar la que
condense más la información. A tales estadı́sticas se les llama suficientes
minimales.
Intuitivamente, una estadı́stica es suficiente minimal si cualquier reducción de la misma da lugar a estadı́sticas que ya no son suficientes; es decir,
ya no se puede “resumir” más la estadı́stica, puesto que se perderı́a información contenida en la muestra acerca del parámetro. Lo anterior también
está asociado con la noción de clases de equivalencia o partición del espacio
79
3.4. Estadı́sticas suficientes
muestral inducida por cada estadı́stica. Ambos enfoques se analizan en los
siguientes párrafos.
Para ilustrar la idea de suficiencia minimal, considere una muestra aleatoria X1 , X2 , . . . , Xn de la distribución Bernoulli con parámetro θ, ası́ como
las siguientes estadı́sticas
S1 (X) = (X(1) , . . . , X(n) ) = (Y1 , ..., Yn ) ,


[ n2 ]
n
X
X


S2 (X) = 
Xi ,
Xi  ,
i=1
i=[ n
2 +1]
donde [v] indica la parte entera de v, y
S3 (X) =
n
X
Xi .
i=1
Considerando que
fX1 ,...,Xn (x1 , . . . , xn ; θ)
=
=
θ
Pn
i=1
xi
n
(1 − θ)
n−
(1 − θ)
θ
1−θ
Pn
i=1
xi
n
Y
i=1
Pni=1 xi Y
n
I{0,1} (xi )
I{0,1} (xi ) ,
i=1
por el teorema de factorización, las tres estadı́sticas son suficientes en la
distribución Bernoulli, pues la densidad conjunta también puede escribirse
como
x(1) x(2)
x(n) Y
n
θ
θ
θ
n
(1 − θ)
···
I{0,1} (xi )
1−θ
1−θ
1−θ
i=1
=
(1 − θ)
n
θ
1−θ
n
2]
P[i=1
xi θ
1−θ
Pn
[
]
i= n +1
2
n
xi Y
I{0,1} (xi ) .
i=1
La diferencia entre las tres estadı́sticas radica en el distinto grado de simplificación obtenido por eliminación de información que es irrelevante para
el conocimiento de θ. S1 (X) tiene dimensión n, S2 (X) tienen dimensión 2 y
S3 (X) tiene dimensión 1. S3 es más resumida que S1 y S2 , mientras que S2
es más resumida que S1 . Observe entonces que conociendo S1 o S2 se puede
conocer S3 , pero no al revés, y conociendo S1 se puede conocer S2 , pero no
al revés. Si una estadı́stica suficiente es más resumida que cualquier otra, se
80
3. Estadı́sticas y distribuciones muestrales
le llama suficiente minimal. En el ejemplo, note que S3 puede escribirse
como función de S1 o de S2 , y el hecho de que S3 sea más resumida que
S1 significa que existe una función (medible) ϕ tal que S3 puede escribirse
como S3 = ϕ (S1 ) . Lo anterior se formaliza en la definición 3.5.
Siguiendo la idea del párrafo anterior, suponga que S 0 (X) es más resumida que S (X) . En términos de la partición inducida por una estadı́stica,
si {As0 } son los elementos de la partición asociados con S 0 (X) y {As } son
los elementos de la partición asociados con S(X), se tendrı́a que cada As es
un subconjunto de algún As0 . Si en el ejemplo (de la distribución Bernoulli),
se toma n = 3, se tienen los siguientes valores de S1 , S2 y S3 , de donde se
pueden revisar las particiones asociadas:
(X1 , X2 , X3 )
(0, 0, 0)
(0, 0, 1)
(0, 1, 0)
(1, 0, 0)
(1, 1, 0)
(1, 0, 1)
(0, 1, 1)
(1, 1, 1)
S1 (X)
(0, 0, 0)
(0, 0, 1)
(0, 0, 1)
(0, 0, 1)
(0, 1, 1)
(0, 1, 1)
(0, 1, 1)
(1, 1, 1)
S2 (X)
(0, 0)
(0, 1)
(0, 1)
(1, 0)
(1, 1)
(1, 1)
(0, 2)
(1, 2)
S3 (X)
0
1
1
1
2
2
2
3
Note que S1 y S3 inducen la misma partición (de 4 elementos), aún cuando en
S3 hay una reducción en la dimensión; mientras que S2 induce una partición
de 6 elementos, a saber:
A1
= {(0, 0, 0)} ,
A2
= {(0, 0, 1) , (0, 1, 0)} ,
A3
= {(1, 0, 0)} ,
A4
= {(1, 1, 0) , (1, 0, 1)} ,
A5
= {(0, 1, 1)} y
A6
= {(1, 1, 1)} ,
siendo cada uno de éstos un subconjunto de alguno de los elementos de la
partición inducida por S3 . Por ejemplo, A2 es un subconjunto de
{(0, 0, 1) , (0, 1, 0) , (1, 0, 0)} ,
que corresponde al subconjunto del espacio muestral tal que S3 = 1.
Una forma de referirse a una partición inducida por S(X), tal que As ⊆
As0 para alguna estadı́stica S 0 (X), es como una partición más fina (es
3.4. Estadı́sticas suficientes
81
decir, S(X) induce una partición más fina que S 0 (X) o S 0 (X) induce una
partición menos fina que S(X)). En estos términos, si S 0 (X) es más resumida
que S(X), entonces S(X) genera una partición más fina que S 0 (X). En el
ejemplo, S2 (X) induce una partición más fina que S3 (X) .
En este contexto, la suficiencia minimal está asociada con la partición
menos fina que conserva la suficiencia.
Definición 3.5 Se dice que una estadı́stica es suficiente minimal si y sólo
si (i) es suficiente y (ii) es función de cualquier otra estadı́stica suficiente;
es decir, S 0 (X) es suficiente minimal si y sólo si existe ϕ tal que S 0 (X) =
ϕ [S(X)] , donde S(X) es cualquier otra estadı́stica suficiente.
Observación 3.5 Note que por la discusión previa, la definición 3.5 se puede reescribir de una forma alternativa. Sean {As0 } los elementos de la partición asociados con S 0 (X) y {As } los elementos de la partición asociados con
S(X), se tiene que:
1. S 0 (X) es suficiente minimal si cada As es un subconjunto de algún As0 ,
donde S (X) es suficiente, o
2. S 0 (X) es suficiente minimal si cualquier otra estadı́stica suficiente S (X)
induce una partición más fina que S 0 (X). También se puede decir que
S 0 (X) induce una partición menos fina –o más gruesa– que S (X).
En términos de las clases de equivalencia, cualquier estadı́stica con una
partición más fina que la minimal, será suficiente.
Observación 3.6 Las estadı́sticas suficientes minimales no son únicas, pues
al igual que las estadı́sticas suficientes, cualquier función biyectiva resulta ser
también una estadı́stica suficiente minimal.
Se proporcionará un método para encontrar estadı́sticas suficientes minimales. Para ello, será necesario introducir algunos conceptos.
Note que el que S 0 (X) sea función de S(X) (en la definición 3.5) significa
que si S (x) = S (x0 ) , entonces S 0 (x) = S 0 (x0 ) . Lo anterior puede verificarse
de la siguiente manera: si
x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
y se cumple que S (x) = S (x0 ) , se tiene que x y x0 ∈ As y como As ⊆ As0
(por ser S 0 (X) minimal) entonces x y x0 ∈ As0 , lo cual implica que S 0 (x) =
S 0 (x0 ) .
Se tiene entonces la siguiente definición.
82
3. Estadı́sticas y distribuciones muestrales
Definición 3.6 Sean S (X) y S 0 (X) dos estadı́sticas. Se dice que S 0 (X) es
función de S(X) si para cualesquiera x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en el espacio muestral X, que satisfacen que S (x) = S (x0 ) , se cumple que
S 0 (x) = S 0 (x0 ).
Para lo que sigue, también es necesario recordar que el soporte de una
función de densidad f (x; θ) , θ ∈ Θ, es el conjunto
Sopf = {x : f (x; θ) > 0 para alguna θ ∈ Θ} .
A continuación se define una relación de equivalencia en Sopf , relación que
será de utilidad para caracterizar a la suficiencia minimal.
Definición 3.7 Para dos valores x = (x1 , x2 , ..., xn ) y x0 = (x01 , x02 , ..., x0n )
en Sopf , se dice que x y x0 son equivalentes en verosimilitud si existe
H (x, x0 ) > 0, tal que para todo θ ∈ Θ,
fX1 ,...,Xn (x; θ) = H (x, x0 ) fX1 ,...,Xn (x0 ; θ),
es decir,
L(θ | x) = H (x, x0 ) L(θ | x0 ).
Esta relación se denota como
v
x ∼ x0 .
El siguiente resultado relaciona la equivalencia en verosimilitud con la
suficiencia.
Lema 3.1 Sea S (X) una estadı́stica suficiente y sean x y x0 dos valores en
v
Sopf . Si S (x) = S (x0 ) = s, entonces x ∼ x0 .
Demostración. Si x, x0 ∈ Sopf , existe θ para el cual fX1 ,...,Xn (x0 ; θ) > 0 y
como S (X) es una estadı́stica suficiente, el teorema de factorización implica
que
fX1 ,...,Xn (x; θ)
g (s; θ) h (x)
h (x)
=
=
= H (x, x0 ) ,
fX1 ,...,Xn (x0 ; θ)
g (s; θ) h (x0 )
h (x0 )
por lo que fX1 ,...,Xn (x; θ) se puede escribir como H (x, x0 ) fX1 ,...,Xn (x0 ; θ).
En el lema anterior, el hecho de que S (x) = S (x0 ) = s, implica que el
cociente
fX1 ,...,Xn (x; θ)
fX1 ,...,Xn (x0 ; θ)
no depende de θ.
83
3.4. Estadı́sticas suficientes
Teorema 3.6 Sea X1 , ..., Xn una muestra aleatoria de una población con
función de densidad f (x; θ) y sea S 0 (X) una estadı́stica suficiente para θ.
Suponga que para dos valores muestrales x = (x1 , ..., xn ) y x0 = (x01 , ..., x0n )
v
en Sopf que son equivalentes en verosimilitud, es decir x ∼ x0 , se tiene que
0
0
0
0
S (x) = S (x ) . Entonces S (X) es suficiente minimal.
Demostración. Sea S (x) cualquier estadı́stica que sea suficiente para θ y
v
x, x0 ∈ Sopf , tal que S (x) = S (x0 ) = s, entonces por el lema 3.1, x ∼ x0 , lo
0
0
0
cual a su vez implica (por la hipótesis) que S (x) = S (x ) . Por la definición
3.6 S 0 (X) es función de S (X), lo cual, junto con el hecho de que S 0 (X) es
suficiente, lleva a la conclusión de que S 0 (X) es suficiente minimal.
Este resultado es muy importante debido a que proporciona un método
sistemático para encontrar una estadı́stica suficiente minimal. En resumen, lo
que debe hacerse es lo siguiente: para dos valores muestrales x = (x1 , ..., xn ) y
x0 = (x01 , ..., x0n ) en Sopf , verificar la implicación que tiene la equivalencia en
verosimilitud sobre la o las estadı́sticas implicadas en la función de densidad
conjunta. Lo anterior equivale a calcular el cociente
fX1 ,...,Xn (x; θ)
fX1 ,...,Xn (x0 ; θ)
y ver bajo qué condición (sobre las estadı́sticas involucradas) este cociente
no depende de θ. Si se cumple la hipótesis del teorema 3.6, es decir,
“
fX1 ,...,Xn (x; θ)
no depende de θ ⇒ S 0 (x) = S 0 (x0 ) ”,
fX1 ,...,Xn (x0 ; θ)
entonces S 0 es suficiente minimal.
Ejemplo 3.11 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Bernoulli(θ), entonces:
P
Pn
Qn
1−xi
n− n
xi
i=1 xi
fX1 ,...,Xn (x; θ)
θ i=1 xi (1 − θ)
i=1 θ (1 − θ)
P
=
=
P
Qn
0
n
0
1−x0i
n− n
x0i
i=1 xi
fX1 ,...,Xn (x0 ; θ)
θ i=1 xi (1 − θ)
i=1 θ (1 − θ)
=
θ
1−θ
Pni=1 xi −Pni=1 x0i
el cual no depende de θ si y sólo si
estadı́stica suficiente minimal.
,
Pn
i=1
xi =
Pn
i=1
x0i . Ası́,
Pn
i=1
Xi es una
84
3. Estadı́sticas y distribuciones muestrales
Ejemplo 3.12 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Uniforme en el intervalo (0, θ) . En este caso,
fX1 ,...,Xn (x; θ)
fX1 ,...,Xn (x0 ; θ)
=
(xi )
i=1 I(0,θ)
Qn (x0i )
1
i=1 I(0,θ)
θn
1
θn
Qn
(y )
=
n
I(0,θ)
(y 0 )
(θ)
=
I(yn ,∞)
(θ)
,
I(y0 ,∞)
n
I(0,θ)
n
cociente que no depende de θ si y sólo si yn = yn0 , concluyendo que Yn es
una estadı́stica suficiente minimal.
Suficiencia minimal y la familia exponencial
Se sabe que f (x; θ) pertenece a la familia exponencial si se cumple que:
f (x; θ) = a(θ)b(x)ec(θ)d(x)
Tomando X = (X1 , . . . , Xn ) y X 0 = (X10 , . . . , Xn0 ) y usando el teorema 3.6,
se tiene que:
f (x;θ)
f (x0 ;θ)
=
Qn
i=1 a(θ)b(xi ) exp{c(θ)d(xi )}
Qn
0
0
i=1 a(θ)b(xi ) exp{c(θ)d(xi )}
=
Qn
Pn
i=1 b(xi ) exp{c(θ)
i=1 d(xi )}
Q
P
n
0
0
(a(θ))n n
i=1 b(xi ) exp{c(θ)
i=1 d(xi )}
=
Qn
b(xi )
Qi=1
n
0
i=1 b(xi )
(a(θ))n
Pn
Pn
exp {c(θ) [ i=1 d(xi ) − i=1 d(x0i )]} .
Este cociente no depende de θ si sólo si
Pn
i=1
∴
Pn
d(xi ) =
i=1
Pn
d(x0i ).
d(Xi ) es suficiente minimal.
Es decir, si f (x; θ) pertenece a la familia exponencial,
estadı́stica suficiente minimal.
3.5.
i=1
Pn
i=1
d(Xi ) es una
Completez
El concepto de estadı́stica completa se utilizará en uno de los resultados más
importantes que servirán para encontrar estimadores insesgados de varianza
mı́nima.
85
3.5. Completez
Definición 3.8 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) , θ ∈ Θ. Se
dice que la estadı́stica T (X) es completa si y sólo si, para cualquier función
g de T, se tiene que si E(g(T )) = 0 ∀θ ∈ Θ, entonces
P(g(T ) = 0) = 1, ∀θ ∈ Θ.
También se dice que la familia de densidades de T es completa.
Se puede pensar entonces que T es completa si una estadı́stica, función
de T, cuya esperanza es 0, vale 0 con probabilidad 1.
Ejemplo 3.13 Sea X1 , X2 , . . . , Xn una muestra aleatoria
Pn de una población
con distribución Bernoulli (θ) , 0 < θ < 1, y T (X) = i=1 Xi . Para ver si
T es completa, se considera E(g(T )) = 0, que es equivalente a:
n
X
n t
n−t
E(g(T )) =
g(t)
θ (1 − θ)
= 0,
t
t=0
de donde
ó
n
X
t
n
θ
g(t)
(1 − θ)
= 0,
t
1−θ
t=0
n
n
X
t
n
θ
= 0,
g(t)
1−θ
t
t=0
θ
el cual es un polinomio en 1−θ
, que vale cero si cada uno de los coeficientes
t
θ
vale cero, es decir, si
de 1−θ
n
g(t)
= 0,
t
para toda t = 0, 1, 2, . . . , n,
pero nt 6= 0, ası́ queP
g(t) = 0, ∀t ∈ {0, 1, 2, . . . , n}, lo que lleva a la conclun
sión de que T (X) = t=1 Xi es una estadı́stica completa.
Observe que si en esta distribución se toma T (X) = X1 −X2 y g (T ) = T,
se tiene que E(X1 − X2 ) = E (X1 ) − E (X2 ) = 0, pero X1 − X2 no vale cero
con probabilidad 1, ası́ que X1 − X2 no es completa.
Ejemplo 3.14 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución Uniforme continua en el intervalo (0, θ) . Para ver si
T (X) = Yn = máx {X1 , . . . , Xn }
86
3. Estadı́sticas y distribuciones muestrales
es completa, se hace
Z
E(g(T )) =
g(t)fT (t)dt = 0.
En el caso de la máxima estadı́stica de orden,
fT (t) = n
tn−1 (t)
I
,
θn (0,θ)
t = yn .
Ası́
θ
Z
E(g(T ))
=
g(t)
0
n
θn
=
entonces
Z
n n−1
t
dt
θn
θ
g(t)tn−1 dt = 0,
∀θ > 0,
0
θ
Z
g(t)tn−1 dt = 0,
∀θ > 0.
0
Lo cual implica que
g(θ)θn−1 = 0
∀θ > 0,
y por lo tanto, g(θ) = 0, ∀θ > 0, lo que lleva a concluir que la máxima
estadı́stica de orden es una estadı́stica completa.
Observación 3.7 En general, puede decirse que una familia paramétrica de
distribuciones f (x; θ) es completa si E [g (X)] = 0 implica que g (x) = 0 casi
seguramente (c.s.). En este contexto, si f (x; θ) pertenece a la familia exponencial, entonces f (x; θ) es completa. Para verificarlo, se considerará el caso
particular en el que c (θ) = θ y d (x) = x, es decir: f (x; θ) = a (θ) b (x) eθx .
Ahora, si para toda θ, se cumple que:
Z ∞
g (x) f (x; θ) dx = 0,
−∞
se tiene que
Z
∞
g (x) a (θ) b (x) eθx dx = 0,
−∞
o
Z
∞
[g (x) b (x)] eθx dx = 0,
−∞
la cual corresponde a la transformada de Laplace de la función g (x) b (x) .
Por la propiedad de unicidad de la transformada, la única función que tiene
87
3.5. Completez
una transformada igual a cero es la función que vale cero c.s., es decir,
g (x) b (x) = 0 c.s., de donde se obtiene que g (x) = 0 c.s., considerando
b (x) 6= 0. Ası́ que f (x; θ) es completa.
Observación 3.8 Si f (x; θ) pertenece a la familia exponencial, entonces
n
P
d (Xi ) es completa.
i=1
En sı́ntesis, una de las ventajas que se tiene al identificar a un miembro
de la familia exponencial está explicada en el siguiente resultado.
Teorema 3.7 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad f (x; θ) con θ ∈ Θ ⊆ R, donde f (x; θ) pertenece a
la familia exponencial, es decir, f (x; θ) = a(θ)b(x) exp{c(θ)d(x)}. Entonces,
n
P
la estadı́stica
d(Xi ) es suficiente minimal y completa.
i=1
Aunque este resultado es un resumen de lo que ya se justificó en la sección
3.4.4 (suficiencia minimal y la familia exponencial) y de las observaciones
anteriores, la parte correspondiente a la completez puede consultarse con
mayor detalle en Zacks (1971), página 69, o Schervish (1995), páginas 108110.
De esta manera, es posible encontrar estadı́sticas suficientes y completas
fácilmente cuando la muestra proviene de un miembro de la familia exponencial. Por ejemplo, sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con distribución Geométrica (θ), con θ ∈ [0, 1]; para encontrar una
estadı́stica suficiente y completa, observe que f (x; θ) pertenece a la familia
exponencial, ya que como se vio antes,
f (x; θ)
= θ(1 − θ)x I{0,1,...} (x)
= θ exp{x ln(1 − θ)}I{0,1,...} (x),
con
a(θ)
=
θ,
b(x)
=
I{0,1,...} (x),
c(θ)
=
ln(1 − θ),
d(x)
=
x.
De donde, puede concluirse que S (X) =
n
P
i=1i
(minimal) y completa.
Xi es una estadı́stica suficiente
88
3.6.
3. Estadı́sticas y distribuciones muestrales
Algunas generalizaciones
La primera generalización de los resultados vistos previamente se refiere al
teorema de factorización para un conjunto de estadı́sticas suficientes.
Teorema 3.8 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad f (x; θ) , donde θ es un vector de parámetros. Las estadı́sticas S1 (X) , S2 (X) , . . . , Sr (X) , r ≥ k, son conjuntamente suficientes
si y sólo si existen dos funciones: g(S1 , . . . , Sr ; θ) que depende de
X1 , X2 , . . . , Xn sólo a través de S1 , . . . , Sr y de θ; y h(X) cualquier función no negativa que sólo depende de la muestra, para las cuales la densidad
conjunta
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ; θ1 , θ2 , . . . , θk )
puede factorizarse como:
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,θ) = g(S1 , . . . , Sr ; θ) h(x).
Ejemplo 3.15 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución N (µ, σ 2 ). Encontrar estadı́sticas suficientes para θ =(µ, σ 2 ).
La densidad conjunta de X1 , X2 , . . . , Xn puede escribirse como
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ,µ, σ 2 ) =
n
Y
i=1
1
2πσ 2
2
1
e− 2σ2 (xi −µ)
1
2πσ 2
n/2
1
2πσ 2
n2
=
=
√
1
e− 2σ2
2
i=1 (xi −µ)
Pn
e− 2σ2 (
1
Pn
i=1
x2i −2µ
Pn
i=1
xi +nµ2 )
n
n
P
P
la densidad conjunta depende de x1 , x2 , . . . , xn sólo a través de
x2i y
xi ,
i=1
i=1
n
n
P
P
por lo que las estadı́sticas
Xi ,
Xi2 son conjuntamente suficientes.
i=1
i=1
n
n
P
P
2
2
Note que (X, S ) es una función uno a uno de
Xi ,
Xi , por lo que
i=1
i=1
también son suficientes para la distribución Normal.
Familias exponenciales k-paramétricas
Cuando la familia paramétrica tiene más de un parámetro, es decir, su función de densidad es de la forma f (x; θ) con θ∈ Θ ⊆ Rk , se dice que pertenece
,
89
3.6. Algunas generalizaciones
a la familia exponencial k-paramétrica si y sólo si puede expresarse de la
forma


k
X

cj (θ)dj (x)
f (x; θ) = a(θ)b(x) exp


j=1
Ejemplo 3.16 Sea X ∼ Gama(r, λ), ¿pertenece a la familia exponencial
k-paramétrica?.
En este caso,
f (x; r, λ)
λr r−1 −λx
x e
I(0,∞) (x)
Γ(r)
λr −λx+(r−1) ln(x)
e
I(0,∞) (x),
Γ(r)
=
=
por lo que:
r
λ
a(θ) = Γ(r)
, b(x) = I(0,∞) (x),
c1 (θ) = −λ,
d1 (x) = x,
c2 (θ) = r − 1, d2 (x) = ln x,
por lo tanto, se concluye que la densidad Gama pertenece a la familia exponencial.
Ejemplo 3.17 La distribución Normal µ, σ 2 pertenece a la familia exponencial.
Para comprobarlo, la densidad puede escribirse como:
f x; µ, σ 2
de donde: a µ, σ 2 =
d2 = x.
=
√
=
√
=
√
µ2
√ 1
e− 2σ2
2πσ 2
1
2πσ 2
1
2πσ 2
1
2πσ 2
1
e− 2σ2 (x−µ)
e− 2σ2 (x
1
µ2
2
2
−2xµ+µ2 )
1
e− 2σ2 e− 2σ2 x
2
+ σµ2 x
,
, b (x) = 1, c1 = − 2σ1 2 , d1 = x2 , c2 =
µ
σ2
y
Ejemplo 3.18 La distribución Beta (θ1 , θ2 ) pertenece a la familia exponencial, pues la densidad se puede escribir como:
f (x; θ1 , θ2 )
=
=
1
θ −1
xθ1 −1 (1 − x) 2 I(0,1) (x)
B (θ1 , θ2 )
1
I(0,1) (x) e(θ1 −1) ln x+(θ2 −1) ln(1−x) .
B (θ1 , θ2 )
90
3. Estadı́sticas y distribuciones muestrales
Por último, se enuncia una extensión del resultado que relaciona a la
familia exponencial con la suficiencia.
Teorema 3.9 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con función de densidad f (x; θ) , con θ ∈ Θ ⊆ Rk , que pertenece a la familia
exponencial k-paramétrica, es decir:


k
X

cj (θ)dj (x) .
f (x; θ) = a(θ)b(x) exp


j=1
Entonces, el conjunto de estadı́sticas
n
X
d1 (Xi ),
i=1
n
X
d2 (Xi ), . . . ,
i=1
n
X
!
dk (Xi )
i=1
son suficientes y completas.
Con este resultado y considerando
3.16,
n el ejemplo
se puede afirmar que
n
P
P
si X ∼ Gama(r, λ), entonces
Xi ,
ln(Xi ) son suficientes y comi=1
i=1
Pn
Pn
2
pletas. También puede concluirse
en la
i=1 Xi ,
i=1 Xi
Pn lo mismo
Pn para
distribución Normal y para ( i=1 ln Xi , i=1 ln (1 − Xi )) en la distribución
Beta.
3.7.
Estadı́sticas auxiliares
En esta sección se estudiará un tipo especial de estadı́sticas llamadas auxiliares. Como se verá, una estadı́stica auxiliar no contiene información acerca de
θ, es una variable aleatoria cuya distribución es fija y conocida, sin relación
con θ. Sin embargo, cuando se usa en conjunto con otras estadı́sticas, puede
contener información valiosa para hacer inferencias acerca del parámetro.
Definición 3.9 A una estadı́stica T (X) cuya distribución no depende del
parámetro θ, se le llama estadı́stica auxiliar.
Ejemplo 3.19 Sea X1 , . . . , Xn una muestra aleatoria de la población con
distribución Uniforme continua sobre el intervalo (θ, θ + 1), −∞ < θ < ∞.
Sean Y1 = X(1) , . . . , Yn = X(n) las estadı́sticas de orden de la muestra. La
estadı́stica Rango R = Yn − Y1 , es una estadı́stica auxiliar. Para verificarlo,
se mostrará que la densidad de R no depende de θ.
91
3.7. Estadı́sticas auxiliares
La función de distribución de cada


0,
F (x; θ) = x − θ,


1,
Xi es
si x ≤ θ,
si θ < x < θ + 1,
si x ≥ θ + 1,
mientras que la función de densidad está dada por
(x)
f (x; θ) = I(θ,θ+1) .
Por lo tanto, usando la expresión (3.8) deducida en la sección 3.3.2 la función
de densidad conjunta de Y1 y Yn es
fY1 ,Yn (y1 , yn )
n(n − 1)(F (yn ) − F (y1 ))n−2 f (y1 )f (yn )
(
n(n − 1)(yn − y1 )n−2 si θ < y1 < yn < θ + 1,
=
0
en otro caso.
=
Haciendo la transformación R = Yn − Y1 y T = (Y1 + Yn ) /2, la cual tiene la
transformación inversa Y1 = (2T − R)/2 y Yn = (2T + R)/2 con Jacobiano
igual a −1 (ver sección 3.3.2), y usando la expresión (3.9), la función de
densidad conjunta de R y T está dada por
(
n(n − 1)rn−2 si 0 < r < 1; θ + (r/2) < t < θ + 1 − (r/2),
fR,T (r, t) =
0
en otro caso.
Por lo tanto, la función de densidad de probabilidad para R es
Z θ+1−(r/2)
fR (r) =
n(n − 1)rn−2 dt
θ+(r/2)
= n(n − 1)rn−2 (1 − r),
0 < r < 1.
Esta es la función de densidad de una variable aleatoria con distribución
Beta con α = n − 1 y β = 2. Y ası́, la función de densidad es la misma para
toda θ; por lo tanto, la distribución de R no depende de θ, concluyéndose
que R = Yn − Y1 es una estadı́stica auxiliar.
El siguiente resultado, conocido como el teorema de Basu, permite verificar la independencia de dos estadı́sticas sin necesidad de encontrar su
distribución conjunta.
Teorema 3.10 (teorema de Basu). Si S(X) es una estadı́stica suficiente
y completa y T (X) es una estadı́stica auxiliar, entonces S(X) y T (X) son
independientes.
92
3. Estadı́sticas y distribuciones muestrales
Demostración. Se hará para el caso discreto. Como T (X) es una estadı́stica auxiliar, entonces P(T (X) = t) no depende de θ. También la probabilidad
condicional
P(T (X) = t|S(X) = s) = P(X ∈ {x : T (x) = t}|S(X) = s),
no depende de θ porque S(X) es una estadı́stica suficiente.
Por lo tanto, para demostrar que S(X) y T (X) son independientes, basta
comprobar que
P(T (X) = t|S(X) = s) = P(T (X) = t),
para todos los posibles valores de s ∈ S. Observe que
X
P(T (X) = t) =
P(T (X) = t|S(X) = s)P(S(X) = s).
(3.16)
s∈S
Por otro lado, dado que
X
P(S(X) = s) = 1, se puede escribir
s∈S
P(T (X) = t)
= P(T (X) = t)
X
P(S(X) = s)
s∈S
=
X
P(T (X) = t)P(S(X) = s).
(3.17)
s∈S
Sea g (S) definida como
g(s) = P(T (X) = t|S(X) = s) − P(T (X) = t),
la cual no depende de θ, pues como se habı́a señalado, ni P(T (X) = t|S(X) =
s) (por la suficiencia de S), ni P(T (X) = t) (por ser T una estadı́stica
auxiliar) dependen de θ; ası́ que g (S) es una estadı́stica.
Por (3.16) y (3.17), se deduce que
X
E [g(S)] =
g(s)P(S(X) = s)
s∈S
=
X
[P(T (X) = t|S(X) = s) − P(T (X) = t)] P(S(X) = s)
s∈S
=
X
P(T (X) = t|S(X) = s)P(S(X) = s)
s∈S
−
X
P(T (X) = t)P(S(X) = s)
s∈S
= P(T (X) = t) − P(T (X) = t)
=
0, para toda θ,
3.8. Ejercicios
93
y como S(X) es una estadı́stica completa, se tiene que g(s) = 0, para s ∈ S;
por lo que
P(T (X) = t|S(X) = s) = P(T (X) = t),
concluyéndose que S(X) y T (X) son independientes.
En el teorema de Basu se hace el supuesto de que S (X) es suficiente y
completa, esto implica que S (X) también es suficiente minimal (ver Schervish
(1995),
sección 2.1).
Ejemplo 3.20 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución Uniforme en el intervalo (0, θ) y sean Y1 y Yn las estadı́sticas de
orden mı́nima y máxima, respectivamente. Entonces las estadı́sticas T (X) =
Y1
Yn y S (X) = Yn , son variables aleatorias independientes. Para verificarlo,
recuerde que Yn es una estadı́stica suficiente y completa para θ (ver ejemplos
3.7 y 3.14). De acuerdo con el teorema de Basu basta mostrar que T (X) es
una estadı́stica auxiliar, por lo que se calculará la función de distribución de
T (X) usando la expresión general para la función de densidad conjunta de
Y1 y Yn dada por (3.8) e integrando sobre la región adecuada:
Y1
FT (t) = P
≤t ,
0<t<1
Yn
= P [Y1 ≤ tYn ]
Z θ Z tyn
y1 n−2
n(n − 1) yn
−
dy1 dyn
=
2
θ
θ
θ
0
0
= 1 − (1 − t)n−1 I(0,1) (t) + I[1,∞) (t).
Por lo tanto, la función de densidad de T (X) no depende de θ. Ası́, T (X)
y S (X) son estadı́sticas (variables aleatorias) independientes.
3.8.
Ejercicios
1. Suponga que X es una variable aleatoria discreta con función de densidad dada por

 0.2 si x = 0,
0.3 si x = 3,
fX (x) =

0.5 si x = 12.
Sea X1 , X2 y X3 una muestra aleatoria de esta distribución. Obtenga:
94
3. Estadı́sticas y distribuciones muestrales
(a) La distribución de la muestra (es decir, haga la lista de todos los
posibles valores de la muestra aleatoria y sus respectivas probabilidades).
(b) La distribución muestral de la media muestral X.
(c) La distribución muestral de la mediana muestral.
2. Sea X una variable aleatoria discreta que toma los valores 1, 2 y 3
con probabilidades 16 , 21 y 13 , respectivamente. Considere las posibles
muestras aleatorias simples de tamaño dos.
(a) Determine la distribución de la media muestral (es decir, fX̄ (·)).
(b) Compruebe que la esperanza de la media muestral es igual a la
media poblacional.
(c) Compruebe que la varianza de la media muestral es igual a la
varianza poblacional dividida entre el tamaño de muestra.
3. En un dado están marcados los resultados 1, 2 y X. Para hacer inferencias acerca de las probabilidades p1 , p2 y pX de cada resultado, se
lanza tres veces el dado.
(a) Construya el espacio muestral y la distribución de la muestra (de
tamaño 3).
(b) Obtenga la distribución de T1 , T2 y TX , siendo Ti la frecuencia
de resultados iguales a i.
(c) Determine la distribución de TX , su media y su varianza.
(d) Calcule la covarianza entre T1 y T2 .
4. De una población con distribución Poisson(θ), se obtiene una muestra
aleatoria de tamaño n. Determine la distribución de la media muestral.
5. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
n
o
f (x; θ) = e−(x−θ) exp −e−(x−θ) ,
donde θ es un número real.
(a) Obtenga la distribución de T =
Pn
i=1
e−Xi .
(b) Calcule E[ln(T )] y Var[ln(T )].
6. Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función
de densidad es
θ
, x > 0,
f (x; θ) =
1+θ
(1 + x)
95
3.8. Ejercicios
siendo θ un parámetro
Pn mayor que cero. Determine la distribución de
la estadı́stica T = i=1 ln (1 + Xi ).
7. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Rayleigh, cuya función de densidad es
f (x; θ) =
2 −x2 /θ
xe
,
θ
I(0,∞) (x),
con θ > 0.
(a) Obtenga la distribución de T =
Pn
i=1
Xi2 .
(b) Obtenga E(T ) y Var(T ).
(c) Demuestre que T es una estadı́stica suficiente para θ.
8. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ). Encuentre la media y la varianza de
sP
S=
n
i=1 (Xi
− X̄)2
.
n−1
9. Sea X una variable aleatoria con distribución χ2(1) . Defina Z1 =
√
y Z2 = − X. Obtenga las distribuciones de Z1 y Z2 .
√
+
X
10. Sea X una variable aleatoria con distibución F (m, n). Demuestre que
(a) Z =
1
X
(b) Z =
mX/n
1+mX/n
∼ F (n, m).
∼ Beta(m/2, n/2).
11. Sea X una variable aleatoria con distibución t(k) . Demuestre que
(a) La distribución de X se aproxima a una distribución N (0, 1) cuando k crece.
(b) Y = X 2 ∼ F (1, k).
12. Demuestre el teorema 3.4. Es decir, si Z y U son variables aleatorias independientes con distribución N (0, 1) y χ2(k) , respectivamente,
demuestre que
Z
p
∼ t(k) .
U/k
96
3. Estadı́sticas y distribuciones muestrales
13. Sea Xi , i = 1, 2, 3, una muestra aleatoria de la población con distribución N (i, i2 ), respectivamente. En cada una de las siguientes situaciones utilice las Xi ’s para construir una estadı́stica con la distribución
indicada.
(a) χ2 con 3 grados de libertad.
(b) t de Student con 2 grados de libertad.
(c) F con 1 y 2 grados de libertad.
14. Sea X1 , X2 una muestra aleatoria de la población con distribución
N (0, 1). Para cada uno de los siguientes incisos obtenga las distribuciones de las estadı́sticas T (X).
√
(a) T (X) = (X2 − X1 )/ 2.
(b) T (X) = (X1 + X2 )2 /(X2 − X1 )2 .
(c) T (X) = X12 /X22 .
(d) T (X) = (X2 + X1 )/
p
(X1 − X2 )2 .
15. Sea Z1 , Z2 una muestra aleatoria de la población con distribución
N (0, 1), y sea X1 , X2 una muestra aleatoria de la población con distribución N (1, 1). Suponga que las Z’s son independientes de las X’s.
Para cada uno de los siguientes incisos obtenga las distribuciones de
las estadı́sticas T = T (X, Z).
(a) T = X̄ + Z̄.
p
(b) T = (Z1 + Z2 )/ [(X2 − X1 )2 + (Z2 − Z1 )2 ]/2.
(c) T = (X1 − X2 )2 + (Z1 − Z2 )2 + (Z1 + Z2 )2 /2.
(d) T = (X2 + X1 − 2)2 /(X2 − X1 )2 .
16. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (0, 1). Sean
Xk =
k
1X
Xi ,
k i=1
X n−k =
n
X
1
Xi .
n−k
i=k+1
Para cada uno de los siguientes incisos obtenga las distribuciones de
las estadı́sticas T (X).
(a) T (X) = 21 (X k + X n−k ).
2
2
(b) T (X) = kX k + (n − k)X n−k .
97
3.8. Ejercicios
(d) T (X) = X1 /Xn .
17. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ). Sean
Xk =
X n−k =
k
1X
Xi ,
k i=1
n
X
1
Xi ,
n−k
X=
i=k+1
n
X
1
n
Xi ,
k
1 X
(Xi − X k )2 ,
k − 1 i=1
Sk2 =
2
Sn−k
=
n
X
1
(Xi − X n−k )2 ,
n−k−1
i=k+1
1
n−1
S2 =
i=1
n
X
(Xi − X)2 .
i=1
Para cada uno de los siguientes incisos obtenga las distribuciones de
las estadı́sticas T (X).
2
2
(a) T (X) = (k − 1)Sk2 + (n − k − 1)Sn−k
/σ .
(b) T (X) = 21 (X k + X n−k ).
√
(c) T (X) = (X̄ − µ)/(S/ n).
2
(d) T (X) = Sk2 /Sn−k
.
18. Sean X1 , . . . , Xn y Z1 , . . . , Zn muestras aleatorias independientes entre
sı́ de la distribución Normal tales que E(Xi ) = E(Zi ) = µ, Var(Xi ) =
σ 2 y Var(Zi ) = 2σ 2 para cualquier i ∈ {1, 2, . . . , n}. Defina
U=
n
X
(Xi − X̄)2 ,
V =
i=1
Determine la distribución de
n
X
(Zi − Z̄)2 .
i=1
2U +V
2σ 2
.
19. Un inversionista bursátil compra o vende acciones de CEMEX, S. A.
mediante el siguiente procedimiento: selecciona al azar una muestra de
dı́as para los que determina el ı́ndice medio, X de la empresa Edificaciones, S. A.; selecciona también al azar otra muestra de dı́as, para los
que determina el ı́ndice medio, Z, de CEMEX, S. A. Compra acciones
de CEMEX, S. A. cuando Z ≤ X, vendiendo en caso contrario.
El inversionista supone que ambos ı́ndices bursátiles se distribuyen
normal e independientemente con una diferencia de medias de 1.432
unidades en favor de la primera y que los ı́ndices bursátiles de ambas
empresas se comportan de forma independiente todos los dı́as.
98
3. Estadı́sticas y distribuciones muestrales
Calcular la probabilidad de que el inversionista compre bajo el supuesto
de que seleccionó 60 dı́as para calcular el primer ı́ndice y obtuvo una
varianza muestral de 23 y 50 dı́as para el segundo con una varianza de
7.
20. Sea X1 , X2 una muestra aleatoria de la población con distribución
N (0, 1). Defina Y = mı́n(X1 , X2 ). Demuestre que Y 2 ∼ χ2(1) .
21. Sea X1 , X2 una muestra aleatoria de la población con distribución
Pareto, cuya función de densidad es
f (x; α) =
α
I[1,∞] (x), α > 0.
xα+1
Sean Y1 y Y2 las correspondiente estadı́sticas de orden. ¿Qué puede
decir de la distribución de las variables aleatorias presentadas en los
siguientes incisos?
(a) Y2 .
(b) Y2 − Y1 .
(c) Y2 /Y1 .
22. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución
U (0, 1).
(a) Obtenga la distribución conjunta de Y1 , Y2 , Y3 (las correspondientes estadı́sticas de orden).
(b) Obtenga la función de densidad de la mediana, es decir, de Y2 .
(c) Obtenga la función de densidad del rango R = Y3 − Y1 .
23. Sean Y1 , Y2 , Y3 , Y4 las estadı́sticas de orden de una muestra aleatoria
de tamaño 4 de la población con función de densidad
fX (x) = exp (−x) I(0,∞) (x) .
Obtenga lo siguiente:
(a) P (3 ≤ Y4 ).
(b) E (Y1 ).
(c) La función de densidad conjunta de Y1 y Y4 .
24. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Exponencial de parámetro θ = 1, es decir Xi ∼ exp(1). Y sean
Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre que
nYn y n(Y2 − Y1 ) son independientes.
99
3.8. Ejercicios
25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Uniforme U (θ − 1/2, θ + 1/2).
(a) Obtenga la distribución de la mı́nima estadı́stica de orden Y1 , ası́
como de la máxima Yn .
(b) Obtenga las esperanzas de Y1 y Yn .
26. Sea X1 , X2 , . . . , Xn una muestra aleatoria de la población con distribución Uniforme U (0, θ). Demuestre que Y1 /Yn y Yn son variables
aleatorias independientes, donde Y1 y Yn son las estadı́sticas de orden
mı́nima y máxima respectivamente.
27. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
a
fX (x; a, θ) = a xa−1 , si 0 < x < θ.
θ
Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden. Demuestre
que Y1 /Y2 , Y2 /Y3 , . . . , Yn−1 /Yn son variables aleatorias mutuamente
independientes y obtenga la distribución de cada una de ellas.
28. Sea Ui , i = 1, 2, . . . , una muestra aleatoria de la población con distribución U (0, 1), y sea X una variable aleatoria con función de densidad
P(X = x) =
c
,
x!
x = 1, 2, 3, . . . ,
donde c = 1/(e − 1). Obtenga la distribución de Y = mı́n(U1 , . . . , UX ).
[Nota: La distribución condicional de Y dada X = x, Y |X = x, es
la distribución de la mı́nima estadı́stica de orden de una muestra de
tamaño x].
29. Sea X1 , X2 una muestra aleatoria de la población con distribución
N (0, 1). Obtenga la distribución del rango, R = Y2 − Y1 .
30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
U (0, 1). Sean Y1 , . . . , Yn las correspondientes estadı́sticas de orden.
(a) Obtenga la media y varianza de Yn − Y1 .
(b) Obtenga la media y varianza de (Y1 + Yn )/2.
(c) Obtenga la media y varianza de Yk+1 (mediana) considerando que
n = 2k + 1, con k = 0, 1, . . . .
(d) Compare las medias y las varianzas de X, Yk+1 , (Y1 + Yn )/2.
100
3. Estadı́sticas y distribuciones muestrales
31. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ). Demuestre que:
Pn
2
2
(a) S(X) =
i=1 Xi es una estadı́stica suficiente para σ cuando
µ = 0.
2
Pn
(b) S(X) = i=1 (xi −µ)
es una estadı́stica suficiente para σ 2 cuando
n
µ es conocida.
Pn (xi −x̄)2
(c) S(X) =
no es una estadı́stica suficiente para σ 2
i=1
n
cuando µ es desconocida.
32. Sea X una variable aleatoria con distribución N (0, θ) .
(a) ¿Es S(X) = X una estadı́stica suficiente para θ?.
(b) ¿Es S(X) =| X | una estadı́stica suficiente para θ?.
33. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Gama(α, β) cuya función de densidad es
f (x; α, θ) =
1
xα−1 e−x/β ,
Γ(α)β α
con α > 0, β > 0 y 0 < x < ∞.
(a) Demuestre que si α = 1, S(X) =
suficiente para β.
Pn
i=1
(b) Demuestre que si β es conocido, S(X) =
ca suficiente para α.
Xi es una estadı́stica
Qn
i=1
Xi es una estadı́sti-
(c) Si α y β son desconocidos, obtenga una estadı́stica suficiente (bidimensional) para los parámetros (α, β).
34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Beta (α, 2) , α > 0, β = 2, cuya función de densidad es
f (x; α) =
Γ (α + 2) α−1
1
x
(1 − x) , 0 < x < ∞,
Γ (α) Γ (2)
cero en cualquier otro caso. Demuestre que S(X) = X1 X2 · · · Xn =
Πni=1 Xi (el producto) es una estadı́stica suficiente para α.
35. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
W eibull(α, β), cuya función de densidad es
β
1 β−1
x
fX (x; α) = βx
exp −
I(0,∞) (x),
α
α
101
3.8. Ejercicios
donde α > 0 es un parámetro desconocido, pero β > 0 es un parámetro
conocido. Encuentre una estadı́stica suficiente para θ.
36. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Cauchy(θ) cuya función de densidad es
f (x; θ) =
1
2
π 1 + (x − θ)
, -∞ < x < ∞, − ∞ < θ < ∞.
(a) ¿Puede escribirse la función de densidad conjunta de X1 , X2 , . . . ,
Xn como en el teorema de factorización?
(b) ¿Existe una estadı́stica suficiente para el parámetro θ?
Sugerencia: al hacer la integral (para calcular la esperanza) considere
el cambio de variable x − θ = tan η.
37. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución W eibull(α, β), donde α > 0 es desconocida, pero β > 0 se supone
conocido, con función de densidad
β
1 β−1
x
f (x; α) = βx
exp −
I(0,∞) (x).
α
α
Esta función de densidad se usa frecuentemente como un modelo para las longitudes de vida de sistemas fı́sicos. Demuestra que S(X) =
Pn
β
i=1 Xi es una estadı́stica suficiente para α.
38. *Sea X1 , . . . , Xn una muestra aleatoria de una población cuya función
de densidad es
1
(x − µ)
fX (x; µ, σ) = exp −
I(µ,∞) (x),
σ
σ
con µ ∈ R y σ ∈ R+ .
Pn
(a) Demuestre que S(X) = Y1 , n1 i=1 (Xi − Y1 ) es una estadı́stica
suficiente para (µ, σ) si ambos parámetros son desconocidos.
Pn
(b) Demuestre que si µ es conocido entonces S(X) = n1 i=1 (Xi − µ)
es una estadı́stica suficiente para σ.
(c) Demuestre que si σ es conocido entonces S(X) = Y1 es una estadı́stica suficiente para µ.
102
3. Estadı́sticas y distribuciones muestrales
39. *Considere la siguiente función de densidad dependiente de tres parámetros α, p y σ,
p−1
x−α
x−α
1
exp −
,
f (x; α, p, σ) =
σΓ(p)
σ
σ
con p > 0, σ > 0 y α ≤ x < ∞. Demuestre que:
(a) Existe una estadı́stica suficiente para p cuando α y σ son conocidos.
(b) Existe una estadı́stica suficiente para σ cuando α y p son conocidos.
(c) De forma conjunta existe un par de estadı́sticas suficientes para
(p, σ) cuando α es conocida.
(d) Si σ es conocida y p = 1, existe una estadı́stica suficiente para α.
40. Sea X1 , . . . , Xn una muestra aleatoria de las distribuciones f (x; θ) especificadas a continuación. Encuentre una estadı́stica suficiente minimal y completa para θ.
(a) f (x; θ) = θxθ−1 I(0,1) (x), θ > 0.
(b) f (x; θ) =
1
3
6θ 4 x
exp(−x/θ)I(0,∞) (x), θ > 0.
(c) Binomial(k, θ) (k fijo).
(d) Binomialnegativa(k, θ) (k fijo).
41. Sea X1 , . . . , Xn una muestra aleatoria de la población cuya función de
densidad es
f (x; θ) =
θ2
(x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la función de densidad de X pertenece a la familia
exponencial.
(b) Obtenga una estadı́stica suficiente minimal y completa.
42. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Pareto, con función de densidad
f (x; x0 , θ) = θxθ0 x−θ−1 ,
x0 ≤ x, θ > 1.
donde x0 > 0. Obtenga una estadı́stica suficiente para θ:
(a) Usando el teorema de factorización.
103
3.8. Ejercicios
(b) Usando la propiedad de la familia exponencial.
¿Las estadı́sticas suficientes son las mismas?
43. *Sea X1 , . . . , Xn una muestra de aleatoria de la población con distribución Gaussiana Inversa, IG(µ, λ), cuya función de densidad es
1/2
λ
λ(x − µ)2
I(0,∞) (x).
exp
−
2πx3
2µ2 x
Demuestre que S(X) = X̄, Pn n1 −X̄ −1 es una estadı́stica suficien
f (x; µ, λ) =
i=1 Xi
te y completa.
44. Sea X1 , X2 , X3 una muestra
de la población con distribución
Paleatoria
3
Bernoulli(θ). Defina T = i=1 Xi , T1 = X1 y T2 = (T, T1 ).
(a) Obtenga las particiones inducidas sobre el espacio muestral a partir de T , T1 y T2 , respectivamente.
(b) Muestre que T es una estadı́stica suficiente minimal para θ, pero
T2 no lo es.
[Nota: primero muestre que T conduce a la partición suficiente
minimal sobre el espacio muestral, pero que T2 no conduce a tal
partición].
45. Sea X una variable aleatoria con distribución Uniforme U (−θ, θ).
(a) ¿S(X) = X es una estadı́stica suficiente minimal para θ?
(b) ¿S(X) = X es una estadı́stica completa?
46. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Uniforme U (θ, θ+1). Demuestre que S(X) = (Y1 , Yn ) es una estadı́stica
suficiente minimal y que no es completa.
47. *Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Uniforme U (θ1 , θ2 ), con θ1 < θ2 .
(a) Demuestra que si θ1 es conocido, entonces S(X) = Yn es una
estadı́stica suficiente minimal y completa para θ2 .
(b) Demuestra que si θ2 es conocido, entonces S(X) = Y1 es una
estadı́stica suficiente minimal y completa para θ1 .
(c) Si θ1 y θ2 son desconocidos, obtenga una estadı́stica suficiente
(bidimensional) minimal y completa para los parámetros (θ1 , θ2 ).
104
3. Estadı́sticas y distribuciones muestrales
48. Para cada una de las siguientes distribuciones, sea X1 , . . . , Xn una
muestra aleatoria. Obtenga una estadı́stica suficiente y completa para
θ, o en su caso muestre que no existe alguna.
(a) f (x; θ) =
(b) f (x; θ) =
2x
θ 2 , 0 < x < θ, θ > 0.
ln(θ)θ x
θ−1 , 0 < x < 1, θ >
1.
θ
,
(1+x)1+θ
0 < x < ∞, θ > 0.
(d) f (x; θ) = e−(x−θ) exp −e−(x−θ) , −∞ < x, θ < ∞.
(c) f (x; θ) =
49. Sea T una estadı́stica auxiliar para θ con función de densidad fT (t).
Sea g(·) una función diferenciable uno-a-uno que no depende de θ.
Demuestre que T ∗ = g(T ) también es una estadı́stica auxiliar para θ.
50. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ), donde σ 2 es conocido.
(a) Demuestre que S(X) = X es una estadı́stica suficiente y completa
para µ, y que T (X) = S 2 es una estadı́stica auxiliar.
(b) Demuestre que X y S 2 son estadı́sticas independientes.
Capı́tulo 4
Estimación puntual
En este capı́tulo se abordarán los tópicos relacionados con estimación puntual. Se inicia con la exposición de los métodos de estimación más importantes, tales como el de máxima verosimilitud, el de momentos y otros como
el de medianas y percentiles. Ası́mismo, se da una introducción al método
Bayesiano y más adelante al de mı́nimos cuadrados.
Posteriormente se revisan las propiedades deseables de un estimador puntual como una forma de analizar su bondad. Se habla del error cuadrático
medio, estimadores insesgados y la propiedad de consistencia, para dar lugar
al ulterior desarrollo de la teorı́a para encontrar a los mejores estimadores
insesgados.
4.1.
Introducción
Suponga que se dispone de una población en la que se estudia una variable
aleatoria X con distribución conocida y parámetro (o parámetros) desconocido(s) y se tiene interés en disminuir el grado de desconocimiento de θ en
f (x; θ) . De la población se extrae una muestra aleatoria simple de tamaño n:
X1 , X2 , ..., Xn y se trata de calcular, a partir de los valores muestrales, una
función de los mismos que proporcione una estadı́stica θb = T (X1 , X2 , ..., Xn )
que le asigne un valor al parámetro desconocido de la población, de forma
que sean lo más cercanos en algún sentido. A θb se le llama estimador.
El objetivo de la estimación puntual es entonces encontrar un valor para
b que sea función de la muestra aleatoria y que permita
θ, denotado como θ,
modelar o describir de manera adecuada el fenómeno aleatorio.
105
106
4. Estimación puntual
Definición 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una distribución
con función de densidad f (x; θ). Un estimador es una estadı́stica T (X) cuyos
valores t(x) sirven para aproximar o estimar los valores de θ.
La notación θ̂ = T (X) expresa que el estimador de θ es la estadı́stica
T (X). Los valores del estimador, o sea t(x), son realizaciones de la variable
aleatoria T (X).
Si por ejemplo, se tiene una población N (µ, σ 2 ), un posible estimador
para µ es µ̂ = X̄, es decir, en este caso el estimador de µ serı́a la estadı́stica
X (la media muestral). En los siguientes párrafos se presentarán los métodos
más conocidos para encontrar estimadores.
En ocasiones, en lugar del parámetro θ, se desea estimar una función
de dicho parámetro. En general, se denotará como τ (θ) a cualquier
función de θ.
4.2.
Métodos de estimación
El primero de los métodos que se abordará fue aportación de Karl Pearson
(1857-1936) y se conoce como el método de momentos para la estimación de
parámetros.
Karl Pearson “fue historiador, escribió sobre folklore, fue socialista convencido, abogado, matemático aplicado, biómetra, estadı́stico, maestro y
biógrafo. Sin duda, su contribución más importante es el nacimiento de la
estadı́stica aplicada. Es por lo que se le debe mayor crédito, en frase de él
mismo: Hasta que los fenómenos de cualquier rama del conocimiento no hayan sido sometidos a medida y número, no se puede decir que se trate de una
ciencia. Además del método de momentos para la obtención de estimadores,
introdujo el sistema de curvas de frecuencias para disponer de distribuciones que pudieran aplicarse a los distintos fenómenos aleatorios, desarrolló la
correlación lineal para aplicarla a la teorı́a de la herencia y de la evolución.
Introdujo el método de la Ji-cuadrada para dar una medida del ajuste entre
datos y distribuciones, para contrastar la homogeneidad entre varias muestras y la independencia entre variables. Fundó los Anales de la Eugenesia y
en 1900, junto con Galton y Weldon, fundó la revista Biometrika de la que
fue editor hasta su muerte. En una descripción autobiográfica decı́a: una
explicación para mi vida, se debe a una combinación de dos caracterı́sticas
que he heredado: capacidad para trabajar mucho y capacidad para relacionar
las observaciones de los demás”1 .
1 Gómez
Villegas, M.A. (2009). Karl Pearson, el creador de la estadı́stica matemática.
Historia de la probabilidad y la estadı́stica IV, J. Basulto y J.J. Garcı́a (eds.). Congreso
internacional de historia de la estadı́stica y la probabilidad, 351-356.
4.2. Métodos de estimación
107
También se introducirá el {indexmétodo! de máxima verosimilitud propuesto por Ronald A. Fisher en 1922, y que intuitivamente pretende obtener
el estimador de un parámetro seleccionando el que maximiza la probabilidad
de obtener los datos que realmente fueron observados.
Hablar de Fisher2 equivale a referirse al desarrollo de la estadı́stica durante el siglo XX. Basta decir que la mayor parte de los términos que se usan
en Inferencia estadı́stica los introdujo él, por ejemplo, parámetro, estadı́stica
(función de la muestra aleatoria), verosimilitud, score o puntaje, estadı́stica
auxiliar, información, hipótesis nula y errores tipo I y II, sólo por mencionar
algunos.
Figura 4.1: Karl Pearson con Francis Galton. Ambos fundaron la revista
Biometrika en 1901. Imagen tomada de commons.wikipedia.org (public domain).
2 La
imagen anterior fue tomada de commons.wikipedia.org (public domain). By
AnemoneProjectors (talk) (Flickr) (Sir Ronald Aylmer Fisher plaque) [CC BY-SA 2.0
(https://creativecommons.org/licenses/by-sa/2.0)], via Wikimedia Commons.
108
4. Estimación puntual
Sin duda que el trabajo de Fisher es la piedra angular sobre la que se sustenta la estadı́stica como ciencia. Egon Pearson (1974), hijo de Karl Pearson,
habla de las diferencias conceptuales entre su padre y Fisher3 : Galton y K.
Pearson trabajaron con muestras grandes por su interés en la reproducción
libre de las especies en su medio natural, esto ocurre con humanos, animales
y plantas. Por su parte, Fisher trabajó con muestras pequeñas relacionadas con datos experimentales, por lo que era necesario analizar con cuidado
las bases de la inferencia estadı́stica para una adecuada interpretación. Fisher estudió resultados exactos en muestras pequeñas, pero también obtuvo
propiedades asintónticas óptimas de los estimadores máximo verosı́miles.
Figura 4.2: Placa English Heritage dedicada a Fisher en la casa Inverforth.
En esta parte se hablará además del enfoque Bayesiano en la teorı́a de la
estimación puntual, el cual se basa en el teorema de Bayes.
4.2.1.
Método de momentos
Sea X1 , . . . , Xn una muestra aleatoria de una distribución con función de
densidad f (x; θ). A E(Xir ) se le conoce
como el r-ésimo momento poblacional
Pn
r
i=1 Xi
y se denota por µr , mientras que
es el r-ésimo momento muestral
n
y se denota por Mr .
3 Pearson, E. S. (1974). “Memories on the impact of Fisher’s work in the 1920’s”. Int.
Stat. Rev. 42 (1).
109
4.2. Métodos de estimación
El método de estimación por momentos consiste en igualar los momentos
muestrales con los momentos poblacionales y resolver para θ (o θ1 , ..., θk , si
la distribución tiene k parámetros). Esto es, µr = Mr , donde r = 1, ..., k y k
representa el número de parámetros a estimar.
De manera general, si X1 , X2 , . . . , Xn es una muestra aleatoria de una
población con función de densidad f (x; θ1 , θ2 , ..., θk ), en la estimación por
momentos se resuelve el siguiente sistema de ecuaciones
µ = M 1 , µ 2 = M2 , . . . , µ k = Mk
{z
}
|1
k ecuaciones con k incógnitas
La solución a este sistema θ̂ = (θˆ1 , . . . , θˆk ) se conoce como el estimador
por el método de momentos.
Ejemplo 4.1 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución P oisson(θ). Como
E(X) = θ,
entonces
Pn
θ̂ =
i=1
Xi
n
.
Ejemplo 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución exp(θ). Como
1
E(X) = ,
θ
entonces
1
X̄ = .
θ
Por lo tanto,
θ̂ = 1/X̄.
Ejemplo 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución N (µ, σ 2 ). Como
E(X) = µ y V ar(X) = σ 2 ,
entonces
E(X 2 ) = µ2 + σ 2 .
Por lo tanto,
n
X̄ = µ̂ y X̄ 2 + σ̂ 2 =
1X 2
X .
n i=1 i
110
4. Estimación puntual
Es decir,
n
1X 2
σ̂ =
X − X̄ 2 .
n i=1 i
2
Pero note que
n
X
(Xi − X̄)2
n
X
=
i=1
(Xi2 − 2X̄Xi + X̄ 2 )
i=1
n
X
=
Xi2 − 2X̄
i=1
n
X
=
n
X
Xi + nX̄ 2
i=1
Xi2
2
2
− 2nX̄ + nX̄ =
i=1
Xi2 − nX̄ 2 .
i=1
n
∴
n
X
n
1X
1X 2
(Xi − X̄)2 =
X − X̄ 2 .
n i=1
n i=1 i
Entonces los estimadores por momentos para µ y σ 2 son
n
µ̂ = X̄
y
σ̂ 2 =
1X
(Xi − X̄)2 .
n i=1
Ejemplo 4.4 Suponga que se tiene la siguiente muestra de tamaño 10 :
1, 1, 1, 2, 2, 3, 5, 7, 8, 10.
Estimar los parámetros µ y σ 2 usando el método de momentos si la distribución normal se ajusta a través de los datos de la muestra.
En este caso, las estadı́sticas muestrales están dadas por
10
X
xi = 40 y
i=1
10
X
x2i = 258.
i=1
Usando el método de momentos y el ejemplo anterior:
µ
b=
40
=4
10
y
258
2 + 42 =
σc
.
10
De donde
2 = 9.8.
σc
111
4.2. Métodos de estimación
Ejemplo 4.5 Hallar los estimadores por el método de momentos de la distribución Gama y usar los datos del ejemplo anterior para dar valores numéricos
b Igualando los primeros momentos muestrales y poblacionales, se
de rb y λ.
obtiene:
40
r
= 4.
(4.1)
E (X) = =
λ
10
y
r (r + 1)
258
=
= 25.8.
E X2 =
λ2
10
Se tiene un sistema de dos ecuaciones. Para encontrar la solución, se considera el cociente:
E X2
rb + 1
25.8
= 2 = 1.6125.
2 =
rb
4
[E (X)]
y resolviendo para r :
rb = 1.6327.
Sustituyendo este valor en (4.1) y despejando λ, se obtiene:
b = 1.6327 = 0.408 2.
λ
4
El rango del estimador no necesariamente coincide con el espacio del
parámetro a estimar. Considere en el siguiente ejemplo una distribución Binomial con k y p desconocidos.
Ejemplo 4.6 Suponga que X ∼Binomial(k, p). Una posible aplicación con
esta distribución es que se busque estimar las tasas de ocurrencia de un
crimen, conociendo que existe un número importante de casos que no se denuncian o reportan, es decir, no se sabe cuál es exactamente el valor de k.
Utilizando el método de momentos, se consideran los dos primeros momentos poblacionales de la distribución binomial, ası́ como los correspondientes
momentos muestrales:
X¯n = kp
(4.2)
y
n
1X 2
X = kp(1 − p) + k 2 p2 .
n i=1 i
(4.3)
De (4.2) se obtiene
p̂ =
X¯n
,
k
(4.4)
112
4. Estimación puntual
sustituyendo este resultado en lugar de p en (4.3):
n
1X 2
X¯n
2
Xi = X¯n (1 −
) + X¯n
n i=1
k
(4.5)
y como
n
n
2
1X 2
1X
2
Xi − X¯n =
X + X¯n ,
n i=1
n i=1 i
(4.5) es equivalente a
n
X¯n
= X¯n (1 −
)
k
1X
(Xi − X¯n )2
n i=1
2
X¯n
¯
,
= Xn −
k
ası́ que despejando el valor de k, se obtiene
2
X¯n
k
n
1X
= X¯n −
(Xi − X¯n )2 ,
n i=1
1
k
2
¯
Xn
=
X¯n −
k̂
=
X¯n −
Pn
1
n
i=1 (Xi
2
X¯n
P
n
1
i=1 (Xi
n
,
− X¯n )2
.
− X¯n )2
Por lo tanto, el valor estimado de p es
p̂ =
X¯n
.
b
k
Observe que no se puede garantizar que k será un número entero positivo
y que p ∈ [0, 1]. Sin embargo, en general el método permite obtener una
propuesta para estimar rápidamente los parámetros desconocidos.
4.2.2.
Estimadores basados en verosimilitud
Para introducir este método se presenta primero el siguiente ejemplo (Mood,
Graybill y Boes, 1973), el cual considera que se tiene una urna en donde se
sabe que hay bolas negras y blancas, de las cuales se desconoce el número de
cada una de ellas, pero se tiene el dato de que la razón es de 3 a 1, aunque
también se ignora si hay más bolas blancas que negras o viceversa. Se desea
113
4.2. Métodos de estimación
estimar la proporción de bolas negras en la urna y para ello, se toma una
muestra de tamaño 3 con reemplazo de esta población, X1 , X2 , X3 . Note que
Xi tiene distribución Bernoulli(θ), i = 1, 2, 3.
Observe que:
θ es la probabilidad de obtener bola negra, es decir, θ = P(Xi = 1).
θ sólo puede tomar los valores 14 y 34 , debido a que la razón establecida
es de 3 a 1.
P3
X := i=1 Xi es el número de bolas negras en la muestra. Y por lo
tanto, X puede tomar los valores x = 0, 1, 2, 3.
X ∼ Bin(n = 3, θ).
En el cuadro 4.1 se presentan las probabilidades de obtener 0, 1, 2 y 3
bolas negras, con ambos valores del parámetro. Si en la muestra se obtienen
Valor de θ
θ = 1/4
θ = 3/4
P (X = 0)
27/64
1/64
P (X = 1)
27/64
9/64
P (X = 2)
9/64
27/64
P (X = 3)
1/64
27/64
Cuadro 4.1: Probabilidad de obtener 0, 1, 2 y 3 bolas negras cuando θ =
θ = 43 .
1
4
y
0 bolas negras, es decir
(x1 = 0, x2 = 0, x3 = 0) ,
entonces θ̂ = 1/4 porque es más probable obtener (con este valor de θ) 0
bolas negras que con θ̂ = 3/4. Ahora, si en la muestra se obtienen 2 bolas
negras entonces θ̂ = 3/4, ya que es más probable obtener 2 bolas negras con
θ̂ = 3/4 que con θ̂ = 1/4. Es decir, se escoge el valor de θ que maximiza la
probabilidad de obtener una muestra especı́fica (x1 , x2 , x3 ).
Esta es la idea subyacente en el método de máxima verosimilitud para
estimar parámetros. De manera general, es necesario definir una función que
represente la ”probabilidad” de obtener una cierta muestra de entre todas
las posibles en X (el espacio muestral o de las muestras). Dicha función,
para un valor muestral fijo, depende únicamente de los parámetros de la
distribución en cuestión y el problema es encontrar aquel valor del parámetro
o de los parámetros que maximicen esta función para una realización fija
de la muestra. En el ejemplo anterior, el parámetro sólo puede tomar dos
valores, pero en general se estará resolviendo un problema de optimización
114
4. Estimación puntual
sobre el espacio paramétrico correspondiente a la distribución con la que se
esté trabajando (una vez que se ha observado una muestra).
Para abordar este tema, se iniciará con la definición de la función de
verosimilitud.
Definición 4.2 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ). Se define la función de verosimilitud como
la función de densidad conjunta de la muestra y se denota como L(θ) o
L(θ | x). Es decir:
L(θ) = fX1 ,...,Xn (x1 , ..., xn ; θ) =
n
Y
fXi (xi ; θ).
i=1
Definición 4.3 Sea X1 , . . . , Xn una muestra aleatoria de una población con
función de densidad f (x; θ) y L(θ) la correspondiente función de verosimilitud. A θ̂ = T (X) se le llama el estimador máximo verosı́mil de θ, si satisface
que para cualquier θ ∈ Θ, se tiene que L(θ̂) ≥ L(θ).
Método general
Sea f (x; θ1 , θ2 , . . . , θk ) una función de densidad con k parámetros. Si (θˆ1 , ...θˆk )
satisface el sistema
∂L(θ1 , θ2 , ..., θk )
= 0 i = 1, 2, ..., k;
∂θi
entonces (θˆ1 , ..., θˆk ) es el estimador máximo verosı́mil de θ.
Note que
1
∂
∂
ln(L(θ1 , θ2 , . . . , θk )) =
·
L(θ1 , θ2 , . . . , θk ).
∂θi
L(θ1 , θ2 , . . . , θk ) ∂θi
Por lo tanto,
∂
∂
ln(L(θ1 , θ2 , . . . , θk )) = 0 ⇔
L(θ1 , θ2 , . . . , θk ) = 0.
∂θi
∂θi
Es decir, ln(L(θ1 , θ2 , . . . , θk )) alcanza su máximo en el mismo punto que
L(θ1 , θ2 , . . . , θk ).
En virtud de la observación anterior se define la log-verosimilitud de
f (x; θ1 , θ2 , . . . , θk ) como
l (θ1 , θ2 , . . . , θk ) = ln(L(θ1 , θ2 , . . . , θk )).
Frecuentemente, por practicidad, se calcula el máximo de l (θ) en vez del
de L(θ).
115
4.2. Métodos de estimación
Ejemplo 4.7 [Distribución Bernoulli]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Bernoulli(θ). Obtener el estimador
máximo verosı́mil de θ.
n
n
Y
Y
Pn
Pn
θxi (1 − θ)1−xi = θ i=1 xi (1 − θ)n− i=1 xi .
f (xi , θ) =
L(θ) =
i=1
i=1
Entonces,
l (θ)
Pn
Pn
ln(L(θ)) = ln θ i=1 xi (1 − θ)n− i=1 xi
!
n
n
X
X
ln(θ)
xi + ln(1 − θ) n −
xi .
=
=
i=1
Luego,
∂
l (θ) =
∂θ
i=1
Pn
i=1
xi
θ
Pn
n − i=1 xi
−
.
1−θ
Por lo tanto,
∂
l (θ) = 0 ⇔
∂θ
Pn
i=1
θb
xi
=
n−
Pn
i=1
xi
1 − θb
⇔
1
n
1
1
− 1 = Pn
−1⇔ = ,
θb
θb x̄
i=1 xi
de donde se concluye que
θb = X.
Ahora se verificará que es un máximo
Pn
Pn
n − i=1 xi
∂ 2 l(θ)
i=1 xi
−
| b= −
=−
b2
∂θ2 θ
θb2
(1 − θ)
Pn
i=1
θb2
xi
+
n−
(1
Pn
i=1 xi
b2
− θ)
!
< 0.
∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.
Ejemplo 4.8 [Distribución Exp(θ)]. Sea X1 , . . . , Xn una muestra aleatoria
de una población con distribución Exp(θ). Obtener el estimador máximo
verosı́mil de θ.
n
n
n
Y
Y
Y
Pn
L(θ) =
f (xi , θ) =
θe−θxi I(0,∞) (xi ) = θn e−θ i=1 xi
I(0,∞) (xi ).
i=1
i=1
i=1
Entonces,
l (θ)
=
ln(L(θ)) = ln θn e−θ
Pn
i=1
xi
n
Y
!
I(0,∞) (xi )
i=1
= n ln(θ) − θ
n
X
i=1
xi +
n
X
i=1
ln(I(0,∞) (xi )).
116
4. Estimación puntual
Luego,
n
∂
n X
l (θ) = −
xi .
∂θ
θ i=1
Por lo tanto,
n
Pn
n X
1
∂
l (θ) = 0 ⇔ =
xi ⇔ =
b
∂θ
θ
θb
i=1
i=1
xi
n
⇔
1
= x̄,
θb
y ası́
1
θb = .
X̄
Ahora se verificará que es un máximo
∂ 2 l(θ)
n
| b= − < 0.
∂θ2 θ
θb2
∴ El estimador máximo verosı́mil de θ es θ̂M V =
1
.
X̄
Ejemplo 4.9 [Distribución P oisson(θ)]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución P oisson(θ). Obtener el estimador
máximo verosı́mil de θ.
L(θ) =
n
Y
f (xi , θ) =
n
Y
e−θ θxi
i=1
i=1
xi !
I{0,1,2,...} (xi ) = e
−nθ
n
P
θ
xi
i=1
n
Y
I{0,1,2,...} (xi )
xi !
i=1
Entonces,
l (θ)
=
ln(L(θ)) = ln e
−nθ
θ
Pn
i=1 xi
n
Y
I{0,1,2,...} (xi )
xi !
i=1
= −nθ + ln(θ)
n
X
xi +
n
X
i=1
ln
i=1
Luego,
∂
l (θ) = −n +
∂θ
Pn
i=1
θ
I{0,1,2,...} (xi )
xi !
xi
.
Por lo tanto,
∂
l (θ) = 0 ⇔ n =
∂θ
Pn
i=1
θb
xi
Pn
⇔ θb =
i=1
n
xi
.
.
!
.
117
4.2. Métodos de estimación
De esta manera,
θb = X.
Ahora se verificará que es un máximo
∂ 2 l(θ)
| b= −
∂θ2 θ
Pn
i=1
θb2
xi
< 0.
∴ El estimador máximo verosı́mil de θ es θ̂M V = X̄.
Ejemplo 4.10 [Distribución Normal]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución N (µ, σ 2 ). Obtener los estimadores
máximo-verosı́miles de µ y σ 2 .
Primero se obtiene la función de verosimilitud:
L µ, σ 2
=
n
Y
√
1
e−
(xi −µ)2
2πσ 2
n2
1
1
e− 2σ2
2πσ 2
2σ 2
i=1
=
Pn
2
i=1 (xi −µ)
.
La log-verosimilitud está dada por
n
n
1 X
2
l µ, σ 2 = − ln 2πσ 2 − 2
(xi − µ) .
2
2σ i=1
Obteniendo las derivadas con respecto a los parámetros
∂l
∂µ
∂l
∂σ 2
=
n
1 X
(xi − µ) ,
σ 2 i=1
= −
n
n
1 X
2
+
(xi − µ) .
2σ 2
2σ 4 i=1
Igualando a cero se obtiene
n
X
xi − nb
µ=0
i=1
y
−
n
1 X
n
2
+
(xi − µ
b) = 0,
2b
σ2
2b
σ 4 i=1
de donde
µ
b=X
(4.6)
118
4. Estimación puntual
y
Pn
Xi − X
σ
b =
n
Las segundas derivadas están dadas por
2
∂2l
∂µ2
∂2l
2
∂ (σ 2 )
∂2l
∂µ∂σ 2
= −
=
=
Sea
H=
2
i=1
.
(4.7)
n
,
σ2
Pn
2
(xi − µ)
,
σ6
Pn
∂2l
i=1 (xi − µ)
=
−
.
∂σ 2 ∂µ
σ4
n
−
2σ 4
∂2l
∂µ2
∂2l
∂µ∂σ 2
i=1
∂2l
∂σ 2 ∂µ
∂2l
∂(σ 2 )2
!
la matriz de segundas derivadas. Observe que
∂2l
∂µ2
=−
(b
µ,b
σ2 )
n
σ2
σ
b2
< 0,
(4.8)
mientras que
det H|(bµ,bσ2 )
=
=
det
det
−
− bn2
P σ
−
n
i=1 (xi −x)
σ
b4
− σbn2
n
2b
σ4
−
!
!
0
2
i=1 (xi −x)
σ
b6
2
− x)
n2
+
6
2b
σ
n2
n2 σ
b2
= − 6+ 8
2b
σ
σ
b
n2
n2
n2
= − 6+ 6 =
> 0.
2b
σ
σ
b
2b
σ6
= −
i=1 (xi −x)
b4
Pnσ
2
i=1 (xi −x)
σ
b6
Pn
n
2b
σ4 −
P
n
2
n
i=1 (xi
nb
σ8
0
Pn
(4.9)
Por (4.8)
y (4.9), se ve que H es definida negativa y por lo tanto, el óptimo
µ
b, σ
b2 es un máximo, concluyéndose que (4.6) y (4.7) son los estimadores
máximo verosı́miles de µ y σ 2 .
Ejemplo 4.11 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme en el intervalo [θ− 12 , θ+ 12 ],
es decir,
f (x; θ) = I[θ− 12 ,θ+ 21 ] (x).
4.2. Métodos de estimación
119
Obtener el estimador máximo verosı́mil de θ.
La función de verosimilitud está dada por
n
Y
1
si para toda i, xi ∈ [θ − 21 , θ + 12 ]
L (θ) =
I[θ− 12 ,θ+ 12 ] (xi ) =
0 si para alguna i, xi ∈
/ [θ − 12 , θ + 21 ].
i=1
Es decir, el máximo valor de L (θ) es 1 cuando xi ∈ [θ − 12 , θ + 12 ] para toda
i, lo cual ocurre si
1
1
y1 ≥ θ −
y yn ≤ θ + ,
2
2
es decir, si
1
1
yn − ≤ θ ≤ y1 + .
2
2
Por lo tanto,
1 si θ ∈ yn − 12 , y1 + 21
L (θ) =
0
en otro caso.
Cualquier valor θb de θ en Yn − 12 , Y1 + 12 es un estimador máximo verosı́mil,
n
por ejemplo, T (X) = Y1 +Y
.
2
Ejemplo 4.12 [Distribución Uniforme]. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Uniforme en el intervalo [0, θ]. Hallar
el estimador máximo verosı́mil de θ.
La función de densidad está dada por
1
0 ≤ x ≤ θ,
θ,
f (x; θ) =
0 en otro caso.
La función de verosimilitud es
L (θ)
=
n
Y
f (xi ; θ)
i=1
=
0
=
1
θn
0
=
1
θn
1
θn
0
si xi ≤ θ, para toda i
si al menos una de las xi > θ
si máx {x1 , x2 , ..., xn } ≤ θ
en otro caso
si θ ≥ yn
si θ < yn ,
donde yn = máx {x1 , x2 , ..., xn } . Note que
dL (θ)
n
= − n+1 < 0.
dθ
θ
120
4. Estimación puntual
Ası́, la función de verosimilitud vale cero si θ < yn y θ1n si θ ≥ yn , siendo
en este caso una función decreciente, como se muestra en la figura 4.3.
L(θ)
Yn
θ
Figura 4.3: Gráfica de la función de verosimilitud para una muestra de tamaño n de la distribución Uniforme continua en el intervalo [0, θ].
Ası́, el estimador máximo verosı́mil de θ es
θb = Yn = máx {X1 , . . . , Xn } .
Propiedad de invarianza de los estimadores máximo-verosimiles
En algunas ocasiones, el objetivo no es estimar un parámetro de la distribución sino una función de éste, τ (θ). Por ejemplo, el interés podrı́a ser estimar
la desviación estándar de una distribución normal, σ, en lugar de la varianza σ 2 ; o estimar la trasformación del momio en una distribución Bernoulli,
θ/(1 − θ), en lugar de la probabilidad de éxito θ. Por lo tanto, se busca un
estimador de la función τ (θ), es decir, τd
(θ).
Una propiedad de los estimadores máximo verosı́miles es la propiedad de
invarianza. Esto significa que si buscamos un estimador máximo verosı́mil
para una función de θ, denotada por τ (θ), y si sabemos que el estimador
máximo verosı́mil de θ es θ̂, entonces el estimador máximo verosı́mil de τ (θ),
denotado por τd
(θ), es τ (θ̂).
Por lo tanto, la propiedad de invarianza de los estimadores máximo verosı́miles enuncia que
b
τd
(θ) = τ (θ),
es decir, que para encontrar el estimador máximo verosı́mil de una función
121
4.2. Métodos de estimación
del parámetro basta simplemente evaluar la función en el estimador máximo
verosı́mil.
Para esto es necesario tomar en cuenta las caracterı́sticas de la función
τ (θ), por ejemplo, si la función de τ (θ) es biyectiva, entonces la propiedad de
invarianza se cumple y existe un sólo máximo, dado que podemos invertir la
función. Esto se puede ver fácilmente considerando que si η = τ (θ), entonces
la función inversa de τ (θ) es τ −1 (η) = θ, la cual está bien definida por ser
una función biyectiva, y la función de verosimilitud de τ (θ), escrita como
una función de η, está dada por
L∗ (η) =
n
Y
f (xi ; τ −1 (η)) = L(τ −1 (η)),
i=1
y para encontrar el estimador máximo verosı́mil, basta obtener lo siguiente
sup L∗ (η) = sup L(τ −1 (η)) = sup L(θ).
η
η
θ
Por tanto, el máximo de L∗ (η) se alcanza en η = τ (θ) = τ (θ̂), mostrando ası́
que el estimador máximo verosı́mil de τ (θ) es τ (θ̂).
En algunos casos, no es posible usar la propiedad de invarianza de los
estimadores máximo verosı́miles debido a que muchas funciones de interés
no son funciones biyectivas. Por ejemplo, para estimar µ2 , donde µ es la
media de una distribución normal, la función τ (µ) = µ2 no es una función
biyectiva. Si τ (θ) no es una función biyectiva, entonces para algún valor η
puede haber más de un valor de θ que satisfaga que τ (θ) = η. En estos
casos, la correspondencia entre la maximización sobre η y la correspondiente
maximización sobre θ deben analizarse. Por ejemplo, si θ̂ es el estimador
máximo verosı́mil de θ, podrı́a existir otro valor de θ, digamos θ0 , para el
cual también se cumple que τ (θ̂) = τ (θ0 ). Ası́, en el caso de que τ (θ) no
sea una función biyectiva, no necesariamente existirá una única solución.
En estos casos será necesario usar una definición más general de la función
máximo verosı́mil de τ (θ). Una definición de verosimilitud más general para
τ (θ) es la siguiente.
Definición 4.4 La función de verosimilitud inducida por τ (θ), denotada por
L∗ , está dada por
L∗ (η) =
sup L(θ).
{θ:τ (θ)=η}
En este caso, el valor η̂ que maximiza a la función L∗ (η) es el estimador
máximo verosı́mil de η = τ (θ). Además, puede verse a partir de las igualdades anteriores que el máximo de L∗ y el máximo de L coinciden.
122
4. Estimación puntual
Teorema 4.1 Si θ̂ es el estimador máximo verosı́mil de θ, entonces para
cualquier función τ (θ), el estimador máximo verosı́mil de τ (θ) es τ (θ̂) 4 .
Demostración. Sea η̂ el valor que maximiza L∗ (η). Es necesario mostrar
que L∗ (η̂) = L∗ (τ (θ̂)). Además, como se mencionó anteriormente, el máximo
de L y el máximo de L∗ coinciden, ası́ que se tiene lo siguiente,
L∗ (η̂)
=
=
sup
sup
η
{θ:τ (θ)=η}
L(θ)
sup L(θ)
θ
= L(θ̂),
donde la primera igualdad se cumple por definición de L∗ (η) ya que L∗ (η) =
sup{θ:τ (θ)=η} L(θ), la segunda igualdad se obtiene debido a que la maximización iterada es igual a la maximización no condicional sobre θ, y la última
igualdad se cumple por definición de θ̂, ya que θ̂ es el estimador máximo
verosı́mil de L(θ). Además,
L(θ̂)
=
sup
L(θ)
{θ:τ (θ)=τ (θ̂)}
= L∗ (τ (θ̂)),
donde la primera igualdad se obtiene debido a que θ̂ es el estimador máximo
verosı́mil de θ, y la segunda igualdad se obtiene por la definición de L∗ (η).
Por lo tanto, se muestra que L∗ (η̂) = L∗ (τ (θ̂)) y que τ (θ̂) es el estimador
máximo verosı́mil de τ (θ).
Con este teorema es posible encontrar estimadores máximo verosı́miles
de funciones de parámetros que no son biyectivas, por ejemplo, se puede
ver que el estimador máximo verosı́mil de µ2 , donde µ es la media de una
distribución normal, es X̄ 2 .
Observación 4.1 La propiedad de invarianza de los estimadores máximo
verosı́miles también se cumple en el caso multivariado. La demostración
del teorema anterior es válida aun si θ es un vector de parámetros. Si el
estimador máximo verosı́mil de θ = (θ1 , . . . , θk ) es θ̂ = (θ̂1 , . . . , θ̂k ), y si
τ (θ) = τ (θ1 , . . . , θk ) es alguna función de los parámetros, entonces el estimador máximo verosı́mil de τ (θ1 , . . . , θk ) es τ (θ̂1 , . . . , θ̂k ).
4 Esta propiedad fue demostrada por Zehna (1966) en el artı́culo Invariance of Maximum Likelihood Estimators en la revista Annals of Mathematical Statistics.
123
4.2. Métodos de estimación
Ejemplo 4.13 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución N (µ, 1), con µ desconocido. Se busca el estimador máximo verosı́mil de τ (µ) = log(µ). Como µ̂ = X̄ es el estimador máximo verosı́mil de
µ, entonces por la propiedad de invarianza log(X̄) es el estimador máximo
verosı́mil de log(µ).
Ejemplo 4.14 Sea X1 , . . . , Xn una muestra aleatoria de la distribución normal N (µ, σ 2 ). Se sabe que el estimador máximo verosı́mil de µ es X̄. Para
encontrar el estimador máximo verosı́mil de τ (µ) = sen (µ)
τd
(µ) = τ (µ̂) = sen(µ̂) = sen(X̄).
Ejemplo 4.15 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Bernoulli(θ). Se desea encontrar el estimador máximo verosı́mil de τ (θ) =
θ(1 − θ). Se sabe que el estimador máximo verosı́mil de θ es θ̂M V = X̄.
Entonces
τd
(θ)
= τ (θ̂M V ) = τ (X̄) = X̄(1 − X̄).
MV
Ejemplo 4.16 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución Bernoulli(θ), con θ desconocido. Se busca el estimador máximo
θ
. Como θ̂ = X̄ es el estimador máximo
verosı́mil del momio τ (θ) = (1−θ)
verosı́mil de θ, entonces por la propiedad de invarianza
máximo verosı́mil de
X̄
(1−X̄)
es el estimador
θ
(1−θ) .
Estimación máximo verosı́mil usando métodos numéricos
En la práctica lo más común es que las derivadas de la función de logverosimilitud con respecto a los parámetros involucrados, no se puedan resolver de forma analı́tica, por lo que es necesario recurrir a métodos numéricos
como el de Newton Raphson. En R existen diferentes funciones que sirven
para abordar este tipo de problemas. Lo anterior se ilustrará con un ejemplo.
Para ahondar en este tema, se recomienda consultar Dixit (2016).
Ejemplo 4.17 Considere a la familia de distribuciones Gama, con su espacio paramétrico multidimensional Θ = {(α, λ) : α > 0, λ > 0}. Para obtener
el estimador máximo verosı́mil para el vector de parámetros θ = (α, λ) a
partir de una muestra aleatoria de tamaño n, X1 , X2 , . . . , Xn , la función de
verosimilitud es:
124
4. Estimación puntual
L(θ)
= L(α, λ) =
n
Y
f (xi ; α, λ)
i=1
n
Y
λα α−1 −λxi
x
e
Γ(α) i
i=1
α n
n
Y
Pn
λ
=
xiα−1 .
e−λ i=1 xi
Γ(α)
i=1
=
La función de log-verosimilitud es entonces:
ln L(θ)
= l(α, λ)
= n (α ln λ − ln Γ(α)) − λ
n
X
xi + (α − 1)
i=1
n
X
ln xi .
i=1
Para encontrar los estimadores que maximizan esta función, se debe encontrar el punto crı́tico, lo que implica resolver el sistema de ecuaciones:
X
n
∂
d
l(α, λ) = n ln λ −
ln Γ(α) +
ln xi = 0,
∂α
dα
i=1
∂
l(α, λ)
∂λ
n
=
n
α X
−
xi = 0.
λ i=1
De la segunda ecuación se obtiene que α̂λ̂ = x̄, o equivalentemente λ̂ = α̂x̄ ,
y sustituyendo esta relación en la primera:
X
n
d
n ln(α̂) − ln(x̄) −
ln Γ(α̂) +
ln xi = 0.
(4.10)
dα
i=1
Esta última no tiene solución exacta analı́ticamente, pero se puede resolver numéricamente. La derivada del logaritmo de la función Gama se conoce
como la función digama, y en R se obtiene con la función digamma:
ψ(α) =
d
ln Γ(α̂).
dα
Se utilizan datos simulados para mostrar esta aproximación numérica.
Se generó una
Pnmuestra de tamaño 250, con α = 0.2 y λ = 5, tal que x̄ =
0.051762 y
i=1 log xi = −1555.084. En la figura 4.4 se puede observar
que para el valor α̂ = 0.2221 la derivada (4.10) cruza el cero, y se obtiene
λ̂ = 4.2908.
125
40
0
20
derivada
60
80
4.2. Métodos de estimación
0.00
0.10
0.20
0.30
alpha
Figura 4.4: Estimación máximo verosı́mil para la familia Gama.
4.2.3.
Verosimilitud en el enfoque Bayesiano
Considere una muestra aleatoria X1 , . . . , Xn de una población con distribución Gama(µ, s), con media µ. En esta sección se denotará a la función
de densidad como fX (x|θ) y a la verosimilitud como L (θ|x1 , . . . , xn ) , la
razón de este cambio se comprenderá más adelante. Ası́, para el caso de la
distribución Gama(µ, s), su función de densidad está dada por
fX (x|µ, s) =
ss
xs−1 exp{−sx/µ},
Γ(s)µs
mientras que la correspondiente función de verosimilitud es
L(µ, s|x1 , . . . , xn )
n
Y
=
ss
xs−1 exp{−sxi /µ}
s i
Γ(s)µ
i=1
=
sns
T s−1 exp{−sT2 /µ},
Γn (s)µns 1
126
4. Estimación puntual
Qn
Pn
donde T1 = i=1 xi y T2 = i=1 xi . Observe que la verosimilitud depende
de la muestra sólo a través de estas estadı́sticas suficientes T1 y T2 . Suponga
que se desea estimar el parámetro µ. Al otro parámetro que no es el que se
está estimando, en este caso s, se le suele llamar un parámetro de ruido.
Utilizando exclusivamente la verosimilitud para proponer un estimador
para el parámetro de interés µ y teniendo en cuenta la posibilidad de un
muestreo repetido, el estimador máximo verosı́mil para µ es el valor del
parámetro µ
b ∈ Θ que maximiza la función de verosimilitud; es decir, el valor
del parámetro para el cual la muestra observada es más probable.
Por construcción, el rango del estimador coincide con el espacio paramétrico, aunque hereda las dificultades de cualquier problema de optimización, a saber:
Encontrar el máximo global y verificar que lo sea.
Que sea sensible a cambios numéricos.
Ahora, si se consideran dos valores de µ, el cociente de verosimilitudes
para el caso de la distribución Gama, estarı́a dado por:
L(µ1 , s|x1 , . . . , xn )
L(µ2 , s|x1 , . . . , xn )
=
=
sns
T1s−1
Γn (s)µns
1
sns
T1s−1
Γn (s)µns
2
ns
µ1
µ2
exp{−sT2 /µ1 }
exp{−sT2 /µ2 }
,
exp{−sT2 [1/µ1 − 1/µ2 ]},
el cual depende del valor del parámetro s. En general no es claro cómo tratar
el parámetro de ruido, pero desde el enfoque clásico de maximizar la función
de verosimilitud como se vio en la sección 4.2.2, simplemente se toma el valor
del estimador sb.
Existe otro enfoque conocido como Inferencia Bayesiana, en el cual se
condiciona completamente en los datos observados y se concluye sobre la
población en estudio basándose en:
1. La verosimilitud L(θ|x), que representa la información que hay en los
datos x= (x1 , . . . , xn ); y
2. π(µ) una distribución de probabilidad que se conoce como distribución
inicial o a priori y que describe las ideas subjetivas que se tienen
sobre el valor de µ. Estas ideas se conciben como externas a los datos
y pueden ser deducidas de experiencias previas o bien de conocimiento
experto.
127
4.2. Métodos de estimación
La inferencia se expresa a través de una distribución posterior, final o a
posteriori de los párametros que se denotará como π(θ|x) y que se obtiene
a través del teorema de Bayes:
π(θ|x) = R
L(θ|x)π(θ)
.
L(θ|x)π(θ)dθ
(4.11)
La estadı́stica Bayesiana (por Thomas Bayes (1702-1761), matemático
del siglo XVIII), representa un enfoque diferente a la inferencia estadı́stica
clásica o frecuentista. En el enfoque Bayesiano también se supone que los
datos se obtienen de una distribución perteneciente a una familia paramétrica
conocida; sin embargo, a diferencia de la estadı́stica clásica, que considera
que los parámetros son fijos pero desconocidos, aquı́ se hace el supuesto de
que son variables aleatorias.
En resumen, el enfoque denominado frecuentista no supone que hay conocimiento previo de θ. El enfoque Bayesiano, por el contrario, se basa en el
supuesto de que se tiene alguna información previa acerca de θ. Esta información se expresa por medio de una distribución sobre θ, llamada distribución
inicial o a priori. Aquı́ se supondrá que esta distribución a priori tiene una
densidad π(θ) y puede tener distintas interpretaciones según el problema que
se esté abordando, por ejemplo, que dicha distribución está sustentada en
experiencias previas similares o que expresa una creencia subjetiva.
En ambos casos, la verosimilitud provee la información que hay en las
observaciones y que permite evaluar y elegir un valor del parámetro sobre
otros, pues en el proceso de inferencia se busca obtener estimadores que concilien de la mejor manera el modelo con los datos observados. Será entonces
de interés examinar la incertidumbre que hay en este proceso para elegir un
buen estimador.
En el contexto Bayesiano se debe considerar la evaluación de la dependencia de las conclusiones con respecto a las distribuciones iniciales, las cuales
se han dado de manera subjetiva. En muchos casos, la selección de la distribución inicial también contempla la posibilidad de calcular de forma cerrada
el denominador en (4.11). Un caso particular de esta selección se da con las
familias conjugadas.
Definición 4.5 Una distribución inicial π(θ) es conjugada si para π(θ) ∈
P y L(θ|x) ∈ F, se tiene que π(θ|x) ∈ P, donde P y F son familias de
distribuciones.
A continuación se da un primer ejemplo para ilustrar algunas de las
funciones que se han mencionado en el enfoque Bayesiano.
128
4. Estimación puntual
Figura 4.5: Dulces smarties. Tomada de pixabay.com (imágenes gratuitas de
alta calidad).
Ejemplo 4.18 Los paquetes de los llamados dulces Smarties vienen con k
colores diferentes, los cuales se repiten con la misma frecuencia.
Suponga que no se conoce k y secuencialmente se examinan 3 dulces,
resultando un rojo, un verde y un rojo. La densidad para X = el segundo
dulce es de diferente color que el primero, pero el tercero es del mismo color
que el primero, está dada por:
f (x | k)
= P (el segundo es de diferente color que el primero) ×
×P (el tercero es del mismo color que el primero)
k−1
1
k−1
=
.
=
k
k
k2
A la luz de los datos x = rojo, verde, rojo, se tiene entonces que f (x|k) =
(k − 1)/k 2 . Si en lugar de 3 se examinan 4 y resulta que ese cuarto es de
color naranja (con los tres primeros rojo, verde, rojo), se tiene que
f (x | k) =
(k − 1) (k − 2)
.
k3
Ahora suponga que se tiene información a priori o se cree que el número
3
3
3
1
, 10
, 10
y 10
, respectide colores es 5,6,7 u 8, con probabilidades iniciales 10
vamente.
Para el caso de tres dulces, si k = 5, entonces
f (x|k) = (5 − 1)/52 =
4
= 0.16,
25
129
4.2. Métodos de estimación
f (x|k)π (k) = (0.16)
1
10
= 0.016
y
1
(0.16) 10
= 0.13.
π (k | x) = 8
P
f (x|k)π (k)
k=5
A continuación se resumen los valores de estas funciones para los distintos
valores de k y para ambos escenarios, es decir, cuando se tiene rojo, verde y
rojo (cuadro 4.2)
k
5
6
7
8
π(k)
.1
.3
.3
.3
f (x|k)
.160
.139
.122
.109
π(k)f (x|k)
.016
.042
.037
.033
π(k|x)
.13
.33
.29
.26
Cuadro 4.2: Cálculo de la distribución a posteriori cuando los dulces examinados son rojo, verde y rojo.
Y para cuando el cuarto dulce es naranja (cuadro 4.3).
k
5
6
7
8
π(k)
.1
.3
.3
.3
f (x|k)
.096
.093
.087
.082
π(k)f (x|k)
.010
.028
.026
.025
π(k|x)
.11
.31
.30
.28
Cuadro 4.3: Cálculo de la distribución a posteriori cuando los dulces examinados son rojo, verde, rojo y naranja.
Observe que la distribución a posteriori para k es una pequeña modificación de la a priori.
La estadı́stica Bayesiana se basa en el cálculo de distribuciones condicionales. Los siguientes ejemplos ilustran el uso de la definición de densidades
condicionales en términos de las densidades conjuntas y marginales.
Ejemplo 4.19 Una moneda cargada se lanza n veces. Suponga que xi vale
1 si se obtiene sol y 0 si no, en el i-ésimo lanzamiento. No se tiene idea de
qué tan cargada está la moneda, entonces se considera una distribución a
priori Uniforme para θ, de tal manera que la densidad a priori está dada por:
π(θ) = 1,
0 ≤ θ ≤ 1.
130
4. Estimación puntual
Sea t el número de soles. Entonces la distribución a posteriori de θ es:
π(θ|x1 , . . . , xn ) = R 1
0
θt (1 − θ)n−t × 1
φt (1 − φ)n−t × 1dφ
π(θ|x) ∝ θt (1 − θ)n−t ,
de donde se puede ver que si se inserta una constante de proporcionalidad
apropiada, entonces se tiene una densidad Beta(t + 1, n − t + 1), que serı́a
la distribución a posteriori de θ dada x.
En el ejemplo anterior se utiliza ∝ para denotar que π(θ|x) es proporcional a θt (1 − θ)n−t . En general, ∝ se lee como “es proporcional a”.
Ejemplo 4.20 Suponga que X1 , X2 , . . . , Xn es una muestra aleatoria de
una población con distribución N (µ, 1) y que π(µ) ∼ N (0, τ −2 ) para τ −2
conocida. Entonces
(
!)
n
1 X
2
2 2
π(µ|x1 , . . . , xn ) ∝ exp −
(xi − µ) + µ τ
2 i=1
(
Pn
2 )
1
2
i=1 xi
∝ exp − (n + τ ) µ −
.
2
n + τ2
Ası́,
Pn
xi
1
,
2
n+τ
n + τ2
i=1
µ|x1 , . . . , xn ∼ N
.
Ejemplo 4.21 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Exponencial(λ) y la distribución a priori para el parámetro
λ es una Exponencial(µ), donde µ es fija y conocida. Entonces:
π(λ|x1 , . . . , xn ) ∝ µe−λµ
n
Y
Pn
λe−λxi = λn e−λ(µ+
i=1
xi )
,
i=1
es decir, λ ∼ Gama(n + 1, µ +
Pn
i=1
xi ).
Ejemplo 4.22 Suponga que se examina una máquina que hace partes de
automóviles y se denota a θ como la proporción de marcas defectuosas. Un
dı́a se examinan 10 piezas denotadas por X1 , . . . , X10 , donde Xi = 1 indica
que la pieza i es defectuosa y Xi = 0 que no tiene defecto. Esto puede verse
como una muestra aleatoria con distribución Bernoulli de parámetro θ, cuya
función de densidad es fX (x; θ) = θx (1 − θ)1−x I{0,1} (x) para 0 ≤ θ ≤ 1, que
131
4.2. Métodos de estimación
indica que la probabilidad de que una parte sea defectuosa es θ. Ası́ que la
densidad conjunta de las 10 observaciones es
fX (x; θ)
=
θ
P10
i=1
xi
(1 − θ)10−
P10
i=1
10
Y
xi
I{0,1} (xi )
i=1
=
L (θ | x) .
Con el método de máxima verosimilitud el estimador de θ es θ̂ = X̄. Suponga
que el experto tiene información adicional acerca de θ y que él ha observado
que a lo largo de los dı́as la proporción de partes defectuosas cambia, es
decir, el valor de θ cambia y que este cambio puede representarse como una
variable aleatoria con función de densidad π(θ) = 6θ(1−θ)I[0,1] (θ), esto es, θ
tiene una distribución Beta con parámetros 2 y 2, denotada como Beta(2, 2).
¿Cómo se puede usar esta información adicional para estimar θ?
Como ya se ha señalado, en el método Bayesiano se considera que θ es
una cantidad cuya variación puede describirse por medio de una distribución
de probabilidad (llamada distribución a priori). La distribución a priori
es una distribución subjetiva, basada en las creencias del experto y se formula antes de obtener los datos. Se selecciona una muestra a partir de una
población sujeta al parámetro θ, entonces la distribución a priori se actualiza utilizando la información de la muestra y se obtiene la disribución a
posteriori. Esta actualización se hace usando la regla de Bayes. La distribución a posteriori es una distribución condicional, y es condicional dada
la muestra. La distribución a posteriori se usa para hacer inferencia acerca
de θ (obtener el estimador puntual, intervalos de credibilidad y pruebas de
hipótesis).
La distribución conjunta de X1 , . . . , X10 y θ es
g(x, θ)
=
×
fX (x; θ)
| {z }
distribución a priori
distribución conjunta
= θ
P10
i=1
y
xi
(1 − θ)10−
= θ (1 − θ)
=
6θ
y+1
10−y
P10
i=1
xi
× 6θ(1 − θ)
× 6θ(1 − θ)
10−y+1
(1 − θ)
π(θ)
|{z}
,
132
donde y =
4. Estimación puntual
P10
xi . Calculando la distribución marginal de la muestra, m(x),
Z
Z
fX (x; θ)π(θ)dθ = g(x, θ)dθ
m(x) =
Z
=
6θy+1 (1 − θ)10−y+1 dθ
i=1
=
=
Γ(y + 2)Γ(10 − y + 2)
Γ(10 + 2 + 2)
Γ(y + 2)Γ(12 − y)
6
.
Γ(14)
6
Ası́, la distribución a posteriori de θ dada la muestra x es
π(θ|x)
=
=
=
g(x, θ)
m(x)
6θy+1 (1 − θ)10−y+1
6 Γ(y+2)Γ(12−y)
Γ(14)
Γ(14)
θy+1 (1 − θ)11−y ,
Γ(y + 2)Γ(12 − y)
que es una distribución Beta(y + 2, 12 − y).
Un estimador para θ es la media de la distribución a posteriori (ver
Sección 4.3.3), la cual darı́a el estimador de Bayes de θ,
y+2
.
14
En el cuadro 4.4 se resumen los valores de los estimadores máximo verosı́mil
y de Bayes para distintos valores de la muestra.
θ̂ =
Muestra y
θ̂ EMV
θ̂ Bayes
0
1
2
3
4
5
6
7
8
9
10
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.14 0.21 0.29 0.36 0.43 0.5 0.57 0.64 0.71 0.79 0.86
Cuadro 4.4: Valores de los estimadores máximo verosı́mil y de Bayes para
distintos valores de la muestra.
Las gráficas de la figura 4.6 muestran el comportamiento de la distribución a posteriori ante la evidencia de los datos y el conocimiento previo del
parámetro.
En el caso de no utilizar familias conjugadas, la obtención de la constante
de normalización para las distribuciones posteriores no se puede hacer de
manera analı́tica y es necesario recurrir a métodos de simulación.
133
4.2. Métodos de estimación
5
Y=2
5
Y=0
4
3
1
0
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
θ
θ
Y=5
Y=10
0.8
1.0
0.8
1.0
5
0.2
5
0.0
3
4
Prior
Verosimilitud
Posterior
0
0
1
2
Densidad
2
3
4
Prior
Verosimilitud
Posterior
1
Densidad
Prior
Verosimilitud
Posterior
2
Densidad
3
2
0
1
Densidad
4
Prior
Verosimilitud
Posterior
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
θ
0.6
θ
Figura 4.6: Comportamiento de las funciones a priori, a posteriori y de verosimilitud para la proporción de marcas defectuosas y distintos valores de
la muestra en el ejemplo 4.22.
4.2.4.
Otros métodos de estimación
Además de los métodos de momentos y los basados en verosimilitud, existen
alternativas para encontrar el estimador de un parámetro, por ejemplo, el
método de medianas, su extensión, el método de percentiles, y el
método de mı́nimos cuadrados. Los primeros dos se revisan en esta
sección, mientras que el último se abordará en la sección 4.3.1.
El método de medianas únicamente se puede aplicar a modelos dependientes de un sólo parámetro y consiste en lo siguiente: suponga que x
e0.5
representa a la mediana de la muestra mientras que x0.5 denota a la mediana de la distribución. Recuerde que x0.5 es el valor de x para el cual
FX (x0.5 ) = 21 , donde FX (x) es la función de distribución de la variable
aleatoria continua X, o alternativamente,
Z
x0.5
Z
−∞
f (x; θ) dx =
−∞
f (x; θ) dx =
x0.5
1
.
2
134
4. Estimación puntual
El método consiste en igualar las medianas y resolver para el parámetro
desconocido, el cual está involucrado en la expresión resultante para x0.5 .
La extensión de este método para el caso de dos o más parámetros puede
hacerse a través del método de percentiles que se describe a continuación.
Método de porcentiles o percentiles
Si xp es el valor de x tal que FX (xp ) = p, entonces xp es el p-ésimo(×100)
percentil de la distribución. Para usar este método se calculan los correspondientes percentiles de la muestra y se igualan con los de la distribución (los
cuales se encuentran en términos de los parámetros desconocidos) y se resuelve para cada parámetro. Observe que si p = 21 , entonces xp es la mediana,
ası́ que el método de las medianas se puede ver como un caso particular.
Ejemplo 4.23 Suponiendo que se tiene una muestra aleatoria de tamaño n
de una población con distribución Exponencial, se desea estimar el parámetro
θ en f (x; θ) = θ exp (−θx) . Primero se resuelve FX (x0.5 ) = 21 o
x0.5
Z
θe−θx dx =
0
de donde
1 − e−θx0.5 =
o
e−θx0.5 =
1
,
2
1
2
1
,
2
resultando:
x0.5 = −
ln 12
.
θ
(4.12)
Igualando (4.12) con x
e0.5 , es decir con la mediana muestral, se obtiene que
1
ln
θb = − 2 .
x
e0.5
Ejemplo 4.24 Usando el método de percentiles, estimar los parámetros en
una distribución Weibull con función de densidad
f (x; θ) = γλxγ−1 exp {−λxγ } .
Dados los percentiles muestrales x
e0.5 = 10000 y x
e0.9 = 100000, ¿cuál es el
estimador para el parámetro γ?
135
4.2. Métodos de estimación
La función de distribución correspondiente es
Z x
γλuγ−1 exp {−λuγ } du
FX (x) =
0
Z ∞
= 1−
γλuγ−1 exp {−λuγ } du
x
y
Z
∞
γ−1
γλu
−γλuγ−1 −λuγ
e
−γλuγ−1
γ
exp {−λu } du =
x
∞
x
γ
= e−λx .
Por lo tanto:
FX (x) = 1 − exp {−λxγ } ,
la cual tiene dos parámetros. Si xp es el valor de x tal que FX (xp ) = p,
entonces xp es el 100p-ésimo percentil de la distribución, que para este caso
darı́a las ecuaciones:
FX (x0.5 ) = 1 − exp {−λxγ0.5 } = 0.50
y
FX (x0.9 ) = 1 − exp {−λxγ0.9 } = 0.90,
de donde:
exp {−λxγ0.5 } = 0.50
y
exp {−λxγ0.9 } = 0.10,
que es equivalente a
λxγ0.5 = − ln (0.50) = 0.69315
y
λxγ0.9 = − ln (0.10) = 2.30259.
Es decir:
x0.5 =
0.69315
λ
γ1
y
x0.9 =
2.30259
λ
γ1
.
136
4. Estimación puntual
Igualando con los respectivos percentiles muestrales, se obtiene:
0.69315
λ
γ1
= 10000
(4.13)
= 100000.
(4.14)
y
2.30259
λ
γ1
Dividiendo (4.14) entre (4.13):
2.30259
0.69315
γ1
= 10
o sea,
10γ =
2.30259
= 3.32192.
0.69315
De donde se obtiene que
γ
b=
ln 3.32192
= 0.521.
ln 10
Usando (4.13), se puede obtener el estimador de λ :
0.69315
0.521
= (10000)
= 121.34.
λ
Ası́,
b = 0.69315 = 457 .
λ
121.34
80 000
Si los percentiles muestrales no están dados explı́citamente, se puede usar
el siguiente método para calcularlos: para una muestra de tamaño n, sean
x1 , x2 , ..., xn los valores muestrales en orden ascendente. Sea k = (n + 1) p,
donde p es el orden del percentil que se busca. Sea l la parte entera de k
(l = 1, 2, ..., n − 1) y sea m la parte fraccional de k, 0 ≤ m < 1. Se define
x
ep = (1 − m) xl + mxl+1
(4.15)
como el p-ésimo percentil (×100) de la muestra. Observe que xl y xl+1 representan los elementos l-ésimo y (l + 1)-ésimo de la muestra, respectivamente.
Ejemplo 4.25 En una muestra de ratas de laboratorio se obtienen los tiempos de muerte dados a continuación: x = 3, 4, 5.7, 7, 8, 10, 10 y 12, donde
el tiempo se mide en dı́as. Usando el método de percentiles, estimar los
4.2. Métodos de estimación
137
parámetros B y c del modelo de supervivencia Gompertz, cuya función de
distribución está dada por:
B
(1 − cx ) ,
FX (x) = 1 − exp
ln c
con los percentiles 0.25 y 0.65.
Los percentiles 0.25 y 0.65 son tales que
B
1 − exp
(1 − cx0.25 ) = 0.25
ln c
y
1 − exp
⇔
B
(1 − cx0.65 ) = 0.65
ln c
B
(1 − cx0.25 ) = ln 0.75
ln c
B
(1 − cx0.65 ) = ln 0.35
ln c
⇔
ln c
B
ln c
.
= 1 − ln 0.35
B
cx0.25 = 1 − ln 0.75
cx0.65
Ası́,
ln 1 − ln 0.75 lnBc
x0.25 =
(4.16)
ln c
y
ln 1 − ln 0.35 lnBc
.
(4.17)
x0.65 =
ln c
Usando (4.15), se tiene que para el percentil 0.25, k = (9+1)(0.25) = 2.5,
de donde se obtiene x
e0.25 = (0.5) (x2 ) + (0.5)(x3 ) = (0.5) (4) + (0.5)(5) = 4.5.
Para el cuantil 0.65, k = (9 + 1)(0.65) = 6. 5, por lo tanto x
e0.65 = (0.5)x6 +
(0.5)x7 = (0.5)8 + (0.5)10 = 9.
Igualando los percentiles obtenidos en (4.16) y (4.17) con los percentiles
muestrales, resultan las siguientes ecuaciones:
ln 1 − ln 0.75 lnBc
= 4.5
(4.18)
ln c
y
ln 1 − ln 0.35 lnBc
= 9.
ln c
138
4. Estimación puntual
Dividiendo la segunda entre la primera, resulta
ln 1 − ln 0.35 lnBc
=2
ln 1 − ln 0.75 lnBc
⇒
1 − ln 0.35
⇒
2
ln c
ln c
= 1 − ln 0.75
B
B
2
ln c
ln c
= 1 − 1 − ln 0.75
ln 0.35
B
B
2
ln 0.35z = 1 − 1 − 2z ln 0.75 + (ln 0.75) z 2 ,
⇒
donde z =
ln c
B .
Simplificando la última expresión se obtiene:
2
(ln 0.75) z 2 − z [2 ln 0.75 − ln 0.35] = 0,
o
0.83z 2 − (0.4744) z = 0,
de donde
z=
0.4744
= 5.7163.
0.083
Es decir, lnBc = 5.7163, lo que a su vez implica que ln c = 5.7163B. Sustituyendo este último valor en (4.18), se tiene:
ln 1 − ln 0.75 5.7163B
B
= 4.5
5.7163B
b = 0.03780. Finalmente, b
y despejando B, se llega al resultado B
c = 1.2412.
Existen diferentes propuestas para obtener estimadores, entonces es necesario establecer criterios para evaluarlos y compararlos. En las siguiente
secciones se abordará este tema.
4.3.
Evaluación de estimadores
Dado que hay varios métodos para encontrar estimadores, una pregunta
natural es, si se pueden tener estimadores distintos para una parámetro,
¿cuál es mejor o cuál se debe elegir? Es necesario contar con criterios para
responder a esta pregunta y poder decidir cuál estimador es mejor en algún
sentido.
4.3. Evaluación de estimadores
4.3.1.
139
Error cuadrático medio y estimadores insesgados
El primer criterio que se analizará es el del error cuadrático medio, concepto
que se introduce a continuación.
Definición 4.6 Sea T (X1 , . . . , Xn ) un estimador de τ (θ). Se define el error
cuadrático medio (ECM) de T como
ECMT (θ) = E[(T (X) − τ (θ))2 ].
Es decir, el error cuadrático medio mide el error cometido al estimar τ (θ)
con T (X). Esta medida es un error promedio al considerar los valores que
puede tomar la variable aleatoria T (X) y se calcula como la esperanza de los
errores al cuadrado, tomando los errores como la diferencia entre los valores
de la variable aleatoria y el valor del parámetro.
La idea es que si se tienen dos estimadores T1 (X) y T2 (X) para τ (θ) y
ECMT1 (θ) < ECMT2 (θ), entonces se elige a T1 como estimador para τ (θ).
Si se desarrolla la expresión E[(T (X) − τ (θ))2 ], se obtiene que
ECMT (θ)
= E[T 2 − 2τ (θ)T + (τ (θ))2 ]
= E(T 2 ) − 2τ (θ)E(T ) + τ 2 (θ)
= E(T 2 ) − E2 (T ) + E2 (T ) − 2τ (θ)E(T ) + τ 2 (θ)
= V ar(T ) + [E(T ) − τ (θ)]2
{z
}
|
sesgo de T
A E(T ) − τ (θ) se le conoce como sesgo de T . Es importante hacer notar
que si el sesgo de T es cero, entonces ECMT (θ) = V ar(T ).
Definición 4.7 Un estimador T (X) de τ (θ) es insesgado si E [T (X)] = τ (θ)
(es decir, en promedio, el estimador es igual al parámetro).
Nota: si T es insesgado, entonces ECMT (θ) = V ar(T ).
Observación 4.2
1. En el caso continuo, el error cuadrático medio E[(T −
τ (θ))2 ] puede calcularse como
Z
Z
... (t(x1 , x2 , . . . , xn ) − τ (θ))2 fX1 (x1 ; θ) . . . fXn (xn ; θ)dx1 . . . dxn .
2. El ECM puede pensarse también como una medida de la dispersión de
T alrededor de τ (θ).
140
4. Estimación puntual
3. ECMT1 (θ) y ECMT2 (θ) pueden cruzarse, es decir, en general no se
cumple que para todo θ ∈ Θ, ECMT1 (θ) < ECMT2 (θ) (ó ECMT1 (θ) >
ECMT2 (θ) ).
Ejemplo 4.26 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
N (µ, σ 2 ). Considere
T1 (X) = X̄
un estimador para µ. Sean
n
T2 (X) = S 2 =
1 X
(Xi − X̄)2
n − 1 i=1
y
n
2
T3 (X) = σ̂M
V =
1X
n−1 2
(Xi − X̄)2 =
S ,
n i=1
n
estimadores para σ 2 .
Para revisar si son insesgados:
Note que
E(T1 (X)) = E(X̄) = µ.
Por lo tanto, T1 sı́ es insesgado.
También note que
E [T2 (X)] = E(S 2 ) = σ 2 .
Por lo tanto, T2 sı́ es insesgado.
Sin embargo,
n−1 2
n − 1 2 n − 1 2
E(T3 (x)) = E
S =
E S =
σ .
n
n
n
Por lo tanto, T3 no es insesgado.
Para encontrar el error cuadrático medio de T1 , T2 y T3 :
Como T1 es insesgado, entonces
ECMT1 (µ, σ 2 ) = V ar(X̄) =
σ2
.
n
Como T2 es insesgado, entonces
ECMT2 (µ, σ 2 ) = V ar(S 2 ) =
2σ 4
.
n−1
141
4.3. Evaluación de estimadores
Sin embargo, como T3 no es insesgado, entonces
ECMT3 (µ, σ 2 ) = V ar(T3 ) + (sesgo2 ).
Pero
V ar(T3 ) = V ar
n−1 2
S
n
=
(n − 1)2 2σ 4
2(n − 1) 4
=
σ .
2
n
n−1
n2
Y
(sesgo)
2
=
2 2
(E(T3 ) − σ ) =
=
n−1−n
n
2
n−1 2
σ − σ2
n
σ4 =
2
σ4
.
n2
Por lo tanto,
ECMT3 (µ, σ 2 ) =
2n − 1 4
2(n − 1) 4 σ 4
σ + 2 =
σ .
2
n
n
n2
Pero note que
2
n
<
⇒
2
2
1
2
2n − 1
2
⇒ − 2 <
⇒
<
n−1
n n
n−1
n2
n−1
(2n − 1)σ 4
2σ 4
<
⇒ ECMT3 < ECMT2 .
2
n
n−1
Con esto se puede observar que aunque T2 es insesgado, T3 tiene un
menor ECM, lo cual exhibe que no siempre un estimador insesgado
tiene el menor ECM.
Ilustración mediante simulación
Se simula un conjunto de M = 1000 muestras de tamaño n = 3 cada una.
Los estimadores T1 (X), T2 (X) y T3 (X) del ejemplo 4.26, se grafican en las
figuras 4.7 y 4.8.
142
4. Estimación puntual
2
T1 insesgado
●
●
●
●
1
●●
●●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
●
● ●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
● ●
●
● ● ● ● ●
●
●
● ●
● ●
●
●
●●
●●
●
●
●
●●
● ● ●
●
●
● ●● ● ●
●
●
●
●
● ●
●
●
● ● ●
● ●● ●●
●
● ●
●●
●
● ● ●
●
● ●
●
●
●●
●
●●
●
● ●● ●
● ●●
●●●
●
●●
●
● ●
●●
● ● ●●
●
●
●●
●
●
●
●
●
●● ● ●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
● ●
● ●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
● ● ● ●● ●●
● ●
●●
●
●
●
●
● ●
●
●● ●
● ●
● ●
●●●
●
●
●
● ●
●
●
●
●
●●●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ● ●
●
●●
● ●●
●
● ●
●
●
●
●
● ●
● ●● ● ●●
● ● ●●
● ●
● ●●●●
● ●● ●● ●●
● ● ● ●● ● ●
●
● ●● ●
●●
●
●● ●●
●
●
●●
●
●
● ●
● ● ●● ●
●● ●
●
●
●●●●
●
●
●
●
●● ●
●●
●●
●
●●● ●● ●
●●
●
●●
●● ● ●●
●
●● ●
● ●
●
●
● ●● ●● ● ●●
●
● ● ● ● ● ● ● ●●
● ●
●●
● ●●
●
●
●
● ●
●
●
●
●
●
●●
● ● ●
●
● ●● ●
●●
●● ●
●
●
●
●●
● ●● ●● ●
●● ●●
●
●
● ● ● ● ● ●
● ●●
●
●
●
● ●●
●●
●
●●
●
●●
●● ●
● ●● ●
●●
● ●
●
●
●
●
● ● ● ●
●
●
● ●●
●
●
●
●●
●
●
● ●● ●
● ●
●
●● ●
●
●●● ● ●
●●
●
●
●
● ● ● ● ●
●●
●
●
●● ● ●
●● ●●
● ●●
●● ●
●
●
●
●
● ●
● ●
●
● ●
●●
●
●
● ● ● ●●
●
●●
●
● ●
●
●
● ●
●●
●
● ● ●● ●
●
●
● ●
● ●●
● ● ●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
● ●
●
●
●●
●● ● ● ●
●
● ● ●
●
●
● ●●
●
●
●● ●
●
●●
● ●●
●
●
●
● ●
● ●●
●● ● ● ●
● ●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
● ● ● ●●
●● ●
● ●
●
●
●● ●
●
●● ●
●
●
●
●●
●
●● ●
●
●
● ●
●
●
●
●● ●
●
●
●●
●
●
●
●
●● ●
●● ●
●
●
●●
●
●
●●
● ●
●
●
● ●
●
●
● ●
● ●●
●●●
● ●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●
●
●●
●
●
●●
●
●●
●● ●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
●
● ●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●●●
● ●
●●
●●
●
●
µ
−1
0
●
●
●
●
●
●
● ●
●
●
Estimación
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
200
400
600
800
1000
Muestras
Figura 4.7: El estimador T1 = X es insesgado para µ en el ejemplo 4.26.
8
T3 sesgado
8
T2 insesgado
●
6
6
●
●
●
●
●
●●
●
●
●
●
●
●
●
2
●
●
●
● ●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
● ●
●
● ●●●
●●
●
●
● ●
●●
●●
●
●
●● ●
●
●
● ●● ● ●
●
● ● ● ●●
●
●● ●
● ●
●● ●
●● ●● ●
●
●
●●
● ●
●●
●
●●
●
● ●
● ●●
●●●●
●●
● ●● ● ●
●
● ●●●
●●
●
●
●
●
●
●
●
●
●● ●
● ● ●● ●
● ● ● ● ●
● ●
●●●
●
● ●
●● ●
●
● ● ● ● ●●
●
●● ●
●
●
●●
●● ●
●●
●
●
●
●
●● ●● ●● ●
●●
● ● ●●
●●
●● ● ● ● ●
●● ●
● ● ●
● ●
●●
●● ●
● ●●
● ● ●
●●●
● ● ● ●● ● ● ● ●
●
● ●
●
●●
● ● ●●
●● ●● ●
● ● ●●
● ●
●
●● ●● ● ●●
●
●
●
●
●
●
●
●● ●
● ● ●●
●● ●
●● ●
●
●●
●●● ●● ●
●● ●
● ● ●
● ● ●●●● ●● ●
●●
●●
●
●
●● ● ●● ●●
●
●●
● ●
● ●
●●
●●
●●● ● ●●● ●● ●
● ●
●●
● ●
● ●●
● ●●●
● ●● ● ●
● ●
●●
●
● ●● ●●
●
● ●
● ● ●●●
●●
● ●● ●●● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●● ● ● ● ●
● ● ●●●
●
●
●
● ●● ●
●● ●
● ●●● ●●
●● ●
●
● ●●
●●●●●●●● ●
●●
●
●
●
● ●
●
● ●●
● ● ●●● ●
●●
●
● ●●
●●
●
●
●
●● ●●
●●
● ● ●●●●
● ●
● ●●●●●
●●● ●
●●
●
●
●●
●
●
● ●● ● ● ● ●
●
● ● ● ●●
● ●
●●
●● ●
●● ● ● ●
● ●●●
●
●
●
●
●
●●
●● ●
●●
● ●● ●●
●●●● ●
●● ● ●
●●
● ●●
●●●
● ●●
●●
●●
●
●
●●
●●
●● ●
●●●
● ● ●●●
●●
● ● ●●●●
●●
●● ● ●
●
●
●●●
●
●●●●●
●●●●
●●
●
●●●
●●
● ●●●
●
● ●●●
●
● ●● ●●
●
● ●● ●
●●● ●●
●
●●● ●●●
●●●●●●●
●●●
●●
● ● ●●
●●
●●
●
●
● ●● ●
● ●●
●
●●
●●
●●
●
●● ●●●
●
●
●● ●●
●●●●
●●
●
●
● ●●●●● ●
●●
●●
●●
●● ●●●
● ●●
●●●
●
●●● ●
●
●● ●
●
●●
●●
●●●●●
● ●
●● ●
●●
●●
●● ●●●
●
●●●
● ●
●● ●●
●●●
●
●
● ●
●●●
●
●●
●
●
●
●●●●
●
●●
●●
●●●
●
●●
●
●
●●
● ●●
●●
●●
●
●● ●
●●
●
●
●
●●
●●●
●●
●●●
●
●●●
●●
●
●
●
●●
●●
●
●
●● ●
●● ●●●●
●
●●
●
● ●●● ●
●●● ●●
● ●●
●
●
●
● ● ●
●●
● ●
●●
●
● ●● ●●
● ●●
●●● ● ● ● ●
●● ● ●
● ● ● ● ●●
●●●
●
●●
● ●●
●●
●
●
4
●
Estimación
●
●
●
●
●
200 400 600 800
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●
● ●●●
●●
● ● ●●
●●
●● ●
●
●
●
● ●● ● ●
●
●
●
● ● ● ●●
● ●
●●
●
●● ●●
●
●
● ●● ● ●● ●
● ● ● ●●
●
●●
● ●
●●●●
●●●● ●
●●
● ●● ● ●
●●●
●●
● ● ● ●●● ● ●
●
●
●●
● ● ●● ●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
● ●
●
●
● ●
●● ● ●
●
●●
●●● ●
●
● ●
●●●●● ●
●
●● ●● ● ●●
●●● ● ●
●
●
●●
● ●● ●
●●● ●● ●
● ●
●●
● ●●● ●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ● ●●
●● ●●● ●● ●
● ●
●● ●● ●●
●
●
● ●
● ● ●● ●● ●● ● ● ● ●
●
●
●
●●
● ●
●●● ●●●● ● ●● ●
●● ●●
● ●
●●
● ●●●● ●
●●
●
● ●
●●
●●● ●
●●
●●
●
●
●
●
●●● ● ●● ●● ●
●● ●
●●
●
●
● ●
●●●
●
● ●
●●
● ●
● ●
●●
● ●● ●
●
●
● ●
● ●●
●
● ●●
●
●●●●
●
● ● ●●
●
●
●
●
● ●
●
● ●
● ● ●●●
●
●●
● ●●
●●● ● ● ●●
● ●
● ●
● ●
● ● ●●
●
●
● ●
●●
●●
●●
● ●●●●●
●●
●
● ●●
● ●● ●●●
●
●●
●
●
●
●●● ● ● ●●
●●●
●●
● ●●
●● ●
●
●●● ●●
●
●
●
●
●●
●
●
● ●●●●●●
●
●●
●
●
●●
●
● ●● ●
●
●
●● ●● ● ●
●
●
●
●
● ●
●● ●
●
●
● ●
●
●
●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ● ●
●●
●●
●●●●●
●●
●
●
●●● ●
● ●●
● ●●
●
●●●
●●
●
● ● ●●● ●
●●
●
●●
●●●
●
●●
●●●
●● ●● ●●
●●
●
●
●●●
●
●●●
●●
●●
●● ●
● ●●● ●●●
●●
●●
●
●●●
●
●●
●
●●●
●●●
●●
●●●●●
●
●●
●
●●
●●
●●● ●
●
●
●●
●●
● ●
●●●
●
●●●●●
●●
●
●●
●
●●
●
●
●●● ●●●●
●
●
●
●●●
●●
●
●
●
●●
●
● ●
●●●●
●
●●
●
●●
●
●●●
●
●
●●
●●
●
● ●●●
●
●●●
●
●●
●
●
●●
●
●
●●●●●
●●●
●● ●●●
●
●●
● ●
●●
●●
●
●●●
●●●
●●
●
●
●●●●
●
●
●
●●●
●
●●●●●●
●
●●
●●
●
●
●●
●
●●
●●●
●●
●
●
●
● ●●●
●●
●
●●●
●
●
●●
●●
●
●●
●
●
●●●
●●
●●● ●●
●
●●
●
●●
●
●
●●●●
●
●
●
●
●●● ●●
●●
● ●
●●● ●●
●●
●
●●
● ●●
●
●●
●●
● ●●
● ●●
●●
●●
●
●●
●● ●●
σ
0
0
Muestras
●
●
●
σ
0
●
●
2
●
●
4
Estimación
●
●
●
●
0
200 400 600 800
Muestras
Figura 4.8: El estimador T2 = S 2 es insesgado para σ 2 . T3 no es insesgado
para σ 2 , pero tiene un error cuadrático medio menor que T2 (ejemplo 4.26).
143
4.3. Evaluación de estimadores
Método de mı́nimos cuadrados para estimación de parámetros
Existe otro procedimiento de estimación conocido como el método de mı́nimos cuadrados, el cual se usa en distintas aplicaciones para encontrar los
estimadores de los parámetros relacionados con modelos de diversa ı́ndole.
Se ilustrará con un ejemplo en el marco del criterio del error cuadrático
medio.
Ejemplo 4.27 Considere un conjunto de n puntos en el plano
(x1 , y1 ), . . . , (xn , yn )
y el siguiente experimento: se escoge X con P {X = xi } = 1/n, para i =
1, . . . , n; si X = xi se asigna Y = yi . Suponga que Y tiene la forma aX + b
y se desea encontrar un estimador para Y , de tal manera que se minimice el
error cuadrático medio, el cual es:
n
E[(Y − (aX + b))2 ] =
Para la función S(a, b) =
la expresión satisfacen:
1X
[yi − (axi + b)]2 .
n i=1
Pn
2
i=1 [yi − (axi + b)] ,
los valores que minimizan
n
n
n
X
X
X
∂S(a, b)
= −2
yi xi + 2
ax2i + 2b
xi = 0,
∂a
i=1
i=1
i=1
n
n
X
X
∂S(a, b)
= −2
yi + 2
axi + 2nb = 0,
∂b
i=1
i=1
de donde, las soluciones que minimizan el ECM están dadas por
n
n
X
1X
bb = 1
yi − b
a
xi
n i=1
n i=1
y
b
a
n
X
n
n
1X X
x2i −
xi
xi
n i=1 i=1
i=1
!
=
n
X
i=1
yi xi −
n
n
1X X
yi
xi .
n i=1 i=1
A estos estimadores se les conoce como el estimador de mı́nimos cuadrados para a y b. A Yb = b
aX + bb se le llama el estimador de mı́nimos cuadrados
de Y .
144
4.3.2.
4. Estimación puntual
Consistencia
La consistencia es otra propiedad deseable en un estimador y tiene que ver
con tamaños de muestra grandes, es decir, es una propiedad asintótica. Esencialmente, un estimador es consistente, si para n (el tamaño de muestra)
grande, el error cometido al estimar τ (θ) con Tn (X) , es pequeño (tiende a
cero).
Definición 4.8 (consistencia en ECM). Sea T1 , T2 , ..., Tn una sucesión
de estimadores de τ (θ), donde Tn está basado en una muestra de tamaño
n. Esta sucesión de estimadores de τ (θ) es consistente en error cuadrático
medio (ECM) si:
lı́m E[(Tn (X) − τ (θ))2 ] = 0.
(4.19)
n→∞
Note que (4.19) es una convergencia en media cuadrática, de la sucesión
{Tn } a τ (θ).
Ejemplo 4.28 Sea X1 , . . . , Xn una muestra aleatoria
de la distribución
Pn
N (µ,P
σ 2 ). Considere los estimadores X¯n = n1 i=1 Xi para µ y Sn2 =
n
1
2
2
i=1 (Xi − X̄) para σ . Note que
n−1
E[(X¯n − µ)2 ] = V ar(X¯n ) =
σ 2 n→∞
−→ 0.
n
Por lo tanto X¯n es consistente para µ. También note que
E[(Sn2 − σ 2 )2 ] = V ar(Sn2 ) =
2σ 4 n→∞
−→ 0.
n−1
Por lo tanto Sn2 es consistente para σ 2 .
El error cuadrático medio, ECM, es el criterio para medir la bondad de
un estimador. Una propiedad desable de un estimador es que proporcione,
para muestras grandes, un error (ECM) pequeño en la estimación, es decir,
que sea consistente.
Ilustración del concepto de consistencia mediante simulación
Se simula un conjunto de n = 1000 muestras de tamaño i, para i = 2, . . . , n.
Los estimadores X n y Sn2 son consistentes, y se pueden observar las gráficas
correspondientes en las figuras 4.9 y 4.10.
Definición 4.9 Se dice que una sucesión de estimadores {Tn }n∈N es consistente simple si y sólo si
∀ > 0
lı́m P(|Tn − τ (θ)| < ) = 1.
n→∞
(4.20)
145
4.3. Evaluación de estimadores
La consistencia en ECM implica la consistencia simple. Esto se puede
analizar desde dos perspectivas: la primera, notando que (4.20) es una convergencia en probabilidad y usando el hecho de que la convergencia en r-ésima media implica la convergencia en probabilidad; la segunda, utilizando la
desigualdad de Chebyshev:
2
P(|Tn − τ (θ)| ≥ ) = P([Tn − τ (θ)] ≥ 2 ) ≤
E[(Tn − τ (θ))2 ]
2
y la definición de consistencia en ECM.
0.6
Xbar consistente
●
0.2
µ
●
●
●
●
●●
●
●
●
●●
●
● ● ●
●
●●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●●
●
●
●
●
●
●●
● ●
●
●
●●
●
● ●● ● ●●●
●●
● ●
●● ● ●●
●
●
●
● ●●●● ● ●●
●
●●
●
● ●
●
● ● ●
●
●●●
●
●
● ● ●
● ●
●
● ● ●● ● ● ● ●
●● ●
● ●●
●
●
● ● ● ●●
●●●
●●
●
●●● ● ● ●
●
●
●●
●
● ● ●●●
●●
●●
●
●
●●
●
●● ● ●
●
●
●●
●●
● ●●
● ● ●
●
●
●●
●
● ●●
●
● ●● ●●●●
●●
●
●●●● ●
● ● ●● ● ●● ● ●●
●
● ●●
● ●●●
● ●
● ●●
●
● ● ● ●●●
● ●
●
●● ●
●
●●●
●●● ●●
●●
●
●●● ●
●
●
●
●
●
● ●●●
● ●
● ●●
●●●●●
●
●
●
●
●●●●●
●
●
●
●
●
●
●
●
●
● ● ●
●
●●●●
●● ●●●● ●● ●● ● ●
●
●
●●
●● ●●
●●●
●
● ●●●● ●
● ● ●●●
●●●●
●●
●●
●
●
●●
● ● ● ● ●● ●●
●
●●
●
● ●●
● ● ● ●●●●●●●
●
●
●●
●●●
●●●
●●
●●
● ●● ● ●●
●●●●● ●
●
●● ●● ● ● ●●
●
●●●● ● ●●
● ●● ●● ●
● ●
●●●● ● ●●● ● ● ● ●
●●
● ● ● ● ●●
●
●●● ●● ●●● ●
●
●● ●
●
●● ●
●●●
●●
●●
●
●
●●●
● ●●●
●
●
●
●●● ● ● ●●● ●
●
●
●
●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●● ●
●
●● ●
●
● ●●●●
●
●●●●● ●●●● ●
●
●●
●
● ●
●●●
● ●
●
●●
●
●
●●
● ● ●●● ●●● ●●● ●
● ● ●●
●
●
● ●● ●
●●●●●●●●● ●
●
●
● ●● ● ●●●
●
●● ●
●
●
●● ●
● ●●●● ● ● ●
● ● ●●●●●
●●
● ●● ●
●●
●
●● ●●●●
●
●
● ●●●●
●●●
● ●
● ●●●● ● ● ●● ●● ●
●● ●
● ●● ●●●●●
● ●● ● ●● ●
● ● ●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●● ● ● ● ● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●●●
●
●
●
● ●● ●
●● ●●● ●
●
●●
●
●
● ●● ● ●● ●●
●
●●● ● ●●●
●
●
●●●●● ●
●
● ● ●
●
●
● ●
● ●● ● ●
●● ●
● ●
●●●● ●●
●●
●●
●● ●●
●●● ●● ●
●● ●● ●
●
●
● ●
●●● ●
●
●
●
● ●●
●
● ●● ●
●● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●●
●
●
●
●
● ●
●
●
●
● ●
● ●● ● ●
●
●
●● ●
●● ●
● ●
●●
●●
● ● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●● ●
●
●● ●
●
●
● ●
●
●
●● ●
●●
● ●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
● ●
●
●
● ● ●
0.0
●
−0.2
Estimación
0.4
●
●
●
●
●
●● ●
−0.4
● ●
●
● ●
●
0
200
400
600
800
1000
Tamaño de muestra
Figura 4.9: Ilustración de la consistencia de X en el contexto del ejemplo
4.28.
146
4. Estimación puntual
2.0
S2 consistente
●
●●
● ●
●
●
● ●
●
σ
●
1.0
Estimación
1.5
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
● ●
●● ● ●
●
● ●
●
●●
● ●
●●● ●
●
●●
●●
●●
●
●
●
●
● ●
●
●●
●●● ●
●
●
●
●●
●
●
●
●
● ●● ●● ●
● ●
●
●●
●
●
●
●
●
●● ●
●
●
●
● ●●●●●
● ●●●
●
●
●
●
●
● ●● ●●●
●
● ● ●●● ●
●
●
●● ●
● ●
● ●
●
● ● ●●
●
● ●
● ●
●●
●
● ●
●●
● ●●
● ●● ●
● ●●● ●● ●● ●●● ●
● ●
●
● ●
● ●●
● ●●
●
●
● ● ●● ●
● ●
● ●●
●● ● ● ●
●● ● ● ●● ●
●●●●
●●● ●●●● ●●●●
●
● ●● ●
●
● ●● ●
●●
●●●● ● ●
●
●
●
● ●
● ●●
●●
● ●
●● ● ● ● ●●● ●
●
● ●
●
● ●
●● ●● ●
●
●
●●● ● ● ● ●
● ● ● ● ●● ●●●
● ● ● ● ●●●●● ●●● ● ●●
● ● ● ●●
●
●● ●
●
● ● ●●
● ●●
●
●●
●● ●●
●●●● ● ●
●
●●
●●
●
● ●●
● ● ●
●●●● ●● ●●● ●●● ●
●
●●●
● ●●
●
●
●● ●
●●
● ●● ●
●●
●●
●●
●
●●
●●●●
●●
●
●●● ●
●
●
●●●●●
●● ●●
●
●●
● ●●●●●● ●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●● ● ●●
●
●
●●
●●
●● ● ● ● ● ●
●●● ● ●●
●
●●● ●● ●
●
●
● ●● ●●
●● ●
●
●●●●
●
●●
●● ●
●
● ● ●●
●● ● ● ● ● ●● ●
●
●●
●
●
●●
●
●●●●●
●
●
●●
●●
●
● ●●●
●
●
● ● ●
●
●
●● ●
●● ●● ● ● ● ● ● ●● ● ●●●●
●
● ●
● ●
●
●
●●
●●
● ● ●●
● ● ●●●
● ●●●● ● ●● ●
●
● ● ● ●●
● ●●
● ●●●●●
●●
●
●●
● ●● ●● ● ● ●
●●
● ●●●
●● ● ●●
●●
● ●●
●
●
●
●●●●
●
●
●
●
●
●
● ●●● ● ●
●
●
●●●●
● ●●●
●
● ●
● ●●●
●
● ● ● ●●● ●●●
●
● ●
●
● ●●
●● ● ●●●
●● ●● ●
●●
●
● ●
● ●● ● ●● ●●
●
●● ● ●
●
●●
●●●
●
●
●
● ●● ●
●
●● ● ●●
●●●
●●●● ●
●● ●●● ●
● ●●● ●●● ●
● ● ●
●
●● ● ●●
●●
●●
●
●
●● ●
●●
●● ●
● ● ●● ● ●●
●
●
●
●
●
●●
● ●●●
●● ●
● ●
●
● ●
● ●
●● ●
●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●● ●
●●
●●
●
●
●
●●
●
● ●
●
●
●
●● ●
●
●
●
●
● ●● ● ●●
●
●
●● ● ●
●
● ● ●
●● ● ●● ● ●
●● ● ●
●●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●● ● ● ● ● ● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
● ● ●●●● ●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
0.5
●
●●
●
●
●
●
●●
● ●
●
●
● ●
●
●
●
0
200
400
600
800
1000
Tamaño de muestra
Figura 4.10: Ilustración de la consistencia de S 2 en el contexto del ejemplo
4.28.
4.3.3.
Funciones de pérdida y estimación
El enfoque Bayesiano al problema de estimación de parámetros es a través
de una función de pérdida L(θ, a), la cual mide la pérdida en que se incurre
cuando se estima el valor de un parámetro mediante a, siendo que el verdadero valor es θ. Entonces θ̂ se selecciona de tal manera que minimice E[L(θ, θ̂)],
donde esta esperanza se toma con respecto a θ usando la distribución a
posteriori π(θ|x).
Definición 4.10 A L(θ, a) = (a − θ)2 se le llama la función de pérdida
del error cuadrático.
Observe que:
Z
Z
E[L(θ, a)] = L(θ, a)π(θ|x1 , . . . , xn )dθ = (a − θ)2 π(θ|x1 , . . . , xn )dθ.
Diferenciando esta expresión con respecto a a, se obtiene:
147
4.3. Evaluación de estimadores
Z
Z
(a − θ)π(θ|x1 , . . . , xn )dθ = 0 =⇒ a =
2
θπ(θ|x1 , . . . , xn )dθ
Por lo tanto, la pérdida del error cuadrático se minimiza en θ̂, la media o
esperanza a posteriori de θ.
Definición 4.11 A L(θ, a) = |a − θ| se le llama la función de pérdida
del error absoluto.
En este caso,
Z
E[L(θ, a)] =
Z
L(θ, a)π(θ|x1 , . . . , xn )dθ
a
Z
∞
(a − θ)π(θ|x1 , . . . , xn )dθ +
=
−∞
(θ − a)π(θ|x1 , . . . , xn )dθ.
a
Diferenciando con respecto a a, se llega a que el mı́nimo debe cumplir que:
Z a
Z ∞
π(θ|x1 , . . . , xn )dθ −
π(θ|x1 , . . . , xn )dθ = 0
θ=−∞
a
Ası́, ambas integrales deberı́an ser iguales a
riori.
1
2
y θ̂ es la mediana a poste-
Ejemplo 4.29 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución P oisson(λ), Suponga que λ ∼ Exponencial(1), de modo que
π(λ) = e−λ , λ > 0.
La distribución a posteriori es
π(λ|x1 , . . . , xn ) = e−λ
n
Y
e−λ λxi
i=1
xi !
Pn
∝ e−λ(n+1) λ
i=1
xi
,
Pn
es decir, Gama( i=1 xi + 1, n + 1). Entonces, usando la función de pérdida
del error cuadrático medio:
Pn
xi + 1
θ̂ = media a posteriori = i=1
.
n+1
Y bajo la función de pérdida del error absoluto, θ̂ es la solución a:
Z
0
θ̂
e−λ(n+1) λ
Pn
xi
(n + 1)
Pn
( i=1 xi )!
i=1
Pn
i=1
xi +1
dλ =
1
.
2
148
4.4.
4. Estimación puntual
Estimación insesgada
En esta sección se hará una restricción considerando únicamente a los estimadores insesgados, es decir, a los estimadores T (X) que pertenecen a la
clase:
Cτ (θ) = {T (X) | E [T (X)] = τ (θ)} ,
la clase de estimadores insesgados para τ (θ) .
El siguiente ejemplo muestra la idea subyacente en esta sección en cuanto
a la estimación basada en minimizar la varianza de estimadores insesgados.
Ejemplo 4.30 Sea X1 , . . . , Xn una muestra aleatoria de una población con
distribución P oisson(λ). Primero note que
E(Xi ) = λ, V ar(Xi ) = λ y E(Xi2 ) = V ar(Xi ) + E2 (Xi ) = λ + λ2 .
Pn
Considerando ahora la estadı́stica G(X1 , . . . , Xn ) = i=1 Xi , note que G(X)
tiene distribución P oisson(nλ); por lo que E(G) = nλ y V ar(G) = nλ. Sean
a ∈ (0, 1) una constante y
Ta (X1 , . . . , Xn ) = aX̄ + (1 − a)S 2 .
Entonces,
1
E(G) = λ;
n
λ
1
V ar(G) = ;
n2
n
E(X̄)
=
V ar(X̄)
=
E(X̄ 2 )
=
V ar(X̄) + E2 (X̄) =
E(S 2 )
=
n
X
1
E(
X 2 − nX̄ 2 )
n − 1 i=1 i
λ
+ λ2 ;
n
λ
1
(n(λ + λ2 ) − n( + λ2 ))
n−1
n
1
=
(nλ − λ) = λ, y
n−1
E(Ta (X1 , . . . , Xn )) = E(aX̄ + (1 − a)S 2 ) = aE(X̄) + (1 − a)E(S 2 ) = λ.
=
Ası́, se tiene una familia infinita de estimadores insesgados para λ; entonces
se puede optar por utilizar el estimador que tenga el menor ECM.
Definición 4.12 Un estimador T ∗ (X) insesgado de varianza mı́nima uniformemente (UMVUE5 ) para τ (θ) satisface:
5 Por
Uniformly Minimum Variance Unbiased Estimator.
4.4. Estimación insesgada
149
(a) T ∗ (X) ∈ Cτ (θ) , es decir, E [T ∗ (X)] = τ (θ) .
(b) Para todo θ ∈ Θ, V ar (T ∗ (X)) ≤ V ar (T (X)) , donde T (X) es cualquier otro estimador en Cτ (θ) .
El UMVUE se refiere entonces al mejor estimador insesgado para τ (θ)
en el sentido de que tiene el menor error cuadrático medio para toda θ ∈ Θ.
El objetivo de esta sección es encontrar el UMVUE para τ (θ) , para ello
se discutirán tres resultados en donde se utilizan los conceptos analizados
previamente. En primer lugar se analizará el planteamiento que Cramèr y
Rao hicieron con base en el cálculo de una cota inferior para la varianza de
un estimador insesgado. Esta propuesta tiene ciertas restricciones, como el
hecho de que requiere el cumplimiento de ciertas condiciones de regularidad
para la densidad, entre otras. Posteriormente se enunciará el teorema de
Rao-Blackwell, el cual utiliza la suficiencia de una estadı́stica para la construcción de UMVUEs bajo la idea de que un estimador que se basa en una
estadı́stica suficiente será mejor que otro que no lo hace. Finalmente se enuncia el teorema de Lehmann-Scheffé, el cual, además de la suficiencia, utiliza
el concepto de completez y permite encontrar un UMVUE construyendo un
estimador insesgado a partir de una estadı́stica suficiente y completa, la que
a su vez puede hallarse usando los resultados antes vistos o, en su caso,
identificando a un miembro de la familia exponencial.
4.4.1.
La propuesta de Cramèr y Rao
En esta sección se estudia un resultado propuesto por Cramèr y Rao, el cual
se basa en el hecho de que, para ver qué tan bueno es un estimador insesgado
con respecto a otro, es necesario analizar la varianza de dicho estimador. Ası́,
si la varianza o el error estándar de un estimador es una cantidad de interés
para hablar de su bondad, serı́a deseable contar con una expresión con la
cual pueda compararse esta varianza. Esta expresión será una cota inferior
para la varianza, de tal manera que si la varianza de un estimador insesgado
es igual a esa cota, se puede afirmar que el estimador es el UMVUE. Antes de
presentar el teorema de Cramèr y Rao, en donde se da la cota mencionada,
es necesario enunciar algunas definiciones y resultados que servirán para la
demostración de dicho teorema.
Definición 4.13 Sea X1 , . . . , Xn una muestra aleatoria de f (x; θ) y sea
T(X) un estimador insesgado de τ (θ). Las siguientes se conocen como condiciones de regularidad:
El soporte de f (x; θ) se define como sop(f ) = {x : f (x) > 0} y este es
el mismo para toda θ.
150
4. Estimación puntual
∂
ln f (x; θ) existe.
Para todo x ∈ sop(f ), ∂θ
R
R
R
RR R ∂
∂
... T (x)f (x; θ)dx1 ...dxn =
... ∂θ T (x)f (x; θ)dx1 ...dxn .
∂θ
R
R
R
R
R
R
∂
∂
... ∂θ
... f (x; θ)dx1 ...dxn =
f (x; θ)dx1 ...dxn .
∂θ
2
f (x;θ)
0 < E ∂ ln∂θ
< ∞.
Observe que esta definición establece principalmente la condición que
debe cumplir una función para que se puedan intercambiar derivadas e integrales, lo cual no siempre se cumple. En general, los miembros de la familia
exponencial cumplen las condiciones de regularidad, pero densidades como la
Uniforme Continua no. Para ver este caso especı́fico de la Uniforme considere
su función de densidad
f (x; θ) =
1
I(0,θ) (x) .
θ
A continuación se obtiene la derivada con respecto a θ de la integral, de la
siguiente manera:
Z θ
Z θ
∂
∂
1
t (x) f (x; θ)dx =
t (x) dx.
∂θ 0
∂θ 0
θ
Utilizando la regla de Leibnitz, la cual es una aplicación del teorema Fundamental del Cálculo y de la regla de la cadena, y que establece que si h(x; θ),
a (θ) y b (θ) son diferenciables con respecto a θ, entonces
Z b(θ)
∂
∂
∂
h(x; θ)dx = h (b (θ) , θ) b (θ) − h (a (θ) , θ) a (θ)
∂θ a(θ)
∂θ
∂θ
Z b(θ)
∂
h(x; θ)dx.
+
a(θ) ∂θ
En el caso que se está analizando, a (θ) = 0, b (θ) = θ y h (x; θ) = t (x) θ1 .
Z θ
Z θ
∂
1
t (θ)
∂ 1
t (x) dx =
+
t (x)
dx
∂θ 0
θ
θ
∂θ θ
0
Z θ
∂ 1
6=
t (x)
dx,
∂θ θ
0
al menos que t(θ)
θ = 0.
Ahora se definirán algunas funciones que están involucradas en la cota
inferior para la varianza propuesta por Cramèr y Rao.
151
4.4. Estimación insesgada
Definición 4.14 La función score o función de puntaje se define como:
∂
ln f (x; θ).
∂θ
Definición 4.15 La información esperada de Fisher se define como:
"
2 #
∂
= E (Sc)2 .
ln f (X; θ)
IX (θ) = E
∂θ
Sc(x; θ) =
Observación 4.3 La función score también puede escribirse como:
Sc(x; θ) =
∂
f 0 (x; θ)
ln f (x; θ) =
∂θ
f (x; θ)
n
n
X
Y
∂
∂
f (xi ; θ) =
=
ln
ln f (xi ; θ).
∂θ i=1
∂θ
i=1
(4.21)
Lema 4.1 Si se satisfacen las condiciones de regularidad, entonces:
(a) E(Sc) = 0.
(b) V ar(Sc) = IX (θ).
Demostración.
(a)
Z ∂
ln f (x; θ) f (x; θ)dx1 ...dxn
dθ
Z Z
Z 0
f (x; θ)
=
...
f (x; θ)dx1 ...dxn
f (x; θ)
Z Z
Z
∂
f (x; θ)dx1 ...dxn
=
...
∂θ
Z Z
Z
∂
=
... f (x; θ)dx1 ...dxn
∂θ
∂
=
(1) = 0
∂θ
Z Z
E [Sc(x; θ)] =
···
∴ E(Sc) = 0.
(b)
V ar(Sc) = E(Sc2 ) − E2 (Sc) = IX (θ) − 0 = IX (θ).
∴ V ar(Sc) = IX (θ).
152
4. Estimación puntual
Definición 4.16 Si X es una variable aleatoria, entonces a
"
2 #
∂
IX (θ) = E
ln f (X; θ)
∂θ
se le conoce como información esperada de Fisher por unidad muestral.
Es más sencillo calcular la información esperada de Fisher por unidad
muestral y el siguiente resultado la relaciona con la información esperada de
Fisher para la muestra, ası́ como con otras expresiones.
Lema 4.2 Si se cumplen las condiciones de regularidad, entonces:
(a) IX (θ) = nIX (θ).
h 2
i
∂
(b) IX (θ) = −E ∂θ
ln
f
(X;
θ)
.
2
(c) IX (θ) = −nE
h
∂2
∂θ 2 ln
i
f (X; θ) .
Demostración.
P 2
(θ) = E(Sc2 ) y usando (4.21), ası́ como el hecho de que ( ai ) =
(a) Como
P 2 IX P
ai + i6=j ai aj ,
!2 
n
X
∂
IX (θ) = E 
ln f (Xi ; θ) 
∂θ
i=1
"
2 #
n
X
∂
=
E
ln f (Xi ; θ)
∂θ
i=1
X ∂
∂
+
E
ln f (Xi ; θ)
ln f (Xj ; θ) .
∂θ
∂θ

i6=j
Como las variables X1 , ..., Xn son independientes, se tiene que
∂
ln f (Xi ; θ)
∂θ
y
∂
ln f (Xj ; θ) ,
∂θ
153
4.4. Estimación insesgada
también lo son y
E
∂
∂
ln f (Xi ; θ)
ln f (Xj ; θ)
∂θ
∂θ
es igual a
E
∂
∂
ln f (Xi ; θ) E
ln f (Xj ; θ) ,
∂θ
∂θ
donde, para el caso continuo, y bajo el supuesto de que se cumplen las
condiciones de regularidad:
Z ∞ ∂
∂
∂θ f (xi ; θ)
E
ln f (Xi ; θ)
=
f (xi ; θ)dxi
∂θ
−∞ f (xi ; θ)
Z ∞
∂
f (xi ; θ)dx
=
∂θ
−∞
Z ∞
∂
∂
=
f (xi ; θ)dx =
(1) = 0.
∂θ −∞
∂θ
Ası́,
"
2 #
∂
IX (θ) =
E
ln f (Xi ; θ)
∂θ
i=1
"
2 #
∂
ln f (X; θ)
,
= nE
∂θ
n
X
debido a que las Xi ’s son idénticamente distribuidas.
(b) Observe que
∂2
ln f (x; θ)
∂θ2
=
=
=
∂ f 0 (x; θ)
∂θ f (x; θ)
f (x; θ) f 00 (x; θ) − f 0 (x; θ) f 0 (x; θ)
2
[f (x; θ)]
0
2
00
f (x; θ)
f (x; θ)
−
.
f (x; θ)
f (x; θ)
Ası́,
(
0
2 )
∂2
f 00 (X; θ)
f (X; θ)
−E
ln f (X; θ) = −E
−
,
∂θ2
f (X; θ)
f (X; θ)
154
4. Estimación puntual
y como
E
f 00 (X; θ)
f (X; θ)
Z
=
=
Z
···
2 Z
∂
∂θ2
∂2
ln f (X; θ)
−E
∂θ2
f 00 (x; θ)
f (x; θ) dx1 · · · dxn
f (x; θ)
Z
· · · f (x; θ) dx1 · · · dxn = 0,
"
f 0 (X; θ)
f (X; θ)
"
2 #
∂
ln f (X; θ)
∂θ
= E
= E
2 #
= IX (θ).
(c) Se deduce de los dos resultados anteriores.
Teorema 4.2 (de Cramèr y Rao). Sean X1 , . . . , Xn una muestra aleatoria de f (x; θ) y T (X) un estimador insesgado de τ (θ). Si se satisfacen las
condiciones de regularidad, entonces
V ar(T ) ≥
(τ 0 (θ))2
.
IX (θ)
| {z }
(4.22)
CICR(τ (θ))
Esta desigualdad se conoce como la desigualdad de Cramèr-Rao o de2
[τ 0 (θ)]
sigualdad de la información y a la cantidad IX(θ) como la cota inferior
de Cramèr y Rao (CICR).
En (4.22) la igualdad se da si y sólo si:
n
X
∂
ln f (xi ; θ) = k(θ; n)[T (x) − τ (θ)],
∂θ
i=1
donde k puede depender de θ y de n.
Demostración. Este resultado se deduce de la conocida desigualdad de
Cauchy-Schwarz, la cual establece que si X y Y son variables aleatorias,
entonces:
2
{Cov (X, Y )} ≤ V ar (X) V ar (Y ) ,
155
4.4. Estimación insesgada
dándose la igualdad si y sólo si
Y − E (Y ) = k [X − E (X)]
(4.23)
Aplicando esta desigualdad a las variables T (X) y Sc(X; θ), se obtiene:
2
{Cov (T, SC )} ≤ V ar (T ) V ar (SC ) .
(4.24)
Usando el lema 4.1, se tiene que V ar(Sc) = IX (θ), por lo que (4.24) se puede
escribir como:
2
{Cov (T, SC )}
V ar(T ) ≥
.
IX (θ)
Por otro lado,
Cov (T, SC ) = E (T SC ) − E (T ) E (SC )
y nuevamente por el lema 4.1, E (SC ) = 0, mientras que:
Z
E (T SC )
=
=
=
∂
f (x; θ)
t (x) ∂θ
f (x; θ) dx1 · · · dxn
f (x; θ)
Z
· · · t (x) f (x; θ) dx1 · · · dxn
Z
···
Z
∂
∂θ
∂
∂
E (T (X)) =
τ (θ) = τ 0 (θ) ,
∂θ
∂θ
los pasos anteriores se justifican por la definición de SC , las condiciones de
regularidad y el hecho de que T es insesgado para τ (θ) . Ası́,
2
V ar(T ) ≥
{τ 0 (θ)}
.
IX (θ)
Para ver la condición en la que se alcanza la cota, es decir, en la que se da
la igualdad, se usa (4.23), obteniendo:
SC − E (SC ) = k [T − E (T )]
Pn
y como E (SC ) = 0, SC = i=1
la segunda parte del teorema.
∂
∂θ
ln f (xi ; θ) y E (T ) = τ (θ) , se comprueba
Ejemplo 4.31 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
N (0, σ 2 ). Para encontrar IX (σ 2 ):
156
4. Estimación puntual
ln f (x; θ)
=
ln
√
1
2πσ 2
e
− 2σ12 x2
1
1
1
= − ln(2π) − ln(σ 2 ) − 2 x2 ,
2
2
2σ
∂
1
x2
2
ln
f
(x;
σ
)
=
−
+
,
∂σ 2
2σ 2
2(σ 2 )2
∂2
1
x2
2
ln
f
(x;
σ
)
=
−
.
∂(σ 2 )2
2(σ 2 )2
(σ 2 )3
Entonces,
IX (σ 2 )
=
=
∂2
E(X 2 )
1
2
ln
f
(X;
σ
)
=
n
−
−nE
∂(σ 2 )2
σ6
2σ 4
2
σ
1
1
1
n
n 6 − 4 =n 4 − 4 =
.
σ
2σ
σ
2σ
2σ 4
Entonces, la CICR para estimadores insesgados de σ 2 es
2σ 4
n .
Ejemplo 4.32 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
exp(θ). Para encontrar IX (θ):
ln f (x; θ) = ln θe−θx = ln(θ) − θx,
de donde
∂
1
ln f (x; θ) = − x.
∂θ
θ
Entonces,
"
IX (θ) = nE
"
2 #
2 #
1
n
∂
ln f (X; θ)
= nE
−X
= n V ar(X) = 2 .
∂θ
θ
θ
Para encontrar la CICR para estimadores insesgados de θ:
τ1 (θ) = θ ⇒ τ10 (θ) = 1.
Entonces,
CICR(θ) =
θ2
1
= .
IX (θ)
n
Para encontrar la CICR para estimadores insesgados de τ2 (θ) = θ1 :
τ2 (θ) =
1
1
⇒ τ20 (θ) = − 2 .
θ
θ
157
4.4. Estimación insesgada
Entonces,
CICR(τ2 (θ)) =
1
1/θ4
1/θ4
= 2.
=
IX (θ)
n/θ2
nθ
Observación 4.4 Para responder a la pregunta: ¿existe alguna función de
θ, τ (θ) , para la cual hay un estimador insesgado cuya varianza coincide con
la CICR?, se usa la segunda parte del teorema, es decir, la condición para
la alcanzabilidad de la cota.
Ejemplo 4.33 Para la distribución Exponencial, ¿existe alguna función de
θ, τ (θ) , para la cual hay un estimador cuya varianza coincide con la CICR?
Usando la segunda parte del teorema de Cramèr y Rao, se tiene que
n
X
∂
ln f (xi ; θ)
∂θ
i=1
=
=
=
n
n
X
X
∂
∂
ln θe−θxi =
[ln θ − θxi ]
∂θ
∂θ
i=1
i=1
n
n X
1
n X
xi
− xi = −
θ
θ i=1
i=1
Pn
1
1
i=1 xi
−n
−
= −n x −
.
n
θ
θ
Ası́, se puede afirmar que τ (θ) = θ1 es una función de θ para la cual existe
un estimador insesgado T (X) = X, cuya varianza coincide con la CICR. En
otras palabras, X es el UMVUE de τ (θ) = θ1 . Aunque en general no es ne
cesario probarlo, es claro que en este caso: V ar X = θ21n = CICR (τ (θ)) .
Observación 4.5
1. Si la varianza de un estimador insesgado coincide con la CICR, entonces el estimador es un UMVUE. Pero el UMVUE puede existir sin que
su varianza coincida con la CICR.
2. Si la muestra aleatoria es de algún miembro de la familia exponencial,
siempre existe una función de θ para la cual hay un estimador insesgado
cuya varianza coincide con la CICR (basta factorizar
n
X
∂
ln a(θ)b(x) exp{c(θ)d(xi )}
∂θ
i=1
en la forma indicada en la segunda parte del teorema de Cramèr y
Rao).
158
4. Estimación puntual
3. Aun cuando la varianza de un estimador insesgado alcance la CICR,
esta situación se da para una función especı́fica de θ, que puede no ser
la que se esté analizando. En el caso de la distribución Exponencial,
en el ejemplo 4.33 se obtuvo que X es el UMVUE de θ1 usando la segunda parte del teorema de Cramèr y Rao; sin embargo, si el objetivo
es encontrar el UMVUE de θ, este resultado no da información adicional (salvo la expresión correspondiente para la CICR que sirve para
compararla con la varianza de algún estimador que se proponga).
4. La teorı́a desarrollada por Cramèr y Rao sólo es para densidades que
satisfacen las condiciones de regularidad.
5. Cuando la varianza de un estimador alcanza la CICR también se dice
que es eficiente y la eficiencia de un estimador insesgado se mide como
CICR
V ar(T ) , cantidad que es menor o igual a 1. Por lo que un estimador es
eficiente si y sólo si el cociente anterior es 1.
Dadas estas restricciones se analizarán otros resultados que incorporan
los conceptos de suficiencia y completez, lo cual se hará en las secciones 4.4.2
y 4.4.3.
Generalización
Aquı́ se considerarán brevemente la generalización de la teorı́a de Cramèr y
Rao para cuando se tienen distribuciones de dos o más parámetros. En el
caso de dos parámetros, la información esperada de Fisher (para una muestra
de tamaño n), llamada la matriz de información de Fisher, se define como:

h 2
i
h 2
i 
∂
∂
E ∂θ
ln
f
(X;
ln
f
(X;
θ)
θ)
E
∂θ
2
i
h 1 ∂θ
i ,
IX (θ) = −  h 21
∂2
E ∂θ
ln
f
(X;
θ)
E ∂θ∂2 ∂θ1 ln f (X; θ)
2
y para el caso de k parámetros IX (θ) toma la forma:
h 2
i
h 2
i
h 2
i
∂
E ∂θ
E ∂θ∂1 ∂θ2 ln f (X; θ) · · · E ∂θ∂1 ∂θk ln f (X; θ)
2 ln f (X; θ)
 h 21
i
h 2
i
h 2
i

∂
E ∂θ
· · · E ∂θ∂2 ∂θk ln f (X; θ)
 E ∂θ∂2 ∂θ1 ln f (X; θ)
2 ln f (X; θ)
2


..
..
..
..

.
 h 2 .
i
h 2 .
i
h 2 .
i
∂
E ∂θ
E ∂θ∂k ∂θ1 ln f (X; θ) E ∂θ∂k ∂θ2 ln f (X; θ) · · ·
2 ln f (X; θ)

k
Y la cota inferior de Cramèr y Rao es la inversa de la matriz de información,
−1
(θ).
es decir, IX








159
4.4. Estimación insesgada
4.4.2.
El teorema de Rao-Blackwell
Como se ha visto, una estadı́stica suficiente conserva toda la información
relevante contenida en la muestra acerca del parámetro de interés. Ası́, los
estimadores basados en estadı́sticas suficientes son mejores (que los que no
están basados en estadı́sticas suficientes) como establece el siguiente resultado.
Teorema 4.3 (Rao-Blackwell). Sean T (X) un estimador insesgado para
τ (θ) y S una estadı́stica suficiente. Sea T ∗ (X) := E(T |S). Entonces,
(a) T ∗ es una estadistica función de S.
(b) T ∗ es insesgado para τ (θ), es decir, E (T ∗ ) = τ (θ).
(c) V ar(T ∗ ) ≤ V ar(T ) para toda θ ∈ Θ.
Demostración.
(a) Usando la definición de la esperanza condicional en el caso continuo,
T∗ =
Z
∞
tfT /S (t/s) dt
−∞
es una función de S, además fT /S no depende de θ por ser S una
estadı́stica suficiente, por lo que T ∗ es una estadı́stica.
(b) Por las propiedades de la esperanza condicional,
E (T ∗ ) = E (E (T /S)) = E (T ) = τ (θ).
(c) Usando las propiedades de la varianza condicional,
V ar(T ) = V ar (E (T /S)) + E (V ar (T /S)) ,
lo cual implica que
V ar(T ) = V ar (T ∗ ) + E (V ar (T /S)) ,
y como V ar (T /S) ≥ 0, se obtiene el resultado.
160
4. Estimación puntual
Ejemplo 4.34 Sea X1P
, . . . , Xn una muestra aleatoria de la distribución
n
Bernoulli(θ). S(X) = i=1 Xi es una estadı́stica suficiente para θ, lo cual
se ha verificado (basta ver que la distribución Bernoulli pertenece a la familia
exponencial). T (X) = X1 es un estimador insesgado de θ (pues E(X1 ) = θ).
Entonces
!
n
X
∗
Xi = s
T (X) = E(T |S = s) =E X1 |
i=1
=0 · P X1 = 0|
n
X
!
Xi = s
i=1
+ 1 · P X1 = 1|
n
X
!
Xi = s
i=1
=P X1 = 1 |
n
X
!
Xi = s
i=1
Pn
P (X1 = 1, i=1 Xi = s)
Pn
=
.
P ( i=1 Xi = s)
Donde
Pn
Xi ∼ Bin(n, θ). Pero
Pn
Pn
P(X1 = 1)P ( i=2 Xi = s − 1)
P(X1 = 1; i=1 Xi = s)
Pn
=
n s
n−s
P( i=1 Xi = s)
s θ (1 − θ)
i=1
=
θ
n−1
s−1
θs−1 (1 − θ)n−1−s+1
=
n s
n−s
s θ (1 − θ)
Por lo tanto,
T ∗ (X) =
Pn
i=1
n−1
s−1
n
s
=
(n−1)!
(s−1)!(n−s)!
n!
s!(n−s)!
=
s
.
n
Xi
= X.
n
El estimador resultante es insesgado, pues E(X̄) = θ y tiene varianza menor
que X1 , ya que
V ar(X̄) =
θ(1 − θ)
≤ θ(1 − θ) = V ar(X1 ),
n
las cuales son iguales sólo en el caso n = 1.
4.4.3.
El teorema de Lehmann-Scheffé
El siguiente resultado muestra que un estimador insesgado función de la
estadı́stica suficiente y completa será el UMVUE.
161
4.4. Estimación insesgada
Teorema 4.4 (Lehmann-Scheffé). Sea X1 , . . . , Xn una muestra aleatoria
de f (x; θ) y sea S una estadı́stica suficiente y completa. Sea T ∗ (X) una
función de S tal que E(T ∗ ) = τ (θ) (T ∗ es insesgado para τ (θ)), entonces T ∗
es el UMVUE de τ (θ).
Demostración. Sea T 0 (X) , función de S, tal que E(T 0 ) = τ (θ). Sea g(S) =
T ∗ − T 0 . Note que
E[g(S)] = E(T ∗ − T 0 ) = E[T ∗ ] − E[T 0 ] = τ (θ) − τ (θ) = 0
∴ E[g(S)] = 0
Entonces, por la completez de S se tiene que P[g(S) = 0] = 1, para toda
θ ∈ Θ. De esta manera, P[T ∗ = T 0 ] = 1 para toda θ ∈ Θ y, por lo tanto, T ∗
es único (c.s.). Es decir, T ∗ es el único estimador insesgado de τ (θ) que es
función de S.
Por otro lado, sea T tal que E[T ] = τ (θ). Por el teorema de Rao-Blackwell,
E[T |S] es estimador insesgado de τ (θ) y es función de S, lo que implica que
T ∗ = E[T |S]. Ası́, por el teorema de Rao-Blackwell, V ar(T ∗ ) ≤ V ar(T ),
para toda θ ∈ Θ.
Ejemplo 4.35 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
Exp(θ), donde θ > 0. Como f (x; θ) = θe−θx , entonces
Pn f (x; θ) es de la
familia exponencial con d(x) = x. Entonces, S(X) = i=1 Xi es suficiente
y completa. Para encontrar el UMVUE de θ y de τ (θ) = θ1 , se obtiene
E(S) = E
n
X
i=1
!
Xi
= nE(Xi ) = n
1
n
=
θ
θ
y como E[X̄] = θ1 , entonces X es el UMVUE de θ1 , pues es función de la
estadı́stica suficiente y completa y además es insesgado para θ (note que
este resultado coincide con el obtenido mediante la teorı́a Cramèr y Rao,
ejemplo 4.33).
Para encontrar el UMVUE de θ, éste será de la forma Pn k Xi , donde
i=1
Pn
S = i=1 Xi tiene distribución Gama (n, θ) . Entonces, observe que:
162
4. Estimación puntual
k
E Pn
i=1
Xi
k
1
= kE
S
S
Z ∞
1 θn n−1 −θs
s
e ds
=k
s Γ(n)
0
Z ∞ n
θ
=k
sn−2 e−θs ds
Γ(n)
0
Z
θn Γ(n − 1) ∞ θn−1 (n−1)−1 −θs
=k
s
e ds
Γ(n) θn−1
Γ(n − 1)
0
|
{z
}
=E
1
θn Γ(n − 1)
Γ(n − 1)
kθ
=k n−1
=k
=
.
θ
Γ(n)
(n − 1)Γ(n − 1)θ−1
n−1
Por lo que, para que k/Y sea insesgado, k debe ser igual a n − 1. Por lo
tanto,
n−1
T ∗ (X) = Pn
i=1 Xi
es el UMVUE de θ.
Para encontrar la CICR para estimadores insesgados de θ (ver ejemplo
4.32):
"
2 #
∂
IX (θ) =nE
ln f (X; θ)
∂θ
"
2 #
∂
−θX
=nE
ln θe
∂θ
"
2 #
∂
=nE
(ln θ − θX)
∂θ
"
2 #
1
=nE
−X
θ
n
=nV ar(X) = 2 .
θ
Entonces, la CICR para estimadores insesgados de θ es:
CICR(θ) =
1
θ2
= .
IX (θ)
n
163
4.4. Estimación insesgada
El segundo momento de T ∗ (X) =
(n − 1)2
E
S2
Pn−1
n
i=1 Xi
está dado por:
1
= (n − 1) E 2
S
Z ∞
1 θn n−1 −θs
s
e ds
= (n − 1)2
s2 Γ(n)
0
Z
∞
θn
= (n − 1)2
sn−3 e−θs ds
Γ(n) 0
Z
θn Γ(n − 2) ∞ θn−2 (n−2)−1 −θs
= (n − 1)2
s
e ds
Γ(n) θn−2
Γ(n − 2)
0
{z
}
|
2
1
θn Γ(n − 2)
= (n − 1)2 n−2
θ
Γ(n)
Γ(n − 2)
= (n − 1)2
(n − 1)(n − 2)Γ(n − 2)θ−2
(n − 1)θ2
=
.
n−2
Entonces,
V ar(T ∗ (X)) =
(n − 1)θ2
θ2
− θ2 =
n−2
n−2
es la varianza del UMVUE de θ.
Note que
V ar(T ∗ (X)) =
θ2
θ2
>
= CICR(θ).
n−2
n
Ejemplo 4.36 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
P oisson(θ). Sea τ (θ) = P(X = 0) = e−θ .
(a) Encontrar el estimador máximo verosı́mil de θ y τ (θ).
(b) Encontrar el estimador por momentos de θ.
(c) ¿Pertenece f (x; θ) a la familia exponencial?
(d) Encontrar una estadı́stica suficiente minimal y completa.
(e) Encontrar la CICR para estimadores insesgados de θ y τ (θ).
(f) ¿Existirá una función de θ, para la cual hay un estimador insesgado
cuya varianza coincide con la CICR? Si es ası́, encontrarlo.
164
4. Estimación puntual
(g) Encontrar un estimador insesgado de τ (θ) y usar el teorema de RaoBlackwell para hallar un estimador insesgado función de la estadı́stica
suficiente.
(h) Decir cuáles son los UMVUEs de θ y τ (θ), respectivamente.
Solución:
(a)
L(θ) =
n
Y
i=1
f (xi ; θ) =
n
Y
e−θ θxi
i=1
xi !
(x )
i
I{0,1,...}
= e−nθ θ
Pn
i=1
xi
n I(xi )
Y
{0,1,...}
i=1
xi !
y el logaritmo de la verosimilitud es
l(θ) = −nθ + (
n
X

xi ) ln θ + ln 
i=1
n I(xi )
Y
{0,1,...}
i=1
xi !

,
de donde,
Pn
xi
∂
l(θ) = −n + i=1 .
∂θ
θ
∂
Entonces, ∂θ
l(θ) = 0 si y sólo si
Pn
Pn
Pn
xi
xi
xi
−n + i=1
= 0 ⇔ n = i=1
⇔ θb = i=1 .
n
θb
θb
Pn
Por lo tanto θ̂M.V. = n1 i=1 Xi = X̄. Para τ (θ), aplicando la propiedad de invarianza de los estimadores máximo verosı́miles τ (θ̂M.V. )
es estimador máximo versı́mil de τ (θ). Por lo tanto e−X̄ es estimador
máximo verosı́mil de τ (θ) = e−θ .
(b) Recuerde que E(X) = θ, entonces el estimador por momentos está
dado por
n
1X
Xi = X̄.
θ̂ =
n i=1
(c) Como
f (x; θ) =
e−θ θx (x)
I
x! {0,1,...}
si
a(θ) = e−θ ,
b(x) =
1 (x)
I
,
x! {0,1,...}
c(θ) = ln(θ),
d(x) = x.
165
4.4. Estimación insesgada
Entonces,
f (x; θ) = a(θ)b(x)ec(θ)d(x) .
Por lo tanto pertenece a la familia exponencial.
(d) P
Como f (x; θ) pertenece
a la familia exponencial entonces T (x) =
Pn
n
d(X
)
=
X
es
una estadı́stica suficiente minimal y comi
i=1
i=1 i
pleta.
(e) La información esperada de Fisher está dada por
"
2 #
∂
ln f (X; θ)
IX (θ) =nE
∂θ
"
−θ X 2 #
∂
e θ
=nE
ln
∂θ
X!
"
2 #
∂
=nE
(−θ + X ln θ − ln X!)
∂θ
"
2 #
X
=nE −1 +
θ
"
2 #
1
(X − θ)
=nE
θ
i
n h
n
nθ
n
2
= 2 E (X − θ) = 2 V ar(X) = 2 = .
θ
θ
θ
θ
Para θ se tiene que
CICR(θ) =
θ
.
n
Para τ (θ) = e−θ se tiene que
CICR(τ (θ)) =
(τ 0 (θ))2
n
θ
=
θe−2θ
.
n
166
4. Estimación puntual
(f) Utilizando la segunda parte del teorema de Cramèr-Rao
n
n
X
X
e−θ θxi
∂
∂
ln f (xi ; θ) =
ln
∂θ
∂θ
xi !
i=1
i=1
=
=
n
X
∂
(−θ + xi ln(θ) − ln(xi !))
∂θ
i=1
n X
−1 +
i=1
xi θ
n
=−n+
1X
n
n
xi = −n + x̄ = (x̄ − θ).
θ i=1
θ
θ
Por lo tanto, para θ hay un estimador insesgado, T ∗ (X) = X̄, cuya
varianza coincide con la Cota de Cramèr-Rao, es decir, X̄ es el UMVUE
de θ.
(g) Considere T (X) = I{0} (X1 ). Note que E(T (X)) = E(I{0} (X1 )) =
P(X1 = 0) = e−θ . Por lo tanto,PT (X) es un estimador insesgado de
n
τ (θ) y ya se vio que S(X) =
i=1 Xi es una estadı́stica suficiente
minimal y completa. Entonces,
E(T |S
=
=
s) = E(I{0} (X1 )|S = s)
!
n
X
P X1 = 0|
Xi = s
i=1
=
Pn
P(X1 = 0)P( i=2 Xi = s)
Pn
P( i=1 Xi = s)
−(n−1)θ
=
=
((n−1)θ)s
s!
e−nθ (nθ)s
s!
−θ −(n−1)θ
e−θ e
e
e−nθ (nθ)s
=
((n − 1)θ)s
e
n−1
n
=
e−θ e−nθ eθ (n − 1)s θs
e−nθ ns θs
s
.
Entonces, por el teorema de Rao-Blackwell T ∗ (X) =
n−1
n
Pni=1 Xi
.
(h) X̄ es el UMVUE de θ, lo cual se justifica utilizando el inciso (f) o bien,
notando queP
X̄ es insesgado para θ y función de la estadı́stica suficiente
n
y completa, i=1 Xi , por lo que usando el teorema de Lehmann-Scheffé
4.5. Propiedades asintóticas de los estimadores
167
Pni=1 Xi
se llega a la misma conclusión. Además, n−1
es el UMVUE de
n
τ (θ) por el inciso (g) y el teorema de Lehmann-Scheffé.
4.5.
Propiedades asintóticas de los estimadores
Hasta ahora se han estudiado distintas propiedades de los estimadores, pero la mayorı́a, a excepción de la consistencia vista en el apartado 4.3.2, se
refiere a tamaños de muestra pequeños. En esta sección se abordarán propiedades que describen el comportamiento de un estimador cuando el tamaño
de muestra es grande, es decir, las propiedades asintóticas de los estimadores.
Como ya se señaló, la consistencia tiene que ver con la precisión asintótica
de un estimador, esto es, que el error cometido al estimar τ (θ) con Tn (X) es
pequeño cuando el tamaño de muestra es grande. Existe otra propiedad que
tiene que ver con la varianza asintóntica de un estimador, la cual se conoce
como eficiencia.
Ya se ha reiterado que la varianza (de los estimadores) juega un papel
importante en la elección del mejor estimador. De hecho en las observaciones 4.5, se menciona la propiedad de eficiencia. A continuación se da una
definición formal de eficiencia asintótica.
Definición 4.17 Una sucesión de estimadores {Tn } es asintóticamente eficiente para un parámetro τ (θ) si
√
n[Tn − τ (θ)] −→ N [0, CICR(θ)]
en distribución, donde
CICR(θ) =
[τ 0(θ)]2
∂
;
E ( ∂θ ln f (X; θ))2
esto es, la varianza asintótica de Tn alcanza la cota inferior de Cramér-Rao.
Bajo las condiciones de regularidad (definición 4.13), se puede demostrar
que los estimadores máximo verosı́miles cumplen las propiedades de consistencia y eficiencia. Es decir, si la muestra aleatoria proviene de una población
con función de densidad que satisface las condiciones de regularidad, entonces el estimador máximo verosı́mil del parámetro θ (o de una función τ (θ))
tiene estas propiedades asintóticas.
Para el caso de la consistencia simple, puede consultarse Stuart, Ord y
Arnold (1999). En cuanto a la eficiencia, se utilizará el siguiente resultado
conocido como el método delta:
168
4. Estimación puntual
Lema
√ 4.3 Si {Xn } es una sucesión de variables aleatorias que satisfacen
que n (Xn − θ) → N 0, σ 2 en distribución, entonces para una función τ
y un valor especı́fico de θ, se tiene que
√
2
n [τ (Xn ) − τ (θ)] → N 0, σ 2 τ 0 (θ)
en distribución.
Demostración. El resultado es consecuencia del teorema de Slutsky, el
cual establece que para dos sucesiones de variables aleatorias {Xn }n≥1 y
{Yn }n≥1 , tales que Xn → X en distribución y Yn → c en probabilidad ,
donde X es una variable aleatoria y c es una constante, se tiene que:
(i) Xn + Yn → X + c, en distribución,
(ii) Xn Yn → cX, en distribución,
(iii) Si c 6= 0 entonces,
Xn
X
→ ,
Yn
c
en distribución.
El siguiente resultado se refiere a la eficiencia asintótica de los estimadores
máximo verosı́miles.
Teorema 4.5 Sea X1 , X2 , .., Xn una muestra aleatoria de una población con
función de densidad f (x; θ), sea θb el estimador máximo verosı́mil de θ, y
sea τ (θ) una función continua y diferenciable de θ. Bajo las condiciones de
regularidad sobre f (x; θ) y, por lo tanto de la función de verosimilitud L(θ),
se tiene que
√
b − τ (θ)] −→ N [0, CICR(τ (θ))],
n[τ (θ)
donde CICR(τ (θ)) es la cota inferior de Cramér-Rao para estimadores inb es
sesgados de τ (θ). Esto es, el estimador máximo verosı́mil de τ (θ) , τ (θ),
un estimador eficiente de τ (θ).
Demostración. Se demostrará el caso τ (θ) = θ, es decir, que θb es asintóticamente eficiente. Para ello, recuerde que
l(θ) =
n
X
i=1
ln f (xi ; θ)
4.5. Propiedades asintóticas de los estimadores
169
es la función de log-verosimilitud. Sean l0 , l00 , .. las derivadas (con respecto a
θ) . Expandiendo la primera derivada de la log-verosimilitud alrededor del
valor verdadero del parámetro, el cual se denotará por θ0 ,
l0 (θ) = l0 (θ0 ) + (θ − θ0 )l00 (θ0 ) + . . . ,
donde se ignoran los términos de orden superior.
Sustituyendo el estimador máximo verosı́mil θb en lugar de θ, se tiene que
b = l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + . . . ,
l0 (θ)
pero el estimador máximo verosı́mil es el cero de la función de verosimilitud,
por lo que
l0 (θ0 ) + (θb − θ0 )l00 (θ0 ) + · · · = 0.
√
Ası́ que reacomodando los términos y multiplicando por n, se obtiene que:
√
n(θb − θ0 )
=
=
√ −l0 (θ0 )
n 00
l (θ0 )
1 0
√
− n l (θ0 )
1 00
n l (θ0 )
.
En 4.4.1 , se vio que
"
IX (θ) = E
Como
2 #
∂
.
ln f (X; θ)
∂θ
n
X
∂
ln f (xi ; θ),
l (θ) =
∂θ
i=1
0
por (4.21)
IX (θ0 ) = E [l0 (θ0 )]2 =
1
CICR(θ)
denota la información esperada de Fisher.
Ahora observe que
"
#
∂
√
f (xi ; θ)
1 0
1 X ∂θ
√ l (θ0 ) = n
,
n i f (xi ; θ)
n
0
(x;θ)
donde Sc(x; θ) = ff (x;θ)
es tal que E [Sc(X; θ)] = 0 y V ar [Sc(X; θ)] =
IX (θ), lo cual se probó en el lema 4.1. Ası́, por el teorema del lı́mite central,
1
√ l0 (θ0 ) −→ N [0, I(θ0 )]
n
170
4. Estimación puntual
en distribución y
1
− √ l0 (θ0 ) −→ N [0, I(θ0 )]
n
en distribución. Por otro lado,
"
#2
∂
f (xi ; θ)
1 00
1 X ∂θ
1X
l (θ0 ) =
−
n
n i
f (xi ; θ)
n i
∂2
∂θ 2 f (xi ; θ)
f (xi ; θ)
.
Note que la esperanza del primer sumando es IX (θ0 ), mientras que la del
segundo es cero (ver la demostración del lema 4.2). Entonces por la Ley
Débil de los Grandes Números:
1 00
l (θ0 ) −→ I(θ0 ),
n
en probabilidad. En consecuencia, si W es una variable aleatoria tal que
W ∼ N [0, I(θ0 )], entonces
√
n(θb − θ0 ) =
− √1n l0 (θ0 )
1 00
n l (θ0 )
converge en distribución a W/I(θ0 ) ∼ N [0, 1/IX (θ0 )], es decir, a una variable
aleatoria normal con media cero y varianza igual a la cota Inferior de Cramèr
y Rao, lo que demuestra el resultado.
El caso general es consecuencia del método delta, el cual se describe
brevemente a continuación. Una forma alternativa para calcular la varianza
del estimador máximo verosı́mil de τ (θ) es considerando que, debido a la
propiedad de invarianza que tiene el método de máxima verosimilitud,
τd
(θ) = τ θb .
Si se aproxima τ θb mediante una expansión en series de Taylor alrededor
de θ, considerando solamente la primera derivada, se obtiene:
τ θb ≈ τ (θ) + θb − θ τ 0 (θ) .
Tomando la varianza de ambos lados, se llega a
h i
2
V ar τ θb ≈ (τ 0 (θ)) V ar θb ,
debido a que θ es una constante. Como ya se habı́a visto, V ar θb está dada
−1
por IX
(θ), ası́ que
h i (τ 0 (θ))2
V ar τ θb ≈
,
IX (θ)
4.5. Propiedades asintóticas de los estimadores
171
expresión que corresponde a la cota inferior de Cramèr-Rao para estimadores
insesgados de τ (θ) , con lo que puede observarse que la varianza del estimador
máximo verosı́mil alcanza dicha cota (al igual que en el caso τ (θ) = θ).
En conclusión:
√
b − τ (θ)] −→ N [0, CICR(τ (θ))].
n[τ (θ)
Ejemplo 4.37 Considere una muestra aleatoria, X1 , . . . , Xn , de la población con distribución Bernoulli(p); se desea obtener un estimador puntual
p
para el momio, τ (p) = (1−p)
, ası́ como la varianza de dicho estimador.
El estimador máximo verosı́mil para p̂ es X̄. Por la propiedad de invarianza de los estimadores máximo verosı́miles, se tiene que el estimador
X̄n
. La varianza de este estimador puede
máximo verosı́mil para τ (p) es (1−
X̄n )
aproximarse de la siguiente manera:
h
i2 
p
d
p̂
 dp ( (1−p) ) 
V̂
= 

(1 − p̂)
IX (p)
p=p̂
i2 
1
 (1−p)2 ) 
= 

n
h
p(1−p)
p=p̂
=
p̂
X̄n
=
.
3
n(1 − p̂)
n(1 − X̄n )3
Ejemplo 4.38 Considere una sucesión de variables aleatorias, X1 , . . . , Xn ,
independientes e idénticamente distribuidas de una población con distribución F (·) que es diferenciable. Suponga que se satisface que P (Xi ≤ ψ) =
1/2, es decir, ψ es la mediana poblacional. Sea Mn la mediana muestral y
también suponga que n es impar para simplificar el argumento. Se desea
obtener la distribución asintótica de la mediana muestral.
Se calculará
p
lı́m P ( (n)(Mn − ψ) ≤ a),
n→∞
para alguna a. Sean las variables aleatorias Yi0 s definidas como
(
p
1 si Xi ≤ ψ + a/ (n)
Yi =
0 en otro caso,
172
4. Estimación puntual
se tiene que las Yi0 s son variables aleatorias Bernoulli con probabilidad de
éxito
p
pn = F (ψ + a/ (n)).
p
P
Note que el evento {Mn ≤ ψ + a/ (n)} es equivalente al evento { i Yi ≥
(n + 1)/2}. Dado que
pn → p = F (ψ) = 1/2,
P
se puede utilizar el teorema del lı́mite central, de donde √
i
Yi −npn
(npn (1−pn ))
con-
verge a una variable aleatoria Z con distribución normal estándar. Ahora,
√
(n + 1)/2 − npn
(n + 1)F (ψ) − nF (ψ + a/ n)
p
lı́m p
= lı́m
n→∞
n→∞
(npn (1 − pn )
npn (1 − pn )
√
n(F (ψ) − F (ψ + a/ n))
p
= lı́m
n→∞
npn (1 − pn )
√
1
n(F (ψ) − F (ψ + a/ n)
√
= lı́m a
n→∞
pn (1 − pn )
a/ n
= −2af (ψ).
Por lo que
p
P ( (n)(Mn − ψ) ≤ a) → P (Z ≥ −2af ψ).
p
Ası́ (n)(Mn − ψ) tiene una distribución normal con media 0 y varianza
1/[2f (ψ)]2 .
4.6.
Ejercicios
1. Sea X una variable aleatoria con distribución Gama(α + 1, β), cuya
función de densidad es
f (x; α, β) =
β α+1
xα e−βx ,
Γ(α + 1)
con x > 0, α > −1 y β > 0. Obtenga los estimadores de los parámetros
α y β por el método de momentos, para una muestra aleatoria de
tamaño n.
2. Una urna contiene bolas negras y blancas. Se toma una muestra aleatoria de tamaño n con reemplazo. ¿Cuál es el estimador máximo verosı́mil
de la razón, R, de blancas a negras en la urna? Para esto suponga que
la bola se obtiene una por una con reemplazo hasta que la bola negra
aparezca. Sea X el número de bolas requeridas no contando la última obtenida; este procedimiento se repite n veces para una muestra
aleatoria X1 , . . . , Xn .
173
4.6. Ejercicios
3. Se toma una observación de una variable aleatoria discreta X con función de densidad f (x; θ) dada en la siguiente tabla, donde θ ∈ {1, 2, 3}.
x
0
1
2
3
4
f (x; 1)
1/3
1/3
0
1/6
1/6
f (x; 2)
1/4
1/4
1/4
1/4
0
f (x; 3)
0
0
1/4
1/2
1/4
Encuentre el estimador máximo verosı́mil de θ.
4. Sea X una variable aleatoria discreta con función de densidad f (x; θ)
dada en la siguiente tabla, donde θ ∈ {1, 2, 3} y X ∈ {0, 1, 2, 3, 4}.
Se toma una muestra aleatoria de tamaño dos, (X1 , X2 ). Determine el
estimador máximo verosı́mil de θ.
x f (x; 1) f (x; 2) f (x; 3)
0
1/3
1/4
0
1
1/3
1/4
0
2
0
1/4
1/4
3
1/6
1/4
1/2
4
1/6
0
1/4
5. Sea X1 , . . . , Xn una muestra aleatoria de una población con función
de densidad
f (x; θ) = θx−2 I[θ,∞) (x).
Encuentre el estimador máximo verosı́mil de θ. También encuentre el
estimador por momentos para θ.
6. Sea X1 , X2 , X3 una muestra aleatoria de la población con distribución
U (θ, 2θ), con θ > 0.
(a) Encuentre el estimador de θ por el método de momentos.
(b) Encuentre el estimador máximo verosı́mil de θ, θ̂M V , y encuentre
una constante k tal que E(k θ̂M V ) = θ.
7. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
1
(x − µ)
f (x; µ, σ) = exp −
I(µ,∞) (x),
σ
σ
donde µ ∈ R y σ ∈ R+ son desconocidos.
174
4. Estimación puntual
(a) Demuestre que el estimador máximo verosı́mil de µ es X(1) (la
mı́nimaPestadı́stica de orden) y el estimador máximo verosı́mil de
n
σ es n1 i=1 (Xi − X(1) ).
(b) ¿Cuáles son los estimadores máximo verosı́miles de
µ + σ?
µ
µ
σ , σ2
y de
8. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
f (x; θ) =
θ2
(x + 1)e−θx I(0,∞) (x), θ > 0.
θ+1
(a) Demuestre que la densidad de X pertenece a la familia exponencial.
(b) Encuentre una estadı́stica suficiente minimal y completa.
(c) Encuentre el estimador por momentos.
(d) Encuentre el estimador máximo verosı́mil.
9. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
f (x; θ) = θxθ−1 I[0,1] (x), θ > 0.
(a) Encuentre el estimador por momentos de θ.
(b) Encuentre el estimador máximo verosı́mil de θ.
(c) Suponga que el verdadero valor de θ es 2. Utilice simulación en R
para comparar el error cuadrático medio (numéricamente) de los
estimadores en los apartados anteriores en muestras de tamaño
n = 30. ¿Qué conclusiones puede extraer?
10. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
1
f (x; θ) = e−|x−θ| ,
−∞ < θ < ∞.
2
(a) Analice la suficiencia en esta densidad.
(b) ¿Pertenece f (x; θ) a la familia exponencial?
(c) Halle el estimador por el método de momentos para θ.
(d) Halle el estimador máximo verosı́mil para θ.
11. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
P oisson(λ), con función de densidad f (x|λ). Considere que la función de distribución a priori de λ es una distribución Gama(α, β), con
función de densidad π(λ).
4.6. Ejercicios
175
(a) Encuentre la distribución a posteriori de λ.
(b) Encuentre el estimador Bayesiano de λ usando la función de pérdida del error cuadrático.
12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Geométrica(θ). Considere que la función de distribución a priori de θ
es una distribución Beta(α, β).
(a) Encuentre la distribución a posteriori de θ.
(b) Encuentre el estimador Bayesiano de θ usando la función de pérdida del error cuadrático.
13. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N ormal(µ, σ 2 ), donde σ 2 es conocida. Considere que la función de
distribución a priori de µ es una distribución N ormal(η, λ2 ).
(a) Encuentre la distribución a posteriori de µ.
(b) Encuentre el estimador Bayesiano de µ usando la función de pérdida del error cuadrático.
14. Suponga que ciertas pérdidas siguen una distribución W eibull con
parámetros θ y τ . Se tiene la siguiente muestra de 16 pérdidas: 54,
70, 75, 81, 84, 88, 97, 105, 109, 114, 122, 125, 128, 139, 146, 153. Estime los parámetros utilizando el método de percentiles, usando los
percentiles 20th y 70th .
15. Se practican n mediciones del radio de un cı́rculo. Si las mediciones
son independientes entre sı́ y los errores se distribuyen N (0, σ 2 ) con σ 2
desconocida, proponer un estimador insesgado para el perı́metro del
cı́rculo y otro para el área.
16. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño cuatro de una
población con distribución N (0, σ 2 ), donde σ es desconocida. Considere
los siguientes estimadores T1 = X12 − X2 + X4 , T2 = 31 (X12 + X22 + X42 ),
P4
P4
T3 = 41 i=1 Xi2 , T4 = 13 i=1 (Xi − X̄)2 y T5 = 21 |X1 − X2 |.
(a) ¿T1 , T2 , T3 , T4 son insesgados?
(b) De entre T1 , T2 , T3 , T4 , ¿cuál tiene el menor error cuadrático medio?
(c) ¿T5 es un estimador insesgado para σ? Si no lo es, encuentre un
múltiplo de T5 que lo sea. Calcule el error cuadrático medio de
T5 .
176
4. Estimación puntual
17. Sea X1 , . . . , Xn una muestra aleatoria de una población con función
de densidad con media µ y varianza σ 2 .
Pn
(a) Pruebe que
i=1 ai Xi es un estimador insesgado para µ para
cualquier
valor
de las constantes a1 , a2 , . . . , an que satisfagan que
Pn
a
=
1.
i=1 i
Pn
Pn
(b) Si i=1 ai = 1, prueba que V ar [ i=1 ai Xi ] se minimiza cuando
ai = 1/n, para i = 1, . . . , n.
18. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
2x
f (x; θ) = 2 I(0,θ) (x), θ > 0.
θ
(a) Estime θ por el método de momentos. Llame a este estimador T1 .
Encuentre su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de θ. Llame a este estimador T2 . Encuentre su media y su ECM.
(c) De entre todos los estimadores de la forma aYn , donde a es un
valor constante que depende de n y Yn = máx{X1 , . . . , Xn }, encuentre un estimador para θ con error cuadrático medio uniformemente más pequeño. Llame a este estimador T3 . Encuentre su
media y su ECM de T3 .
(d) Encuentre un UMVUE de θ. Nombre a este estimador T4 . Encuentre su media y su ECM.
(e) Define T5 = (Y1 + Yn )/2, donde Y1 = mı́n{X1 , . . . , Xn } y
Yn = máx{X1 , . . . , Xn }. Encuentre su media y su ECM. ¿Qué
estimador de θ preferirı́a y por qué?
19. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
W eibull(α, β), cuya función de densidad es
β
1
−x
fX (x; α) = βxβ−1 exp
I(0,∞) (x),
α
α
donde α > 0 es un parámetro desconocido, pero β > 0 se supone
conocido. Encuentre los estimadores máximo verosı́miles de α, α2 y α1
y demuestre que son consistentes en ECM.
20. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
tal que
E (Xi ) = θ + b, V ar (Xi ) = σ 2 ,
177
4.6. Ejercicios
donde b 6= 0, es una constante conocida. Pruebe que X no es un estimador consistente en error cuadrático medio para θ. Construya un
estimador insesgado para θ que sea consistente.
21. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
P areto(α, θ), cuya función de densidad es
f (x; θ) =
αθα
, x > θ, θ > 0,
xα+1
con α conocida.
(a) Encuentre el estimador máximo verosı́mil para θ. ¿Es este un
estimador insesgado para θ? Si la respuesta es negativa, encontrar
el estimador insesgado.
(b) Encuentre el estimador por el método de momentos para θ. Nuevamente verifique si el estimador es insesgado; en caso contrario,
obtenga el estimador insesgado.
(c) ¿Son consistentes los estimadores obtenidos en los incisos anteriores?
22. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Bernoulli(θ), donde x ∈ {0, 1} y 0 ≤ θ ≤ 21 . Note que el espacio
paramétrico es Θ = {θ : 0 ≤ θ ≤ 12 }.
(a) Encuentre el estimador de θ por medio del método de momentos.
Calcule su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de θ. Calcule su media
y su ECM.
(c) ¿Los estimadores son consistentes en ECM?
(d) ¿Qué estimador es más eficiente en ECM?
23. Sea X1 , . . . , Xn una muestra aleatoria discreta de la población con
distribución P oisson(λ), donde x ∈ {0, 1, 2, . . .} y 0 < λ ≤ 2. Note que
el espacio paramétrico es Θ = {λ : 0 < λ ≤ 2}.
(a) Encuentre el estimador de λ por el método de momentos. Calcule
su media y su ECM.
(b) Encuentre el estimador máximo verosı́mil de λ. Calcule su media
y su ECM.
(c) ¿Los estimadores son consistentes en ECM?
178
4. Estimación puntual
24. Considere las siguientes funciones de densidad:
f1 (x; p) = px (1 − p)1−x I{0,1} (x) donde 0 < p < 1,
log(θ)
I(0,1) (x) donde θ > 1.
θ−1
En cada caso, para una muestra aleatoria de tamaño n, ¿existirán
estadı́sticas T1 (X) y T2 (X) para ciertas funciones τ1 (p) y τ2 (θ), para
las cuales la varianza de Ti (X), i = 1, 2, coincidan con la CICR?
f2 (x; θ) = θx
25. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (θ, 1).
(a) Encuentre la CICR para la varianza de los estimadores insesgados
de τ1 (θ) = θ, τ2 (θ) = θ2 y τ3 (θ) = P(X > 0).
(b) ¿Existe un estimador insesgado para τ2 (θ) = θ2 ?. Si es ası́, encuéntrelo.
(c) ¿Existe un estimador insesgado para τ3 (θ) = P(X > 0)? Si es ası́,
encuéntrelo.
(d) Encuentre el UMVUE para τ2 (θ) = θ2 .
26. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Beta(θ, 1), donde θ > 0, es decir, con función de densidad
f (x; θ) = θxθ−1 I(0,1) (x).
(a) Encuentre el estimador máximo verosı́mil de τ (θ) = θ/(1 + θ).
(b) Encuentre una estadı́stica suficiente, y compruebe si es completa.
Pn
Pn
(c) ¿Es S = i=1 Xi una estadı́stica suficiente?. ¿Es S = i=1 Xi
una estadı́stica completa?
(d) ¿Existe una función de θ, τ (θ), para el cual exista una estimador
insesgado cuya varianza coincida con la CICR? Justifique.
(e) Encuentre un UMVUE para las siguientes funciones de θ:
(i) τ (θ) = θ
(ii) τ (θ) = 1/θ
(iii) τ (θ) = θ/(1 + θ)
27. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Bernoulli(p), con p ∈ (0, 1) con n ≥ 3.
Pn
(a) Sea U = i=1 Xi . Calcule E(X1 |U = u) y obtenga E(X1 |U ).
179
4.6. Ejercicios
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X)
de τ1 (p) = p2 , dado por
T1 (X) = X1 X2 .
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X)
de τ2 (p) = p2 (1 − p) , dado por
T2 (X) = X1 X2 (1 − X3 ).
28. Sea X1 , . . . , Xn una muestra aleatoria de distribución P oisson(λ), con
λ > 0 y n ≥ 2.
(a) Use el teorema de Rao-Blackwell para mejorar el estimador T1 (X)
de τ1 (λ) = λ, dado por
T1 (X) =
1
(X1 + X2 ).
2
(b) Use el teorema de Rao-Blackwell para mejorar el estimador T2 (X)
de τ2 (λ) = e−λ , dado por
T2 (X) = I{0} (X1 ),
(llegará a 1 −
1
n
Pn
i=1
Xi
).
(c) Use el teorema de Rao-Blackwell para mejorar el estimador T3 (X)
de τ3 (λ) = λe−λ , dado por
T3 (X) = I{1} (X1 ).
29. Sea X1 , . . . , Xn una muestra aleatoria de una población con función
de densidad
1
f (x; θ) =
I(−θ,θ) (x), θ > 0.
2θ
Encuentre, si existe, el UMVUE para θ.
30. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución U (0, θ). Sean Y1 y Yn la mı́nima y máxima estadı́sticas de orden,
respectivamente.
(a) Encuentre el estimador por momentos para θ. Llame T1 a dicho
estimador y encuentre su media y error cuadrático medio.
(b) Encuentre el estimador máximo verosı́mil de θ. Llame T2 a dicho
estimador y encuentre su media y error cuadrático medio.
180
4. Estimación puntual
(c) De entre todos los estimadores de la forma aYn , donde a es una
constante que podrı́a depender de n. Encuentre un estimador para
θ que tenga el error cuadrático medio uniformente más pequeño.
Llame T3 a dicho estimador y encuentre su media y error cuadrático medio.
(d) Encuentre el UMVUE de θ. Llame T4 a dicho estimador y encuentre su media y error cuadrático medio.
(e) Sea T5 = Y1 + Yn . Encuentre su media y error cuadrático medio.
(f) Diga ventajas y desventajas de los estimadores T1 , . . . , T5 .
31. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
θ
I(0,∞) (x), θ > 0
f (x; θ) =
(1 + x)1+θ
(a) Encuentre el estimador por momentos para θ suponiendo que θ >
1.
(b) Encuentre el estimador máximo verosı́mil de τ (θ) = 1/θ.
(c) Encuentre una estadı́stica suficiente y completa (si es que existe).
(d) Encuentre la CICR para los estimadores insesgado de τ (θ) = 1/θ.
(e) ¿Existe el UMVUE de τ (θ)? Si es ası́, encuéntrelo.
(f) ¿Existe el UMVUE de θ? Si es ası́, encuéntrelo.
32. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
f (x; µ) = e−(x−µ) I(µ,∞) (x), µ ∈ R.
(a) Demuestre que T (X) = X(1) = mı́n {X1 , . . . , Xn } es una estadı́stica suficiente y completa.
(b) Encuentre la única función de X(1) que sea el UMVUE de µ.
33. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
P oisson(λ). Sea τ (λ) = (1 + λ)e−λ .
(a) Obtenga el estimador máximo verosı́mil para τ (λ).
(b) Obtenga un estimador insesgado para τ (λ).
(c) Obtenga un UMVUE para τ (λ). Sugerencia: encuentre un estimador insesgado de τ (λ) y utilice el teorema de Rao-Blackwell
para mejorarlo.
4.6. Ejercicios
181
34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Geométrica(θ) con función de densidad
P(X = x) = θ(1 − θ)x , x = 0, 1, 2, . . . , 0 < θ < 1.
(a) Obtenga el estimador por el método de momentos para θ.
(b) Obtenga el estimador máximo verosı́mil para θ.
(c) Calcule la CICR para la varianza de los estimadores insesgados
de θ.
(d) Encuentre un UMVUE para θ.
35. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (θ, θ2 ), θ ∈ R.
(a) ¿Existe una estadı́stica suficiente unidimensional para θ?
(b) Encuentra una estadı́stica suficiente bidimensional para θ.
(c) ¿Es X̄ un UMVUE para θ?
(d) ¿θ es un parámetro de localización o escala?
36. Sea T una variable aleatoria que toma valores en {0, 1, 2, ..., 6} y sean
g1 (t) y g2 (t) dos densidades que corresponden a:
La primera, g1 (t) es la probabilidad de que, de 5 monedas lanzadas al
aire, el número de águilas observadas, T sea igual a t.
La segunda, g2 (t) es la probabilidad de que al lanzar un dado numerado
del 1 al 6, T, la cara que quedó hacia arriba, sea igual a t.
Como una convención se denotará por f (t; θ1 ) = g1 (t) y de manera
similar f (t; θ2 ) = g2 (t), ası́, sin ni siquiera especificar la naturaleza
de θ1 y de θ2 . El espacio paramétrico será Θ = {θ1 , θ2 } con sólo dos
elementos.
a) Se observó t = 1. Exhiba la estimación máximo verosı́mil de
θ ∈ Θ.
b) Repita el inciso anterior si lo que se observó fue t = 2.
c) Observe que sucede algo que es muy raro en planteamientos estadı́sticos: hay dos valores de t para los cuales al hacer la estimación máximo verosı́mil de θ, parece que se puede tener la certeza
de que en esos dos casos, ahora sı́, la estimación se convierte en
identificación (del verdadero valor de θ). Diga cuáles son esos dos
valores y explique porqué hay identificación.
Capı́tulo 5
Estimación por intervalos
Es usual iniciar el estudio de la inferencia estadı́stica con el planteamiento
de estimación puntual para el parámetro (o los parámetros) de una distribución. La perspectiva que se analizó en el capı́tulo anterior no precisa qué
tan cerca del parámetro se encuentra la estimación, sin embargo, es posible
medir el error en términos de la variación muestral o error estándar de dicho
estimador; en este caso se habla de un margen de variación para el valor que
el parámetro puede tomar.
En esta parte se abordará otro enfoque: el planteamiento de estimación
por intervalos.
Para inferir respecto a una caracterı́stica de la población, se prefiere ahora proponer un rango de valores que tenga la posibilidad de contener al
parámetro. Esto se logra generalmente mediante un intervalo que es entendido como un conjunto de valores (calculado a partir de los datos de una
muestra) en el cual puede encontrarse el verdadero valor del parámetro con
un determinado nivel de certeza o confianza. Se comenzará introduciendo el
concepto de intervalo de confianza.
5.1.
Intervalos de confianza
Es común que en los medios de comunicación como radio, televisión, revistas
o periódicos, ası́ como en redes sociales, se presenten resultados de estudios
estadı́sticos de los temas más diversos. Las conclusiones suelen presentarse con frases como la siguiente: “El estudio muestra que en el 75 % de los
casos se experimenta una mejorı́a (de cierta enfermedad), siendo el margen
de error del 6 % y el nivel de confianza del 95 %”. El cálculo de intervalos
de confianza para la estimación de parámetros permite hacer declaraciones
183
184
5. Estimación por intervalos
sobre qué valores se pueden esperar para una caracterı́stica que se esté estudiando; aunque, a diferencia de la estimación puntual, se habla de un nivel de
confianza que tendrá una influencia en el intervalo calculado: intuitivamente
la confianza se refiere a la certeza con la que el método dará una respuesta
correcta, y por lo tanto se pedirá que ese nivel de confianza sea alto.
Replanteando el problema de encontrar un rango de valores para θ, se
tiene lo siguiente: si θ ∈ Θ ⊆ R (el espacio paramétrico) y se quiere disminuir
el grado de desconocimiento de θ en f (x; θ), se debe seleccionar un subconjunto Θ1 de Θ en el cual pueda afirmarse, con un margen de error pequeño,
que se encuentra el valor de θ que caracteriza la distribución de la población.
Por ejemplo, suponga que se tiene una muestra aleatoria X1 , . . . , Xn de una
población con distribución N (µ, σ 2 ), con σ 2 conocida y µ desconocida y se
desea estimar el parámetro µ. La estadı́stica T (X) = X̄ tiene distribución
N (µ, σ 2 /n), entonces,
Z :=
X̄ − µ
√ ∼ N (0, 1).
σ/ n
Note que
P[−1.96 <
=
Z < 1.96] = φ(1.96) − φ(−1.96) = φ(1.96) − (1 − φ(1.96))
2φ(1.96) − 1 = 2(0.9725) − 1 = 0.95.
A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo
siguiente:
X̄ − µ
√ < 1.96,
−1.96 <
σ/ n
si y sólo si
si y sólo si
σ
σ
−1.96 √ < X̄ − µ < 1.96 √ ,
n
n
σ
σ
X̄ − 1.96 √ < µ < X̄ + 1.96 √ ,
n
n
de donde
σ
σ
√
√
P X̄ − 1.96
< µ < X̄ + 1.96
= 0.95.
n
n
Lo que indica la expresión
σ
σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √
= 0.95,
n
n
5.1. Intervalos de confianza
185
es que hay una probabilidad de 0.95 de obtener una muestra tal que el
intervalo
σ
σ
√
√
, X̄ + 1.96
,
X̄ − 1.96
n
n
incluya al valor de µ. Esto motiva la definición 5.1 de intervalo aleatorio que
se verá posteriormente, aunque en este momento, y haciendo referencia al
ejemplo anterior, se puede adelantar que un intervalo en el que al menos uno
de los extremos es una variable aleatoria se llama intervalo aleatorio.
Una vez usada la distribución de X̄ para establecer la conclusión anterior,
se obtiene un valor particular de x̄, con base en una muestra, y se determina
el intervalo numérico
σ
σ
x̄ − 1.96 √ , x̄ + 1.96 √
.
(5.1)
n
n
En este caso no tiene sentido hablar de la probabilidad de que el intervalo
contenga al parámetro, ya que no hay ninguna variable aleatoria. Ahora, el
0.95 expresa el margen de confianza con el que se puede afirmar que el
valor desconocido de µ está entre los extremos del intervalo que ya está fijo,
en el sentido de que repitiendo el muestreo un gran número de veces, se
obtendrı́an intervalos distintos, entre los cuales aproximadamente el 95 % de
estos intervalos contienen el valor correcto
de µ.
Por lo tanto, el intervalo numérico x̄ − 1.96 √σn , x̄ + 1.96 √σn se llama
intervalo de confianza para µ con un nivel del 95 %.
Observación 5.1 Un ejercicio para analizar el concepto de intervalo de confianza consiste en simular algunas muestras de una determinada población
normal, calcular los intervalos correspondientes a un cierto nivel de confianza
y observar la proporción de estos intervalos que contienen al verdadero valor
de la media.
El resultado de un ejercicio de simulación se muestra resumido en las
gráficas de la figura 5.1, en donde se ha utilizado la expresión (5.1) para el
cálculo de los intervalos.
Cada una de las gráficas representa intervalos correspondientes a 100
muestras para diferentes tamaños de muestra, todas con µ = 100.
El ejercicio se hizo utilizando el software estadı́stico R.
Las lı́neas en negro representan los intervalos que no contienen al verdadero valor de la media µ en cada uno de los casos considerados.
Se usó un nivel de confianza del 95 %.
186
5. Estimación por intervalos
85
90
95 100
110
100
0
20
40
60
80
100
80
60
40
20
0
0
20
40
60
80
100
Ası́, la primera gráfica representa los intervalos correspondientes a 100
muestras de tamaño 10 de una distribución normal con media igual a 100 y
σ = 10.
85
90
95 100
110
85
90
95 100
110
Figura 5.1: Intervalos correspondientes a 100 muestras para tamaños de
muestra 10, 30 y 50, respectivamente y desviación estándar de 10.
Si se desea un intervalo del 99 % de confianza en este caso de la distribución normal, primero se debe observar que:
P[−2.576 < Z < 2.576] = 0.99.
Entonces, a partir de la expresión anterior, se obtiene que
σ
σ
x̄ − 2.576 √ , x̄ + 2.576 √
n
n
es un intervalo del 99 % de confianza para µ. Note que a mayor nivel de
confianza, mayor es la longitud del intervalo. Usualmente se fija un nivel de
confianza y entonces se genera el intervalo.
187
5.1. Intervalos de confianza
Observe también que en el primer ejemplo x̄ − 1.96 √σn , x̄ + 1.96 √σn no
es el único intervalo del 95 % de confianza para µ, pues por ejemplo, también
P[−1.74 < Z < 2.37)]
= φ(2.37) − φ(−1.74)
= φ(2.37) − 1 + φ(1.74)
= 0.95.
Sin embargo, el de longitud mı́nima es el originado por P[−1.96 < Z <
1.96] = 0.95.
En general, si para este caso de la distribución N µ, σ 2 , se tiene que:
X̄ − µ
√ < b = γ,
P a<
σ/ n
entonces,
a<
X̄ − µ
σ
σ
σ
σ
√ < b ⇔ a √ < X̄ − µ < b √ ⇔ X̄ − b √ < µ < X̄ − a √ .
σ/ n
n
n
n
n
Suponga que se desea minimizar la longitud del intervalo dada por (b−a) √σn ,
con la restricción de que P[a < Z < b] = 0.95, es decir, FZ (b)−FZ (a) = 0.95,
donde FZ (z) es la función de distribución de una población N (0, 1) . Para
este problema de optimización, se define la función
L = b − a − λ(FZ (b) − FZ (a) − 0.95).
Entonces,
∂L
= 0 ⇔ −1 + λfZ (a) = 0 ⇔ λfZ (a) = 1
∂a
y también
∂L
= 0 ⇔ 1 − λfZ (b) = 0 ⇔ λfZ (b) = 1.
∂b
De donde, fZ (a) = fZ (b); por lo tanto, a = −b debido a la simetrı́a (en el
cero) de fZ . Es decir, la distancia b − a será minimizada (para un área fija)
cuando fZ (a) = fZ (b).
Definición 5.1 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ)
y τ (θ) una función de θ. Sean T1 (X) y T2 (X) de forma que T1 ≤ T2 y
P(T1 < τ (θ) < T2 ) = γ (γ no depende de θ). Entonces a (T1 , T2 ) se le llama
un intervalo aleatorio y a un valor del intervalo aleatorio (t1 , t2 ), se le llama
intervalo de confianza o un intervalo del γ(100 %) de confianza para τ (θ).
188
5. Estimación por intervalos
Como ilustración, considere a X1 , . . . , Xn una muestra aleatoria de la
población con distribución N (θ, 9). Suponga que T1 (X) = X̄ − √6n y T2 (X) =
X̄ + √6n y que (T1 , T2 ) forma un intervalo para τ (θ) = θ. En este caso,
6
6
P X̄ − √ < θ < X̄ + √
n
n
X̄ − θ
= P −2 < √ < 2
3/ n
= φ(2) − φ(−2)
=
2φ(2) − 1
=
2(0.9972) − 1 = 0.9544,
siendo 0.9544 el nivel de confianza. Por ejemplo, si se tiene una muestra
aleatoria de 25 observaciones, con una media muestral de 17.5, entonces se
dice que 17.5 − √625 , 17.5 + √625 es un intervalo del 95.44 % de confianza
para θ.
Note que alguna de las dos estadı́sticas (pero no ambas) T1 (X) o T2 (X)
puede ser constante; es decir, alguno de los dos extremos del intervalo aleatorio (T1 , T2 ) puede ser constante.
Definición 5.2 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ).
Sean T1 (X) una estadı́stica para la cual P(T1 < τ (θ)) = γ; entonces T1 induce el intervalo de confianza unilateral inferior (t1 (x), ∞) con un nivel de
confianza γ. De manera análoga, si T2 (X) es una estadı́stica para la cual
P(τ (θ) < T2 ) = γ; entonces T2 induce el intervalo de confianza unilateral
superior (−∞, t2 (x)) con un nivel de confianza γ (γ no depende de θ).
Observación 5.2 Si ya se ha determinado un intervalo de confianza para
θ, entonces, se puede determinar una familia de intervalos de confianza. De
manera más especı́fica, para un nivel de confianza del γ(100 %) dado; si se
tiene un intervalo de confianza para θ al γ(100 %) de confianza, entonces se
puede obtener un intervalo con el mismo nivel de confianza para τ (θ) donde τ
es una función creciente (estricta). Por ejemplo, si τ es una función creciente
y (T1 , T2 ) es un intervalo de confianza para θ, entonces (τ (T1 ), τ (T2 )) será
un intervalo de confianza para τ (θ) pues
γ = P[T1 (X) < θ < T2 (X)] = P[τ (T1 (X)) < τ (θ) < τ (T2 (X))].
No obstante, el que el intervalo inicial para θ fuera el más corto, esto no
implica que el intervalo para τ (θ) sea el más corto.
A continuación se describe un método para encontrar intervalos de confianza, el cual se conoce como el método de la cantidad pivotal o simplemente
método pivotal.
5.1. Intervalos de confianza
5.1.1.
189
Método pivotal para encontrar intervalos de
confianza
Definición 5.3 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ).
Sea Q = q(X1 , X2 , ..., Xn ; θ), es decir Q es una función de la muestra aleatoria y de θ. Si la distribución de Q no depende de θ, entonces a Q se le
llama cantidad pivotal.
Observación 5.3 A veces la cantidad pivotal Q tiene sólo una distribución asintótica que no depende de θ, en ese caso, se obtendrá una solución
aproximada.
Ejemplo 5.1 Sea X1 , . . . , Xn una muestra aleatoria de la población con
distribución N (θ, 1) y sea τ (θ) = θ. En este caso, X̄ ∼ N (θ, n1 ), entonces
Q1 :=
(X̄−θ)
√
1/ n
∼ N (0, 1) por lo que Q1 es una cantidad pivotal. También
Q2 := X̄ − θ es una cantidad pivotal pues Q2 ∼ N (0, n1 ) (su distribución
no depende de θ). Pero Q3 := X̄
θ no es una cantidad pivotal, pues Q3 ∼
N (1, θ21n ).
Definición 5.4 (método pivotal para intervalos de confianza) . Sea
Q = q(x1 , . . . , xn ; θ) una cantidad pivotal. Entonces, para cualquier γ ∈
(0, 1), existirán q1 y q2 que dependen de γ tal que
P [q1 < Q < q2 ] = γ.
Si para cada posible muestra (x1 , . . . , xn ) se cumple que
q1 < q(x1 , . . . , xn ; θ) < q2 ,
si y sólo si
t1 (x1 , . . . , xn ) < τ (θ) < t2 (x1 , . . . , xn ) ,
para funciones t1 y t2 que no dependen de θ, entonces (t1 , t2 ) es un intervalo
del γ(100) % de confianza para τ (θ).
La longitud esperada serı́a E [t2 (X1 , . . . , Xn ) − t1 (X1 , . . . , Xn )] .
En este método, la desigualdad q1 < Q < q2 se reescribe, invierte o
pivotea como t1 (x) < τ (θ) < t2 (x).
Como se vio antes en el ejemplo de la distribución normal, puede haber distintos intervalos que proporcionen el mismo nivel de confianza, por
lo que se busca el que tenga longitud mı́nima. Desde una perspectiva más
general, el siguiente resultado será de utilidad para encontrar el intervalo de
confianza más corto cuando la cantidad pivotal tenga una distribución con
una densidad unimodal.
190
5. Estimación por intervalos
Proposición 5.1 Sea f (x) una densidad unimodal y F (x) su función de
distribución asociada. Sea [a, b] un intervalo que satisface que
F (b) − F (a) = 1 − α,
(5.2)
para α tal que 0 < α < 1. Entonces de entre todos los intervalos que cumplen
(5.2), [a0 , b0 ] tiene la longitud mı́nima si f (a0 ) = f (b0 ) > 0 y a0 ≤ x∗ ≤ b0 ,
donde x∗ es la moda de f (x)
. Si además f (x) es simétrica, entonces a0 =
F −1 α2 y b0 = F −1 1 − α2 .
Demostración. Se trata de minimizar la longitud b − a sujeta a F (b) −
F (a) = 1 − α. Usando multiplicadores de Lagrange, se define:
L (a, b, λ) = b − a + λ(1 − α − F (b) + F (a)),
de donde:
∂L
= 1 − λf (a) = 0,
∂a
∂L
= 1 − λf (b) = 0
∂b
y
1 − α − F (b) + F (a) = 0.
De las primeras dos ecuaciones se obtiene que f (a) = f (b) > 0. Si x∗ ∈
/
[a, b] y f (a) = f (b), entonces b − a > b0 − a0 , pues f (x) es unimodal y
F (b) − F (a) = F (b0 ) − F (a0 ) .
Ası́, por ejemplo, si la cantidad pivotal tiene una distribución Ji-cuadrada,
los cuantiles de orden α/2 y 1 − α/2 de esta distribución contendrán a la moda de la distribución para α pequeño. Por facilidad de cálculos suele usarse
α/2 y 1 − α/2, pero si se desea obtener el intervalo más corto se tendrı́an
que buscar a y b tales que f (a) = f (b).
Algunos ejemplos
Ejemplo 5.2 Suponga que se tiene una variable aleatoria con una distribución Exponencial con parámetro λ = θ1 . Obtenga un intervalo del 90 % de
confianza para θ.
Como X ∼ Exponencial(1/θ), sus funciones de densidad y de distribución
son, respectivamente,
f (x; θ)
=
FX (x)
=
1 −x/θ
e
,
θ
1 − e−x/θ ,
191
5.1. Intervalos de confianza
con x > 0 y θ > 0. Sea Y =
X
θ ,
entonces
FY (y)
P [Y ≤ y]
X
= P
≤y
θ
= P [X ≤ θy]
=
=
FX (θy),
que implica que Y ∼ Exponencial(1). Por lo tanto Y = X
θ puede ser una
cantidad pivotal ya que es una función de la muestra X y del parámetro θ,
y su distribución no depende de θ.
Ası́ que el intervalo del 90 % de confianza para θ puede determinarse a
partir de
X
< b = 0.90,
P a<
θ
donde
P
X
<a
=
θ
P [X < aθ]
1 − e−a = 0.05
=
lo que implica que
e−a
=
0.95
a
=
− log(0.95) = 0.051,
y por otro lado,
P
X
>b
=
θ
P [X > bθ]
=
e−b = 0.05
lo que implica que
b = − log(0.05) = 2.996,
entonces
X
< 2.996 ,
0.051 <
θ
X
X
<θ<
.
2.996
0.051
Por lo tanto,
X
X
2.996 , 0.051
es el intervalo del 90 % de confianza para θ.
192
5. Estimación por intervalos
Ejemplo 5.3 Sea X una variable aleatoria con distribución Uniforme en el
intervalo (0, θ). Obtener un intervalo del 95 % de confianza para θ.
Se sabe que
fX (x)
FX (x)
1 (x)
I(0,θ) ,
Zθ x
1
x
=
dt = .
θ
0 θ
=
Sea Y una variable aleatoria definida como Y =
FY (y)
X
θ ,
entonces
P (Y ≤ y)
X
≤y
= P
θ
= P (X ≤ θy)
=
= FX (θy)
θy
=
θ
= y.
Por lo tanto, la variable aleatoria Y = X
θ tiene una distribución Uniforme
X
en el intervalo (0, 1). Ası́, Q = θ es una cantidad pivotal ya que Q es una
función de la muestra X y del parámetro θ y la distribución de Q no depende
de θ porque Q ∼ U nif orme (0, 1).
Para obtener un intervalo del 95 % de confianza para θ puede usarse la
cantidad pivotal de la siguiente manera:
P [a < Q < b] = 0.95.
Como Q ∼ U nif orme (0, 1), se pueden tomar cualesquiera cantidades a y b
pertenecientes al intervalo (0, 1) tal que b − a = 0.95. Esto implica que se
podrı́a tomar a ∈ (0, 0.05) y b = 0.95 + a. Entonces, el intervalo del 95 %
confianza para θ estarı́a determinado por lo siguiente:
X
<b
= 0.95
P a<
θ
X
X
P
<θ<
= 0.95.
b
a
Por lo tanto, Xb , X
del 95 % de confianza para θ. O de
a es un intervalo
X
X
manera equivalente, 0.95+a , a es un intervalo del 95 % de confianza para
θ.
5.1. Intervalos de confianza
193
La longitud del intervalo es
L=
X
X
−
,
a
0.95 + a
y la longitud esperada del intervalo es
1
1
−
E [X] .
E [L] =
a 0.95 + a
Si se buscara un intervalo de confianza con menor longitud esperada, se
buscarı́a minimizar E [L], lo que equivale a encontrar el valor de a tal que
E [L] alcance su mı́nimo, y este valor es cuando a = 0.05, lo que implica
que b = 1. Por lo tanto,
el intervalo del 95 % para θ con longitud esperada
1
mı́nima es X, 0.05
X .
Ejemplo 5.4 Suponga que X1 , X2 , . . . , Xn P
es una muestra aleatoria de una
n
población con distribución Exponencial(θ). i=1 P
Xi es una estadı́stica sufi2 n
i=1 Xi
∼ χ2(2n) . Entonces
ciente y tiene distribución Gama(n, θ), además
θ
2
Pn
X
i
i=1
puede ser la cantidad pivotal para obtener un
la variable Q =
θ
intervalo del 100(1 − α) % de confianza para θ. Ası́ que
Pn
2 i=1 Xi
< q1−α/2 = 1 − α,
P qα/2 <
θ
donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución
χ2(2n) . El intervalo para θ que se deduce de esta última expresión es
Pn
Pn
2 i=1 Xi 2 i=1 Xi
,
.
q1−α/2
qα/2
5.1.2.
El método de la cantidad pivotal para funciones
de distribución continuas
Cuando se tiene una muestra aleatoria de una población cuya función de
distribución es continua en x, es posible construir una cantidad pivotal como
lo muestra el siguiente resultado.
Proposición 5.2 Sea X1 , ..., Xn una muestra aleatoria de la población con
función de densidad f (x; θ) , tal que la función
Pn de distribución correspondiente F (x; θ) es continua en x. Entonces − i=1 ln F (Xi ; θ) o alternativan
Q
mente
F (Xi ; θ), es una cantidad pivotal para estimar θ.
i=1
194
5. Estimación por intervalos
Demostración. F (Xi ; θ) tiene distribución Uniforme en el intervalo (0, 1) ,
pues si U = F (X; θ) , se tiene que
P (U ≤ u)
=
P [F (X; θ) ≤ u]
P X ≤ F −1 (u)
F F −1 (u)
=
u,
=
=
para 0 < u < 1. Por lo tanto, − ln F (Xi ; θ) tiene distribución Exponencial
con parámetro 1, debido a lo siguiente:
P [− ln F (Xi ; θ) ≥ u]
=
P [ln F (Xi ; θ) ≤ −u]
P F (Xi ; θ) ≤ e−u
=
e−u ,
=
para u > 0, es decir,
P [− ln F (Xi ; θ) ≤ u] = 1 − e−u ,
expresión que corresponde a la función de distribución de una variable aleatoria Exponencial (1).
Ası́ que puede concluirse que
−
n
X
ln F (Xi ; θ) ,
(5.3)
i=1
tiene distribución Gama con parámetros n y 1, al ser la suma de variables
aleatorias independientes con distribución Exponencial (1).
Ahora (5.3) puede usarse como una cantidad pivotal de la siguiente manera:
"
#
"
#
n
n
X
X
P q1 < −
ln F (Xi ; θ) < q2
= P −q2 <
ln F (Xi ; θ) < −q1
i=1
i=1
"
= P −q2 < ln
"
= P e
−q2
<
n
Y
#
F (Xi ; θ) < −q1
i=1
n
Y
#
−q1
F (Xi ; θ) < e
i=1
"
= P a<
n
Y
i=1
#
F (Xi ; θ) < b ,
195
5.1. Intervalos de confianza
donde q1 y q2 son los cuantiles de la distribución Gama (n, 1) que corresponderán al nivel de confianza deseado y con 0 < a < b < 1. La expresión
anterior es equivalente a
#
"
n
X
ln F (Xi ; θ) < − ln a .
P − ln b < −
i=1
Por ejemplo, si se tiene una muestra aleatoria de tamaño n de la población
con densidad
f (x; θ) = θxθ−1 , 0 < x < 1,
cuya función de distribución está dada por
Z x
F (x; θ) =
θuθ−1 du
0
=
θ
uθ
θ
x
= xθ ,
u=0
para 0 < x < 1. Si se seleccionan a y b tales que:
"
#
n
Y
P a<
F (Xi ; θ) < b = 1 − α
i=1
o
"
P q1 < −
n
X
#
ln F (Xi ; θ) < q2 = 1 − α,
i=1
donde q1 = − ln b y q2 = − ln a son los cuantiles de una distribución Gama
(n, 1) seleccionados de tal manera que la probabilidad sea de 1 − α. Para
n
n
Q
Q
este caso particular,
F (Xi ; θ) =
Xiθ , por lo que
i=1
i=1
"
1−α
= P a<
"
= P a<
n
Y
i=1
n
Y
#
F (Xi ; θ) < b
#
Xiθ
<b
i=1
"
= P ln a < ln
n
Y
#
Xiθ
< ln b
i=1
"
= P ln a <
n
X
i=1
#
ln Xiθ
< ln b
196
5. Estimación por intervalos
"
= P ln a < θ
n
X
#
ln Xi < ln b
i=1
"
= P ln a < θ ln
n
Y
#
Xi < ln b
i=1



= P

ln a 
ln b
,
<θ<
n
n

Q
Q
ln
Xi
ln
Xi
i=1
i=1
donde la última desigualdad se sigue del hecho de que ln
n
Q
Xi es negativo.
i=1
Entonces puede concluirse que





ln
ln b
n
Q
i=1
,
xi ln
ln a
n
Q
xi



i=1
es un intervalo del 100(1 − α) % de confianza para θ.
5.1.3.
Método basado en estadı́sticas suficientes
En algunas ocasiones es difı́cil obtener una cantidad pivotal exacta, ası́ que
se usan otras técnicas para obtener intervalos de confianza. El método presentado a continuación se basa en estadı́sticas suficientes o estimadores que
son funciones de ellas, como los obtenidos por máxima verosimilitud.
Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con función
de densidad f (x; θ), donde θ ∈ R es el valor verdadero, y Θ ⊆ R es el espacio paramétrico. Sea T (X) una estadı́stica, que puede ser una estadı́stica
suficiente o el estimador máximo verosı́mil (EMV) del parámetro de interés.
En general, la elección de T (X) podrı́a depender de la facilidad de las operaciones necesarias para obtener los intervalos de confianza. Una de esas
operaciones se refiere al cálculo de la función de distribución de T .
Sea fT (t; θ) la función de densidad de T . Se hará el procedimiento para
cuando T es una variable aleatoria continua, pero éste es análogo al caso
discreto.
197
5.1. Intervalos de confianza
Defina dos funciones h1 (θ) y h2 (θ) como
Z
h1 (θ)
fT (t; θ)dt
= p1 ,
fT (t; θ)dt
= p2 ,
(5.4)
−∞
Z ∞
h2 (θ)
donde p1 y p2 son números fijos tales que p1 > 0, p2 > 0 y p1 +p2 < 1. Suponga que h1 (θ) y h2 (θ) son funciones monótonas crecientes, y que h1 (θ) < h2 (θ)
(de manera análoga se podrı́an considerar funciones monótonas decrecientes).
Sea t0 el valor observado de T , obtenido de la muestra observada
x = (x1 , x2 , . . . , xn ), es decir, T (x) = t0 . Para cualquier valor de t0 , pueden obtenerse v1 = v1 (t0 ) y v2 = v2 (t0 ) tales que (v1 , v2 ) será el intervalo
del (1 − p1 − p2 )100 % de confianza para θ.
Note que h1 (θ) < t0 < h2 (θ) si y sólo si v1 < θ < v2 para cualquier
muestra observada x. Por definición de h1 (θ) y h2 (θ) se tiene que
P [h1 (θ) < T (X) < h2 (θ)]
1 − p1 − p2 ,
=
que es equivalente a
P [v1 (x) < θ < v2 (x)]
=
1 − p1 − p2 ,
lo cual establece que (v1 , v2 ) es el intervalo del (1−p1 −p2 )100 % de confianza
para θ.
Para clarificar esta forma de obtener intervalos de confianza, a continuación se muestran algunos ejemplos.
Ejemplo 5.5 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución U nif orme(0, θ), cuya función de densidad es
f (x; θ) =
1
I(0,θ) (x).
θ
Determinar un intervalo de confianza para θ usando estadı́sticas suficientes.
Se sabe que Yn = máx{X1 , . . . , Xn } es una estadı́stica suficiente y es el
estimador máximo verosı́mil de θ, además la función de densidad de Yn es:
n y n−1
fYn (y; θ) =
I(0,θ) (y).
θ θ
Dados p1 y p2 , es necesario encontrar h1 (θ) y h2 (θ), las cuales son soluciones
de las ecuaciones (5.4). Entonces, se tienen que encontrar los valores h1 (θ)
198
5. Estimación por intervalos
y h2 (θ) tales que
h1 (θ)
Z
p1
=
nθ−n y n−1 dy,
0
θ
Z
p2
nθ−n y n−1 dy.
=
h2 (θ)
Se tiene que
n
θ p1
h1 (θ)
Z
ny n−1 dy,
=
0
n
θ p2
Z
θ
ny n−1 dy,
=
h2 (θ)
resolviendo las integrales,
n
θn p1
=
[h1 (θ)] ,
θn p2
=
θn − [h2 (θ)] ,
n
de donde,
1/n
h1 (θ)
=
θp1 ,
h2 (θ)
=
θ(1 − p2 )1/n .
Por definición de h1 (θ) y h2 (θ) se tiene que P [h1 (θ) < T (X) < h2 (θ)] =
1 − p1 − p2 , es decir,
h
i
1/n
= 1 − p1 − p2 ,
P θp1 < Yn < θ(1 − p2 )1/n
despejando θ, se obtiene P [v1 (x) < θ < v2 (x)] = 1 − p1 − p2 , es decir,
i
h
−1/n
P Yn (1 − p2 )−1/n < θ < Yn p1
= 1 − p1 − p2 .
−1/n
es un intervalo del (1 − p1 − p2 )100 % de
Ası́ que Yn (1 − p2 )−1/n , Yn p1
−1/n
confianza para θ. La longitud del intervalo es L = Yn p1
− (1 − p2 )−1/n
−1/n
y su longitud esperada es E[L] = E [Yn ] p1
− (1 − p2 )−1/n . Para hacer
−1/n
la longitud más corta se necesita minimizar p1
− (1 − p2 )−1/n sujeto a
que 1 − p1 − p2 = 1 − α y 0 < p1 + p2 < 1, lo que se obtiene eligiendo p2 = 0
y p1 = α.
5.1. Intervalos de confianza
199
Ejemplo 5.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Bernoulli con parámetro θ ∈ (0, 1). Se desea encontrar un
intervalo de confianza para θ.
En este ejemplo se usará una estadı́stica suficiente
para encontrar un
Pn
intervalo de confianza para θ. Se sabe que S(X) = i=1 Xi es una estadı́stica
suficiente para θ, y además S(X) ∼ Binomial(n, θ) donde S(X) toma los
valores enteros s = 0, . . . , n. Suponga que se observa una muestra X = x y
se obtiene el valor de la estadı́stica suficiente S(x) = s0 . Para obtener un
intervalo de confianza del (1 − p1 − p2 )100 % de confianza para θ se necesita
resolver (para θ) las siguientes ecuaciones:
p1
=
p2
=
s0 X
n
θs (1 − θ)n−s ,
s
s=0
n X
n s
θ (1 − θ)n−s .
s
s=s
0
Esto dará las soluciones θ1 y θ2 , respectivamente, tal que el intervalo
(mı́n{θ1 , θ2 }, máx{θ1 , θ2 }) será un intervalo de confianza para θ al (1 − p1 −
p2 )100 %.
Para clarificar el ejemplo, suponga que se observa una muestra de tamaño
n = 20 en donde el valor que toma la estadı́stica suficiente es S = 4. Considere p1 = 0.0509 y p2 = 0.0159, y se necesita obtener un intervalo del
(1 − p1 − p2 )100 % = 93.32 % de confianza. Para obtener los lı́mites del intervalo de confianza es necesario obtener los valores de θ para los cuales se
cumplen las ecuaciones anteriores, es decir,
0.0509
=
0.0159
=
4 X
20 s
θ (1 − θ)20−s ,
s
s=0
20 X
20 s
θ (1 − θ)20−s .
s
s=4
Note que en estas ecuaciones el único valor desconocido es θ. Las soluciones
de estas ecuaciones son, aproximadamente, θ1 = 0.40 y θ2 = 0.05, respectivamente, por lo tanto (0.05, 0.40) es el intervalo del 93.32 % de confianza
para θ.
Los valores p1 y p2 se eligen tal que (1 − p1 − p2 )100 % sea el nivel de
confianza requerido, usando la notación igual a (1 − α)100 % como en las
demás secciones de este capı́tulo. En la práctica es usual elegir p1 y p2 de
manera simétrica, es decir, p1 = p2 , sin embargo, dado que muchas veces este
200
5. Estimación por intervalos
método se aplica en el caso de variables aleatorias discretas, en ocasiones será
difı́cil obtener valores exactos y se usarán cantidades aproximadas.
5.2.
Intervalos para muestras de la distribución normal
Primero se recordarán algunos resultados técnicos para facilitar la construcción de dichos intervalos. La demostración de estos resultados se omitirá en
virtud de que ya se han estudiado con detalle en este texto en el Capı́tulo 3.
(a) Si X ∼ N (0, 1), entonces X 2 ∼ χ2(1) .
(b) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que para cualquier j ∈ {1, . . . , n} Xj ∼ χ2(mj ) , entonces X1 + X2 , · · · + Xn ∼
χ2(m1 +···+mn ) .
(c) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que para cualquier j ∈ {1, . . . , n}, Xj ∼ N (µ, σ 2 ); entonces
n
X
(Xj − µ)2
∼ χ2(n) .
2
σ
j=1
(d) Si X1 , X2 , . . . , Xn son variables aleatorias independientes tales que para cualquier j ∈ {1, . . . , n}, Xj ∼ N (µ, σ 2 ); entonces
n−1 2
S ∼ χ2(n−1) .
σ2
(e) Si X y Y son variables aleatorias independientes tales que X ∼ N (0, 1)
y Y ∼ χ2(k) , entonces
X
p
∼ t(k) .
Y /k
(f) Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, σ 2 ), entonces
X̄ − µ
√ ∼ t(n−1) .
S/ n
(g) Si U y V son variables aleatorias independientes tales que U ∼ χ2(n) y
V ∼ χ2(m) , entonces
U/n
∼ F(n,m) .
V /m
5.2. Intervalos para muestras de la distribución normal
201
Ahora, se encontrarán intervalos de confianza para algunas cantidades
relacionadas con poblaciones Gaussianas.
5.2.1.
Intervalos para la media
Caso 1: σ 2 conocida.
Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, σ 2 ), con σ 2 conocida.
X̄−µ
√ ∼ N (0, 1).
Se sabe que X̄ ∼ N (µ, σ 2 /n), entonces σ/
n
X̄−µ
√ . De aquı́ que Q ∼ N (0, 1).
La cantidad pivotal es Q = σ/
n
Sean zα/2 , z1−α/2 ∈ R tales que P(Q ≤ zα/2 ) = α/2 y P(Q ≤ z1−α/2 ) =
1 − α/2.
Note que
P(zα/2
<
Q < z1−α/2 ) = P(Q ≤ z1−α/2 ) − P(Q ≤ zα/2 )
=
(1 − α/2) − α/2 = 1 − α.
También observe que por simetrı́a de la densidad normal estándar zα/2 =
−z1−α/2 .
Por ejemplo, si 1 − α = 0.95, entonces α = 0.05, 1 − α/2 = 0.975 y
z0.975 = 1.96.
Ası́,
P(−z1−α/2 < Q < z1−α/2 ) = 1 − α,
si y sólo si
P −z1−α/2
X̄ − µ
√ < z1−α/2
<
σ/ n
= 1 − α,
si y sólo si
σ
σ
P −z1−α/2 √ < X̄ − µ < z1−α/2 √
n
n
= 1 − α,
si y sólo si
σ
σ
P −z1−α/2 √ − X̄ < −µ < z1−α/2 √ − X̄
n
n
= 1 − α,
si y sólo si
σ
σ
P X̄ − z1−α/2 √ < µ < X̄ + z1−α/2 √
= 1 − α.
n
n
202
5. Estimación por intervalos
Por lo tanto, un intervalo del 100(1 − α) % de confianza para µ cuando
σ 2 es conocida está dado por
σ
σ
.
X̄ − z1−α/2 √ , X̄ + z1−α/2 √
n
n
Caso 2: σ 2 desconocida.
Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, σ 2 ) donde µ y σ 2 son desconocidos.
(n−1)S 2
X̄−µ
√ ∼ N (0, 1) y
Se sabe que σ/
∼ χ2(n−1) . Entonces,
σ2
n
X̄−µ
√
σ/ n
r
(n−1)S 2
σ2
∼ t(n−1) .
n−1
Pero,
X̄−µ
√
σ/ n
r
= q
(n−1)S 2
σ2
n−1
donde S :=
√
√
X̄−µ
√
σ/ n
=
S2
σ2
n(X̄−µ)
σ
S
σ
√
=
n(X̄ − µ)
X̄ − µ
√ ,
=
S
S/ n
S2.
∴
X̄ − µ
√ ∼ t(n−1) .
S/ n
X̄−µ
√ .
Es decir, la cantidad pivotal es Q = S/
n
1−α/2
1−α/2
= 1 − α/2, donde Y ∼ t(n−1) .
Sea tn−1 ∈ R, tal que P Y ≤ tn−1
Entonces,
1−α/2
1−α/2
= 1 − α,
P −tn−1 < Q < tn−1
si y sólo si
P
1−α/2
−tn−1
X̄ − µ
√ < t1−α/2
<
n−1
S/ n
= 1 − α,
si y sólo si
1−α/2 S
1−α/2 S
P −tn−1 √ < X̄ − µ < tn−1 √
= 1 − α,
n
n
si y sólo si
P −X̄ −
1−α/2 S
tn−1 √
n
< −µ < −X̄ +
1−α/2 S
tn−1 √
n
= 1 − α,
5.2. Intervalos para muestras de la distribución normal
203
si y sólo si
1−α/2 S
1−α/2 S
P X̄ − tn−1 √ < µ < X̄ + tn−1 √
= 1 − α.
n
n
∴ un intervalo del 100(1−α) % de confianza para µ cuando σ 2 es desconocida
está dado por
S
S
1−α/2
1−α/2
X̄ − tn−1 · √ , X̄ + tn−1 · √
.
n
n
5.2.2.
Intervalo para la varianza
Sea X1 , X2 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, σ 2 ) con µ y σ 2 desconocidos.
2
∼ χ2 (n − 1).
Se sabe que (n−1)S
σ2
2
.
Por tanto, la cantidad pivotal es Q = (n−1)S
σ2
α/2
1−α/2
Se necesitan determinar los cuantiles χn−1 , χn−1 ∈ R tales que
α/2
1−α/2
P(χn−1 < Q < χn−1 ) = 1 − α.
1−α/2
α/2
Es decir, P(Q ≤ χn−1 ) − P(Q ≤ χn−1 ) = (1 − α/2) − (α/2) = 1 − α.
Ahora,
α/2
1−α/2
P(χn−1 < Q < χn−1 ) = 1 − α,
si y sólo si
α/2
P(χn−1 <
(n − 1)S 2
1−α/2
< χn−1 ) = 1 − α,
σ2
si y sólo si
P
1
α/2
χn−1
σ2
1
>
> 1−α/2
(n − 1)S 2
χn−1
!
= 1 − α,
si y sólo si
P
(n − 1)S 2
1−α/2
χn−1
2
<σ <
(n − 1)S 2
α/2
!
= 1 − α.
χn−1
∴ Un intervalo del 100(1 − α) % de confianza para σ 2 está dado por
!
(n − 1)S 2 (n − 1)S 2
,
.
1−α/2
α/2
χn−1
χn−1
Por ejemplo, si n = 12 y 1 − α = 0.99, entonces α = 0.01. Por lo tanto
α/2 = 0.005 y 1 − α/2 = 0.995. Ası́, χ0.995
= 26.8 y χ0.005
= 2.60.
11
11
204
5. Estimación por intervalos
Región de confianza para (µ, σ 2 )
5.2.3.
Sea X1 , X2 , . . . , Xn una muestra aleatoria de la distribución N (µ, σ 2 ). En
este caso, al estimar los dos parámetros simultánemente, ya no se hablará de
un intervalo de confianza, ahora se busca construir una región de confianza
en R2 para (µ, σ 2 ). Se consideran las estadı́sticas
√
n(X̄ − µ)
(n − 1)S 2
Q1 =
y Q2 =
,
σ
σ2
que son independientes y tienen una distribución normal estándar y χ2 ,
respectivamente. Se definen las constantes c > 0, a y b tales que 0 < a < b, y
√
√
P [−c ≤ Q1 ≤ c] = 1 − α y P [a ≤ Q2 ≤ b] = 1 − α.
Se sigue que
√
(n − 1)S 2
n(X̄ − µ)
≤ c, a ≤
≤
b
Pµ,σ −c ≤
σ
σ2
√
n(X̄ − µ)
(n − 1)S 2
= Pµ,σ −c ≤
× Pµ,σ a ≤
≤
b
σ
σ2
= 1 − α,
de donde la región del (1 − α) × 100 % de confianza para (µ, σ 2 ) satisface
(n − 1)S 2
c2 σ 2 (n − 1)S 2
2
2
,
≤σ ≤
Pµ,σ (µ − X̄n ) ≤
= 1 − α.
n
b
a
5.2.4.
Intervalo para la diferencia de medias de poblaciones normales independientes
Sean X1 , . . . , Xn una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , . . . , Ym una muestra aleatoria de la distribución N (µy , σy2 ) donde Yj y
Xi son independientes.
Caso 1: σx2 y σy2 conocidas.
Se sabe que X̄ ∼ N (µx , σx2 /n) y Ȳ ∼ N (µy , σy2 /m), entonces
!
σy2
σx2
+
.
X̄ − Ȳ ∼ N µx − µy ,
n
m
Por tanto,
X̄ − Ȳ − (µx − µy )
q
∼ N (0, 1).
2
σy2
σx
+
n
m
5.2. Intervalos para muestras de la distribución normal
205
Entonces, la cantidad pivotal está dada por
Q=
X̄ − Ȳ − (µx − µy )
q
.
2
σy2
σx
+
n
m
De aquı́ que
P −z1−α/2 < Q < z1−α/2 = 1 − α,
si y sólo si

P −z1−α/2

X̄ − Ȳ − (µx − µy )
q
<
< z1−α/2  = 1 − α,
2
σy2
σx
n + m
si y sólo si
r
P −z1−α/2
σy2
σx2
+
< X̄ − Ȳ − (µx − µy ) < z1−α/2
n
m
r
σy2
σx2
+
n
m
!
= 1−α,
si y sólo si
"
r
P −(X̄ − Ȳ ) − z1−α/2
σy2
σx2
+
< −(µx − µy ) <
n
m
r
< −(X̄ − Ȳ ) + z1−α/2
σy2
σx2
+
n
m
#
σy2
σx2
+
n
m
#
= 1 − α,
si y sólo si
"
P (X̄ − Ȳ ) − z1−α/2
r
σy2
σx2
+
< µx − µy
n
m
r
< (X̄ − Ȳ ) + z1−α/2
= 1 − α.
∴ Un intervalo del 100(1 − α) % de confianza para µx − µy , cuando σx2 y σy2
son conocidas, está dado por
!
r
r
σy2
σy2
σx2
σx2
(X̄ − Ȳ ) − z1−α/2
+
, (X̄ − Ȳ ) + z1−α/2
+
.
n
m
n
m
206
5. Estimación por intervalos
Caso 2: σx2 y σy2 desconocidas pero σx2 = σy2 = σ 2 .
Se sabe que
2
(n−1)Sx
σ2
∼ χ2(n−1) y
(m−1)Sy2
σ2
∼ χ2(m−1) , entonces
(m − 1)Sy2
(n − 1)Sx2
+
∼ χ2(n+m−2) .
2
σ
σ2
1
((n − 1)Sx2 + (m − 1)Sy2 ) ∼ χ2(n+m−2) .
σ2
Y también se sabe que
∴
X̄ − Ȳ − (µx − µy )
q
∼ N (0, 1).
1
σ 2 n1 + m
(5.5)
(5.6)
Como se hace el supuesto de que las muestras son independientes, se
tiene que (5.5) y (5.6) son independientes, por lo que
X̄−Ȳ −(µx −µy )
q
1
1
σ2 ( n
+m
)
q
2 +(m−1)S 2
(n−1)Sx
y
σ 2 (n+m−2)
∼ t(m+n−2) .
Pero,
X̄−Ȳ −(µx −µy )
q
1
1
+m
σ2 ( n
)
q
2 +(m−1)S 2
(n−1)Sx
y
σ 2 (n+m−2)
X̄ − Ȳ − (µx − µy )
2
2
1
1 (n−1)Sx +(m−1)Sy
n + m
n+m−2
=
q
=
X̄ − Ȳ − (µx − µy )
q
,
1
1
2
n + m Sp
2
(n−1)Sx
+(m−1)Sy2
.
n+m−2
donde Sp2 =
Entonces,
X̄ − Ȳ − (µx − µy )
q
∼ t(m+n−2) .
1
1
2
+
S
p
n
m
De aquı́ que Q =
X̄−Ȳ −(µx −µy )
q
( n1 + m1 )Sp2
sea una cantidad pivotal tal que Q ∼
t(m+n−2) .
1−α/2
Ahora, si tn+m−2 representa el cuantil 1 − α/2 de una distribución t de
student con n + m − 2 grados de libertad,
1−α/2
1−α/2
P −tn+m−2 < Q < tn+m−2 = 1 − α,
5.2. Intervalos para muestras de la distribución normal
207
si y sólo si

1−α/2
P −tn+m−2

X̄ − Ȳ − (µx − µy )
1−α/2
q
< tn+m−2  = 1 − α,
<
1
1
2
n + m Sp
si y sólo si
"
P −(X̄ − Ȳ ) −
1−α/2
tn+m−2
s
1
1
+
n m
Sp2 < −(µx − µy ) <
−(X̄ − Ȳ ) +
si y sólo si
"
P (X̄ − Ȳ ) −
1−α/2
tn+m−2
s
1
1
+
n m
1−α/2
tn+m−2
s
1
1
+
n m
#
Sp2 = 1 − α,
Sp2 < µx − µy <
(X̄ − Ȳ ) +
1−α/2
tn+m−2
s
1
1
+
n m
#
Sp2 = 1 − α.
∴ Un intervalo del 100(1 − α) % de confianza para µx − µy , cuando σx2 y σy2
son desconocidas pero σx2 = σy2 = σ 2 , está dado por
s
s
!
1
1
1
1
1−α/2
1−α/2
(X̄ − Ȳ ) − tn+m−2
+
Sp2 , (X̄ − Ȳ ) + tn+m−2
+
Sp2 .
n m
n m
Observación 5.4 El tercer caso: σx2 y σy2 desconocidas y tales que
σx2 6= σy2 ,
es decir, la estimación de la diferencia de medias de dos poblaciones normales
con varianzas diferentes, se conoce como el problema de Behrens-Fisher,
el cual no es sencillo abordar, ver, por ejemplo, Kendall y Stuart (1979). Es
un problema que no está resuelto completamente, hay propuestas de solución
diversas y para tamaños de muestras razonablemente grandes, las diferencias
encontradas son en general mucho menores que las observadas con tamaños
de muestras pequeños.
Welch (1938) desarrolló una aproximación usando un número fraccional
para los grados de libertad de una distribución t, donde
X̄ − Ȳ
T =q 2
,
2
SX
SY
+
n
m
208
5. Estimación por intervalos
tiene una distribución asintótica t-Student con f grados de libertad, donde
f=
2
SX
n
+
4
SX
n2 (n−1)
+
(
2
SY
2
m )
.
Sy4
2
m (m−1)
Esta estadı́stica se recomienda cuando la diferencia de medias es notable
y cuando los tamaños de las muestras son grandes, estudios de simulación
sugieren mayores a 80, ver Paul, Wang y Ullah (2019).
Ejemplo 5.7 Una operación de ensamble en una planta manufacturadora
requiere aproximadamente de un mes de periodo de entrenamiento para que
un empleado nuevo alcance su eficiencia máxima. Se sugirió un nuevo método
de entrenamiento y se hizo una prueba para comparar el método nuevo con
el procedimiento estándar. Se entrenaron dos grupos de nueve empleados
nuevos por un periodo de tres semanas, un grupo usando el nuevo método
(Y ) y el otro siguiendo el procedimiento de entrenamiento estándar (X). Se
registró la duración de tiempo (en minutos) requerido por cada empleado
para ensamblar el aparato al final del periodo de tres semanas.
Suponiendo que los tiempos de ensamblado se distribuyen aproximadamente normal y que las varianzas de los tiempos de ensamblado son aproximadamente iguales para los dos métodos, obtener un intervalo del 95 % de
confianza para µx − µy .
Procedimiento
Estándar X
Nuevo Y
32
35
37
31
35
29
Medidas
28 41 44
25 34 40
35
27
31
32
34
31
A partir de los datos se obtienen los siguientes valores:
x = 35.22,
9
X
y = 31.56,
9
X
(yi − y)2 = 160.22,
(xi − x)2 = 195.56,
i=1
i=1
"
Sp2
#
9
9
X
X
1
2
2
(yi − y) = 22.24.
=
(xi − x) +
n + m − 2 i=1
i=1
El cuantil 0.975 de una distribución t con n + m − 2 = 16 grados de libertad
es t0.975
(16) = 2.120. El intervalo del 100(1 − α) % de confianza para µx − µy es
(X̄ − Ȳ ) −
1−α/2
tn+m−2
s
1
1
+
n m
Sp2 , (X̄
− Ȳ ) +
1−α/2
tn+m−2
s
1
1
+
n m
!
Sp2
.
5.2. Intervalos para muestras de la distribución normal
209
Por lo tanto, el intervalo del 95 % de confianza para µx − µy es
r
(35.22 − 31.56) − (2.120)
18
(22.24), (35.22 − 31.56)
81
r
+(2.120)
!
18
(22.24) ,
81
que aproximadamente es (−1.05, 8.37).
Observe que el intevalo para µx − µy contiene al 0 con un nivel de confianza del 95 %.
5.2.5.
Intervalo para el cociente de varianzas de poblaciones normales independientes
Sean X1 , . . . , Xn una muestra aleatoria de la distribución N (µx , σx2 ) y
Y1 , . . . , Ym una muestra aleatoria de la distribución N (µy , σy2 ) donde Yj y
Xi son independientes.
Se sabe que
2
(n−1)Sx
2
σx
∼ χ2(n−1) y
2
(n−1)Sx
2 (n−1)
σx
(m−1)Sy2
σy2 (m−1)
Pero
2
Sx
2
σx
Sy2
σy2
De aquı́ que Q =
2 σ2
Sx
y
2
Sy2 σx
(m−1)Sy2
σy2
∼ χ2(m−1) , entonces
∼ F(n−1,m−1) .
=
Sx2 σy2
.
Sy2 σx2
sea una cantidad pivotal tal que Q ∼ F(n−1,m−1) .
1−α/2
α/2
Es necesario determinar los cuantiles fn−1,m−1 fn−1,m−1 , tales que:
α/2
1−α/2
P fn−1,m−1 < Q < fn−1,m−1 = 1 − α,
si y sólo si
P
α/2
fn−1,m−1
S 2 σy2
1−α/2
< x2 2 < fn−1,m−1
Sy σx
!
= 1 − α,
si y sólo si
P
Sy2
α/2
fn−1,m−1 2
Sx
σy2
Sy2
1−α/2
< 2 < fn−1,m−1 2
σx
Sx
!
= 1 − α,
210
5. Estimación por intervalos
o
P
σ2
1
Sx2
Sx2
< x2 < α/2
2
2
1−α/2
σy
fn−1,m−1 Sy
fn−1,m−1 Sy
1
∴ Un intervalo del 100(1 − α) % de confianza para
1
1−α/2
fn−1,m−1
Sx2
1
, α/2
2
Sy f
n−1,m−1
Sx2
Sy2
!
= 1 − α.
2
σx
σy2
está dado por
!
.
(5.7)
Observación 5.5 Los valores de la distribución F(n,m) están tabulados para
valores altos de 1 − α (o equivalentemente valores bajos de α). Debido a que
h
i α
α/2
P Q < fn,m
= ,
2
con Q ∼ F(n,m) , y
"
P Q<
#
1
1−α/2
fm,n
1
1−α/2
= P
> fm,n
Q
1
1−α/2
< fm,n
= 1−P
Q
α α
= ,
= 1− 1−
2
2
(5.8)
se tiene que
α/2
fn,m
=
1
1−α/2
fm,n
.
(Note que en (5.8) se ha utilizado el hecho de que si Q ∼ F(n,m) , entonces
1
Q ∼ F(m,n) ).
Por lo anterior, el intervalo (5.7) puede reescribirse de la siguiente manera:
!
Sx2
1
Sx2
1−α/2
, fm−1,n−1 2 .
1−α/2
Sy2
Sy
f
n−1,m−1
En general, para obtener intervalos para los parámetros de un población
Normal, se pueden usar las expresiones que acaban de deducirse, sustituyendo los correspondientes valores de los datos. A manera de ilustración,
suponga que el diámetro de una cisterna en la mayorı́a de los casos es cercano a 3 metros. Se tiene un conjunto de mediciones de 12 cisternas salidas
de la fábrica y se desea obtener un intervalo de confianza para la varianza
5.3. Intervalos de confianza para muestras grandes
211
σ 2 , suponiendo que el diámetro es una variable aleatoria normalmente distribuida. Los datos correspondientes a los diámetros de las 12 cisternas a las
que se hace referencia son:
3.01, 3.05, 2.99, 2.99, 3.0, 3.02, 2.98, 2.99, 2.97, 2.97, 2.02, 3.01.
Se dedujo que:
(n − 1)S 2 (n − 1)S 2
,
1−α/2
α/2
χn−1
χn−1
!
es un intervalo del 100(1 − α) % de confianza para σ 2 . En este caso n = 12,
1 − α = 0.99, α = 0.01 y
Pn
S2 =
2
(xi − x)
= 0.0005455.
n−1
n=1
Además,
χ0.995
= 26.8, χ0.005
= 2.60,
11
11
de esta manera el intervalo final queda como
(0.0002246, 0.00230791) .
5.3.
Intervalos de confianza para muestras
grandes
En esta sección se usará la propiedad asintótica de los estimadores máximo
verosı́miles, la cual establece que si θbM V es el estimador máximo verosı́mil
de θ, en f (x; θ) que cumple las condiciones de regularidad, entonces cuando
n → ∞,
1
b
θM V ∼ N θ,
IX (θ)
y, de manera más general,
τd
(θ)M V = τ θbM V ∼ N (τ (θ) , CICR) ,
donde CICR representa la Cota Inferior de Cramer y Rao para estimadores insesgados de τ (θ) . A partir de estos resultados, puede construirse una
cantidad pivotal para el parámetro de interés.
212
5. Estimación por intervalos
Ejemplo 5.8 Sea X1 , ..., Xn una muestra aleatoria de la distribución Exponencial (θ) . Encontrar un intervalo del 100(1 − α) % de confianza para
θ.
1
, mienEl estimador máximo verosı́mil de θ está dado por θbM V = X
n
tras que la información esperada de Fisher es IX (θ) = θ2 . Entonces por la
propiedad asintótica de los estimadores máximo verosı́miles, se tiene que
θ2
1
∼ N θ,
n
X
por lo que
1
X
−θ
q
∼ N (0, 1) ,
θ2
n
que puede reescribirse como
Q=
√ 1
n X −θ
Ası́,

P −z1− α2 ≤
θ
√ 1
n X −θ
θ
∼ N (0, 1) .

≤ z1− α2  = 1 − α,
si y sólo si
"
−z1− α2
√
P
≤
n
1
X
−θ
θ
z1− α
≤ √ 2
n
#
= 1 − α,
si y sólo si
P
−z1−α/2
z1−α/2
1
√
+1≤
≤ √
+1
n
n
θX
= 1 − α,
o
P
de donde:
−z1−α/2
z1−α/2
1
√
√
+1 X ≤ ≤
+ 1 X = 1 − α,
θ
n
n
√
!
√
n
n
, √
,
√
x n + z1−α/2 x n − z1−α/2
es un intervalo del (1 − α) % de confianza para θ.
5.3. Intervalos de confianza para muestras grandes
213
Ejemplo 5.9 Sea X la media muestral de una muestra aleatoria de tamaño
n = 25 de una distribución Gama(α, λ) con α = 4 y λ = β1 > 0. Use el
teorema del lı́mite central para obtener un intervalo de confianza para la
media de la distribución Gama con un coeficiente de confianza de 0.954.
Por el teorema del lı́mite central se sabe que
X −E X
q
∼ N (0, 1),
Var X
donde
E X =
Var X
=
1
nE [X] = αβ = 4β,
n
1
1
1
nVar (X) = αβ 2 = 4β 2 ,
n2
n
n
entonces se desea encontrar un intervalo del 95.4 % de confianza para 4β.
Por el teorema del lı́mite central se sabe que
X − 4β
q
∼ N (0, 1),
1
2
4β
n
que implica que
X − 4β
q
=
1
2β
n
√
√
nX
− 2 n ∼ N (0, 1),
2β
y además los cuantiles (1 − 0.954)/2 y 1 − (1 − 0.954)/2 de una distribución
Normal(0, 1) son −1.995393 y 1.995393, los cuales se aproximarán a −2 y 2,
entonces,
√
√
nX
−2 n<2
0.954 = P −2 <
2β
√
√
√
nX
= P −2 + 2 n <
<2+2 n
2β
√
√
nX
nX
√ < 2β <
√
= P
2+2 n
−2 + 2 n
√
√
2 nX
2 nX
√
√
= P
< 4β <
2+2 n
−2 + 2 n
2(5)X
2(5)X
= P
< 4β <
2 + 2(5)
−2 + 2(5)
214
5. Estimación por intervalos
=
P
5X
5X
< 4β <
.
6
4
Por lo tanto, un intervalo del 95.4 % de confianza para 4β es
5.3.1.
5X 5X
6 , 4
.
Intervalo de confianza para el parámetro p de una
distribución binomial
Sea X1 , . . . , Xm una muestra aleatoria de la distribución Binomial (n, p) , es
decir, Xi ∼ Bin(n, p), ∀i = 1, . . . , m. Se procederá a encontrar el estimador
máximo verosı́mil de p y la expresión para la cota de Crámer y Rao para
estimadores insesgados de p, en este caso:
n x
n−x
f (x; n, p) =
p (1 − p)
,
con x = 0, . . . , n.
x
La función de verosimilitud para p está dada por:
L (p)
=
=
m
Y
m Y
n xi
n−xi
p (1 − p)
x
i
i=1
i=1
m Y
n (xi )
nm−(x1 +···+xm )
x1 +···+xm
p
(1 − p)
I{0,...,n} ,
x
i
i=1
|
{z
}
f (xi ; n, p) =
α
por lo que
l (p) = ln L (p) = (x1 +· · ·+xm )ln(p)+(mn−(x1 +· · ·+xm ))ln(1−p)+ln(α)
y
∂l
∂p
=
p̂
nm − (x1 + · · · + xm )
x1 + · · · + xm
−
= 0.
p̂
1 − p̂
De donde,
m
P
Xi
X
= .
nm
n
Por otra parte, la información esperada de Fisher está dada por:
2
∂
IX = −mE
ln(f (x; n, p)) ,
∂p2
pb =
i=1
215
5.3. Intervalos de confianza para muestras grandes
ası́:
n
ln(f (x; n, p)) = x ln(p) + (n − x) ln(1 − p) + ln(
),
x
tomando la derivada con respecto a p:
x n−x
∂
ln(f (x; n, p)) = −
,
∂p
p
1−p
y la segunda derivada es
−x
n−x
∂2
ln(fX (x)) = 2 −
2.
∂p2
p
(1 − p)
Tomando esperanza:
E
−x
n−x
−
2
p2
(1 − p)
!
np
=− 2 −
p
n
2
(1 − p)
−
!
np
(1 − p)
2
,
lo cual implica que
IX
!!
np
n(1 − p)
= −m − 2 −
2
p
(1 − p)
mn
mn
mn
+
=
.
=
p
1−p
p(1 − p)
De esta manera, se obtiene que la Cota Inferior de Crámer y Rao para
estimadores insesgados de p está dada por:
CICR =
p(1 − p)
.
mn
Sea Q una cantidad pivotal definida por
X
−p
p̂ − p
Q= √
= qn
=
p(1−p)
CICR
√
mn(X − np)
p
.
p(1 − p)n
mn
A partir de esta expresión se puede proceder como en el caso de la distribución exponencial expuesto antes, es decir, suponiendo que esta cantidad
pivotal tiene una distribución Normal estándar y utilizando el método pivotal para despejar p. Si se toma el caso particular en el que m = 1, la cantidad
pivotal anterior se reduce a:
X
Q = qn
−p
p(1−p)
n
,
(5.9)
216
5. Estimación por intervalos
donde X tiene distribución Binomial (n, p) , lo cual también se puede ver
como el resultado de considerar una muestra aleatoria de tamaño n de una
distribución Bernoulli(p) , donde X representarı́a la suma de las variables de
dicha muestra. Aún en este caso es complicado obtener el intervalo para p a
partir de esta expresión, pues el parámetro aparece tanto en el numerador
como en el denominador. Un resultado de la teorı́a asintótica establece que
la cantidad
X
−p
qn
,
(5.10)
p
b(1−b
p)
n
también tiene distribución N (0, 1) . Note que para este caso, pb =
que usando (5.10) como cantidad pivotal, se obtiene que


X
−
p
P −z1− α2 < q nX
< z1− α2  = 1 − α,
X
n
que es equivalente a
s

X
X
n (1 −
P  − z1− α2
n
n
X
n,
por lo
(1− n )
n
s
X
n)
X
<p<
+ z1− α2
n
x
n (1
− nx ) x
, + z1− α2
n
n
X
n (1
−
n

X
n )
= 1 − α,
por lo que
x
− z1− α2
n
r
r
x
n (1
− nx )
n
!
.
es un intervalo del 100 (1 − α) % de confianza para p.
5.4.
Enfoque Bayesiano en la estimación por
intervalos
En el enfoque Bayesiano la estimación por intervalos para el (los) parámetro(s) desconocidos, θ, de un modelo se basa en la distribución posterior de
los mismos, π(θ|x).
Un intervalo del 100(1−α) % de credibilidad es cualquier intervalo (L, U )
que satisface que
Z U
π(θ|x)dθ = 1 − α.
L
5.4. Enfoque Bayesiano en la estimación por intervalos
217
Estos intervalos de probabilidad no son únicos. Se puede adoptar por
ejemplo un intervalo de colas iguales donde
Z ∞
Z L
π(θ|x)dθ = α/2,
π(θ|x)dθ =
−∞
U
o uno unilateral donde L = −∞ o U = ∞. En los casos donde la distribución
posterior del parámetro de interés es unimodal, también es posible adoptar
un intervalo de alta densidad posterior, (HPD) por sus siglas en inglés,
donde π(L|x) = π(U |x). En este caso, este intervalo es el de menor longitud.
Ejemplo 5.10 Sea X una variable aleatoria con distribución Binomial(n, θ),
con n fijo, y considere que la distribución apriori o inicial de θ es Beta(a, b),
entonces la distribución a posteriori o final es
π(θ|x) ∝
f (x|θ)π(θ)
∝
θx (1 − θ)n−x θa−1 (1 − θ)b−1
=
θx+a−1 (1 − θ)n−x+b−1 .
2.0
2.5
3.0
De esta expresión se concluye que las constantes de normalización corresponden a aquellas de una distribución Beta(a+x, b+n−x), que es la distribución
posterior para θ bajo esta distribución inicial conjugada.
Si ahora se considera el escenario con n = 10 y x = 4 éxitos observados en
el experimento de interés, es decir, X ∼ Binomial(10, θ) y se observa x = 4,
para una distribución inicial θ ∼ Beta(2, 2); se tiene que la distribución
posterior π(θ|x) corresponde a una Beta(6, 8). Los intervalos del 99 % de
credibilidad se muestran en la figura 5.2.
0.0
0.5
1.0
1.5
Colas Iguales
HPD
Cola Inferior
Cola Superior
0.0
0.2
0.4
0.6
0.8
1.0
Figura 5.2: Intervalos del 99 % de credibilidad para el ejemplo 5.10.
218
5. Estimación por intervalos
5.5.
Ejercicios
1. (Construcción del concepto de intervalo de confianza mediante simulación en R). Revise cuidadosamente las siguientes gráficas obtenidas
en la figura 5.3, por simulación en R.
Ahı́ se presentan 100 intervalos de confianza variando el tamaño de
muestra según tres posibilidades (10, 30 y 50) y la desviación estándar
según 3 opciones (5, 10 y 15). Ası́, finalmente se tienen 9 combinaciones
según varı́a el tamaño de muestra y la desviación estándar, siendo los
escenarios posibles: n = 10 y σ = 5 hasta n = 50 y σ = 15. Cuando
un intervalo de confianza no contiene el verdadero promedio se ilustra
con una lı́nea negra (el punto medio de cada intervalo es de color gris
oscuro). Conteste lo siguiente:
(a) Determine mediante observación: ¿cuántos intervalos aproximadamente no contienen el verdadero valor de la media en cada una
de las simulaciones?, ¿coincide con lo que se espera si la confianza
es del 95 %?
(b) ¿Se espera que la cantidad de intervalos de confianza que no contiene al verdadero valor poblacional sea el mismo para cada uno
de los nueve casos?
(c) Si observa únicamente la primera fila de las simulaciones, explique: ¿cuál es el impacto de la desviación estándar sobre los intervalos mostrados en la grafica?, ¿se aplica también para la segunda
fila y tercera fila de simulaciones?
(d) Si observa únicamente la primera columna de las simulaciones,
explique: ¿cuál es el impacto del tamaño de muestra sobre los
intervalos hallados?, ¿se aplica también para la segunda y tercera
columnas de simulaciones?
2. Genere una muestra aleatoria X1 , . . . , Xn , de tamaño n = 30, de una
población con distribución N (µx , σ 2 ) con µx = 5 y σ 2 = 4. Genere otra
muestra aleatoria Y1 , . . . , Ym , de tamaño m = 50, de una población con
distribución N (µy , σ 2 ) con µy = 2 y σ 2 = 4. Obtenga los intervalos de
confianza para µx −µy bajo las condiciones y supuestos de los siguientes
incisos, y grafı́quelos.
(a) Intervalo del 80 % de confianza para µx − µy , suponiendo que σ 2
es conocida.
(b) Intervalo del 80 % de confianza para µx − µy , suponiendo que σ 2
es desconocida común.
219
5.5. Ejercicios
80
90
100
110
120
80
40
80
90
100
110
120
100
110
120
100
110
120
80
90
100
110
120
n= 50 Sigma= 15
0
40
80
n= 50 Sigma= 10
80
110
120
n= 30 Sigma= 15
120
0
100
110
80
90
40
80
40
0
90
100
0
80
n= 50 Sigma= 5
80
90
40
80
40
90
80
n= 30 Sigma= 10
0
0
40
80
n= 30 Sigma= 5
80
n= 10 Sigma= 15
0
40
80
n= 10 Sigma= 10
0
0
40
80
n= 10 Sigma= 5
80
90
100
110
120
80
90
100
110
120
Figura 5.3: Intervalos obtenidos por simulación para diferentes valores de σ
y distintos tamaños de muestra.
(c) Intervalo del 95 % de confianza para µx − µy , suponiendo que σ 2
es conocida.
(d) Intervalo del 95 % de confianza para µx − µy , suponiendo que σ 2
es desconocida común.
Repita el proceso generando cada una de estas muestras 100 veces.
¿Cómo son los intervalos? Identifique los intervalos con mayor longitud
y con menor longitud. Compare y explique los resultados.
3. Suponga que X es una variable aleatoria de la población con función
de densidad dada por
fX (x; θ) =
2(θ − x)
I(0,θ) (x),
θ2
donde θ > 0 es un parámetro desconocido. Sea α ∈ (0, 1). Construya
un intervalo del 100(1 − α) % de confianza para θ, utilizando como
cantidad pivotal Q = X
θ .
220
5. Estimación por intervalos
4. Sea X una variable aleatoria de la población con función de densidad
fX (x; θ) = θxθ−1 I(0,1) (x), donde θ > 0 es un parámetro desconocido.
(a) Encuentre una cantidad pivotal y utilı́cela para encontrar un intervalo de confianza para θ.
(b) Demuestre que Y2 , Y es un intervalo de confianza para θ, donde
1
Y = − ln(X)
. Encuentre su nivel de confianza.
5. Sea X una variable aleatoria de una población con función de densidad
fX (x; θ) = θe−θx , donde x > 0 y θ > 0.
(a) Sea (X, 2X) un intervalo de confianza para 1/θ. ¿Cuál es su nivel
de confianza?
(b) Encuentre otro intervalo de confianza para 1/θ que tenga el mismo
nivel de confianza que el intervalo de (a), pero con menor longitud
esperada.
6. Considere una sola observación X de las siguientes distribuciones. Dado
α ∈ (0, 1), encuentre un intervalo del 100(1 − α) % de confianza para
θ.
(a) Laplace-localización
fX (x; θ) =
1 −|x−θ|
e
IR (x) , θ ∈ R.
2
(b) Cauchy
fX (x; θ) =
1
1
IR (x) , θ ∈ R.
π 1 + (x − θ)2
(c) Laplace-escala
fX (x; θ) =
1 −|x|/θ
e
IR (x) , θ ∈ R+ .
2θ
7. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño 4 de una población con distribución U (0, θ). Sea Y(4) la máxima estadı́stica de orden.
Sean 0 < κ1 < κ2 ≤ 1 constantes tales que
P(κ1 θ < Y(4) < κ2 θ) = 0.95.
√
Verifique que κ1 = 4 0.05 y κ2 = 1 satisfacen estas condiciones. ¿Cuál
es entonces un intervalo del 95 % de confianza para θ?
221
5.5. Ejercicios
8. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
U (0, θ). Sea Y = máxi=1,...,n {Xi }. Pruebe que Y /θ es una cantidad
pivotal, y muestre que el intervalo (Y, Y α−1/n ) es el intervalo del (1 −
α)100 % de confianza para θ con menor longitud.
9. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
1
f (x; θ, σ) = e−(x−θ)/σ I(θ,∞) (x),
σ
donde θ ∈ R y σ ∈ R+ . Sea α ∈ (0, 1).
(a) Si θ es conocido, encuentre un intervalo
Pn del 100(1 − α) % de confianza para σ. [Sugerencia: considere i=1 (Xi −θ), o una pequeña
modificación del mismo.]
(b) Si θ es desconocido, encuentre un intervalo
Pn del 100(1 − α) % de
confianza para σ. [Sugerencia: considere i=1 (Xi − X(n) ), o una
pequeña modificación del mismo.]
10. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Exponencial(θ), cuya función de densidad es
fXi (x) = θe−θx I(0,∞) (x).
(a) Encuentre un intervalo del 100(1−α) % de confianza para la media
de la población.
(b) Encuentre un intervalo del 100(1 − α) % de confianza para la varianza de la población.
(c) Encuentre una cantidad pivotal basada únicamente en Y1 , donde
Y1 = mı́n{X1 , . . . , Xn },
y úsela para encontrar un estimador de intervalo para θ.
11. Sea Y1 , . . . , Yn una muestra aleatoria de tamaño n de una población con
distribución Uniforme en el intervalo (0, 1/θ). Encuentre un intervalo
del 95 % de confianza para θ.
12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Gama(α, β). Si α es una constante conocida, obtenga un intervalo de
confianza para la media µ = αβ.
13. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución U (θ − 21 , θ + 12 ), cuya función de densidad es fX (x; θ) = 1 para
θ− 21 < x < θ+ 12 . Sean Y1 ≤ · · · ≤ Yn sus correspondientes estadı́sticas
de orden.
222
5. Estimación por intervalos
(a) Muestre que [Y1 , Yn ] es un intervalo de confianza para θ.
(b) Calcule su longitud esperada, es decir, E[Yn − Y1 ].
(c) Encuentre su nivel de confianza.
14. Sean X1 , X2 , . . . , Xn variables aleatorias independientes de una población con función de densidad
fXi (xi ; θ) = eiθ−xi ,
donde xi > iθ.
(a) Obtenga una estadı́stica S que sea suficiente para θ.
(b) Obtenga una cantidad pivotal Q que sea función de S.
(c) Encuentre un intervalo del (1 − α)100 % de confianza para θ de
la forma [S + a, S + b] tal que tenga menor longitud.
15. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad
kxk−1
I(0,θ) (x)
fX (x; θ) =
θk
donde θ > 0 y k es un entero positivo. Encuentre un intervalo del
(1 − α)100 % de confianza para θ.
16. ¿Qué tan grande debe ser una muestra si se desea construir un intervalo
de confianza del 99 % para la desviación estándar de una población
normal si se desea que la desviación estándar muestral no difiera en
más del 2 % de la desviación poblacional?
17. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución N (µ, σ 2 ).
(a) Si σ 2 es conocida. Encuentre el valor mı́nimo de n que garantice
que el intervalo del 95 % de confianza para µ tendrá longitud no
mayor que σ/4.
(b) Si σ 2 es desconocida. Encuentre el valor mı́nimo de n que garantice que, con probabilidad 0.90, el intervalo del 95 % de confianza
para µ tendrá longitud no mayor que σ/4.
18. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µ, σ 2 ). Sean 0 < a < b. Demuestre que la esperanza de la longitud
del intervalo
Pn
Pn
2
2
i=1 (Xi − µ)
i=1 (Xi − µ)
,
b
a
2
es (b − a) nσ
ab .
223
5.5. Ejercicios
19. Sean X̄ y Ȳ las medias de dos muestras aleatorias independientes entre
sı́, cada una de tamaño n, de las distribuciones N (µx , σ 2 ) y N (µy , σ 2 ),
respectivamente, donde la varianza común es conocida. Encuentre n
tal que
σ
σ
= 0.9.
P X̄ − Ȳ − < µx − µy < X̄ − Ȳ +
5
5
20. Considere X una variable aleatoria tal que X ∼ N (0, σ 2 ), donde σ >
0 es un parámetro desconocido. Considere el siguiente intervalo de
confianza (|X|, 10|X|) para σ.
(a) Calcule P(|X| ≤ σ ≤ 10|X|).
(b) ¿Cuál es la longitud esperada de dicho intervalo?
21. Se desea hacer una comparación entre dos tratamientos para el SIDA. Se mide el tiempo de supervivencvia (en años) de cada uno de
estos tratamientos en siete pacientes seleccionados aleatoriamente. La
información se detalla en la siguiente tabla.
Paciente
Tratamiento 1
Tratamiento 2
1
3.1
1.8
2
3.3
2.3
3
1.7
2.2
4
1.2
3.5
5
0.7
1.7
6
2.3
1.6
7
2.9
1.4
Construya un intervalo del 80 % de confianza para la diferencia de
medias. ¿Se necesita hacer alguna suposición adicional?
22. Se realizó un estudio para determinar si la variabilidad en la presión
arterial de hombres y mujeres es la misma o no. Se seleccionó aleatoriamente a 13 mujeres y a 16 hombres, se les midió la presión arterial
(en milı́metros de mercurio) y los resultados fueron los siguientes:
Hombres
Mujeres
120
124
122
102
120
125
102
122
118
130
118
120
112
100
126
118
120
120
108
130
114
108
130
130
112
104
114
122
116
¿Se puede concluir con un 95 % de confianza que la variabilidad de la
presión arterial de hombres y mujeres es la misma? ¿Se necesitan hacer
suposiciones adicionales?
23. Sean X̄ y Ȳ las medias muestrales, y Sx2 y Sy2 los estimadores insesgados
de la varianza, obtenidos de dos muestras independientes cada una de
tamaño 7 de dos poblaciones normales con varianza común σ 2 y media
224
5. Estimación por intervalos
desconocida. Encuentre k ∈ R, tal que
(
)
!
Sx2 Sy2
P máx
,
> κ = 0.05.
Sy2 Sx2
24. Se miden los tiempos de compra de 61 compradores seleccionados aleatoriamente. Si estos tiempos tienen una distribución normal, encuentre
un intervalo del 95 % de confianza para µ si x̄ = 33 y s2 = 256.
25. Se cuenta con dos grupos similares de pacientes, A y B, que consisten
de 50 y 100 individuos, respectivamente. Al grupo A se le administró
una nueva pastilla para dormir y a la segunda una pastilla para dormir
ya existente. En el grupo A, el número promedio de horas de sueño
fue de 7.82 con una desviación estándar de 15 minutos. En el grupo
B, el número promedio de horas de sueño fue de 6.75 con una desviación estándar de 18 minutos. Construya intervalos del 95 % y 99 % de
confianza para la diferencia de las horas promedio dormidas.
26. Los siguientes datos representan el tiempo de vida útil de un artı́culo,
medido en dı́as: 29.1, 207.6, 81.8, 0.8, 76.1, 108.9, 48.4, 108.1, 52.2,
272.8, 150.5, 80.3, 97.4, 11.5, 46.2, 144.1, 62.5, 262.9, 247.6, 4.1. Este
tiempo se supone distribuı́do como una Exponencial con media θ, es
decir, Exponencial(1/θ).
(a) Encuentre un intervalo de confianza exacto al 95 % para la media
de esta distribución Exponencial.
(b) Encuentre un intervalo de confianza aproximado al 95 % para esta
media utilizando teorı́a asintótica.
(c) Encuentre un intervalo de confianza aproximado al 95 % para esta media utilizando los resultados de distribución asintótica del
estimador máximo verosı́mil.
(d) Comente los resultados obtenidos y las diferencias (si las hubo)
entre los tres procedimientos.
27. Se lanza una moneda 500 veces, y se obtienen 275 águilas y 225 soles.
Obtenga un intervalo de confianza para la probabilidad de obtener
águila. Obtenga también un intervalo del 99 % de confianza. ¿Está
bien construida la moneda?
28. Una urna contiene una proporción desconocida de canicas rojas y blancas. De una muestra aleatoria con reemplazo de 60 canicas se obtuvo
un 70 % de canicas rojas. Encuentre intervalos del 95 % y 99.73 % de
confianza para la proporción de canicas rojas en la urna.
225
5.5. Ejercicios
29. Para estimar la proporción de desempleados en Panamá, un economista selecciona aleatoriamente a 400 individuos de la población (clase
trabajadora o económicamente activa en algún momento). De los entrevistados 25 no tienen empleo. Encuentre un intervalo del 95 % de
confianza para la proporción de desempleados.
30. De una lista electoral de opinión pública se invita a 100 personas de
entre 10,000 adultos a expresar su preferencia por los candidatos A y
B. Treinta personas prefirieron a A. De esto se concluyó que entre 2100
y 3900 de la población prefieren a A. ¿Qué nivel de confianza se usó
en este informe? Note que n = 100 y Y = 30 es el número de éxitos
(las personas que prefirieron a A) y que el intervalo está dado para la
media np.
31. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución P oisson(λ). Suponga que el tamaño de la muestra es lo suficientemente grande y por lo tanto se cumplen las propiedades del estimador
máximo verosı́mil de λ. Construya un intervalo del (1 − α)100 % de
confianza para λ.
32. Encuentra una cantidad pivotal basada en una muestra aleatoria de
una distribución N (θ, θ) con θ > 0. Usa la cantidad pivotal para encontrar un intervalo del (1 − α) % de confianza para θ.
33. Considere una muestra aleatoria X1 , X2 . . . , Xn de un modelo
N ormal(µ, τ ) donde τ = 1/σ 2 . Suponiendo que las distribuciones iniciales corresponden al modelo conjugado, obtenga un intervalo de credibilidad de 95 %, de colas iguales para cada parámetro. Obtenga para
µ el intervalo HDP del 90 %.
34. Sea X1 y X2 una muestra aleatoria de tamaño n = 2, de una población
con distribución Exponencial(θ), cuya media es igual a 1/θ. Considere
que la distribución a priori para θ es una distribución Gama(2, 4).
Suponga que dada la muestra x̄ = 0.125. Encuentre la probabilidad
posterior del intervalo de credibilidad [3.49, 15.5].
35. Sea X1 , . . . , Xn una muestra aleatoria de tamaño n de una población
con distribución normal con media µ y varianza σ 2 , N (µ, σ 2 ). Obtenga
a y b tal que
(n − 1)s2
P a≤
≤b
σ2
=
1 − α.
226
5. Estimación por intervalos
Ası́, el intervalo del 100(1 − α) % de confianza para σ es
!
r
r
n−1
n−1
s,
s .
b
a
Encuentre valores de a y b tal que minimicen la longitud del intervalo
de confianza. Esto es, minimice
√
1
1
k = s n−1 √ − √ ,
a
b
bajo la restricción de que
Z
G(b) − G(a)
b
g(u)du = 1 − α,
=
a
donde G(u) y g(u) son las funciones de distribución y de densidad de
una distribución χ2(n−1) , respectivamente.
[Sugerencia: Debido a la restricción, b es una función de a. En particular, tomando las derivadas de la ecuación de restricción con respecto
db
dk
dk
a a, muestre que da
= g(a)
g(b) . Determine da . Estableciendo da = 0,
muestre que a y b deben satisfacer
an/2 e−a/2 − bn/2 e−b/2
=
0.
Esta condición, junto con la restricción, son usadas para calcular los
valores de los cuantiles.]
Capı́tulo 6
Pruebas de hipótesis
En los capı́tulos anteriores se ha analizado la inferencia estadı́stica con respecto a la estimación puntual y por intervalos, ahora se estudiarán las pruebas o contrastes de hipótesis estadı́sticas que, como se verá, tienen una fuerte
relación con el concepto de estimación.
6.1.
Los conceptos fundamentales en las pruebas de hipótesis
El lenguaje o argot de una profesión especı́fica se caracteriza por marcar una
frontera mediante un vocabulario poco comprensible para quienes no pertenecen al gremio, aunque en muchos casos oculte ideas o conceptos sencillos.
La estadı́stica no es la excepción y es precisamente en este tema en donde es
más claro el uso de una terminologı́a jergal de los estadı́sticos, como se verá
en los siguientes párrafos.
Intuitivamente, una hipótesis estadı́stica tiene que ver con una afirmación relacionada con un cierto fenómeno y debe analizarse si dicha afirmación
está sustentada por la evidencia. Por ejemplo, en la nueva ley de justicia penal en México se ha hecho énfasis en que un acusado debe ser considerado
inocente mientras no se pruebe su culpabilidad, ası́ que la afirmación de que
sea culpable debe sustentarse con la evidencia. En este caso pueden suceder
varias situaciones, como el hecho de que no haya suficientes pruebas para
demostrar que el acusado es culpable, lo cual no significa que sea inocente; o
bien, puede suceder que haya un error en la sentencia y se culpe a un inocente
227
228
6. Pruebas de hipótesis
o se absuelva a un culpable, es decir, cabe la posibilidad de falsos positivos
y falsos negativos. Estos aspectos se analizarán desde la perspectiva de la
estadı́stica matemática.
Una hipótesis estadı́stica puede plantearse como una aseveración relacionada con la distribución de una variable aleatoria1 , lo cual se traduce en
este texto en una afirmación con respecto a alguna caracterı́stica desconocida de una población de interés, expresada en términos de los parámetros del
modelo de probabilidad propuesto para describir el fenómeno en estudio o
bien, en términos de la comparación de dos modelos. La esencia de probar
una hipótesis estadı́stica es el decidir si la aseveración se encuentra apoyada
por la evidencia experimental que se obtiene a través de una muestra aleatoria. La decisión acerca de si los datos muestrales respaldan estadı́sticamente
la afirmación se toma con base en la probabilidad de que esto ocurra y, si
ésta es mı́nima (y por lo tanto el tamaño del error es grande), entonces será
rechazada la hipótesis.
Para introducir los principales conceptos en pruebas de hipótesis, se utilizarán dos casos. El primero de ellos lo propuso Fisher (1935) en su obra El
diseño de experimentos, descrito también en Newman (1956) como las matemáticas de una catadora de té; mientras que el segundo caso es un ejemplo
de larga data en la enseñanza de este tema en la Facultad de Ciencias de la
UNAM.
Caso 1: Fisher y la dama del té
El caso conocido como “la dama del té” fue expuesto por Fisher en su obra
las matemáticas de una catadora de té, en donde se señala que una dama
inglesa aseguraba que podı́a saber si se habı́a vertido en primer lugar la
infusión de té o la leche en una taza, con sólo probar la mezcla resultante.
Para analizar la afirmación de la señora se procede a un experimento.
Se le pide probar y clasificar n pares de tazas de té, conteniendo cada par
una taza preparada por cada uno de los dos procedimientos en cuestión,
primero el té y después la leche, y viceversa. En el experimento se pone
especial cuidado en asegurar la semejanza bajo las condiciones en que se
clasifican los pares de tazas de té y se procura la eliminación de cualquier
posible diferencia entre las tazas que resulte irrelevante para el problema. A
la dama se le presentan aleatoriamente las tazas de cada par. Finalmente,
se deja un tiempo razonable entre intentos sucesivos, a fin de asegurar que
la clasificación de cada par de tazas de té es independiente de los pares de
tazas precedentes.
1O
simplemente con una variable aleatoria.
6.1. Conceptos fundamentales en pruebas de hipótesis
229
Se desea probar la hipótesis que consiste en afirmar que la dama es una
charlatana, que tendrı́a como contraparte la hipótesis de que ella tiene poderes de discriminación.
Caso 2: El juego de azar elegido por un chango
Suponga que se coloca a un changuito dentro de una caja (suficientemente
grande para que quepa en ella) con una pequeña ventana y en cuyo interior se
tienen 5 monedas y un dado honestos, ası́ como papel y lápiz. El experimento
consiste en lo siguiente:
El monito elige un juego al azar, lanzar las cinco monedas o lanzar el
dado.
Si se decide por el dado, el juego consiste en lanzarlo y observar el
número de la cara que aparece hacia arriba.
Si decide usar las monedas, las lanzará una por una y contará el número
de águilas.
Anotará en un papel el número de águilas o el de la cara del dado que
haya salido y lo entregará a través de la ventanita.
El problema consiste en averiguar si el changuito usó el dado o las monedas. Es decir, se desea probar la afirmación de que el changuito usó el
dado, que tendrı́a como contraparte la hipótesis de que el changuito usó las
monedas.
6.1.1.
Hipótesis estadı́sticas
El experimento asociado con el caso de la dama del té se puede ver como la
obtención de una muestra aleatoria de tamaño n de una población con distribución Bernoulli, es decir, se tienen n variables aleatorias X1 , X2 , . . . , Xn ,
tal que Xi tiene distribución Bernoulli con parámetro p, para i = 1, 2, . . . , n,
con
(
1 si la clasificación es correcta,
Xi =
0 si la clasificación no es correcta.
Se quieren probar las siguientes aseveraciones:
La dama es charlatana. vs.
La dama tiene “poderes” de discriminación.
Si la dama es charlatana, entonces hará la clasificación adivinando, por lo
que p = 12 (p es la probabilidad de éxito); si tiene poderes de discriminación,
230
6. Pruebas de hipótesis
entonces p > 21 , por lo que la hipótesis de que la dama es charlatana se puede
replantear como:
Xi ∼ Bernoulli con p =
1
,
2
i = 1, . . . , n.
Definición 6.1 Una hipótesis estadı́stica es una aseveración acerca de la
distribución de una o más variables aleatorias. A una hipótesis que especifica
completamente la distribución se le llama hipótesis simple. A una hipótesis
que no es simple se le llama hipótesis compuesta.
Note que en el ejemplo de la dama del té se tiene un contraste de una
hipótesis simple contra una hipótesis compuesta.
En particular a p = 12 se le llama hipótesis nula y a p > 12 hipótesis
alternativa, denotadas por H0 y Ha , respectivamente. De hecho, el término
hipótesis nula fue introducido por Fisher para representar la hipótesis defendida por él: la nula posibilidad de que la dama pudiera distinguir el orden
en que se vertieron el té y la leche. Ası́,
H0 : p =
1
2
vs.
Ha : p >
1
.
2
Por otra parte, en el ejemplo del changuito (caso 2) los posibles resultados que se pueden obtener (al recibir el papel con el número anotado) son:
0, 1, 2, 3, 4, 5, 6; esto es, el espacio muestral está dado por:
Ω = {0, 1, 2, 3, 4, 5, 6} .
Este problema se puede plantear de la siguiente forma:
H0 : El changuito usó el dado vs. Ha : El changuito usó las monedas,
y de estas dos afirmaciones, el interés radica en ver de alguna manera que
se confirma una y por lo tanto la otra es falsa. En este caso, las hipótesis
se pueden replantear traduciendo el contenido de cada una de ellas a términos probabilı́sticos, es decir, cada hipótesis se puede representar por una
aseveración acerca de la distribución de una variable aleatoria, por lo que:
1
, i = 1, . . . , 6,
6
vs.
k 5−k
1
1
5
Ha : P (X = k) =
1−
, k = 0, 1, . . . , 5,
k
2
2
H0 : P (X = i) =
donde en H0 , X denota el valor de la cara del dado obtenida y en Ha denota
el número de águilas obtenidas (éxitos) de entre los cinco lanzamientos. Lo
6.1. Conceptos fundamentales en pruebas de hipótesis
231
que se afirma en H0 y en Ha es acerca de la distribución de una variable
aleatoria, es decir, son hipotésis estadı́sticas (note además que en este ejemplo
las dos hipótesis son simples).
Tanto en el caso de la dama del té como en el del changuito, se desea
discriminar entre las dos hipótesis planteadas; por lo que el problema es
encontrar alguna evidencia que lleve a rechazar alguna y, por lo tanto, a
aceptar la otra.
Definición 6.2 Una prueba de hipótesis es una regla de decisión mediante la cual, y con base en la muestra, se puede determinar si se acepta o
se rechaza la hipótesis nula bajo consideración.
Sólo como ilustración, suponga que en el caso de la dama del té, n = 5.
5
P
Xi cuenta el número de éxitos y T (X) ∼ Bin(5, p). Se
Entonces T (X) =
i=1
podrı́a decidir, por ejemplo, rechazar H0 si T = 5 ó si T = 4 y no rechazarla
si T = 0 ó T = 1; regla que usualmente se expresa como un enunciado
precedido por la letra griega γ, es decir:
γ : Rechazar H0 si
5
X
i=1
Xi = 4 o
5
X
Xi = 5.
i=1
Esta regla de decisión serı́a entonces una prueba de hipótesis; sin embargo,
por el momento no tiene mayor sustento que el intuitivo.
Ahora, siguiendo con el caso del changuito, es claro que se rechaza H0 si
en el papel aparece el cero (el dado no tiene el número cero) y no se rechaza
H0 si en el papel aparece el 6 (sólo hay cinco monedas). De esta manera, el
espacio muestral queda dividido en dos partes, una de ellas lleva a rechazar
H0 y la otra lleva a no rechazar H0 ; las partes en que queda dividido Ω no
pueden traslaparse, ya que un elemento que perteneciera al traslape llevarı́a
a rechazar y a no rechazar al mismo tiempo a la hipótesis H0 , lo cual serı́a
una contradicción, por lo que se busca una partición del espacio muestral Ω.
Una posible partición de Ω es C = {0, 2, 3}, región que llevarı́a a rechazar
a H0 ; por lo que C c = {1, 4, 5, 6} y al obtener un resultado de este subconjunto, no se rechazarı́a H0 . Una vez más, hasta este momento, la regla de
decisión sólo tiene un sustento intuitivo y también puede expresarse como:
γ : Rechazar H0 si el número es 0, 2 o 3.
A la región C se le denomina la región crı́tica o de rechazo de H0 y se
define de la siguiente manera.
Definición 6.3 A la región C que lleva a rechazar la hipótesis nula se le
llama región de rechazo o región crı́tica.
232
6. Pruebas de hipótesis
Una vez especificada, basta tomar una muestra y verificar si se encuentra
en la región crı́tica o no.
Se usará la siguiente notación relacionada con algunos de los conceptos
expuestos hasta el momento:
La letra griega γ denota una prueba de hipótesis.
C o Cγ se refiere a la región crı́tica asociada a la prueba γ.
Como antes, la letra Θ denota el espacio paramétrico.
Θ0 se refiere al espacio paramétrico consistente con la hipótesis nula
H0 .
Θ1 se refiere al espacio paramétrico consistente con la hipótesis alternativa Ha .
Observación 6.1 Note que una prueba de hipótesis γ y una región crı́tica C (o Cγ ) son equivalentes. Considere por ejemplo una muestra aleatoria
X1 , X2 , . . . , Xn de una población con distribución N (θ, 100), se desea probar:
H0 : θ ≤ 75
vs.
Ha : θ > 75.
En este caso se tienen dos hipótesis compuestas, donde
Θ0 = {θ : θ ≤ 75}
y
Θ1 = {θ : θ > 75}.
La siguiente es una región crı́tica asociada a este problema:
C = (x1 , x2 , x3 ) ∈ X | x21 + x22 + x23 ≥ 1 .
De esta manera, la prueba está determinada: se consideran tres variables
aleatorias X1 , X2 y X3 , si los valores observados son tales que x21 +x22 +x23 ≥ 1,
entonces se rechaza la hipótesis nula, en caso contrario, se acepta.
Por lo tanto, la prueba asociada serı́a:
γ : Rechazar H0 si x21 + x22 + x23 ≥ 1.
6.1.2.
Tipos y tamaños de los errores
Como en todos los casos de decisión estadı́stica, se puede incurrir en errores
y la idea serı́a efectuar una partición del espacio muestral que sirviera como
regla de decisión considerando los posibles errores que se pueden cometer y
tratando de que su probabilidad de ocurrencia fuera lo más pequeña posible.
Es necesario entonces analizar los tipos de errores que se pueden cometer al
efectuar una prueba estadı́stica.
Esto fue precisamente lo que hizo Fisher en el ejemplo de la dama del té,
señalando que podı́a hacer conclusiones equı́vocas, esto es:
6.1. Conceptos fundamentales en pruebas de hipótesis
233
1. Decir que la dama tenı́a poderes cuando en realidad era charlatana, lo
cual es equivalente a rechazar H0 cuando H0 es cierta.
2. Decir que la dama era charlatana cuando en realidad tenı́a poderes, lo
cual es equivalente a aceptar (no rechazar) H0 cuando H0 es falsa.
Fisher llamó a estos errores, error tipo I y error tipo II, respectivamente, quedando este nombre dentro de la literatura estadı́stica para representar
de manera general al yerro de rechazar a la hipótesis nula cuando es cierta
y no rechazarla cuando es falsa, respectivamente. Se acostumbra representar
estos errores en forma tabular como:
Rechazar H0
No rechazar H0
H0 cierta
Error tipo I
Decisión correcta
H0 falsa
Decisión correcta
Error tipo II
El objetivo en pruebas de hipótesis es entonces efectuar el contraste entre
H0 y Ha minimizando los errores que se puedan cometer y maximizando los
aciertos. Para medir los errores que se cometen, lo que se hace es calcular las
probabilidades de dichos errores y a estas probabilidades se les conoce como
los tamaños de los errores.
Definición 6.4 Se define el tamaño de los errores como
α = P(error tipo I) = P [rechazar H0 | H0 cierta]
y
β
=
P(error tipo II) = P [no rechazar H0 | Ha cierta]
=
P(error tipo II) = P [no rechazar H0 | H0 falsa] .
Rechazar H0 es equivalente a haber obtenido una muestra de la región C
de rechazo de H0 y, por lo tanto, de una “buena” partición de Ω en C y C c
depende el tamaño de los errores.
El objetivo es encontrar un criterio óptimo para particionar a Ω en C y
C c , de tal manera que dicho criterio tome en cuenta el tamaño de los errores
en algún sentido. En el ejemplo del changuito la partición propuesta:
C = {0, 2, 3}
y
C c = {1, 4, 5, 6} ,
da lugar a los tamaños de error siguientes:
234
6. Pruebas de hipótesis
α
= P [error tipo I] = P [rechazar H0 | H0 cierta]
= P [X ∈ C | H0 ]
= P [X = 0 o X = 2 o X = 3| H0 ]
= P [X = 0| H0 ] + P [X = 2| H0 ] + P [X = 3| H0 ]
1 1
= 0+ +
6 6
1
2
= ,
=
6
3
β
= P [error tipo II] = P [no rechazar H0 | Ha cierta]
= P [X ∈ C c | Ha ]
= P [X = 1
ó X = 4 ó X = 5 ó X = 6| Ha ]
= P [X = 1| Ha ] + P [X = 4| Ha ] + P [X = 5| Ha ] + P [X = 6| Ha ]
5
1
5
+
+
+0
=
32 32 32
11
=
.
32
Puede verse que estos tamaños de error en realidad son grandes, pero
esto es consecuencia de que se cuenta con una muestra de tamaño uno. Más
adelante se dará un criterio general para obtener una mejor partición de Ω
y por lo tanto, una buena prueba. Para ello se introduce ahora el concepto
de función potencia.
6.1.3.
La función potencia
La función potencia juega un papel similar al del error cuadrático medio en
estimación: será el estándar para medir la bondad de una prueba y se define
de la siguiente manera.
Definición 6.5 La potencia de una prueba γ está dada por:
πγ (θ) = P[Rechazar H0 |θ] = P[(X1 , . . . , Xn ) ∈ C|θ].
La función potencia ideal vale 0 para θ ∈ Θ0 (hipótesis nula) y vale 1
para θ ∈ Θ1 (hipótesis alternativa). Es decir,
0 si θ ∈ Θ0 ,
P[Rechazar H0 |θ] =
1 si θ ∈ Θ1 .
6.1. Conceptos fundamentales en pruebas de hipótesis
235
Ası́, la idea es no rechazar la hipótesis nula cuando es cierta y rechazarla
cuando es falsa.
Definición 6.6 Sea γ una prueba de hipótesis de H0 : θ ∈ Θ0 contra Ha :
θ ∈ Θ1 . El tamaño de la prueba se define como:
máx πγ (θ),
θ∈Θ0
es decir, es el máximo valor de la potencia cuando H0 es cierta.
Observación 6.2 El tamaño de la prueba también se conoce como el tamaño de la región crı́tica, debido a la equivalencia que ya se ha mencionado
entre prueba y región crı́tica. Asimismo, se le puede llamar el nivel de la
prueba.
Observación 6.3 Lo que dice la definición anterior es que el tamaño de
la prueba se entiende como la mayor probabilidad de tomar una decisión
incorrecta suponiendo verdadero cualquier valor del parámetro θ asociado
con la hipótesis nula. Es deseable que se trate de una probabilidad pequeña,
por lo que es usual que α se fije en los valores 0.05 o 0.01.
Ejemplo 6.1 Sea X1 , . . . , Xn una muestra aleatoria de la distribución
N (θ, 100) con n = 25. Se considera el contraste H0 : θ ≤ 75 vs. Ha : θ > 75
y se propone la siguiente región crı́tica para esta prueba:
C = {(x1 , . . . , x25 ) ∈ X : x > 75} ,
es decir, la prueba está especificada como:
γ : rechazar H0 si x > 75.
La función potencia está dada por:
πγ (θ) = P(X ∈ C|θ) = P(X > 75|θ),
y como X ∼ N θ, 100
25 , se tiene que:
X −θ
75 − θ
πγ (θ) = P
>
2
2
75 − θ
75 − θ
= P Z>
=1−Φ
,
2
2
donde Z = X−θ
tiene una distribución N (0, 1) y Φ denota la función de
2
distribución acumulada de Z.
236
6. Pruebas de hipótesis
A continuación se calcula la función potencia para algunos valores especı́ficos de θ:
Si θ = 73,
πγ (θ) = P(Z > 1) = 1 − Φ(1) = 0.1587.
Si θ = 75,
πγ (θ) = P(Z > 0) = 0.5.
Si θ = 77,
πγ (θ) = P(Z > −1) = 1 − Φ(−1) = 1 − [1 − Φ(1)] = Φ(1) = 0.8413.
Si θ = 79,
πγ (θ) = P(Z > −2) = Φ(2) = 0.977.
El tamaño de la prueba está dado por
máx πγ (θ) = 0.5.
θ∈Θ0
0.0 0.2 0.4 0.6 0.8 1.0
πγ(θ)
La figura 6.1 muestra la gráfica de la función potencia correspondiente a
este ejemplo.
60
65
70
75
80
85
90
θ
Figura 6.1: Función potencia del ejemplo 6.1.
Ejemplo 6.2 Sea X una variable aleatoria con distribución Binomial(5, θ).
El problema consiste en contrastar las hipótesis H0 : θ ≤ 1/2 vs. Ha : θ >
1/2.
6.1. Conceptos fundamentales en pruebas de hipótesis
237
Considere dos regiones crı́ticas C1 = {x | x = 5} y C2 = {x | x = 3, 4 o 5}.
Bajo la región crı́tica C1 = {x | x = 5}, la función potencia es:
π1 (θ)
=
P(Rechazar H0 |θ)
=
Pθ (X = 5|θ)
=
θ5 ,
entonces
1 − π1 (θ) = 1 − θ5 ,
ası́ que el tamaño del error tipo I es α, α ≤ (1/2)5 = 0.03125 y el tamaño
del error tipo II es β < 1 − (1/2)5 = 0.96875.
Usando la región crı́tica C2 = {x | x = 3, 4 o 5}, la función potencia es:
π2 (θ)
= P(Rechazar H0 |θ)
= Pθ (X = 3, 4 ó 5|θ)
5 3
5 4
5 5
2
1
=
θ (1 − θ) +
θ (1 − θ) +
θ (1 − θ)0 ,
3
4
5
entonces
π2 (θ)
=
1 − π2 (θ)
=
5 3
5 4
5 5
2
1
θ (1 − θ) +
θ (1 − θ) +
θ (1 − θ)0 ,
3
4
5
5 0
5 1
5 2
5
4
θ (1 − θ) +
θ (1 − θ) +
θ (1 − θ)3 ,
0
1
2
ası́ que el tamaño del error tipo I es α ≤ 0.5 y el tamaño del error tipo II es
β < 0.5.
Las funciones potencia de ambas regiones crı́ticas se muestran en la figura
6.2. Bajo C1 , el tamaño del error tipo I es menor que cuando se considera
C2 , mientras que el error tipo II es mayor bajo C1 que bajo C2 . La pregunta
ahora serı́a cuál de las dos regiones deberı́a elegirse con base en las respectivas
funciones potencia.
Es entonces conveniente establecer un criterio para determinar cuál podrı́a
ser la mejor región crı́tica. Para ello es necesario definir lo que se considera
una buena prueba y este concepto está relacionado con los tamaños de los
errores y, por lo tanto, con la función potencia. Esto se hará considerando diferentes tipos de contraste, iniciando con el caso de una hipótesis nula
simple contra una hipótesis alternativa también simple.
238
6. Pruebas de hipótesis
0.0 0.2 0.4 0.6 0.8 1.0
π(θ)
Funcion potencia
C1
C2
0.0
0.2
0.4
0.6
0.8
1.0
θ
Figura 6.2: Funciones potencia del ejemplo 6.2.
6.2.
Hipótesis simples
En esta situación se tienen dos distribuciones completamente especificadas,
las cuales se denotarán por f0 = f (x; θ0 ) y f1 = f (x; θ1 ), correspondientes a
las hipótesis nula y alternativa, respectivamente.
Considere una muestra aleatoria X1 , X2 , . . . , Xn de una población con
distribución f0 ó f1 y se desea probar:
H0 : Xi ∼ f0 vs. Ha : Xi ∼ f1 .
Si se tiene una sola observación x1 y las funciones f0 y f1 son tales que
f0 (x1 ) > f1 (x1 ), entonces se puede decidir que la observación viene de f0 .
Bajo este criterio, la observación vendrı́a de f1 si f0 (x1 ) ≤ f1 (x1 ) (es más
probable que la observación venga de f1 que de f0 y se deberı́a rechazar H0 ).
Este simple razonamiento se puede usar en el ejemplo del juego de azar
elegido por un chango, especificando la siguiente regla de decisión: rechazar
H0 si
(6.1)
P [X ∈ C | H0 ] ≤ P [X ∈ C | Ha ]
o, de manera equivalente, rechazar H0 si
P [X ∈ C | H0 ]
≤ 1.
P [X ∈ C | Ha ]
(6.2)
239
6.2. Hipótesis simples
En la subsección 6.1.2 se calcularon los tamaños de los errores para la
partición
C = {0, 2, 3} y C c = {1, 4, 5, 6} ,
obteniendo:
α
= P [error tipo I]
= P [X ∈ C | H0 ]
1
=
3
y
β
=
P [error II]
=
P [X ∈ C c | Ha ]
11
,
32
=
21
por lo que P [X ∈ C | Ha ] = 32
.
Siguiendo un desarrollo análogo se pueden encontrar α y β para cada
partición de Ω que se proponga, en particular:
Si C1 = {0, 2} , C1c = {1, 3, 4, 5, 6} y
α1 = 0 +
1
5
10
5
1
21
1
= y β1 =
+
+
+
+0=
.
6
6
32 32 32 32
32
Si C2 = {0, 3, 4} , C2c = {1, 2, 5, 6} y
α2 = 0 +
1 1
1
5
10
1
16
+ = y β2 =
+
+
+0=
.
6 6
3
32 32 32
32
Si C3 = {0, 1, 4, 5} , C3c = {2, 3, 6} y
α3 = 0 +
1 1 1
3
1
10 10
20
+ + = = y β3 =
+
+0=
.
6 6 6
6
2
32 32
32
Como puede observarse, para estas tres particiones, cuando α decrece,
β crece mucho y viceversa o ambos son grandes. De la misma manera se
pueden obtener α y β para cada una de todas las posibles particiones de Ω
y comprobar que la pareja que cumple el criterio (6.1), o equivalentemente
(6.2), y que tiene los mı́nimos errores es la primera partición propuesta.
Esta idea intuitiva se retomará más adelante, es necesario ahora dar una
definición de lo que se entenderá por una buena prueba con base en el tamaño
de los errores y de la potencia de esa prueba.
240
6. Pruebas de hipótesis
6.2.1.
Pruebas más potentes y el lema de NeymanPearson
Para considerar el tamaño de los errores en la búsqueda de una prueba
adecuada, usualmente lo que se hace es fijar el tamaño del error tipo I y
entonces buscar la prueba que tenga tamaño de error tipo II mı́nimo (de
entre todas las que tengan el mismo tamaño de error tipo I).
En este caso simple contra simple, Θ = {θ0 , θ1 }. Se quiere probar
H0 : θ = θ0 vs. Ha : θ = θ1 .
Sea γ una prueba asociada a este contraste de hipótesis y sea πγ (θ) la
función potencia asociada a dicha prueba. Una buena prueba es tal que
πγ (θ0 )
=
P(rechazar H0 |H0 ) es pequeña (idealmente cero) y
πγ (θ1 ) = P(rechazar H0 |Ha ) es grande (idealmente 1).
Observación 6.4 Note que en este caso simple contra simple, la función
potencia evaluada en θ0 , es decir, πγ (θ0 ) = P(rechazar H0 |H0 ), coincide con
el tamaño del error tipo I y también con el tamaño de la prueba γ, pues el
único valor en Θ0 es θ0 :
πγ (θ0 ) = tamaño del error tipo I = tamaño de la prueba,
y note también que:
1 − πγ (θ1 ) = P(no rechazar H0 |Ha ) = tamaño del error tipo II,
relación que establece que minimizar el tamaño del error tipo II es equivalente
a maximizar la potencia evaluada en la hipótesis alternativa.
El concepto de lo que debe ser una buena prueba queda plasmado en
la siguiente definición, la cual se identifica como una prueba más potente
y que está vinculada con la observación anterior en el sentido de que se
fija el tamaño del error tipo I y se minimiza el tamaño del error tipo II o,
equivalentemente, se maximiza la función potencia evaluada en Ha , de ahı́
el nombre que se le da a la prueba resultante.
Definición 6.7 Una prueba γ ∗ de H0 : θ = θ0 vs. Ha : θ = θ1 se define
como una prueba más potente de tamaño α (0 < α < 1) si y sólo si:
(i) πγ ∗ (θ0 ) = α,
(ii) πγ ∗ (θ1 ) ≥ πγ (θ1 ), para cualquier otra prueba γ tal que πγ (θ0 ) = α.
241
6.2. Hipótesis simples
Observación 6.5 Como se ha mencionado, una prueba de hipótesis es equivalente al conocimiento de una región crı́tica, por lo que la definición anterior
puede darse también en términos de la región crı́tica C ∗ asociada a γ ∗ .
Una mejor región crı́tica C ∗ de tamaño α para probar H0 : θ = θ0 vs.
Ha : θ = θ1 , satisface:
(i) P(X ∈ C ∗ |H0 ) = α,
(ii) P(X ∈ C ∗ | Ha ) ≥ P(X ∈ C|Ha ), para cualquier C tal que P(X ∈
C|H0 ) = α.
El siguiente resultado, conocido como el lema de Neyman-Pearson2 , proporciona un método para obtener pruebas más potentes (o regiones crı́ticas
óptimas).
Lema 6.1 (lema de Neyman-Pearson) . Sea X1 , . . . , Xn una muestra
aleatoria de una población con función de densidad f (x; θ), donde θ ∈ Θ =
{θ0 , θ1 } y sean 0 < α < 1, k un número positivo y C ∗ tales que:
(a) P(X ∈ C ∗ |H0 ) = α,
n
Q
(b) λ =
L(θ0 )
L(θ1 )
=
i=1
n
Q
f (xi ;θ0 )
≤ k si x ∈ C ∗ ,
f (xi ;θ1 )
i=1
(c) λ > k si x ∈ (C ∗ )c .
Entonces la prueba γ ∗ , asociada a C ∗ , es una prueba más potente para
probar H0 : θ = θ0 vs. Ha : θ = θ1 (es decir, C ∗ es la mejor región
crı́tica).
2 Jerzy Neyman (1894-1981), de nacionalidad polaca, vivió en Estados Unidos desde
1938 (Universidad de California en Berkeley) y Egon Sharpe Pearson (1895-1980),
hijo del reconocido estadı́stico inglés Karl Pearson. Colaboraron durante los años 20 y 30
del siglo XX, abordando problemas de inferencia y construyendo herramientas estadı́sticas
como el lema que lleva su nombre.
Neyman, J. and Pearson, E.S. (1928a, 1928b). On the use and interpretation of certain
test criteria for purposes of statistical inference, Part I. Biometrika, 20A, 175-240. Part
II. Biometrika, 20A, 263-294.
Neyman, J. and Pearson, E.S. (1933a). On the problem of the most efficient tests of
statistical hypotheses. Phil. Trans. Roy. Soc., Ser. A, 231, 289-337. Reprinted in Breakthroughs in Statistics Volume I (S. Kotz and N. L. Johnson, eds.), 1992. Springer-Verlag,
Inc., New York.
Neyman, J. and Pearson, E.S. (1933b). The testing of statistical hypotheses in relation
to probabilities a priori. Proc. Camb. Phil. Soc., 24, 492-510
242
6. Pruebas de hipótesis
Demostración. Observe primero que la primera hipótesis (a) coincide con
(i) de la definición 6.7 de prueba más potente (o equivalentemente de mejor
región crı́tica). Por otro lado, la hipótesis (b) se puede reescribir como:
1
L(θ0 ),
k
y la hipótesis (c) es equivalente a:
x ∈ C∗ ∩ Cc ⊆ C∗
L(θ1 ) ≥
1
L(θ0 ),
k
L(θ1 ) <
c
x ∈ (C ∗ ) ∩ C ⊆(C ∗ )c .
Observe también que:
c
C = (C ∩ C ∗ ) ∪ (C ∩ (C ∗ ) )
(6.3)
C ∗ = (C ∗ ∩ C) ∪ (C ∗ ∩ C c ) .
(6.4)
y
La demostración se hará para el caso continuo. Por demostrar que
P(X ∈ C ∗ | Ha ) ≥ P(X ∈ C|Ha ),
para cualquier C tal que P(X ∈ C|H0 ) = α (ver observación 6.5); que es
equivalente a demostrar que:
Z
Z
L(θ1 ) ≥
L(θ1 ),
C∗
C
o bien que:
Z
Z
L(θ1 ) −
L(θ1 ) ≥ 0,
C∗
C
que por las identidades (6.3) y (6.4), es equivalente a demostrar que:
Z
Z
L(θ1 ) −
L(θ1 ) ≥ 0.
(6.5)
C∩(C ∗ )c
C ∗ ∩C c
Se procede de la siguiente manera:
"Z
#
Z
Z
Z
1
L(θ0 ) −
L(θ0 ) =
L(θ1 ) −
L(θ1 ) ≥
k C ∗ ∩C c
(C ∗ )c ∩C
C ∗ ∩C c
C∩(C ∗ )c
=
=
=
1
k
1
k
1
k
"Z
Z
Z
L(θ0 ) −
L(θ0 ) +
C ∗ ∩C c
Z
C∩C ∗
L(θ0 ) −
(C ∗ )c ∩C
Z
L(θ0 ) −
C∗
Z
L(θ0 )
C
[P [X ∈ C ∗ |H0 ] − P [X ∈ C|H0 ]] = k1 (α − α) = 0.
#
L(θ0 )
C∩C ∗
243
6.2. Hipótesis simples
Con lo que (6.5) queda demostrado.
Note la relación del lema de Neyman-Pearson con el argumento intuitivo que se explicó al inicio de esta sección, proporcionando ası́ un método
sistemático para encontrar una prueba más potente.
A continuación se presentan algunos ejemplos del uso del lema de NeymanPearson.
Ejemplo 6.3 Sea X1 , . . . , Xn una muestra aleatoria de la población con
función de densidad f (x; θ) = θe−θx , θ > 0,
Θ = {θ0 , θ1 }
(θ0 > θ1 )
H0 : θ = θ 0 .
L(θ) =
n
Y
vs. Ha : θ = θ1 ,
n
Y
Pn
= θn
e−θxi = θn e−θ i=1 xi .
θe−θxi
i=1
i=1
Procediendo de acuerdo al lema de Neyman-Pearson:
Pn
n
Pn
Pn
L(θ0 )
θ0n e−θ0 i=1 xi
θ0
= n −θ Pn x =
e−θ0 i=1 xi +θ1 i=1 xi
L(θ1 )
θ1
θ1 e 1 i=1 i
n
Pn
θ0
e−(θ0 −θ1 ) i=1 xi ≤ k ⇔ x ∈ C ∗ ,
=
θ1
⇒ e−(θ0 −θ1 )
⇒
Pn
−(θ0 − θ1 )
i=1
xi
n
X
≤ k1 ,
xi ≤ k2 ⇒ (θ0 − θ1 )
i=1
⇒
n
X
n
X
xi ≥ −k2 ,
i=1
xi ≥ k3 ≡ c ⇔ se rechaza H0 .
i=1
(se han usado k1 , k2 y k3 para denotar a las constantes que van resultando
en cada paso del despeje de la estadı́stica de prueba, hasta llegar a la forma
de la región crı́tica).
Entonces, la prueba de hipótesis queda establecida de la siguiente manera:
γ ∗ : Se rechaza H0 si
n
X
Xi ≥ c,
i=1
o
(
∗
C =
(X1 , . . . , Xn ) ∈ X|
n
X
i=1
)
Xi ≥ c ,
244
6. Pruebas de hipótesis
donde c se determina fijando el tamaño
Pn de la prueba y con base en la distribución de la estadı́stica de prueba i=1 Xi . Si el tamaño de la prueba es
igual a 0.05, se tiene que:
" n
#
X
πγ (θ0 ) = P[rechazar H0 |H0 es cierta] = P
Xi ≥ c|θ = θ0 = 0.05.
i=1
O equivalentemente:
"
1−P
n
X
#
Xi ≤ c|θ = θ0 = 0.05.
i=1
Es decir,
P
n
X
!
Xi ≤ c|θ = θ0
= 0.95.
i=1
Bajo H0 ,
n
P
Xi ∼ Gama(n, θ0 ), entonces c corresponde al cuantil 0.95 de
i=1
una distribución Gama(n, θ0 ).
Ejemplo 6.4 Sea X1 , . . . , Xn una muestra aleatoria de la población con
distribución Normal, N (µ,σ 2 ), con σ 2 conocida. Se considera el contraste de
hipótesis H0 : µ = µ0 vs. Ha : µ = µ1 , donde µ0 < µ1 .
La función de verosimilitud es
n
Y
1
1
√
exp − 2 (xi − µ)2
L(µ) =
2σ
2πσ 2
i=1
(
)
n
X
1
= (2πσ 2 )−n/2 exp − 2
(xi − µ)2 .
2σ i=1
Procediendo de acuerdo al lema de Neyman-Pearson, se obtiene el cociente
de verosimilitudes
n
o
Pn
2
1
2 −n/2
exp
−
(x
−
µ
)
2πσ
2
i
0
i=1
2σ
L(µ0 )
n
o
=
Pn
−n/2
2
1
L(µ1 )
2
(2πσ )
exp − 2σ2 i=1 (xi − µ1 )
(
)
n
n
1 X
1 X
2
2
= exp − 2
(xi − µ0 ) + 2
(xi − µ1 )
2σ i=1
2σ i=1
1
1
2
2
= exp
nx(µ0 − µ1 ) − 2 n µ0 − µ1 ,
σ2
2σ
245
6.2. Hipótesis simples
entonces X ∈ C equivale a que
exp
L(µ0 )
L(µ1 )
≤ k, esto implica que
1
1
2
2
nx(µ
−
µ
)
−
n(µ
−
µ
)
≤
0
1
0
1
σ2
2σ 2
1
1
nx(µ0 − µ1 ) − 2 n(µ20 − µ21 ) ≤
2
σ
2σ
1
nx(µ0 − µ1 ) ≤
σ2
k
k1 = ln k
k1 +
1
n(µ20 − µ21 ),
2σ 2
como µ0 y µ1 son valores fijos establecidos en las hipótesis, entonces se puede
hacer
1
nx(µ0 − µ1 ) ≤ k2 ,
σ2
y además, debido a que se supone que µ0 < µ1 , entonces µ0 − µ1 < 0, por
lo tanto,
σ2
x ≥ k2
,
n(µ0 − µ1 )
o
x ≥ k3 ;
ası́, se rechaza la hipótesis nula si y sólo si x ≥ c.
Entonces, la prueba de hipótesis queda establecida de la siguiente manera:
γ ∗ : se rechaza H0 si X ≥ c,
o equivalentemente
C ∗ : (X1 , . . . , Xn ) ∈ X | X ≥ c .
El valor de c se determina fijando el tamaño de la prueba y con base
en la distribución de la estadı́stica de prueba X. En este caso, dado que
Xi ∼ N ormal(µ, σ 2 ) y son variables aleatorias independientes
e identica
mente distribuidas, entonces X ∼ N ormal µ, σ 2 /n .
Bajo la hipótesis nula H0 : µ = µ0 , se tiene que X ∼ N ormal µ0 , σ 2 /n .
Note que esta distribución es totalmente conocida ya que los valores de n y
σ 2 son conocidos y µ0 es el valor establecido bajo la hipósteis nula.
Si el tamaño de la prueba es α, se tiene que
πγ (µ0 )
= P[rechazar H0 |H0 es cierta]
= P X ≥ c|µ = µ0 = α,
o equivalentemente,
1 − P X < c|µ = µ0 = α,
246
6. Pruebas de hipótesis
ası́ que c corresponde al cuantil 1−α de una distribución N ormal µ0 , σ 2 /n .
Por otro lado, también se puede calcular la función potencia bajo la
hipótesis alternativa, es decir,
πγ (µ1 )
= P[rechazar H0 |Ha ]
= P X ≥ c|µ = µ1 ,
pero como
πγ (µ1 )
=
P[rechazar H0 |Ha ]
=
1 − P[no rechazar H0 |Ha ],
entonces
1 − πγ (µ1 )
= P[no rechazar H0 |Ha ]
=
tamaño del error tipo II
= β.
Además se tiene que bajo la hipótesis alternativa Ha : µ = µ1 , se cumple
que
X ∼ N ormal µ1 , σ 2 /n .
La figura 6.3 muestra la relación que existe entre las pruebas de hipótesis
y los tamaños de los errores tipo I (α) y tipo II (β), determinados a partir
de la estadı́stica de prueba S = X. Note que las áreas delimitadas en color
negro y gris, representan a α y β, respectivamente.
fS (s|µ)
H0 : µ = µ0
N (µ0 , σ 2 /n)
Ha : µ = µ1
N (µ1 , σ 2 /n)
β
µ0
α
x
µ1
s
Figura 6.3: Funciones de densidad de la estadı́stica de prueba S = X bajo
ambas hipótesis y tamaños de los errores.
247
6.2. Hipótesis simples
Ejemplo 6.5 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población
con distribución Bernoulli(θ), donde θ es igual a θ0 o θ1 . Contrastar las
hipótesis
H0 : θ = θ0 vs. Ha : θ = θ1 ,
con θ0 < θ1 .
Se sabe que la verosimilitud bajo H0 es
Pn
L (θ0 ) = θ0
i=1
Pn
xi
,
Pn
xi
,
xi
(1 − θ0 )n−
xi
(1 − θ1 )n−
i=1
y la verosimilitud bajo H1 es
Pn
L (θ1 ) = θ1
i=1
i=1
ası́ que la región crı́tica determinada por λ ≤ k ∗ equivale a
Pn x n
θ0 (1 − θ1 ) i=1 i 1 − θ0
≤ k∗ ,
(1 − θ0 )θ1
1 − θ1
ası́,
−n ∗ 1−θ0
ln k 1−θ1
n
X
h
i ,
xi ≥
0 (1−θ1 )
ln θ(1−θ
i=1
0 )θ1
Pn
es decir, i=1 xi ≥ k 0 donde k 0 es una constante. Ası́ que una prueba más
potente está determinada por:
γ : Rechazar H0 si
n
X
Xi ≥ k 0 .
i=1
Suponga que θ0 = 1/4, θ1 = 3/4 y n = 10, entonces k 0 se determina de
tal manera que:
α
=
P[Rechazar H0 |H0 cierta]
=
P[Rechazar H0 |θ = 1/4]
" 10
#
X
0
P
Xi ≥ k |θ = 1/4
=
i=1
=
10 y 10−y
X
3
10
1
,
y
4
4
0
y=k
P10
1
donde Y =
i=1 Xi tiene una distribución Binomial 10, 4
0
0
α = 0.0197 entonces k = 6, y si α = 0.0781 entonces k = 5.
bajo H0 . Si
248
6.3.
6. Pruebas de hipótesis
Pruebas uniformemente más potentes
El lema de Neyman-Pearson aún puede usarse en algunos casos en donde
la hipótesis nula es simple y la alternativa es compuesta, como se exhibe en
esta parte. Sin embargo, para casos más generales de hipótesis compuestas,
la construcción de una región crı́tica se hará a través del llamado cociente o
razón de verosimiltudes generalizadas, lo cual se abordará en la sección 6.4.
El objetivo de este apartado es la obtención de regiones crı́ticas o pruebas
óptimas en un sentido más general que en el caso de hipótesis simples, a las
cuales se les conoce como pruebas uniformemente más potentes.
6.3.1.
Hipótesis simple contra compuesta
Para ilustrar el tipo de contrastes que involucra una hipótesis compuesta, y
en donde aún se utiliza el cociente simple de verosimilitudes, se inicia con el
siguiente ejemplo.
Ejemplo 6.6 Sea X1 , X2 , . . . , Xn una muestra aleatoria de la población con
distribución N (0, σ 2 ) y se desea probar
H0 : σ 2 = σ02
vs.
Ha : σ 2 > σ02 .
En este caso,
Θ0 = {σ02 }
y
Θ1 = {σ 2 : σ 2 > σ02 }.
Sea σ12 ∈ Θ1 , es decir, σ12 > σ02 (σ12 es un valor representativo de la hipótesis
alternativa). Usando el lema de Neyman-Pearson, se probará
H0 : σ 2 = σ02
vs.
Ha : σ 2 = σ12 ,
tomando como hipótesis alternativa simple al valor representativo de la
hipótesis alternativa original.
Se considera entonces el cociente:
n/2
Pn
1
exp(− 2σ1 2 i=1 x2i )
2
L(σ0 )
2πσ02
0
=
≤k
n/2
Pn
L(σ12 )
1
1
2)
exp(−
x
2
2
i=1 i
2πσ
2σ
1
" #
n
1 1
1 X 2
exp
− 2
x ≤k
2 σ12
σ0 i=1 i
2
n
σ1
n
1 1
1 X 2
ln
+
− 2
x ≤ k1 = ln(k)
2
σ02
2 σ12
σ0 i=1 i
⇔
⇔
1
σ12
σ02
n/2
249
6.3. Pruebas uniformemente más potentes
(σ02 − σ12 )
n
X
2 σ1
n
(σ12 σ02 )2 = k2
x2i ≤ k1 − ln
2
2
σ
0
i=1
Pero como σ02 − σ12 < 0, se obtiene que:
n
X
x2i > c,
i=1
y por lo tanto, la región crı́tica es:
(
C∗ =
(X1 , X2 , . . . , Xn ) ∈ X |
n
X
)
Xi2 > c ,
i=1
que equivale a la prueba
γ ∗ : Rechazar H0 si
n
X
Xi2 > c.
i=1
Pn
x2i
X2
Como Xi ∼ N 0, σ 2 , Xσi ∼ N (0, 1) y σ2i ∼ χ2(1) , de donde i=1
∼ χ2(n) .
σ2
Ası́, el valor de c se puede obtener de la relación:
!
Pn
n
2
X
c
2
i=1 xi
α=P
xi > c | H0 = P
> 2 ,
σ02
σ0
i=1
conociendo n, σ02 y fijando el tamaño de la prueba α.
Note que el procedimiento anterior serı́a el mismo para cualquier valor
consistente con la hipótesis alternativa, ası́ que el resultado γ ∗ es una prueba
uniformemente más potente, en el sentido de que se cumple para cualquier
σ12 tal que σ12 > σ02 . Esto conduce a la siguiente definición.
Definición 6.8 Una prueba γ ∗ es una prueba uniformemente más potente para probar
H0 : θ ∈ Θ0
vs.
Ha : θ ∈ Θ1
si:
(i) máx πγ ∗ (θ) = α,
θ∈Θ0
(ii) πγ ∗ (θ) ≥ πγ (θ), para todo θ ∈ Θ1 y para cualquier otra prueba γ tal que
máx πγ (θ) = α.
θ∈Θ0
250
6. Pruebas de hipótesis
En palabras, de entre todas las pruebas de tamaño α, la prueba uniformemente más potente es aquella que maximiza la potencia para todo θ ∈ Θ1 .
Para hipótesis alternativas del tipo unilateral, es decir,
Ha : θ > θ 0 ,
Ha : θ ≥ θ0 ,
Ha : θ < θ 0
o
Ha : θ ≤ θ0 ,
en donde H0 : θ = θ0 , se puede usar el lema de Neyman-Pearson para encontrar una prueba uniformemente más potente tomando un valor representativo de la hipótesis alternativa y planteando un contraste de dos hipótesis
simples.
Suponga ahora que se desea probar
H0 : µ = µ0
vs.
Ha : µ 6= µ0 ,
(observe que la hipótesis alternativa no es del tipo unilateral) para una muestra aleatoria de tamaño n de la distribución Normal µ, σ 2 , donde σ 2 = 1.
Usando el lema de Neyman-Pearson, se procederı́a como en el caso anterior,
es decir, replanteando las hipótesis a través de un valor representativo para
la hipótesis alternativa de tal manera que se tengan dos hipótesis simples:
H0 : µ = µ0
vs.
Ha : µ = µ1 ,
donde µ1 6= µ0 . Por el de lema de Neyman-Pearson, se tiene entonces que:
Pn
2
1 n/2 − 12
i=1 (xi −µ0 )
e
L (µ0 )
2π
=
Pn
2
1 n/2 − 12
L (µ1 )
i=1 (xi −µ1 )
e
2π
n
2
n
2
1
= e− 2 [ i=1 (xi −µ0 ) − i=1 (xi −µ1 ) ]
Pn
Pn
Pn
2
2
2 Pn
2
1
= e− 2 [ i=1 xi −2µ0 i=1 xi +nµ0 − i=1 xi +2µ1 i=1 xi −nµ1 ]
P
P
= e− 2 [2
1
Pn
i=1
xi (µ1 −µ0 )+n(µ20 −µ21 )]
≤ k1 ,
si y sólo si
−
n
X
1
xi (µ1 − µ0 ) − n µ20 − µ21 ≤ k2 ,
2
i=1
si y sólo si
−
n
X
i=1
xi (µ1 − µ0 ) ≤ k3 ,
251
6.3. Pruebas uniformemente más potentes
o
n
X
xi (µ1 − µ0 ) ≥ −k3 = c,
i=1
obteniéndose que
(
∗
C =
(X1 , . . . , Xn ) ∈ X |
n
X
)
Xi ≥ c ,
si µ1 − µ0 > 0,
i=1
y
(
∗
C =
(X1 , . . . , Xn ) ∈ X |
n
X
)
Xi ≤ c ,
si µ1 − µ0 < 0,
i=1
concluyendo que la región crı́tica no queda determinada de manera única, por
lo que para este tipo de pruebas ya no se usará el lema de Neyman-Pearson.
El tema de hipótesis compuestas se abordará desde dos perspectivas: mediante una caracterización que permite detectar la existencia de pruebas
uniformemente más potentes (Subsección 6.3.2) y a través del cociente de
verosimilitudes generalizadas (Sección 6.4).
6.3.2.
La razón monótona de verosimilitudes y el teorema de Karlin-Rubin
Ahora se analizará una clase de hipótesis asociada a una gran variedad de
problemas, en la cual se puede obtener una prueba uniformemente más
potente (ver definición 6.8) si la familia de la cual se obtiene la muestra cumple una condición conocida como la razón o cociente monótono de
verosimilitudes, la cual se define a continuación.
Definición 6.9 Una familia de densidades {f (x; θ) : θ ∈ Θ}, donde X es
una variable aleatoria univariada, tiene un cociente monótono de verosimilitudes en una estadı́stica T (X), si para todo {θ∗ , θ} ⊂ Θ y x ∈ X, se tiene
que
L(θ∗ ; x1 , ..., xn )
L (θ∗ )
=
,
L(θ; x1 , ..., xn )
L (θ)
es una función monótona no creciente (o no decreciente) de t(x), siempre
que θ∗ > θ; con f (x; θ∗ ) > 0 y f (x; θ) > 0.
Ejemplo 6.7 La familia de densidades Poisson(θ) , θ > 0, tiene cociente
252
6. Pruebas de hipótesis
monótono de verosimilitudes en T (X) =
Pn
i=1
∗
e−nθ (θ∗ )
∗
L(θ ; x)
L(θ; x)
Xi , pues
Pn
i=1
xi
/
n
Q
i=1
=
e−nθ
Pn
(θ)
i=1
xi
/
n
Q
i=1
∗
=
e−nθ (θ∗ )
Pn
i=1
Pn
1
xi !
1
xi !
xi
x
e−nθ (θ) i=1 i
∗ Pni=1 xi
∗
θ
e−n(θ −θ) ,
=
θ
Pn
es una función no decreciente de i=1 xi , con θ∗ > θ.
Observación 6.6 Los miembros de la familia exponencial
f (x; θ) = a(θ)b(x)ec(θ)d(x) , con θ ∈ Θ,
tienen cociente monótono de verosimilitudes. En otras palabras, si c(θ) es
una función estrictamente monótona de θ, entonces {f (x; θ) : θ ∈ Θ ⊆ R}
tiene cociente de verosimilitudes no creciente (o no decreciente) en T (X) =
P
n
i=1 d (Xi ).
Lema 6.2 Si la familia de densidades {f (x; θ) : θ ∈ Θ} tiene cociente
monótono de verosimilitudes en S (X), donde S (X) es una estadı́stica suficiente, entonces la función
V (s, θ∗ , θ) =
fS (s; θ∗ )
,
fS (s; θ)
es una función monótona en s, donde fS (s; θ) es la función de densidad de
la estadı́stica S.
Demostración. Cuando se estudió la suficiencia y el teorema de factorización, se analizó la relación entre la función de verosimilitud y la densidad
de la estadı́stica suficiente. Para el caso discreto esta relación es
X
fS (s) = P (S (X) = s) =
P (X1 = x1 , X2 = x2 , ..., Xn = xn )
As
=
X
L (θ; x1 , ..., xn )
As
= g (s; θ)
X
As
h (x1 , ..., xn ) ,
6.3. Pruebas uniformemente más potentes
253
donde
As = {(x1 , . . . , xn ) ∈ X | S (X) = s} .
Y para el caso continuo,
fS (s) = g (s; θ) m (s) ,
donde m (s) no depende de θ.
En ambos casos, se comprueba que:
V (s, θ∗ , θ) =
fS (s; θ∗ )
g (s; θ∗ )
=
.
fS (s; θ)
g (s; θ)
Por otro lado, la hipótesis establece que se cumple la monotonı́a del cociente
de verosimilitudes en S, la cual es suficiente, es decir:
L(θ∗ ; x)
g (S (x) ; θ∗ ) h (x1 , ..., xn )
g (S (x) ; θ∗ )
=
=
,
L(θ; x)
g (S (x) ; θ) h (x1 , ..., xn )
g (S (x) ; θ)
es una función monótona en S. Lo anterior implica que V (s, θ∗ , θ) es una
función monótona en S.
El siguiente resultado, conocido como el teorema de Karlin-Rubin proporciona una forma de encontrar una prueba uniformemente más potente
para hipótesis compuestas unilaterales.
Teorema 6.1 (teorema de Karlin-Rubin). Sea X1 , X2 , ..., Xn una muestra aleatoria de una población con función de densidad f (x; θ) y se desea
probar las hipótesis
H0 : θ ≤ θ0
vs. Ha : θ > θ0 .
(6.6)
Si la familia de densidades {f (x; θ)} tiene la propiedad del cociente
monótono de verosimilitudes no decreciente en S = S(X), la cual es una
estadı́stica suficiente para θ ∈ Θ, entonces la prueba:
γ : Rechazar H0 si S > k,
definida por la función:
Ψ(X) =
1
0
si S(X) > k,
si S(X) ≤ k,
donde k es tal que:
E[Ψ(X)] = P (S(X) > k) = α,
es una prueba uniformemente más potente de tamaño α para (6.6).
(6.7)
254
6. Pruebas de hipótesis
Demostración. Note que por la suficiencia de S, la verosimilitud puede
escribirse como el producto h (x) g (s; θ) , ası́ que el cociente de verosimiltudes
puede escribirse como
L(θ∗ ; x1 , ..., xn )
g (s; θ∗ )
=
,
L(θ0 ; x1 , ..., xn )
g (s; θ0 )
el cual es no decreciente (θ∗ > θ0 ) en s.
Sea πγ (θ) = P (S > k | θ) la función potencia para la prueba γ. Fije
θ0 > θ0 (es decir, θ0 es un valor consistente con la hipótesis alternativa) y
considere la prueba para las hipótesis simples
H00 : θ = θ0
vs.
Ha0 : θ = θ0 .
(6.8)
La función potencia πγ (θ) es no decreciente, esto es, para θ0 < θ0 , se tiene que
πγ (θ0 ) ≤ πγ (θ0 ), es decir, FS (k; θ0 ) ≤ FS (k; θ0 ). Para verificarlo, considere
d
fS (s; θ0 )
[FS (s; θ0 ) − FS (s; θ0 )] = fS (s; θ0 ) − fS (s; θ0 ) = fS (s; θ0 )
−1 ,
ds
fS (s; θ0 )
siendo el cociente que aparece en el último paréntesis una función monótona
no decreciente (por el lema 6.2), de tal manera que la derivada sólo puede
cambiar de signo de negativo a positivo, con lo que se deduce que cualquier
extremo interior es un mı́nimo. Por lo tanto, la función FS (s; θ0 ) − FS (s; θ0 )
se maximiza cuando s tiende a ∞ o a −∞, es decir cuando dicha función
vale 0, por lo que FS (s; θ0 ) ≤ FS (s; θ0 ) y, por lo tanto, πγ (θ0 ) ≤ πγ (θ0 ), para
θ0 < θ 0 .
De esta manera, supθ≤θ0 πγ (θ) = πγ (θ0 ) = α, donde α corresponde al
tamaño de la prueba.
Si ahora se define
g(s; θ0 )
k 0 = ı́nf
,
s∈T g(s; θ0 )
donde T = {s : s > k,
y
g(s; θ0 ) > 0
S>k ⇔
o
g(s; θ0 ) > 0}, entonces
g(s; θ0 )
> k0
g(s; θ0 )
y dado que S es una estadı́stica suficiente, entonces
S > k ⇔ g(s; θ0 )h(x) > g(s; θ0 )h(x)k 0 ,
lo cual es equivalente a
L (θ0 )
1
≤ 0 = c,
0
L (θ )
k
6.3. Pruebas uniformemente más potentes
255
y por el lema de Neyman-Pearson esta última desigualdad proporciona una
prueba más potente de tamaño α, es decir, se cumple que πγ (θ0 ) ≥ πγ∗ (θ0 ),
donde πγ∗ es la función potencia de cualquier otra prueba de tamaño α para
(6.8).
Finalmente, cualquier prueba de tamaño α de H0 satisface que
πγ∗ (θ0 ) ≤ máx πγ∗ (θ) ≤ α,
θ∈Θ0
por lo que πγ (θ0 ) ≥ πγ∗ (θ0 ) para cualquier prueba de tamaño α. Como θ0 en
la hipótesis nula es arbitrario, la prueba resultante es uniformemente más
potente de tamaño α para la hipótesis planteada.
De manera similar, se puede demostrar que para la prueba
H0 : θ ≥ θ0
vs.
Ha : θ < θ0 ,
la prueba uniformemente más potente es de la forma:
γ : Rechazar H0 si S < k.
(6.9)
Por otro lado, si se supone que la razón de verosimilitudes es monótona
no creciente en S, las pruebas (6.7) y (6.9) serı́an con las desigualdades
invertidas.
Ejemplo 6.8 Si X1 , . . . , Xn es una muestra aleatoria de una población con
distribución Uniforme(0, θ), para θ > 0. Sea 0 < θ1 < θ2 , el cociente de
verosimilitudes es
Qn
( θ12 )n i=1 I(0,θ2 ) (xi )
( 1 )n I(0,θ2 ) (yn )
L(θ2 ; x1 , . . . , xn )
= 1 n Qn
= θ12 n
,
L(θ1 ; x1 , . . . , xn )
( θ1 )
( θ1 ) I(0,θ1 ) (yn )
i=1 I(0,θ1 ) (xi )
donde Yn = máxi {X1 , . . . , Xn }. Se puede ver que el cociente de verosimilitudes es una función monótona no decreciente en la n-ésima estadı́stica de
orden, pues
( n
θ1
L(θ2 ; x1 , . . . , xn )
si 0 < yn < θ1
θ2
=
L(θ1 ; x1 , . . . , xn )
0
si θ1 < yn < θ2 .
Si se desea probar
H0 : θ ≤ θ0
vs.
Ha : θ > θ0 ,
usando el teorema de Karlin-Rubin, una prueba uniformemente más potente
está dada por:
γ : Rechazar H0 si Yn > k,
256
6. Pruebas de hipótesis
donde k se puede obtener de
α = P (Yn > k | H0 ) ,
usando la distribución de la máxima estadı́stica de orden.
Observación 6.7 Por la observación 6.6, cuando se tiene una densidad que
pertenece a la familia exponencial, basta verificar si c (θ) es función creciente
o decreciente de θ para saber si el cociente de verosimilitudes
es monótono (no
Pn
decreciente o no creciente, respectivamente) en i=1 d (Xi ) y por el teorema
de Karlin-Rubin, se puede dar la forma
Pnde la prueba (uniformemente más
potente), la cual estará en función de i=1 d (Xi ) , pues esta estadı́stica es
suficiente.
Ejemplo 6.9 Sea X1 , X2 , ..., Xn una muestra aleatoria de tamaño n = 49
de una población con distribución Bernoulli de parámetro θ y suponga que
se desea probar:
H0 : θ ≤ 0.01 vs.
Ha : θ > 0.01.
La distribución Bernoulli pertenece a la familia exponencial
x
θ
1−x
f (x; θ) = θx (1 − θ)
= (1 − θ)
1−θ
θ
x ln( 1−θ
)
= (1 − θ) e
,
con
c (θ) = ln
θ
1−θ
,
la cual es una función creciente, por lo que esta
Pn familia de densidades tiene
cociente de verosimilitudes no decreciente en i=1 Xi . De acuerdo al teorema
de Karlin-Rubin, una prueba uniformemente más potente está dada por:
γ : Rechazar H0 si
49
X
Xi > k.
i=1
6.4.
La razón de verosimilitudes generalizadas
Suponga que se tiene una muestra aleatoria de f (x; θ) con θ ∈ Θ y se desea
probar
H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 ,
6.4. La razón de verosimilitudes generalizadas
257
donde Θ0 ⊆ Θ y Θ1 ⊆ Θ; Θ0 y Θ1 son disjuntos. Usualmente Θ1 = Θ − Θ0 .
Por ejemplo, si se tiene una muestra aleatoria de una distribución N (µ, 100)
y se desea probar H0 : µ ≤ 75 vs. Ha : µ > 75, aquı́ Θ0 = {µ : µ ≤ 75},
Θ = {µ : −∞ < µ < ∞} y Θ − Θ0 = {µ : µ > 75}.
La idea utilizada en el caso simple contra simple y resumida en el lema
de Neyman-Pearson, sugiere una generalización en algún sentido del cociente o razón de verosimilitudes, en virtud de que subyace la idea intuitiva de
que una cantidad ası́ tenderá a ser pequeña cuando H0 es falsa, no obstante, la pregunta es ¿cómo debe hacerse esa generalización? La respuesta se
encuentra en esta sección.
6.4.1.
La prueba de la razón de verosimilitudes generalizadas
Definición 6.10 (razón de verosimilitudes generalizadas).
Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) y sea L(θ; x1 , ..., xn ) la función de verosimilitud, donde θ ∈ Θ. La razón de verosimilitudes generalizadas
se define como
máx L(θ; x1 , ..., xn )
θ∈Θ0
.
λ=
máx L(θ; x1 , ..., xn )
θ∈Θ
Observe que la expresión tomada en el denominador es el valor máximo
que puede alcanzar la verosimilitud L (θ) dentro
de Θ que es el campo de
variación de θ. Es decir, máx L(θ; x1 , ..., xn ) = L θb , donde θb es el estimador
θ∈Θ
máximo verosı́mil de θ.
Como se está considerando el cociente de dos cantidades no negativas,
λ ≥ 0. Como el máximo considerado en el denominador es sobre un conjunto
de valores de θ mayor al considerado en el denominador, λ ≤ 1. Por lo tanto,
se cumple que 0 ≤ λ ≤ 1.
Note también que λ es una función de x1 , ..., xn de modo que cuando las
observaciones se sustituyen por X1 , X2 , ..., Xn , se puede escribir Λ en vez de
λ.
Ası́, el denominador de Λ es la función de verosimilitud evaluada en
el estimador máximo verosı́mil, mientras que el numerador dependerá de
los valores en Θ0 . En ocasiones Θ0 consiste de un sólo valor (cuando se
tiene una hipótesis nula simple H0 : θ = θ0 ) y, en ese caso particular,
máx L(θ; x1 , ..., xn ) = L (θ0 ).
θ∈Θ0
Prueba de la razón de verosimilitudes generalizadas o principio de
la razón de verosimilitudes generalizadas.
258
6. Pruebas de hipótesis
Esta prueba establece la siguiente como regla de decisión.
“Rechazar H0 : θ ∈ Θ0 si y sólo si λ ≤ k, donde k es alguna constante fija
tal que 0 ≤ k ≤ 1”.
La constante k se especifica fijando el tamaño de la prueba y Λ es la
estadı́stica de prueba.
Intuitivamente, la prueba de la razón de verosimilitudes generalizadas
tiene sentido, ya que λ tenderá a ser más pequeña cuando H0 es falsa, debido
a que el denominador de λ será mayor que el numerador.
En general, se tendrán buenas pruebas con este método. El problema puede ser encontrar el máx L(θ) o la distribución de Λ, la cual es indispensable
para la evaluación de la potencia de la prueba.
Ejemplo 6.10 Sea X1 , ..., Xn una muestra aleatoria de tamaño n > 1 de
una distribución N (µ, σ 2 ) con σ 2 > 0. Se quiere probar
H0 : µ = 0 vs.
Ha : µ 6= 0.
En este caso
Θ = {(µ, σ 2 ) : −∞ < µ < ∞, 0 < σ 2 < ∞}
y
Θ0 = {(µ, σ 2 ) : µ = 0, 0 < σ 2 < ∞}.
Para θ∈ Θ,
L(θ) = L(θ; x1 , ..., xn ) =
1
2πσ 2
n/2
n
1 X
exp − 2
(Xi − µ)2
2σ i=1
!
.
(6.10)
Para θ∈ Θ0 ,
L(θ) = L(θ; x1 , ..., xn ) =
1
2πσ 2
n/2
n
1 X 2
exp − 2
X
2σ i=1 i
A continuación se va a obtener el numerador de λ.
Tomando logaritmos en (6.11):
ln L(θ)
=
∂
ln L(θ)
∂σ 2
=
n
n
1 X 2
ln 2πσ 2 − 2
X ,
2
2σ i=1 i
Pn
2
n 1
i=1 Xi
−
+
,
2 σ2
2(σ 2 )2
−
!
.
(6.11)
259
6.4. La razón de verosimilitudes generalizadas
igualando a cero, se obtiene que:
n
1X 2
X .
σ̂ =
n i=1 i
2
Entonces,
n/2

máx L(θ)
θ∈Θ0
1
=

2π
=
2π

Pn
i=1
Xi2
·
exp − Pn
Xi2 
2
i=1 Xi
2
i=1
n

n
n/2
n
Pn
i=1

n
X
1
Xi2
e−n/2 .
Ahora, se obtendrá el denominador de λ. Se sabe que para la distribución
2
Normal(µ,
máximo verosı́miles están dados por µ̂ = X̄ y
Pnσ ) los estimadores
1
2
σ̂ = n i=1 (Xi − X̄)2 . Sustituyendo en (6.10):
"
L(θ)
=
2π
=
#n/2
1
Pn
i=1 (Xi −X̄)
2
n
n
Pn
2π i=1 (Xi − X̄)2
Pn
i=1 (Xi − X̄)
P
n
2
i=1 (Xi −X̄)
n
1
exp −
2
n/2
2
!
e−n/2 ,
la cual es la verosimilitud evaluada en los estimadores máximo verosı́miles.
h
in/2
n
Pn
n/2
máx L(θ)
Pn
e−n/2
2
(Xi − X̄)2
2π i=1 Xi
θ∈Θ0
i=1
Pn
=h
∴λ=
=
.
in/2
2
máx L(θ)
i=1 Xi
−n/2
Pn n
e
θ∈Θ
2
2π
(Xi −X̄)
i=1
Pero,
n
X
(Xi − X̄)2
=
i=1
n
X
i=1
=
n
X
Xi2 − 2X̄
n
X
Xi + nX̄ 2
i=1
Xi2 − 2X̄nX̄ + nX̄ 2 =
i=1
Pn
2
i=1 Xi
Pn
n
X
Xi2 − 2nX̄ 2 + nX̄ 2 .
i=1
2
2
Entonces,
= i=1 (Xi − X̄) + nX̄ .
Por lo tanto,
Pn
n/2
(Xi − X̄)2
λ = Pn i=1
≤k ⇔ 2
2
i=1 (Xi − X̄) + nX̄
1
1+
2
Pn nX̄
2
i=1 (Xi −X̄)
n/2 ≤ k
260
6. Pruebas de hipótesis
√
p
nX̄ 2
n|X̄|
−2/n
q
≥
k
≥
⇔
⇔ 1 + Pn
k −2/n − 1
Pn
2
2
i=1 (Xi − X̄)
(X − X̄)
i=1
√
⇔ q Pn
n|X̄|
i=1 (Xi −X̄)
2
≥
q
i
(n − 1)(k −2/n − 1) = k 0 .
n−1
Por lo tanto, la prueba de la razón de verosimilitudes generalizadas establece
lo siguiente:
√
n|X̄|
“Rechazar H0 si q Pn
≥ k 0 ”,
2
i=1 (Xi −X̄)
n−1
0
donde k puede obtenerse fijando el tamaño de la prueba α y conociendo la
distribución de la estadı́stica de prueba. En este caso:
√
nX̄
q Pn
i=1 (Xi −X̄)
2
= r P
n
n−1
X̄
√
σ/ n
i=1 (Xi −X̄)
σ2
2
2
∼ t(n−1) ,
/(n − 1)
2
porque X̄ ∼ N (µ, σn ) y, bajo H0 , X̄ ∼ N (0, σn ). Entonces,
y
Pn
2
(n − 1)S 2
i=1 (Xi − X̄)
=
∼ χ2(n−1) .
σ2
σ2
X̄
√
σ/ n
∼ N (0, 1)
Ejemplo 6.11 (Comparar medias de 2 muestras normales independientes).
Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución
N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una población
con distribución N ormal(µy , σy2 ), donde ambas muestras son independientes
y además se desconocen todos los parámetros. Se desea probar
H0 : µx = µy
vs.
Ha : µx 6= µy .
El espacio paramétrico general Θ está definido como un espacio de dimensión cuatro,
Θ = (µx , µy , σx2 , σy2 ); µx ∈ R, µy ∈ R, σx2 > 0, σy2 > 0 .
Bajo la hipótesis nula H0 : µx = µy el espacio paramétrico Θ0 está definido
como un espacio de dimensión tres,
Θ0 = (µ, σx2 , σy2 ); µ ∈ R, σx2 > 0, σy2 > 0 ,
donde µ denota la media común bajo H0 , es decir µx = µy = µ.
6.4. La razón de verosimilitudes generalizadas
261
La función de verosimilitud se define como
L (θ) = L(µx , µy , σx2 , σy2 ; x, y)


"m
# Y
n
2
Y
(xi − µx )2
1
(y
−
µ
)
1
j
y


p
q
exp −
exp −
=
2
2
2
2σ
2σ
2
2πσ
x
y
2πσ
x
j=1
i=1
y
)
(
m/2
n/2
m
1
1
1 X
2
=
(x
−
µ
)
exp
−
i
x
2πσx2
2σx2 i=1
2πσy2


n

 1 X
(yj − µy )2 .
exp − 2

 2σy
j=1
Bajo Θ los estimadores P
máximo verosı́miles son µ
bx = x, µ
by = y, σ
bx2 =
P
m
n
1
2
2
2
by = n j=1 (yj − y) , ası́ que el supremo de la función
i=1 (xi − x) y σ
de verosimilitud L bajo Θ es
1
m
máx L (θ)
θ∈Θ
m
Pm
=
2π i=1 (xi − x)2
m/2
n
Pn
2π j=1 (yj − y)2
!n/2
n mo
n no
exp −
exp −
.
2
2
Si se define µx y µy igual a µ, que es lo que se supone bajo H0 , serı́a
difı́cil maximizar L respecto a µ, σx2 y σy2 , ya que esto equivaldrı́a a encontrar
el estimador de µ dado como la raı́z de una ecuación cúbica. Por lo tanto,
el cociente de verosimilitudes generalizadas λ serı́a una función complicada
en el sentido de encontrar su distribución de probabilidad asociada, lo cual
complica encontrar la región crı́tica y el tamaño del error tipo I.
Para muestras grandes podrı́an usarse las propiedades asintóticas del
cociente de verosimilitudes generalizadas, tal que −2 ln Λ ∼ χ2(1) , y se rechazarı́a H0 cuando −2 ln L sea lo suficientemente grande. Este resultado se
analizará en la siguiente sección.
Otra alternativa es suponer que las dos poblaciones tienen la misma varianza, σx2 = σy2 = σ 2 , el problema se simplifica, y resulta que
Θ = (µx , µy , σ 2 ); µx ∈ R, µy ∈ R, σ 2 > 0 ,
y bajo H0 : µx = µy = µ se tiene que
Θ0 = (µ, σ 2 ); µ ∈ R, σ 2 > 0 .
262
6. Pruebas de hipótesis
Además, los estimadores máximo verosı́miles bajo Θ son µ
bx = x, µ
by = y, y


m
n
X
1 X
2
2
σ
b =
(xi − x) +
(yj − y)2  ,
m + n i=1
j=1
y por lo tanto,

máx L (θ)=
θ∈Θ
(m+n)/2
2π
m+n
i
Pn
2+
2
(x
−
x)
(y
−
y)
i
j
i=1
j=1
hP
m
m+n
exp −
.
2
Bajo la hipótesis nula H0 los estimadores máximo verosı́miles son:


n
m
X
mx + ny
1 X
yj  =
xi +
µ
b=
m + n i=1
m+n
j=1
y
σ
b2


m
n
X
X
 (xi − µ̂)2 +
(yj − µ̂)2 
=
1
m+n
=


m
n
X
X
1 
mn
(xi − x)2 +
(yj − y)2 +
(x − y)2  ,
m + n i=1
m
+
n
j=1
i=1
j=1
ası́ que el supremo de la función de verosimilitud L bajo Θ0 es:
máx L (θ) =
θ∈Θ0


2π
hP
m
i=1 (xi
−
x)2
m+n
Pn
+ j=1 (yj − y)2 +
mn
m+n
(m+n)/2
m+n
i ×exp −
.
2
(x − y)2
Finalmente, el cociente de verosimilitudes generalizadas es:
λ
=
máxθ∈Θ0 L (θ)
máxθ∈Θ L (θ)
hP

m
i
(m+n)/2
Pn
2
2
(x
−
x)
+
(y
−
y)
i=1 i
j=1 j
i
=  hP
Pn
m
2+
2 + mn (x − y)2
(x
−
x)
(y
−
y)
i=1 i
j=1 j
m+n
!
−(m+n)/2
mn
2
m+n (x − y)
Pn
=
1 + Pm
,
2
2
i=1 (xi − x) +
j=1 (yj − y)
6.4. La razón de verosimilitudes generalizadas
263
lo que implica que la regla de decisión es rechazar H0 al nivel α si λ ≤ λ0 .
Note que λ puede definirse en términos de T , donde
q
mn
m+n (x − y)
r
T = h
,
i
Pm
Pn
2+
2 /(m + n − 2)
x)
y)
(x
−
(y
−
i
j
i=1
j=1
ası́ que
−(m+n)/2
λ = 1 + T 2 /(m + n − 2)
,
además se sabe que T es una variable aleatoria con distribución t de Student
con m + n − 2 grados de libertad, es decir, T ∼ t(m+n−2) . Desarrollando la
desigualdad se puede llegar a que se rechaza H0 al nivel α si
2
λ
−(m+n)/2
≤ λ0
1 + T /(m + n − 2)
≤ λ0
2
2
1 + T /(m + n − 2) > λ− m+n
2
− m+n
2
T
>
λ0
− 1 × (m + n − 2)
T2
>
|T | >
λ1
λ2 .
Por lo tanto, la prueba resulta en:
γ : Rechazar H0 al nivel α si |T | > λ2 = q1−α/2 ,
donde q1−α/2 es el cuantil 1 − α/2 de una distribución t(m+n−2) .
Ejemplo 6.12 (Comparar medias de 2 muestras normales apareadas).
Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria bivariada de dos poblaciones con distribución N ormal(µx , σx2 ) y N ormal(µy , σy2 ), donde ambas
muestras son independientes, y además se desconocen todos los parámetros.
Se desea probar
H0 : µx = µy vs. Ha : µx 6= µy .
Usualmente esta prueba de hipótesis se plantea como
H0 : µx − µy = 0 vs.
Ha : µx − µy 6= 0.
Se puede resolver de manera sencilla definiendo una nueva variable Z =
X−Y . Entonces el problema se simplifica a una muestra aleatoria Z1 , . . . , Zn ,
264
6. Pruebas de hipótesis
donde Zi = Xi − Yi para i = 1, . . . , n, tal que la muestra aleatoria tiene una
distribución N ormal(µz , σz2 ), donde µz = µx − µy y σz2 = σx2 + σy2 .
Por lo tanto, el problema de prueba de hipótesis se plantea como
H0 : µz = 0 vs.
Ha : µz 6= 0,
para una población normal con varianza σz2 desconocida.
Ejemplo 6.13 (Comparar varianzas de 2 muestras normales independientes).
Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución
N ormal(µx , σx2 ), y sea Y1 , . . . , Yn una muestra aleatoria de una población con
distribución N ormal(µy , σy2 ), donde ambas muestras son independientes, y
además se desconocen todos los parámetros. Se desea probar
H0 : σx2 = σy2
vs.
Ha : σx2 6= σy2 .
Si ambas muestras son independientes se sabe que
Pm
(Xi − X)2 /σx2 (m − 1)
F = Pi=1
n
2
2
j=1 (Yj − Y ) /σy (n − 1)
tiene una distribución F de Fisher con m − 1 y n − 1 grados de libertad.
En particular, bajo H0 : σx2 = σy2 = σ 2 , entonces la estadı́stica F resulta
en
Pm
(Xi − X)2 /(m − 1)
F = Pi=1
.
n
2
j=1 (Yj − Y ) /(n − 1)
La estadı́stica F puede obtenerse también planteando el cociente de verosimilitudes λ.
Note que F tenderá a ser grande cuando σy2 > σx2 , y viceversa. Bajo esta
idea, si se considera H0 : σx2 = σy2 contra Ha : σx2 6= σy2 , la prueba es una
prueba bilateral, ası́ que se rechazarı́a H0 cuando la estadı́stica de prueba F
es muy grande o muy pequeña. Por lo tanto, la prueba resulta en:
γ : Rechazar H0 al nivel α si F < qα/2 ó F > q1−α/2 ,
donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución
F(m−1,n−1) , respectivamente.
6.4.2.
La distribución asintótica de la razón de verosimilitudes
Como se mencionó anteriormente, existen muchos casos en los que es muy
difı́cil encontrar la distribución de la razón de verosimilitudes generalizadas.
6.4. La razón de verosimilitudes generalizadas
265
En estas circunstancias será de utilidad el siguiente resultado, el cual establece la distribución asintótica de −2 ln λ. únicamente se hará la demostración
para el caso más común, el cual se enuncia en el teorema 6.2.
Proposición 6.1 Sea X1 , ..., Xn una muestra aleatoria de f (x; θ) donde
θ = (θ1 , ..., θk ). Para la prueba de hipótesis
H0 : θ1 = θ1◦ , . . . , θr = θr◦ , θr+1 , . . . , θk ,
donde θ1◦ , θ2◦ , ..., θr◦ son valores fijos conocidos y θr+1 , ..., θk no están especid
ficados, se cumple que −2 ln λ → χ2(r) (converge en distribución) cuando H0
es cierta.
Demostración. Ver Stuart, A., Ord, J. K., y Arnold, S. (1999).
Note que 1 ≤ r ≤ k; por ejemplo, si r = k, todos los parámetros estarı́an especificados. Como θ = (θ1 , ..., θk ), el espacio paramétrico Θ es kdimensional y como H0 especifica a r de las componentes de θ, la dimensión
de Θ0 es k − r. Ası́, los grados de libertad de la distribución asintótica de λ
pueden interpretarse de dos formas: como el número de parámetros especificados por H0 , o como la diferencia entre las dimensiones de Θ y Θ0 , la cual
es k − (k − r).
Teorema 6.2 Para probar las hipótesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , donde
θ es un parámetro, suponga que X1 , . . . , Xn es una muestra aleatoria de una
población con función de densidad f (x; θ), la cual satisface las condiciones de
regularidad, y sea θ̂ el estimador máximo verosı́mil de θ. Entonces bajo H0 ,
d
cuando n → ∞, se cumple que −2 ln λ → χ2(1) (converge en distribución).
Demostración. Primero se usan las series de Taylor para la expansión de
ln L(θ; x) alrededor de θ̂,
ln L(θ; x) = ln L(θ̂; x) + (θ − θ̂)(ln L(θ̂; x))0 +
(θ − θ̂)2
(ln L(θ̂; x))00 + · · · ,
2!
266
6. Pruebas de hipótesis
donde
00
ln L(θ̂; x)
=
=
L0 (θ̂; x)
!0
L(θ̂; x)
L00 (θ̂; x)
−
(L0 (θ̂; x))2
(L(θ̂; x))2
0 2
L (θ̂; x)
− ln L(θ̂; x)
L(θ̂; x)
L(θ̂; x)
00
=
=
L00 (θ̂; x)
L(θ̂; x)
,
pues (ln L(θ̂;x))0 = 0.
Sustituyendo la expansión de Taylor para ln L(θ0 ; x) en
−2 ln λ(x)
= − − 2 ln
L(θ0 ; x)
L(θ̂; x)
= −2 ln L(θ0 ; x) + 2 ln L(θ̂; x)
h
i
= −2 ln L(θ0 ; x) − ln L(θ̂; x) ,
se obtiene que:
"
−2 ln λ(x) ≈
=
(θ0 − θ̂)2
(ln L(θ̂; x))00
−2 (θ0 − θ̂)(ln L(θ̂; x))0 +
2!
"
#
(θ0 − θ̂)2
00
−2
(ln L(θ̂; x))
2!
#
ya que (ln L(θ̂;x))0 = 0. Por lo tanto,
−2 ln λ(x) ≈
=
−(θ0 − θ̂)2 (ln L(θ̂; x))00
(θ̂ − θ0 )2
1
−(ln L(θ̂;x))00
.
Como −(ln L(θ̂; x))00 es la información observada de Fisher, Iˆn (θ̂), y se
p
tiene que n1 Iˆn (θ̂) → I(θ0 ) (en probabilidad), se concluye por la propiedad de
eficiencia asintótica de los estimadores máximo verosı́miles y el teorema de
d
Slutsky3 que −2 ln λ(x) → χ2(1) (en distribución).
3 Si {X } y {Y } son sucesiones de variables aleatorias, tales que X converge a X en
n
n
n
distribución y Yn converge a a en probabilidad, entonces Xn Yn → aX en distribución.
6.4. La razón de verosimilitudes generalizadas
267
Ejemplo 6.14 (Comparar proporciones de dos poblaciones independientes). Sea X1 , . . . , Xm una muestra aleatoria de una población con distribución Bernoulli(θx ), y sea Y1 , . . . , Yn una muestra aleatoria de una población
con distribución Bernoulli(θy ), donde ambas muestras son independientes,
y además se desconocen todos los parámetros. Se desea probar H0 : θx = θy
vs. Ha : θx 6= θy . Esta prueba usualmente se conoce como prueba de comparación de proporciones, y también se puede plantear como
H0 :
θx
= 1 vs.
θy
Ha :
θx
6= 1,
θy
o como
H0 : θx − θy = 0 vs.
Ha : θx − θy 6= 0.
Para realizar esta prueba se usan las propiedades asintóticas de los estimadores máximo verosı́miles. Se tiene que
1
X ∼ N ormal θx , θx (1 − θx )
m
y
1
Y ∼ N ormal θy , θy (1 − θy ) .
n
Además, como las muestras con independientes
1
1
X − Y ∼ N ormal θx − θy , θx (1 − θx ) + θy (1 − θy ) .
m
n
Bajo H0 : θx = θy = θ,
X −Y
∼
⇒
1
1
N ormal 0,
+
θ(1 − θ)
m n
q
1
m
X −Y
∼ N ormal (0, 1) .
+ n1 θ(1 − θ)
El estimador máximo verosı́mil de θ es:
Pm
Pn
xi + j=1 yj
mx + ny
i=1
θb =
=
,
m+n
m+n
lo que implica que por propiedades asintóticas de los estimadores máximo
verosı́miles,
X −Y
d
q
→ N ormal (0, 1) .
1
1 b
b
m + n θ(1 − θ)
268
6. Pruebas de hipótesis
Finalmente, para probar H0 : θx = θy vs. Ha : θx 6= θy , se utiliza como
estadı́stica de prueba
Z=q
1
m
x−y
b − θ)
b
+ 1 θ(1
n
y la prueba es:
γ : Rechazar H0 al nivel α si |Z| > q1−α/2 ,
donde q1−α/2 es el cuantil 1 − α/2 de una distribución normal estándar.
Ejemplo 6.15 (Distribución asintótica del cociente de verosimilitudes).
Contrastar las hipótesis H0 : µ1 = µ2 , σ12 > 0, σ22 > 0 vs. Ha : µ1 6= µ2 ,
2
σ1 > 0, σ22 > 0, donde µ1 y σ12 son la media y varianza de una población
normal, y µ2 y σ22 son la media y la varianza de otra población normal.
El espacio paramétrico es de k = 4 dimensiones, y en la hipótesis nula se
especifica r = 1 parámetros (µ1 = µ2 y −∞ < µ2 < ∞). Ası́ que bajo H0 la
distribución asintóntica de −2 ln λ es χ2(1) .
6.5.
El valor p (p-value) y las pruebas estadı́sticamente significativas
Un enfoque complementario para pruebas de hipótesis es el cálculo de una
cantidad llamada p-value, en español es frecuentemente llamado nivel de
significancia descriptivo o valor p. Un p-value está definido como la probabilidad, cuando se supone que la hipótesis nula H0 es cierta, de obtener
un resultado muestral tan extremo como, ó más extremo que (en dirección
análoga a la hipótesis alternativa dentro de la región crı́tica), el resultado
muestral observado. Esta probabilidad se puede calcular para los valores de
la estadı́stica, o de alguna función de ésta, como el estimador muestral del
parámetro en la hipótesis nula.
Por ejemplo, suponga que se está probando
H0 : µ = 50 vs.
Ha : µ > 50,
y se observa el resultado muestral para X de 52. El p-value se calcula como
P(X ≥ 52|µ = 50). La dirección apropiada aquı́ es de acuerdo a los valores
de X que son mayores o iguales que 52, ya que la alternativa es µ mayor que
50.
6.5. El valor p (p-value)
269
Definición 6.11 Sea T (X) una estadı́stica de prueba tal que valores grandes de T dan evidencia a favor de la hipótesis alternativa. Para cada posible
valor de X,
x = (x1 , x2 , ..., xn ) ∈ X,
se define el p-value como
p (x) = máx P [T (X) ≥ t (x)] ,
θ∈Θ0
donde t (x) es el valor de la estadı́stica T (X) en x.
La desigualdad dentro de la probabilidad serı́a invertida si valores pequeños de T dan evidencia a favor de la hipótesis alternativa.
Un p-value o valor p, p(x), cumple que 0 ≤ p(x) ≤ 1 para cada valor
de la muestra x. Valores pequeños de p(x) dan evidencia de que la hipótesis
alternativa Ha es verdadera.
Es fácil construir una prueba de nivel α basada en p(X). La prueba
rechaza la hipótesis nula H0 si y sólo si p(x) ≤ α. Una ventaja de reportar el
resultado de una prueba de hipótesis usando el p-value es que cada persona
puede elegir el nivel α, llamado el nivel de significancia de la prueba,
que considere apropiado, entonces puede comparar el p(x) reportado con α y
saber si los datos llevan a aceptar o rechazar H0 . Además, entre más pequeño
sea el p-value, mayor evidencia habrá para rechazar H0 . Por consiguiente, un
p-value reporta el resultado de una prueba sobre una escala más continua,
en lugar de sólo tomar la decisión dicotómica de “aceptar H0 ” o “rechazar
H0 ”.
Si un p-value es pequeño, se dice que la muestra produjo un resultado
que no es usual bajo el supuesto de la hipótesis nula. Como el resultado es
un hecho, esto quiere decir que la afirmación de la hipótesis nula es inconsistente con el resultado muestral. En otras palabras, se deberı́a rechazar la
hipótesis nula. Por otro lado, si un p-value es grande, el resultado muestral es
consistente con la hipótesis nula, y por tanto la hipótesis nula no se rechaza.
Si se desea utilizar el p-value para tomar una decisión acerca de si H0 será
rechazada, se tiene que seleccionar un valor para α, el nivel de significancia.
Si el p-value es menor o igual que α, la decisión es rechazar H0 (la prueba
es estadı́sticamente significativa); de otra forma, la decisión es no rechazar
H0 . El p-value es por lo tanto el más pequeño nivel de significancia para el
cual la hipótesis nula serı́a rechazada. El p-value proporciona no solamente
un medio de tomar una decisión acerca de la hipótesis nula, sino también
alguna idea acerca de qué tan fuerte es la evidencia en contra de la hipótesis
nula.
Por ejemplo, suponga que un conjunto de datos A, con una estadı́stica
de prueba T1 tiene un p-value de 0.012, mientras el conjunto de datos B con
270
6. Pruebas de hipótesis
una estadı́stica de prueba T2 (ó T1 ) tiene un p-value de 0.045. La evidencia
en contra de la hipótesis nula es mucho más fuerte para el conjunto de datos
A que para el conjunto de datos B porque el resultado muestral observado
es mucho menos probable en el conjunto de datos A.
Si se utiliza la distribución asintótica de una estadı́stica de prueba para
encontrar un p-value, a éste se le puede llamar un p-value aproximado o
p-value asintótico.
Si una prueba tiene una región de rechazo bilateral (de dos colas), no hay
una dirección especı́fica para calcular el p-value. Un enfoque es simplemente
reportar el más pequeño de los dos p-values de las colas, indicando que es el
de una cola. Si la distribución es simétrica, tiene sentido tomar el doble del
p-value para una cola y este criterio es el más utilizado en la práctica. Este
procedimiento se usa aún si la distribución no es simétrica.
Observación 6.8 Los conceptos y resultados desarrollados en el presente
capı́tulo proporcionan una prueba o región crı́tica basada en una estadı́stica, de la cual debe conocerse su distribución para el cálculo de un cuantil
asociado con dicha distribución y con el tamaño de la prueba α.
Sin embargo, la mayorı́a de los programas de cómputo estadı́stico reportan, en lugar de esta forma tradicional de las pruebas, el denominado p-value
recién definido.
Tratando al valor particular de la estadı́stica (obtenido con los datos)
como un cuantil asociado a la distribución de dicha estadı́stica, se puede
hacer un análisis desde otra perspectiva, comparando probabilidades. Esto
es, la probabilidad asociada al valor particular de la estadı́stica (basado en
los datos) tratado como un cuantil y la probabilidad que representa el valor
α.
Ası́, una prueba de tamaño α: rechazar H0 basándose en la estadı́stica
T (X) , puede expresarse de una manera análoga como “Rechazar H0 si el
p-value es menor que α”. Esta probabilidad asociada al valor particular de la
estadı́stica corresponde a una función de la probabilidad de que la variable
aleatoria que sustenta la prueba sea menor que el valor especı́fico obtenido
de la información de la muestra particular.
En este contexto, α recibe el nombre de nivel de significancia y se debe
comparar con el p-value obtenido, de tal manera que se rechaza H0 si es
p-value ≤ α, diciendo en este caso que la prueba es estadı́sticamente significativa.
Ejemplo 6.16 Suponga que se desea obtener una prueba uniformemente
más potente de tamaño α para una muestra aleatoria de tamaño n de una
población con distribución Exponencial con parámetro θ, donde:
H0 : θ = θ0
vs.
Ha : θ > θ0 .
6.5. El valor p (p-value)
271
De acuerdo al lema de Neyman-Pearson, con θ1 > θ0 , se considera Ha : θ =
θ1 , obteniendo:
Pn
θ0n e−θ0 i=1 xi
Pn
θ1n e−θ1 i=1 xi
n
Pn
θ0
=
e−(θ0 −θ1 ) i=1 xi < k,
θ1
λ
=
de donde se obtiene la región crı́tica
(
C∗ =
(x1 , x2 , ..., xn ) ∈ X |
n
X
)
xi < c
i=1
o, equivalentemente, la prueba es
γ : Rechazar H0 si
n
X
xi < c,
i=1
donde c corresponde al cuantil de una distribución Gama(n, θ0 ) . La prueba
resultante es uniformemente más potente debido a que su forma es la misma
para cada posible valor
Pnconsistente con la hipótesis alternativa.
Sea T (X) = 2θ0 i=1 Xi , note que, bajo H0 , T (X) tiene distribución
χ2(2n) . Ası́ que la prueba también puede expresarse como
γ : Rechazar H0 si t (x) < χ (α) ,
donde χ (α) corresponde al cuantil α de una variable aleatoria con distribución χ2(2n) .
El p-value se calcula como
n
Z t
1
1
1
xn−1 e− 2 x dx.
p = P (T < t) =
Γ
(n)
2
0
Ası́, la prueba puede reexpresarse como:
γ : Rechazar H0 si p < α.
Observe que si t (x) < χ (α) , entonces p < α.
Ejemplo 6.17 Sea X1 , X2 , ..., Xn una muestra aleatoria de tamaño n = 49
de una población con distribución Bernoulli de parámetro θ y suponga que
se desea probar:
H0 : θ ≤ 0.01
vs.
Ha : θ > 0.01.
272
6. Pruebas de hipótesis
Suponga que la prueba está dada de la siguiente manera:
γ : Rechazar H0 si
49
X
Xi > c,
i=1
prueba que se justifica mediante el teorema de Karlin-Rubin que se aborda
en la Sección 6.3.2.
P49
Bajo H0 , T (X) = i=1 Xi tiene distribución Binomial con n = 49 y
θ = 0.01. Si se desea obtener una prueba de tamaño α = 0.05 o inferior, se
puede proceder a buscar c como:
!
49
X
P
Xi > c | H0 = 0.05
(6.12)
i=1
o
49 X
49
t
49−t
(0.01) (0.99)
= 0.05,
t
t=c+1
(6.13)
P49
donde t = i=1 xi y se desea encontrar c tal que la suma anterior sea de 0.05
(o inferior). Una forma alternativa de pensar el problema es, para diferentes
valores de t (x) , encontrar el valor p o p-value correspondiente, como se
muestra en la siguiente tabla:
P
49
t (x1 , x2 , ..., xn ) P
|
H
X
>
t
(x)
0
i
i=1
0
1
2
3
4
0.388883
0.086411
0.013084
0.001480
0.000132
P49
Ası́, si la muestra es tal que t (x) = i=1 xi = 1, el p-value correspondiente
P49
es 0.086411, pero si t (x) = i=1 xi = 2, el p-value es de 0.013084. Como se
ha establecido que el tamaño de la prueba sea de al menos α = 0.05, es claro
que la prueba es estadı́sticamente significativa si T (X) es mayor o igual que
2, ya que con t = 1 el p-value es mayor que α. Por lo tanto, la prueba se
puede establecer como
γ : Rechazar H0 si
49
X
Xi ≥ 2,
i=1
o
γ : Rechazar H0 si p ≤ 0.013084.
6.5. El valor p (p-value)
273
Observe que en el ejemplo anterior, de haber usado (6.12), que es equivalente a (6.13), se tendrı́a que encontrar el valor de c (de hecho, 1 < c < 2,
para el valor exacto α = 0.05), mientras que con el enfoque del p-value se pudo deducir el nivel de significancia mı́nimo para el que se rechaza la hipótesis
nula, el cual
P49corresponde a cuando el valor de la estadı́stica toma el valor 2
o mayor ( i=1 Xi sólo toma valores enteros).
Ejemplo 6.18 (De nuevo la dama del té). Ahora se hará una variante del
caso 1 expuesto al inicio de este capı́tulo. Suponga que se consideran 20
personas en el experimento, una de ellas la dama que asegura discriminar
entre las dos posibles mezclas -té, leche; leche, té-. A cada participante se
le da a probar el contenido de dos tazas con las composiciones en cuestión
y resulta que 12 de ellas las identificaron correctamente, pero la dama del
té hizo la clasificación de manera incorrecta. Bajo las condiciones adecuadas
de aleatoriedad, es decir, cada taza tiene la misma probabilidad de contener
cualquiera de las mezclas, no hay comunicación entre los participantes, entre
otras; se puede suponer que cada individuo tiene probabilidad 0.5 de identificar correctamente las mezclas adivinando, ası́ que el número esperado de
personas que podrı́an acertar sin tener habilidades de discriminación serı́a
de 10.
Ante la evidencia de los datos, es decir, que 12 personas hayan clasificado
correctamente las tasas, se puede pensar que este resultado no es inconsistente con el valor esperado de 10, sin embargo, se calculará a continuación el
p-value para analizar mejor este resultado. Suponiendo que la hipótesis nula
es que la probabilidad de éxito sea de 21 , la probabilidad de que se obtengan
12 éxitos o más en 20 ensayos Bernoulli es:
20 t 20−t
X
20
1
1
t
2
2
t=12
=
20
20
20
20
1
+
+ ... +
12
13
20
2
=
0.34,
de acuerdo a la cual, no hay evidencia basada en los datos de que el número
correcto de respuestas haya sido consecuencia de algún poder de discriminación, es decir, el resultado es consistente con la hipótesis de que las personas
están adivinando. Dicho de otra manera, los datos son congruentes con la
hipótesis nula o la prueba es no significativa.
Pero, ¿qué pasa con la dama del té?. Ella asegura que sus habilidades de
discriminación no se pueden descartar con un sólo error.
A continuación se llevan a cabo algunos cálculos para obtener el p-value,
para diferentes valores de n, correspondiente a la probabilidad de cometer
uno o ningún error. Ası́, si n = 5, esta probabilidad es de:
274
6. Pruebas de hipótesis
5 0 4 1
1
5
1
1
5
1
+
2
2
4
2
2
5
5
5
5
1
+
5
4
2
= 0.1875,
=
que es equivalente a 5 o 4 éxitos de un total de n = 5 ensayos. En la siguiente
tabla se muestran las probabilidades de cometer uno o ningún error para
diferentes valores de n:
n p-value
5
0.1875
6
0.1094
7
0.0625
8
0.0352
9
0.0195
10 0.0107
11 0.0059
12 0.0032
13 0.0017
14 0.0009
15 0.0002
Note la diferencia entre los distintos valores. Por ejemplo, si n = 5, uno o
ningún error serı́a consistente con la hipótesis nula, pero si n = 11, no.
Observación 6.9 En el ejemplo anterior, y de manera general, el p-value es
una función decreciente del tamaño de la muestra, de tal manera que cuando
se tiene un tamaño de muestra grande, es más plausible que una prueba sea
estadı́sticamente significativa que cuando se cuenta con un tamaño pequeño
de muestra. Esto lleva a la conclusión de que hay que tener cuidado con la
interpretación que se le da al p-value, de tal manera que lo recomendable es
considerarlo de manera conjunta con otros aspectos del estudio que se esté
llevando a cabo o en el contexto cientı́fico del fenómeno analizado.
Para una mayor discusión al respecto, se recomienda consultar Berger y
Sellke (1987) y Schervish (1996).
Observación 6.10 Para calcular el p-value correspondiente a una región
de rechazo bilateral, se obtiene como:
p(x) = 2 mı́n {P[T (X) ≥ t(x)] , P[T (X) ≤ t(x)]} .
6.6. Algunas pruebas basadas en razón de verosimilitudes
6.6.
275
Algunas pruebas basadas en la razón de
verosimilitudes generalizadas
Las pruebas basadas en el cociente o razón de verosimilitudes generalizadas,
ası́ como aquéllas que usan su distribución asintótica Ji-cuadrada, se utilizan
ampliamente en las diferentes ramas de la estadı́stica.
Por ejemplo, hay una conexión interesante entre estas pruebas y el llamado criterio de información de Akaike o AIC para comparar modelos con
diferente número de parámetros. Esto puede plantearse de manera general
como un modelo cuyo vector de parámetros pertenece al espacio paramétrico Θ y otro tal que pertenece a Θ0 ⊂ Θ y donde la diferencia entre las
dimensiones de ambos es r. Bajo H0 ,
máx L(θ; x1 , ..., xn )
−2 ln
θ∈Θ0
máx L(θ; x1 , ..., xn )
θ∈Θ
máx L(θ; x1 , ..., xn )
= 2 ln
θ∈Θ
máx L(θ; x1 , ..., xn )
(6.14)
θ∈Θ0
tiene una distribución asintótica χ2(r) . A partir de (6.14) y, usando el hecho
de que la esperanza de una variable aleatoria con distribución Ji-cuadrada
es igual a sus grados de libertad, se obtiene que
r
E ln máx L(θ; x1 , ..., xn ) − ln máx L(θ; x1 , ..., xn ) = ,
θ∈Θ
θ∈Θ0
2
lo que sugiere que aún cuando H0 es cierta, la verosimilitud del modelo alternativo será en promedio 2r unidades mayor, donde r es la diferencia de
dimensión entre ambos espacios paramétricos. La idea es rectificar o penalizar el incremento de verosimilitud que se produce por el hecho de ajustar
un mayor número de parámetros. La expresión
2 ln L(θbM V ; x1 , ..., xn ) − 2r,
se conoce como el criterio de Akaike y discrimina más a favor de modelos
simples al restar 2r a la verosimilitud con más parámetros.
Otra aplicación de relevancia de las pruebas basadas en la razón de verosimilitudes generalizadas es en las llamadas pruebas de bondad de ajuste, las
cuales pueden entenderse como los métodos que examinan qué tan de acuerdo está una muestra de datos con una distribución dada como su población.
Como ilustración, suponga que se tiene información estadı́stica de 200
pólizas de automóviles registradas en el 2017 en el estado de Puebla y se
requiere determinar la distribución asociada a la frecuencia de la siniestralidad. Dado que la frecuencia está relacionada a conteos, un actuario planea
276
6. Pruebas de hipótesis
probar si la frecuencia de la siniestralidad tiene una distribución Poisson
contra la hipótesis de que no tiene dicha distribución.
En el caso paramétrico que se ha analizado a lo largo de este texto, la
ley de probabilidad usualmente está especificada e involucra solamente un
número finito de parámetros. Por el contrario, en el caso no paramétrico,
la ley de probabilidad no está especificada y el espacio paramétrico es el
espacio de todas las distribuciones (o algún subespacio apropiado de este).
De esta forma, en el caso no paramétrico la formulación básica del problema
frecuentemente requiere un enfoque diferente.
Hay diferentes pruebas no paramétricas, pero a manera de ejemplo y
para ilustrar la importancia de la prueba de la razón de verosimilitudes
generalizadas y su distribución asintótica, se presenta a continuación el caso
de la Ji-cuadrada para bondad de ajuste y el de la independencia en tablas
de contingencia.
6.6.1.
Prueba Ji-cuadrada para bondad de ajuste
Karl Pearson introdujo la familia de distribuciones asimétricas como una alternativa a la distribución normal, siendo una de sus principales contribuciones en el contexto de sus estudios relacionados con la teorı́a de la evolución 4 .
En 1900,5 Pearson propuso una medida del ajuste entre una distribución
de probabilidad y una muestra, obteniendo la prueba de la Ji-cuadrada. Esta
prueba sigue siendo uno de los procedimientos estadı́sticos más conocidos y
utilizados en la práctica y se desarrolla como una aplicación de la prueba de
la razón de verosimilitudes generalizadas y su distribución asintótica que se
revisaron en la sección 6.4.
En su forma más simple, se tienen k celdas, en cada una de las cuales debe
caer el resultado de un experimento. Sea pi , i = 1, 2, ..., k, la probabilidad
de que el experimento produzca un resultado que caiga en la i -ésima celda
y sea ni , i = 1, 2, ..., k, elP
número de veces que el resultado cae en la i-ésima
k
celda en un total de n = i=1 ni realizaciones del experimento. En resumen,
se tiene el siguiente esquema:
Celda i
Número de observaciones en la celda i
Probabilidad de que el resultado esté en la celda i
1
n1
p1
2
n2
p2
3
n3
p3
···
···
···
k
nk
pk
4 Contributions to the mathematical theory of evolution (I a IV) en Philosophical
Transactions of the Royal Society of London.
5 Pearson, K. (1900). “On the criterion that a given system of deviations from the
probable in the case of a correlated system of variables is such that it can be reasonably
supposed to have arisen from random sampling,” Philosophical Magazine 5 th series, 50,
157-175.
6.6. Algunas pruebas basadas en razón de verosimilitudes
277
Donde se cumple que:
k
X
ni = n y
i=1
k
X
pi = 1.
i=1
Considerando cada celda por separado, cada vez que el resultado caiga en
dicha celda puede pensarse en un éxito y después de efectuar las n repeticiones del experimento, sólo es relevante el total de veces que el resultado cayó
en la celda. Lo anterior, sugiere asociar una distribución binomial para cada
celda, siendo pi la probabilidad de éxito en un sólo ensayo del experimento
y, como se efectúan n de tales ensayos, el número esperado de éxitos para la
i-ésima celda será la esperanza de la correspondiente variable binomial, es
decir npi . Ası́, para cada una de las celdas se tendrı́a que:
oi
ei
n1
np1
n2
np2
.
.
.
.
.
.
nk
npk ,
donde oi representa las frecuencias observadas y ei representa las frecuencias
esperadas en un total de n realizaciones del experimento. En este contexto,
es posible plantear el problema de bondad de ajuste mediante la siguiente
pregunta: ¿cómo se puede determinar si un conjunto de resultados experimentales es compatible con los resultados esperados de acuerdo con las probabilidades que fueron postuladas para las celdas? Formalmente, se desea
probar la hipótesis:
H0 : pi = πi , i = 1, 2, ..., k;
donde las πi0 s son los valores postulados de las probabilidades de las celdas.
Ésta es una hipótesis simple; sin embargo, y debido a que ordinariamente no
se tiene una hipótesis alternativa en mente, se emplea aquı́ una prueba de
razón de verosimilitudes generalizadas.
La función de verosimilitud (o densidad conjunta de la muestra), para una
variable aleatoria discreta es la probabilidad de obtener los valores muestrales
observados en el orden en el cual fueron obtenidos, es decir:
L (θ) ≡ L (θ | n1 , n2 , ..., nk ) = pn1 1 pn2 2 pn3 3 ...pknk , donde θ = (p1 , p2 , . . . , pk ).
Pk
Como i=1 pi = 1, solamente k−1 de las pi ’s son parámetros independientes;
por lo tanto, para encontrar
estimadores máximo verosı́miles de las pi ’s,
Plos
k−1
se reemplazará pk por 1 − i=1 pi , quedando:
L (θ) =
nk−1
pn1 1 pn2 2 pn3 3 ...pk−1
1−
k−1
X
i=1
!nk
pi
.
278
6. Pruebas de hipótesis
La log-verosimilitud está dada por:
=
ln L (θ)
n1 ln p1 + n2 ln p2 + ... + nk−1 ln pk−1 + nk ln 1 −
k−1
X
!
pi
i=1
=
k−1
X
ni ln pi + nk ln 1 −
i=1
k−1
X
!
pi
.
i=1
Derivando con respecto a pi e igualando a cero, se obtiene:
ni
nk
∂ ln L (θ)
=
−
Pk−1 = 0, i = 1, 2, ..., k − 1
∂pi
pi
1 − i=1 pi
nk
ni
=
, i = 1, 2, ..., k
pi
pk
⇒ ni pk = nk pi , i = 1, 2, ..., k
⇒
Sumando las k igualdades se tiene que:
pk
k
X
ni = nk
i=1
donde
Pk
i=1
ni = n y
Pk
i=1
k
X
pi ,
i=1
pi = 1, implicando que:
p k n = nk ,
por lo tanto
nk
.
n
Este resultado puede generalizarse a las demás pi ’s como:
ni
pbi = , i = 1, 2, ..., k.
n
Bajo la hipótesis nula:
L (θ) = π1n1 π2n2 ...πknk ,
pbk =
la cual no tiene parámetros desconocidos, por lo que el cociente de verosimilitudes generalizadas resulta ser:
λ
máxθ∈Θ0 L (θ)
máxθ∈Θ L (θ)
π1n1 π2n2 ...πknk
n
=
n1 n1 n2 n2
... nnk k
n
n
n n
n
nπ1 1 nπ2 2
nπk k
=
...
,
n1
n2
nk
=
6.6. Algunas pruebas basadas en razón de verosimilitudes
279
donde cada ni tiene distribución Binomial(n, pi ) . Encontrar la distribución
de λ es complicado, ası́ que se puede utilizar la distribución asintótica de
-2 ln λ como una Ji-cuadrada con grados de libertad igual a la diferencia en
el número de parámetros independientes no especificados bajo Θ y Θ0 , en
este caso, k − 1. Entonces la prueba se reduce a considerar:
k
X
nπi
,
−2 ln λ = −2
ni ln
ni
i=1
como una variable aleatoria con distribución Ji-cuadrada con k − 1 grados
de libertad y la región crı́tica queda determinada por:
λ ≤ λ0 ,
si y sólo si
ln λ ≤ ln λ0 ,
si y sólo si
−2 ln λ ≥ −2 ln λ0 = c,
donde
−2 ln λ
= −2
k
X
nπi
ni
πi
ni /n
ni ln
i=1
= −2
k
X
ni ln
i=1
= −2
k
X
ni .
ni ln πi − ln
n
i=1
(6.15)
Por lo tanto, la región crı́tica es:
C = {−2 ln λ ≥ c} ,
o
(
C = −2
k
X
ni
i=1
)
ni ln πi − ln
≥c ,
n
donde c es tal que
P [−2 ln λ ≥ c | H0 ] = α.
Karl Pearson propuso la siguiente expresión como estadı́stica de prueba
para el problema de bondad de ajuste:
T =
k
2
X
(ni − ei )
i=1
ei
,
(6.16)
280
6. Pruebas de hipótesis
donde ei representa el valor esperado en la celda i, es decir npi y, bajo Ho,
ei = nπi .
A continuación se demostrará que la expresión para −2 ln λ dada en (6.15)
es asintóticamente equivalente a (6.16).
La expansión en series de Taylor para ln pi alrededor de pbi = nni es:
2 1
1
(pi − pbi )
ln pi = ln pbi + (pi − pbi ) +
− 2 +ε
pbi
2!
pbi
2
2
n
pi − ni
ni n
n
ni + pi −
= ln
−
+ ε,
n
n ni
2
ni
o
ni
ni n
n i 2 n 2
ln pi − ln
= pi −
+ ε,
(6.17)
− pi −
n
n ni
n
2n2i
donde ε representa la suma de términos con signo alternante:
∞
X
ni j nj
j+1
.
(−1)
pi −
n
j!nji
j=3
Bajo H0 , pi = πi , ası́ que sustituyendo (6.17) en (6.15), se obtiene que:
−2 ln λ
=
=
=
k
X
ni ni ln πi − ln
n
i=1
k
X
ni n
n i 2 n 2
ni p i −
−2
− pi −
+
ε
n ni
n
2n2i
i=1
−2
−2
k
X
(nπi − ni ) +
i=1
k
2
X
(nπi − ni )
ni
i=1
+
k
X
ε0 ,
(6.18)
i=1
donde
k
X
(nπi − ni ) = n
i=1
k
X
i=1
πi −
k
X
ni = n − n = 0,
i=1
por lo que (6.18) se reduce a
−2 ln λ =
k
2
X
(nπi − ni )
i=1
ni
+ ε00 ,
(6.19)
y ε00 → 0 cuando n → ∞, con probabilidad 1. (6.19) también puede escribirse
como:
k
2
X
(ni − nπi )
−2 ln λ =
,
(6.20)
ni
i=1
6.6. Algunas pruebas basadas en razón de verosimilitudes
281
expresión que, bajo la hipótesis nula pi = πi , es muy similar a (6.16), excepto
por el denominador, pues ei = nπi .
Por la Ley Débil de los Grandes Números se sabe que la variable aleatoria
ni
converge
en probabilidad a pi , es decir:
n
h n
i
i
lı́m P
− pi > ε = 0, para toda ε > 0,
n→∞
n
lo cual es equivalente a:
1
lı́m
P (|ni − npi | > ε) = 0, para toda ε > 0
n→∞ n
o
lı́m
n→∞
1
P (|ni − npi | < ε) = 1, para toda ε > 0,
n
concluyendo que cuando n → ∞, es posible sustituir a ni por npi , por lo que
bajo la hipótesis nula, (6.20) se puede escribir como
−2 ln λ =
k
2
X
(ni − nπi )
i=1
nπi
,
que es igual a la estadı́stica T dada por (6.16).
Como la distribución asintótica de −2 ln λ es Ji-cuadrada con k−1 grados
de libertad, se concluye que la estadı́stica T tiene esa distribución.
Ejemplo 6.19 Se lanza un dado 60 veces, obteniéndose las siguientes frecuencias por cara:
oi
1
13
n1
2
19
n2
3
11
n3
4
8
n4
5
5
n5
6
4
n6
n = 60
Se quiere probar si el dado es honesto, esto es, si pi denota la probabilidad
de que caiga la cara i (con i puntos), se plantea:
H0 : pi =
1
, i = 1, 2, ..., 6.
6
Como la probabilidad asignada a cada cara del dado es la misma, la frecuencia esperada
es la misma también para todas las celdas, esto es: ei = nπi =
(60) 61 = 10. Entonces:
oi
ei
1
13
10
2
19
10
3
11
10
4
8
10
5
5
10
6
4
10
282
6. Pruebas de hipótesis
Calculando la estadı́stica de prueba:
T
=
k
2
X
(oi − ei )
i=1
ei
1
1
1
1
2
2
2
2
(13 − 10) +
(19 − 10) +
(11 − 10) +
(8 − 10)
10
10
10
10
1
1
2
2
+ (5 − 10) +
(4 − 10)
10
10
= 15.6
=
Como k = 6, los grados de libertad de la distribución de la estadı́stica
de prueba son k − 1 = 5 . Por lo tanto, si la prueba tiene un nivel de
significancia de α = 0.05, se obtiene el cuantil 0.95 de una distribución χ2(5)
que es ω0.95 = 11.1. Como T = 15.6 > 11.1 = ω0.95 , se rechaza H0 y por lo
tanto el dado no se considera honesto. Nota: en este problema el p − value
es 0.008084.
Lo anterior se confirma en R bajo los siguientes comandos:
> x < -c(13,19,11,8,5,4)
> chifit < -chisq.test(x)
> chifit
que da como resultado:
Chi-squared test for given probabilities
data: x
X-squared = 15.6, df = 5, p-value = 0.008084
lo cual confirma los resultados previos.
Ejemplo 6.20 La siguiente es una muestra aleatoria de tamaño n = 20,
después de ser ordenadas de menor a mayor las observaciones:
16.7
17.4
18.1
18.2
18.8
19.3
22.4
22.5
24.0
24.7
25.9
27.0
35.1
35.8
36.5
37.6
39.8
42.1
43.2
46.2
Se desea probar:
H0 : La muestra representa observaciones de una variable aleatoria distribuı́da normalmente con µ = 30 y σ 2 = 100
vs.
Ha : La distribución es otra.
6.6. Algunas pruebas basadas en razón de verosimilitudes
283
Se formarán arbitrariamente cuatro clases con igual probabilidad asignada, por lo que se especificarán cuatro clases de la distribución N (30, 100) a
partir de los cuantiles de la distribución N (0, 1) .
Sean zp los cuantiles de la distribución N (0, 1), entonces como se desean
cuatro clases con la misma probabilidad, lo que se necesitan son los cuartiles,
es decir, z0.25 , z0.50 y z0.75 :
z0.25 = −0.6745
,
z0.50 = 0
,
z0.75 = 0.6745.
∼ N (0, 1) y por lo tanto, X =
Si X ∼ N (30, 100), entonces Z = X−30
10
10Z + 30. Ası́, los cuartiles de una distribución N (30, 100) son:
x0.25
=
10 (−0.6745) + 30 = 23.225,
x0.50
=
10 (0) + 30 = 30,
x0.75
=
10 (0.6745) + 30 = 36.745.
La clase 1 contiene todas las observaciones menores o iguales a 23.26, la
clase 2 contiene a todas las observaciones entre 23.26 y 30 inclusive y ası́
sucesivamente. En resumen:
oi
ei
clase 1
(−∞, 23.26]
8
5
clase 2
(23.26, 30]
4
5
clase 3
(30, 36.75]
3
5
clase 4
(36.75, ∞)
5
5
Las frecuencias esperadas son iguales ya que la p0i s arbitrariamente se toman
iguales:
1
ei = npi = 20
= 5, i = 1, 2, 3, 4.
4
Como k = 4 , los grados de libertad de la Ji-cuadrada son k − 1 = 3 y el
cuantil 1 − α = 0.95 de una distribución χ2(3) es ω0.95 = 7.815. Por su parte,
el valor de la estadı́stica de prueba es:
T
=
4
2
X
(oi − ei )
i=1
=
ei
=
1
2
2
2
2
(8 − 5) + (4 − 5) + (3 − 5) + (5 − 5)
5
2.8.
Como 2.8 < 7.815 no se rechaza H0 y se confirma que los datos presentados
se distribuyen N (30, 100) . Nota: en este caso el p − value es 0.5765.
Ejemplo 6.21 Un manufacturador de elevadores fundamenta sus estándares de seguridad en el principio de que los pesos de los adultos se distribuyen
284
6. Pruebas de hipótesis
normalmente con una media de 62 kg. y una desviación estándar de 11 kg.,
es decir, N (62, 121). Sin embargo, recientemente notó que esta información
es de hace 45 años. Naturalmente su departamento R&D desea saber si esta
distribución de pesos es todavı́a apropiada; ya que si la distribución ha cambiado, debe hacer una revisión en la recomendación para el máximo número
de personas permitidas en sus elevadores.
Hipótesis: la preocupación del departamento R&D es si ha habido un
cambio en la distribución de los pesos de la población adulta. De esta forma,
la hipótesis alternativa relevante para ellos es que la distribución de pesos
no es normal con µ = 62 kg y σ ≤ 11 kg.
H0 : La muestra proviene de una distribución normal con media 62 y
desviación estándar 11.
vs.
Ha : La muestra no proviene de una distribución normal con media 62 y
desviación estándar 11.
En el muestreo actual, el equipo R&D muestreó a 500 adultos. Sin embargo, para propósito de ilustrar la prueba de la Ji-cuadrada, se usarán
solamente 50 de estos pesos. Los pesos (en kilogramos) fueron:
72.2
85.1
73.1
62.2
68.8
64.0
66.6
39.3
76.0
65.3
53.4
80.4
52.8
70.5
71.9
76.8
76.0
54.2
48.9
72.2
86.3
68.8
65.3
78.0
63.2
58.1
76.8
74.0
66.6
72.2
63.2
58.9
63.2
58.1
70.5
73.1
58.1
64.7
32.5
80.4
78.0
74.9
68.8
63.2
45.4
44.3
72.2
85.1
64.0
59.6
Primero se agrupan estos datos en intervalos (que se eligen arbitrariamente,
en este caso serán de 5 kg de amplitud) para hacer la tabla de frecuencias
observadas:
Intervalo
menor que 40 kg
40-49.9 kg
50-54.9 kg
55-59.9 kg
60-64.9 kg
65-69.9 kg
70-74.9 kg
75-79.9 kg
80-89.9 kg
90 kg o más
Frecuencia
2
3
3
5
8
7
11
6
5
0
Con base en la suposición de que la hipótesis nula es cierta, es decir, los
datos son de la distribución N (62, 121), se calcula la frecuencia esperada por
6.6. Algunas pruebas basadas en razón de verosimilitudes
285
intervalo, para esto primero se obtiene la probabilidad para cada intervalo
y luego se multiplica por el tamaño de la muestra 50. Usando la relación
0
= X−62
Z = X−µ
σ
11 , se calcularán los pi s de la distribución normal estándar:
Intervalo
Ext. izq.
del intervalo
x
< 40
40-49.9
50-54.9
55-59.9
60-64.9
65-69.9
70-74.9
75-79.9
80-89.9
≥ 90
40
50
55
60
65
70
75
80
90
z=
x−62
11
-2.00
-1.09
-0.64
-0.18
0.27
0.73
1.18
1.64
2.55
Φ (x)
Proporción
esperada
en el interv.
0.0228
0.1379
0.2611
0.4286
0.6064
0.7673
0.8810
0.9495
0.9946
0.0228
0.1151
0.1232
0.1675
0.1778
0.1609
0.1137
0.0685
0.0451
0.0054
Frecuencia
esperada
en el interv.
50 × 0.0228 =
1.140
5.755
6.160
8.375
8.890
8.045
5.685
3.425
2.255
0.270
Como puede apreciarse, hay que unir los dos últimos intervalos ya que la
frecuencia esperada en el último intervalo es menor que uno:
Intervalo
menor que 40 kg
40-49.9 kg
50-54.9 kg
55-59.9 kg
60-64.9 kg
65-69.9 kg
70-74.9 kg
75-79.9 kg
≥ 80
Observados
2
3
3
5
8
7
11
6
5
Esperados
1.140
5.755
6.160
8.375
8.890
8.045
5.685
3.425
2.525
Por lo tanto, T = 14.429 es el valor de la estadı́stica de prueba. Por otro
lado, como k = 9 celdas, los grados de libertad de la distribución Ji-cuadrada
son k − 1 = 8, de donde el cuantil 0.95 de esta distribución es 15.5. Ası́, el
valor de la estadı́stica de prueba es menor que dicho cuantil, por lo que, al
nivel de significancia α = 0.05, no se rechaza la hipótesis nula. El p− value
es 0.07124.
Observación 6.11 Si los valores esperados ei = npi son pequeños, la distribución Ji-cuadrada asintótica puede no ser apropiada. ¿Qué tan pequeños
pueden ser los valores de ei ? No hay una regla exacta, pero existen varias
286
6. Pruebas de hipótesis
sugerencias que se han propuesto en la literatura, una de las más conocidas
y utilizadas es la siguiente:
Ninguno de los valores esperados ei debe ser menor que 1.
No más del 20 % de los valores esperados ei debe ser menor que 5.
En este sentido, en caso de que estas condiciones se cumplan, se deben unir
celdas adyacentes y recalcular los valores observados y esperados.
Observación 6.12 Si la distribución de probabilidad de X está completamente especificada, excepto para un número c de parámetros desconocidos,
primero será necesario estimar los parámetros (usando los métodos estudiados en al capı́tulo de estimación puntual, preferentemente máxima verosimilitud), y después se realizará la prueba de bondad de ajuste. En este caso, la
distribución de la estadı́stica de prueba T será χ2k−1−c , es decir, los grados de
libertad son k −1−c, restando c grados de libertad debido a los c parámetros
estimados.
6.6.2.
La prueba de independencia en tablas de contingencia
Otra aplicación de la prueba de la razón (o cociente) de verosimilitudes generalizadas es la siguiente: considere el problema de probar si dos variables,
que han sido clasificadas por medio de un arreglo de dos entradas, son independientes. Por ejemplo, los datos para este arreglo se obtuvieron de una
muestra aleatoria de 300 estudiantes, quienes se clasificaron con respecto a:
(1) El tamaño de la escuela preparatoria de la cual se graduaron y (2), a su
promedio en el primer año de estudios profesionales. El problema es probar
si existe alguna relación entre estas dos variables.
Preparatoria
Promedio
≥5
<5
Pequeña
18
42
Mediana
51
79
Grande
46
64
Este tipo de tabla es conocida como una tabla de contingencia. Las entradas en las celdas para estos datos son frecuencias o conteos en lugar de
medidas continuas, aunque los datos continuos frecuentemente se pueden poner en forma discreta usando intervalos sobre una escala discreta. La edad,
por ejemplo, es una variable continua, pero si la gente se clasifica en diferentes grupos de edad, los intervalos correspondientes a estos grupos pueden
ser tratados como si fueran unidades discretas.
6.6. Algunas pruebas basadas en razón de verosimilitudes
287
Como la tabla anterior involucra solamente dos variables, a este tipo de
arreglos se le conoce como una tabla de contingencia de dos dimensiones.
Es posible clasificar a los miembros de una población de muchas formas.
Por ejemplo, las personas se pueden dividir en hombres y mujeres, casados
o solteros, los que son elegibles para votar y los que no, y ası́ sucesivamente.
Estos son ejemplos de clasificaciones dicotómicas, no obstante, puede haber
más de dos categorı́as. Las tablas en tres dimensiones y más surgen cuando
una muestra se clasifica con respecto a más de dos variables cualitativas.
Lo que es importante es que las categorı́as en las que se clasifique a los
individuos sean exhaustivas y mutuamente excluyentes. Una clasificación es
exhaustiva cuando proporciona suficientes categorı́as para acomodar a todos
los miembros de la población. Las categorı́as son mutuamente excluyentes
cuando están definidas de tal manera que cada miembro de la población puede ser asignado correctamente a una y sólo una categorı́a. Por ejemplo, en
la siguiente tabla se presenta una muestra de 5375 muertes por tuberculosis,
clasificadas con respecto a dos variables cualitativas: sexo y tipo de tuberculosis que causó la muerte (note que las categorı́as de estas variables como
están dadas en la tabla son ambas exhaustivas y mutuamente excluyentes):
Tuberculosis del sistema respiratorio
Otras formas de tuberculosis
Tuberculosis (todas las formas)
Hombres
3534
270
Mujeres
1319
252
Total
4853
522
3804
1571
5375
Para una versión general de una una tabla de contingencia de dos dimensiones, suponga que la clasificación usa r renglones y c columnas, y sea Pij
la probabilidad de que un individuo elegido al azar de la población bajo consideración, caerá en la celda correspondiente al i− ésimo renglón y j − ésima
columna. Además, sea:
Pi• =
c
X
Pij la probabilidad de estar en el i − ésimo renglón
j=1
y
P•j =
r
X
Pij la probabilidad de estar en la j − ésima columna.
i=1
Al igual que en la prueba de la Ji-cuadrada para bondad de ajuste, se
tiene la condición:
288
6. Pruebas de hipótesis
r X
c
X
Pij = 1 ⇔
i=1 j=1
r
X
c
X
Pi• = 1 y
i=1
P•j = 1.
j=1
El siguiente arreglo muestra una tabla de contingencia de r×c con r renglones
y c columnas (r y c categorı́as respectivamente para cada una de las variables
involucradas).
1
2
.
.
.
r
1
P11
P21
.
.
.
P
Pr1r
i=1
Pi1 = P•1
2
P12
P22
.
.
.
P
Pr2r
.
.
.
.
.
.
.
.
.
.
.
i=1
Pi2 = P•2
.
.
.
.
.
.
.
c
P1c
P2c
.
.
.
P
Prcr
Pc
P1j = P1•
Pj=1
c
j=1 P2j = P2•
.
.
.P
c
j=1 Prj = Pr•
i=1
Pic = P•c
Sea nij la frecuencia observada en la celda (i, j), entonces, si se tienen n
observaciones en total:
r X
c
X
nij = n
i=1 j=1
y los totales marginales por renglón o columna se pueden escribir como:
r
X
nij = n•j ,
i=1
c
X
nij = ni• .
j=1
El problema de probar si las dos variables clasificadas son independientes
puede plantearse como:
H0 : Pij = Pi• P•j
i = 1, 2, ..., r ; j = 1, 2, ..., c.
La función de verosimilitud es como la que se vio en la sección anterior
para la prueba Ji-cuadrada de bondad de ajuste, pero se debe considerar un
doble producto:
r Y
c
Y
n
L (θ) =
Pijij .
(6.21)
i=1 j=1
Cuando H0 es verdadera:
L (θ) =
r Y
c
Y
i=1 j=1
nij
(Pi• P•j )
.
(6.22)
289
6.6. Algunas pruebas basadas en razón de verosimilitudes
En las expresiones anteriores todos los parámetros que aparecen son desconocidos:
Pij , Pi• y P•j i = 1, 2, ..., r ; j = 1, 2, ..., c;
por lo que los valores esperados (o frecuencia esperada) para cada celda (i, j)
eij = nPij = nPi• P•j (bajo H0 )
necesarios para la prueba, son desconocidos, por lo que se reemplazarán por
sus estimadores máximo verosı́miles correspondientes.
Para encontrar el máximo de la función dada en (6.22) de estas dos
últimas expresiones, observe que:
Pr• = 1 −
r−1
X
Pi• y P•c = 1 −
c−1
X
i=1
P•j ,
(6.23)
j=1
entonces (bajo H0 ):
L (θ)
=
c
r Y
Y
nij
(Pi• P•j )
=
=
nij
(Pi• )
(P•j )
nij
i=1 j=1
i=1 j=1
r
Y
r Y
c
Y
!
ni•
Pi•
c
Y

i=1

n
P•j•j  .
j=1
De esta forma:
ln L (θ)
=
r
X
ni• ln Pi• +
i=1
=
r−1
X
c
X
n•j ln P•j
j=1
ni• ln Pi• + nr• ln Pr• +
i=1
c−1
X
n•j ln P•j + n•c ln P•c
j=1
Sustituyendo ln Pr• y ln P•c de (6.23), se obtiene:
ln L (ω)
=
r−1
X
i=1
ni• ln Pi• +nr• ln 1 −
r−1
X
!
Pi• +
i=1
c−1
X

n•j ln P•j +n•c ln 1 −
j=1
c−1
X

P•j  .
j=1
Entonces para cada i y cada j fijas,
∂ ln L (ω)
1
(−1)
= ni•
+ nr•
=0
Pr−1
∂Pi•
Pi•
1 − i=1 Pi•
(6.24)
290
6. Pruebas de hipótesis
∂ ln L (ω)
1
(−1)
=0
= n•j
+ n•c
Pc−1
∂P•j
P•j
1 − j=1 P•j
de (6.24):
ni•
nr•
=
⇒ ni• Pbr• = nr• Pi• i = 1, 2, ..., r
Pi•
Pr•
entonces
Pbr•
r
X
ni• = nr•
i=1
donde
r
P
(6.25)
ni• = n y
i=1
r
P
r
X
Pi• ,
i=1
Pi• = 1.
i=1
Por lo tanto:
nr•
Pbr• =
,
n
y de (6.25),
n•j
n•c
=
⇒ n•j Pb•c = n•c P•j j = 1, 2, ..., c
P•j
P•c
lo cual implica que:
Pb•c
c
X
n•j = n•c
j=1
c
X
P•j ,
j=1
Pc
Pc
donde j=1 n•j = n y j=1 P•j = 1.
Por lo tanto:
n•c
.
Pb•c =
n
El desarrollo es válido para cualquier i = 1, 2, ..., r y j = 1, 2, ..., c, por lo
que:
n•j
ni•
Pbi• =
y Pb•j =
.
n
n
En consecuencia, la función de verosimiltud maximizada en el espacio
paramétrico definido por H0 es:
máx L (θ) =
θ∈Θ0
r c
Y
ni• ni• Y n•j n•j
.
n
n
i=1
j=1
(6.26)
Ahora, la función de verosimilitud en todo el espacio paramétrico es:
L (θ) =
r Y
c
Y
i=1 j=1
n
Pijij
6.6. Algunas pruebas basadas en razón de verosimilitudes
y
ln L (θ) =
r X
c
X
nij ln Pij .
i=1 j=1
De la hipótesis inicial, se puede escribir:
r X
c
X
Pij = 1 ,
i=1 j=1
lo que implica que

Prc = 1 − 
c X
r−1
X
Pij +
c−1
X

Prj  .
j=1
j=1 i=1
Por lo tanto:
ln L (Θ)
=
r−1
c X
X
nij ln Pij +
c X
r−1
X
nrj ln Prj + nrc ln Prc
j=1
j=1 i=1
=
c−1
X
nij ln Pij +
j=1 i=1
c−1
X
nrj ln Prj +
j=1



c X
r−1
c−1
X
X
nrc ln 1 − 
Pij +
Prj  .
j=1 i=1
j=1
Derivando con respecto a Pij se obtiene que:
∂ ln L (Θ)
nij
(−1) nrc
= 0,
P
=
+
Pc−1
Pr−1
c
∂Pij
Pij
P
1−
P
+
rj
ij
j=1
i=1
j=1
entonces
nij
nrc
=
,
Pij
Pbrc
de donde
nij Pbrc = nrc Pij
Como:
r X
c
X
i=1 j=1
i = 1, 2, ..., r y j = 1, 2, ..., c.
Pij = 1 y
r X
c
X
i=1 j=1
nij = n,
291
292
6. Pruebas de hipótesis
se tiene que:
Pbrc
r X
c
X
nij = nrc
i=1 j=1
r X
c
X
nrc
.
Pij ⇒ Pbrc =
n
i=1 j=1
Al igual que antes, el argumento es válido para cualquier i y j, por lo
tanto:
nij
i = 1, 2, ..., r y j = 1, 2, ..., c.
Pbij =
n
Ası́, la función de verosimilitud maximizada en todo el espacio paramétrico queda de la siguiente manera:
máx L (θ) =
θ∈Θ
c r Y
Y
nij nij
i=1 j=1
n
.
Finalmente, la razón o cociente de verosimilitudes generalizadas es:
Qr
n•j n•j
ni• ni• Qc
máxθ∈Θ0 L (θ)
i=1
j=1
n
n
=
λ=
≤ λ0 .
Qr Qc
nij nij
máxθ∈Θ L (θ)
i=1
j=1
n
Donde se debe obtener la distribución de λ, por lo que se usa el criterio
asintótico de la razón de verosimilitudes:
−2 ln λ ∼ χ2(ν) ,
donde ν se determina como k−1−s donde k es el número total de parámetros
y s es el número de parámetros independientes (o estimados), en este caso
como
r X
c
X
Pij = 1,
i=1 j=1
es equivalente a
r
X
i=1
Pi• = 1 y
c
X
P•j = 1,
j=1
de donde por (6.23) hay r + c − 2 parámetros independientes, por lo tanto:
ν
=
k − 1 − s = rc − 1 − (r + c − 2)
=
(r − 1) (c − 1) .
La regla de decisión es, entonces: Rechazar H0 al nivel de significancia α
si:
−2 ln λ ≥ ω1−α ,
6.6. Algunas pruebas basadas en razón de verosimilitudes
293
donde ω1−α es el cuantil 1 − α de una distribución χ2((r−1)(c−1)) .
Se puede demostrar que, por el mismo argumento que se usó en la prueba
de bondad de ajuste,
c
r X
n n 2
X
nij − i•n •j
+ Rn
−2 ln λ =
ni• n•j
n
i=1 j=1
donde Rn → 0 cuando n → ∞ con probabilidad 1 y
ni• n•j
= eij
n
ya que
ni• n•j
.
n2
Por lo tanto la estadı́stica de prueba que se va a utilizar es:
eij = npij = nPi• P•j = n
T =
c
r X
2
X
(nij − eij )
,
eij
i=1 j=1
cuya distribución también es χ2(r−1)(c−1) .
Ejemplo 6.22 Retomando el ejemplo introductorio, en donde se considera
una muestra de 300 estudiantes clasificados por el tipo de preparatoria y el
promedio escolar.
Preparatoria
Promedio
≥5
<5
Pequeña
18
42
Mediana
51
79
Grande
46
64
Los valores esperados por celda son los siguientes:
e11
=
e12
=
e13
=
e21
=
e22
=
e23
=
n1• n•1
n
n1• n•2
n
n1• n•3
n
n2• n•1
n
n2• n•2
n
n2• n•3
n
=
=
=
=
=
=
(115) (60)
6900
=
= 23
300
300
(115) (130)
= 49.8
300
(115) (110)
= 42.16
300
(185) (60)
= 37
300
(185) (130)
= 80.16
300
(185) (110)
= 67.8
300
294
6. Pruebas de hipótesis
El valor de la estadı́stica de prueba es:
T
=
1.0869 + 0.0289 + 0.3497 + 0.6756 + 0.01678 + 0.2129
=
2.37078.
Si se establece el nivel de significancia como α = 0.05, entonces el cuantil
1−α = 0.95 de una distribución Ji-cuadrada con (r − 1) (c − 1) = (1) (2) = 2
grados de libertad es: ω0.95 = 5.99, por lo que no se rechaza H0 , es decir, no
se rechaza la hipótesis de independencia, por lo que se puede concluir que el
tamaño de la preparatoria de la que provienen los estudiantes y su promedio
escolar durante el primer año de facultad son independientes.
En R, se puede utilizar chisq.test de la siguiente manera:
#
>
>
>
>
#
>
Se crea la tabla de contingencia para este ejemplo
tabla_contingencia = rbind(c(18, 51, 46), c(42, 79, 64))
colnames(tabla_contingencia)=c("pequena","mediana","grande")
rownames(tabla_contingencia) = c("mayor_igual_5", "menor_5")
tabla_contingencia = as.table(tabla_contingencia)
Usando la función chisq.test
chisq.test(tabla_contingencia)
El resultado es:
Pearson’s Chi-squared test
data: tabla_contingencia
X-squared = 2.372, df = 2, p-value = 0.3054
Lo que confirma los cálculos previos.
La extensión de las tablas de contingencia de doble entrada a tablas de
contingencia de orden mayor es inmediata. Para una tabla de r1 × r2 × r3 ,
para la hipótesis de independencia completa:
H0
:
Pijk = Pi•• P•j• P••k para todo
i
=
1, 2, ..., r1 j = 1, 2, ..., r2 y k = 1, 2, ..., r3
Los estimadores de las frecuencias esperadas son:
eijk
= nPbijk = nPbi•• Pb•j• Pb••k
n n n
= n i•• •j• ••k
n n n
ni•• n•j• n••k
=
,
n2
6.6. Algunas pruebas basadas en razón de verosimilitudes
295
y la estadı́stica de prueba es:
T =
r3
r2 X
r1 X
2
X
(nijk − eijk )
i=1 j=1 k=1
eijk
con r1 r2 r3 − 1 − (r1 − 1 + r2 − 1 + r3 − 1) = r1 r2 r3 − r1 − r2 − r3 + 2 grados
de libertad.
Otra hipótesis de independencia que se usa muy a menudo es:
H0 : Pijk = Pi•• P•jk
donde, las frecuencias esperadas estimadas son:
eijk =
ni•• n•jk
n
y la estadı́stica de prueba tiene:
r1 r2 r3 − 1 − (r1 − 1 + r2 r3 − 1) = (r1 − 1) (r2 r3 − 1)
grados de libertad.
A continuación se verá cómo medir el grado de asociación entre variables.
El coeficiente de contingencia
Como una medida del grado de asociación entre variables en una tabla de
contingencia en donde se clasifican un total de n unidades experimentales,
Karl Pearson propuso el coeficiente de contingencia C, definido como:
1/2
Q
,
C=
Q+n
donde Q es la estadı́stica de prueba apropiada para la hipótesis de independencia. Si las variables son completamente independientes, los valores de
Q y C son ambos pequeños. Además, valores crecientes de C implican un
incremento en el grado de asociación, ya que valores grandes de Q son un
resultado de más alejamiento significativo entre las frecuencias observadas
y esperadas de celdas. Pero el valor de C no puede ser mayor de uno para
cualquier n, una desventaja de C como una medida de asociación es que no
puede alcanzar el valor de 1.
Puede demostrarse fácilmente que para una tabla de contingencia de
doble entrada de r × c, el valor máximo de C es:
1/2
t−1
Cmáx =
, donde t = mı́n (r, c) .
t
296
6.7.
6. Pruebas de hipótesis
Pruebas de hipótesis en el contexto
Bayesiano
En el contexto Bayesiano también se realizan contrastes de hipótesis y en
este caso, es posible hacer pruebas de dos o más de ellas:
H1 : θ ∈ Θ1 ,
H2 : θ ∈ Θ2 ,
···
HJ : θ ∈ ΘJ ,
donde Θ1 , Θ2 , . . . , ΘJ denotan una partición del espacio paramétrico Θ. En
esta sección sólo se presentará el caso del contraste de dos hipótesis, sin
embargo la extensión a un número mayor será natural.
Suponga que X proviene de un modelo f (x|θ) y que se desea evaluar las
hipótesis:
H0 : θ ∈ Θ0 vs. Ha : θ ∈ Θ1 ,
donde Θ0 y Θ1 constituyen una partición del espacio paramétrico Θ. Recuerde que para hacer inferencia estadı́stica desde una perspectiva Bayesiana se
requiere una distribución inicial del parámetro θ. Si se asigna una distribución inicial propia con densidad6 π(θ), entonces es posible evaluar las dos
hipótesis a priori a través del cociente:
R
π(θ)dθ
P(θ ∈ Θ0 )
τ0
= RΘ0
=
.
τ1
P(θ ∈ Θ1 )
π(θ)dθ
Θ1
Una vez que se han observado los datos, X = x, la apreciación inicial
acerca del parámetro se actualiza a través de la distribución posterior
π(θ|x) ∝ L(θ|x)π(θ),
donde L(θ|x) denota la función de verosimilitud. Las dos hipótesis planteadas
pueden evaluarse ahora considerando la distribución posterior a través del
cociente
R
π(θ|x)dθ
P(θ ∈ Θ0 |x)
p0
=
= RΘ0
.
p1
P(θ ∈ Θ1 |x)
π(θ|x)dθ
Θ1
En el enfoque Bayesiano el contraste de hipótesis consistirá en comparar
las distribuciones de los parámetros y elegir aquella hipótesis con probabilidad mayor. Por ejemplo, si sólo se cuenta con información inicial entonces
6 Esta notación para la densidad inicial en esta sección no tiene relación con la función
potencia, la cual también se ha denotado con π a lo largo del presente capı́tulo. En el
contexto Bayesiano se hace la especificación de que se trata de las densidades a priori o
a posteriori y simplemente es para que haya congruencia con la notación utilizada en el
capı́tulo de Estimación Puntual en donde se aborda la estimación Bayesiana.
6.7. Pruebas de hipótesis en el contexto Bayesiano
297
se podrı́an comparar las probabilidades τ0 y τ1 y elegir H0 o Ha de acuerdo
a aquella hipótesis con probabilidad mayor; pero si además se observó una
muestra X = x entonces se podrı́an comparar las probabilidades p0 y p1 y
elegir H0 ó Ha de acuerdo a aquella hipótesis con probabilidad mayor.
Con frecuencia se propone a la estadı́stica conocida como factor de Bayes,
definida como
p0 /p1
FB =
,
τ0 /τ1
como una medida de la evidencia que proporcionan los datos a favor de la
hipótesis nula.
Note que el factor de Bayes compara de manera simultánea las probabilidades obtenidas a partir de las distribuciones iniciales τ0 y τ1 y las obtenidas
de las distribuciones posteriores p0 y p1 . Cuando ambas hipótesis son igualmente probables de manera inicial, es decir τ0 = τ1 , el factor de Bayes se
reduce a sólo comparar las distribuciones finales p0 y p1 .
La evaluación de la probabilidad relativa de las hipótesis o los modelos (asociados a esas hipótesis) se puede hacer utilizando la probabilidad
posterior del modelo asociado:
π(Hj |x)
π(x|Hj )π(Hj )
π(x)
π(x|Hj )π(Hj )
= PJ
k=1 π(x|Hk )π(Hk )
∝ π(x|Hj )π(Hj ),
=
donde π(Hj ) es la probabilidad inicial del modelo y j = {0, a}. Es decir,
π(H0 ) y π(Ha ) son las probabilidades iniciales bajo las hipótesis H0 y Ha ,
respectivamente. Además:
Z
π(x|Hj ) = π(x|θ)π(θ|Hj )dθ
es la verosimilitud marginal bajo el modelo Hj , y π(θ|Hj ) es la distribución
inicial para θ cuando Hj es cierta.
Por lo tanto, si se desea contrastar dos hipótesis H0 y Ha , para evaluar la probabilidad relativa de estas hipótesis, se deberá calcular π(H0 |x)
y π(Ha |x), y estas probabilidades se podrı́an comparar usando el factor de
Bayes.
Sin embargo, estas evaluaciones deben hacerse tomando en cuenta los
contextos particulares de cada modelo. Los siguientes ejemplos buscan hacer
algunas observaciones en este sentido.
298
6. Pruebas de hipótesis
Ejemplo 6.23 Sea X una variable aleatoria de un modelo Normal(µ, 1) ,
si se plantean las hipótesis H0 : µ = 0 contra la alternativa Ha : µ 6= 0;
adoptando una distribución inicial conjugada para µ que sea N ormal(0, S 2 )
con S > 0.
Note que en este caso el espacio paramétrico es Θ = {µ; µ ∈ R} =
(−∞, ∞), el conjunto de los reales. Bajo la hipótesis nula H0 el espacio
paramétrico es Θ0 = {0} y bajo la hipótesis alternativa Ha el espacio paramétrico es Θ1 = {µ; µ 6= 0, µ ∈ R}.
Para hacer el contraste de hipótesis en el contexto Bayesiano, se requerirá
calcular el factor de Bayes F B = π(H0|x)/π(Ha |x). Note que también puede
obternerse que π(H0 |x) = 1/ 1 + F1B .
Suponiendo que no se tiene mayor información acerca de cuál de las
hipótesis tiene mayor probabilidad inicial, se supondrá que π(H0 ) = π(Ha ).
En esto caso el factor de Bayes se reducirı́a a calcular F B = π(x|H0 )/π(x|Ha ).
Bajo la hipótesis nula, H0 : µ = 0,
π(x|H0 ) = π(x|µ = 0) = N (x|0, 1).
Bajo la hipótesis alternativa Ha : µ 6= 0,
π(x|Ha )
Z
= π(x|µ)π(µ|Ha )dµ
Z
= N (x|µ, 1)N (µ|0, S 2 )dµ
Z
1
1
1
1 2
2
√
√
=
exp − (x − µ)
exp − 2 µ dµ
2
2S
2π
2πS 2
(
)
1
1
1
x2
exp − x2 +
=p
2
2 1 + S12
2π(1 + S 2 )
q
(
#)
"
Z
1 + S12
1
1
x
x2
2
+
√
×
exp −
1 + 2 µ − 2µ
dµ
2
2
S
1 + S12
2π
1 + S12
1
1
=p
exp −
x2
2
2(1 + S 2 )
2π(1 + S )
= N (x|0, 1 + S 2 ).
Por lo tanto, el factor de Bayes resulta en
FB =
N (x|0, 1)
.
N (x|0, 1 + S 2 )
6.7. Pruebas de hipótesis en el contexto Bayesiano
299
Observe que en este caso el factor de Bayes crece cuando S 2 → ∞ para
cualquier x.
Ejemplo 6.24 Considere el experimento de lanzar una moneda n veces,
donde las variables aleatorias Yi son independientes con distribución Yi ∼
Bernoulli(θ), para i = 1, . . . , n. La hipótesis nula se plantea como H0 :
θ = 0.5 contra la alternativa Ha : θ 6= 0.5, con una distribución inicial
θ ∼ Beta(a, b).
Para hacer el contraste de hipótesis se calculará el factor de Bayes F B =
π(H0 |y)/π(Ha |y). Otra vez, no se tiene mayor información acerca de cuál
de las hipótesis tiene mayor probabilidad inicial, ası́ que se supondrá que
π(H0 ) = π(Ha ), y entonces el factor de Bayes se reducirı́a a calcular F B =
π(y|H0 )/π(y|Ha ).
Bajo la hipótesis nula, H0 : θ = 0.5,
π(y|H0 ) = π(y|θ = 0.5) = 0.5n .
Bajo la hipótesis alternativa, Ha : θ 6= 0.5, se tiene que dadas las observaciones, la verosimilitud es
L(θ|y) = θ
Pn
i=1
yi
(1 − θ)n−
Pn
i=1
yi
y distribución inicial del parámetro θ es
π(θ|Ha ) =
θa−1 (1 − θ)b−1
,
B(a, b)
donde B(a, b) = Γ(a)Γ(b)
Γ(a+b) es la función beta. Entonces la probabilidad posterior de Y = y dada Ha es
π(y|Ha )
Z
= π(y|θ)π(θ|Ha )dθ
Z
= L(θ|y)π(θ|Ha )dθ
Z P
Pn
n
θa−1 (1 − θ)b−1
= θ i=1 yi (1 − θ)n− i=1 yi
dθ
B(a, b)
P
Pn
Pn
Pn
Z
n
B ( i=1 yi + a , n − i=1 yi + b) θ i=1 yi +a−1 (1 − θ)n− i=1 yi +b−1
Pn
Pn
=
dθ
B(a, b)
B ( i=1 yi + a , n − i=1 yi + b)
Pn
Pn
B ( i=1 yi + a , n − i=1 yi + b)
=
,
B(a, b)
300
6. Pruebas de hipótesis
y el factor de Bayes es:
FB
0.5n
=
Pn
B(
=
B(
i=1
P
yi +a , n− n
i=1 yi +b)
B(a,b)
n
0.5 B(a, b)
Pn
.
y
+
a , n − i=1 yi + b)
i
i=1
Pn
0.8
Ahora considere dos casos particulares con el objetivo de comparar los
resultados obtenidos en el contraste de hipótesis bajo los contextos de estadı́stica Bayesiana y del cociente de verosimilitudes generalizadas.
Sean n = 10 y n = 50 del modelo bajo H0 , con π(θ|H1 ) ∼ Beta(2, 2), la
figura 6.4 muestra las probabilidades posteriores π(H0 |y).
0.4
0.0
0.2
p(H0|y)
0.6
n=50
n=10
0.0
0.2
0.4
0.6
0.8
1.0
y
Figura 6.4: Probabilidad posterior del modelo por tamaño de muestra.
La verosimilitud es L(θ|y) = π(y|θ) y el cociente de verosimilitudes generalizadas para probar las hipótesis planteadas es:
λ(y) =
máxΘ0 L(θ|y)
L(θ̂0 )
=
,
máxΘ L (θ|y)
L(θ̂)
donde θ̂0 y θ̂ son los estimadores máximo verosı́miles en los espacios paramétricos correspondientes.
Para este caso:
0.5n
λ(y) = nȳ
.
ȳ (1 − ȳ)n−nȳ
6.7. Pruebas de hipótesis en el contexto Bayesiano
301
La región de rechazo es de la forma {y : λ(y) ≤ k}. Se ha visto que, bajo
ciertas condiciones,
d
−2 ln(λ(y)) → χ2(ν) .
y si el p-value < α, entonces se rechaza H0 con un nivel de significancia α.
Considere ahora que n = 10, 000 y y = 4, 900; el p-valor se aproxima a
P(χ21 > (4.000267)) = 0.04549306 y la probabilidad posterior de H0 ,
π(H0 |y) ≈
1
= 0.8780995.
1 + 1/7.203413
En este caso particular, bajo el cociente de verosimilitudes generalizadas el
p-valor conlleva a rechazar la hipótesis nula, pero usando la probabilidad
posterior se elegirı́a la hipótesis nula y, por lo tanto, las conclusiones serı́an
opuestas.
Estas situaciones que se han ilustrado con los ejemplos pueden observarse ya sea por un efecto del tamaño de muestra, por una hipótesis nula
precisa contra una alternativa muy difusa, o por la probabilidad a priori
asignada a las hipótesis. En este sentido, el enfoque Bayesiano penaliza las
probabilidades iniciales difusas.
Existen muchas otras propuestas para evaluar hipótesis o modelos, aquı́
se plantea una a manera de ilustración.
Para realizar la comparación de estos modelos es usual que se consideren
otras medidas de bondad de ajuste, que como en el caso del factor de Bayes, puedan utilizarse para comparar modelos y que ayuden en la toma de
decisiones. Uno de los criterios muy utilizados en estadı́stica Bayesiana es el
Criterio de Información Bayesiano (BIC, por su nombre en inglés Bayesian
Information Criterion).
Definición 6.12 Criterio de Información Bayesiana (BIC). Sea X una
muestra aleatoria de tamaño n. Suponga que se tienen dos posibles modelos,
f1 (X|θ1 , . . . , θm1 )
y
f2 (X|θ1 , . . . , θm2 ),
cada uno parametrizado por m1 y m2 parámetros: θ1 , . . . , θm1 y θ1 , . . . , θm2 ,
respectivamente, los cuales pueden tener elementos en común. El BIC se
define como:
L1 (θ1 , . . . , θm1 |X)
+ (m1 − m2 ) ln(n).
BIC = −2 ln
L2 (θ1 , . . . , θm2 |X)
Ejemplo 6.25 Suponga que, dada una muestra aleatoria de tamaño n, se
tienen las siguientes hipótesis para un fenómeno de interés:
H0 : Xi ∼ Gama(α, β)
vs.
Ha : Xi ∼ Exp(θ).
302
6. Pruebas de hipótesis
Bajo H0 se tienen m1 = 2 parámetros, y la verosimilitud es:
L(α, β|X)
=
=
=
n
Y
Gama(xi |α, β)
i=1
n
Y
β α α−1 −xi β
x
e
Γ(α) i
i=1
!α−1
n
Y
P
β nα
− n
i=1 xi β .
x
e
i
Γ(α)n i=1
Bajo Ha se tiene m2 = 1 parámetro, y la verosimilitud es:
L(θ|X)
=
=
=
n
Y
i=1
n
Y
Exp(xi |θ)
θe−xi θ
i=1
P
n − n
i=1 xi θ
θ e
.
Q100
Considere el caso particular n = 100, x̄ = 0.479, i=1 xi = 2.898146e−44
y las hipótesis: H0 : Xi ∼ Gama(2, 4) vs. Ha : Xi ∼ Exp(0.5).
El BIC se calcula como:
 nα Q

α−1 − Pn xi β
n
β
i=1
(
x
)
e
n
i
i=1
Γ(α)
 + (m1 − m2 ) ln(n).
Pn
BIC = −2 ln 
θn e− i=1 xi θ
200
4 × (2.898146e − 44) × exp(−191.6568)
= −2 ln
+ ln(100)
(0.5100 ) exp(−23.95711)
= −152.6433.
En algunos contextos se sugiere que si el BIC ≤ 2 la evidencia que
favorece al primer modelo es muy débil, mientras que si el BIC > 10 la
evidencia de ello es contundente.
6.8.
Ejercicios
1. Sea X una variable aleatoria con función de densidad f (x; θ). Considere
H0 : θ = θ0 y Ha : θ = θ1 , tal que la función de densidad es la siguiente:
303
6.8. Ejercicios
x
f (x; θ0 )
f (x; θ1 )
1
0.01
0.06
2
0.01
0.05
3
0.01
0.04
4
0.01
0.03
5
0.01
0.02
6
0.01
0.01
7
0.94
0.79
Use el lema de Neyman-Pearson para encontrar la prueba estadı́stica
más potente para contrastar las hipótesis H0 vs. Ha , con tamaño de
prueba α = 0.04. Calcule el tamaño del error tipo II.
2. Sea X1 , . . . , Xn una muestra aleatoria de la población con función de
densidad f (x; θ). Considere las hipótesis
H0 : f (x; θ) =
Ha : f (x; θ) =
1
,
θ
1 −x/θ
e
,
θ
x ∈ (0, θ)
x ∈ (0, ∞)
Uniforme(0, θ)
1
Exponencial( ).
θ
(a) Determine la prueba del cociente de verosimilitudes, junto con su
región crı́tica C, asociada a las pruebas H0 vs. Ha .
(b) Obtenga la potencia de la prueba πγ (θ) y haga su gráfica.
3. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la población
con distribución Normal(µ, 4), donde µ es desconocido. Se desea contrastar las hipótesis H0 : µ = 1 vs. µ = 4 y se consideran las siguientes
pruebas:
Prueba γ1 : Rechazar H0 si y sólo si X1 > 3.7.
Prueba γ2 : Rechazar H0 si y sólo si 31 (X1 + 2X2 ) > 3.5.
Prueba γ3 : Rechazar H0 si y sólo si 21 (X1 + X3 ) > 3.2.
Prueba γ4 : Rechazar H0 si y sólo si X > 3.1.
Encuentre las probabilidades de los errores tipo I y tipo II para cada
una de las pruebas y compárelas.
4. Se lanza 1000 veces una moneda y el resultado es 560 “soles” y 440
“águilas”. Sea θ la probabilidad de que caiga un “sol”.
(a) ¿Se puede suponer que la moneda está equilibrada o la probabilidad de obtener un “sol” es mayor que la de obtener “águila”?
Plantee las hipótesis.
(b) Obtenga la prueba uniformemente más potente.
(c) Calcule el p-value.
304
6. Pruebas de hipótesis
5. Suponga que X1 , X2 , X3 , X4 es una muestra aleatoria de la población
con distribución Exponencial(θ). Se desea contrastar las hipótesis H0 :
θ = 2 vs. θ = 6 y se consideran las siguientes pruebas:
Prueba
Prueba
Prueba
Prueba
γ1 :
γ2 :
γ3 :
γ4 :
Rechazar
Rechazar
Rechazar
Rechazar
H0
H0
H0
H0
si
si
si
si
y
y
y
y
sólo
sólo
sólo
sólo
si
si
si
si
X1 > 4.
1
2 (X1 + X2 ) > 3.5.
1
3 (X1 + X2 + X3 ) > 3.4.
X > 2.8.
Encuentre las probabilidades de los errores tipo I y tipo II para cada
una de las pruebas y compárelas.
6. Suponga que X1 y X2 son variables aleatorias de una población con
función de densidad de probabilidad
f (x; θ) = θxθ−1
si 0 < x < 1, donde θ > 0 es desconocido. Para contrastar las hipótesis
H0 : θ = 1 vs. Ha : θ = 2 se considera la región crı́tica:
3
C = (x1 , x2 ); (x1 , x2 ) ∈ (0, 1) × (0, 1), x1 x2 ≥
.
4
(a) Muestre que el tamaño de la prueba es α = 14 + 34 log 34 .
7
+ 98 log 34 .
(b) Muestre que la potencia de la prueba en θ = 2 es 16
7. Sea X1 , . . . , X10 una muestra aleatoria de tamaño n = 10 de la población con distribución Bernoulli(p).
(a) Encuentre una prueba más potente de tamaño α = 0.0547 para
probar las hipótesis H0 : p = 12 vs. Ha : p = 14 . Encuentre la
potencia de esta prueba y el tamaño del error tipo II.
(b) Para constrastar las hipótesis H0 : p ≤ 12 vs. Ha : p > 12 , se tiene
una región crı́tica
10
X
xi ≥ 6}.
C = {x;
i=1
Encuentre el tamaño de la prueba y grafique su función potencia.
8. Suponga que X es una variable aleatoria con función de densidad de
probabilidad f (x; θ), donde x ∈ R. Considere las funciones definidas
de la siguiente manera:
f0 (x) =
−1
1
1 + x2
,
π
f1 (x) =
1
exp {−|x|} .
2
305
6.8. Ejercicios
Se contrastan las hipótesis
H0 : f (x; θ) = f0 (x) vs.
Ha : f (x; θ) = f1 (x).
(a) Muestre que la prueba más potente de tamaño α es: rechazar la
hipótesis nula si y sólo si |X| < k.
(b) Determine k como una función de α.
(c) Calcule la potencia de la prueba.
9. Sea X una observación con función de densidad f (x; θ) = (2θx+1−θ),
donde x ∈ [0, 1] y θ ∈ [−1, 1].
(a) Encuentre la prueba más potente de tamaño α para contrastar
las hipótesis H0 : θ = 0 vs. Ha : θ = 1. (Sugerencia: la prueba
debe estar expresada en términos de α).
(b) Para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0, la regla
de decisión es: Rechazar H0 si x > 21 , es decir, la región crı́tica es
C = {x : x > 12 }. Encuentre la potencia π(θ) y el tamaño de la
prueba α.
(c) ¿Existe una prueba uniformemente más potente (UMP) de tamaño α para contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0?.
¿Cuál es?
(d) Obtenga la prueba del cociente de verosimilitudes generalizadas
para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ 6= 0.
(e) Entre todas las posibles pruebas para contrastar las hipótesis
H0 : θ = 0 vs. Ha : θ = 1, obtenidas del cociente de verosimilitudes simple (lema de Neyman-Pearson), encuentra la prueba
que minimice α + β, donde α y β son los tamaños de los errores
tipo I y II, respectivamente.
10. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
P oisson(λ).
(a) Encuentre la prueba uniformemente más potente para contrastar
las hipótesis
H0 : λ = λ0
vs.
Ha : λ > λ0 .
Grafique la función potencia considerando que λ0 = 1, n = 25 y
α = 0.05.
306
6. Pruebas de hipótesis
(b) Obtenga la región crı́tica usando el cociente de verosimilitudes
generalizadas para contrastar las hipótesis
H0 : λ = λ0
Ha : λ 6= λ0 .
vs.
Nota: la región crı́tica deberı́a estar definida en términos de
n
P
Xi .
i=1
(c) Una prueba estadı́stica razonable para contrastar las hipótesis
H0 : λ = λ0 vs. Ha : λ 6= λ0 podrı́a ser la siguiente:
γ:
Rechazar
H0
si
|X̄ − λ0 | ≥ k.
Encuentre el valor de k tal que el tamaño del error tipo I sea
α = 0.05.
Nota: Suponga que n es suficientemente grande tal que puede
usarse el teorema del lı́mite central.
11. Se supone que el número de accidentes de automóvil tiene una distribución Poisson. En años anteriores, el número promedio de accidentes
por año fue de 15, y este año fue de 10. ¿Se puede concluir que el
número de accidentes ha disminuido? Calcule el p-value.
12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
P oisson(λ).
(a) Encuentre una prueba uniformemente más potente (UMP) de tamaño α para contrastar las hipótesis H0 : λ ≤ λ0 vs. Ha : λ > λ0 .
(b) Considere el caso particular con λ0 = 1, es decir, H0 : λ ≤ 1 vs.
Ha : λ > 1. Use el teorema del lı́mite central para determinar
el tamaño de la muestra n, tal que la prueba UMP cumpla que
P(Rechazar H0 |λ = 1) = 0.05 y P(Rechazar H0 |λ = 2) = 0.9.
(c) Use la prueba del cociente de verosimilitudes para encontrar una
región crı́tica para probar las hipótesis H0 : λ = λ0 vs. H1 : λ 6=
λ0 .
Nota:
Pn la región crı́tica debe quedar expresada en términos de
i=1 Xi .
13. Considere una muestra aleatoria de n observaciones independientes de
una misma distribución. Determine la región de rechazo de la prueba
de razón de verosimilitudes para probar H0 vs. Ha en los tres casos
siguientes.
(a1) Ho : θ = θ0 vs Ha : θ 6= θ0 , cuando la muestra aleatoria proviene
de una distribución P oisson(θ).
307
6.8. Ejercicios
(a2) Si θ0 = 1, n = 4, (x1 , x2 , x3 , x4 ) = (2, 1, 3, 4), α = .05. ¿Qué
concluirı́a de la prueba?
(b1) Ho : p = p0 vs. Ha : p 6= p0 , cuando la muestra aleatoria
proviene de una distribución Bernoulli(p).
(b2) Si Ho : p = 1/2 vs. Ha : p 6= 1/2 y las observaciones reportan
P40
i=1 xi = 10, n = 40. ¿Qué concluirı́a de la prueba con α = .05?
(c1) Ho : σ 2 = σ02 vs. Ha : σ 2 6= σ02 cuando la muestra aleatoria
proviene de una distribución N (0, σ 2 ).
(c2) Si Ho : σ 2 = 1 vs. Ha : σ 2 6= 1 y las observaciones reportan
P40 2
i=1 xi = 80, n = 40. ¿Qué concluirı́a de la prueba con α = .05?
14. Sea X1 y X2 una muestra aleatoria de la población con distribución
U nif orme(θ, θ + 1). Para constrastar las hipótesis
H0 : θ = 0 vs.
Ha : θ > 0,
se tienen dos posibles pruebas estadı́sticas (reglas de decisión):
γ1 : Rechazar H0 si
X1 > 0.95,
γ2 : Rechazar H0 si
X1 + X2 > k.
(a) Encuentre el valor de k tal que γ2 tenga el mismo tamaño que γ1 .
(b) Calcula las funciones potencia de cada prueba, πγ1 (θ) y πγ2 (θ).
Grafı́quelas.
(c) ¿Qué prueba es más potente? Explique.
(d) Muestre cómo obtener una prueba estadı́stica tal que tenga el
mismo tamaño que γ2 pero que sea más potente.
15. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
U nif orme(0, θ), y sean Y1 , . . . , Yn sus estadı́sticas de orden. Para contrastar las hipótesis H0 : θ = θ0 vs. Ha : θ 6= θ0 , con θ0 fijo. La
prueba estadı́stica γ (regla de decisión) es: Rechazar H0 si Yn > θ0 ó
Yn < θ0 α1/n .
(a) Encuentre la función potencia πγ (θ) y grafı́quela.
(b) Encuentre otra prueba estadı́stica γ2 , que tenga el mismo tamaño
de prueba y muestre que γ es una prueba más potente que γ2 .
16. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
U nif orme(θ, θ + 1). Sean Y1 ≤ · · · ≤ Yn las estadı́sticas de orden. Para
contrastar las hipótesis
H0 : θ = 0
vs.
Ha : θ > 0,
308
6. Pruebas de hipótesis
se utiliza la siguiente prueba estadı́stica
γ:
Rechazar
H0
Yn ≥ 1 o si Y1 ≥ k,
si
donde k es una constante.
(a) Determine el valor de k para que el tamaño de la prueba sea α.
(b) Calcule la función potencia de la prueba y grafı́quela.
(c) Calcule los valores de n y k tal que el tamaño de la prueba sea
α = 0.1 y la potencia sea al menos de 0.8 para todo θ > 1.
17. Sea X una variable aleatoria con distribución Logı́stica(θ, 1), con función de densidad
f (x; θ) =
e(x−θ)
,
[1 + e(x−θ) ]2
x ∈ R, θ ∈ R.
Usando una observación (muestra de tamaño n = 1):
(a) Encuentre una prueba más potente γ ∗ de tamaño α (con mejor
región crı́tica C ∗ ) para contrastar las hipótesis
H0 : θ = 0
vs.
Ha : θ = 1.
(b) Para (a), si α = 0.2, calcule el tamaño del error tipo II.
(c) Obtenga la prueba uniformemente más potente γ ∗ de tamaño α
para contrastar las hipótesis
H0 : θ ≤ 0
vs.
Ha : θ > 0.
18. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente independientes, con distribución Exponencial(θ) y Exponencial(η), respectivamente, con función de densidad f (x; θ) = θe−θx y f (y; η) =
ηe−ηy .
(a) Use la prueba del cociente de verosimilitudes generalizadas para
encontrar la región crı́tica C asociada a las hipótesis:
H0 : θ = η
vs.
Ha : θ 6= η.
(b) Muestre que C se puede simplificar en términos de la siguiente
estadı́stica
Pn
Xi
i=1 P
T = Pn
.
m
i=1 Xi +
j=1 Yj
¿Cuál es la distribución de T bajo H0 ? [Nota: la distribución de
T no depende de θ ni de η cuando H0 es cierta.]
6.8. Ejercicios
309
19. Sea X una observación con función de densidad f (x; θ) = (1 + θ)xθ ,
donde x ∈ [0, 1] y θ > −1.
(a) Encuentre la prueba más potente de tamaño α para contrastar
las hipótesis H0 : θ = 0 vs. Ha : θ = 1.
(b) ¿Existe una prueba uniformemente más potente de tamaño α para
contrastar las hipótesis H0 : θ ≤ 0 vs. Ha : θ > 0? En caso
afirmativo, encuéntrela.
(c) Dentro de las posibles pruebas del cociente de verosimilitudes para
constrastar las hipótesis H0 : θ = 0 vs. Ha : θ = 1, encuentre una
prueba que minimice 2α + β, donde α y β son los tamaños de los
errores tipo I y tipo II.
(d) Realice la prueba del cociente de verosimilitudes generalizadas
para contrastar las hipótesis H0 : θ = 0 vs. Ha : θ 6= 0.
20. Sea X una observación de una variable aleatoria con distribución
Beta(θ, 1).
(a) Sea C = {X; X > 1/2} la región crı́tica para probar las hipótesis
H0 : θ ≤ 1 vs. Ha : θ > 1. Encuentre el tamaño de la prueba y
grafique su función potencia.
(b) Encuentre la prueba más potente de tamaño α para contrastar
las hipótesis H0 : θ = 1 vs. Ha : θ = 2.
(c) Encuentre una prueba uniformemente más potente (UMP) de tamaño α para constrastar las hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1.
21. Sea X una variable aleatoria con distribución Beta(θ, 1) con función
de densidad f (x; θ) = θxθ−1 , donde x ∈ (0, 1) y θ > 0.
(a) Se selecciona una muestra de tamaño n = 2. Para contrastar las
hipótesis H0 : θ ≤ 1 vs. Ha : θ > 1 se usa la región crı́tica
C = {(x1 , x2 ); 43 x1 ≤ x2 }. Encuentre la función potencia y el
tamaño de la prueba. Grafique la función potencia.
(b) Se selecciona una muestra de tamaño n = 2. Encuentre la prueba
más potente de tamaño α = 12 (1 − log(2)) para contrastar las
hipótesis H0 : θ = 1 vs. Ha : θ = 2.
(c) Para una observación, n = 1, encuentre una prueba uniformemente más potente (UMP) de tamaño α para constrastar las hipótesis
H0 : θ ≤ 1 vs. Ha : θ > 1.
310
6. Pruebas de hipótesis
22. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente
independientes, con distribución Beta(θ, 1) y Beta(η, 1), respectivamente.
(a) Use la prueba del cociente de verosimilitudes generalizadas para
encontrar la región crı́tica C asociada a las hipótesis:
H0 : θ = η
vs.
Ha : θ 6= η.
(b) Muestre que C se puede simplificar en términos de una función de
la siguiente estadı́stica:
Pn
)
i=1 log(X
Pmi
T = Pn
.
i=1 log(Xi ) +
j=1 log(Yj )
(c) ¿Cuál es la distribución de T bajo H0 ?
(d) Muestre cómo obtener una prueba estadı́stica de tamaño α = 0.1.
23. Suponga que X1 , . . . , Xn es una muestra aleatoria de una población
con distribución Rayleigh con función de densidad de probabilidad
2
x
2x
exp −
,
fX (x) =
θ
θ
con x > 0, donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga una
prueba uniformemente más potente de tamaño α para contrastar las
hipótesis H0 : θ ≥ θ0 vs. Ha : θ < θ0 , donde θ0 > 0 es un valor fijo.
24. Suponga que X1 , . . . , Xn es una muestra aleatoria de una población
con con función de densidad
f (x; θ) = θ−1 x(1−θ)/θ ,
con x ∈ (0, 1), donde θ > 0 es desconocido. Sea α ∈ (0, 1). Obtenga
una prueba uniformemente más potente de tamaño α para contrastar
las hipótesis H0 : θ ≤ θ0 vs. Ha : θ > θ0 donde θ0 > 0 es un valor fijo.
25. Considere una secuencia de n ensayos multinomiales cada uno con
k + 1 posibles respuestas O1 , . . . , Ok+1 , sea Yi el número de ensayos
que resultaron con respuesta Oi , i = 1, . . . , k + 1. Entonces la función
de densidad conjunta de (Y1 , . . . , Yk+1 ) es la distribución multinomial
P(Y1 = y1 , . . . , Yk+1 = yk+1 ) =
n!
yk+1
py1 · · · pk+1
,
y1 ! · · · yk+1 ! 1
311
6.8. Ejercicios
donde
probabilidad de obtener la respuesta Oi en un ensayo,
Pk+1 pi es laP
k+1
i=1 pi = 1,
i=1 yi = n. Considere la prueba de hipótesis
H0 : (p1 , . . . , pk+1 )
= (p01 , . . . , p0k+1 ) vs Ha : (p1 , . . . , pk+1 ) 6= (p01 , . . . , p0k+1 ).
Demuestre que la estadı́stica −2 log λ esta dada por la expresión siguiente
k+1
X
Yi
−2 log λ = 2
Yi log 0 .
np
i
i=1
26. Considere que (X1 , . . . , Xn ) es una muestra aleatoria de n observaciones independientes de una distribución N (µ, σ 2 ) y la prueba
H0 : (µ, σ) = (µ0 , σ0 ) vs. Ha : (µ, σ) 6= (µ0 , σ0 ).
Demuestre que la estadı́stica −2 log λ esta dada por la expresión siguiente:
−2 log λ =
n
nσ̂ 2
2
(x̄
−
µ
)
+
− n − n[log σ̂ 2 − log σ02 ].
0
σ02
σ02
27. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
Pareto con función de densidad
f (x; θ, ν) =
θν θ
,
xθ+1
x ∈ [ν, ∞), θ > 0, ν > 0.
(a) Encuentre los estimadores máximo verosı́miles de θ y ν.
(b) Muestre que la prueba del cociente de verosimilitudes para contrastar las hipótesis:
H0 : θ = 1, (ν desconocido) vs.
Ha : θ 6= 1, (ν desconocido),
tiene región crı́tica de la forma C : {x; T (x) ≤ c1 ó T (x) ≥ c2 },
donde 0 < c1 < c2 y
Qn
i=1 Xi
T (x) = log
.
(mı́ni Xi )n
(c) Muestre que bajo H0 , 2T tiene una distribución Ji-cuadrada, y
encuentre el número de grados de libertad.
312
6. Pruebas de hipótesis
[Sugerencia: obtenga la distribución conjunta de los n−1 términos
no triviales Xi /(mı́ni Xi ) condicional a (mı́ni Xi ). Junte los n −
1 términos, y note que la distribución de T dada (mı́ni Xi ) no
depende de (mı́ni Xi ), ası́ que la distribución de T resulta ser no
condicional].
28. Considere una muestra aleatoria Y1 , . . . , Yn de una población con distribución N (µ, σ 2 ), con σ 2 conocida. Se desean probar las hipótesis:
H0 : µ = µ0 vs. Ha : µ = µ1 , µ0 < µ1 .
Las probabilidades iniciales están dadas por
(
π0 si µ = µ0
p(µ) =
π1 si µ = µ1
¿Bajo qué condiciones se rechaza H0 ?
29. Sea X una variable aleatoria con distribución N ormal(µ, 1). Cosidere
las hipótesis H0 : |µ| ≤ c vs. Ha : |µ| > c cuando la distribución inicial
es f (µ) = 1.
(a) Grafique la probabilidad de H0 como una función de c.
(b) Determine los valores de c para los cuales su máximo es 0.95 y el
factor de Bayes es 1.
30. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones independientes de una distribución N (µ, 1),
1
1
(x)
f (x; µ) = √ exp − (x − µ)2 I(−∞,∞) .
2
2π
I. Considere la prueba de hipótesis
H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 < µ0 .
(a) Usando el lema de Neyman–Pearson encuentre la región crı́tica C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α.
(b) Si las observaciones muestrales reportan x̄ = −1/2, que concluirı́a de la prueba con µ0 = 0, µ1 = −1, α = 0.05, n = 25.
Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈
C¯∗ | Ha ].
II. Considere la prueba de hipótesis
H0 : µ = µ0 vs. Ha : µ = µ1 , µ1 > µ0 .
313
6.8. Ejercicios
(a) Usando el lema de Neyman–Pearson encuentre la región crı́tica C ∗ , tal que P[(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α.
(b) Si las observaciones muestrales reportan x̄ = 2/3, que concluirı́a de la prueba con µ0 = 0, µ1 = 1, α = 0.05, n = 25.
Reporte la potencia de la prueba: 1−β = 1−P[(x1 , . . . , xn ) ∈
C¯∗ | Ha ].
31. Sea (X1 , . . . , Xn ) una muestra aleatoria de n observaciones independientes de una distribución N (0, σ 2 ),
f (x; σ 2 ) =
1
1
√ exp − 2 x2 .
2σ
σ 2π
Considere la prueba de hipótesis
H0 : σ 2 = σ02 vs. Ha : σ 2 = σ12 , σ12 > σ02
(a) Usando el lema de Neyman–Pearson encuentre la región crı́tica
C ∗ , tal que P [(x1 , . . . , xn ] ∈ C ∗ | H0 ] = α.
Pn
(b) Si las observaciones muestrales reportan i=1 x2i = 37.5, qué concluirı́a de la prueba con σ02 = 1, σ12 = 2, α = 0.05, n = 25? Reporte
la potencia de la prueba 1 − P [(x1 , . . . , xn ) ∈ C¯∗ | Ha ].
32. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución N ormal(µ, σ 2 ), donde µ es desconocido pero σ 2 es conocida. Sea
α ∈ (0, 1). Para contrastar las hipótesis H0 : µ = µ0 vs. Ha : µ > µ0
la prueba uniformemente más potente de tamaño α es
√
γ : Rechazar H0 si y sólo si n(X − µ0 )/σ > z1−α ,
donde z1−α es el cuantil 1 − α de una distribución normal estándar.
La prueba uniformemente más potente garantiza que el tamaño del
error tipo II de la prueba γ es el mı́nimo posible en µ = µ1 (> µ0 ) entre
todas las pruebas posibles de tamaño α, pero no hay garantı́a que este
mı́nimo sea pequeño a menos que n sea determinado adecuadamente.
Se requiere una prueba uniformemente más potente con tamaño de
error tipo II menor o igual que β, con β ∈ (0, 1) cuando µ = µ1 (> µ0 ).
Muestre que el tamaño de la muestra n debe ser el menor valor entero
tal que se cumpla la desigualdad
n≥
(z1−α + z1−β )σ
(µ1 − µ0 )
2
.
314
6. Pruebas de hipótesis
33. Considere dos distribuciones normales independientes N (µ1 , 400) y
N (µ2 , 225). Sea θ = µ2 − µ1 y sea x̄ y ȳ las medias muestrales de
dos muestras aleatorias independientes cada una de tamaño n de estas
dos distribuciones. Se rechaza Ho : θ = 0 si y sólo si x̄ − ȳ ≥ c. Si
π(θ) es la función potencia de esta prueba, encuentre c y n tales que
π(0) = 0.5 y π(10) = 0.90.
34. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución
N (µx , σx2 ), y sea Y1 , . . . , Ym una muestra aleatoria de una población con
distribucón N (µy , σy2 ), donde las Xi0 s son independientes de las Yj0 s,
las varianzas son iguales (σx2 = σy2 = σ 2 ), y los tamaños de muestra
pueden ser distintos (n 6= m).
Considere las hipótesis:
H0 : µx = µy
vs.
Ha : µx 6= µy .
(a) Obtenga la región crı́tica usando la prueba de la razón de verosimilitudes.
Nota: la estadı́stica de prueba generalmente se expresa como:
T =q
Sp2
1
=
n+m−2
X̄ − Ȳ
Sp2 ( n1 +
,
1
m)
m
n
X
X
(Yi − Ȳ )2
(Xi − X̄)2 +
i=1
!
.
i=1
(b) Muestre que bajo H0 , T ∼ tn+m−2 .
(c) Se obtuvo una muestra a partir de dos poblaciones (A y B). Determine si la media de los grupos es la misma. Calcula el p-value.
Grupo A
Grupo B
294 251 279 248 274
284 274 272
240 264 232 263 220
264 256 255
254 218 251 210
254 250 242
35. Sea (X1 , Y1 ), . . . , (Xn , Yn ) una muestra aleatoria de la población con
distribución normal bivariada
2
σx ρ
Xi
µx
∼ N ormal2
,
.
ρ σy2
Yi
µy
con σx2 , σy2 y ρ desconocidos. Se desea contrastar las hipótesis
H0 : µx = µy
vs.
H1 : µx 6= µy .
315
6.8. Ejercicios
(a) Obtenga la región crı́tica usando la prueba de la razón de verosimilitudes.
Nota: la estadı́stica de prueba puede expresarse como:
W
,
Tw = q
1 2
S
n w
donde Wi = Xi − Yi , W =
W )2 .
1
n
Pn
i=1
Wi ,
2
=
Sw
1
n−1
Pn
i=1 (Wi
−
2
= Var(Wi ) y Cov(Wi , Wj ).
(b) Calcule µw = E(Wi ), σw
Concluya que W1 , . . . , Wn es una muestra aleatoria de una pobla2
ción con distribución N ormal(µw , σw
).
Justifique que bajo H0 , Tw ∼ tn−1 .
(c) Se obtuvo una muestra de tamaño n = 10 a partir de dos poblaciones (A y B). Determine si la media de los grupos es la misma
(use α = 0.05). Calcule el p-value.
Grupo A (Xi )
13.2
9.9
9.0
10.0
13.0
Grupo B (Yi )
16.7
11.8
14.4
14.5
9.3
Grupo A (Xi )
11.6
7.4
14.2
12.6
7.2
Grupo B (Yi )
10.2
10.6
10.9
11.1
12.2
36. Sean X1 , . . . , Xn y Y1 , . . . , Ym dos muestras aleatorias, mutuamente
independientes, con distribución N ormal(µx , σx2 ) y N ormal(µy , σy2 ),
respectivamente, con parámetros desconocidos.
(a) Use la prueba de la razón de verosimilitudes generalizadas para
encontrar la región crı́tica C asociada a las hipótesis
H0 : σx2 = σy2
vs.
Ha : σx2 6= σy2 .
(b) Se obtuvieron muestras de tamaño n = 10 y m = 12 a partir de
dos poblaciones (A y B). Determine si las varianzas de los grupos
es la misma (use α = 0.05). Calcule el p-value.
3.6
5.7
Grupo A (Xi )
3.0 5.3 4.6
2.9 6.9 4.8
2.9
8.1
2.9
6.7
5.5
4.3
Grupo B (Yi )
4.3 5.8 4.1
5.9 5.0 4.7
3.4
5.2
316
6. Pruebas de hipótesis
37. De acuerdo a cierto modelo genético, las proporciones de los individuos
con 4 tipos de sangre deberán relacionarse de la siguiente manera:
Tipo
Tipo
Tipo
Tipo
O
A
B
AB
Probabilidad
q2
2
p + 2pq
r2 + 2qr
2pr
Frecuencias
XO
XA
XB
XAB
Observaciones
40
263
382
315
Donde p + q + r = 1. Dados los tipos de sangre de n individuos:
(a) ¿Cómo probarı́a si el modelo es adecuado? Realice el procedimiento de manera teórica.
(b) Realice la prueba con los valores observados (n = 1000), para
saber si el modelo es adecuado.
38. Un determinado modelo genético sugiere que las probabilidades para
una distribución trinomial (multinomial con 3 categorı́as) son: θ1 =
p2 , θ2 = 2p(1 − p), y θ3 = (1 − p)2 , con 0 < p < 1. Suponga que
X1 , X2 , X3 representan las frecuencias en una muestra de tamaño n
(fijo) de observaciones independientes. Obtenga la prueba de bondad
de ajuste Ji-cuadrada para esta distribución considerando que p es
desconocida.
39. Un grupo de 4 monedas se lanzó 160 veces, y se obtuvieron los siguientes datos. ¿Las monedas están equilibradas?
Número de caras
Frecuencia
0
16
1
48
2
55
3
33
4
8
40. Sea Q la estadı́stica de prueba Ji-cuadrada.
(a) Demuestre que la siguiente igualdad se cumple:
" k
#
k X (oi − ei )2
X
npi (1 − pi ) (npi − ei )2
E[Q] = E
=
+
,
ei
ei
ei
i=1
i=1
donde pi es la probabilidad de la i-ésima categorı́a, con i =
1, . . . , k, oi son los valores observados, y ei son los valores esperados.
(b) Demuestre que si H0 : pi = πi es verdadera, E[Q] = k − 1.
41. En el control de calidad de un producto se seleccionan 100 muestras,
cada una de tamaño 20, a partir de un proceso de producción. Los datos
se muestran a continuación, donde se mide el número de productos
317
6.8. Ejercicios
defectuosos. Pruebe la hipótesis nula de que el número de defectos
tiene una distribución Binomial.
Número de defectos
Frecuencia
0
11
1
27
2
38
3
13
4
7
5
2
6
1
7
1
8 ó más
0
42. Una máquina produce artı́culos de plástico en grupos de tres artı́culos
a la vez. El proceso es poco confiable y se observan algunos artı́culos
defectuosos. En un experimento se produjeron 512 grupos de artı́culos
y en estos el número de grupos con i defectos, para i = 0, 1, 2, 3, fueron:
213 (i = 0), 228 (i = 1), 57 (i = 2), y 14 (i = 3). Pruebe la hipótesis de
que cada artı́culo tiene una constante (pero desconocida) probabilidad
θ de estar defectuosa, independientemente de los otros artı́culos.
43. Se seleccionan 6 grupos de 100 semillas para sembrar. En cada uno de
los 6 grupos, el número de semillas que no germinaron fueron: 12, 20,
9, 17, 24 y 16. Pruebe la hipótesis de que la proporción de semillas no
germinadas fue la misma para todos los grupos.
44. Los siguientes datos muestran los resultados de un ensayo médico para
probar dos tratamientos, un tratamiento viejo y un tratamiento nuevo,
para una enfermedad. Se eligieron 1100 pacientes para recibir cada
tratamiento.
Tratamiento
Viejo
Nuevo
Total
Sobrevivieron
505
195
700
Murieron
595
905
1500
Total
1100
1100
2200
Pruebe la hipótesis de que los tratamientos tienen la misma tasa de
supervivencia. ¿Qué tratamiento preferirı́a?
Considere que el ensayo se llevó a cabo en dos hospitales, para los
cuales los datos se muestran a continuación. Los médicos del hospital
A, un famoso hospital de investigación, diseñaron el ensayo médico.
Sus pacientes tienden a estar severamente más enfermos y ellos son a
quienes se les aplica con mayor frecuencia el nuevo tratamiento. ¿La
efectividad de los dos tratamientos es la misma, considerando los diferentes resultados en ambos hospitales?
318
6. Pruebas de hipótesis
Tratamiento
Viejo
Nuevo
Total
Hospital A
Sobrevivieron Murieron
5
95
100
900
105
995
Total
100
1000
1100
Tratamiento
Viejo
Nuevo
Total
Hospital B
Sobrevivieron Murieron
500
500
95
5
595
505
Total
1000
100
1100
Apéndice A
Algunos conceptos y
resultados de probabilidad
En este apéndice se enumeran algunos de los resultados y conceptos más
importantes de la teorı́a de la probabilidad que se utilizan en la inferencia estadı́stica. El objetivo es que el lector pueda consultarlos en el mismo
texto, pero no se profundiza en ellos, por lo que se recomienda consultar
libros especializados en el tema para un análisis o estudio más formal de la
probabilidad.
A.1.
Espacios de probabilidad
Definición A.1 (espacio de probabilidad). Un espacio de probabilidad
es una terna
(Ω, F, P)
donde:
Ω es un conjunto arbitrario, aunque en la teorı́a de la probabilidad se
le conoce como espacio muestral, y es el conjunto de posibles resultados
de un experimento aleatorio.
F es una σ-álgebra de subconjuntos de Ω que satisface:
1. Ω ∈ F.
2. Si A ∈ F, entonces Ac ∈ F.
3. Si A1 , A2 , . . . , An ∈ F, entonces A1 ∪ A2 ∪ · · · ∪ An ∈ F.
319
320
A. Algunos conceptos y resultados de probabilidad
P : F → [0, 1] es una función conocida como medida de probabilidad
que cumple:
1. P(Ω) = 1.
2. P(A) ≥ 0 ∀A ∈ F.
3. Si S
A1 , A2 , . . . , P
An ∈ F y Ai ∩ Aj = ∅ para i 6= j, entonces
n
n
P ( i=1 Ai ) = i=1 P(Ai ).
Proposición A.1 (algunas propiedades de P). A continuación se mencionan algunas propiedades de la medida de probabilidad.
1. Sean A, B ∈ F, si A ⊆ B entonces P(A) ≤ P(B).
2. P(∅) = 0.
3. Sean A ∈ F, entonces P(Ac ) = 1 − P(A).
4. Sean A, B ∈ F, entonces P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
5. Desigualdad de Boole: Sean A1 , . . . , An ∈ F, entonces
!
n
n
X
[
P(Ai ).
P
Ai ≤
i=1
i=1
6. Fórmula de inclusión-exclusión: Sean A1 , . . . , An ∈ F, entonces
!
n
n
[
X
X
P
Ai
=
P(Ai ) −
P(Ai ∩ Aj )
i=1
i=1
+
X
i6=j
P(Ai1 ∩ Ai2 ∩ Ai3 ) + · · ·
i1 <i2 <i3
+ · · · + (−1)
n+1
P
n
\
!
Ai
.
i=1
A.2.
Probabilidad condicional e
independencia
Definición A.2 (probabilidad condicional). Sean A y B en F tal que
P(B) > 0. Entonces la probabilidad de A condicionada a B, o la probabilidad
de A dado B, es
P(A ∩ B)
.
P(A|B) =
P(B)
321
A.3. Variables aleatorias
Algunas propiedades y teoremas que se obtienen a partir de la probabilidad condicional son los siguientes.
Proposición A.2 P(·|B) es una medida de probabilidad.
Teorema A.1 (probabilidad
total). Sean B1 , B2 , . . . , Bn ∈ F tales que
Sn
Bi ∩ Bj = ∅ ∀ i 6= j y i=1 Bi = Ω, entonces para A ∈ F:
P(A) =
n
X
P(A|Bi )P(Bi ).
i=1
Teorema A.2 (teorema
Sn de Bayes) . Sean B1 , B2 , . . . , Bn ∈ F tales que
Bi ∩ Bj = ∅ ∀ i 6= j y i=1 Bi = Ω, entonces para A ∈ F:
P(Bj |A) =
P(A|Bj )P(Bj )
P(A ∩ Bj )
= Pn
.
P(A)
i=1 P(A|Bi )P(Bi )
Definición A.3 (independencia). Se dice que A ∈ F y B ∈ F son independientes si y sólo si P(A ∩ B) = P(A)P(B).
Definición A.4 Se dice que A1 , A2 , . . . , An ∈ F son independientes si y
sólo si
P(Ai ∩ Aj ) = P(Ai )P(Aj ) para todo i 6= j.
P(Ai ∩ Aj ∩ Ak ) = P(Ai )P(Aj )P(Ak ) para todo i 6= j 6= k.
..
.
P(A1 ∩ A2 ∩ · · · ∩ An ) = P(A1 )P(A2 ) · · · P(An ).
Teorema A.3 Si A y B son independientes entonces:
A y B c son independientes.
Ac y B son independientes.
Ac y B c son independientes.
A.3.
Variables aleatorias
Definición A.5 (variable aleatoria). Sea (Ω, F, P) un espacio de probabilidad. Una variable aleatoria es una función X : Ω → R que es F-medible,
es decir, que
∀x ∈ R, X −1 (−∞, x] = {ω ∈ Ω : X(ω) ≤ x} ∈ F.
322
A. Algunos conceptos y resultados de probabilidad
Definición A.6 (función de distribución). Sea (Ω, F, P) un espacio de
probabilidad y X : Ω → R una variable aleatoria. La función de distribución
de X es una función FX : R → [0, 1] definida como:
FX (x) = P ({ω ∈ Ω : X(ω) ≤ x}) := P(X ≤ x).
La función de distribución (acumulativa) satisface algunas propiedades:
es no decreciente y continua por la derecha, además lı́mx→−∞ FX (x) = 0 y
lı́mx→∞ FX (x) = 1.
Definición A.7 (función de densidad de probabilidad) . Se dice que
fX : R → [0, 1] es una función de densidad de probabilidad (asociada a X)
si satisface que:
Para el caso de variables aleatorias discretas, fX : N → [0, 1], donde
N es un conjunto a lo más numerable, definida como
fX (x) = P(X = x)
y que cumple:
1. fX (x) ≥ 0 ∀x ∈ R.
P
2.
x fX (x) = 1.
Para el caso de variables aleatorias continuas, fX : R → R+ satisface:
1. fX (x) ≥ 0 ∀x ∈ R.
R∞
2. −∞ fX (x)dx = 1.
A.4.
Distribuciones conjuntas y condicionales
Definición A.8 (función de distribución acumulativa conjunta). Sean
X1 , . . . , Xk , k variables aleatorias, todas definidas sobre el mismo espacio de
probabilidad (Ω, F, P). La función de distribución acumulativa conjunta de
X1 , . . . , Xk , denotada por FX1 ,...,Xk (·, . . . , ·), está definida como
FX1 ,...,Xk (x1 , . . . , xk ) = P (X1 ≤ x1 , . . . , Xk ≤ xk ) ,
para todo (x1 , . . . , xk ) .
Por lo tanto, la función de distribución acumulativa conjunta es una función con dominio en Rk (espacio k-Euclidiano) y contradominio el intervalo
cerrado [0, 1].
323
A.4. Distribuciones conjuntas y condicionales
Anteriormente se comentó que la función de distribución acumulativa de
una variable aleatoria unidimensional tiene ciertas propiedades; lo mismo
sucede para la distribución acumulativa conjunta, se verán a continuación
dichas propiedades para la función de dos variables.
Proposición A.3 (propiedades de la función de distribución bivariada). Si FX,Y (·, ·) es la función de distribución acumulativa conjunta de
X y Y , se cumple lo siguiente:
1.
FX,Y (−∞, y)
=
FX,Y (x, −∞)
=
FX,Y (∞, ∞)
=
lı́m FX,Y (x, y) = 0
∀y,
lı́m FX,Y (x, y) = 0
∀x,
x→−∞
y→−∞
lı́m F
x→∞ X,Y
y→∞
(x, y) = 1.
2. Si x1 < x2 y y1 < y2 , entonces
P (x1 < X ≤ x2 , y1 < Y ≤ y2 )
= FX,Y (x2 , y2 ) − FX,Y (x2 , y1 ) − FX,Y (x1 , y2 ) + FX,Y (x1 , y1 ) .
3. FX,Y (x, y) es continua en cada argumento, esto es
lı́m FX,Y (x + h, y) = lı́m+ F (x, y + h) = FX,Y (x, y) .
h→0+
h→0
Cualquier función que satisface las propiedades (1) a (3) se conoce como
una función de distribución acumulativa bivariada.
Definición A.9 (función de distribución acumulativa marginal).
Si FX,Y (·, ·) es la función de distribución acumulativa conjunta de X y Y ,
entonces las funciones de distribución acumulativa FX (·) y FY (·) se conocen
también como funciones de distribución acumulativas marginales de X y Y,
respectivamente.
Observación A.1 FX (x) = FX,Y (x, ∞) y FY (y) = FX,Y (∞, y) ; esto es,
el conocimiento de la función de distribución acumulativa conjunta de X y
Y implica el conocimiento de las dos funciones de distribución acumulativa
marginal.
p
FX (x) FY (y)
Observación A.2 FX (x) + FY (y) − 1 ≤ FX,Y (x, y) ≤
para todas x y y.
324
A.4.1.
A. Algunos conceptos y resultados de probabilidad
Variables aleatorias discretas
Si X1 , . . . , Xk son variables aleatorias definidas sobre el mismo espacio de
probabilidad, entonces (X1 , . . . , Xk ) se conoce como una variable aleatoria
k-dimensional, o vector aleatorio de dimensión k.
Definición A.10 (variables aleatorias discretas conjuntas). La variable aleatoria k-dimensional (X1 , . . . , Xk ) se define como una variable aleatoria discreta k-dimensional si puede tomar valores sólo sobre un número
contable de puntos (x1 , . . . , xk ) en el espacio real k-dimensional. También se
suele decir que las variables aleatorias X1 , . . . , Xk son variables aleatorias
discretas conjuntas.
Definición A.11 (función de densidad discreta conjunta).
Si (X1 , . . . , Xk ) es una variable aleatoria discreta k-dimensional, entonces la función de densidad discreta conjunta de (X1 , . . . , Xk ), denotada por
fX1 ,...,Xk (·, . . . , ·) se define como
fX1 ,...,Xk (x1 , . . . , xk ) = P (X1 = x1 , . . . , Xk = xk ) ,
para (x1 , . . . , xk ), un valor de (X1 , . . . , Xk ) , y es igual a cero en otro caso.
P
Observación A.3
fX1 ,...,Xk (x1 , . . . , xk ) = 1, donde la suma es sobre
todos los valores posibles de (X1 , . . . , Xk ).
Teorema A.4 Si X y Y son variables aleatorias discretas conjuntas, entonces el conocimiento de FX,Y (·, ·) es equivalente al conocimiento de fX,Y (·, ·) .
Este teorema se generaliza a variables aleatorias discretas k-dimensionales.
Demostración. Sea (x1 , y1 ) , . . . , (xk , yk ) el conjunto de puntos de posiP
bles valores de (X, Y ). Si fX,Y (·, ·) está dada, entonces FX,Y (x, y) =
fX,Y (xi , yi ) , donde la suma es sobre todas las i’s para las cuales xi ≤ x y
yi ≤ y. Recı́procamente, si FX,Y (·, ·) está dada, entonces para (xi , yi ) , un
valor posible de (X, Y ),
fX,Y (xi , yi )
= FX,Y (xi , yi ) − lı́m FX,Y (xi − h, yi )
0<h→0
− lı́m FX,Y (xi , yi − h) + lı́m FX,Y (xi − h, yi − h) .
0<h→0
0<h→0
Definición A.12 (densidad discreta marginal). Si X y Y son variables
aleatorias discretas, entonces a las funciones de densidad de X y Y, fX (·) y
A.4. Distribuciones conjuntas y condicionales
325
fY (·) , se les conoce también como funciones de densidad marginales. Más
generalmente, sea X1 , . . . , Xkn cualquier subconjunto de las variables aleatorias discretas X1 , . . . , Xk ; entonces fX1 ,...,Xkn (x1 , . . . , xkn ) es también llamada una densidad marginal.
Observación A.4 Si X1 , . . . , Xk son variables aleatorias discretas conjuntamente distribuidas, entonces cualquier densidad discreta marginal puede
encontrarse de la densidad conjunta, lo recı́proco no es cierto. Por ejemplo,
si X y Y son variables aleatorias conjuntamente distribuidas con valores
(x1 , y1 ) , (x2 , y2 ) , . . ., entonces
X
fX (xk ) =
fX,Y (xk , yi ) ,
yi
fY (yk )
=
X
fX,Y (xi , yk ) .
xi
A.4.2.
Variables aleatorias continuas
Definición A.13 (variables aleatorias continuas conjuntas y función
de densidad). La variable aleatoria k-dimensional (X1 , . . . , Xk ) se define
como una variable aleatoria continua k-dimensional si y sólo si existe una
función
fX1 ,...,Xk (·, . . . , ·) ≥ 0
tal que
Z
xk
Z
x1
···
FX1 ,...,Xk (x1 , . . . , xk ) =
−∞
fX1 ,...,Xk (u1 , . . . , uk ) du1 · · · duk ,
−∞
para toda (x1 , . . . , xk ). La función fX1 ,...,Xk (·, . . . , ·) se define como la función de densidad de probabilidad conjunta.
Al igual que en el caso univariado, la función de densidad de probabilidad
conjunta tiene dos propiedades:
1. fX1 ,...,Xk (x1 , . . . , xk ) ≥ 0.
R∞
R∞
2. −∞ · · · −∞ fX1 ,...,Xk (x1 , . . . , xk ) dx1 · · · dxk = 1.
En el caso de las funciones de densidad de probabilidad univariadas, estas
funciones son utilizadas para encontrar la probabilidad P [a < X ≤ b] como
Rb
R
f (x) dx o, de forma general, P [X ∈ B] = B fX (x) dx.
a X
En el caso bivariado, el volumen da las probabilidades. Por ejemplo, sea
fX1 ,X2 (x1 , x2 ) una función de densidad de probabilidad conjunta para las
326
A. Algunos conceptos y resultados de probabilidad
variables aleatorias continuas conjuntas (X1 , X2 ) y sea R alguna región en
el plano cartesiano, entonces
Z Z
P [(X1 , X2 ) ∈ R] =
fX1 ,X2 (x1 , x2 ) dx1 dx2 .
R
Si en particular,
R = {(x1 , x2 ) : a1 < x1 ≤ b1 , a2 < x2 ≤ b2 } ,
entonces
Z
b2
Z
b1
P (a1 < x1 ≤ b1 , a2 < x2 ≤ b2 ) =
fX1 ,X2 (x1 , x2 ) dx1 dx2 .
a2
a1
Teorema A.5 Si X y Y son variables aleatorias continuas conjuntamente
distribuidas, entonces el conocimiento de FX,Y (·, ·) es equivalente al conocimiento de fX,Y (·, ·) y viceversa. Lo anterior se generaliza para variables
aleatorias continuas k-dimensionales.
Para una fX,Y (·, ·) dada, FX,Y (·, ·) puede obtenerse para cualquier (x, y)
como:
Z y Z x
FX,Y (x, y) =
fX,Y (u, v) dudv.
−∞
−∞
Ası́mismo, para una FX,Y (·, ·) dada, entonces fX,Y (·, ·) puede obtenerse
como:
∂ 2 FX,Y (x, y)
,
fX,Y (x, y) =
∂x∂y
para los valores x, y, donde FX,Y (·, ·) es diferenciable.
Definición A.14 (función de densidad de probabilidad marginal) .
Si X y Y son variables aleatorias continuas conjuntamente distribuidas, entonces fX (·) y fY (·) se llaman funciones de densidad de probabilidad marginal. Generalizando, sea Xi1 , . . . , Xim cualquier subconjunto de las variables
aleatorias continuas conjuntamente distribuidas X1 , . . . , Xk , entonces
fXi1 ,...,Xim (xi1 , . . . , xim ) ,
se llama la densidad marginal de la variable aleatoria m-dimensional
(Xi1 , . . . , Xim ).
Si X y Y son variables aleatorias continuas, entonces
Z ∞
fX (x) =
fX,Y (x, y) dy,
−∞
Z ∞
fY (y) =
fX,Y (x, y) dx.
−∞
A.4. Distribuciones conjuntas y condicionales
A.4.3.
327
Distribución condicional e independencia
estocástica
Definición A.15 (función de densidad discreta condicional). Sean X
y Y variables aleatorias discretas con función de densidad discreta conjunta
fX,Y (·, ·) . La función de densidad discreta condicional de Y dada X = x
denotada por fY |X (·|x) se define como
fY |X (y|x) =
fX,Y (x, y)
,
fX (x)
si fX (x) > 0, donde fX (x) es la densidad marginal de X. Similarmente,
fX|Y (x|y) =
fX,Y (x, y)
,
fY (y)
si fY (y) > 0.
De la definición anterior se tiene que fX|Y (·|y) o fY |X (·|x) deben cumplir
con las propiedades de una función de densidad de probabilidad.
Definición A.16 (función de densidad continua condicional). Si X
y Y son variables aleatorias continuas conjuntamente distribuidas, entonces
la distribución acumulativa condicional de Y dado X = x está definida como
Z y
FY |X (y|x) =
fY |X (v|x) dv,
−∞
para toda x tal que fX (x) > 0.
Ya se revisó el concepto de probabilidad condicional entre variables aleatorias, por lo que corresponde revisar ahora el concepto de independencia
entre variables aleatorias.
Definición A.17 (independencia estocástica) . Sea (X1 , . . . , Xk ) una
variable aleatoria k-dimensional. X1 , . . . , Xk son definidas como estocásticamente independientes si y sólo si
FX1 ,...,Xk (x1 , . . . , xk ) =
k
Y
i=1
para toda x1 , . . . , xk .
FXi (xi ) ,
328
A. Algunos conceptos y resultados de probabilidad
Definición A.18 (independencia estocástica) . Sea (X1 , . . . , Xk ) una
variable aleatoria discreta k-dimensional con función de densidad discreta
conjunta fX1 ,...,Xk (·, . . . , ·) , X1 , . . . , Xk son estocásticamente independientes
si y sólo si
fX1 ,...,Xk (x1 , . . . , xk ) =
k
Y
fXi (xi ) ,
i=1
para todos los valores (x1 , . . . , xk ) de (X1 , . . . , Xk ) .
Observación A.5 A menudo se suele omitir el término “estocástica”.
En el pasado se vio que la independencia de eventos estuvo cercanamente
relacionado al concepto de probabilidad condicional, de igual forma la independencia de variables aleatorias está cercanamente relacionada con la idea
de distribuciones condicionales de variables aleatorias.
Si X y Y son dos variables aleatorias independientes, entonces fX,Y (x, y) =
fX (x) fY (y) por definición de independencia; sin embargo
fX,Y (x, y) = fY |X (y|x) fX (x)
por definición de densidad condicional, lo cual implica que fY |X (y|x) =
fY (y) ; esto es, la densidad condicional de Y dado X es la densidad no
condicional de Y , por lo que para demostrar que dos variables aleatorias no
son independientes, es suficiente demostrar que fY |X (y|x) depende de x.
Teorema A.6 Si X1 , . . . , Xk son variables aleatorias independientes y
g1 (·) , . . . , gk (·) , son k funciones tales que Yj = gj (Xj ), para j = 1, . . . , k,
entonces Y1 , . . . , Yk son independientes.
A.5.
Momentos de variables aleatorias
A.5.1.
Esperanza y varianza
Definición A.19 (esperanza). La , también conocida como valor esperado
o media, se denota como E(X) = µX y se define como:
P
 xP(X = x)
E(X) = Rx∞

xfX (x)dx
−∞
si X es discreta;
si X es continua.
A.5. Momentos de variables aleatorias
329
La esperanza de una función de una variable aleatoria
Si X es una variable aleatoria y g(x) es una función real, entonces, la esperanza es:
P
 g(x)P(X = x) si X es discreta;
E[g(X)] = Rx∞

g(x)fX (x)dx si X es continua.
−∞
Definición A.20 (varianza). Si X es una variable aleatoria entonces su
varianza está dada por:
Var(X) = E (X − E(X))2 = E (X − µX )2 .
Con lo que se puede dar una expresión para la varianza, pues resulta
ser la esperanza de una función de una variable aleatoria, en donde g (x) =
(x − E(X))2 . Ası́,
P
 (x − µX )2 P(X = x) si X es discreta;
Var(X) = Rx∞

(x − µX )2 fX (x)dx si X es continua.
−∞
Proposición A.4 (algunas propiedades de E(X)). Si X y Y son variables aleatorias, entonces,
1. Si P(X ≥ 0) = 1, entonces E(X) ≥ 0.
2. Si P(X ≥ Y ) = 1, entonces E(X) ≥ E(Y ).
3. Si a y b son constantes reales, entonces E(aX + b) = aE(X) + b.
Proposición A.5 (algunas propiedades de Var(X)) . Si X es variable
aleatoria, entonces
1. Var(X) ≥ 0.
2. Var(X) = 0 ⇔ P (X = c) = 1 donde c es una constante real.
3. Var(aX + b) = a2 Var(X).
A.5.2.
Momentos
El k-ésimo momento de una variable aleatoria X se define como E X k y se
puede calcular de la siguiente manera:
P
 xk P(X = x) si X es discreta;
E X k = Rx∞

xk fX (x)dx si X es continua.
−∞
330
A. Algunos conceptos y resultados de probabilidad
Se puede dar una relación de la varianza de una variable aleatoria X con
su segundo momento de la siguiente manera:
Var(X) = E (X − µX )2
= E X 2 − 2µX X + µ2X
= E X 2 − 2µX E(X) + µ2X
= E X 2 − E2 (X).
A.5.3.
Función generadora de momentos
La función generadora de momentos de una variable aleatoria X, denotada
por mX (t), se define como mX (t) = E etX . Ası́,
P
 etx P(X = x) si X es discreta;
mX (t) = E etX = Rx∞

etx fX (x)dx si X es continua.
−∞
Esta función recibe el nombre de “generadora de momentos” debido a la
siguiente observación:
(tX)3
(tX)2
tX
+
+ ···
E e
= E 1 + tX +
2!
3!
t3
t2
= 1 + tE(X) + E X 2 + E X 3 + · · · ,
2!
3!
entonces,
t2
∂
E(etX ) = E(X) + tE(X 2 ) + E(X 3 ) + · · · ,
∂t
2!
evaluando en t = 0 se tiene que m0X (0) = E(X).
También nótese que,
∂2
E(etX ) = E(X 2 ) + tE(X 3 ) + · · · ,
∂t2
de nuevo, evaluando en t = 0 se tiene que m00X (0) = E X 2 .
(k)
En general mX (0) = E X k , de ahı́ el nombre.
Ejemplo A.1 [Función generadora de momentos de la distribución Poisson]. Sea X una variable aleatoria con distribución P oisson(λ), es decir:
fX (x) =
e−λ λx
I(x){0,1,2,...} con λ > 0.
x!
331
A.5. Momentos de variables aleatorias
Calcular E (X) y E X 2 .
mX (t) = E etX
=
∞
X
etx
x=0
= e
e−λ λx
x!
∞
x
X
(et λ)
−λ
x!
x=0
= e−λ ee
= eλ(e
∴ mX (t) = eλ(e
t
t
t
λ
−1)
−1)
.
.
Diferenciando se llega a que
m0x (t) = eλ(e
t
−1)
λet ,
t
−1)
λet + eλ(e
m00x (t) = eλ(e
t
−1) 2 2t
λ e .
Evaluando en t = 0,
m0X (0) = eλ(e
0
−1)
λe0 = λ = E(X),
m00X (0) = eλ(e
0
−1)
λe0 + eλ(e
0
−1) 2 2(0)
λ e
= λ + λ2 = E(X 2 ).
Usando los resultados anteriores se puede obtener Var(X):
Var(X) = E (X − E(X))2 = E X 2 − E2 (X) = λ + λ2 − λ2 = λ.
∴ E(X) = λ = Var(X).
A.5.4.
Esperanza de g (X1 , . . . , Xn )
Aquı́, igual que antes se procederá a revisar la definición de esperanza matemática de variables aleatorias k-dimensionales y posteriormente se verá
lo relacionado con respecto a la media y a la varianza para finalizar con el
concepto de esperanza matemática de una función de una variable aleatoria
k-dimensional.
Definición A.21 (esperanza matemática) . Sea (X1 , . . . , Xk ) una
variable aleatoria k-dimensional con densidad f(X1 ,...,Xk ) (·, . . . , ·) . El valor
esperado de una función g (·, . . . , ·) de la variable aleatoria k-dimensional,
denotada por E [g (X1 , . . . , Xk )] , está definida como
X
E [g (X1 , . . . , Xk )] =
g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk )
332
A. Algunos conceptos y resultados de probabilidad
si la variable aleatoria (X1 , . . . , Xk ) es discreta, donde la suma es sobre todos
los posibles valores de (X1 , . . . , Xk ), y
Z ∞ Z ∞
E [g (X1 , . . . , Xk )] =
···
g (x1 , . . . , xk ) fX1 ,...,Xk (x1 , . . . , xk ) dx1 · · · dxk
−∞
−∞
si la variable aleatoria (X1 , . . . , Xk ) es continua.
Por supuesto, lo anterior es cierto si la suma converge o la integral existe.
Observación A.6 En particular, si g (x1 , . . . , xk ) = xi entonces,
E [g (X1 , . . . , Xk )] = E [Xi ] .
2
Observación A.7 Si g (x1 , . . . , xn ) = (xi − E (xi )) entonces
E [g (X1 , . . . , Xn )] = Var (Xi ) .
A continuación se define la covarianza entre dos variables aleatorias.
Definición A.22 Sean X y Y variables aleatorias. La covarianza entre X
y Y se define como
Cov (X, Y ) = E {[X − E (X)] [Y − E (Y )]} .
Teorema A.7 Sean X y Y variables aleatorias, entonces
Cov (X, Y ) = E (XY ) − E (X) E (Y ) .
Sea E (X) = µX y E (Y ) = µY ,
Cov (X, Y )
A.5.5.
=
=
=
=
E [(X − µX ) (Y − µY )] = E [XY − XµY − Y µX + µX µY ]
E [XY ] − µY E [X] − µX E [Y ] + µX µY
E [XY ] − µY µX − µX µY + µX µY
E [XY ] − µY µX .
Coeficiente de correlación ρxy
Si X y Y son variables aleatorias, entonces se define el coeficiente de correlación, denotado por ρx,y , de la siguiente manera:
ρxy = p
Cov(X, Y )
Var(X)Var(Y )
Se puede probar que −1 ≤ ρxy ≤ 1.
.
A.5. Momentos de variables aleatorias
A.5.6.
333
Esperanza condicional
Definición A.23 (esperanza condicional). Sea (X, Y ) una variable aleatoria bidimensional y g (·, ·) una función de dos variables. La esperanza condicional de g (X, Y ) dado que X = x, denotada por E [g (X, Y ) |X = x] , está
definida como
Z ∞
E [g (X, Y ) |X = x] =
g (x, y) fY |X (y|x) dy,
−∞
si X y Y son continuas, y
E [g (X, Y ) |X = x] =
X
g (x, y) fY |X (y|x) ,
y
si X y Y son discretas y la suma se realiza sobre todos los posibles valores
de Y .
Observación A.8 Para el caso continuo,
Z ∞
E [g (Y ) |X = x] =
g (y) fY |X (y|x) dy,
−∞
y para el caso discreto,
E [g (Y ) |X = x] =
X
g (y) fY |X (y|x) .
y
Teorema A.8 Sea (X, Y ) una variable aleatoria bidimensional entonces
E [g (Y )] = E [E [g (Y ) |X]] ,
y en particular,
E [Y ] = E [E [Y |X]] .
Definición A.24 (curva de regresión). E [Y |X = x] se llama la curva de
regresión de Y sobre x, también denotada por
µY |X=x = µY |x .
Definición A.25 (varianza condicional). La varianza condicional de Y
dado X = x está definida por
2
Var [Y |X = x] = E Y 2 |X = x − (E [Y |X = x]) .
Teorema A.9 Var [Y ] = E [Var (Y |X)] + Var [E (Y |X)].
Teorema A.10 Sea (X, Y )una variable aleatoria bidimensional, y sean g1 (·)
y g2 (·) funciones de una variable. Entonces,
1. E [(g1 (Y ) + g2 (Y )) |X = x] = E [g1 (Y ) |X = x] + E [g2 (Y ) |X = x].
2. E [(g1 (Y ) g2 (X)) |X = x] = g2 (x) E [g1 (Y ) |X = x].
334
A.5.7.
A. Algunos conceptos y resultados de probabilidad
Función generadora de momentos conjunta y momentos
Definición A.26 (momentos conjuntos) . Los momentos conjuntos de
X1 , . . . , Xk están definidos por E [X1r1 X2r2 X3r3 · · · Xkrk ] donde las ri0 s son cero
o cualquier entero positivo; los momentos conjuntos alrededor de las medias
están definidos como:
r
r
r
E [(X1 − µX1 ) 1 (X2 − µX2 ) 2 · · · (Xk − µXk ) k ] .
Observación A.9 Si ri = rj = 1 y todas las demás rl = 0, entonces este momento particular conjunto
de Xi y Xj alrededor de sus medias es
E (Xi − µXi ) Xj − µXj , representa la covarianza entre Xi y Xj .
Definición A.27 (función generadora de momentos conjunta) . La
función generadora de momentos conjunta de (X1 , X2 , . . . , Xk ) está definida
por



k
X

mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) = E exp
tj Xj  ,


j=1
si la esperanza existe para todos los valores de t1 , t2 , . . . , tk tales que −h <
tj < h, para alguna h > 0, j = 1, 2, . . . , k. El r-ésimo momento de Xj podrı́a
obtenerse de la función mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ) diferenciándola r veces
con respecto a tj y entonces
el lı́mite cuando todas las t0 s se aproxi r tomando
s
man a cero. También E Xi Xj se obtiene al diferenciar r veces con respecto
a Xi y s veces con respecto a Xj la función mX1 ,X2 ,...,Xk (t1 , t2 , . . . , tk ).
Observación A.10 Las funciones generadoras de momentos marginales pueden ser obtenidas a partir de la función generadora de momentos conjunta:
A.5.8.
mX (t1 )
= mX,Y (t1 , 0) = lı́m mX,Y (t1 , t2 ) ,
mY (t2 )
= mX,Y (0, t2 ) = lı́m mX,Y (t1 , t2 ) .
t2→0
t1→0
Independencia y esperanza
Teorema A.11 Si X y Y son independientes, y g1 (·) y g2 (·) son dos funciones, cada una de un solo argumento, entonces
E [g1 (X) g2 (Y )] = E [g1 (X)] E [g2 (Y )] .
Corolario A.1 Si X y Y son independientes, entonces Cov (X, Y ) = 0. La
afirmación inversa en general no se cumple.
335
A.5. Momentos de variables aleatorias
Definición A.28 (variables aleatorias no correlacionadas) . Dos variables aleatorias X y Y se definen como no correlacionadas si y solo si
Cov (X, Y ) = 0.
Teorema A.12 Si X y Y son independientes, entonces
1. Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ) = Var(X) + Var(Y ).
2. Var(X − Y ) = Var(X) + Var(Y ) − 2Cov(X, Y ) = Var(X) + Var(Y ).
Note que Cov(X, X) = Var(X).
Teorema A.13 Dos variables aleatorias conjuntamente distribuidas X y Y
son independientes si y sólo si mX,Y (t1 , t2 ) = mX (t1 ) mY (t2 ) para toda
t1 , t2 para las cuales −h < ti < h, i = 1, 2, para alguna h > 0.
Suma de variables aleatorias independientes
Considere a X1 , . . . , Xn como variables aleatorias independientes con función
de densidad de probabilidad respectiva fXi (xi ), i = 1, 2, . . . , n. Se desea
n
P
determinar cómo se distribuye Y = X1 + · · · + Xn =
Xj . Se utilizará la
j=1
función generadora de momentos para esto,
mY (t) = E etY


=
E exp t
n
X

Xj 
j=1
E etX1 +···+tXn
= E etX1 · · · etXn
= E etX1 · · · E etXn
=
= mX1 (t) · · · mXn (t)
n
Y
=
mXj (t).
j=1
∴ mY (t) =
n
Y
mXj (t).
j=1
Y si además X1 , . . . , Xn son identicamente distribuidas, entonces,
n
mPnj=1 Xj (t) = (mX1 (t)) .
336
A. Algunos conceptos y resultados de probabilidad
A.6.
Resumen de familias paramétricas
A.6.1.
Uniforme Discreta
Definición A.29 Se dice que la variable aleatoria discreta X tiene distribución Uniforme Discreta en el conjunto {1, 2, . . . , N }, se denota X ∼
U nif (N ), si su función de densidad de probabilidad está dada por:
fX (x) = P(X = x) =
1
I{1,2,...,N } (x).
N
Proposición A.6 Si X ∼ U nif (N ), entonces:
(a) E(X) =
N +1
2 .
(b) E(X 2 ) =
(N +1)(2N +1)
.
6
(c) Var(X) =
A.6.2.
N 2 −1
12 .
Bernoulli
Definición A.30 Se dice que la variable aleatoria discreta X tiene distribución Bernoulli con parámetro p ∈ (0, 1), se denota X ∼ Bernoulli(p), si
su función de densidad de probabilidad está dada por:


1 − p
fX (x) = P(X = x) = p


0
si x = 0,
si x = 1,
en otro caso.
De manera equivalente,
fX (x) = px (1 − p)1−x I{0,1} (x).
Proposición A.7 Si X ∼ Bernoulli(p), entonces:
(a) ∀n ∈ N+ , E(X n ) = p. En particular E(X) = E(X 2 ) = p.
(b) Var(X) = p(1 − p).
(c) mX (t) = et p + (1 − p).
A.6. Resumen de familias paramétricas
A.6.3.
337
Binomial
Suponga que se tienen n ensayos Bernoulli (toman valores 0 o 1, asociados
con fracaso o éxito) independientes cada uno con la misma probabilidad de
éxito p ∈ (0, 1). Sea X el número de éxitos en n ensayos Bernoulli independientes, entonces
n x
p (1 − p)n−x .
P(X = x) =
x
Definición A.31 Se dice que la variable aleatoria discreta X tiene distribución Binomial con parámetros n ∈ N+ y p ∈ (0, 1), se denota X ∼ Bin(n, p),
si su función de densidad de probabilidad está dada por:
n x
fX (x) = P(X = x) =
p (1 − p)n−x I{0,1,2,...,n} (x).
x
Proposición A.8 Si X ∼ Bin(n, p), entonces:
n
(a) mX (t) = (et p + (1 − p)) .
(b) E(X) = np.
(c) E(X 2 ) = n2 p2 − np2 + np.
(d) Var(X) = np(1 − p).
Proposición A.9 fX (x) = nx px (1 − p)n−x es creciente si x < (n + 1)p, y
es decreciente si x > (n + 1)p.
A.6.4.
Poisson
Definición A.32 Se dice que la variable aleatoria discreta X tiene distribución Poisson con parámetro λ > 0, se denota X ∼ P oisson(λ), si su función
de densidad de probabilidad está dada por:
fX (x) = P(X = x) =
e−λ λx
I{0,1,2,...} (x).
x!
Proposición A.10 Si X ∼ P oisson(λ), entonces:
t
(a) mX (t) = e−λ(1−e ) .
(b) E(X) = λ.
(c) E(X 2 ) = λ(λ + 1).
338
A. Algunos conceptos y resultados de probabilidad
(d) Var(X) = λ.
Proposición A.11 (relación entre la binomial y la Poisson) . Considérese una variable aleatoria X tal que X ∼ Bin(n, p). Sea λ = np. Si
n → ∞ y p → 0, entonces X ∼ P oisson(λ).
A.6.5.
Geométrica
Suponga que se tiene una sucesión de ensayos Bernoulli independientes, en
donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea X el
número de fracasos antes del primer éxito. Entonces
P(X = x) = (1 − p)x p.
Definición A.33 Se dice que la variable aleatoria discreta X tiene distribución Geométrica con parámetro p ∈ (0, 1), se denota X ∼ Geo(p), si su
función de densidad de probabilidad está dada por:
fX (x) = P(X = x) = (1 − p)x pI{0,1,2,...} (x).
Proposición A.12 Si X ∼ Geo(p), entonces:
(a) mX (t) =
(b) E(X) =
p
1−(1−p)et .
1−p
p .
(c) E(X 2 ) =
1−p
p
(d) Var(X) =
A.6.6.
+
2(1−p)2
.
p2
1−p
p2 .
Binomial negativa
Suponga que se tiene una sucesión de ensayos Bernoulli independientes, en
donde la probabilidad de éxito de todos ellos es igual a p ∈ (0, 1). Sea X el
número de fracasos antes del r-ésimo éxito. Entonces
r+x−1 r
P(X = x) =
p (1 − p)x , x = 0, 1, 2, . . .
x
Definición A.34 Se dice que la variable aleatoria discreta X tiene distribución Binomial Negativa con parámetros r ∈ N y p ∈ (0, 1), se denota
X ∼ BinN eg(r, p), si su función de densidad de probabilidad está dada por:
r+x−1 r
fX (x) = P(X = x) =
p (1 − p)x I{0,1,2,...} (x).
x
A.6. Resumen de familias paramétricas
339
Proposición A.13 Si X ∼ BinN eg(r, p), entonces:
r
p
(a) mX (t) = 1−(1−p)e
.
t
(b) E(X) =
r(1−p)
.
p
(c) Var(X) =
A.6.7.
r(1−p)
p2 .
Hipergeométrica
Definición A.35 Se dice que la variable aleatoria discreta X tiene distribución Hipergeométrica con parámetros n, N, r ∈ N, se denota X ∼
HiperGeo(n, N, r), si su función de densidad de probabilidad está dada por:
r
x
fX (x) = P(X = x) =
N −r
n−x
N
n
I{0,1,...,mı́n{n,r}} (x).
Proposición A.14 Si X ∼ HiperGeo(n, N, r), entonces:
(a) E(X) =
rn
N .
(b) E(X 2 ) =
rn
N
(c) Var(X) =
A.6.8.
h
rn
N
(n−1)(r−1)
N −1
h
i
+1 .
(n−1)(r−1)
N −1
+1−
rn
N
i
.
Logarı́tmica
Definición A.36 Se dice que la variable aleatoria discreta X tiene distribución Logarı́tmica con parámetro p ∈ (0, 1), se denota X ∼ Lg(p), si su
función de densidad de probabilidad está dada por:
fX (x) = P(X = x) = −
1
px
I{1,2,...} (x).
log(1 − p) x
Proposición A.15 Si X ∼ Lg(p), entonces:
(a) mX (t) =
(b) E(X) =
log(1−pet )
log(1−p) .
ap
log(1−p) ,
(c) Var(X) =
1
donde a := − log(1−p)
.
ap(1−ap)
(1−p)2
=µ
1
1−p
− µ , donde µ = E(X).
340
A.6.9.
A. Algunos conceptos y resultados de probabilidad
Uniforme continua
Definición A.37 Se dice que la variable aleatoria continua X tiene distribución Uniforme continua en el intervalo (a, b), se denota X ∼ U nif (a, b),
si su función de densidad de probabilidad está dada por:
fX (x) =
1
I(a,b) (x).
b−a
Proposición A.16 Si X ∼ U nif (a, b), entonces:
(a) mX (t) =
(b) E(X) =
1
bt
t(b−a) (e
a+b
2 .
(c) E2 (X) =
a2 +ab+b2
.
3
(d) Var(X) =
A.6.10.
− eat ).
(b−a)2
12 .
Exponencial
Definición A.38 Se dice que la variable aleatoria continua X tiene distribución Exponencial con parámetro λ ∈ R+ , se denota X ∼ exp(λ), si su
función de densidad de probabilidad está dada por:
fX (x) = λe−λx I(0,∞) (x).
Proposición A.17 Si X ∼ Exp(λ), entonces:
(a) mX (t) =
λ
λ−t ,
t < λ.
(b) E(X) = λ1 .
(c) E(X 2 ) =
λ+1
λ2 .
(d) Var(X) =
A.6.11.
1
λ2 .
Gama
Se define la función Gama, Γ(·), de la siguiente manera:
Z ∞
Γ(t) =
xt−1 e−x dx.
0
La función Gama satisface algunas propiedades:
341
A.6. Resumen de familias paramétricas
(i) Γ(n + 1) = nΓ(n) con n ∈ R+ . En particular si n ∈ Z+ , entonces
Γ(n + 1) = n!.
π
con p ∈ (0, 1). En particular con p =
(ii) Γ(p)Γ(1 − p) = sen(pπ)
√
1
1
π
Γ( 2 )Γ( 2 ) = sen( π ) = π, es decir (Γ( 12 ))2 = π ⇒ Γ( 21 ) = π.
1
2,
2
(iii) Para n impar, Γ( n2 ) =
(iv)
R∞
0
xα−1 e−λx dx =
√
π(n−1)
.
2n−1 ( n−1
2 )!
Γ(α)
λx .
n→∞
(v) Forma asintótica
de Stirling: Γ(n+1) −→
n→∞ √
n! −→ 2πnnn e−n .
(vi) Γ(2) = Γ(1) =
R∞
0
√
2πnnn e−n . En particular
e−x dx = 1.
Definición A.39 Se dice que la variable aleatoria continua X tiene distribución Gama con parámetros r > 0 y λ > 0, se denota X ∼ Gama(r, λ), si
su función de densidad está dada por:
fX (x) =
λr r−1 −λx
x e
I(0,∞) (x).
Γ(r)
Proposición A.18 Si X ∼ Gama(r, λ), entonces:
(a) mX (t) =
λ
λ−t
r
si t < λ.
(b) E(X) = λr .
(c) E(X 2 ) =
r(r+1)
λ2 .
(d) Var(X) =
r
λ2 .
Definición A.40 Se dice que la variable aleatoria continua X tiene distribución Gama Generalizada con parámetros a > 0, p > 0 y σ > 0, se denota
X ∼ GamaG(a, p, σ), si su función de densidad está dada por:
fX (x) =
a
σ ap Γ(p)
a
xap−1 e−(x/σ) I(0,∞) (x).
342
A. Algunos conceptos y resultados de probabilidad
A.6.12.
Ji-cuadrada
Definición A.41 Se dice que la variable aleatoria continua X tiene distribución Ji-cuadrada con k grados de libertad si X ∼ Gama(k/2, 1/2), se
denota X ∼ χ2(k) , es decir, si su función de densidad está dada por:
fX (x) =
( 12 )k/2 k −1 −x/2
x2 e
I(0,∞) (x).
Γ(k/2)
Proposición A.19 Si X ∼ χ2(k) , entonces:
k/2
1
(a) mX (t) = 1−2t
.
(b) E(X) = k.
(c) E(X 2 ) = k(k + 2).
(d) Var(X) = 2k.
A.6.13.
Beta
Definición A.42 Se dice que la variable aleatoria continua X tiene distribución Beta con parámetros α > 0 y β > 0, se denota X ∼ Beta(α, β), si
su función de densidad está dada por:
fX (x) =
donde B(u, v) =
R1
0
1
xα−1 (1 − x)β−1 I(0,1) (x),
B(α, β)
tu−1 (1 − t)v−1 dt es conocida como la función beta.
Existe una relación entre las funciones Beta y Gama:
B(α, β) =
Γ(α)Γ(β)
.
Γ(α + β)
Proposición A.20 Si X ∼ Beta(α, β), entonces:
(a) E(X) =
α
α+β .
(b) E(X 2 ) =
α(α+1)
(α+β+1)(α+β) .
(c) Var(X) =
(d) E(X r ) =
αβ
(α+β)2 (α+β+1) .
Γ(α+r)Γ(α+β)
Γ(α)Γ(α+β+r) .
Nota: no existe forma analı́tica para la función generadora de momentos
para una variable aleatoria con distribución Beta.
343
A.6. Resumen de familias paramétricas
A.6.14.
Normal
Definición A.43 Se dice que la variable aleatoria continua X tiene distribución Normal con parámetros µ ∈ R y σ 2 > 0, se denota X ∼ N (µ, σ 2 ), si
su función de densidad está dada por:
1
1
exp − 2 (x − µ)2 IR (x).
fX (x) = √
2σ
2πσ 2
Proposición A.21 Si X ∼ N (µ, σ 2 ), entonces:
(a) E(X) = µ.
(b) E(X 2 ) = σ 2 + µ2 .
(c) Var(X) = σ 2 .
(d) mX (t) = exp µt + 12 t2 σ 2 .
A.6.15.
t de Student
Definición A.44 Se dice que la variable aleatoria continua X tiene distribución t de Student con k grados de libertad, se denota X ∼ N (µ, σ 2 ), si su
función de densidad está dada por:
fX (x) =
A.6.16.
Γ( k+1
1
2 ) 1
√
k+1 IR (x).
k
Γ( 2 )
kπ 1 + x2 2
k
F de Fisher
Definición A.45 Se dice que la variable aleatoria continua X tiene distribución F de Fisher con parámetros m, n > 0, se denota X ∼ F (m, n), si su
función de densidad está dada por:
m−2
fX (x) =
A.6.17.
m m/2
Γ( m+n
x 2
2 )
I(0,∞) (x).
m
n
m+n
Γ( 2 )Γ( 2 ) n
2
1 + (m
)x
n
Log-Normal
Definición A.46 Se dice que la variable aleatoria continua X tiene distribución Log-Normal con parámetros µ ∈ R y σ 2 ∈ R+ , se denota X ∼
LgN (µ, σ 2 ), si su función de densidad está dada por:
(
2 )
1
1 log(x) − µ
fX (x) = √
exp −
I(0,∞) (x).
2
σ
x 2πσ 2
344
A. Algunos conceptos y resultados de probabilidad
Proposición A.22 Si X ∼ LgN (µ, σ 2 ), entonces:
(a) E(X) = exp µ +
σ2
2
.
(b) E(X 2 ) = exp 2(µ + σ 2 ) .
(c) Var(X) = exp(2µ + σ 2 )[exp(σ 2 ) − 1].
(d) E(X r ) = exp(rµ +
A.6.18.
r2 σ2
2 ).
Logı́stica
Definición A.47 Se dice que la variable aleatoria continua X tiene distribución Logı́stica con parámetros µ ∈ R y σ ∈ R+ , se denota X ∼ Logistic(µ, σ),
si su función de densidad está dada por:
fX (x) =
e−(x−µ)/σ
IR (x).
σ(e−(x−µ)/σ )2
Proposición A.23 Si X ∼ Logistic(µ, σ), entonces:
(a) E(X) = µ.
(b) E(X 2 ) = µ2 +
(c) Var(X) =
A.6.19.
πσ 2
3 .
πσ 2
3 .
Log-logı́stica
Definición A.48 Se dice que la variable aleatoria continua X tiene distribución Log-Logı́stica con parámetros α, λ ∈ R+ , se denota X ∼ log −
Logistic(α, λ), si su función de densidad está dada por:
fX (x) =
λα(λt)α−1
I(0,∞) (x).
(1 + (λt)α )2
Proposición A.24 Si X ∼ log − Logistic(α, λ), entonces
Ln(X) ∼ Logistic(µ = −Ln(λ), σ = 1/α).
345
A.6. Resumen de familias paramétricas
A.6.20.
Pareto
Definición A.49 Se dice que la variable aleatoria continua X tiene distribución clásica de Pareto con parámetros α, σ ∈ R+ , se denota X ∼
P aI(α, σ), si su función de densidad está dada por:
ασ α
I[σ,∞) (x).
xα+1
Proposición A.25 Si X ∼ P aI(α, σ), entonces:
fX (x) =
(a) E(X) =
ασ
α−1 ,
(b) E(X r ) =
si α > 1.
ασ r
α−r ,
(c) Var(X) =
si α > r.
ασ 2
α(α−1)2 (α−2) ,
si α > 2.
Definición A.50 Se dice que la variable aleatoria continua X tiene distribución Pareto tipo II con parámetros α, σ ∈ R+ , se denota X ∼ P aII(α, σ),
si su función de densidad está dada por:
fX (x) =
α
1
I(0,∞) (x).
σ (1 + σx )α+1
Proposición A.26 Si X ∼ P aII(α, σ), entonces:
(a) E(X) =
σ
α−1 ,
(b) E(X r ) =
si α > 1.
Γ(α−r)Γ(r+1)σ r
,
Γ(α)
(c) Var(X) =
ασ 2
α(α−1)2 (α−2) ,
si α > r.
si α > 2.
Proposición A.27 Si X ∼ P aII(α, σ), entonces X − σ ∼ P aII(α, σ).
Proposición A.28 Si X ∼ Beta(α, 1), entonces
1
X
∼ P aI(α, 1).
Definición A.51 Se dice que la variable aleatoria continua X tiene distribución Pareto generalizada con parámetros k, σ ∈ R+ , se denota X ∼
GP a(k, σ), si su función de densidad está dada por:
1
1
kx k−1
fX (x) =
1−
I(0,∞) (x).
σ
σ
Proposición A.29 Si X ∼∼ GP a(k, σ), entonces:
h
r i
1
(a) E 1 − kX
= 1+rk
.
σ
(b) E(X) =
σ
1+k .
(c) Var(X) =
σ2
(1+k)2 (1+2k) ,
si α > 2.
346
A.6.21.
A. Algunos conceptos y resultados de probabilidad
Gaussiana inversa
Definición A.52 Se dice que la variable aleatoria continua X tiene distribución Gaussiana inversa con parámetros µ, λ ∈ R+ , se denota X ∼
IG(µ, λ), si su función de densidad está dada por:
r
fX (x) =
λ
λ
2
exp − 2 (x − µ) I(0,∞) (x).
2πx3
2µ x
Proposición A.30 Si X ∼ IG(µ, λ), entonces:
(a) E(X) = µ.
(b) E(X 2 ) = µ2 (1 + µλ ).
(c) Var(X) =
µ3
λ .
(d) mX (t) = exp
A.6.22.
λ
µ
1−
q
1−
2µ2 t
λ
.
Gompertz
La siguiente distribución la propuso Benjamin Gompertz para ajustar tablas
de mortalidad.
Definición A.53 Se dice que la variable aleatoria continua X tiene distribución Gompertz con parámetros b, c ∈ R+ , se denota X ∼ Gom(b, c), si su
función de densidad está dada por:
fX (x) = be
A.6.23.
cx
b cx
exp − (e − 1) I(0,∞) (x).
c
Makeham
Definición A.54 Se dice que la variable aleatoria continua X tiene distribución Makeham con parámetros a, b, c ∈ R+ , se denota X ∼ M ak(a, b, c),
si su función de densidad está dada por:
b cx
fX (x) = (a + be ) exp −ax − (e − 1) I(0,∞) (x).
c
cx
347
A.6. Resumen de familias paramétricas
A.6.24.
Benktander
Las distribuciones de Benktander (Benktander & Segerdahl (1960), Benktander (1960)) surgen con la idea de encontrar una distribución cuya vida
residual media se encuentre entre las vidas residuales medias de las distribuciones exponencial y de Pareto.
Definición A.55 Se definen las distribuciones de Benktander.
(I) Benktander tipo I (con a > 0, b ∈ (0, 1] y σ > 0):
(
1 − ( σx )−(1−b) exp[− ab (xb − σ b )]
F (x) =
0
si x ≥ σ,
si x < σ.
(II) Benktander tipo II (con a > 0, b ≥ 0 y σ > 0):
(
a+2b log(x) x −a−1
exp[−b(log2 (x) − log2 (σ))]
1 − a+2b
log(σ) ( σ )
F (x) =
0
si x ≥ σ,
si x < σ.
Proposición A.31 Si X tiene una distribución Benktander tipo I, entonces,
(1 + a + 2b log(σ))σ
E(X) =
.
a + 2b log(σ)
Proposición A.32 Si X tiene una distribución Benktander tipo II, entonces,
1
E(X) = σ 1 + b .
aσ
A.6.25.
Gumbel
Definición A.56 Se dice que la variable aleatoria continua X tiene distribución Gumbel con parámetros µ ∈ R y σ > 0, se denota X ∼ Gum(µ, σ),
si su función de densidad está dada por:
x−µ
x−µ
1
exp − exp −
IR (x).
fX (x) = exp −
σ
σ
σ
Proposición A.33 Si X ∼ Gum(µ, σ), entonces:
(a) E(X) = µ − σψ(1).
(b) E(X 2 ) = µ2 +
(c) Var(X) =
π
6σ 2 .
π
6σ 2
− 2σψ(1) + (ψ(1))2 .
348
A. Algunos conceptos y resultados de probabilidad
A.6.26.
Weibull
Definición A.57 Se dice que la variable aleatoria continua X tiene distribución Weibull con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼
W ei(σ, α, µ), si su función de densidad está dada por:
α x−µ
α
I(µ,∞) (x).
fX (x) = α (x − µ)α−1 exp −
σ
σ
Proposición A.34 Si X ∼ W ei(σ, α, µ), entonces:
(a) E(X) = µ + σΓ 1 + α1 .
(b) E(X 2 ) = µ2 + 2σµΓ(1 + α1 ) + σ 2 Γ 1 + α2 .
(c) Var(X) = σ 2 Γ 1 + α2 − Γ2 1 + α1 .
A.6.27.
Fréchet
Definición A.58 Se dice que la variable aleatoria continua X tiene distribución Fréchet con parámetros µ ∈ R, σ > 0 y α > 0, se denota X ∼
F rechet(σ, α, µ), si su función de densidad está dada por:
α σ
α
−α−1
fX (x) = ασ (x − µ)
exp −
I(µ,∞) (x).
x−µ
Proposición A.35 Si X ∼ F rechet(σ, α, µ), entonces:
(a) E(X) = µ + σΓ 1 − α1 .
(b) E(X 2 ) = µ2 + 2σµΓ 1 − α1 + σ 2 Γ 1 − α2 .
(c) Var(X) = σ 2 Γ 1 − α2 − Γ2 1 − α1 .
A.7.
Convergencia
Sean X1, X2 , ... variables aleatorias en (Ω, F, P) y X una variable aleatoria
en el mismo espacio. {Xn }n∈N representa la sucesión de variables aleatorias
X1, X2 , ....
A.7.1.
Convergencia puntual
Definición A.59 La sucesión {Xn }n∈N converge a X ó lı́mn→∞ Xn = X
en Ω, si para todo ε > 0 y ω ∈ Ω, existe nε,ω ∈ N, tal que:
| Xn (ω) − X(ω) |< ε,
Notación: Xn → X.
para todo n ≥ nε,ω .
349
A.7. Convergencia
Convergencia uniforme
Definición A.60 La sucesión {Xn }n∈N converge uniformemente a X ó
lı́mn→∞ Xn = X en Ω, si para todo ε > 0, existe nε , tal que:
| Xn (ω) − X(ω) |< ε,
para todo n ≥ nε y ω ∈ Ω.
u
Notación: Xn −
→X .
Observación A.11 La convergencia puntual es una propiedad local en el
punto ω de la sucesión. En la convergencia uniforme, dado ε ∈ R+ , a partir
de cierto ı́ndice N todas las funciones Xn (ω) estarán comprendidas entre
X(ω) ± ε, para todos los valores de ω. Ası́, la convergencia uniforme implica
la convergencia puntual.
A continuación se hace una revisión de los modos de convergencia más
importantes en la teorı́a de la probabilidad, los cuales además están relacionados con teoremas lı́mite importantes que se usan en la estadı́stica. Se
sugiere consultar textos como Karr (1993), en donde se analizan los resultados asociados a este tema.
A.7.2.
Convergencia casi segura
Definición A.61 Sean {Xn }n∈N y X variables aleatorias en (Ω, F, P). Se
dice que Xn converge casi seguramente o con probabilidad 1 a X, si
existe A ∈ F nulo, es decir P (A) = 0, tal que Xn (ω) → X(ω), para todo
ω ∈ Ac .
c.s.
Notación: Xn −−→ X.
La definición es equivalente a:
n
o
P
ω ∈ Ω : lı́m Xn (ω) = X(ω)
= 1.
n→∞
Que suele escribirse simplemente como:
P lı́m Xn = X = 1.
n→∞
Observación A.12 Este concepto suaviza el de convergencia usual o puntual, el cuál exige la convergencia de Xn (ω) → X(ω), para todo ω ∈ Ω. En la
convergencia casi segura puede haber puntos en los que Xn (ω) no converja a
X(ω), pero estos puntos forman un conjunto de probabilidad
nula. Si A =i ∅,
h
P∞
se tiene convergencia puntual. Resultado: Si n=1 P {| Xn − X |< ε} <
c.s.
∞. Entonces Xn → X.
350
A. Algunos conceptos y resultados de probabilidad
A.7.3.
Convergencia en probabilidad
p
Definición A.62 Se dice que {Xn }n∈N converge en probabilidad a X (Xn −
→
X) si:
lı́m P {ω ∈ Ω :| Xn (ω) − X(ω) |> ε} = 0, para todo ε ∈ R+ .
n→∞
p
Notación: Xn −
→ X.
A.7.4.
Convergencia en r-media (o r-ésima media)
Definición A.63 Se dice que {Xn }n∈N converge en r-media a X, si para
r > 0, se tiene que:
lı́m E[| Xn (ω) − X(ω) |r ] = 0.
n→∞
r
Se denota por Xn −
→ X. Si r = 1, se le llama convergencia en media; si
r = 2, se le llama convergencia en media cuadrática.
A.7.5.
Convergencia en distribución
Definición A.64 Sean {Fn }n∈N y F las funciones de distribución de
{Xn }n∈N y de X, respectivamente. Se dice que {Xn }n∈N converge en distribución a X, si:
lı́m Fn (x) = F (x), para todo x punto de continuidad de F.
n→∞
d
Notación: Xn −
→ X.
Observación A.13 [relación entre los modos de convergencia]. La convergencia casi segura implica la convergencia en probabilidad, la cual a su vez,
implica la convergencia en distribución. La convergencia en r-ésima media
implica también la convergencia en probabilidad. En general, las implicaciones restantes entre los modos de convergencia no se cumplen.
Apéndice B
Tablas de distribuciones
de probabilidad
B.1.
Cuantiles para la distribución normal
estándar
Sea X una variable aleatoria con distribución normal estándar, X ∼ N (0, 1),
su función de distribución acumulativa es:
Z x
2
1
√ e−u /2 du.
Φ(x) = P(X ≤ x) =
2π
−∞
Note que sólo se presentan las tablas para x ≥ 0. Para obtener las probabilidades para x < 0 use la propiedad de simetrı́a tal que Φ(−x) = 1 − Φ(x).
351
352
x
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
B. Tablas de distribuciones de probabilidad
0.0000
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987
0.9990
0.9993
0.9995
0.9997
0.9998
0.0100
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987
0.9991
0.9993
0.9995
0.9997
0.9998
0.0200
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987
0.9991
0.9994
0.9995
0.9997
0.9998
0.0300
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988
0.9991
0.9994
0.9996
0.9997
0.9998
P(X
0.0400
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988
0.9992
0.9994
0.9996
0.9997
0.9998
≤ x)
0.0500
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989
0.9992
0.9994
0.9996
0.9997
0.9998
0.0600
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989
0.9992
0.9994
0.9996
0.9997
0.9998
0.0700
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989
0.9992
0.9995
0.9996
0.9997
0.9998
0.0800
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990
0.9993
0.9995
0.9996
0.9997
0.9998
0.0900
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
0.9998
353
B.2. Cuantiles para la distribución Ji-cuadrada
B.2.
Cuantiles para la distribución Ji-cuadrada
Sea X una variable aleatoria con distribución Ji-cuadrada con k grados de
libertad, X ∼ χ2(k) , su función de distribución acumulativa es:
Z
FX (x) = P(X ≤ x) =
0
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.005
0.000
0.010
0.072
0.207
0.412
0.676
0.989
1.344
1.735
2.156
2.603
3.074
3.565
4.075
4.601
5.142
5.697
6.265
6.844
7.434
8.034
8.643
9.260
9.886
10.520
11.160
11.808
12.461
13.121
13.787
0.010
0.000
0.020
0.115
0.297
0.554
0.872
1.239
1.646
2.088
2.558
3.053
3.571
4.107
4.660
5.229
5.812
6.408
7.015
7.633
8.260
8.897
9.542
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
0.025
0.001
0.051
0.216
0.484
0.831
1.237
1.690
2.180
2.700
3.247
3.816
4.404
5.009
5.629
6.262
6.908
7.564
8.231
8.907
9.591
10.283
10.982
11.689
12.401
13.120
13.844
14.573
15.308
16.047
16.791
0.050
0.004
0.103
0.352
0.711
1.145
1.635
2.167
2.733
3.325
3.940
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.390
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
x
1
uk/2−1 e−u/2 du.
Γ(k/2)2k/2
P(X
0.100
0.016
0.211
0.584
1.064
1.610
2.204
2.833
3.490
4.168
4.865
5.578
6.304
7.042
7.790
8.547
9.312
10.085
10.865
11.651
12.443
13.240
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599
≤ x)
0.900
2.706
4.605
6.251
7.779
9.236
10.645
12.017
13.362
14.684
15.987
17.275
18.549
19.812
21.064
22.307
23.542
24.769
25.989
27.204
28.412
29.615
30.813
32.007
33.196
34.382
35.563
36.741
37.916
39.087
40.256
0.950
3.841
5.991
7.815
9.488
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
0.975
5.024
7.378
9.348
11.143
12.833
14.449
16.013
17.535
19.023
20.483
21.920
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.170
35.479
36.781
38.076
39.364
40.646
41.923
43.195
44.461
45.722
46.979
0.990
6.635
9.210
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
0.995
7.879
10.597
12.838
14.860
16.750
18.548
20.278
21.955
23.589
25.188
26.757
28.300
29.819
31.319
32.801
34.267
35.718
37.156
38.582
39.997
41.401
42.796
44.181
45.559
46.928
48.290
49.645
50.993
52.336
53.672
354
B. Tablas de distribuciones de probabilidad
B.3.
Cuantiles para la distribución t de Student
Sea X una variable aleatoria con distribución t de Student con k grados de
libertad, X ∼ t(k) , su función de distribución acumulativa es:
Z
x
FX (x) = P(X ≤ x) =
−∞
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
∞
0.900
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.282
0.950
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.645
Γ((k + 1)/2)
√
(1 + u2 /k)−(k+1)/2 du
Γ(k/2) πk
P(X ≤ x)
0.975
0.990
12.706
31.821
4.303
6.965
3.182
4.541
2.776
3.747
2.571
3.365
2.447
3.143
2.365
2.998
2.306
2.896
2.262
2.821
2.228
2.764
2.201
2.718
2.179
2.681
2.160
2.650
2.145
2.624
2.131
2.602
2.120
2.583
2.110
2.567
2.101
2.552
2.093
2.539
2.086
2.528
2.080
2.518
2.074
2.508
2.069
2.500
2.064
2.492
2.060
2.485
2.056
2.479
2.052
2.473
2.048
2.467
2.045
2.462
2.042
2.457
1.960
2.326
0.995
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.576
0.999
318.309
22.327
10.215
7.173
5.893
5.208
4.785
4.501
4.297
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.579
3.552
3.527
3.505
3.485
3.467
3.450
3.435
3.421
3.408
3.396
3.385
3.090
B.4. Cuantiles para la distribución F de Fisher
B.4.
355
Cuantiles para la distribución F de
Fisher
Sea X una variable aleatoria con distribución F de Fisher con m y n grados
de libertad, X ∼ F (m, n), su función de distribución acumulativa es:
Z
FX (x) = P(X ≤ x) =
0
P(X ≤ x)
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
n
1
1
1
2
2
2
3
3
3
4
4
4
5
5
5
6
6
6
7
7
7
8
8
8
9
9
9
10
10
10
11
11
11
12
12
12
13
13
13
14
14
14
15
15
15
16
16
16
x
m−2
m m/2
Γ( m+n
u 2
2 )
du
m
n
m+n
Γ( 2 )Γ( 2 ) n
2
1+ m
u
n
m
1
2
3
4
5
6
7
8
161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883
647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656
4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070
18.513
19.000
19.164
19.247
19.296
19.330
19.353
19.371
38.506
39.000
39.165
39.248
39.298
39.331
39.355
39.373
98.503
99.000
99.166
99.249
99.299
99.333
99.356
99.374
10.128
9.552
9.277
9.117
9.013
8.941
8.887
8.845
17.443
16.044
15.439
15.101
14.885
14.735
14.624
14.540
34.116
30.817
29.457
28.710
28.237
27.911
27.672
27.489
7.709
6.944
6.591
6.388
6.256
6.163
6.094
6.041
12.218
10.649
9.979
9.605
9.364
9.197
9.074
8.980
21.198
18.000
16.694
15.977
15.522
15.207
14.976
14.799
6.608
5.786
5.409
5.192
5.050
4.950
4.876
4.818
10.007
8.434
7.764
7.388
7.146
6.978
6.853
6.757
16.258
13.274
12.060
11.392
10.967
10.672
10.456
10.289
5.987
5.143
4.757
4.534
4.387
4.284
4.207
4.147
8.813
7.260
6.599
6.227
5.988
5.820
5.695
5.600
13.745
10.925
9.780
9.148
8.746
8.466
8.260
8.102
5.591
4.737
4.347
4.120
3.972
3.866
3.787
3.726
8.073
6.542
5.890
5.523
5.285
5.119
4.995
4.899
12.246
9.547
8.451
7.847
7.460
7.191
6.993
6.840
5.318
4.459
4.066
3.838
3.687
3.581
3.500
3.438
7.571
6.059
5.416
5.053
4.817
4.652
4.529
4.433
11.259
8.649
7.591
7.006
6.632
6.371
6.178
6.029
5.117
4.256
3.863
3.633
3.482
3.374
3.293
3.230
7.209
5.715
5.078
4.718
4.484
4.320
4.197
4.102
10.561
8.022
6.992
6.422
6.057
5.802
5.613
5.467
4.965
4.103
3.708
3.478
3.326
3.217
3.135
3.072
6.937
5.456
4.826
4.468
4.236
4.072
3.950
3.855
10.044
7.559
6.552
5.994
5.636
5.386
5.200
5.057
4.844
3.982
3.587
3.357
3.204
3.095
3.012
2.948
6.724
5.256
4.630
4.275
4.044
3.881
3.759
3.664
9.646
7.206
6.217
5.668
5.316
5.069
4.886
4.744
4.747
3.885
3.490
3.259
3.106
2.996
2.913
2.849
6.554
5.096
4.474
4.121
3.891
3.728
3.607
3.512
9.330
6.927
5.953
5.412
5.064
4.821
4.640
4.499
4.667
3.806
3.411
3.179
3.025
2.915
2.832
2.767
6.414
4.965
4.347
3.996
3.767
3.604
3.483
3.388
9.074
6.701
5.739
5.205
4.862
4.620
4.441
4.302
4.600
3.739
3.344
3.112
2.958
2.848
2.764
2.699
6.298
4.857
4.242
3.892
3.663
3.501
3.380
3.285
8.862
6.515
5.564
5.035
4.695
4.456
4.278
4.140
4.543
3.682
3.287
3.056
2.901
2.790
2.707
2.641
6.200
4.765
4.153
3.804
3.576
3.415
3.293
3.199
8.683
6.359
5.417
4.893
4.556
4.318
4.142
4.004
4.494
3.634
3.239
3.007
2.852
2.741
2.657
2.591
6.115
4.687
4.077
3.729
3.502
3.341
3.219
3.125
8.531
6.226
5.292
4.773
4.437
4.202
4.026
3.890
356
P(X ≤ x)
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
0.950
0.975
0.990
B. Tablas de distribuciones de probabilidad
n
1
1
1
2
2
2
3
3
3
4
4
4
5
5
5
6
6
6
7
7
7
8
8
8
9
9
9
10
10
10
11
11
11
12
12
12
13
13
13
14
14
14
15
15
15
16
16
16
m
9
10
11
12
13
14
15
16
240.543 241.882 242.983 243.906 244.690 245.364 245.950 246.464
963.285 968.627 973.025 976.708 979.837 982.528 984.867 986.919
6022.473 6055.847 6083.317 6106.321 6125.865 6142.674 6157.285 6170.101
19.385
19.396
19.405
19.413
19.419
19.424
19.429
19.433
39.387
39.398
39.407
39.415
39.421
39.427
39.431
39.435
99.388
99.399
99.408
99.416
99.422
99.428
99.433
99.437
8.812
8.786
8.763
8.745
8.729
8.715
8.703
8.692
14.473
14.419
14.374
14.337
14.304
14.277
14.253
14.232
27.345
27.229
27.133
27.052
26.983
26.924
26.872
26.827
5.999
5.964
5.936
5.912
5.891
5.873
5.858
5.844
8.905
8.844
8.794
8.751
8.715
8.684
8.657
8.633
14.659
14.546
14.452
14.374
14.307
14.249
14.198
14.154
4.772
4.735
4.704
4.678
4.655
4.636
4.619
4.604
6.681
6.619
6.568
6.525
6.488
6.456
6.428
6.403
10.158
10.051
9.963
9.888
9.825
9.770
9.722
9.680
4.099
4.060
4.027
4.000
3.976
3.956
3.938
3.922
5.523
5.461
5.410
5.366
5.329
5.297
5.269
5.244
7.976
7.874
7.790
7.718
7.657
7.605
7.559
7.519
3.677
3.637
3.603
3.575
3.550
3.529
3.511
3.494
4.823
4.761
4.709
4.666
4.628
4.596
4.568
4.543
6.719
6.620
6.538
6.469
6.410
6.359
6.314
6.275
3.388
3.347
3.313
3.284
3.259
3.237
3.218
3.202
4.357
4.295
4.243
4.200
4.162
4.130
4.101
4.076
5.911
5.814
5.734
5.667
5.609
5.559
5.515
5.477
3.179
3.137
3.102
3.073
3.048
3.025
3.006
2.989
4.026
3.964
3.912
3.868
3.831
3.798
3.769
3.744
5.351
5.257
5.178
5.111
5.055
5.005
4.962
4.924
3.020
2.978
2.943
2.913
2.887
2.865
2.845
2.828
3.779
3.717
3.665
3.621
3.583
3.550
3.522
3.496
4.942
4.849
4.772
4.706
4.650
4.601
4.558
4.520
2.896
2.854
2.818
2.788
2.761
2.739
2.719
2.701
3.588
3.526
3.474
3.430
3.392
3.359
3.330
3.304
4.632
4.539
4.462
4.397
4.342
4.293
4.251
4.213
2.796
2.753
2.717
2.687
2.660
2.637
2.617
2.599
3.436
3.374
3.321
3.277
3.239
3.206
3.177
3.152
4.388
4.296
4.220
4.155
4.100
4.052
4.010
3.972
2.714
2.671
2.635
2.604
2.577
2.554
2.533
2.515
3.312
3.250
3.197
3.153
3.115
3.082
3.053
3.027
4.191
4.100
4.025
3.960
3.905
3.857
3.815
3.778
2.646
2.602
2.565
2.534
2.507
2.484
2.463
2.445
3.209
3.147
3.095
3.050
3.012
2.979
2.949
2.923
4.030
3.939
3.864
3.800
3.745
3.698
3.656
3.619
2.588
2.544
2.507
2.475
2.448
2.424
2.403
2.385
3.123
3.060
3.008
2.963
2.925
2.891
2.862
2.836
3.895
3.805
3.730
3.666
3.612
3.564
3.522
3.485
2.538
2.494
2.456
2.425
2.397
2.373
2.352
2.333
3.049
2.986
2.934
2.889
2.851
2.817
2.788
2.761
3.780
3.691
3.616
3.553
3.498
3.451
3.409
3.372
Bibliografı́a
[1] Berger, J. O. and Sellke, T. (1987). Testing a point null hypothesis:
The irreconcilability of p values and evidence. Journal of the American
Statistical Association, 82(397):112–122.
[2] Campbell, N. A. and Mahon, R. J. (1974). A multivariate study of
variation in two species of rock crab of genus Leptograpsus. Australian
Journal of Zoology, 22:417–425.
[3] Canavos, G. C. (2003). Probabilidad y Estadı́stica. Aplicaciones y Métodos. Mc Graw Hill, México.
[4] Casella, G. and Berger, R. L. (2002). Statistical Inference. Duxbury
Advanced Series in Statistics and Decision Sciences. Thomson Learning,
2nd edition.
[5] Conover, W. J. (1999). Practical Nonparametric Statistics. John Wiley
& Sons, 3rd edition.
[6] Contento R., M.R. (2012). Construcción del concepto de intervalo de
confianza mediante simulación en R. Universidad Nacional de Colombia. Tesis para magister en enseñanza de las ciencias exactas y naturales.
[7] Dixit, U. J. (2016). Examples in Parametric Inference with R. Springer,
Berlin.
[8] Efron, B. (1998). R. A. Fisher in the 21st Century. Statistical Science,
13(2):95–114.
[9] Everitt, B. S. (1992). The Analysis of Contingency Tables. Chapman
and Hall/CRC, New York, 2nd edition.
[10] Fisher, R. A. (1935). The Design of Experiments. Oliver & Boyd,
Edinburgh.
357
358
Bibliografı́a
[11] Fisher, S. R. A. (1956). Mathematics of a lady tasting tea. In Newman,
J. R., editor, The World of Mathematics, volume 3, pages 1512–1521.
Simon & Schuster, New York.
[12] Gibbons, J. D. and Chakraborti, S. (2010). Nonparametric Statistical
Inference. CRC Press, New York, 5th edition.
[13] Gómez V., M. A. (2009). Karl Pearson, el Creador de la Estadı́stica
Matemática. In Basulto, J. and Garcı́a, J. J., editors, Historia de la
Probabilidad y la Estadı́stica IV, pages 351–356, Huelva. Congreso Internacional de Historia de la Estadı́stica y la Probabilidad, Servicio de
Publicaciones de la Universidad de Huelva.
[14] Hall, A. R. (2005). Generalized Method of Moments. Advanced Texts
in Econometrics. Oxford University Press, Oxford.
[15] Hogg, R. V., McKean, J., and Craig, A. T. (2014). Introduction to
Mathematical Statistics. Pearson Education International, 7th edition.
[16] Johnson, R. A. and Bhattacharyya, G. K. (2010). Statistics: Principles
and Methods. John Wiley & Sons, 6th edition.
[17] Kapadia, A. S., Chan, W., and Moyé, L. A. (2005). Mathematical Statistics with Applications. Statistics: A Series of Textbooks and Monographs. Chapman & Hall/CRC Press, 1st edition.
[18] Karr, A. F. (2012). Probability. Springer Texts in Statistics. Springer
Science & Business Media, LLC.
[19] Kellison, S. G. and London, R. L. (2011). Risk Models and Their Estimation. ACTEX Academic Series. ACTEX Publications.
[20] Kendall, M. and Stuart, A. (1979). The Advanced Theory of Statistics.
Volume II, Inference and relationship. MacMillan, New York.
[21] Koop, G., Poirier, D. J., and Tobias, J. L. (2007). Bayesian Econometric
Methods. Cambridge University Press.
[22] Lindgren, B. W. (1993). Statistical Theory. Chapman & Hall/CRC
Press, 4th edition.
[23] Lock, R. H. (1993). 1993 new car data. Journal of Statistics Education,
1(1).
[24] Marin, J.-M. and Robert, C. (2007). Bayesian Core: A Practical Approach to Computational Bayesian Statistics. Springer.
359
[25] Mayorga, J.H. (2004). Inferencia Estadı́stica. Universidad Nacional de
Colombia. Unibiblos, 1era. edición.
[26] Mood, A. M., Graybill, F. A., and Boes, D. C. (1974). Introduction to
the Theory of Statistics. Series in Probability and Statistics. Mc Graw
Hill Education, 3rd edition.
[27] Moore, D. S. (2005). Estadı́stica Aplicada Básica. Antoni Bosch, 2da
edition.
[28] Mukhopadhyay, N. (2006). Introductory Statistical Inference. Statistics:
A Series of Textbooks and Monographs. Chapman & Hall/CRC Press,
1st edition.
[29] Newman, J. R. (1956). The World of Mathematics, Vol. III. Simon and
Schuster, New York.
[30] Paul, S., Wang, Y. and Ullah, I. (2019). A review of the Behrens-Fisher
problem and some of its analogs: does the same size fit all? REVSTAT
Statistical Journal volume 17, number 4, 563-597.
[31] Pearson, E. S. (1974). Memories of the impact of Fisher’s work in
the 1920s. International Statistical Review / Revue Internationale de
Statistique, 42(1):5–4.
[32] Rao, C. R. (1997). Statistics and Truth: Putting Chance to Work. World
Scientific, Singapore, 2nd edition.
[33] Reid, N. (2015). Tests of significance. In Wright, J. D., editor, International Encyclopedia of the Social & Behavioral Sciences, volume 21,
pages 957–962. Elsevier, Oxford, 2nd edition.
[34] Rencher, A. C. and Schaalje, G. B. (2008). Linear Models in Statistics.
John Wiley & Sons, 2nd edition.
[35] Ross, S. (2010). A First Course in Probability. Pearson, 9th edition.
[36] Savage, L. J. (1976). On rereading R. A. Fisher. The Annals of Statistics, 4(3):441–500.
[37] Schervish, M. J. (1995). Theory of Statistics. Springer Series in Statistics. Springer.
[38] Schervish, M. J. (1996). P values: What they are and what they are
not. The American Statistician, 50(3):203–206.
360
Bibliografı́a
[39] Snedecor, G. W. (1934). Analysis of Variance and Covariance. Collegiate Press, Ames, Iowa.
[40] Snedecor, G. W. (1937). Statistical Methods. Iowa State College Press.
[41] Stuart, A., Ord, J. K., and Arnold, S. (1999). Vol. 2a: Classical inference
and the linear model. In Kendall’s Advanced Theory of Statistics. Wiley,
London, 6th edition.
[42] Sudhir, P., Wang, Y.-G., and Ullah, I. (2018). A review of the BehrensFisher problem and some of its analogs: Does the same size fit all?
Revstat Statistical Journal.
[43] Velez I., R. and Garcı́a P., A. (2012). Principios de Inferencia Estadı́stica. Universidad Nacional de Educación a Distancia (UNED), 2nd
edition.
[44] Welch, B. L. (1938). The significance of the difference between
two means when the population variances are unequal. Biometrika,
29(3/4):350–362.
[45] Yañez C., S. (2000). La estadı́stica una ciencia del siglo XX. R. A.
Fisher, el genio. Revista Colombiana de Estadı́stica, 23(2):1–14.
[46] Zacks, S. (1971). Theory of Statistical Inference. Probability & Mathematical Statistics Series. John Wiley & Sons.
[47] Zehna, P. W. (1966). Invariance of maximum likelihood estimators. The
Annals of Mathematical Statistics, 37(3):744.
[48] Zsohar, P. (2012). Short introduction to the generalized method of
moments. Hungarian Statistical Review, 16 (Special Number):150–170.
[49] http://www.dm.uba.ar/materias/estadistica M/.
[50] http://www.statslab.cam.ac.uk/˜rrw1/.
Índice analı́tico
AIC, 275
Diagrama de tallo y hojas, 21
Distribución
F, 54
t, 57
t de Student, 343
Bernoulli, 77, 336
Beta, 342
Binomial, 337
Binomial negativa, 338
clásica de Pareto, 345
de Benktander, 347
Exponencial, 340
F de Fisher, 343
Fréchet, 348
Gama, 45, 341
Gama generalizada, 341
Gaussiana inversa, 346
Geométrica, 77, 338
Gompertz, 346
Gumbel, 347
Hipergeométrica, 339
inicial, 126
Ji-cuadrada, 46, 342
Log-Logı́stica, 344
Log-Normal, 343
Logarı́tmica, 339
Logı́stica, 344
Makeham, 346
Normal, 343
Pareto generalizada, 345
Pareto tipo II, 345
Behrens-Fisher, 207
Boxplot, 24
Cantidad pivotal, 189
Clase de estimadores insesgados,
148
Cociente
de verosimilitud, 248
Coeficiente de contingencia, 295
Coeficiente de correlación, 34, 332
Condiciones de regularidad, 149
Consistencia, 144
en ECM, 144
Contrastes
de hipótesis, 227
Convergencia
casi segura, 349
en distribución, 350
en probabilidad, 350
puntual, 348
uniforme, 349
Cota inferior de Cramèr, 154
Covarianza, 332
Criterio de información de Akaike,
275
Cuartiles, 28
Curtosis, 32
Desviación estándar, 30
361
362
Índice analı́tico
Poisson, 77, 337
uniforme continua, 340
uniforme discreta, 336
Weibull, 348
Exponencial, 76
final, 127
posterior, 127
Distribución de la muestra, 8
puntual, 4
Estimación puntual, 105
Estimador
máximo verosı́mil, 114
por el método de momentos,
109
Estimadores
basados en verosimilitud, 112
Eficiencia asintótica, 167
Enfoque Bayesiano, 216
Error
tamaño de, 233
tipo I, 233
tipo II, 233
cuadrático medio, 139
Escala
de intervalo, 13
de razón, 14
nominal, 13
ordinal, 13
Escalas de medición, 13
Espacio de probabilidad, 2, 319
Espacio muestral, 39
Espacio parametral, 4
Espacio paramétrico, 4
Esperanza
condicional, 333
esperanza, 328
Estadı́stica, 1, 39
completa, 84
de prueba, 243
suficiente, 64
Bayesiana, 4
descriptiva, 11
Estadı́sticas
auxiliares, 90
Estadı́sticas de orden, 59
Estimación
por intervalos, 183
por intervalos, 4
Factor de Bayes, 297
Familia de localización y escala, 8
Familia exponencial, 76
Familias conjugadas, 127
Fisher, 55, 107
Frecuencia
relativa, 17
relativa acumulada, 17
Frecuencias, 17
Función
de densidad continua condicional, 327
de densidad de probabilidad,
322
de densidad de probabilidad
conjunta, 325
de densidad de probabilidad
marginal, 326
de densidad discreta condicional, 327
de distribución, 322
de distribución acumulativa,
322
de distribución acumulativa conjunta, 322
de pérdida, 146
generadora de momentos, 330
generadora de momentos conjunta, 334
potencia, 234
de puntaje, 151
Función de verosimilitud, 114
363
Índice analı́tico
Gosset, 58
Grados de libertad, 265
Gráfica
de barras, 18
de pay, 18
Hipótesis
compuesta, 230
estadı́stica, 227
prueba de, 231
simple, 230
Histograma, 21
Independencia, 321
Independencia estocástica, 328
Inferencia Bayesiana, 126
Inferencia estadı́stica, 4
Información
esperada de Fisher, 151
por unidad muestral, 152
Intervalo
para el cociente de varianzas
de poblaciones independientes, 209
para la diferencia de medias
de poblaciones independientes, 204
para la varianza, 203
aleatorio, 185
Intervalo intercuatil, 24
Intervalos
para la media, 201
Intervalos de confianza, 183
para muestras grandes, 211
Lema
Neyman-Pearson, 240
Media
muestral, 27
Mediana
muestral, 27
Medidas
de tendencia central, 27
Medidas de dispersión, 29
Momentos, 329
Muestra, 5
Muestra aleatoria, 6, 8
Muestreo
estratificado, 5
por conglomerados, 5
aleatorio simple, 5
Método
de medianas, 133
de momentos, 106
de mı́nimos cuadrados, 133,
143
de percentiles, 133
Método basado en estadı́sticas suficientes, 196
Método pivotal para intervalos de
confianza, 189
Métodos de estimación, 106
Nivel de significancia, 270
p-value, 268
Partición, 80
Pearson, 48, 106
Percentil, 28
Probabilidad
condicional, 320
total, 321
Propiedad de invarianza, 120
Prueba
de independencia, 286
Ji-cuadrada para bondad de
ajuste, 276
Prueba más potente, 240
Pruebas
de hipótesis, 227
de hipótesis, 296
Pruebas de bondad de ajuste, 275
Pruebas de hipótesis, 4
364
Pruebas más potentes, 240
Pruebas uniformemente más potentes, 248
R, 15
Rango, 31
intercuartil, 31
Razón
de verosimilitudes, 256
Razón monótona
de verosimilitud, 251
Región crı́tica, 231
Región de rechazo, 231
Series de Taylor, 265
Sesgo, 139
muestral, 32
negativo, 32
positivo, 32
Suficiencia minimal, 78
Tablas de contingencia, 286
Tamaño de la prueba, 235
Teorema
de Bayes, 321
de factorización, 70
de Lehmann-Scheffé, 160
de Rao-Blackwell, 159
de Karlin-Rubin, 251, 253
UMVUE, 148
Variable aleatoria, 321
Variables
aleatorias continuas, 325
aleatorias discretas, 324
Varianza, 329
condicional, 333
Varianza asintótica, 167
Varianza muestral, 29
Índice analı́tico
Inferencia estadı́stica para estudiantes de ciencias
editado por la Facultad de Ciencias de la
Universidad Nacional Autónoma de México
se terminó de imprimir el 20 de octubre de 2019
en los talleres de Gráfica Premier, S. A. de C. V.
5 de febrero 2309, San Jerónimo Chicahualco.
C. P. 52170. Metepec. Estado de México.
El tiraje fue de 500 ejemplares
Impresión offset sobre papel Book creamy de 60 g.
En su composición se utilizó tipografı́a
Computern modern 11/13 pts.
El cuidado editorial estuvo a cargo de
Mercedes Perelló Valls
Descargar