A lfonso G arc´ıa P érez.U N ED

Anuncio
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
CUADERNOS
ESTADÍSTICA
ÁREA
DE
DE
APLICADA:
LA
Alfonso Garcı́a Pérez
SALUD
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
c
Copyright 2011
Alfonso Garcı́a Pérez
Fotografı́a de la Portada: Hospital Gregorio Marañón. Madrid
“No está permitida la reproducción total o parcial de este
libro, ni su tratamiento informático, ni la transmisión de
ninguna forma o por cualquier medio, ya sea electrónico,
mecánico, por fotocopia, por registro u otros medios, sin el
permiso previo y por escrito de los titulares del Copyright.
El contenido de este libro está registrado por el autor en el
Registro de la Propiedad Intelectual con el número 16/2005/2564
y protegido por la Ley, que establece penas de prisión además
de las correspondientes indemnizaciones para quien lo plagiara”
Edita: Universidad Nacional de Educación a Distancia
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Prólogo
El presente texto, en formato pdf, corresponde al estudio de las Técnicas
Estadı́sticas Actuales en el Área de la Salud dentro del Máster, Técnicas
Actuales de Estadı́stica Aplicada.
No es un texto autosuficiente sino que se supone que el lector ha estudiado
los temas anteriores del Máster. Con este libro se pretende cubrir una serie de
temas especı́ficos de esta área ası́ como incluir numerosos problemas resueltos,
que proporcionarán al alumno una mejor soltura en el manejo de las técnicas
estadı́sticas aplicadas en esta rama del saber.
En el libro se citarán los textos Estadı́stica Aplicada: Conceptos Básicos
(abreviado por CB), Métodos Avanzados de Estadı́stica Aplicada. Técnicas
Avanzadas (en adelante TA) y Métodos Avanzados de Estadı́stica Aplicada.
Métodos Robustos y de Remuestreo (en adelante MR).
Otras referencias que pueden aparecer son los libros Estadı́stica Aplicada
con BMDP (EABMDP), Estadı́stica Aplicada con SAS (EASAS) y Estadı́stica
Aplicada con R (EAR).
Alfonso Garcı́a Pérez
e-mail: [email protected]
i
ii
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
D
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Índice
1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
1.1.
1.2.
1.3.
1.4.
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . .
Población y Muestra . . . . . . . . . . . . . . . . . . . . . .
Formalización del problema . . . . . . . . . . . . . . . . . .
Tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1. Poblaciones normales . . . . . . . . . . . . . . . . .
1.4.2. Poblaciones binomiales . . . . . . . . . . . . . . . . .
1.5. Métodos de asignación . . . . . . . . . . . . . . . . . . . . .
1.5.1. Grupos de tratamientos permutados aleatoriamente
1.6. Análisis de los resultados . . . . . . . . . . . . . . . . . . .
1.7. Enfoques alternativos . . . . . . . . . . . . . . . . . . . . .
1.7.1. Ensayos cruzados (Crossover trials) . . . . . . . . . .
1.7.2. Meta-Análisis . . . . . . . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2. Análisis de Supervivencia
1
3
4
4
5
10
14
16
18
28
28
32
41
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Tipos de censura . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Distribuciones de tiempo de fallo . . . . . . . . . . . . . . . . .
2.3.1. Algunas distribuciones de tiempo de fallo . . . . . . . .
2.4. Modelos de Regresión . . . . . . . . . . . . . . . . . . . . . . .
2.4.1. Modelos de regresión Exponencial y Weibull . . . . . . .
2.4.2. Modelo de Azar Proporcional . . . . . . . . . . . . . . .
2.4.3. Modelo de Tiempo de Fallo Acelerado . . . . . . . . . .
2.5. Estimación de la función de supervivencia . . . . . . . . . . . .
2.5.1. Estimador de Kaplan-Meier (Método del lı́mite-producto)
2.5.2. Método de la tabla de supervivencia . . . . . . . . . . .
2.6. Comparación de curvas de supervivencia . . . . . . . . . . . . .
2.6.1. Test de Savage de rangos logarı́tmicos . . . . . . . . . .
2.7. Análisis de Supervivencia con SAS . . . . . . . . . . . . . . . .
2.7.1. Procedimiento LIFETEST . . . . . . . . . . . . . . . . .
Especificaciones del procedimiento LIFETEST . . . . .
iii
41
42
44
45
48
48
49
50
51
51
52
53
53
55
55
56
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Opciones en PROC LIFETEST . . . . . . . .
Sentencias especı́ficas en PROC LIFETEST .
2.7.2. Procedimiento LIFEREG . . . . . . . . . . .
Especificaciones del procedimiento LIFEREG
2.7.3. Procedimiento PHREG . . . . . . . . . . . .
Especificaciones del procedimiento PHREG .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . .
. . . . .
AaBb .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
. 91
. 92
. 95
. 98
. 99
. 103
3. Estimación de Haplotipos y de su riesgo
3.1. Conceptos de Genética . . . . . . . . . . . . . . . .
3.2. Genotipos y Haplotipos . . . . . . . . . . . . . . .
3.3. Asignación de haplotipos a individuos con genotipo
3.3.1. Asignación de haplotipos . . . . . . . . . .
3.4. Comparación de poblaciones: Regresión Logı́stica .
3.4.1. Regresión Logı́stica . . . . . . . . . . . . . .
4. Bioinformática: Técnicas Machine Learning
56
57
75
75
80
80
91
105
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2. Árboles de Clasificación y Regresión (Classification and Regression Trees, CARTs) . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2.1. Construcción de un Árbol . . . . . . . . . . . . . . . . . 106
4.2.2. Árboles óptimos . . . . . . . . . . . . . . . . . . . . . . 112
4.3. Bosques Aleatorios (Random Forests, RFs) . . . . . . . . . . . 116
4.4. Árboles de Regresión Lógica . . . . . . . . . . . . . . . . . . . . 119
4.5. Regresión a Trazos Adaptativa Multivariante (Multivariate Adaptive Regression Splines, MARS) . . . . . . . . . . . . . . . . . . 122
5. Problemas Básicos Resueltos
125
6. Problemas Avanzados Resueltos
213
iv
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1
Fundamentos Estadı́sticos de
los Ensayos Clı́nicos
1.1.
Introducción
Solemos referirnos a los ensayos o pruebas clı́nicas como a experimentos
realizados con personas con objeto de valorar si un nuevo tratamiento es efectivo en la curación de una determinada enfermedad.
Y aunque tengamos en mente esta definición cuando hablemos de los ensayos clı́nicos, también se utiliza esta denominación cuando los experimentos
no se refieran a personas o los tratamientos no sean, necesariamente, medicamentos; éstos deberán entenderse en un sentido amplio, como por ejemplo,
procedimientos quirúrgicos, o nuevos programas de diagnóstico, etc. De hecho,
este tipo de pruebas también se aplican en otras áreas distintas de las Ciencias
de la Salud, tales como la Agricultura o la Industria.
Básicamente, los ensayos clı́nicos no son más que experimentos, realizados
de acuerdo con unas determinadas pautas estadı́sticas, mediante los cuales
comparamos dos o más poblaciones. No obstante, es en el campo de las Ciencias
de la Salud en donde más se han utilizado estas técnicas, razón por la que las
estudiaremos desde esta perspectiva.
Si sólo tenemos dos poblaciones, a la población a la que aplicamos el nuevo tratamiento se la denomina grupo tratamiento y a la población a la que
aplicamos el tratamiento estándar o ningún tratamiento, grupo control. Si a
esta segunda población no se le va a aplicar ningún tratamiento, por razones
psicológicas, a sus individuos se le administra un falso tratamiento, sin ningún
efecto, denominado placebo.
En principio, a ambas poblaciones se les debe aplicar los tratamientos simultáneamente y además, los individuos deben ser asignados a uno u otro
grupo aleatoriamente, para evitar sesgos en las conclusiones. No obstante, ve1
D
2
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
remos más adelante que no siempre ocurre ası́.
Aunque los ensayos clı́nicos, entendidos éstos en un sentido amplio del
término, han estado presentes a lo largo de la Historia de la Humanidad 1
2 , la introducción de la Estadı́stica como método cientı́fico a utilizar en la
comparación de tratamientos, se remonta a la segunda guerra mundial.
Ejemplo 1.1
A continuación damos una tabla con tres ejemplos de ensayos clı́nicos reales
Enfermedad
Arteria coronaria obstructiva
(Appelman et al., 1996)
Profilaxis de citomegalovirus
(CMV) en pacientes
trasplantados de hı́gado
(Winston et al., 1995)
Hipocalcaemia neonatal
(Cockburn et al., 1980)
Diabetes mellitus en la
infancia y la adolescencia
(Hackett et al., 1989)
Grupo Tratamiento
Angioplastia coronaria
con láser
Ganciclovir
Grupo Control
Angioplastia con
bomba
Altas dosis de
Aciclovir
Suplementos de vitamina D
antes del nacimiento
Clases de educación especial
además de las visitas
clı́nicas habituales
Suplementos de
placebo
Sólo las habituales
visitas clı́nicas
cuyas referencias aparecen en la Bibliografı́a al final del texto.
Podemos decir que en los ensayos clı́nicos hay dos grandes etapas. En un
primer paso debemos elegir los individuos, cuya observación dará origen a los
datos, de forma muy precisa, puesto que éstos serán la materia prima a utilizar
en la segunda parte, dedicada al Análisis de los Resultados.
Esta segunda parte fue, básicamente, estudiada en CB ya que, está basada
en la utilización de Intervalos de Confianza, Tests de Hipótesis, Análisis de la
Varianza y Análisis de la Covarianza, razón por la cual, y aunque su peso es
igual o mayor que la primera parte, no será estudiada aquı́ con detalle.
A cambio, nos concentraremos en estudiar la primera parte de la toma de
datos en las secciones 1.2, 1.4 y 1.5, concluyendo el capı́tulo con la sección 1.7,
en la que se analizan otros enfoques de interés en los ensayos clı́nicos.
En resumen, este capı́tulo sirve de complemento y profundización en una
herramienta, los ensayos clı́nicos, cada vez más utilizada, especialmente, en la
Ciencias de la Salud.
1 Con objeto de curar las heridas sufridas en la batalla por la toma del castillo francés de Villaine en
1537, Ambroise Paré concluyó que el tratamiento consistente en un digestivo compuesto por yemas
de huevo, aceite de rosas y trementina, mejoraba el tradicional tratamiento con aceite hirviendo.
(Packard, 1921, páginas 27 y 163.)
2 Con objeto de curar el escorbuto en los marineros de los barcos,
n 1747,
Jamestrató
Lind ae
pacientes con vinagre de sidra (elixir vitriol), nuez moscada y agua 47517(s)-484.274(c15.446208771(a)4.28236,(a)4.28236y(o)4.205736(d)3.08771
D
6
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
P ot(λ) = P







Z > zα/2 − r


= 1 − Φ
zα/2 − r
λ
σ12
n1
+
σ22
n2
λ
σ12
n1
+
σ22
n2







+P









Z < −zα/2 − r


 + Φ−zα/2 − r


λ
σ12
n1
λ
σ12
n1
+
σ22
n2
+
σ22
n2











0.6
0.4
0.2
Pot(lambda)
0.8
1.0
siendo Z una variable aleatoria con distribución N (0, 1) y Φ su función de
distribución.
-2
-1
0
1
2
lambda
Figura 1.1 : Funciones de potencia para n1 = n2 = 20 (lı́nea continua), n1 =
n2 = 40 (lı́nea con puntos y curvas), n1 = n2 = 80 (lı́nea con puntos y curva
continua sobrepuesta)
Observemos que en la expresión acabada de obtener para la potencia del
test conocemos todos sus elementos, por lo que tenemos una función de λ que
hemos denominado P ot(λ). Por ejemplo, si suponemos α = 0′ 05 (con lo que
es zα/2 = 1′ 96) y σ1 = σ2 = 1, la figura 1.1 muestra como a medida que
aumentamos el tamaño muestral, aumenta la potencia del test.
D
7
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
Ası́, para n1 = n2 = 20 tenemos la lı́nea continua; para n1 = n2 = 40
tenemos la lı́nea formada con puntos y curvas que no se sobreponen (potencia
siempre mayor que la anterior sea cual sea el valor de λ) y, por último, en el
caso de sea n1 = n2 = 80 tenemos la lı́nea con puntos y curva sobrepuesta que
muestra una potencia siempre mayor que en los dos casos anteriores, sea cual
sea el valor de λ.
En todos los casos, la función de potencia toma un valor igual al nivel de
significación para el valor de λ igual a la hipótesis nula que estemos considerando (en este caso λ = 0) y además, para este tipo de test, aumenta cuando
nos alejamos de dicha hipótesis nula.
Si denominamos λM a la mı́nima diferencia clı́nica importante, es decir,
si consideramos irrelevantes los valores de λ < λM , y además, sin pérdida de
generalidad suponemos λM > 0 (si no fuera ası́ se intercambiarı́an los papeles
de µ1 y µ2 ), sólo nos van a interesar los λ > λM > 0, por lo que, si despreciamos
el último término de la ecuación de P ot(λ) (cosa que podemos hacer por ser
λM > 0), será


P ot(λM ) = 1 − Φ
zα/2 − r
λM
σ12
n1
+
σ22
n2




 < 1 − Φzα/2 − r


λ
σ12
n1
+
σ22
n2


 = P ot(λ)

con lo que si deseamos que nuestro test de nivel α tenga, al menos, una potencia determinada 1 − β, la ecuación de la que debemos determinar el tamaño
muestral de nuestro ensayo clı́nico será


es decir,
1 − β < 1 − Φ
zα/2 − r


Φ
zα/2 − r
o bien (por ser z1−β = −zβ ),
zα/2 − r
es decir,
λM
σ12
n1
+
σ22
n2
λM
σ12
n1
+
σ22
n2

λM
σ12
n1
+


2 
σ2
n2


<β

< Φ−1 (β) = −zβ
D
8
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
r
λM
σ12
n1
+
σ22
n2
> zα/2 + zβ
o lo que es lo mismo,
s
σ12 σ22
λM
+
<
.
n1 n2
zα/2 + zβ
[1.1]
Suponiendo un tamaño muestral total n = n1 + n2 fijo, como la función
h(n2 ) =
s
σ2
σ12
+ 2
n − n2 n2
alcanza su mı́nimo para
n2 =
n σ2
σ1 + σ2
y por tanto, para
n1 = n − n2 =
n σ1
σ1 + σ2
de la ecuación [1.1] tendremos que deberá ser
s
σ12
σ22
+
<
σ1 n/(σ1 + σ2 ) σ2 n/(σ1 + σ2 )
s
σ12 σ22
λM
+
<
n1 n2
zα/2 + zβ
con lo que del primer y último miembro de la desigualdad anterior, tenemos
que deberá ser
s
es decir,
(σ1 + σ2 )2
λM
<
n
zα/2 + zβ
n>
(σ1 + σ2 )2 (zα/2 + zβ )2
.
λ2M
Ası́ pues, el tamaño muestral mı́nimo para un test como el aquı́ considerado de comparación de dos poblaciones normales independientes de varianzas
conocidas (y supuesto que no se considere el término antes despreciado), será
n0 =
(σ1 + σ2 )2 (zα/2 + zβ )2
λ2M
D
9
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
supuesto un nivel de significación α y una potencia mı́nima deseada 1 − β.
Y de ahı́, la asignación (allocation), es decir, el reparto del tamaño muestral
entre las dos poblaciones deberá ser igual a
n1 =
n 0 σ1
σ1 + σ2
n2 =
n 0 σ2
.
σ1 + σ2
En el caso particular de que sea σ1 = σ2 = σ, el mı́nimo tamaño muestral
requerido será igual a
n0 =
4 σ 2 (zα/2 + zβ )2
λ2M
y n1 = n2 = n0 /2, fórmulas habitualmente utilizadas por los usuarios de estos
métodos y, como hemos visto, sólo válida en unos supuestos muy particulares
que acabamos de especificar. En otras condiciones (hipótesis unilaterales, poblaciones no normales, varianzas desconocidas, muestras pequeñas, etc.) el tamaño muestral mı́nimo será otro; además, si no es posible despreciar el término
no considerado habrá que resolver las ecuaciones por métodos numéricos.
Con objeto de no exponer todas las posibles situaciones recomendamos al
lector consultar a un estadı́stico si quiere obtener una expresión exacta para
su situación particular.
Ejemplo 1.3
En 1998 se llevó a cabo un ensayo clı́nico (MIST Study Group, 1998) para tratar de establecer
algún tipo de efectividad (positiva o negativa) del zanamivir, un nuevo tratamiento para la
gripe, comparando el grupo tratado con este medicamento a un grupo control tratado con
placebo.
Los investigadores decidieron que la variable de interés serı́a el número de dı́as trascurridos
hasta la disminución apreciable de los sı́ntomas, para la cual consideraron como razonable
admitir una distribución normal en ambas poblaciones. Además, un estudio previo habı́a
establecido como razonables el valor σ = 2′ 75 dı́as para la desviación tı́pica común y el valor
λM = 1 dı́a para la mı́nima diferencia clı́nica importante.
Como los investigadores utilizaron en su análisis un nivel de significación α = 0′ 05 y deseaban
alcanzar con su test una potencia mı́nima del 90 %, el tamaño muestral mı́nimo deberá ser
n0 =
4 σ 2 (zα/2 + zβ )2
4 · 2′ 752 · (1′ 96 + 1′ 28)2
=
= 317′ 55
2
λM
12
al ser zα/2 = z0′ 025 = 1′ 96 y zβ = z0′ 1 = 1′ 28.
Por tanto, el tamaño muestral de ensayo deberá ser n0 = 318 y los individuos a elegir de
cada grupo (la asignación), n1 = n2 = n0 /2 = 159.
D
12
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
no dependiente de p1 . Esta transformación de la variable se denomina transformación angular.
Tamaño muestral del ensayo
Ya estamos en condiciones de determinar el tamaño muestral del ensayo
en el caso de dos poblaciones binomiales X1 ; B(1, p1 ) y X2 ; B(1, p2 ) y en
el que contrastamos la hipótesis nula H0 : p1 = p2 .
En este caso, si el tamaño muestral del ensayo clı́nico en cada población es
suficientemente grande, el estadı́stico p̂1 tendrá como distribución aproximada

p̂1 ; N p1 ,
s

p1 (1 − p1 ) 
n1
por lo que, por la transformación angular será
p
√
arc-sen( p1 ) ,
1
√
2 n1
!
p
√
arc-sen( p2 ) ,
1
√
2 n2
!
arc-sen( p̂1 ) ; N
y, análogamente, será
arc-sen( p̂2 ) ; N
y, por tanto, como contrastar H0 : p1 = p2 es equivalente a contrastar H0 :
√
√
√
√
arc-sen( p1 ) = arc-sen( p2 ), es decir H0 : arc-sen( p1 ) − arc-sen( p2 ) = 0,
podemos utilizar el estadı́stico de contraste
arc-sen(
p
p̂1 ) − arc-sen(
p
p̂2 ) ; N
√
r
√
arc-sen( p1 ) − arc-sen( p2 ) ,
1
1
+
4 n1
4 n2
aceptando H0 : p1 = p2 cuando y sólo cuando sea
arc-sen(
p
p̂1 ) − arc-sen(
p
p̂2 ) ∈ −zα/2
r
1
1
+
, zα/2
4 n1
4 n2
r
1
1
+
.
4 n1
4 n2
Respecto a la potencia del test, que es lo que nos ocupa, frente a una
alternativa p1 = π1 , p2 = π2 , será
arc-sen(
p
p̂1 ) − arc-sen(
p
p̂2 ) ; N
√
√
arc-sen( π1 ) − arc-sen( π2 ) ,
r
1
1
+
4 n1
4 n2
con lo que, haciendo exactamente los mismos cálculos que en la sección anterior, el tamaño muestral mı́nimo del ensayo de tamaño α, para una potencia
1 − β será
D
13
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
n0 =
(zα/2 + zβ )2
√
√
(arc-sen( π1 ) − arc-sen( π2 ))2
y los de cada población n1 = n2 = n0 /2, y todo esto suponiendo que los
tamaños muestrales van a ser suficientemente grandes como para que sea válida la aproximación normal, suponiendo además que podemos despreciar el
término de la función de potencia que comentamos más arriba.
Ejemplo 1.4
En un trabajo llevado a cabo por Smith y otros en 1994 se pretendı́a comparar dos métodos
de tratamiento de una obstrucción maligna del conducto biliar inferior. Uno se realizaba con
cirugı́a mediante un bypass biliar y el otro mediante una inserción endoscópica.
La comparación de ambos métodos se pretendı́a llevar a cabo mediante la realización de
un ensayo clı́nico en el que se observara si el paciente no habı́a fallecido a los 30 dı́as de
finalizado el tratamiento.
El modelo matemático con el que formalizarı́amos el ensayo se basarı́a en la observación
de dos variables dicotómicas X1 ; B(1, p1 ) y X2 ; B(1, p2 ) las cuales tomarı́an el valor
1, éxito, en el caso de que el individuo tratado, respectivamente, con el método 1 ó 2,
sobreviviera. Los dos métodos se considerarı́an equivalentes si se pudiera aceptar la hipótesis
nula de igualdad de las probabilidades de éxito H0 : p1 = p2 .
El equipo de Smith et al. (1994) consideró un nivel de significación 0′ 05, y una potencia del
95 % para detectar un cambio en la tasa de mortalidad del 20 % al 5 %.
La fórmula a emplear será, por tanto,
n0 =
(zα/2 + zβ )2
√
√
(arc-sen( π1 ) − arc-sen( π2 ))2
√
√
en donde zα/2 = z0′ 05/2 = z0′ 025 = 1′ 96, zβ = z0′ 05 = 1′ 645, arc-sen( π1 ) = arc-sen( 0′ 2) =
√
√
′
′
0 4636 y arc-sen( π2 ) = arc-sen( 0′ 05) = 0 2255, con lo que obtendremos un tamaño
muestral del ensayo igual a
n0 =
(zα/2 + zβ )2
(1′ 96 + 1′ 645)2
=
= 229′ 21
√
√
(arc-sen( π1 ) − arc-sen( π2 ))2
(0′ 4636 + 0′ 2255)2
con lo que el tamaño del ensayo clı́nico (si queremos obtener, al menos, la potencia deseada) deberá ser de n0 = 230 individuos (a medida que aumentamos el tamaño del ensayo
aumentamos la potencia).
La afijación (el número de individuos a aplicar cada uno de los dos tratamientos) será de
n1 = n2 = n0 /2 = 115.
Como muestra de que, en cuanto el tamaño del ensayo clı́nico sea un poco grande, podemos
despreciar sin problemas el término que comentamos más arriba, éste es en el caso de dos
poblaciones binomiales igual a

Φ −zα/2 −
√
Φ

arc-sen( π1 ) − arc-sen( π2 ) 
que con los datos del ejemplo es igual a
q
0′ 2381
−1 96 − p
′
√
1
230
1
4 n1
!
+
1
4 n2
= 0′ 0000000127.
D
14
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Observemos, por último, que si ahora quisiéramos detectar un cambio en la tasa de mortalidad del 50 % al 35 %, en lugar del 20 % al 5 %, el tamaño del ensayo serı́a
n0 =
(1′ 96 + 1′ 645)2
(1′ 96 + 1′ 645)2
√
√
= ′
= 560′ 17
(0 7854 + 0′ 6331)2
(arc-sen( 0′ 5) − arc-sen( 0′ 35))2
es decir, mucho mayor que antes, aunque la diferencia entre ambas tasas de mortalidad siga
siendo del 15 %.
1.5.
Métodos de asignación
Una vez determinado el tamaño muestral n0 que debe tener el ensayo
clı́nico para alcanzar una potencia determinada, una cuestión de sumo interés
es el de la asignación (a veces denominada afijación), consistente en el reparto
de los n0 individuos entre las poblaciones a comparar; es decir, supuesto que
sólo comparamos dos poblaciones, ¿cuántos individuos de los n0 deben formar
el grupo tratamiento? (los restantes pasarán a formar parte del grupo control)
y, ¿cómo se asignará a los pacientes uno u otro tratamiento?
Una respuesta obvia serı́a la de ir tirando una moneda y si sale cara el individuo irı́a, por ejemplo, al grupo tratamiento y si sale cruz, al grupo control.
Esto harı́a que posiblemente el tamaño de la asignación de cada uno de
los dos grupos no fuera el mismo y eso, implicarı́a una pérdida de potencia.
Además, con objeto de evitar posibles sesgos no deseados en los resultados,
es muy recomendable que el paciente no conozca qué tratamiento se le aplica
(single-blind trial), de ahı́ la utilización de placebos, aunque, por otro lado,
últimamente se habla del efecto placebo como una mejora subjetiva del paciente, recomendándose también comparar dos poblaciones, una tratada con
placebo y otra no tratada con nada, para averiguar si realmente existe este
efecto placebo.
También es muy recomendable que el médico desconozca qué tratamiento
se le va a aplicar a cada paciente en concreto, con objeto de evitar de nuevo
posibles sesgos (double-blind trial).
Centrándonos en la potencia del test para la comparación de dos poblaciones normales, como el que vimos en la sección anterior, en el caso de que
fuera σ1 = σ2 = λ, serı́a

P ot(n1 ) = 1 − Φ zα/2 − q
1
1
n1
+
1
n0 −n1

s
 = Φ
función que si derivamos e igualamos a cero,

n1 (n0 − n1 )
− zα/2 
n0
D
15
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
s
P ot′ (n1 ) = φ 

(n0 − 2 n1 )/n0
n1 (n0 − n1 )
− zα/2  · p
=0
n0
2 n1 (n0 − n1 )/n0
0.4
0.0
0.2
Pot(n1)
0.6
0.8
vemos que sólo se va a anular cuando el segundo factor sea cero (la función de
densidad φ de la normal no se anula nunca); es decir, cuando sea n1 = n0 /2,
valor que corresponde a un máximo de la función.
La figura 1.2 muestra el caso de que sea α = 0′ 05 y n0 = 30; como se ve, la
potencia crece a medida de que n1 crece, alcanzando su máximo en n0 /2 = 15,
decreciendo a continuación.
0
5
10
15
20
25
30
n1
Figura 1.2 :Potencia en función de la asignación, para el caso de poblaciones
normales
Por tanto, si a los individuos que se van incorporando al ensayo, los vamos
asignando a uno u otro grupo al azar de forma independiente y equiprobable y
resulta una asignación desigual, es decir, no balanceada, estaremos perdiendo
potencia en el test. Tampoco podremos finalizar las asignaciones de forma no
aleatoria cuando hayamos llegado a la mitad del tamaño muestral del ensayo
(es decir, si el ensayo debe tener tamaño muestral n0 = 30 y ya hemos asignado
15 individuos al grupo control y 13 al grupo tratamiento, no debemos asignar
D
16
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
a los dos últimos al grupo tratamiento), puesto que no estarı́amos ante una
asignación completamente aleatoria.
En el siguiente apartado veremos algunas maneras de realizar la asignación
de forma aleatoria, manteniendo una asignación igual. Apuntamos, no obstante que, salvo que la asignación sea muy desproporcionada, no se perderá mucha
potencia y, en ocasiones puede que hasta sea conveniente el considerar un ensayo no balanceado, como por ejemplo cuando probamos un nuevo tratamiento
y deseamos obtener mucha información sobre él; en esta situación tomamos
más individuos de la población a la que aplicamos el nuevo tratamiento que
de la otra población y luego calculamos la potencia del ensayo clı́nico para ver
si no ha disminuido de la mı́nima deseada.
1.5.1.
Grupos de tratamientos permutados aleatoriamente
Si queremos comparar dos tratamientos y el tamaño de nuestro ensayo
clı́nico se fijó en n0 = 6 individuos, de forma que deseamos aplicar cada uno
de los dos tratamientos a tres individuos para tener un experimento balanceado, uno puede pensar en asignar uno de los dos tratamientos al individuo que
se incorpora al ensayo mediante un mecanismo de azar equivalente a lanzar
una moneda, el cual puede consistir en elegir una muestra aleatoria de tamaño
6 de una binomial B(1, 0′ 5). Si se utiliza el software del curso ejecutando (1),
obtendrá secuencias como la dada en (2), que lleva a aplicar al primer individuo incorporado al estudio, el tratamiento denominado 1, al segundo paciente
incorporado al estudio el otro tratamiento, denominado 0, y ası́ sucesivamente,
aplicando a cuatro pacientes el tratamiento 1 y a cuatro el 0, con lo que no
tendrı́amos un ensayo no balanceado.
> rbinom(6,1,0.5)
[1] 1 0 1 0 0 0
(1)
(2)
Una forma alternativa de asignar de forma aleatoria y equiprobable los dos
tratamientos a los 6 individuos del estudio según vayan llegando, obteniendo
además un ensayo balanceado, es la de escribir primero todas las posibles
alternativas de colocar tres unos y tres ceros. Éstas serán las permutaciones
con repetición de 6 elementos, uno de los cuales se repite 3 veces y otro 3 veces
(véase CB-sección 3.6); su número es
RP63,3 =
y su expresión
6!
= 20
3! 3!
D
17
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
1.
4.
7.
10.
13.
16.
19.
111000
110001
101001
100011
001101
010101
011010
2.
5.
8.
11.
14.
17.
20.
110100
101100
100110
000111
001110
010110
011100
3.
6.
9.
12.
15.
18.
110010
101010
100101
001011
010011
011001
ahora elegirı́amos al azar de forma equiprobable uno de los 20 números y si
obtenemos, por ejemplo, el 15 = {0, 1, 0, 0, 1, 1}, irı́amos aplicando a los individuos que se fueran incorporando al ensayo la secuencia de tratamientos
número 15; es decir, al primer individuo que se incorpore al ensayo le aplicaremos el tratamiento 0, al segundo el tratamiento 1, y ası́ sucesivamente hasta
el sexto, al cual le aplicarı́amos el tratamiento 1.
El conjunto de 20 secuencias como las anteriores se denomina grupo de
tratamientos permutados aleatoriamente, en este caso, de longitud 6. En inglés
suelen denominarse random permuted blocks, pero esta denominación podrı́a
confundirse con un tipo de Diseño de Experimento, sobre el que hablaremos
más tarde.
Como el número de individuos a los que se aplicará el ensayo clı́nico suele
ser elevado, suelen utilizarse grupos de tratamientos permutados aleatoriamente de longitud 4, cuyo número serı́a
RP42,2 =
4!
=6
2! 2!
y su expresión
1. 1100
4. 0011
2. 1001
5. 0110
3. 1010
6. 0101
sorteando después, de forma equiprobable, los números {1, 2, 3, 4, 5, 6} hasta
formar una muestra del tamaño requerido por el ensayo clı́nico.
Ası́ por ejemplo, si queremos que nuestro ensayo tenga un tamaño muestral
igual a 20 individuos elegirı́amos primero de forma equiprobable e independiente cinco números de entre {1, 2, 3, 4, 5, 6} y si obtenemos, por ejemplo, los
números 1, 4, 2, 1, 3, encadenarı́amos una sucesión de tratamientos de módulo
4, según los números seleccionados, resultando la siguiente sucesión de tratamientos a aplicar:
1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0
Es decir, al primer y segundo individuos incorporado al estudio se le aplica
el tratamiento 1, al tercero el tratamiento 0 y ası́ sucesivamente, hasta el
vigésimo individuo que se le aplicarı́a el tratamiento 0.
D
18
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Por supuesto existen otras posibles longitudes de grupos de tratamientos
permutados aleatoriamente, dependiendo del número de individuos a seleccionar finalmente.
Además, existen más variaciones sobre esta cuestión que no analizaremos
con detalle, como por ejemplo, para evitar el posible sesgo que supone que el
doctor sepa que tratamiento le va a aplicar al último paciente de un modulo;
ası́ por ejemplo, si estamos utilizando una serie de tratamientos de modulo
4, una vez que sepa el doctor el tratamiento que se les ha aplicado a los tres
primeros pacientes de la serie, dado que debe haber dos pacientes a los que se
les aplica cada uno de los dos tratamientos, sabrá con certeza qué tratamiento
se le va a aplicar a este último paciente. Esto se soluciona con los denominados grupos de tratamientos permutados aleatoriamente de longitud aleatoria
los cuales consisten en combinar aleatoriamente dos grupos de tratamientos de
longitud fija como los anteriormente descritos. Ası́ por ejemplo, se sortea primero con probabilidad 0′ 5 si se utiliza un grupo de tratamientos permutados
aleatoriamente de longitud 4 o de longitud 6; una vez seleccionado el grupo se
aplica el método antes descrito, con lo que no se tendrá conocimiento exacto
de cuál es el tratamiento que viene a continuación puesto que el médico no
sabrá qué longitud tiene el grupo de tratamientos.
Por último, en el caso de que se esté considerando un Diseño por Bloques
3 aleatorizados (véase CB-sección 8.3) con el que eliminar una fuente de variación adicional no deseada del material soporte (en el caso de los ensayos
clı́nicos, una fuente de variación adicional no deseada debida a los individuos),
habrá de elegir una serie de grupos de tratamientos permutados aleatoriamente
en cada uno de los bloques.
1.6.
Análisis de los resultados
En las secciones anteriores hemos determinado cuál deberı́a ser el tamaño
de la muestra a utilizar en un ensayo clı́nico; también hemos analizado cómo
debı́a dividirse ese tamaño muestral entre los grupos a comparar, e inclusive
hemos estudiado cómo debı́an elegirse los individuos del ensayo, de forma que
no se produjeran sesgos en los resultados.
Hasta ahora, en toda esta primera parte del capı́tulo, nuestros esfuerzos
han ido encaminados en obtener unos datos lo más representativos posible de
las poblaciones que querı́amos comparar, de forma que la materia prima fuera
de la mejor calidad.
El análisis de esos resultados obtenidos constituye la segunda parte del
ensayo clı́nico y, posiblemente, la más importante. No obstante, esta sección
será breve puesto que la mayorı́a de los Métodos Estadı́sticos a utilizar en el
3 también
denominados en ocasiones estratos
D
19
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
mencionado análisis fueron ya estudiados en CB, por lo que no volveremos
a revisarlos aquı́. Entre ellos podemos destacar los Intervalos de Confianza
(CB-capı́tulo 6), los cuales deberán ser aplicados según las diversas situaciones
(supuestas) que dieron origen a los datos obtenidos (poblaciones normales o no
necesariamente normales, muestras pequeñas o grandes, varianzas conocidas
o desconocidas, iguales o no, ...).
No obstante, la herramienta estadı́stica más utilizada será, sin duda, el
Contraste de Hipótesis (CB-capı́tulo 7) con la que podremos comparar las dos
poblaciones en estudio.
Si tenemos más de dos poblaciones (tratamientos) a comparar, la técnica
del Análisis de la Varianza (CB-capı́tulo 8) en sus diversas modalidades (Diseño Completamente Aleatorizado, Diseño por Bloques, Diseño de Cuadrado
Latino, ...) será el Método Estadı́stico adecuado a utilizar.
Por último, si existe información relevante que desea ser incorporada en el
análisis estadı́stico, de forma que no se distorsionen los resultados al partir los
individuos seleccionados de condiciones (relacionadas con el ensayo) distintas,
nos valdremos del Análisis de la Covarianza (CB-capı́tulo 11).
Por tanto, los mencionados capı́tulos de CB contienen análisis de ensayos
clı́nicos que pueden ser revisados.
Lo que haremos en esta sección será analizar un ensayo clı́nico más, comentando algunas cuestiones adicionales. En concreto, analizaremos los resultados
obtenidos en un ensayo clı́nico llevado a cabo por Hommel y otros en 1986, en
pacientes de nefropatı́a, una dolencia del riñón que termina produciéndose como complicación médica en enfermos de diabetes. Como uno de los problemas
que puede agravar la nefropatı́a es la presión sanguı́nea alta, el propósito que
se persigue con el ensayo clı́nico es averiguar si, entre pacientes con nefropatı́a
diabética dependientes de la insulina, es efectivo un medicamento denominado
Captopril, en la reducción de la presión sanguı́nea sistólica.
Para ello se determinó al azar un grupo tratamiento, a cuyos nueve individuos se les aplicó Captopril, y un grupo control, a cuyos siete pacientes se
les aplicó un placebo.
La variable observada fue la presión sanguı́nea sistólica (en mmHg) al cabo
de una semana del comienzo del experimento, valor que denominaremos X1
para los individuos del grupo tratamiento y X2 para los del grupo control. Los
resultados obtenidos por el equipo de Hommel fueron los dados en la tabla
1.1,
Si modelizamos la situación suponiendo que las dos variables observadas
siguen distribuciones normales, X1 ; N (µ1 , σ1 ) y X2 ; N (µ2 , σ2 ), lo que
queremos averiguar con nuestro ensayo clı́nico es si puede aceptarse la hipótesis
µ1 < µ2 , por lo que deberemos contrastar la hipótesis nula H0 : µ1 ≥ µ2 , frente
a la alternativa H1 : µ1 < µ2 .
Como los tamaños muestrales son pequeños, deberemos utilizar un test
D
20
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
basado en la t de Student, para lo que resulta imprescindible la hipótesis de
normalidad. (Más adelante relajaremos esta condición.)
En estas condiciones, lo primero que debemos decidir si es aceptable considerar las varianzas poblaciones σ12 y σ22 como iguales o distintas.
Captopril
Paciente
1
2
3
4
5
6
7
8
9
Placebo
Paciente
1
2
3
4
5
6
7
X1
137
120
141
137
140
144
134
123
142
X2
139
134
136
151
147
137
149
Tabla 1.1
Aunque siempre es criticable el utilizar los mismos datos, tanto para contrastar las hipótesis de interés sobre las medias poblacionales como las relativas
a las varianzas, H0 : σ12 = σ22 frente a H1 : σ12 6= σ22 , habitualmente suele hacerse. Fundamentalmente, lo que implica esta doble utilización de los datos, es
que hay que tener mucho cuidado con las conclusiones, las cuales deberı́an ser
mucho más claras en un sentido de aceptación o rechazo de la hipótesis nula
de interés.
De los datos de la tabla 1.1 se obtiene que es x1 = 135′ 33, x2 = 141′ 86,
2
S1 = 71 y S22 = 48′ 14, por lo que aceptaremos la hipótesis H0 : σ12 = σ22
cuando y sólo cuando sea (CB-sección 7.5)
i
S12 h
∈ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 .
2
S2
Inclusive fijando un nivel de significación α = 0′ 2, el intervalo de aceptación
anterior es
h
Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2
i
=
=
F8,6;0′ 9 , F8,6;0′ 1 =
"
1
F6,8;0′ 1
, F8,6;0′ 1
#
1
, 2′ 983 = [0′ 3748 , 2′ 983]
′
2 6683
y como es S12 /S22 = 1′ 4749, se aceptará la hipótesis nula con un p-valor mayor
que 0′ 2, por lo que podemos aceptar la igualdad de las varianzas con gran
seguridad.
D
21
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
Ahora, la hipótesis nula de interés, H0 : µ1 ≥ µ2 se aceptará cuando y sólo
cuando sea (CB-sección 7.6)
s
Como es
(n1 −
s
x1 − x2
1)S12
+ (n2 − 1)S22
n1 + n2 − 2
(n1 −
1)S12
s
x1 − x2
+ (n2 −
n1 + n2 − 2
1)S22
≥ tn1 +n2 −2;1−α .
1
1
+
n1 n2
s
1
1
+
n1 n2
= −1′ 6547
el p-valor del test será P {t14 < −1′ 6547} = 0′ 0601, lo que indica una decisión
no muy clara (al estar entre 0′ 01 y 0′ 2).
Si contrastamos la hipótesis nula de igualdad de las medias de los tratamientos, H0 : µ1 = µ2 , como mandan los cánones de los ensayos clı́nicos,
aceptarı́amos H0 cuando fuera
s
|x1 − x2 |
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
s
1
1
+
n1 n2
≤ tn1 +n2 −2;1−α/2
siendo, en este caso, el p-valor del test, P {|t14 | > 1′ 6547} = 2·0′ 0601 = 0′ 1202,
algo más indicativo de aceptar la hipótesis de igualdad de las dos medias
poblacionales.
Para obtener más información, suele acompañarse a todo análisis de resultados de un ensayo clı́nico, el intervalo de confianza, que para las caracterı́sticas
que en las que aquı́ nos movemos serı́a (CB-sección 6.6), con un coeficiente de
confianza del 95 %,
"
x1 − x2 ∓ tn1 +n2 −2;α/2
r
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
r
1
1
+
n1
n2
#
= [−14′ 98 , 1′ 93]
el cual puede interpretarse como que puede existir un pequeño sesgo positivo
de que se eleve (menos de 2 mmHg) la presión sanguı́nea (de consecuencias
prácticamente irrelevantes) pero que es muy probable que disminuya de forma
significativa esa presión sanguı́nea, puesto que la mayor parte del intervalo
de confianza cubre la parte negativa de la diferencia de medias. Esto podrı́a
deshacer la situación de indecisión, proporcionada por el test anterior, y hacer
que nos decantáramos por aplicar el tratamiento con Captopril.
Si analizamos con algún detalle la suposición de normalidad de los datos
X1 y X2 , vemos en la figura 1.3 del gráfico de normalidad (CB-sección 14.4.1)
D
22
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
120
125
130
X1
135
140
de los datos del grupo tratamiento, que un par de valores están algo alejados
de la lı́nea, lo que puede augurar una posible falta de normalidad.
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
Quantiles of Standard Normal
Figura 1.3 : Gráfico de normalidad de los datos X1
De hecho, el coeficiente de curtosis
k=
n
X
i=1
(xi − x)4 /(nS 4 ) − 3
está algo alejado de cero, ya que toma el valor k = −1′ 0701. No obstante
y aunque no tenemos muchos datos, el test de normalidad basado en dicho
coeficiente de curtosis (CB-sección 14.4.3), proporciona un valor del estadı́stico
de contraste (de distribución aproximadamente normal) igual a
p
|k|
= 0′ 6553
24/n1
lo que da un p-valor igual a 2·P {Z > 0′ 6553} = 0′ 5122 sugiriendo la aceptación
de la hipótesis nula de normalidad.
Respecto a los datos del grupo control, el gráfico de normalidad dado en la
figura 1.4 también sugiere una posible ausencia de normalidad. No obstante,
el coeficiente de curtosis es igual a
D
23
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
135
140
X2
145
150
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
-1.0
-0.5
0.0
0.5
1.0
Quantiles of Standard Normal
Figura 1.4 : Gráfico de normalidad de los datos X2
k=
n
X
i=1
(xi − x)4 /(nS 4 ) − 3 = −2′ 019885
y el test de normalidad basado en dicho coeficiente de curtosis proporciona un
valor del estadı́stico de contraste igual a
|k|
= 1′ 09086
24/n2
p
de p-valor igual a 2 · P {Z > 0′ 1′ 09086} = 0′
D
24
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
(hacemos notar que, aunque los empates no se deberı́an de presentar por ser
las observaciones de tipo continuo, no podemos deshacerlas puesto que no
tenemos los datos originales que podrı́an discriminarlos. No obstante, recordamos que el estadı́stico de contraste U es el número de X2 que preceden a
cada X1 fijo, por lo que contaremos eso, los que preceden, es decir, los que
son estrictamente menores, haciendo en consecuencia irrelevante el orden de
los datos empatados).
Contando ahora el número de X2 (valores subrayados) que preceden (es decir, que son estrictamente menores) que cada X1 (que cada valor sin subrayar)
fijo, se obtendrá, al ir variando los X1 , un valor de U igual a
U = (0 + 0 + 0) + (2 + 2) + (4 + 4 + 4 + 4) = 20
(por ejemplo, no existe ningún X2 que preceda al primer X1 = 120, de ahı́ el
primer 0 de U ).
Ahora, aceptaremos H0 : M1 ≥ M2 cuando y sólo cuando sea U > m·n−cα.
Como ambos tamaños muestrales son aproximadamente iguales y mayores
que 5, podemos aproximar el punto crı́tico cα por una normal, según se explica
en CB, quedando en nuestro caso, para un nivel de significación α = 0′ 05,
mn
+ zα
cα =
2
s
m n (n + m + 1)
9·7
=
+ 1′ 645
12
2
s
9 · 7 (7 + 9 + 1)
= 47′ 04.
12
Como es U = 20 > m·n−cα = 15′ 96, no tenemos suficiente evidencia como
para rechazar la hipótesis nula y aceptar la de interés, por lo que deberemos
aceptar H0 .
Inclusive, si contrastamos la hipótesis nula H0 : M1 = M2 frente a la
alternativa H1 : M1 6= M2 , aceptaremos esta hipótesis nula cuando y sólo
cuando sea
m · n − cα/2 < U < cα/2
es decir,
63 − 50′ 02 < U < 50′ 02
ya que para un nivel de significación α = 0′ 05, será
cα/2
mn
=
+zα/2
2
Y como es
s
m n (n + m + 1)
9·7
=
+1′ 96
12
2
s
9 · 7 (7 + 9 + 1)
= 50′ 02.
12
D
25
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
12′ 98 < 20 = U < 50′ 02
aceptarı́amos incluso la igualdad de los efectos medianos de ambos grupos.
El gráfico de normalidad dado por la figura 1.3 sugiere la posible presencia de dos datos anómalos al comienzo del recorrido de los valores del grupo
tratamiento. De la misma manera, la figura 1.4 parece indicarnos un par de
outliers en los extremos de los valores X2 .
Todo esto sugiere la utilización de Métodos Robustos; en concreto el test
robusto de comparación de dos poblaciones, basado en las medias α-recortadas
(MR-sección 4.2), contrastando ahora la hipótesis nula H0 : µα,1 ≥ µα,2 frente
a la alternativa H1 : µα,1 < µα,2 .
Si utilizamos el software del curso de Estadı́stica Avanzada, introducirı́amos
los datos en (1) y (2) y, considerando un porcentaje de recorte de α = 0′ 2 y un
nivel de significación 0′ 05, ejecutarı́amos la sentencia yuen(X1,X2,0.2,0.1)
en (3).
> X1<-c(137,120,141,137,140,144,134,123,142)
> X2<-c(139,134,136,151,147,137,149)
> yuen(X1,X2,0.2,0.1)
$ci
[1] -13.912438
3.283867
$siglevel
[1] 0.2876732
$dif
[1] -5.314286
$se
[1] 4.717804
$teststat
[1] 1.126432
$crit
[1] 1.822491
$df
[1] 9.485389
(1)
(2)
(3)
(4)
(5)
D
26
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Como el extremo superior del intervalo de Yuen, obtenido en (4), es
3,283867 > 0, debemos aceptar la hipótesis nula. De hecho el p-valor del test,
es la mitad del valor dado en (5), e igual a 0′ 1438.
La generalización robusta del test de Wilcoxon-Mann-Whitney (MR-sección
4.3) para contrastar de nuevo la igualdad de las medianas poblacionales H0 :
M1 = M2 frente a H1 : M1 6= M2 , se podrı́a realizar ejecutando la función mee
del curso de Estadı́stica Avanzada, que para un nivel de significación 0′ 05 se
harı́a con la expresión (6),
> mee(X1,X2)
[1] "Peligro:Empates. Aunque las distribuciones sean
idénticas no es necesariamente P(X<Y)=0.5"
$phat
[1] 0.6349206
$ci
[1] 0.3322171 0.8587498
(6)
(7)
obteniendo en (7) el intervalo de aceptación el cual, al contener al 1/2, conduce
también a aceptar la hipótesis nula de no influencia del Captopril.
Por tanto, a pesar de la interpretación un tanto generosa que hicimos con
el intervalo de confianza, todos los tests (tanto paramétricos, como robustos,
como no paramétricos) nos indican que debemos concluir con que no existen
diferencias significativas entre el grupo tratamiento y el grupo control, no
siendo efectivo, al parecer, el uso del Captopril en la reducción de la presión
sanguı́nea sistólica.
No obstante, el equipo de Hommel pensó que la presión sanguı́nea inicial,
antes de realizar el experimento, podı́a influir en los resultados, por lo que
utilizó los valores de ésta (baseline value) B, los cuales habı́a anotado antes de
realizar el experimento en los pacientes de ambos grupos, B1 y B2 , realizando
un Análisis de la Covarianza para un factor y un diseño completamente aleatorizado (CB-sección 11.2). Los valores obtenidos por el equipo de Hommel
son los que aparecen en la tabla 1.2,
D
27
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
Captopril
Paciente B1
1
147
2
129
3
158
4
164
5
134
6
155
7
151
8
141
9
153
X1
137
120
141
137
140
144
134
123
142
Placebo
Paciente B2
1
133
2
129
3
152
4
161
5
154
6
141
7
156
X2
139
134
136
151
147
137
149
Tabla 1.2
Realizando un Análisis de la Covarianza con SAS (EASAS-sección 5.9), en
el que planteamos las dos hipótesis nulas habituales, H0 : µ1 = µ2 , y H0′ : X
y B no están relacionadas linealmente, (es decir, el Análisis de la Covarianza
es innecesario), obtenemos la siguiente salida
Dependent Variable: despues
Source
Model
Error
Corrected Total
Source
medica
antes
Source
medica
antes
DF
Sum of
Squares
Mean Square
F Value
Pr > F
2
576.69244
288.346220
8.37
0.0046
13
447.74506
34.441928
15
1024.43750
R-Square
Coeff Var
Root MSE
despues Mean
0.562936
4.246929
5.868725
138.1875
DF
Type I SS
Mean Square
F Value
Pr > F
1
1
167.5803571
409.1120836
167.5803571
409.1120836
4.87
11.88
0.0460
0.0043
DF
Type III SS
Mean Square
F Value
Pr > F
1
1
202.0350785
409.1120836
202.0350785
409.1120836
5.87
11.88
0.0308
0.0043
(8)
(9)
obteniendo en (8) el p-valor del primer test que conduce a rechazar, ahora con
mucha mayor claridad, la igualdad de los efectos medios del grupo tratamiento y el grupo control. (Sin la información adicional de la presión sanguı́nea
antes de realizar el experimento, se obtuvo más arriba un p-valor de 0′ 1202
conducente a aceptar H0 ).
Finalmente en (9) se obtiene el p-valor del segundo test, rechazando mucho
más claramente que no es adecuado el Análisis de la Covarianza, por lo que
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
28
es este análisis el adecuado, con el cual, como acabamos de decir, se confirma
que existen diferencias significativas entre el grupo tratamiento y el grupo
control que, por los valores de las medias muestrales, lleva a concluir con que
sı́ resulta efectivo el Captopril en la reducción de la presión sanguı́nea sistólica
en enfermos de nefropatı́a diabética dependientes de la insulina.
1.7.
Enfoques alternativos
Vamos a estudiar en los dos siguientes apartados dos enfoques alternativos
de ensayos clı́nicos; de hecho, sólo podemos calificar de ensayos clı́nicos a
los analizados en el siguiente apartado, ya que el meta-análisis, con el que
concluimos el capı́tulo, es una técnica de gran actualidad que permite aunar
los resultados obtenidos en verdaderos ensayos clı́nicos.
1.7.1.
Ensayos cruzados (Crossover trials)
En los ensayos considerados hasta ahora (en ocasiones denominados Parallel group designs) se aplicaba un tratamiento a cada paciente, obteniéndose
un sólo dato como respuesta a ese tratamiento. Este esquema es razonable
en pacientes que, una vez realizado el ensayo, se curan. No obstante, en pacientes que no sanan después de aplicado el tratamiento (como, por ejemplo,
los diabéticos) es posible modificar esta forma de actuación, aplicando todos
los tratamientos a comparar, en cada uno de los pacientes seleccionados en el
ensayo. Este tipo de ensayos recibe el nombre de Ensayos cruzados (Crossover
trials).
Con ellos es posible comparar, supuesto que consideráramos dos tratamientos, la respuesta obtenida al aplicar el tratamiento A con la obtenida al
aplicar el tratamiento B, en el mismo paciente, evitando ası́ el posible sesgo
del material soporte donde se realiza el experimento (en este caso, el paciente),
obteniendo de esta manera resultados más precisos.
No obstante, el propósito de este tipo de ensayos sigue siendo el mismo de
siempre, contrastar la hipótesis nula, H0 : µA = µB , frente a la alternativa,
H1 : µA 6= µB .
El diseño AB/BA
En el caso de comparación de sólo dos tratamientos, A y B (uno de los cuales puede ser un placebo), el ensayo cruzado más simple es el diseño AB/BA.
Para realizarlo se asignan al azar los n pacientes del ensayo clı́nico a dos grupos: Los n1 pacientes del Grupo 1 recibirán los tratamientos en el orden AB
D
29
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
y los n2 = n − n1 del Grupo 2 en el orden BA. La etapa en la que se aplica
uno u otro tratamiento se denomina periodo, de forma que las asignaciones en
el diseño AB/BA serı́an las dadas en la tabla 1.3
Periodo 1
A
B
Grupo 1
Grupo 2
Periodo 2
B
A
Tabla 1.3
obteniendo, después de realizar el ensayo, datos como los que aparecen en la
tabla 1.4
Grupo 1
Grupo 2
Periodo 1
x11 . . . x1n1
y21 . . . y2n2
Periodo 2
y11 . . . y1n1
x21 . . . x2n2
Tabla 1.4
Si obtenemos la variable diferencia, puesto que son datos apareados, en
los individuos del primer grupo Vi = X1i − Y1i , i = 1, ..., n1 y de la misma
manera en los del segundo grupo, Wi = Y2i − X2i , i = 1, ..., n2 , tendrı́amos
datos obtenidos de dos poblaciones independientes (Grupo 1 y Grupo 2) como
los de la tabla 1.5
Grupo 1
Grupo 2
v1 . . . vn1
w1 . . . wn2
Tabla 1.5
por lo que podremos contrastar la hipótesis nula de igualdad de las medias
poblacionales de ambos grupos, H0 : µV = µW de la forma habitual, como
se estudió en CB-secciones 7.6 y 7.7. Por ejemplo, supuesto que V y W son
normales (cosa que se tiene si X e Y lo son) con varianzas desconocidas pero
iguales y los tamaños muestrales son pequeños, aceptarı́amos H0 : µV = µW
cuando y sólo cuando sea
s
|v − w|
2
(n1 − 1)Sv2 + (n2 − 1)Sw
n1 + n2 − 2
s
1
1
+
n1 n2
≤ tn1 +n2 −2;α/2 .
Pero, como es µV = E[V ] = E[X1 − Y1 ] = E[X1 ] − E[Y1 ] = µA − µB
y µW = E[W ] = E[Y2 − X2 ] = µB − µA , con el contraste t de Student
anterior de comparación de dos muestras independientes, basado en v − w,
D
30
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
estarı́amos contrastando la hipótesis nula H0 : µA − µB = µB − µA , es decir,
H0 : 2 µA = 2 µB , o bien H0 : µA = µB , la hipótesis de interés.
En situaciones distintas (poblaciones no normales, muestras grandes, etc.)
utilizaremos el correspondiente test para la comparación de las dos muestras
obtenidas como diferencia de los datos originales.
Ejemplo 1.5
Senn y Auclair (1990) realizaron un ensayo cruzado AB/BA en el que se compararon dos
broncodilatadores, salbutamol S y formoterol F , en pacientes con asma. Los pacientes fueron
aleatoriamente asignados a dos grupos; en el Grupo 1 el orden fue F − S y en el Grupo 2,
S −F . La variable observada fue el máximo caudal en espiración (MFE) en litros por minuto.
Los resultados en los pacientes de ambos grupos, en ambos periodos, aparecen en la tabla
1.6
Grupo 1
(orden F − S)
Grupo 2
(orden S − F )
Paciente
1
2
3
4
5
6
7
1
2
3
4
5
6
Periodo 1
310
310
370
410
250
380
330
370
310
380
290
260
90
Periodo 2
270
260
300
390
210
350
365
385
400
410
320
340
220
Tabla 1.6
Según vimos más arriba, para contrastar la hipótesis nula H0 : µS = µF , frente a la alternativa de H1 : µS 6= µF , deberemos realizar un contraste, en las condiciones que admitan los
datos, con el que comparar las variables diferencia.
Si suponemos que los valores MFE, para ambos fármacos, siguen distribuciones normales,
podemos realizar un test de la t de Student con el software del curso avanzado, con la
siguiente secuencia de instrucciones:
>
>
>
>
>
>
>
v1<-c(310,310,370,410,250,380,330)
v2<-c(270,260,300,390,210,350,365)
v<-v1-v2
w1<-c(370,310,380,290,260,90)
w2<-c(385,400,410,320,340,220)
w<-w1-w2
t.test(v,w,var.equal=T)
Two Sample t-test
data:
v and w
(1)
D
31
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
t = 4.3249, df = 11, p-value = 0.001205
alternative hypothesis: true difference in means is not equal
to 0 95 percent confidence interval:
45.77619 140.65238
sample estimates:
mean of x mean of y
30.71429 -62.50000
(2)
Ejecutando (1) obtenemos el p-valor del test en (2) que conduce a rechazar la hipótesis nula
anterior.
Observemos que si hubiéramos realizado un ensayo clı́nico como los planteados hasta esta sección (es decir, un parallel group trial) considerando sólo el primer periodo, ejecutarı́amos (3)
y obtendrı́amos en (4) un p-valor que indicarı́a aceptar la igualdad de los dos tratamientos.
> t.test(v1,w1,var.equal=T)
(3)
Two Sample t-test
data: v1 and w1
t = 1.1883, df = 11, p-value = 0.2597
alternative hypothesis: true difference in means is not equal
to 0 95 percent confidence interval:
-45.8596 153.4786
sample estimates:
mean of x mean of y
337.1429 283.3333
(4)
Con el diseño AB/BA hemos eliminado del análisis la variabilidad entre los pacientes.
Apuntamos también que con la utilización de Métodos Robustos en la comparación de los
dos tratamientos (MR-sección 4.2.3) hubiéramos obtenido las mismas conclusiones, ya que,
ejecutando (5), obtendrı́amos en (6) un p-valor conducente a rechazar la igualdad de los
efectos medios de ambos tratamientos (al igual que antes).
Análogamente, ejecutando (7), obtendrı́amos en (8) un p-valor que indica la igualdad de
ambos medicamentos, al considerar tan solo el primer periodo.
> yuen(v,w)
$ci
[1] 32.43511 154.56489
$siglevel
[1] 0.01393364
$dif
[1] 93.5
$se
[1] 21.34282
(5)
(6)
D
32
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
$teststat
[1] 4.380865
$crit
[1] 2.861145
$df
[1] 3.719139
> yuen(v1,w1)
$ci
[1] -64.10747 129.10747
$siglevel
[1] 0.4247106
$dif
[1] 32.5
(7)
(8)
$se
[1] 37.34014
$teststat
[1] 0.8703771
$crit
[1] 2.587229
$df
[1] 4.895166
En todo este apartado hemos supuesto que el efecto del tratamiento aplicado en el periodo 1 no persiste durante el periodo 2; es decir, que no existe
el denominado efecto remanente (carryover effect).
1.7.2.
Meta-Análisis
En este punto resulta superfluo decir que los ensayos clı́nicos no siempre
conducen a decisiones claras, y no sólo porque el p-valor asociado a un ensayo
clı́nico quede en el intervalo (0′ 01 , 0′ 2), sino porque, en algunas ocasiones,
distintos Métodos Estadı́sticos conducen a distintas conclusiones.
Además, un mismo ensayo clı́nico repetido al cabo de un año puede contradecir al que le precedió, simplemente porque algunas condiciones han cambiado
durante en ese tiempo.
Por otro lado, resulta evidente la gran cantidad de publicaciones sobre,
prácticamente, el mismo ensayo clı́nico.
Parece pues razonable utilizar algún tipo de técnica que permita utilizar
D
33
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
toda la información disponible sobre un mismo ensayo, de manera que se pueda
sacar una conclusión global la cual, en principio, deberı́a ser más fiable puesto
que se basa en varios ensayos y no sólo en uno. Esto es básicamente el MetaAnálisis, revisiones cuantitativas de la evidencia disponible, realizadas, en la
mayorı́a de los casos, sin disponer de los datos originales.
Además, el hecho de que algunos comités éticos exijan esta revisión de la
evidencia disponible antes de autorizar un nuevo ensayo clı́nico, ha hecho del
Meta-Análisis un tema de gran actualidad, el cual debe valorarse en su justa
medida, ya que pueden existir grandes diferencias en ensayos clı́nicos que se
aúnan en un meta-análisis.
Ya para empezar, la primera dificultad práctica con la que nos encontramos es la gran cantidad de publicaciones (más de 20.000 revistas biomédicas
publicando un total de más de 2.000.000 de artı́culos cada año), lo que dificulta notablemente la localización de trabajos relevantes sobre el tema en el que
estemos interesados.
Una dirección de internet frecuentemente utilizada para esta búsqueda es
http://www.medscape.com
o su análogo
http://www.medline.com
aunque es necesario inscribirse para obtener la mayorı́a de las informaciones
interesantes.
En todo caso, supongamos que ya contamos con resultados de ensayos,
publicados o no, sobre un determinada comparación de tratamientos en la que
estemos interesados. Estos ensayos, con los que haremos el meta-análisis, se
denominan ensayos identificados. En los dos siguientes apartados haremos dos
tipos distintos de meta-análisis.
Estimación del efecto global mediante el uso de efectos fijos
Uno de los objetivos habituales del meta-análisis es la estimación del denominado efecto global θ del tratamiento que está siendo valorado, basándonos en
los ensayos identificados. θ será la diferencia de medias de las dos poblaciones
a comparar, o la diferencia de proporciones, o también puede ser una log odds
ratio (en TA-capı́tulos 8 y 9 se estudian otros análisis de log odds ratios).
Denominaremos θ̂1 , ..., θ̂k a los k estimadores de θ obtenidos en los k ensayos identificados. El modelo que consideramos en este apartado se denomina
de efectos fijos porque supone que todos los ensayos identificados estiman la
misma cantidad θ. Es decir, supondremos aquı́ que la única variabilidad que
afecta a cada estimador θ̂i es su varianza en el muestro, Vi .
D
34
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Si los θ̂i fueran de la forma diferencia de medias muestrales, xi1 − xi2 , serı́a
(si las muestras son pequeñas, las poblaciones normales con varianzas desconocidas pero iguales),
Vi =
(ni1 − 1)(S1i )2 + (ni2 − 1)(S2i )2 ni1 + ni2
· i i
ni1 + ni2 − 2
n1 n2
Si los θ̂i fueran de la forma diferencia de proporciones muestrales, p̂i1 − p̂i2 ,
serı́a
Vi =
p̂i1 (1 − p̂i1 ) p̂i2 (1 − p̂i2 )
+
ni1
ni2
Por último, puede ocurrir que los resultados de los k ensayos identificados
fueran los de una tabla de frecuencias absolutas como la tabla 1.7
Ensayo
1
..
.
i
..
.
k
Grupo 1
Muertos Vivos
a1
b1
..
..
.
.
ai
bi
..
..
.
.
ak
bk
Grupo 2
Muertos Vivos
c1
d1
..
..
.
.
ci
di
..
..
.
.
ck
dk
Tabla 1.7
con lo que cada uno de los θ̂i serı́a el logaritmo de una razón de frecuencias o
prevalencias (log odds ratio) de la forma
di =
OR
ai /bi
ai · di
=
ci /di
ci · bi
es decir, el cociente entre la razón de muertos respecto a vivos en el primer
grupo y la razón de muertos respecto a vivos en el grupo segundo, o mejor, la
prevalencia en el primer grupo dividido por la prevalencia en el segundo. Una
OR < 1 indica que es más eficaz (porque se muere menos gente) el tratamiento
al que fue sometido el Grupo 1. Una OR > 1 indica que es más efectivo el
tratamiento del Grupo 2.
Suele añadirse el factor 0′ 5 a todas esas cantidades para reducir el sesgo
de los estimadores y para que, en el caso de que alguna de las frecuencias
absolutas de la tabla genérica 1.7 sea cero, la odds ratio dé un valor absurdo,
utilizándose por tanto la expresión
di =
OR
(ai + 0′ 5) · (di + 0′ 5)
.
(ci + 0′ 5) · (bi + 0′ 5)
D
35
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
d i es estimada por
La varianza Vi de θ̂i = log OR
1
1
1
1
+
+
+
.
′
′
′
ai + 0 5 bi + 0 5 ci + 0 5 di + 0′ 5
Vi =
d i en lugar de las pro(Se toman como estimadores θ̂i los logaritmos de las OR
pias odds ratios porque con el logaritmo obtenemos una mejor aproximación
a la distribución normal).
Como estimador de θ, el modelo de efectos fijos utiliza
θ̂F =
Pk
i=1 wi · θ̂i
Pk
i=1 wi
=
k
X
i=1
wi
Pk
i=1 wi
θ̂i
en donde es wi = 1/Vi . La varianza de θ̂F es
1
V (θ̂F ) =
(
k
X
wi )2
k
X
1
1
1
wi2 V (θ̂i ) =
(
k
X
wi )2
1
k
X
1
1
wi2 Vi =
(
k
X
wi )2
k
X
1
1
wi =
1
k
X
wi
1
Si√puede admitirse para los θ̂i distribuciones aproximadamente normales
N (θ, Vi ), también θ̂F tendrá una distribución aproximadamente normal (estimando también insesgadamente a θ), por lo que un intervalo de confianza
para θ, de coeficiente de confianza 1 − α, será (siguiendo para la obtención de
dicho intervalo el guión establecido en las secciones 6.1 ó 6.2 de CB)

1
IF = θ̂F − zα/2 qP
k
1
1
wi
, θ̂F + zα/2 qP
k
1
wi

.
Ejemplo 1.6
Crowley y otros (1990) recogieron los resultados de 12 ensayos clı́nicos llevados a cabo para
analizar el efecto de una terapia con esteroides (habitualmente dexametasona) en comparación con un tratamiento placebo, en futuras madres, para la prevención del sı́ndrome de
agotamiento respiratorio (RDS) en los recién nacidos. La variable de respuesta fue dicotómica: el bebé murió (por RDS) o no. Los resultados aparecen en la tabla 1.8.
D
36
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Ensayo
1
2
3
4
5
6
7
8
9
10
11
12
Grupo de esteroides
Muertos
Vivos
36
496
1
68
3
61
5
51
2
79
0
38
14
117
36
335
7
114
1
70
2
65
5
29
Grupo control
Muertos Vivos
60
478
5
56
12
46
7
64
10
53
0
42
20
117
37
335
13
111
5
70
7
52
5
26
Tabla 1.8
Los elementos que son necesarios en la determinación del estimador θ̂F y del intervalo de
confianza, aparecen en la tabla 1.9. Por ejemplo, los odds ratios del primer ensayo y su
varianza son respectivamente
c1 =
OR
36′ 5 · 478′ 5
= 0′ 58
496′ 5 · 60′ 5
1
1
1
1
+
+ ′ +
= 0′ 048.
36′ 5
496′ 5
60 5
478′ 5
Los valores que representan las demás columnas aparecen indicados en la primera fila de la
propia tabla 1.9.
V1 =
Ensayo
1
2
3
4
5
6
7
8
9
10
11
12
Sumas
ci
OR
0′ 58
0′ 22
0′ 21
0′ 92
0′ 16
1′ 10
0′ 71
0′ 97
0′ 54
0′ 27
0′ 27
0′ 90
Vi
0′ 0480
0′ 8808
0′ 4035
0′ 3500
0′ 5265
4′ 0495
0′ 1348
0′ 0601
0′ 2251
0′ 8769
0′ 5676
0′ 4352
wi = 1/Vi
20′ 833
1′ 135
2′ 478
2′ 857
1′ 899
0′ 247
7′ 418
16′ 639
4′ 442
1′ 140
1′ 762
′
P 2 298 ′
wi = 63 148
Pesos: wi /
0′ 330
0′ 019
0′ 039
0′ 046
0′ 030
0′ 004
0′ 117
0′ 263
0′ 070
0′ 018
0′ 028
0′ 036
1
P
wi
ci
θ̂i = log OR
−0′ 5447
−1′ 5141
−1′ 5606
−0′ 0834
−1′ 8326
0′ 0953
−0′ 3425
−0′ 0305
−0′ 6162
−1′ 3093
−1′ 3093
−0′ 1054
wi · θ̂i
−11′ 348
−1′ 718
−3′ 867
−0′ 238
−3′ 480
0′ 023
−2′ 541
−0′ 507
−2′ 737
−1′ 493
−2′ 307
−0′ 242
−30′ 455
Tabla 1.9
En esta tabla observamos que los pesos wi correspondientes a los ensayos más numerosos
son mayores, por lo que éstos influirán más en el estimador, como debe de ser.
De esta tabla obtenemos que el estimador del efecto global proporcionado por el meta-análisis
de efectos fijos es
D
37
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
θ̂F =
Pk
w · θ̂i
30′ 455
i=1 i
=− ′
= −0′ 4823
P
k
i=1
y, por tanto, el del odds ratio,
wi
63 148
c = exp{θ̂F } = 0′ 6174
OR
indicando, al ser este estimador menor que 1, que es más efectivo el tratamiento suministrado
al grupo 1, en el sentido de que hay menos fallecimientos (por RDS) con este tratamiento a
base de esteroides.
El intervalo de confianza del 95 % para θ = log OR será
IF
=

1
θ̂F − zα/2 q
Pk
1
=
wi
, θ̂F + zα/2 q
1
Pk
1
wi


1
1
, −0′ 4823 + 1′ 96 √
−0 4823 − 1 96 √
63′ 148
63′ 148
′
′
= [−0′ 7829 , −0′ 2357]
con lo que el intervalo de confianza para el odds ratio será (tomando las exponenciales de
los extremos anteriores),
[0′ 4824 , 0′ 79]
que, como vemos, tiene un extremo superior bastante alejado de 1, confirmando las conclusiones que obtuvimos más arriba para el estimador puntual.
Estimación del efecto global mediante el uso de efectos aleatorios
En el apartado anterior estudiamos cómo se podı́a estimar el efecto global
θ, suponiendo que los k ensayos identificados analizaban todos ellos el mismo
efecto global θ. De hecho, se suele contrastar (aunque con poca potencia) la
hipótesis nula de modelo de efectos fijos mediante el estadı́stico de contraste
Q=
k
X
i=1
wi (θ̂i − θ̂F )2
[1
2.77685(2)71]11TfΩ2.880TdΩ[(=)-10176
D
38
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
√
estimamos un efecto θi mediante un estimador θ̂i con distribución N (θi , Vi ).
Éste es el modelo de efectos aleatorios.
Es decir, podemos representar este modelo como un proceso de selección
en dos etapas: En la primera obtenemos una muestra aleatoria θ1 , θ2 , ..., θk , en
donde cada una de ellas tiene distribución N (θ, σ), la misma que la población
de donde se obtuvieron.
En la segunda estimamos cada uno de estos θi (en el ensayo i-ésimo regido
por un modelo de efectos fijos como el estudiado en el apartado√anterior) con
el estimador θ̂i , el cual suponemos sigue una distribución N (θi , Vi ).
Por tanto, la media y la varianza de cada θˆi será
h i
h
i
E θ̂i = E1 E2 [θ̂i /θi ] = E1 [θi ] = θ
i
h
V θ̂i = E1 V2 (θ̂i /θi ) + V1 E2 [θ̂i /θi ] = E1 (Vi ) + V1 (θ1 ) = Vi + σ 2
en donde la segunda igualdad se obtiene de aplicar el teorema de Madow.
(Para estos resultados, muestreo con submuestreo, puede verse por ejemplo
Azorı́n y Sánchez-Crespo, 1986, pág. 174).
Ası́ pues, el meta-análisis de efectos aleatorios supone un procedimiento
en dos etapas en donde con cada θ̂i estimamos (insesgadamente) θ con una
varianza σ 2 + Vi , varianza a la que denominaremos 1/w̃i ; es decir,
w̃i =
σ2
1
.
+ Vi
Ahora, como estimador de θ, el modelo de efectos aleatorios utiliza
θ̂A =
Pk
k
· θ̂i X
w̃i
θ̂i
=
Pk
i=1 w̃i
i=1 w̃i
i=1
i=1 w̃i
Pk
P
estimador que tendrá varianza 1/ w̃i .
Por tanto, un intervalo de confianza para θ basado en θ̂A , de coeficiente de
confianza 1 − α, será

1
IA = θ̂A − zα/2 qP
k
1
1
w̃i
, θ̂A + zα/2 qP
k
1
w̃i

.
Como es σ 2 ≥ 0 será w̃i ≤ wi para todo i = 1, ..., k, con lo que el intervalo
de confianza suministrado por el meta-análisis de efectos aleatorios tiene mayor
longitud (es menos preciso) que el de efectos fijos, cosa lógica puesto que el de
efectos aleatorios recoge la incertidumbre de una mayor variabilidad.
D
39
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos
Por último, digamos que el cálculo de los w̃i requiere del conocimiento de
σ 2 , valor que suele estimarse por
(
c
2
σ = máx 0 , P
Q−k+1
P
P
wi − ( wi2 )/ wi
)
c2 será más preciso cuanto
en donde Q viene dado por [1.2]. El estimador σ
mayor sea k.
Ejemplo 1.6 (conclusión)
Aunque el estadı́stico [1.2] toma, para los datos de este ejemplo, un valor Q = 14′ 05,
lo que proporciona un p-valor igual a P {χ211 > 14′ 05} = 0′ 2302391, que conducirı́a a aceptar la hipótesis de un meta-análisis de efectos fijos, vamos a determinar los estimadores
suministrados por uno de efectos aleatorios.
El estimador de σ 2 serı́a σb2 = 0′ 061, siendo el estimador de efectos aleatorios de θ =
log OR igual a θ̂A = −0′ 549 y, por tanto, el estimador de efectos aleatorios de la odds ratio,
c = exp{−0′ 549} = 0′ 58 y el intervalo de confianza para la odds ratio, [0′ 42 , 0′ 79].
OR
Como se ve, valores muy semejantes a los obtenidos con el de efectos fijos, por ser σb2
muy pequeño.
Ejemplo 1.7
El trabajo cientı́fico que dio origen al meta-análisis se debe a Lau y su equipo, el cual fue
publicado en 1992 en la revista New England Journal of Medicine y que trataba sobre el uso
de trombolı́ticos para el tratamiento del infarto de miocardio.
Los trombolı́ticos son denominados, frecuentemente, caza-coágulos (clot-busters) porque son
administrados inmediatamente después del infarto con objeto de que disuelvan el coágulo de
sangre y se disminuya en todo lo posible el daño causado en el corazón.
Entre los años 1959 y 1988 se habı́an realizado 33 ensayos clı́nicos utilizando este medicamento. En todos ellos se asignaban al azar pacientes al grupo tratamiento (a los que se
suministraba el trombolı́tico) o al grupo control (a los que se les administraba placebo),
observándose si el paciente sobrevivı́a o fallecı́a.
En
http://www.statsol.ie/metaanalysis/pics/cma.gif
aparece el resultado de los 33 ensayos en los que se observa que casi todos indican aceptar la
hipótesis nula de ausencia de diferencias significativas entre ambos grupos al ser los p-valores
de 26 de ellos mayores que 0′ 05 (aunque dos son dudosos, European 3 y Wisenberg). Sólo en
7 de los ensayos se obtuvieron p-valores menores que 0′ 05 (aunque el cuarto es muy dudoso)
indicando la eficacia de los trombolı́ticos.
En el lado derecho aparece el forest plot en el que se van representando los intervalos de
aceptación de cada ensayo y la lı́nea vertical de la hipótesis nula OR = 1, es decir ningún
efecto, (una OR < 1 indica un mejor comportamiento del grupo tratado y una OR > 1 un
mejor comportamiento del grupo control). Si la lı́nea vertical corta el intervalo del ensayo,
éste no es estadı́sticamente significativo.
Lau y su grupo efectuaron el meta-análisis, el cual aparece en la última lı́nea, para que el
obtuvieron una odds ratio igual a 0′ 768 y un p-valor menor que 0′ 0001. Como resultado de
esta meta-análisis, hoy en dı́a se utilizan los trombolı́ticos en el tratamiento estándar de un
ataque al corazón.
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
40
Una de las razones para que sucediera esta aparente contradicción es que los tamaños muestrales (columna N Total) no son adecuados en la mayorı́a de los ensayos.
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2
Análisis de Supervivencia
2.1.
Introducción
Se denomina Análisis de Supervivencia a una serie de técnicas y métodos
estadı́sticos desarrollados para el análisis de datos referentes al tiempo que
transcurre hasta que un determinado suceso ocurre.
Estos sucesos se denominan fallos, por lo que el Análisis de Supervivencia
es, en definitiva, un análisis de tiempos de fallo T1 , ..., Tn , concebidos éstos
como realizaciones de n variables aleatorias independientes e idénticamente
distribuidas, aunque con una particularidad, éstos son variables no negativas,
ya que ningún tiempo de fallo puede serlo. Existe una peculiaridad adicional en
estos datos como veremos más adelante: algunos pueden ser valores censurados.
Estos tiempos de fallo suelen ser variables biomédicas, como por ejemplo
tiempos de vida de pacientes, aunque también pueden ser variables de tipo
industrial, como por ejemplo las duraciones de determinados componentes
electrónicos.
Sobre estas variables se realizarán las habituales inferencias: estimación
por punto, intervalos de confianza y contrastes de hipótesis, referentes a algún
parámetro desconocido de su distribución. No obstante, es muy habitual que
existan una serie de covariables o predictores X1 , ..., Xk bajo el control del
investigador, que suponemos influyen sobre la variable en observación Tiempo
de Fallo T . Por ello, dividiremos el Análisis de Supervivencia en dos grandes
secciones. En la primera no supondremos la existencia de esas covariables
explicativas, estando interesados, entre otras cosas, en estimar y especificar un
modelo para la distribución de tiempo de fallo, es decir, para la distribución
de T . En la segunda analizaremos el tipo de relación existente entre la variable
tiempo de fallo T y k variables explicativas X1 , ..., Xk , es decir, realizaremos
un Análisis de Regresión.
Pero, como comentábamos más arriba, tanto en la primera como en la
41
D
42
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
segunda parte, va a estar presente una caracterı́stica muy peculiar del Análisis
de Supervivencia: algunos datos pueden ser censurados, es decir, algunos de
los tiempos de fallo observados pueden faltar, bien porque éstos hayan salido
del experimento antes de fallar (por ejemplo hayan muerto por alguna causa
diferente de la que se estaba estudiando, o porque hayan dejado de ir a la
consulta), o simplemente porque el experimento haya terminado sin que se
hubiera producido el fallo.
Ejemplo 2.1
La siguiente tabla recoge, Pike (1966), los dı́as transcurridos desde que varias ratas fueron
inoculadas con el carcinogén DMBA hasta su muerte por cáncer vaginal. Se distinguieron
dos grupos a causa de dos tratamientos previos a dicha inoculación, siendo el propósito del
experimento averiguar si existen diferencias significativas entre estos dos pretratamientos a
la hora de prevenir el mencionado cáncer.
Grupo 1
143
220
164
227
188
230
188
234
190
246
192
265
206
304
209
216∗
213
244∗
216
Grupo 2
142
233
344∗
156
239
163
240
198
261
205
280
232
280
232
296
233
296
233
323
233
204∗
Sin embargo, no podemos realizar, por ejemplo, un test de la t de Student o algún test no
paramétrico de comparación de dos poblaciones porque entre los datos anteriores existen
cuatro datos censurados —los marcados con asterisco—. Cuatro ratas murieron por una
causa diferente a la objeto de estudio; no obstante, estas cuatro observaciones no deben
eliminarse, ya que aportan información interesante: sus tiempos de fallo son superiores a
216, 244, 204 y 344 dı́as respectivamente.
2.2.
Tipos de censura
A continuación vamos a estudiar diversas maneras en las que puede producirse la pérdida de tiempos de fallo. Sean T1 , ..., Tn , n tiempos de fallo, es
decir, n variables aleatorias independientes, identicamente distribuidas y no
negativas.
Censura de tipo I
Este tipo de censura, también denominada censura temporal es la más
habitual desde un punto de vista práctico tanto en ingenierı́a como en estudios
médicos.
Supongamos, por ejemplo, que ponemos a prueba un grupo de motores con
objeto de observar sus tiempos de fallo, es decir, cuándo dejan de funcionar. Si
éstos tienen un tiempo de fallo muy elevado, no podemos esperar a que fallen
todos los motores para obtener las observaciones, por lo que parece razona-
D
43
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
ble parar el experimento en un tiempo prefijado tc , obteniendo solamente los
tiempos de fallo inferiores a tc .
Situaciones semejantes se presentan en Medicina cuando, antes de iniciar
un experimento, tenemos un tiempo prefijado para terminar el estudio y debemos censurar aquellos tiempos de fallo no obtenidos antes de terminar dicho
experimento.
Es decir, en lugar de observar los tiempos de fallo T1 , ..., Tn , los datos que
tenemos son realizaciones de las variables Z1 , ..., Zn en donde
Zi =
(
Ti si Ti ≤ tc
tc si tc < Ti
Censura de tipo II
Como acabamos de decir, en algunas ocasiones, especialmente en ingenierı́a, debido a que los tiempos de fallo de las componentes son muy elevados,
no suele interesar esperar a la obtención de todos ellos, siendo razonable utilizar un tipo de censura temporal.
No obstante, puede ocurrir que cuando se alcance el tiempo tc no haya
fallado ningún individuo todavı́a, resultando el experimento muy poco significativo.
Una forma alternativa de actuar es concluir el experimento después del résimo fallo, siendo en ese caso las observaciones, en función de los estadı́sticos
ordenados,
Z(1) = T(1) , ..., Z(r) = T(r) , ..., Z(r+1) = T(r) , ..., Z(n) = T(r)
es decir, detenemos el experimento cuando tengamos r tiempos de fallo; los
restantes n − r serán de censura.
Censura aleatoria
En la censura de tipo I observábamos el tiempo de fallo Ti , i = 1, ..., n siempre y cuando éste fuera menor o igual que una constante prefijada. La censura
aleatoria generaliza este concepto considerando, en lugar de una constante,
una variable aleatoria Ci , denominada tiempo de censura —la cual representa
aquellas posibles causas no consideradas en el experimento y que provocan la
censura—, observando el tiempo de fallo cuando sea Ti ≤ Ci . Nuestros datos,
por tanto, serán observaciones Zi , las cuales además sabremos si son tiempos
de fallo o de censura.
En concreto, los datos serán pares de la forma (Z1 , δ1 ), ..., (Zn , δn ), en donde Zi = mı́n{Ti , Ci } y
δi =
(
1 si Ti ≤ Ci
0 si Ti > Ci
D
44
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
siendo las variables Ti y Ci independientes, i = 1, ..., n.
Otros tipos de censura
En todos los tipos de censura anteriores, hablábamos de censura por la
derecha, la cual se caracteriza porque los valores de la variable tiempo de fallo
son demasiado grandes como para ser observados todos.
De forma análoga puede considerarse la censura por la izquierda en la que
observamos (Z1 , ǫ1 ), ..., (Zn , ǫn ), siendo Zi = máx{Ti , Ci } y
ǫi =
(
1 si Ti ≥ Ci
0 si Ti < Ci
y siendo de nuevo las variables Ti y Ci independientes, i = 1, ..., n.
Esta situación se da, por ejemplo, cuando un psicólogo quiere averiguar la
edad a la cual un cierto grupo de niños aprende a realizar una determinada
tarea —leer, escribir, etc—. Los niños que sepan realizar la tarea en cuestión
al comienzo del estudio, constituyen los datos censurados por la izquierda; los
que aprendan durante el estudio aportarán los tiempos de fallo.
Y, ¿qué ocurre si algunos no llegan a aprender en el tiempo que dura
el experimento?; en ese caso, nos faltarı́an los tiempos de fallo anteriores al
comienzo del experimento y posteriores a su conclusión, y habları́amos de
censura por intervalos.
2.3.
Distribuciones de tiempo de fallo
Después de analizar diversas formas de censura, vamos a definir las principales funciones a utilizar en un análisis de supervivencia. En esta sección
supondremos una población homogénea, es decir, sin presencia de covariables.
La presencia de covariables será considerada en la siguiente sección.
Sea T una variable aleatoria no negativa la cual representa el tiempo de
fallo de un individuo. La distribución de probabilidad de T se puede especificar
de varias maneras aunque, en Análisis de Supervivencia, tres son particularmente útiles: La función de supervivencia, la función de densidad (o masa) y
la función tasa de azar.
La función de supervivencia de T se define como la probabilidad de que T
sea al menos tan grande como t; es decir,
S(t) = P {T ≥ t}
t≥0
función claramente no creciente, continua por la izquierda, con S(0) = 1 y
lı́mt→∞ S(t) = 0.
Aunque es posible encontrar distribuciones de tiempo de fallo discretas (o
mixtas), en la mayorı́a de las situaciones que trataremos, las distribuciones de
D
45
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
tiempo de fallo serán continuas, las cuales están caracterizadas por la función
de densidad, definida de la forma habitual
d S(t)
dt
f (t) = −
siendo, por tanto,
S(t) =
Z
∞
f (u) du
f (t) ≥ 0
,
t
Z
y
∞
f (t) dt = 1
0
y siendo el tiempo medio de supervivencia
µ=
Z
∞
t f (t) dt.
0
La tercera función habitualmente utilizada para caracterizar la distribución
de tiempo de fallo es la denominada tasa de azar, definida como
λ(t) =
f (t)
S(t)
la cual representa la tasa instantánea de fallo en T = t condicionada a haber
sobrevivido hasta el tiempo t.
Como es
d log S(t)
dt
integrando y usando que S(0) = 1 se obtiene que
λ(t) = −
S(t) = exp −
y
Z
t
λ(u) du
0
f (t) = λ(t) exp −
Z
0
t
λ(u) du
[2.1]
[2.2]
lo que demuestra que la tasa de azar también caracteriza la distribución de
tiempo de fallo.
2.3.1.
Algunas distribuciones de tiempo de fallo
Como antes, sea T ≥ 0 una variable aleatoria tiempo de fallo siendo Y =
log T .
A continuación vamos a estudiar algunas de las distribuciones de tiempo
de fallo —distribuciones de T — más habituales, las cuales caracterizaremos
en términos de T o de Y .
D
46
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
No hemos incluido entre ellas otras tres de sobra conocidas; nos referimos
a la distribución normal, la distribución gamma y la distribución logı́stica.
Distribución exponencial
Se define a través de su tasa de azar. Diremos que T sigue una distribución
exponencial si su tasa de azar es constante; es decir, si
∀t ≥ 0
λ(t) = λ > 0
es decir, que la propensión al fallo de un individuo en un momento dado t es
independiente del tiempo que éste lleve vivo.
Por esta razón se dice que la distribución exponencial tiene una propiedad
de falta de memoria.
A partir de [2.1] y [2.2] será ahora
S(t) = e−λ t
f (t) = λ e−λ t
y
t ≥ 0.
Por tanto, una forma razonable de comprobar si los tiempos de fallo siguen
una distribución exponencial
los logaritmos del estimador de la
es representar
función de supervivencia, ti , log Ŝ(ti ) y ver si están aproximadamente en
lı́nea recta de pendiente (−λ) negativa.
Un sencillo cambio de variable determina que la función de densidad de
Y = log T es
f (y) = exp y − α − ey−α
−∞<y <∞
con lo que si expresamos Y de la forma
Y =α+W
la distribución de W tendrı́a por densidad
f (w) = exp {w − ew }
[2.3]
denominada distribución del valor extremo (mı́nimo).
Se puede demostrar que la distribución exponencial se obtiene como lı́mite
del mı́nimo, de muestras extraı́das de distribuciones con soporte en (0, ∞),
lo que justifica su uso en estudios de supervivencia en donde un mecanismo
complejo falla cuando alguno de sus componentes falla.
Distribución de Weibull
Si permitimos que la tasa de azar dependa (potencialmente) del tiempo,
λ(t) = λ p (λ t)p−1
D
47
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
se obtiene la denominada distribución de Weibull de dos parámetros, λ, p > 0,
la cual es una generalización de la distribución exponencial.
Su función de supervivencia y densidad serán, por tanto,
S(t) = exp {−(λ t)p }
y
f (t) = λ p (λ t)p−1 exp {−(λ t)p }
t≥0
con lo que una forma razonable que comprobar si nuestros
tiempos de fallo
siguen una distribución de Weibull, es ver si los pares log ti , log(− log Ŝ(ti ))
están aproximadamente en lı́nea recta de pendiente p.
Como la función de densidad de Y = log T es
f (y) =
1
y−α
exp
− e(y−α)/σ
σ
σ
−∞<y <∞
con σ = p−1 y α = − log λ, podemos escribir
Y = α+σW
en donde W tiene la distribución del valor extremo del apartado anterior.
Distribución log-normal
Si expresamos de nuevo Y = log T de la forma
Y = α+σW
ahora con W ; N (0, 1), la distribución de T se dice log-normal.
Su función de densidad es
p
f (t) = √
exp
t 2π
(
−p2 (log λt)2
2
)
en donde, como antes, α = − log λ y σ = 1/p.
Si Φ representa la función de distribución de la N (0, 1), la función de
supervivencia de T es
S(t) = 1 − Φ(p log λt).
El modelo log-normal es sencillo de aplicar cuando no hay censura, aunque,
cuando ésta está presente, los cálculos se hacen laboriosos, siendo habitual, en
ese caso, utilizar una distribución de tiempo de fallo log-logı́stica, la cual es
una buena aproximación de la log-normal.
Distribución log-logı́stica
Si expresamos Y = log T de la forma
D
48
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Y = α+σW
se pueden obtener diversas distribuciones de tiempo de fallo, considerando
diferentes distribuciones para W . En concreto, si consideramos para W una
distribución logı́stica, con función de densidad
f (w) =
ew
(1 + ew )2
la distribución de T se dirá log-logı́stica, la cual tiene por función de densidad
f (t) = λ p (λt)p−1 [1 + (λt)p ]−2
en donde de nuevo es λ = e−α y p = 1/σ.
Como antes dijimos, una de las ventajas de esta distribución es que su
función de supervivencia y su tasa de azar son muy manejables. Éstas son
respectivamente,
S(t) =
2.4.
1
1 + (λ t)p
y
λ(t) =
λ p (λt)p−1
1 + (λt)p
Modelos de Regresión
En análisis de supervivencia es habitual contar con la presencia de determinadas variables independientes X1 , ..., Xk , denominadas covariables, las
cuales aportan información sobre la variable dependiente tiempo de fallo T (o
su logaritmo Y ). El propósito de esta sección es modelar la relación existente
entre las covariables independientes y la variable dependiente.
Se trata, por tanto, de un Análisis de la Regresión en donde, como es
habitual, el propósito principal será, primero, determinar qué covariables son
significativas a la hora de explicar la variable dependiente T y, segundo, estimar
los parámetros α, β1 , ..., βk que relacionan las covariables significativas y la
variable dependiente. Ahora, no obstante, tendremos la peculiaridad de que
pueden aparecer datos censurados y que la distribución de los errores aleatorios
no siempre será normal.
2.4.1.
Modelos de regresión Exponencial y Weibull
Si admitimos que la tasa de azar sea función de las covariables xt =
(x1 , ..., xk ) de la forma
xt β
λ(t; x) = λ e
= λ exp
(
k
X
i=1
xi βi
)
D
49
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
con β = (β1 , ..., βk )t , la tasa de azar será constante para cada x, como corresponde a una distribución exponencial, aunque dependiente ahora de las
mencionadas covariables.
En términos de Y = log T el modelo anterior se puede expresar de la forma
Y = α − xt β + W
donde α = − log λ y W una variable aleatoria con distribución del valor extremo (mı́nimo) dada por [2.3].
La distribución de Weibull también puede generalizarse a un modelo de
regresión, esencialmente de la misma manera, modelando la tasa de azar de la
forma
λ(t; x) = λ p (λ t)p−1 ex
tβ
O alternativamente, en términos de Y = log T , de la forma
Y = α − σxt β + σW
donde α = − log λ y σ = 1/p.
Los modelos de regresión exponencial y Weibull sugieren dos posibles generalizaciones. Por un lado, generalizar el hecho de que en ambos casos las
covariables actúan de forma multiplicativa sobre la tasa de azar; esto dará origen al Modelo de Azar Proporcional.
Por otro lado, el que ambos modelos sean log-lineales en el sentido de que
las covariables actúan de forma aditiva sobre Y (o multiplicativa sobre T ).
Una clase general de modelos log-lineales dará origen al Modelo de Tiempo de
Fallo Acelerado.
2.4.2.
Modelo de Azar Proporcional
El Modelo de Azar Proporcional se define, Cox (1972), como aquel Modelo
de Regresión que tiene por tasa de azar una de la forma
λ(t; x) = λ0 (t) ex
tβ
en donde λ0 es una tasa de azar arbitraria denominada tasa de azar base
(baseline hazard rate) para una variable tiempo de fallo continua.
La función de densidad, dado x, asociada a λ(t; x) será, por [2.2],
xt β
f (t; x) = λ0 (t) e
xt β
exp −e
Z
0
t
λ0 (u) du .
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
50
Por [2.1] se obtiene que la función de supervivencia de T , dado x, será
S(t; x) = [S0 (t)]exp{x
t β}
en donde S0 es la denominada función de supervivencia base
S0 (t) = exp −
2.4.3.
Z
0
t
λ0 (u) du .
Modelo de Tiempo de Fallo Acelerado
En el modelo de azar proporcional, el efecto multiplicativo de las variables
de regresión sobre la tasa de azar, no implicaba ninguna relación directa entre
las covariables x y la variable tiempo de fallo T .
Supongamos que Y = log T está relacionado con las covariables x vı́a un
modelo lineal de la forma
Y = xt β + W
siendo W una variable de error con distribución base dada por una función de
densidad f0 .
De ahı́ se obtiene
n
o
T = exp xt β T0
con T0 = exp{W } una variable tiempo de fallo con tasa de azar base, digamos,
λ0 , independiente de β. La tasa de azar de T será
λ(t; x) = λ0 t e−x
siendo la función de supervivencia
"
S(t; x) = exp −
Z
0
tβ
e−x
t exp{−xt β}
tβ
[2.4]
#
λ0 (u) du .
De la expresión anterior para la tasa de azar de T se deduce que las covariables xt actuan multiplicativamente sobre T , en lugar de sobre la función λ
como ocurrı́a en el modelo anterior.
Es decir, en este modelo suponemos la existencia de una tasa de azar base
λ0 y, además, que el efecto de las covariables es alterar, a lo largo del tiempo,
la tasa de fallo que tiene un individuo; es decir, suponemos que el papel de las
covariables x es acelerar (o decelerar) el tiempo de fallo. De ahı́ que el modelo
cuya tasa de azar sea la dada por [2.4] reciba el nombre de modelo de tiempo
de fallo acelerado.
D
51
2.5.
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
Estimación de la función de supervivencia
Hasta ahora hemos analizado los principales modelos teóricos utilizados en
el análisis de supervivencia. En esta sección estudiaremos dos métodos para estimar la distribución de tiempo de fallo a través de la función de supervivencia
en poblaciones homogéneas, es decir, en poblaciones donde no se consideran
covariables.
2.5.1.
Estimador de Kaplan-Meier (Método del lı́mite-producto)
Sean t1 < t2 < ... < tk los tiempos de fallo distintos que aparecen en nuestra muestra; si, para j = 1, ..., k , nj representa el número de supervivientes
justo antes de tj y dj representa el número de individuos que fallan en tj ,
el estimador del lı́mite-producto, también denominado estimador de KaplanMeier, de la función de supervivencia se define como
Ŝ(t) =









si 0 ≤ t < t1
1
Y
{j:tj
nj − dj
nj
≤t}
si t ≥ t1
función que será, por tanto, constante entre cada dos tiempos de fallo y continua por la derecha.
Si nk = 1 entonces Ŝ(t) = 0 ∀t ≥ tk , pero si nk > 1, entonces Ŝ(t) queda
indeterminado para t > tk .
La varianza asintótica de Ŝ(t) se estima por
d Ŝ(t)) = Ŝ 2 (t)
Var(
X
{j:tj ≤t}
dj
nj (nj − dj )
y su desviación tı́pica por la raı́z cuadrada de la cantidad anterior.
Ejemplo 2.1 (continuación)
El estimador de Kaplan-Meier para el grupo 1 será
D
52
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
tj
143
164
188
190
192
206
209
213
216
220
227
230
234
246
265
304
nj
19
18
17
15
14
13
12
11
10
8
7
6
5
3
2
1
dj
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
Ŝ(tj )
0′ 9474
0′ 8947
0′ 7895
0′ 7368
0′ 6842
0′ 6316
0′ 5789
0′ 5263
0′ 4737
0′ 4145
0′ 3553
0′ 2961
0′ 2368
0′ 1579
0′ 0789
0
en donde, por ejemplo,
Ŝ(143) =
19 − 1
18
=
= 0′ 9474
19
19
Ŝ(164) =
18 17
·
= 0′ 8947
19 18
18 17 15
15
·
·
=
= 0′ 7895
19 18 17
19
......................................
9 7
Ŝ(220) =
· = 0′ 4145
19 8
......................................
9 7 6 5 4 2
Ŝ(246) =
· · · · · = 0′ 1579
19 8 7 6 5 3
......................................
Ŝ(188) =
2.5.2.
Método de la tabla de supervivencia
Este método se utiliza especialmente cuando los datos vienen agrupados
por intervalos I1 , ..., Ik , siendo Ij = [bj−1 , bj ), j = 1, ..., k con b0 = 0 y bk =
∞. Esto suele ocurrir cuando tenemos muchos datos, siendo los extremos bj
tiempos de fallo.
Si por dj representamos el número de individuos que fallan en el intervalo
Ij , por nj el número de supervivientes al comienzo del intervalo Ij y por
mj el número de individuos censurados en Ij , para j = 1, ..., k, el estimador
de la probabilidad condicionada de fallo en Ij , supuesto que su tiempo de
supervivencia es mayor o igual que bj−1 (es decir, supuesto que estaba vivo al
comienzo del intervalo) es
D
53
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
q̂j =







dj
nj − mj /2
si nj > 0
1
si nj = 0
El correspondiente estimador de la función de supervivencia es
Ŝ(bj ) =
j
Y
i=1
(1 − q̂i )
j = 1, ..., k
definiéndose Ŝ(0) = 1 y Ŝ(t) = Ŝ(bj−1 ) ∀ t ∈ Ij .
La función de densidad se estima por
Ŝ(tj−1 ) q̂j
fˆ(t) =
bj − bj−1
∀ t ∈ Ij
y la tasa de azar por
λ̂(t) =
2.6.
2 q̂j
(bj − bj−1 )(2 − q̂j )
∀ t ∈ Ij
Comparación de curvas de supervivencia
En Análisis de Supervivencia suele ser de interés determinar si existe o no
diferencia significativa entre dos o más curvas de supervivencia, es decir, entre
dos o más poblaciones.
Al existir datos censurados, los métodos tradicionales no son válidos, por
lo que deben utilizarse tests especı́ficos que tengan en cuenta este hecho.
Si por S1 , ..., Sr representamos las funciones de supervivencia poblacionales
a comparar, los tests que habitualmente se utilizan para contrastar la hipótesis nula H0 : S1 (t) = · · · = Sr (t), ∀t ≥ 0 son el test de rangos logarı́tmicos,
debido a Savage, el test de Wilcoxon en el caso de presencia de datos censurados, y un test de razón de verosimilitudes para datos censurados, que supone
una distribución de tiempo de fallo para T exponencial, y que, por tanto, no
será válido cuando este supuesto no se pueda admitir.
A continuación analizaremos con detalle el test de Savage de rangos logarı́tmicos.
2.6.1.
Test de Savage de rangos logarı́tmicos
Sean t1 < ... < tk los tiempos de fallo de la muestra combinada resultado
de unir las r muestras. Llamaremos dj al número de fallos en tj y nj al número
D
54
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
de supervivientes justo antes de tj , j = 1, ..., k, reservando para dij y nij las
mismas definiciones en la correspondiente muestra i-ésima, i = 1, ..., r.
En cada tj los datos pueden expresarse en forma de tabla de contingencia
r × 2 de la forma
Población Fallos Supervivientes
1
d1j
n1j − d1j
......... ..... ..............
i
dij
nij − dij
......... ..... ..............
r
drj
nrj − drj
dj
nj − dj
Condicional a tj , al ser las r poblaciones independientes, la distribución
conjunta del vector (d1j , ..., drj ) tendrá como función de masa el producto de
r distribuciones binomiales, es decir,
r
Y
i=1
!
r
Y
nij dij
nij
d
λj (1 − λj )nij −dij = λj j (1 − λj )nj −dj
dij
dij
i=1
!
en donde λj es la probabilidad condicionada de fallo en tj , igual en las r
poblaciones, bajo la hipótesis nula.
Por tanto, la distribución condicionada de (d1j , ..., drj /dj ) será una distribución multi-hipergeométrica de función de masa conjunta
d
λj j (1
− λj )nj −dj
!
r
Y
i=1
nij
dij
!
nj dj
λ (1 − λj )nj −dj
dj j
=
r
Y
nij
dij
i=1
nj
dj
!
!
siendo, por tanto, la media y la varianza marginal para dij /dj iguales a
wij =
y
(Vj )ii =
nij dj
nj
nij (nj − nij ) dj (nj − dj )
n2j (nj − 1)
respectivamente, y una covarianza entre dij y dlj igual a
(Vj )il = −
nij nlj dj (nj − dj )
n2j (nj − 1)
D
55
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
Por tanto, el estadı́stico vjt = (d1j −w1j , ..., drj −wrj ) tiene media condicionada
cero y matriz de covarianzas condicionada Vj .
El test de rangos logarı́tmicos se basa en el vector
v=
k
X
vj
j=1
es decir, el vector del número de fallos observados en cada una de las r poblaciones, menos el correspondiente vector del número de fallos esperados.
Si las k tablas de contingencia fueran independientes, la varianza del estadı́stico v serı́a V = V1 + · · · + Vk , estando basado el test de igualdad de las
r poblaciones en un test χ2 , ya que el estadı́stico del contraste, vt V −1 v, tiene
asintóticamente una distribución χ2r−1 .
En general, V −1 deberá ser la inversa generalizada de V , o más sencillamente, el estadı́stico χ2r−1 puede formarse usando r − 1 elementos cualesquiera
de v y la correspondiente submatriz (r − 1) × (r − 1) de V .
Ejemplo 2.1 (continuación)
Como es
v=
17 − 12′ 237
19 − 23′ 763
=
4′ 763
−4′ 763
con matriz de covarianzas igual a
V =
7′ 263
−7′ 263
−7′ 263
7′ 263
el estadı́stico del test toma el valor vt V −1 v = (4′ 763)2 /7′ 263 = 3′ 12, el cual resulta significativo al 10 %, al compararlo con una χ21 .
2.7.
Análisis de Supervivencia con SAS
En esta sección estudiaremos cómo ejecutar Análisis de Supervivencia con
SAS. Existen tres Procedimientos en SAS, el Procedimiento LIFETEST para
poblaciones homogéneas, es decir, sin presencia de covariables; el Procedimiento LIFEREG cuando las haya mediante un modelo de tiempo de fallo
acelerado, y el Procedimiento PHREG para el Modelo de azar proporcional.
2.7.1.
Procedimiento LIFETEST
El procedimiento LIFETEST se utiliza con datos algunos de los cuales
pueden ser censurados por la derecha, con objeto de
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
56
Determinar y representar estimadores, Ŝ(t), de la función de supervivencia —el de Kaplan-Meier (sección 2.5.1) y el obtenido por el método de
la tabla de supervivencia (sección 2.5.2).
Realizar, para el estimador de la función de supervivencia Ŝ(t) elegido,
las gráficas {ti , − log(Ŝ(ti ))} y {log ti , log(− log(Ŝ(ti )))} con objeto de
averiguar si la distribución de tiempo de fallo es, respectivamente, exponencial o de Weibull. (Sección 2.3.1)
Realizar tests de rangos con los que inferir el grado de relación existente
entre las covariables y la variable dependiente de tiempo de fallo.
Si los datos vienen agrupados por poblaciones, realizar tests de rangos
con objeto de contrastar la igualdad entre las funciones de supervivencia
de las poblaciones.
Especificaciones del procedimiento LIFETEST
Como en todo procedimiento SAS existen una serie de especificaciones que
permiten adecuar el análisis estadı́stico a realizar.
Las más importantes que permite el procedimiento LIFETEST son las
siguientes
PROC LIFETEST opciones;
TIME fallo especificación;
STRATA variable (rango);
TEST variables;
FREQ variable;
Todas, excepto TIME, son opcionales.
Opciones en PROC LIFETEST
Detrás de PROC LIFETEST podemos incluir uno o varios de los siguientes
comandos opcionales:
• method= pl , lt
Mediante la opción method=pl especificamos que el método a utilizar en la
estimación de la función de supervivencia es el del producto lı́mite.
Si empleamos la opción method=lt requerimos el método de la tabla de
supervivencia en la estimación de la distribución de tiempo de fallo.
Si no es utiliza esta opción, el procedimiento LIFETEST determina por
defecto el del producto lı́mite.
D
57
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
• plots= s , ls , lls , h , p
Con la opción plots=s se realiza un gráfico de los pares de puntos
(ti , Ŝ(ti ))
plots=ls se utiliza para realizar un gráfico de los pares de puntos
(ti , − log(Ŝ(ti )))
Con plots=lls el gráfico que se optiene es el de los pares
(log ti , log(− log(Ŝ(ti ))))
plots=h permite obtener un gráfico de los pares
(ti , λ̂(ti ))
siendo λ̂ el estimador de la tasa de azar obtenido por el método de la tabla de
supervivencia.
Por último, plots=p lleva a la obtención de un gráfico de los pares de puntos
(ti , fˆ(ti ))
siendo fˆ el estimador de la función de densidad obtenido por el método de la
tabla de supervivencia. Esas dos últimas opciones, en consecuencia, sólo son
válidas si se especificó dicho método.
Es posible hacer varias especificaciones a la vez, por ejemplo, pidiéndole
los tres primeros gráficos, mediante la opción plots=(s,ls,lls)
• intervals
Utilizada para especificar los extremos de los intervalos a considerar en el
método de la tabla de supervivencia.
Sentencias especı́ficas en PROC LIFETEST
TIME fallo especificación;
La sentencia TIME se usa para especificar las variables que definen el
tiempo de supervivencia y la variable de censura.
La estructura de esta sentencia es
TIME
fallo<*corte(numero)>
mediante la cual indicamos que la variable de tiempo de fallo es fallo. Si,
opcionalmente, utilizamos la expresión entre < >, señalaremos que aquellos
fallos para los que la variable de censura corte tome el valor numero, son
tiempos censurados.
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
58
STRATA variable (rango);
La sentencia STRATA especifica la variable o variables que definen las
poblaciones (estratos) del análisis.
TEST variables;
Mediante la sentencia TEST especificamos las covariables numéricas cuyo
grado de asociación con la variable dependiente tiempo de fallo T queremos
contrastar.
El grado de dependencia de cada variable independiente con la variable
T es contrastado de forma separada, contrastándose también una correlación
múltiple entre el conjunto de covariables y la variable dependiente T .
FREQ variable;
Mediante esta sentencia indicamos que los valores de la variable variable
son frecuencias absolutas, es decir, recuentos de observaciones.
Ejemplo 2.1 (continuación)
Para analizar los datos es este ejemplo emplearemos el siguiente programa SAS
DATA ejemplo1;
INPUT dias @@;
censura = (dias < 0);
dias = abs(dias);
if _n_ < 20 then grupo = ’pretrat1’;
else grupo = ’pretrat2’;
CARDS;
143 164 188 188 190 192 206 209 213 216
220 227 230 234 246 265 304 -216 -244
142 156 163 198 205 232 232 233 233 233 233
239 240 261 280 280 296 296 323 -204 -344
;
PROC LIFETEST plots=(s,ls,lls);
TIME dias*censura(1);
STRATA grupo;
RUN;
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
Con las sentencias DATA indicamos, en primer lugar, [1], que vamos a crear un conjunto
de datos SAS al que denominamos ejemplo1.
A continuación, [2], con la sentencia INPUT indicamos que la variable que dará origen
a los datos la llamaremos dias y que éstos vendrán en formato libre, al añadir @@.
Después, [3], definimos la variable lógica censura como los datos negativos, redefiniendo,
[4], la variables dias como el valor absoluto de las observaciones.
Se definen por último, [5], los dos grupos (estratos) a comparar, formando el grupo 1,
pretrat1, las 19 primeras observaciones, y pretrat2 las restantes.
La opción plots, [6], nos permitirá obtener gráficos del estimador de la función de supervivencia, el cual por defecto será el de Kaplan-Meier, ası́ como de adecuadas transformaciones
suyas.
Mediante la sentencia TIME, [7], indicamos qué datos son tiempos de fallo y cuáles
de censura. Los tiempos de fallo son aquellos datos proporcionados por la variable dias (40
D
59
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
observaciones positivas puesto que fue redefinida en [4]) menos aquellos en los que además
la variable censura tome el valor 1, en cuyo caso la observación será un dato censurado.
Por último, mediante la sentencia STRATA señalamos, [8], qué variable se utiliza para
formar las poblaciones; en nuestro caso grupo.
Con el programa anterior se obtendrı́an los siguientes resultados
Product-Limit Survival Estimates
GRUPO = pretrat1
DIAS
Survival
0.000
143.000
164.000
188.000
188.000
190.000
192.000
206.000
209.000
213.000
216.000
216.000*
220.000
227.000
230.000
234.000
244.000*
246.000
265.000
304.000
1.0000
0.9474
0.8947
.
0.7895
0.7368
0.6842
0.6316
0.5789
0.5263
0.4737
.
0.4145
0.3553
0.2961
0.2368
.
0.1579
0.0789
0
[1]
[2]
Quantiles
75%
50%
25%
Failure
Survival
Standard
Error
Number
Failed
Number
Left
0
1
2
3
4
5
6
7
8
9
10
10
11
12
13
14
14
15
16
17
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0
0
0.0526
0.0512
0.1053
0.0704
.
.
0.2105
0.0935
0.2632
0.1010
0.3158
0.1066
0.3684
0.1107
0.4211
0.1133
0.4737
0.1145
0.5263
0.1145
.
.
0.5855
0.1145
0.6447
0.1124
0.7039
0.1082
0.7632
0.1015
.
.
0.8421
0.0934
0.9211
0.0728
1.0000
0
* Censored Observation
[3]
234.000
216.000
190.000
Mean
Standard Error
218.757
9.403
[4]
[5]
Product-Limit Survival Estimates
GRUPO = pretrat2
DIAS
0.000
142.000
156.000
163.000
198.000
204.000*
205.000
232.000
232.000
233.000
233.000
233.000
233.000
239.000
240.000
Survival
Failure
Survival
Standard
Error
1.0000
0.9524
0.9048
0.8571
0.8095
.
0.7589
.
0.6577
.
.
.
0.4554
0.4048
0.3542
0
0.0476
0.0952
0.1429
0.1905
.
0.2411
.
0.3423
.
.
.
0.5446
0.5952
0.6458
0
0.0465
0.0641
0.0764
0.0857
.
0.0941
.
0.1053
.
.
.
0.1114
0.1099
0.1072
Number
Failed
Number
Left
0
1
2
3
4
4
5
6
7
8
9
10
11
12
13
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
D
60
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
261.000
280.000
280.000
296.000
296.000
323.000
344.000*
0.3036
.
0.2024
.
0.1012
0.0506
.
[1]
[2]
Quantiles
75%
50%
25%
0.6964
0.1031
.
.
0.7976
0.0902
.
.
0.8988
0.0678
0.9494
0.0493
.
.
* Censored Observation
[3]
280.000
233.000
232.000
14
15
16
17
18
19
19
Mean
Standard Error
6
5
4
3
2
1
0
240.795
11.206
[4]
[5]
NOTE: The last observation was censored so the estimate of the mean is biased.
Summary of the Number of Censored and Uncensored Values
GRUPO
Total
Failed
Censored
%Censored
pretrat1
pretrat2
19
21
17
19
2
2
10.5263
9.5238
Total
40
36
4
10.0000
Survival Function Estimates
S
u
r
v
i
v
a
l
D
i
s
t
r
i
b
u
t
i
o
n
F
u
n
c
t
i
o
n
SDF |
|
|
|
|
1.0 +*---------------------------*P
|
B|-B
|
P---P
|
B-*----P
|
B----|-B
|
| |
0.8 +
P BB
|
| B----B
|
P
|
|
P--P
|
|
|
BB
|
PP
|
0.6 +
|
|
|
PP
|
|
P
|
|
|
|
|
PP BB
|
|
|
0.4 +
PP B
|
PP B---B
|
|
|
|
PP
B---B
|
|
|
|
P-P
|
0.2 +
|
B--B
|
P---P
|
|
|
|
|
|
B-----B
|
P-------P
B
|
|
0.0 +
P
[6]
D
61
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
|
|
|
|
|
-+----+----+----+----+----+----+----+----+----+----+----+----+----+----+
0
25
50
75
100 125 150 175 200 225 250 275 300 325 350
DIAS
Censored Observations
Strata
B +
B
B
P +
P
P
-------+------+------+------+------+------+------+------+------0
50
100
150
200
250
300
350
DIAS
N
e
g
a
t
i
v
e
L
o
g
S
D
F
-Log(Survival Function) Estimates
-LOG SDF |
|
3.0 +
B
|
+
|
+
|
+
|
+
|
+
2.5 +
P
+
|
+
+
|
+
+
|
+
B
|
+
+
|
+
+
2.0 +
+
+
|
+
+
|
P
+
|
+
+
|
+
+
|
+
B
1.5 +
+
+
|
P
+
|
+
+
|
P
+
|
+
+B
|
+ ++
1.0 +
P B
|
P B
|
+ +
|
P B
|
P +
|
P
+
0.5 +
+P
+
|
P
+B
|
P
++
|
+P+BB
|
B++
|
+++++++++++*+*P
0.0 +
*+++++++++++
|
|
-----+-------+-------+-------+-------+-------+-------+-------+----0
50
100
150
200
250
300
350
DIAS
[8]
[9]
D
62
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Log(-Log(Survival Function)) Estimates
L
o
g
N
e
g
a
t
i
v
e
L
o
g
S
D
F
L(-L(S)) |
|
|
|
|
2 +
|
|
|
|
|
+B
1 +
+P
+++
|
++
B+
|
P+
++
|
++
+B
|
P
++
|
P
++B
0 +
P
B++
|
P B+B
|
P
+
|
P
+
|
P
+
|
++P
+B
[10]
-1 +
P++
+++
|
P
++
|
+ +B+
|
+P++B
|
++++++
|
B++++
-2 +
+ ++
|
+ P
|
B++
|
+++
|
++
|
+++
-3 +
BP
|
|
|
|
|
---+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+--4.9
5.0
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
Log DIAS
Legend for Strata Symbols
P:GRUPO=pretrat1
B:GRUPO=pretrat2
Testing Homogeneity of Survival Curves over Strata
Rank Statistics
GRUPO
Log-Rank
Wilcoxon
pretrat1
pretrat2
4.762466
-4.76247
114
-114
[7]
D
63
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
Covariance Matrix for the Log-Rank Statistics
GRUPO
pretrat1
pretrat2
pretrat1
pretrat2
7.26327
-7.26327
-7.26327
7.26327
Covariance Matrix for the Wilcoxon Statistics
GRUPO
pretrat1
pretrat2
pretrat1
pretrat2
4902.22
-4902.22
-4902.22
4902.22
Test of Equality over Strata
Test
Log-Rank
Wilcoxon
-2Log(LR)
Chi-Square
DF
Pr >
Chi-Square
3.1227
2.6510
0.0775
1
1
1
0.0772
0.1035
0.7807
[11]
[12]
[13]
En ellos se observa, en primer lugar, una tabla para cada una de las dos poblaciones, en
donde aparecen, [1], los tiempos de fallo, ti , y de censura (valores con asterı́sco), ası́ como,
[2], los valores del estimador de la función de supervivencia, Ŝ(ti ), en dichos tiempos de
fallo, el cual, al no haber utilizado la opción method será el de Kaplan-Meier. En [3] aparece
su desviación tı́pica estimada. (Sección 2.5.1).
Destancan también, el tiempo medio de supervivencia estimado, [4], y su error de
muestreo, [5].
A continuación aparecen los gráficos del estimador de la función de supervivencia para
cada una de las dos poblaciones, [6], en las que, como se indica en [7], la marcada con una
P corresponde a la primera y la marcada con una B a la segunda.
El gráfico [8] muestra donde se produjeron los valores censurados en cada una de las
dos poblaciones.
El gráfico [9] es una representación de los pares de puntos
{ti , − log(Ŝ(ti ))}
los cuales, al no estar alineados sugieren (véase sección 2.3.1) que un modelo exponencial
para la distribución de tiempo de fallo no es adecuado.
Por el contrario, el gráfico [10], en el cual se representan los pares
{log ti , log(− log(Ŝ(ti )))}
sı́ sugiere (véase sección 2.3.1) una distribución de Weibull como distribución de tiempo de
fallo.
Aunque ni el test de Savage (véase sección 2.6), dado por [11], ni el de Wilcoxon, dado
por [12], sean demasiado concluyentes, en todo caso llevan a aceptar la hipótesis nula de
igualdad antre ambas poblaciones a niveles de significación menores que 0′ 0772.
El test de razón de verosimilitudes, dado por [13], no es indicativo de nada, pues requiere
para su realización que las distribuciones de tiempo de fallo en cada una de las poblaciones,
sea exponencial, supuesto descartado, como vimos, por el gráfico [9].
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
64
Ejemplo 2.2
Los siguientes datos, Feigl y Zelen (1965) corresponden a tiempos de fallo en semanas, T , y
número de glóbulos blancos, W BC, de pacientes con leucemia. Los datos vienen agrupados
en dos poblaciones, una con AG positivo y otra con AG negativo.
AG+
W BC
T
2′ 3
65
0′ 75 156
4′ 3 100
2′ 6 134
6
16
10′ 5 108
10 121
17
4
5′ 4
39
7 143
9′ 4
56
32
26
35
22
100
1
100
1
52
5
100
65
AG–
W BC
4′ 4
3
4
1′ 5
9
5′ 3
10
19
27
28
31
26
21
79
100
100
T
56
65
17
7
16
22
3
4
2
3
8
4
3
30
4
43
Existen dos diferencias con el ejemplo anterior. Aquı́ suponemos una covariable, W BC, y
además que los grupos no se definen previamente, sino mediante una cantidad no controlada,
AG.
El programa SAS que utilizaremos será el siguiente
DATA ejemplo2;
INPUT wbc t @@;
if _n_ < 18 then grupo = ’AG+’;
else grupo = ’AG-’;
lwbc=log(wbc);
CARDS;
2.3 65
.75 156
4.3 100
2.6 134
6
10
121 17
4
5.4 39
7
143
9.4
35
22 100
1 100
1 52
5 100
4.4 56
3
65
4
17
1.5
7
9
10
3 19
4 27
2 28
3 31
21
3 79
30 100
4 100
43
;
PROC LIFETEST;
TIME t;
STRATA grupo;
TEST lwbc;
RUN;
[1]
[2]
[3]
16 10.5 108
56 32
26
65
16 5.3 22
8 26
4
[4]
[5]
[6]
En él se observa, dentro de las sentencias DATA, que con INPUT indicamos, [1], que los
datos que aparecen a continuación, son pares de observaciones de las variables wbc y t,
indicando con @@ que dichos datos vendrán en formato libre.
A continuación, [2], formamos las dos poblaciones, estando en AG+ las 17 primeras observaciones que aparecen después.
D
65
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
Se concluye las sentencias DATA definiendo en [3] una nueva variable, lwbc, como el logaritmo de wbc.
En este ejemplo hacemos las siguientes especificaciones en PROC LIFETEST: con la sentencia TIME señalamos, [4], que la variable tiempo de fallo es t, con STRATA que la variable
utilizada para formar los grupos [5], es grupo, y por último, [6], con TEST que la covariable
a utilizar en la regresión es lwbc.
Con este programa obtendrı́amos los siguientes resultados:
Product-Limit Survival Estimates
GRUPO = AG+
T
Survival
Failure
Survival
Standard
Error
0.000
1.000
1.000
4.000
5.000
16.000
22.000
26.000
39.000
56.000
65.000
65.000
100.000
108.000
121.000
134.000
143.000
156.000
1.0000
.
0.8824
0.8235
0.7647
0.7059
0.6471
0.5882
0.5294
0.4706
.
0.3529
0.2941
0.2353
0.1765
0.1176
0.0588
0
0
.
0.1176
0.1765
0.2353
0.2941
0.3529
0.4118
0.4706
0.5294
.
0.6471
0.7059
0.7647
0.8235
0.8824
0.9412
1.0000
0
.
0.0781
0.0925
0.1029
0.1105
0.1159
0.1194
0.1211
0.1211
.
0.1159
0.1105
0.1029
0.0925
0.0781
0.0571
0
[1]
[2]
Quantiles
Number
Failed
Number
Left
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
[3]
75%
50%
25%
108.000
56.000
16.000
Mean
Standard Error
62.471
13.183
[4]
[5]
Product-Limit Survival Estimates
GRUPO = AG-
T
Survival
Failure
Survival
Standard
Error
0.000
2.000
3.000
3.000
3.000
4.000
4.000
4.000
7.000
8.000
16.000
17.000
22.000
30.000
43.000
56.000
65.000
1.0000
0.9375
.
.
0.7500
.
.
0.5625
0.5000
0.4375
0.3750
0.3125
0.2500
0.1875
0.1250
0.0625
0
0
0.0625
.
.
0.2500
.
.
0.4375
0.5000
0.5625
0.6250
0.6875
0.7500
0.8125
0.8750
0.9375
1.0000
0
0.0605
.
.
0.1083
.
.
0.1240
0.1250
0.1240
0.1210
0.1159
0.1083
0.0976
0.0827
0.0605
0
[1]
[2]
[3]
Number
Failed
Number
Left
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
D
66
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Quantiles
75%
50%
25%
26.000
7.500
3.500
Mean
Standard Error
17.937
5.076
[4]
[5]
Summary of the Number of Censored and Uncensored Values
GRUPO
Total
Failed
Censored
%Censored
AG+
AG-
17
16
17
16
0
0
0.0000
0.0000
Total
33
33
0
0.0000
Testing Homogeneity of Survival Curves over Strata
Rank Statistics
GRUPO
Log-Rank
Wilcoxon
AG+
AG-
-6.70336
6.70336
-128
128
Covariance Matrix for the Log-Rank Statistics
GRUPO
AG+
AG-
AG+
AG-
5.31858
-5.31858
-5.31858
5.31858
Covariance Matrix for the Wilcoxon Statistics
GRUPO
AG+
AG-
AG+
AG-
2927.69
-2927.69
-2927.69
2927.69
Test of Equality over Strata
Test
Log-Rank
Wilcoxon
-2Log(LR)
Chi-Square
DF
Pr >
Chi-Square
8.4487
5.5962
11.9401
1
1
1
0.0037
0.0180
0.0005
[6]
[7]
[8]
Rank Tests for the Association of Response with Covariates
Pooled over Strata
[9]
Univariate Chi-Squares for the WILCOXON Test
Variable
LWBC
Test
Statistic
Variance
-11.7337
15.8531
Chi-Square
8.6848
Pr >
Chi-Square
0.0032
Covariance Matrix for the WILCOXON Statistics
[11]
D
67
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
Variable
LWBC
LWBC
[10]
15.8531
Forward Stepwise Sequence of Chi-Squares for the WILCOXON Test
Variable
LWBC
DF
1
[9]
Pr >
Chi-Square
Chi-Square
8.6848
Chi-Square
Increment
0.0032
Pr >
Increment
8.6848
0.0032
Univariate Chi-Squares for the LOG RANK Test
Variable
LWBC
Test
Statistic
Variance
-19.4051
50.7236
Chi-Square
Pr >
Chi-Square
7.4237
0.0064
[12]
Covariance Matrix for the LOG RANK Statistics
Variable
LWBC
[10]
50.7236
Forward Stepwise Sequence of Chi-Squares for the LOG RANK Test
Variable
LWBC
LWBC
DF
1
Chi-Square
7.4237
Pr >
Chi-Square
0.0064
Chi-Square
Increment
7.4237
Pr >
Increment
0.0064
Se observa en ellos, en primer lugar, una tabla para cada una de las dos poblaciones, en
donde aparecen, [1], los tiempos de fallo, ti , [2], los valores del estimador de la función
de supervivencia, Ŝ(ti ), en dichos tiempos de fallo, el cual, al no haber utilizado la opción
method será el de Kaplan-Meier, y [3], su desviación tı́pica estimada. (Sección 2.5.1).
Destancan también, el tiempo medio de supervivencia estimado, [4], y su error de muestreo,
[5].
A continuación, los tests de Savage, [6], de Wilcoxon, [7], y de razón de verosimilitudes, [8],
concluyen, al ser sus p-valores suficientemente pequeños, que existen diferencias significativas
entre las poblaciones comparadas, es decir, que no pueden considerarse equivalentes los
grupos AG+ y AG–.
Por último aparecen dos tests utilizados para contrastar el grado de dependencia de la
covariable señalada en nuestro programa SAS con la sentencia TEST, lwbc, con la variable
dependiente tiempo de fallo, señalada en TIME, t.
Cada uno de estos dos tests, el de Wilcoxon y el de los rangos logarı́tmicos de Savage, realiza
primero, [9], tests marginales de dependencia entre cada una de las covariables —señaladas
en TEST— y la variable dependiente, y luego, [10], una secuencia de tests de dependencia
en donde va incluyendo a cada paso una nueva covariable. En nuestro ejemplo, al no existir
nada más que una covariable esta segunda secuencia de tests coincide con la primera.
Tanto el test de Wilcoxon como el de los rangos logarı́tmicos, consideran como hipótesis
nula, tanto en sus versiones marginales, [9], como en las secuenciales, [10], la ausencia de
correlación entre la variable dependiente T y la covariable —en el caso marginal [9]— o
D
68
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
covariables —en la secuencia de tests [10].
Es decir, que H0 indicará que la covariable o covariables consideradas no explican adecuadamente a la variable dependiente T , o con más precisión, que el vector de parámetros β es
igual al vector 0.
Un p-valor pequeño llevará a rechazar la correspondiente hipótesis nula y a aceptar, en
consecuencia, una correlación significativa entre las variables consideradas.
En nuestro ejemplo, tanto el test de Wilcoxon, [11], como el de Savage, [12], concluyen con
la existencia de una correlación significativa entre la variable tiempo de fallo y el logaritmo del
número de glóbulos blancos en la sangre, al ser sus p-valores, 0′ 0032 y 0′ 0064 suficientemente
pequeños.
Ejemplo 2.3
Los siguientes datos, Lee (1980), representan, respectivamente, el número de tiempos de fallo
y de censura de hombres con angina de pecho, que se presentan en cada uno de los intervalos
señalados
Intervalo
[0,1)
[1,2)
[2,3)
[3,4)
[4,5)
[5,6)
[6,7)
[7,8)
[8,9)
[9,10)
[10,11)
[11,12)
[12,13)
[13,14)
[14,15)
≥ 15
no
¯ de fallos
456
226
152
171
135
125
83
74
51
42
43
34
18
9
6
0
no
¯ de censuras
0
39
22
23
24
107
133
102
68
64
45
53
33
27
23
30
Con objeto de estimar, entre otras cosas, su función de supervivencia, se realizó el siguiente
programa SAS
DATA ejemplo3; keep freq tiempo c;
retain tiempo -.5;
INPUT fallo censura @@;
tiempo = tiempo + 1;
c = 0; freq = fallo;
output;
c = 1; freq = censura; output;
CARDS;
456
0 226 39 152 22 171 23 135 24 125 107
83 133 74 102 51 68 42 64 43 45 34 53
18 33
9 27
6 23
0
0
0 30
;
PROC LIFETEST plots = (s,ls,lls,h,p)
intervals = (0 to 15)
method = act;
TIME tiempo*c(1);
FREQ freq;
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
D
69
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
RUN;
En él se observa, [1], que las variables a utilizar por el procedimiento más abajo empleado
son las señaladas por keep, es decir, freq, tiempo y c.
Se indica, [2], que en cada paso del programa, debe mantenerse —retain— la variable tiempo,
la cual además debe comenzar en −,5 , para ir aumentando, [4], de uno en uno.
Se indica, [3], mediante INPUT que los datos que aparecerán más abajo son, respectivamente
al añadirse @@, datos de fallo y censura.
No obstante, [5], queremos que nuestros datos salida aparezcan bajo la variable freq
aunque divididos en dos grupos según los valores de la variable c.
Después de los datos aparecen las sentencias propias del procedimiento LIFETEST referidas,
como indicamos con keep, a las variables freq, tiempo y c.
Primero, dentro de las opciones de dicho procedimiento, le indicamos, [6], que realice los
gráficos del estimador de la función de supervivencia, s, del − log de dicho estimador, ls, del
log(− log) del estimador, lls, del estimador de la tasa de azar, h y del estimador de la función
de densidad, p (véase sección 2.7.2). Estos dos últimos, posibles porque en la opción method
indicamos que el estimador de la función de supervivencia a determinar fuera el obtenido por
el método de la tabla de supervivencia, method = act, en donde los intervalos a considerarar
en dicho método deberán llegar hasta el de extremo 15.
Con la sentencia TIME indicamos, [7], que la variable de tiempo de fallo es tiempo siempre
que c sea igual a 1.
Por último, [8], con la sentencia FREQ señalamos que los valores dados por la variable freq
son recuentos, es decir frecuencias absolutas.
Con este programa se obtendrı́an los siguientes resultados
Life Table Survival Estimates
Interval
[Lower, Upper)
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
.
[1]
Interval
[Lower, Upper)
0
1
2
3
4
5
6
1
2
3
4
5
6
7
Number
Failed
Number
Censored
Effective
Sample
Size
456
226
152
171
135
125
83
74
51
42
43
34
18
9
6
0
0
39
22
23
24
107
133
102
68
64
45
53
33
27
23
30
2418.0
1942.5
1686.0
1511.5
1317.0
1116.5
871.5
671.0
512.0
395.0
298.5
206.5
129.5
81.5
47.5
15.0
0.1886
0.1163
0.0902
0.1131
0.1025
0.1120
0.0952
0.1103
0.0996
0.1063
0.1441
0.1646
0.1390
0.1104
0.1263
0
[1]
[1]
[2]
[3]
Survival
Failure
Survival
Standard
Error
1.0000
0.8114
0.7170
0.6524
0.5786
0.5193
0.4611
0
0.1886
0.2830
0.3476
0.4214
0.4807
0.5389
0
0.00796
0.00918
0.0097
0.0101
0.0103
0.0104
Conditional
Probability
of Failure
Conditional
Probability
Standard
Error
0.00796
0.00728
0.00698
0.00815
0.00836
0.00944
0.0099
0.0121
0.0132
0.0155
0.0203
0.0258
0.0304
0.0347
0.0482
0
[4]
Median
Residual
Lifetime
Median
Standard
Error
5.3313
6.2499
6.3432
6.2262
6.2185
5.9077
5.5962
0.1749
0.2001
0.2361
0.2361
0.1853
0.1806
0.1855
D
70
7
8
9
10
11
12
13
14
15
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
8
9
10
11
12
13
14
15
.
0.4172
0.3712
0.3342
0.2987
0.2557
0.2136
0.1839
0.1636
0.1429
0.5828
0.6288
0.6658
0.7013
0.7443
0.7864
0.8161
0.8364
0.8571
0.0105
0.0106
0.0107
0.0109
0.0111
0.0114
0.0118
0.0123
0.0133
5.1671
4.9421
4.8258
4.6888
.
.
.
.
.
0.2713
0.2763
0.4141
0.4183
.
.
.
.
.
[5]
[6]
[7]
[8]
[9]
Evaluated at the Midpoint of the Interval
Interval
[Lower, Upper)
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
.
PDF
PDF
Standard
Error
Hazard
Hazard
Standard
Error
0.1886
0.0944
0.0646
0.0738
0.0593
0.0581
0.0439
0.0460
0.0370
0.0355
0.0430
0.0421
0.0297
0.0203
0.0207
.
0.00796
0.00598
0.00507
0.00543
0.00495
0.00503
0.00469
0.00518
0.00502
0.00531
0.00627
0.00685
0.00668
0.00651
0.00804
.
0.208219
0.123531
0.09441
0.119916
0.108043
0.118596
0.1
0.116719
0.10483
0.112299
0.155235
0.17942
0.149378
0.116883
0.134831
.
0.009698
0.008201
0.007649
0.009154
0.009285
0.010589
0.010963
0.013545
0.014659
0.017301
0.023602
0.030646
0.03511
0.038894
0.054919
.
[10]
[11]
[12]
[13]
Summary of the Number of Censored and Uncensored Values
Total
Failed
Censored
%Censored
2418
1625
793
32.7957
NOTE: There were 4 observations with missing values.
Survival Function Estimates
S
u
r
v
i
v
a
l
D
i
s
t
r
i
b
u
SDF |
|
|
|
|
1.0 +
|
|
|
|
|
0.8 +
|
|
|
|
|
0.6 +
|
|
|
|
A
+
+
+
+
+
A
++
A+
++
A
+
+
A++
+A
++
A++
[14]
D
71
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
t
|
+A
i 0.4 +
++
o
|
A++
n
|
+A+
|
+A++
F
|
+A
u
|
++
n 0.2 +
A+++A+
c
|
+A++
t
|
+A
i
|
o
|
n
|
0.0 +
|
|
|
|
|
--------+------+------+------+------+------+------+------+------+------0
2
4
6
8
10
12
14
16
TIEMPO
-Log(Survival Funcoion) Esoimaoes
H
a
z
a
r
d
F
u
n
c
t
i
o
n
0.25 +
|
|
|
|
|
A
0.20 +
+
|
+
|
+
A
|
+
+ +
|
+
+
+
|
+
A
+
0.15 +
+
+
A
|
+
+
+
|
+
+
+
+A
|
A
+
+ ++
|
+
A++
+A+
A++
+
A
[17]
|
+
+
+A+
++ ++
+A++A
0.10 +
+ +
A
|
A
|
|
|
|
0.05 +
|
|
|
|
|
0.00 +
|
|
|
|
|
------+------+------+------+------+------+------+------+------+-----0
2
4
6
8
10
12
14
16
TIEMPO
Probability Density Function Estimates
D
e
n
s
i
t
y
0.200 +
|
|
|
|
0.175 +
|
|
|
|
0.150 +
|
PDF |
|
|
0.125 +
|
|
|
D
73
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
A
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
D
74
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
|
+
F 0.100 +
+
u
|
A
[18]
n
|
+
c
|
+
t
|
+
i 0.075 +
+
A
o
|
+ ++ ++
n
|
A
+
|
A++A
|
++
0.050 +
+
|
A++A+
+A+
|
++
++
+A+
|
A++A
++
|
A
0.025 +
++
|
A+++A
|
|
|
0.000 +
-------+------+------+------+------+------+------+------+------+-----0
2
4
6
8
10
12
14
16
TIEMPO
En ellos se observa, al haberse solicitado que el método de estimación de la curva de supervivencia fuera el de la tabla de supervivencia, la distribución de frecuencias, por intervalos,
de los tiempos de fallo y de censura, [1].
Además, véase la sección 2.5.2, el número, [2], de individuos en riesgo al comienzo de cada
intervalo, nj , el estimador, [3], de la probabilidad condicionada de fallo en cada uno de los
intervalos, q̂j , ası́ como su error de muestreo, [4].
También se obtiene, [5], el estimador Ŝ(t) de la función de supervivencia al comienzo de
cada intervalo, su error de muestreo, [7], ası́ como 1 − Ŝ(t), [6].
Se obtiene también, [8], un estimador del tiempo de vida residual mediano, el cual se define
como la cantidad de tiempo transcurrido antes de que el número de unidades en riesgo se
reduzca a la mitad. Este valor también se denomina tiempo de vida futuro mediano. Se da
también, [9], su error de muestreo.
A continuación aparece, [10], la función de densidad estimada, fˆ(t), en el punto medio del
intervalo, ası́ como su error de muestreo, [11].
Por último se observa, [12] y [13] respectivamente, el estimador de la tasa de azar, λ̂,
ası́ como su error de muestreo.
Los resultados concluyen con los gráficos antes mencionados. Primero se representa, [14],
los pares de puntos
(ti , Ŝ(ti ))
a continuación, [15], el de los pares de puntos,
En [16] el de los pares
(ti , − log(Ŝ(ti )))
(log ti , log(− log(Ŝ(ti ))))
En [17] el de la tasa de azar, es decir, el de los pares
(ti , λ̂(ti ))
apareciendo, por último, en [18], el de la función de densidad estimada,
D
75
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
(ti , fˆ(ti ))
2.7.2.
Procedimiento LIFEREG
El procedimiento LIFEREG se utiliza con datos, algunos de los cuales
pueden ser censurados por la derecha, o por la izquierda o por intervalos
(véase sección 2.2), con objeto de
Ajustar un modelo de tiempo de fallo acelerado (sección 2.4.3) a dichos
tiempos de fallo, de la forma
Y = xt β + W
con W = log T0 la variable de error con distribución base dada por una
función de densidad f0 , siendo Y la variable dependiente o de respuesta
y xt el vector de covariables o variables independientes.
Los parámetros β se estiman por máxima verosimilitud usando el método
de Newton-Raphson.
Especificaciones del procedimiento LIFEREG
Como en todo procedimiento SAS el procedimiento LIFEREG permite
una serie de especificaciones. La más importante, además de obligatoria, es la
sentencia MODEL,
PROC LIFEREG;
MODEL respuesta = covariables / opciones;
Con esta sentencia especificamos cual es la variable dependiente, respuesta,
y cuales las covariables o variables independientes, covariables.
Si existen datos censurados debemos indicarlo de una de las siguientes
maneras:
• Si existe una variable indicadora de censura, para unos determinados
valores de la cual, los datos observados en respuesta son censurados por la
derecha, debemos expresarlo de la forma
MODEL respuesta< ∗censura(numero) >= covariables / opciones;
Ası́ por ejemplo, si la variable de respuesta es muerte, salvo en aquellos
casos en los que la variable perdida tome los valores 0 y 1, en cuyo caso los
datos son tiempos de censura en lugar de tiempos de fallo, lo indicaremos de
la forma
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
76
MODEL muerte∗perdida(0,1) = covariables / opciones;
• Si existe un intervalo de censura (minimo , maximo) fuera del cual los
datos son censurados, lo expresaremos de la forma
MODEL (minimo, maximo) = covariables / opciones;
Si se omite el extremo inferior del intervalo de censura, se obtienen datos
censurados por la izquierda. La ausencia del extremo superior se utiliza, por
su parte, para indicar una censura por la derecha.
En todos los casos, en opciones se fija la distribución base de la variable
de error W .
Debemos expresarlo de la forma
MODEL respuesta = covariables / DIST = distribucion;
y entre las posibles distribuciones a especificar en distribución se incluyen
WEIBULL, comando mediante el cual se especifica la distribución de Weibull.
No obstante, esta distribución se tiene por defecto.
EXPONENTIAL, especifica una distribución exponencial.
LNORMAL, especifica una distribución Log-Normal.
LLOGISTIC, especifica una distribución Log-Logı́stica.
GAMMA, especifica una distribución gamma.
NORMAL, especifica una distribución normal.
LOGISTIC, especifica una distribución logı́stica.
Si queremos ajustar más de un modelo, especificaremos una lı́nea para cada
uno de ellos, etiquetándolos al comienzo. Por ejmplo,
A: MODEL ...
B: MODEL ...
Ejemplo 2.4
Los siguientes datos, Nelson y Hahn (1972), corresponden al número de horas hasta el fallo
de 40 motores actuando bajo determinadas temperaturas
D
77
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
Temp.
150o C
170o C
1764
2772
190o C
220o C
408
408
408
408
Horas hasta el fallo
Ninguno de los 10 falló a las 8064 horas
3444 3542 3780 4860 5196
No fallaron 3
a las 5448 horas
1344 1344 1440
No fallaron 5 a las 1680 horas
504
504
504
No fallaron 5 a las 528 horas
El principal propósito del experimento fue estimar el tiempo mediano de vida a una temperatura de 130o C, utilizando un modelo de tiempo de fallo acelerado con una sola covariable
x = 1000/(273′ 2 + tempe) y una distribución base log-normal, o de Weibull.
Como el método de mı́nimos cuadrados ponderados, utilizado para estimar los parámetros
de regresión β, requiere al menos dos fallos en cada temperatura, se eliminaron los datos
referentes a 150o C.
Por otro lado, con objeto de utilizar la misma notación que el SAS, expresaremos el modelo
de tiempo de fallo acelerado de la forma
Y = α + xβ + σω
El programa SAS a utilizar será el siguiente
DATA ejemplo4;
INPUT tiempo censura tempe @@;
x = 1000/(273.2+tempe);
CARDS;
1764 1 170 2772 1 170 3444 1 170 3542
5196 1 170 5448 0 170 5448 0 170 5448
1344 1 190 1344 1 190 1440 1 190 1680
1680 0 190 1680 0 190 408 1 220 408
504 1 220 528 0 220 528 0 220 528
;
PROC LIFEREG;
A: MODEL tiempo*censura(0) = x;
B: MODEL tiempo*censura(0) = x /
RUN;
[1]
[2]
1
0
0
1
0
170 3780 1 170 4860 1 170
170 408 1 190 408 1 190
190 1680 0 190 1680 0 190
220 504 1 220 504 1 220
220 528 0 220 528 0 220
[3]
[4]
DIST = LNORMAL;
En él se observa, [1], que los datos corresponden a las variables tiempo, censura y tempe,
los cuales se introducen en formato libre al añadirse @@.
Se define a continuación, [2], la variable x, la cual será utilizada más abajo por el procedimiento como covariable en el modelo.
Después de los datos aparecen las sentencias propias del procedimiento LIFEREG, en donde
se especifican dos modelos a considerar, uno con distribución de Weibull para los errores,
[3], y el otro con distribución log-normal, [4].
En ellos se señala que aquellos tiempos en los que la variable censura tome el valor 0 será datos
censurados, y el resto tiempos de fallo. En ambos se expresa como covariable x.
Los resultados obtenidos con dicho programa SAS serı́an los siguientes
L I F E R E G
P R O C E D U R E
Data Set
=WORK.EJEMPLO4
Dependent Variable=Log(TIEMPO)
Censoring Variable=CENSURA
Censoring Value(s)=
0
Noncensored Values=
17 Right Censored Values=
Left Censored Values=
0 Interval Censored Values=
Log Likelihood for WEIBULL -22.95148315
13
0
[1]
[1]
[2]
D
78
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
L I F E R E G
P R O C E D U R E
Variable
DF
Estimate
Std Err
ChiSquare
Pr>Chi
Label/Value
INTERCPT
X
SCALE
1
1
1
-11.89122
9.03834032
0.36128138
[3]
1.965507
0.905993
0.079501
[4]
36.6019
99.52392
0.0001
0.0001
Intercept
[5]
[6]
Extreme value scale paramet
L I F E R E G
P R O C E D U R E
Data Set
=WORK.EJEMPLO4
Dependent Variable=Log(TIEMPO)
Censoring Variable=CENSURA
Censoring Value(s)=
0
Noncensored Values=
17 Right Censored Values=
Left Censored Values=
0 Interval Censored Values=
13
0
Log Likelihood for LNORMAL -24.47381031
L I F E R E G
[7]
P R O C E D U R E
Variable
DF
Estimate
Std Err
ChiSquare
Pr>Chi
Label/Value
INTERCPT
X
SCALE
1
1
1
-10.470563
8.3220835
0.6040344
[8]
2.77192
1.284124
0.110729
14.26851
42.00011
0.0002
0.0001
Intercept
Normal scale parameter
En ellos se observa, después de un recuento de cuales datos son no censurados y cuales
censurados (y de que tipo), [1], el valor alcanzado por la verosimilitud bajo un modelo
Weibull para los errores, [2], igual a −22′ 95148.
La tabla que aparece a continuación recoge las estimaciones, [3], de los parámetros del
modelo de tiempo de fallo acelerado
Y = α + xβ + σω
′
′
las cuales son α̂ = −11 891, β̂ = 9 038 y σ̂ = 0′ 3613.
Se observa también su desviación tı́pica, [4], ası́ como los tests para contrastar la hipótesis
nula de igualdad a cero de los parámetros de regresión, los cuales tiene unos valores del estadı́stico de contraste dados por [5], siendo el p-valor de cada uno de ellos, [6], los suficientemente significativo como para rechazar dicha hipótesis nula y aceptar, en consecuencia, el modelo propuesto, el cual, al ser para 130o C la covariable igual a x0 = 1000/(273′ 2+130) = 2′ 48
implica una predicción para el logaritmo del tiempo de vida mediano igual a
y0′ 5 = −11′ 891 + 2′ 48 · 9′ 038 + 0′ 3613 · 0 = 10′ 523
al ser w0′ 5 = 0.
En la segunda parte de los resultados se observa de nuevo, lógicamente, el mismo recuento de
valores censurados y no censurados, una verosimilitud, [7], bajo una distribución log-normal,
algo menor, −24′ 4738, —lo cual sugiere utilizar el modelo con distribución de Weibull—
, confirmando los tests de la última tabla las estimaciones dadas en [8], α̂ = −10′ 471,
β̂ = 8′ 322 y σ̂ = 0′ 604, las cuales proporcionan ahora una estimación para el logaritmo del
tiempo de vida mediano igual a
D
79
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
y0′ 5 = −10′ 471 + 2′ 48 · 8′ 322 + 0′ 604 · 0 = 10′ 17
Utilizando el modelo de tiempo de fallo acelerado, con una distribución de Weibull para los
errores, el tiempo de vida mediano estimado será, por tanto, exp{10′ 523} = 37160′ 4.
Ejemplo 2.5
Los siguientes datos, Tobin (1958), corresponden a 20 observaciones de tres variables, duracion, edad y liquidez, obtenidos con objeto de ajustar un modelo de tiempo de fallo acelerado,
en donde figure como variable dependiente duracion y en donde se admita como distribución
base una normal.
Se supone que la variable duracion está censurada por la izquierda en cero, por lo que
debemos eliminar aquellos datos en los que dicha variable tome el valor 0.
El programa SAS a utilizar será el siguiente
DATA ejemplo5;
INPUT duracion edad liquidez @@;
IF duracion=0 THEN menor=.;
ELSE menor=duracion;
CARDS;
0.0 57.7 236
0.0 59.8 216
10.4 46.8 207
0.7 50.9 283
0.0 44.3 284
0.0 58.0 249
0.0 48.5 207
3.7 45.1 221
0.0 58.9 246
0.0 41.7 220
0.0 51.7 275
0.0 40.0 277
0.0 47.7 238
3.0 50.0 269
1.5 34.1 231
;
PROC LIFEREG;
MODEL (menor , duracion) = edad liquidez
RUN;
[1]
0.0
0.0
3.5
6.1
0.0
39.9
33.4
48.1
46.1
53.1
219
240
266
214
251
/ DIST = NORMAL;
[2]
En él se observa la introducción de la variable menor con la que definir el intervalo de censura
utilizado en [2]. El resto de las sentencias son ya conocidas.
Los resultados obtenidos con dicho programa SAS serı́an los siguientes
L I F E R E G
P R O C E D U R E
Data Set
=WORK.EJEMPLO5
Dependent Variable=MENOR
Dependent Variable=DURACION
Noncensored Values=
7 Right Censored Values=
Left Censored Values= 13 Interval Censored Values=
0
0
Log Likelihood for NORMAL -28.92596097
L I F E R E G
P R O C E D U R E
Variable
DF
Estimate
Std Err
ChiSquare
Pr>Chi
Label/Value
INTERCPT
EDAD
LIQUIDEZ
SCALE
1
1
1
1
15.2771208
-0.1340075
-0.0451356
5.56935051
[1]
16.03272
0.218931
0.058269
1.728145
0.907964
0.374664
0.600026
0.3407
0.5405
0.4386
Intercept
Normal scale parameter
[2]
En ellos se observan las estimaciones del modelo, quedando éste de la forma
Y = 15′ 277 − 0′ 134 · EDAD − 0′ 045 · LIQUIDEZ + 5′ 569 ω
D
80
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
No obstante, los p-valores, [2], de los tests que contrastan como hipótesis nula la igualdad
de cero de los parámetros del modelo, sugieren que el ajuste efectuado no es el adecuado.
2.7.3.
Procedimiento PHREG
El procedimiento PHREG se utiliza con datos, algunos de los cuales pueden
ser censurados por la derecha, con objeto de
Realizar un análisis de regresión basado en el modelo de azar proporcional
(véase sección 2.4.2) el cual supone una función tasa de azar de la forma
λ(t; x) = λ0 (t) ex
tβ
y, en consecuencia, una función de supervivencia de la forma
S(t; x) = [S0 (t)]exp{x
t β}
en donde λ0 es la denominada tasa de azar base y S0 la correspondiente
función de supervivencia base.
Especificaciones del procedimiento PHREG
Como en todo procedimiento SAS el procedimiento PHREG permite una
serie de especificaciones. La más importante, además de obligatoria, es la sentencia MODEL,
PROC PHREG;
MODEL respuesta = covariables / opciones;
Con esta sentencia especificamos cual es la variable dependiente, respuesta,
y cuales las covariables o variables independientes, covariables.
Si existen datos censurados debemos indicarlo introduciendo una variable
indicadora de censura, para unos determinados valores de la cual, los datos
observados en respuesta son censurados por la derecha, debemos expresarlo de
la forma
MODEL respuesta< ∗censura(numero) >= covariables / opciones;
Ası́ por ejemplo, si la variable de respuesta es muerte, salvo en aquellos
casos en los que la variable perdida tome los valores 1 y 2, en cuyo caso los
datos son tiempos de censura en lugar de tiempos de fallo, lo indicaremos de
la forma
MODEL muerte∗perdida(1,2) = covariables / opciones;
D
81
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
Entre la opciones de MODEL están las siguientes
SELECTION = opcion
Mediante SELECTION determinamos la manera en la que SAS selecciona
las coariables significativas en el modelo de azar proporcional.
Podemos elegir, entre otras, stepwise, con la cual elegimos el método stepwise de selección, o score con el cual idetificamos un número determinado de
modelos con un mayor estadı́stico χ2 de entre todos los posibles modelos que
podemos formar con las covariables, utilizando desde una hasta todas ellas. El
número de modelos, n, se determina con BEST=n.
SLENTRY = α
Especifica el nivel de significación con el que se realiza el contraste para
incorporar las variables con el método stepwise. Entre todas las covariables
que no estén en el modelo, se incorpora aquella con el p-valor más pequeño, si
éste es menor o igual que α.
SLSTAY = α
Especifica el nivel de significación con el que se realiza el contraste para
eliminar las variables con el método stepwise. Entre todas las covariables que
están en el modelo, se elimina aquella con el mayor p-valor, si éste es mayor
que α.
DETAILS
Permite obtener detalles del proceso de selección de las variables por el
método stepwise.
Ejemplo 2.1 (continuación)
El propósito ahora es utilizar un modelo de azar porporcional en donde se considera a
la variable de respuesta dias, función —a través de dicho modelo— de la covariable grupo.
El programa SAS a utilizar serı́a el siguiente
DATA ejemplo6;
INPUT dias estatus grupo @@;
CARDS;
143 1 1 164 1 1 188 1 1 188 1 1
209 1 1 213 1 1 216 1 1 220 1 1
246 1 1 265 1 1 304 1 1 216 0 1
163 1 2 198 1 2 205 1 2 232 1 2
233 1 2 233 1 2 239 1 2 240 1 2
296 1 2 296 1 2 323 1 2 204 0 2
;
PROC PHREG;
MODEL dias*estatus(0) = grupo;
RUN;
190
227
244
232
261
344
1
1
0
1
1
0
1
1
1
2
2
2
192
230
142
233
280
1
1
1
1
1
1
1
2
2
2
206
234
156
233
280
1
1
1
1
1
1
1
2
2
2
[1]
En él se observa, [1], la identificación de la censura como el valor 0 de la variable estatus,
ası́ como que en dicho modelo la covariable utilizada es grupo. El resto de las sentencias son
D
82
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
ya conocidas.
Los resultados obtenidos con dicho programa SAS serı́an los siguientes
The PHREG Procedure
Data Set: WORK.EJEMPLO6
Dependent Variable: DIAS
Censoring Variable: ESTATUS
Censoring Value(s): 0
Ties Handling: BRESLOW
Summary of the Number of
Event and Censored Values
Total
Event
Censored
Percent
Censored
40
36
4
10.00
Testing Global Null Hypothesis: BETA=0
Criterion
-2 LOG L
Score
Wald
Without
Covariates
With
Covariates
204.317
.
.
201.438
.
.
Model Chi-Square
2.878 with 1 DF (p=0.0898)
3.000 with 1 DF (p=0.0833)
2.925 with 1 DF (p=0.0872)
[1]
[1]
[1]
Analysis of Maximum Likelihood Estimates
Variable
GRUPO
DF
Parameter
Estimate
Standard
Error
Wald
Chi-Square
Pr >
Chi-Square
Risk
Ratio
1
-0.595896
0.34840
2.92532
0.0872
0.551
[2]
Como la variable grupo toma solamente dos valores, la hipótesis nula de igualdad entre
los dos grupos, resulta equivalente a la hipótesis nula aquı́ contrastada H0 : β = 0. Los
p-valores, [1], de los tres tests realizados, no son nada concluyentes.
Se incluye también, [2], el valor del cociente entre las tasas de azar de cada uno de los
dos grupos. El valor de dicho estadı́stico, 0′ 551, implica que la tasa de azar para el grupo 2
es menor que para el grupo 1. Es decir, las ratas del grupo 2 viven más tiempo que las del
grupo 1.
Obsérvese que la comparación de las curvas de supervivencia aquı́ realizada es diferente
a la del capı́tulo 2. Aquı́, ambas funciones de supervivencia son modeladas a través de un
modelo de azar proporcional. Allı́ eran estimadas por medio del estimador de Kaplan-Meier
o por medio de la tabla de supervivencia y luego comparadas.
Ejemplo 2.6
Krall, Uthoff y Harley (1975) analizaron datos procedentes de un estudio sobre cáncer de
huesos, en el cual, los investigadores trataron 65 pacientes con agentes alcalinos. De esos
pacientes, 48 murieron (por el mal en cuestión) durante el estudio y 17 sobrevivieron.
Cuando diagnosticaron a los pacientes su enfermedad, los investigadores observaron en ellos
las siguientes variables: logbun el logaritmo de bun, hgb niveles de hemoglobina, plaqueta
niveles de plaquetas, edad de los pacientes, logwbc el logaritmo de wbc, frac número de
fracturas, logplas logarı́tmo del porcentaje de células con plasma en la médula de los huesos,
proteina niveles de proteinas y suerocal niveles de suero cálcico.
D
83
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
El propósito del experimento es determinar que variables de entre las anteriores son significativas, supuesto un modelo de azar proporcional para el tiempo de supervivencia.
Los datos obtenidos aparecen ya en el siguiente programa SAS, los cuales incluyen también
el tiempo de fallo de cada individuo y una variable de censura para indicar los 17 individuos
que sobrevivieron al estudio y que, por tanto, corresponden a datos censurados.
DATA ejemplo7;
INPUT tiempo censura logbun hgb plaqueta edad logwbc frac
logplas proteina suerocal;
CARDS;
1.25 1 2.2175
9.4 1 67 3.6628 1 1.9542 12 10
1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18
2.00 1 1.5185
9.8 1 81 3.8751 1 2.0000
2 15
2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553
0 12
2.00 1 1.3010
5.1 0 57 3.7243 1 2.0000
3
9
3.00 1 1.5441
6.7 1 46 4.4757 0 1.9345 12 10
5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628
4
9
5.00 1 1.6812
6.5 1 74 3.7324 0 1.7324
5
9
6.00 1 1.3617
9.0 1 77 3.5441 0 1.4624
1
8
6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617
1
8
6.00 1 1.1139
9.7 1 60 3.5185 1 1.3979
0 10
6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902
0
8
7.00 1 1.9777
9.5 1 48 3.3617 1 1.5682
5 10
7.00 1 1.0414
5.1 0 61 3.7324 1 2.0000
1 10
7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185
1 13
9.00 1 1.7243
8.2 1 55 3.7993 1 1.7404
0 12
11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788
0 10
11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761
1
9
11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195
1 10
11.00 1 1.5682
7.5 1 70 3.8865 0 1.6721
0 12
11.00 1 1.0792
9.6 1 51 3.5051 1 1.9031
0
9
13.00 1 0.7782
5.5 0 60 3.5798 1 1.3979
2 10
14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553
2 10
15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314
0 11
16.00 1 1.3424
9.0 1 48 3.9345 1 2.0000
0 10
16.00 1 1.3222
8.8 1 62 3.6990 1 0.6990 17 10
17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472
4
9
17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128
1 10
18.00 1 1.4472
7.5 1 65 3.5682 0 0.9031
7
8
19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000
6 15
19.00 1 1.2553
7.5 0 60 3.7924 1 1.9294
5
9
24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771
0
9
25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435
0 10
26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11
32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335
1
9
35.00 1 1.1139
7.0 0 48 3.6532 1 1.1761
4 10
37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041
7
9
41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771
6 10
41.00 1 1.1461
5.0 1 70 3.5185 1 1.3424
0
9
51.00 1 1.5682
7.7 0 74 3.4150 1 1.0414
4 13
52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532
4 10
54.00 1 1.2553
9.0 1 49 3.7243 1 1.6990
2 10
58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10
66.00 1 1.4472
6.6 1 59 3.7853 1 1.8195
0
9
67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414
1 10
88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21
9
89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232
1
9
92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150
4 11
4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10
D
84
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232
0 13
7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573
0 10
7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808
0 11
8.00 0 1.0792
9.9 1 57 3.8325 1 1.6532
0
8
12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461
0
7
11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451
3
9
12.00 0 1.3979
8.8 1 66 3.8388 1 1.3617
0
9
13.00 0 1.6628
4.9 0 71 3.6435 0 1.7924
0
9
16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031
0
9
19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000
1 10
19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185
0 10
28.00 0 1.2304
7.3 1 82 3.7482 1 1.6721
0
9
41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472
1
9
53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000
1 11
57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542
0 11
77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542
0 12
;
PROC PHREG;
MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac
logplas proteina suerocal /
SELECTION=stepwise
[1]
SLENTRY=0.25
[2]
SLSTAY=0.15
[3]
DETAILS;
[4]
RUN;
Las sentencias del paso data son ya concocidas. Respecto a las sentencias especı́ficas del
procedimiento PHREG, se indica, [1], que el método de selección de variables es stepwise y que los niveles de significación para incorporar variables, [2], y para excluirlas, [3]
son respectivamente 0′ 25 y 0′ 15. Se requiere, por último, [4], que el proceso se muestre
detalladamente.
Los resultados obtenidos con dicho programa SAS serı́an los siguientes
The PHREG Procedure
Data Set: WORK.EJEMPLO7
Dependent Variable: TIEMPO
Censoring Variable: CENSURA
Censoring Value(s): 0
Ties Handling: BRESLOW
Summary of the Number of
Event and Censored Values
Total
Event
Censored
Percent
Censored
65
48
17
26.15
Analysis of Variables Not in the Model
Variable
Score
Chi-Square
Pr >
Chi-Square
LOGBUN
HGB
PLAQUETA
EDAD
LOGWBC
FRAC
8.5164
5.0664
3.1816
0.0183
0.5658
0.9151
0.0035
0.0244
0.0745
0.8924
0.4519
0.3388
[1]
D
85
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
LOGPLAS
PROTEINA
SUEROCAL
0.5846
0.1466
1.1109
Residual Chi-square = 18.4550
Step
0.4445
0.7018
0.2919
with 9 DF (p=0.0302)
1: Variable LOGBUN is entered. The model contains the following
explanatory variables.
LOGBUN
The PHREG Procedure
Testing Global Null Hypothesis: BETA=0
Criterion
-2 LOG L
Score
Wald
Without
Covariates
With
Covariates
309.716
.
.
301.959
.
.
Model Chi-Square
7.757 with 1 DF (p=0.0053)
8.516 with 1 DF (p=0.0035)
8.339 with 1 DF (p=0.0039)
Analysis of Maximum Likelihood Estimates
Variable
LOGBUN
DF
Parameter
Estimate
Standard
Error
Wald
Chi-Square
Pr >
Chi-Square
Risk
Ratio
1
1.745947
0.60460
8.33919
0.0039
[2]
5.731
Analysis of Variables Not in the Model
Variable
Score
Chi-Square
Pr >
Chi-Square
HGB
PLAQUETA
EDAD
LOGWBC
FRAC
LOGPLAS
PROTEINA
SUEROCAL
4.3468
2.0183
0.7159
0.0704
1.0354
1.0334
0.5214
1.4150
0.0371
0.1554
0.3975
0.7908
0.3089
0.3094
0.4703
0.2342
Residual Chi-square = 9.3164
Step
[3]
with 8 DF (p=0.3163)
2: Variable HGB is entered. The model contains the following
explanatory variables.
LOGBUN
HGB
The PHREG Procedure
Testing Global Null Hypothesis: BETA=0
Criterion
-2 LOG L
Score
Without
Covariates
With
Covariates
309.716
.
297.767
.
Model Chi-Square
11.949 with 2 DF (p=0.0025)
12.725 with 2 DF (p=0.0017)
D
86
Wald
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
.
.
12.190 with 2 DF (p=0.0023)
Analysis of Maximum Likelihood Estimates
Variable
LOGBUN
HGB
DF
Parameter
Estimate
Standard
Error
Wald
Chi-Square
Pr >
Chi-Square
Risk
Ratio
1
1
1.674399
-0.118987
0.61209
0.05751
7.48330
4.28112
0.0062
0.0385
[4]
5.336
0.888
Analysis of Variables Not in the Model
Variable
Score
Chi-Square
Pr >
Chi-Square
PLAQUETA
EDAD
LOGWBC
FRAC
LOGPLAS
PROTEINA
SUEROCAL
0.2266
1.3508
0.3785
1.0491
0.6741
0.6592
1.8225
0.6341
0.2451
0.5384
0.3057
0.4116
0.4168
0.1770
Residual Chi-square = 5.3635
Step
[5]
with 7 DF (p=0.6157)
3: Variable SUEROCAL is entered. The model contains the following
explanatory variables.
LOGBUN
HGB
SUEROCAL
The PHREG Procedure
Testing Global Null Hypothesis: BETA=0
Criterion
-2 LOG L
Score
Wald
Without
Covariates
With
Covariates
309.716
.
.
296.078
.
.
Model Chi-Square
13.638 with 3 DF (p=0.0034)
15.305 with 3 DF (p=0.0016)
14.454 with 3 DF (p=0.0023)
Analysis of Maximum Likelihood Estimates
Variable
DF
Parameter
Estimate
Standard
Error
Wald
Chi-Square
Pr >
Chi-Square
Risk
Ratio
LOGBUN
HGB
SUEROCAL
1
1
1
1.635924
-0.126428
0.132856
0.62359
0.05868
0.09868
6.88214
4.64194
1.81254
0.0087
0.0312
0.1782
[6]
5.134
0.881
1.142
Step
4: Variable SUEROCAL is removed. The model contains the following
explanatory variable(s).
LOGBUN
HGB
Testing Global Null Hypothesis: BETA=0
D
87
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
Criterion
-2 LOG L
Score
Wald
Without
Covariates
With
Covariates
309.716
.
.
297.767
.
.
Model Chi-Square
11.949 with 2 DF (p=0.0025)
12.725 with 2 DF (p=0.0017)
12.190 with 2 DF (p=0.0023)
The PHREG Procedure
Analysis of Maximum Likelihood Estimates
Variable
LOGBUN
HGB
DF
Parameter
Estimate
Standard
Error
Wald
Chi-Square
Pr >
Chi-Square
Risk
Ratio
1
1
1.674399
-0.118987
0.61209
0.05751
7.48330
4.28112
0.0062
0.0385
5.336
0.888
Analysis of Variables Not in the Model
Variable
Score
Chi-Square
Pr >
Chi-Square
PLAQUETA
EDAD
LOGWBC
FRAC
LOGPLAS
PROTEINA
SUEROCAL
0.2266
1.3508
0.3785
1.0491
0.6741
0.6592
1.8225
0.6341
0.2451
0.5384
0.3057
0.4116
0.4168
0.1770
Residual Chi-square = 5.3635
with 7 DF (p=0.6157)
NOTE: Model building terminates because the variable to be entered is the
variable that was removed in the last step.
[7]
Summary of Stepwise Procedure
Step
1
2
3
4
Variable
Entered
Removed
LOGBUN
HGB
SUEROCAL
SUEROCAL
Number
In
Score
Chi-Square
Wald
Chi-Square
Pr >
Chi-Square
1
2
3
2
8.5164
4.3468
1.8225
.
.
.
.
1.8125
0.0035
0.0371
0.1770
0.1782
El procedimiento de selección stepwise es un proceso a pasos de inclusión y exclusión de
covariables.
Primero se realizan, [1], unos tests χ2 para cada una de las covariables. El primer paso
consiste en incluir aquella covariable para la que se haya obtenido un menor p-valor en
los tests χ2 anteriores, y siempre y cuando dicho p-valor sea menor o igual que el lı́mite
establecido en la opción SLENTRY.
En nuestro caso, dicho lı́mite era 0′ 25, por lo que incorporamos la covariable logbun, de
p-valor marginal 0′ 0035. Véase Step 1.
A continuación, como el test de Wald, [2], proporciona un p-valor (0′ 0039) menor que el
lı́mite de exclusión de covariables fijado en la opción SLSTAY, (0′ 15 en nuestro programa),
la covariable logbun se queda en el modelo.
Una nueva serie de tests χ2 , [3], indican que la siguiente covariable a incorporar al modelo
es hgb de p-valor 0′ 0371 menor que el lı́mite antes mencionado 0′ 25.
De nuevo el test de Wald, [4], indica valores significativos, tanto para logbun como para hgb,
al no llegar ninguno de los dos p-valores al lı́mite 0′ 15, infiéndose, por tanto, la permanencia
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
88
de la covariables logbun y hgb en el modelo.
La siguiente baterı́a de tests, [5], sugiere incorporar ahora a la covariable suerocal, formando
un modelo con las covariables logbun, hgb y suerocal.
No obstante, el test de Wald, [6], resulta no ser significativo para la variable suerocal (p-valor
= 0′ 1782), con lo que es excluida del modelo. Véase Step 4.
El proceso concluye, [7], con un resumen de los pasos dados, que para nuestro ejemplo
implican incorporar al modelo, en definitiva, las covariables logbun y hgb.
Ejemplo 2.7
Como antes dijimos, una forma alternativa de seleccionar las variables a incorporar al modelo
es la de utilizar la opción score en SELECTION. A continuación vamos a repetir el ejemplo
anterior, utilizando esta opción. El programa SAS a utilizar serı́a el siguiente
DATA ejemplo8;
INPUT tiempo censura logbun hgb plaqueta edad logwbc frac
logplas proteina suerocal;
CARDS;
1.25 1 2.2175
9.4 1 67 3.6628 1 1.9542 12 10
1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18
2.00 1 1.5185
9.8 1 81 3.8751 1 2.0000
2 15
2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553
0 12
2.00 1 1.3010
5.1 0 57 3.7243 1 2.0000
3
9
3.00 1 1.5441
6.7 1 46 4.4757 0 1.9345 12 10
5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628
4
9
5.00 1 1.6812
6.5 1 74 3.7324 0 1.7324
5
9
6.00 1 1.3617
9.0 1 77 3.5441 0 1.4624
1
8
6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617
1
8
6.00 1 1.1139
9.7 1 60 3.5185 1 1.3979
0 10
6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902
0
8
7.00 1 1.9777
9.5 1 48 3.3617 1 1.5682
5 10
7.00 1 1.0414
5.1 0 61 3.7324 1 2.0000
1 10
7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185
1 13
9.00 1 1.7243
8.2 1 55 3.7993 1 1.7404
0 12
11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788
0 10
11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761
1
9
11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195
1 10
11.00 1 1.5682
7.5 1 70 3.8865 0 1.6721
0 12
11.00 1 1.0792
9.6 1 51 3.5051 1 1.9031
0
9
13.00 1 0.7782
5.5 0 60 3.5798 1 1.3979
2 10
14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553
2 10
15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314
0 11
16.00 1 1.3424
9.0 1 48 3.9345 1 2.0000
0 10
16.00 1 1.3222
8.8 1 62 3.6990 1 0.6990 17 10
17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472
4
9
17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128
1 10
18.00 1 1.4472
7.5 1 65 3.5682 0 0.9031
7
8
19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000
6 15
19.00 1 1.2553
7.5 0 60 3.7924 1 1.9294
5
9
24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771
0
9
25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435
0 10
26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11
32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335
1
9
35.00 1 1.1139
7.0 0 48 3.6532 1 1.1761
4 10
37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041
7
9
41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771
6 10
41.00 1 1.1461
5.0 1 70 3.5185 1 1.3424
0
9
D
89
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 2. Análisis de Supervivencia
51.00 1 1.5682
7.7 0 74 3.4150 1 1.0414
4 13
52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532
4 10
54.00 1 1.2553
9.0 1 49 3.7243 1 1.6990
2 10
58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10
66.00 1 1.4472
6.6 1 59 3.7853 1 1.8195
0
9
67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414
1 10
88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21
9
89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232
1
9
92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150
4 11
4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10
4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232
0 13
7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573
0 10
7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808
0 11
8.00 0 1.0792
9.9 1 57 3.8325 1 1.6532
0
8
12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461
0
7
11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451
3
9
12.00 0 1.3979
8.8 1 66 3.8388 1 1.3617
0
9
13.00 0 1.6628
4.9 0 71 3.6435 0 1.7924
0
9
16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031
0
9
19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000
1 10
19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185
0 10
28.00 0 1.2304
7.3 1 82 3.7482 1 1.6721
0
9
41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472
1
9
53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000
1 11
57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542
0 11
77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542
0 12
;
PROC PHREG;
MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac
logplas proteina suerocal /
SELECTION=score
BEST=3;
[1]
RUN;
en donde se observa, [1], que SAS debe elegir, en este caso tres, mejores modelos de cada
tamaño. Es decir, el procedimiento deberá mostrar los tres modelos con mayor estadı́stico χ2
—los más significativos, es decir, para aquellos que se rechace más claramente la hipotesis
H0 : β = 0— de todos los modelos posibles con cada número indicado de covariables.
Los resultados obtenidos con este programa fueron los siguientes
The PHREG Procedure
Data Set: WORK.EJEMPLO8
Dependent Variable: TIEMPO
Censoring Variable: CENSURA
Censoring Value(s): 0
Ties Handling: BRESLOW
Summary of the Number of
Event and Censored Values
Total
Event
Censored
Percent
Censored
65
48
17
26.15
The PHREG Procedure
Regression Models Selected by Score Criterion
D
90
In
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Score
Value
Variables Included in Model
1
8.516 LOGBUN
1
5.066 HGB
1
3.182 PLAQUETA
-----------------------------2
12.725 LOGBUN HGB
2
11.184 LOGBUN PLAQUETA
2
9.996 LOGBUN SUEROCAL
------------------------------------3
15.305 LOGBUN HGB SUEROCAL
3
13.991 LOGBUN HGB EDAD
3
13.579 LOGBUN HGB FRAC
------------------------------------4
16.987 LOGBUN HGB EDAD SUEROCAL
4
16.046 LOGBUN HGB FRAC SUEROCAL
4
15.762 LOGBUN HGB LOGPLAS SUEROCAL
------------------------------------------------5
17.629 LOGBUN HGB EDAD FRAC SUEROCAL
5
17.352 LOGBUN HGB EDAD LOGPLAS SUEROCAL
5
17.192 LOGBUN HGB EDAD LOGWBC SUEROCAL
----------------------------------------------------6
17.912 LOGBUN HGB EDAD FRAC LOGPLAS SUEROCAL
6
17.795 LOGBUN HGB EDAD LOGWBC FRAC SUEROCAL
6
17.774 LOGBUN HGB PLAQUETA EDAD FRAC SUEROCAL
-----------------------------------------------------------7
18.152 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS SUEROCAL
7
18.057 LOGBUN HGB EDAD LOGWBC FRAC LOGPLAS SUEROCAL
7
18.022 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC SUEROCAL
------------------------------------------------------------------8
18.392 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS SUEROCAL
8
18.164 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS PROTEINA SUEROCAL
8
18.131 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC PROTEINA SUEROCAL
---------------------------------------------------------------------------9
18.455 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA
SUEROCAL
------------------------------------------------------------------------------
En ellos se observa, en la primera columna, el número de covariables utilizadas en cada
modelo y, en la última, el nombre de cada una de las covariables utilizadas en él.
Los modelos son listados en orden decreciente de su estadı́stico de contraste. Por ejemplo,
entre todos los modelos conteniendo tres covariables, el formado por las covariables logbun,
hgb y suerocal es el que proporciona un mayor valor para el estadı́stico de contraste, el
formado por logbun, hgb y suerocal el segundo mayor valor y el formado por logbun, hgb y
frac el tercer mayor valor.
Los estadı́sticos obtenidos por este procedimiento son los estadı́sticos score del método anterior, por lo que los valores obtenidos por este método en la segunda columna, deben confrontarse con los puntos crı́ticos de las tablas de dicho test para determinar los que son
significativos.
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 3
Estimación de Haplotipos y
de su riesgo
3.1.
Conceptos de Genética
Los humanos estamos formados por, aproximadamente, 100 billones de
células.
Cada célula tiene un núcleo y dentro de este núcleo hay una molécula
de ADN. Esta molécula de ADN es una sucesión ordenada de cuatro ácidos
nucleicos, la Adenina A, la Guanina G, la Citosina, C y la Timina, T . Es decir,
esta molécula de ADN es un puzle o sopa de letras del tipo AT CT GACCA...,
dando ası́ lugar a nuestro código genético, el cual estará pues determinado por
el orden que ocupen estas cuatro letras en la escalera del ADN.
Este larguı́sima molécula de ADN está estructurada en 23 pares de cromosonas. Son pares porque uno procede de la madre y otro del padre (por eso
se dice que los humanos somos diploides); este par de cromosomas asociados
se denominan homólogos. De hecho, esta molécula de ADN está formada fı́sicamente, por dos filamentos estrechamente entrelazados dispuestos en forma
de doble hélice, hecho descubierto, fundamentalmente, por James Watson y
Francis Crick, en Febrero de 1953.
Podemos pensar por tanto, en esta larga doble hélice de letras, divididas
en 23 pares denominados cromosomas conteniendo la información genética
heredada.
Cada cromosoma contendrá, pues, una larga combinación de esas cuatro
letras básicas. Grupos de estas letras se denominan genes.
Ésta es la visión de mayor a menor. De más pequeño a más grande podemos
decir que los genes están hechos de ADN y que se disponen en lı́nea a lo largo de
cada cromosoma. Cada gen ocupa en el cromosoma una posición determinada
denominada locus.
91
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
92
Por tanto, un gen no es más que un fragmento de ADN que contiene
instrucciones. Estas instrucciones se utilizan para fabricar una proteı́na. Un
error o una omisión en las letras que forman un gen producirı́a proteı́nas
defectuosas y, en consecuencia, una enfermedad genética.
En el núcleo de una célula hay unos 100.000 genes distintos y en todo el
cuerpo humano unos 3.500 millones de genes distintos. El Proyecto Genoma
Humano descifró los 23 pares de cromosomas.
La diferencia genética entre un chimpancé y un ser humano es tan sólo del
1′ 5 % y entre un ser humano y otro ser humano del 1 por mil, debido a la casi
extinción de nuestra especie no hace mucho tiempo.
No todo el ADN se encuentra en el núcleo celular, una pequeña parte
se encuentra fuera del núcleo, en las mitocondrias, unos órganos de la célula
que se encargan de proporcionarle energı́a. Esta pequeña parte del genóma
(menos del uno por mil) se denomina ADN mitocondrial y se abrevia por
mtADN. La ausencia de proteı́nas protectoras hace que el mtADN acumule
muchos más errores al replicarse que el ADN del interior del núcleo celular por
lo que le convierte en un marcador apropiado para estudiar la evolución de
una especie. Las mitocondrias tienen una ventaja adicional: debido a que sólo
el núcleo de los espermatozoides penetra en el óvulo al fecundarlo, el mtADN
se transmite únicamente por vı́a materna y no experimento recombinaciones
como le ocurre a los cromosomas del núcleo. Esto significa que, desde un punto
de vista evolutivo, el más fácil interpretar este mtAND puesto que no presenta
recombinaciones. El estudio del mtADN hacia atrás para analizar nuestros
orı́genes, darı́a la gran sorpresa de que todos los europeos descendemos de
siete Evas, puesto que sólo hay siete tipos diferentes de mtAND entre los
millones de europeos.
3.2.
Genotipos y Haplotipos
El genotipo de un individuo es como un código propio de él consistente en
combinaciones de parte o de todos los genes. Ası́ supongamos un indiviuo en
el que nos fijamos en dos genes especı́ficos, que posee el alelo a en el mismo
gen de los dos cromosomas homólogos y el alelo B en el otro gen de los dos
cromosomas homólogos; es decir, una situación del tipo
Cromosoma 1 : · · ·
Cromosoma 1’ : · · ·
a
···
B
···
a
···
B
···
↑
↑
Gen 1
Gen 2
Este individuo se dice que tiene el genotipo aaBB.
Los haplotipos son grupos de genes ordenados. El individuo anterior da
D
93
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 3. Estimación de Haplotipos y de su riesgo
lugar a dos haplotipos aB ya que
Cromosoma 1 : · · · a · · · B · · · → aB
Cromosoma 1’ : · · · a · · · B · · · → aB
Los genotipos se pueden observar pero los haplotipos hay que asignarlos.
Algunas asignaciones no presenta ninguna dificultad, pero otras no están claras
y las realizamos con técnicas estadı́sticas.
Veamos todos los genotipos posibles y las asignaciones de haplotipos en
cada caso,
1.-Genotipo AABB
En este caso la asignación es clara. La situación de un individuo con genotipo AABB puede ser
Cromosoma 1 : · · · A · · · B · · · → AB
Cromosoma 1’ : · · · A · · · B · · · → AB
en cuyo caso el individuo darı́a lugar a dos haplotipos AB, o también podrı́a
ser como la siguiente,
· · · A · · · B · · · → AB
l
Cromosoma 1’ : · · · A · · · B · · · → AB
Cromosoma 1 :
que también darı́a lugar a dos haplotipos AB. Es decir, que un individuo con
el genotipo AABB da lugar a dos haplotipos, uno AB y otro también AB.
2.-Genotipo AABb
En este caso, también la asignación es clara. La situación puede ser
Cromosoma 1 : · · · A · · · B · · · → AB
Cromosoma 1’ : · · · A · · · b · · · → Ab
en cuyo caso darı́a lugar a dos haplotipos, uno AB y otro Ab. La situación
también podrı́a ser como la siguiente,
b · · · → Ab
l
Cromosoma 1’ : · · · A · · · B · · · → AB
Cromosoma 1 :
··· A ···
aunque en esta segunda situación también darı́a lugar a dos haplotipos, uno
AB y otro Ab.
Es decir, en cualquiera de las dos situaciones, un individuo con el genotipo
AABb da lugar a dos haplotipos, uno AB y otro Ab.
D
94
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
3.-Genotipo AAbb
En este caso, la asignación es clara,
Cromosoma 1 : · · · A · · · b · · · → Ab
Cromosoma 1’ : · · · A · · · b · · · → Ab
Un individuo con el genotipo AAbb da lugar a dos haplotipos, uno Ab y otro
también Ab.
4.-Genotipo AaBB
En este caso, la asignación es clara,
Cromosoma 1 : · · · A · · · B · · · → AB
Cromosoma 1’ : · · · a · · · B · · · → aB
Un individuo con el genotipo AaBB da lugar a dos haplotipos, uno aB y otro
AB.
5.-Genotipo Aabb
En este caso, la asignación es clara,
Cromosoma 1 : · · · A · · · b · · · → Ab
Cromosoma 1’ : · · · a · · · b · · · → ab
Un individuo con el genotipo AABb da lugar a dos haplotipos, uno Ab y
otro ab.
6.-Genotipo aaBB
En este caso, la asignación es clara,
Cromosoma 1 : · · · a · · · B · · · → aB
Cromosoma 1’ : · · · a · · · B · · · → aB
Un individuo con el genotipo aaBB da lugar a dos haplotipos, uno aB y otro
también aB.
7.-Genotipo aaBb
En este caso, la asignación es clara,
Cromosoma 1 : · · · a · · · B · · · → aB
Cromosoma 1’ : · · · a · · · b · · · → ab
Un individuo con el genotipo aaBb da lugar a dos haplotipos, uno aB y otro
ab.
8.-Genotipo aabb
D
95
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 3. Estimación de Haplotipos y de su riesgo
En este caso, la asignación es clara,
Cromosoma 1 : · · · a · · · b · · · → ab
Cromosoma 1’ : · · · a · · · b · · · → ab
Un individuo con el genotipo aabb da lugar a dos haplotipos, uno ab y otro
también ab.
9.-Genotipo AaBb
Éste es el único caso en el que la asignación no es clara. La situación puede
ser del tipo
Cromosoma 1 : · · · A · · · B · · · → AB
Cromosoma 1’ : · · · a · · · b · · · → ab
en cuyo caso darı́a lugar a los haplotipos AB y ab, pero también puede ser la
situación de la siguiente manera,
Cromosoma 1 : · · · A · · · b · · · → Ab
Cromosoma 1’ : · · · a · · · B · · · → aB
en cuyo caso darı́a lugar a los haplotipos Ab y aB.
Precisamente, la asignación de los haplotipos más verosı́miles a individuos
con genotipo AaBb se realiza con métodos estadı́sticos, basándonos en la frecuencia de haplotipos existentes en la población a la que pertenece el individuo,
utilizando el algoritmo EM.
3.3.
Asignación de haplotipos a individuos con genotipo AaBb
En el último apartado de la sección anterior, indicamos los haplotipos que
cabrı́a asignar a los individuos según el genotipo que tuvieran. Cabı́an, no
obstante, dos posibilidades de asignación de haplotipos a los individuos con
genotipo AaBb. Ésta la haremos mediante un proceso iterativo el cual, en
su forma computacional, recibe el nombre de algoritmo EM. El proceso de
actuación (el algoritmo) es el siguiente:
En una etapa inicial consideramos a priori como equiprobables la obtención
de los dos haplotipos que se consiguen con cada genotipo y, además, como
equiprobables las dos situaciones que se podı́an presentar en el apartado 9
anterior. Ası́ por ejemplo, es seguro que a un individuo con genotipo AABB
se le asigna un haplotipo AB (es decir, P (AB/AABB) = 1), o por ejemplo
que a un individuo con genotipo AABb se le asigna un haplotipo AB con
probabilidad 1/2 puesto que también se le prodrı́a asignar el otro haplotipo
Ab con probabilidad 1/2 (es decir, P (AB/AABb) = 1/2) y, además, en
D
96
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
relación a la última situación conflictiva, será como hemos dicho, a priori,
es decir, en la etapa inicial, P (AB ∩ ab/AaBb) = 1/2. Para obtener uno
de los dos deberá sortear otra vez con probabilidad 1/2 y será, por ejemplo,
P (AB/AaBb) = 1/4.
Por tanto, un individuo elegido al azar de un población, el cual tenga genotipo AaBb, tendrá probabilidad de tener los haplotipos AB y ab (primera
posibilidad, digamos S1 ) con probabilidad
P (S1 /AaBb) = P (AB ∩ ab/AaBb) = 1/2.
La otra posibilidad es que tenga los haplotipos Ab y aB (posibilidad a la
que denominaremos S2 ), de probabilidad a priori
P (S2 /AaBb) = P (Ab ∩ aB/AaBb) = 1 − P (S1 ) = 1/2.
Estas dos posibilidades se suelen denominar en genética, respectivamente
S1 ≡ AB/ab y S2 ≡ Ab/aB aunque no tengan nada que ver con sucesos
condicionados.
El algoritmo EM va modificando esas probabilidades a priori en base a
datos observados en una determinada muestra de la población en estudio.
Supongamos una población de 398 individuos clasificados según sus pares
de alelos en los dos cromosomas homólogos,
BB
Bb
bb
AA
0
0
3
Aa
1
24
46
aa
34
127
163
Es decir, tenemos 34 individuos en la población con el genotipo aaBB a
los que, por el razonamiento de más arriba, asignaremos a cada uno de ellos
dos haplotipos aB; 3 individuos con el genotipo AAbb a los que asignaremos
dos haplotipos Ab; pero, ¿qué haplotipos asignaremos a los 24 individuos con
el genotipo AaBb?
En la etapa a priori tenı́amos
P (S1 /AaBb) = 1/2
P (S2 /AaBb) = 1/2.
Ahora vamos a transformar, en un Primer Paso, esta información a priori
con la información muestral disponible, obteniendo una probabilidades a posteriori para P (S1 /AaBb) y P (S2 /AaBb), las cuales serán utilizadas en un
Segundo Paso como probabilidades a priori en lugar de los valores previos 0′ 5,
0′ 5.
D
97
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 3. Estimación de Haplotipos y de su riesgo
En vista de la tabla, si denominamos AABB al suceso obtener un individuo de la población con genotipo AABB y de la misma manera denotamos a
los otros ocho posibles genotipos de la población, éstos formarán un sistema
completo de sucesos y, por tanto, la probabilidad de elegir un individuo de la
población con haplotipo AB, P (AB) será, por el teorema de la probabilidad
total,
P (AB) =
P (AABB)P (AB/AABB)
+ P (AAbb)P (AB/AAbb)
+ P (Aabb)P (AB/Aabb)
+ P (aaBb)P (AB/aaBb)
+ P (AaBb)P (AB/AaBb)
0 1
3
0
=
·1+
· +
·0+
398
398 2 398
+
+
+
+
+
P (AABb)P (AB/AABb)
P (AaBB)P (AB/AaBB)
P (aaBB)P (AB/aaBB)
P (aabb)P (AB/aabb)
1 1
46
34
· +
·0+
·0
398 2 398
398
127
163
24
1
·0+
·0+
·
= 0′ 01633166
398
398
398 4
Análogamente se obtendrı́a que
P (aB) = 0′ 2613065
P (Ab) = 0′ 080402
P (ab) = 0′ 6419597
siendo P (AB) + P (aB) + P (Ab) + P (ab) = 1, pues estos cuatro haplotipos
son los cuatro posibles.
Por tanto, la probabilidad de obtener en esa población un individuo con
haplotipos AB y ab será
P (S1 ) = P (AB) · P (ab) = 0′ 01633166 · 0′ 6419597 = 0′ 01048423
y con haplotipos Ab y aB
P (S2 ) = P (Ab) · P (aB) = 0′ 080402 · 0′ 2613065 = 0′ 02100957.
La de que un individuo de esa población con genotipo AaBb tenga esa
pareja de haplotipos será, por el teorema de Bayes,
P (S1 /AaBb) =
=
P (AaBb/S1 ) · P (S1 )
P (AaBb/S1 ) · P (S1 ) + P (AaBb/S2 ) · P (S2 )
1 · 0′ 01048423
= 0′ 332899
1 · 0′ 01048423 + 1 · 0′ 02100957
D
98
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
y, por tanto,
P (S2 /AaBb) = 1 − 0′ 332899 = 0′ 667101.
Ya tenı́amos la información a priori
P (S1 /AaBb) = P (AB ∩ ab/AaBb) = 1/2
P (S2 /AaBb) = P (Ab ∩ aB/AaBb) = 1 − P (S1 ) = 1/2.
Ahora, después de una iteración (o combinación de una etapa con la muestra) será
P (S1 /AaBb) = 0′ 332899
P (S2 /AaBb) = 1 − 0′ 332899 = 0′ 667101
y, por tanto,
′
P (AB/AaBb) = 0 332899
= 0′ 1664495
2
′
P (ab/AaBb) = 0 332899
= 0′ 1664495
2
′
P (Ab/AaBb) = 0 667101
= 0′ 3335505
2
′
= 0′ 3335505
P (aB/AaBb) = 0 667101
2
valores a introducir de nuevo en el proceso en la Etapa Segunda, en lugar de
los valores 1/4 utilizados en la Primera Etapa.
Utilizando el algoritmo EM, en lugar de repetir el proceso manualmente,
después de 20 iteraciones el algoritmo converge a los valores
P (S1 /AaBb) = 0′ 088
P (S2 /AaBb) = 1 − 0′ 088 = 0′ 912.
(Se podrı́an hacer pruebas con otros valores a priori en lugar de 0′ 5 y ver si se
obtiene la misma estimación final.)
3.3.1.
Asignación de haplotipos
Una vez estimadas las probabilidades de ambos sucesos, S1 y S2 , proceso
que suele llamarse Fase de Determinación, comienza la denominada Fase de
Asignación en la que caben, básicamente, dos opciones,
D
99
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 3. Estimación de Haplotipos y de su riesgo
1. Uniforme: Asignar a todos los individuos con genotipo AaBa los haplotipos más probables. Esto es lo que habitualmente se hace. En nuestro
caso, asignarı́amos a los 24 individuos los haplotipos S2 es decir, Ab/aB
2. Máximo-verosı́mil: Asignar a cada uno de los individuos con genotipo
AaBa los haplotipos S1 o S2 según las probabilidades estimadas. En
nuestro caso, asignar a cada uno de los 24 individuos de la población en
estudio, los haplotipos Ab/aB con probabilidad 0′ 912 y los haplotipos
AB/ab con probabilidad 0′ 088.
3.4.
Comparación de poblaciones: Regresión Logı́stica
En muchas ocasiones es de interés comparar dos poblaciones, por ejemplo la que está en estudio y una población control, con objeto de analizar si
existen diferencias significativas entre ellas, mediante una Regresión Logı́stica,
considerando varias covariables en el estudio. En concreto, considerando como
una de las covariables posibles, los haplotipos de ambas poblaciones. Si sólo se
considerase esta covariable, un tratamiento alternativo de comparación, puesto que los datos observados son recuentos de observaciones, serı́a un test de
comparación de varias muestras de la χ2 . No obstante, lo más frecuente es
utilizar más covariables tales como la Edad, etc.
Por razones pedagógicas, consideremos aquı́ sólo la covariable haplotipo y
comparemos la población antes considerada con una Población Control con
458 individuos
BB
Bb
bb
AA
0
1
2
Aa
3
25
56
aa
25
151
195
Repitiendo exactamente el mismo proceso de la sección anterior se llegarı́a,
en esta Población a
P (S1 /AaBb) = 0′ 268
P (S2 /AaBb) = 0′ 732.
Los resultados dependerán del tipo de asignación elegido. Como el primer
caso es un caso particular del segundo en el que la P (S1 /AaBb) = 0 ó igual a
1, llamaremos p = P (S1 /AaBb) y luego sustituiremos p por uno u otro valor
según el tipo de asignación considerado.
D
100
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Necesitamos determinar el número esperado de individuos de cada uno de
los cuatro haplotipos, para cada una de las dos poblaciones a comparar. Para
ello, habrá que calcular la probabilidad de los cuatro haplotipos posibles y
luego, multiplicarlas por el tamaño de la población. Sustituyendo 1/4 por p/2
ó (1 − p)/2 en [3.3] según el caso, será para la población en estudio,
P (AB) =
P (AABB)P (AB/AABB)
+ P (AAbb)P (AB/AAbb)
+ P (Aabb)P (AB/Aabb)
+ P (aaBb)P (AB/aaBb)
+ P (AaBb)P (AB/AaBb)
0
0 1
3
=
·1+
· +
·0+
398
398 2 398
+
P (AABB)P (aB/AABB)
+ P (AAbb)P (aB/AAbb)
+ P (Aabb)P (aB/Aabb)
+ P (aaBb)P (aB/aaBb)
+ P (AaBb)P (aB/AaBb)
0
0
3
·0+
·0+
·0+
=
398
398
398
+
1 1
46
34
· +
·0+
·0
398 2 398
398
+
+
+
+
P (AABb)P (aB/AABb)
P (AaBB)P (aB/AaBB)
P (aaBB)P (aB/aaBB)
P (aabb)P (aB/aabb)
1 1
46
34
· +
·0+
·1
398 2 398
398
127 1 163
24
1−p
110 − 12p
· +
·0+
·
=
398 2 398
398
2
398
P (AABB)P (Ab/AABB)
+ P (AAbb)P (Ab/AAbb)
+ P (Aabb)P (Ab/Aabb)
+ P (aaBb)P (Ab/aaBb)
+ P (AaBb)P (Ab/AaBb)
0
0 1
3
=
·0+
· +
·1+
398
398 2 398
+
P (AABb)P (AB/AABb)
P (AaBB)P (AB/AaBB)
P (aaBB)P (AB/aaBB)
P (aabb)P (AB/aabb)
0′ 5 + 12p
127
163
24
p
=
·0+
·0+
·
398
398
398 2
398
P (aB) =
P (Ab) =
+
+
+
+
+
+
+
+
P (AABb)P (Ab/AABb)
P (AaBB)P (Ab/AaBB)
P (aaBB)P (Ab/aaBB)
P (aabb)P (Ab/aabb)
1
46 1
34
·0+
· +
·0
398
398 2 398
127
163
24
1−p
38 − 12p
·0+
·0+
·
=
398
398
398
2
398
D
101
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 3. Estimación de Haplotipos y de su riesgo
P (ab) =
P (AABB)P (ab/AABB)
+ P (AAbb)P (ab/AAbb)
+ P (Aabb)P (ab/Aabb)
+ P (aaBb)P (ab/aaBb)
+ P (AaBb)P (ab/AaBb)
0
0
3
·0+
·0+
·0+
=
398
398
398
+
+
+
+
+
P (AABb)P (ab/AABb)
P (AaBB)P (ab/AaBB)
P (aaBB)P (ab/aaBB)
P (aabb)P (ab/aabb)
1
46 1
34
·0+
· +
·0
398
398 2 398
24
249′ 5 + 12p
127 1 163
p
· +
·1+
·
=
398 2 398
398 2
398
Lógicamente, es
0′ 5 + 12p 110 − 12p 38 − 12p 249′ 5 + 12p
+
+
+
= 1.
398
398
398
398
Para la población control será
P (AB) =
P (AABB)P (AB/AABB)
+ P (AAbb)P (AB/AAbb)
+ P (Aabb)P (AB/Aabb)
+ P (aaBb)P (AB/aaBb)
+ P (AaBb)P (AB/AaBb)
0
1 1
2
=
·1+
· +
·0+
458
458 2 458
+
+
+
+
+
P (AABb)P (AB/AABb)
P (AaBB)P (AB/AaBB)
P (aaBB)P (AB/aaBB)
P (aabb)P (AB/aabb)
3 1
56
25
· +
·0+
·0
458 2 458
458
151
p
2 + 12′ 5p
195
25
=
·0+
·0+
·
458
458
458 2
458
P (aB) =
P (AABB)P (aB/AABB)
+ P (AAbb)P (aB/AAbb)
+ P (Aabb)P (aB/Aabb)
+ P (aaBb)P (aB/aaBb)
+ P (AaBb)P (aB/AaBb)
0
1
2
·0+
·0+
·0+
=
458
458
458
+
+
+
+
+
P (AABb)P (aB/AABb)
P (AaBB)P (aB/AaBB)
P (aaBB)P (aB/aaBB)
P (aabb)P (aB/aabb)
3 1
56
25
· +
·0+
·1
458 2 458
458
151 1 195
25
1−p
114′ 5 − 12′ 5p
· +
·0+
·
=
458 2 458
458
2
458
D
102
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
P (Ab) =
P (AABB)P (Ab/AABB)
+ P (AAbb)P (Ab/AAbb)
+ P (Aabb)P (Ab/Aabb)
+ P (aaBb)P (Ab/aaBb)
+ P (AaBb)P (Ab/AaBb)
1 1
2
0
·0+
· +
·1+
=
458
458 2 458
+
+
+
+
+
P (AABb)P (Ab/AABb)
P (AaBB)P (Ab/AaBB)
P (aaBB)P (Ab/aaBB)
P (aabb)P (Ab/aabb)
3
56 1
25
·0+
· +
·0
458
458 2 458
151
1−p
195
25
43 − 12′ 5p
·0+
·0+
·
=
458
458
458
2
458
P (ab) =
P (AABB)P (ab/AABB)
+ P (AAbb)P (ab/AAbb)
+ P (Aabb)P (ab/Aabb)
+ P (aaBb)P (ab/aaBb)
+ P (AaBb)P (ab/AaBb)
1
2
0
=
·0+
·0+
·0+
458
458
458
+
+
+
+
+
P (AABb)P (ab/AABb)
P (AaBB)P (ab/AaBB)
P (aaBB)P (ab/aaBB)
P (aabb)P (ab/aabb)
3
56 1
25
·0+
· +
·0
458
458 2 458
151 1 195
25
p
298′ 5 + 12′ 5p
· +
·1+
·
=
458 2 458
458 2
458
Ahora también es
2 + 12′ 5p 114′ 5 − 12′ 5p 43 − 12′ 5p 298′ 5 + 12′ 5p
+
+
+
= 1.
458
458
458
458
Asignación Uniforme:
En este tipo de asignación, para el ejemplo que estamos considerando, es
p = 0 en ambas poblaciones puesto que era más probable S2 que S1 . Por tanto,
sustituyendo p = 0 en las probabilidades anteriores quedará la probabilidad
de los cuatro haplotipos en cada una de las dos poblaciones como sigue:
AB
aB
Ab
ab
Población en estudio
0′ 5/398
110/398
38/398
249′ 5/398
1
Población Control
2/458
114′ 5/458
43/458
298′ 5/458
1
multiplicando ahora las cuatro probabilidades de la población en estudio por el
número de individuos que hay en ella, 398, y por 458 en la Población Control,
D
103
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 3. Estimación de Haplotipos y de su riesgo
quedará el número esperado de haplotipos en cada una de las dos poblaciones
como sigue:
AB
aB
Ab
ab
Población en estudio Población Control
0′ 5
2
110
114′ 5
38
43
249′ 5
298′ 5
398
458
Tabla 1
Asignación Máximo-verosı́mil:
En este tipo de asignación, para el ejemplo que estamos considerando, era
p = 0′ 088 en la Población en estudio y p = 0′ 268 en la Población Control,
con lo que las probabilidades de los cuatro haplotipos en cada una de las dos
poblaciones queda como sigue:
AB
aB
Ab
ab
Población en estudio
1′ 556/398
108′ 944/398
36′ 944/398
250′ 556/398
1
Población Control
5′ 35/458
111′ 15/458
39′ 65/458
301′ 85/458
1
multiplicando ahora las cuatro probabilidades de la población en estudio por el
número de individuos que hay en ella, 398, y por 458 en la Población Control,
quedará el número esperado de haplotipos en cada una de las dos poblaciones
como sigue:
AB
aB
Ab
ab
3.4.1.
Población en estudio Población Control
1′ 556
5′ 35
108′ 944
111′ 15
′
36 944
39′ 65
′
250 556
301′ 85
398
458
Tabla 2
Regresión Logı́stica
A continuación vamos a comparar ambas poblaciones en cada una de las
dos situaciones de asignación utilizando los datos de las Tablas 1 y 2. Observamos primero que, en algunos casos, aparecen números decimales de individuos
con un determinado haplotipo en dichas Tablas. Aunque en un Análisis de
D
104
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Regresión Logı́stica las covariables no tienen porque tomar valores enteros, al
ser en este caso la única covariable, haplotipo, cualitativa con cuatro clases
posibles, es natural que ası́ lo fuera (aunque recuérdese que, al estimar las
probabilidades y luego las frecuencias absolutas de cada celdilla, éstas podrı́an
ser números decimales).
Por tanto, suele tomarse el entero más próximo a los valores de las Tablas
1 y 2 para realizar el Análisis. Es decir, por ejemplo se estima que hay 5
individuos con haplotipo AB en la Población control de la Tabla 2.
Por otro lado, es habitual que los genetistas consideren los haplotipos por
parejas, de manera que duplican el número de individuos en cada población
para que sigan sumando las probabilidades estimadas 1. Por ello, si primero
multiplicamos por dos los números de las Tablas 1 y 2 y luego tomamos el
entero más próximo en los casos que queden valores decimales, las tablas a
considerar serán, finalmente,
Asignación uniforme:
AB
aB
Ab
ab
Población en estudio Población Control
1
4
220
229
76
86
499
597
796
916
Tabla 1
Un Análisis de Regresión Logı́stica proporcionó el valor 2′ 7933 para el
estadı́stico de Wald con p-valor asociado igual a 0′ 4246.
Asignación Máximo-verosı́mil:
La tabla de observaciones es
AB
aB
Ab
ab
Población en estudio Población Control
3
11
218
222
74
79
501
604
796
916
Tabla 2
proporcionando el Análisis de Regresión Logı́stica un valor para el estadı́stico
de Wald igual a 5′ 6159 y un p-valor asociado de 0′ 1319.
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 4
Bioinformática: Técnicas
Machine Learning
4.1.
Introducción
Las Técnicas Estadı́sticas aquı́ estudiadas no sólo se utilizan en Ciencias
de la Salud aunque, dado que en este curso las aplicaremos fundamentalmente
a estudios de asociación (condicional) genética, se han incluido en el tema
dedicado a esta materia. Obviamente, su aplicación es mucho más amplia.
Dado lo reciente de estas técnicas, en muchas ocasiones hemos mantenido
la denominación anglosajona para su fácil identificación.
Los Métodos aquı́ estudiados suelen venir englobados habitualmente en lo
que se denomina Minerı́a de Datos o Data Mining porque suelen utilizarse
con datos de gran dimensión (número p de variables muy alto) y/o enorme
tamaño muestral (n muy grande) y, en ocasiones, con p >> n lo que crea
graves problemas de aplicación de las técnicas estadı́sticas tradicionales.
Una cuestión de interés que nos gustarı́a resaltar es que, en contra de lo
que comúnmente se cree, este tipo de técnicas suelen ser poco robustas, es
decir, suelen ser sensibles a la presencia de datos anómalos en la muestra.
4.2.
Árboles de Clasificación y Regresión (Classification and Regression Trees, CARTs)
Los Árboles de Clasificación y Regresión (Classification and Regression
Trees), habitualmente conocidos por su acrónimo anglosajón CARTs, son una
técnica consistente en descubrir relaciones (condicionales) entre un gran número de covariables independientes y una dependiente cualitativa o continua. Se
denominan Árboles de Clasificación cuando se aplican a variables dependien105
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
106
tes cualitativas y Árboles de Regresión cuando la variable dependiente es de
tipo continuo.
Ambas técnicas, debidas a Breiman et al. (1993), suponen la aplicación de
un algoritmo que va dividiendo el conjunto de individuos de la muestra en subgrupos, de manera que se minimice la heterogeneidad (denominada impureza
del nodo) dentro de los nuevos grupos formados.
4.2.1.
Construcción de un Árbol
Los datos de los que dispondremos serán n observaciones de una variable dependiente (que aquı́ será un fenotipo) Y y p variables independientes
X1 , ..., Xp las cuales pensamos sirven para predecir a la variable dependiente.
Un Árbol se construye determinando primero la variable Xj más predictiva
del fenotipo Y en el sentido que veremos más abajo. Supongamos para comenzar que esta variable Xj tomara sólo dos valores; los individuos de la muestra,
los cuales inicialmente están todos en un conjunto, denominado nodo raı́z, o
nodo padre y que representaremos por Ω, se dividirán en dos subconjuntos o
nodos hija, Ω1 y Ω2 según los valores de esta variable de Xj . Si tomase más
valores –por ejemplo, fuera de tipo continua–, los dos grupos se formarı́an dependiendo de si Xj < c, ó Xj ≥ c, siendo c algún valor posible de Xj . Se elige
a continuación la segunda variable más predictiva de Y en cada uno de los
nodos hija y se aplica de nuevo una regla similar en cada uno de los dos nodos
hija; y ası́ se sigue particionando la muestra hasta un determinado momento
fijado por una regla de parada (por ejemplo que el nodo tenga menos de tres
individuos). Advertimos que el método puede conducir a árboles asimétricos.
Cuando hayamos construido el Árbol habremos seleccionado unas cuantas
covariables, las más influyentes en la variable dependiente, y además por orden
de importancia.
La elección de la variable más predictiva y la regla de clasificación a partir
de ella, se basa en lo que se denomina impureza del nodo (es decir, su heterogeneidad) I(Ω) para la que existen varias opciones; no obstante, suele decirse
que todas conducen básicamente la mismo árbol. La variable más predictiva
(y la regla de clasificación basada en ella) se elige como aquella que maximice
I(Ω) − I(ΩD ) − I(ΩI )
siendo ΩD y ΩI los dos nodos hija (Derecha e Izquierda) del nodo Ω obtenidos
después de aplicar la regla considerada.
Variable dependiente dicotómica
De las diversas medidas de impureza del nodo, la más habitual para el caso
de que la variable dependiente Y sea dicotómica, es el Índice de Gini definido
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
108
Otras variables P1 hasta P99 son los lugares (lugar 1, lugar 2, ..., lugar 99) del animoácido
en la región de proteasa del genoma de este virus y constituirán las covariables (dicotómicas:
presencia/ausencia) independientes.
Ejecutando la siguiente secuencia de instrucciones en R,
>
>
>
>
>
>
>
>
Virco<-read.csv("h:\\salud\\Virco-data.csv",header=T)
Vircogen<-data.frame(Virco[,substr(names(Virco),1,1)=="P"]!="-")
attach(Virco)
Rasgo<-as.factor(IDV.Fold>NFV.Fold)
library(rpart)
Arbol<-rpart(Rasgo~.,method="class",data=Vircogen)
plot(Arbol,ylim=c(0.7,1.03))
text(Arbol)
obtenemos el árbol de clasificación en la Figura 4.1. En este árbol se observa que la primera
variable más predictiva es P54 y el que tome un valor menor (o mayor o igual) que 0′ 5, la
regla de clasificación de los individuos de la muestra.
Se ve a continuación que en el nodo hija de la izquierda la variable más predictiva es P76 y
que en el nodo de la derecha es P46 y ası́ sucesivamente.
Se puede obtener más información sobre el árbol obtenido ejecutando el resultado obtenido
al aplicar la función rpart, es decir, ejecutando
> Arbol
n=976 (90 observations deleted due to missingness)
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 976 399 FALSE (0.5911885 0.4088115)
2) P54< 0.5 480 130 FALSE (0.7291667 0.2708333)
4) P76< 0.5 466 116 FALSE (0.7510730 0.2489270) *
5) P76>=0.5 14
0 TRUE (0.0000000 1.0000000) *
3) P54>=0.5 496 227 TRUE (0.4576613 0.5423387)
6) P46< 0.5 158 57 FALSE (0.6392405 0.3607595)
12) P1< 0.5 115 31 FALSE (0.7304348 0.2695652) *
13) P1>=0.5 43 17 TRUE (0.3953488 0.6046512) *
7) P46>=0.5 338 126 TRUE (0.3727811 0.6272189)
14) P10< 0.5 22
7 FALSE (0.6818182 0.3181818) *
15) P10>=0.5 316 111 TRUE (0.3512658 0.6487342)
30) P48< 0.5 278 106 TRUE (0.3812950 0.6187050)
60) P20< 0.5 113 55 TRUE (0.4867257 0.5132743)
120) P76< 0.5 92 40 FALSE (0.5652174 0.4347826) *
121) P76>=0.5 21
3 TRUE (0.1428571 0.8571429) *
61) P20>=0.5 165 51 TRUE (0.3090909 0.6909091) *
31) P48>=0.5 38
5 TRUE (0.1315789 0.8684211) *
Se obtiene ası́, para cada nodo, el número de individuos de la muestra utilizados, por ejemplo
976 en el nodo raı́z; el número de observaciones para las cuales la variable de respuesta es predicha incorrectamente, por ejemplo 399 en el nodo raı́z; el valor predicho de esta variable de
respuesta, por ejemplo FALSE (equivalentemente IDV.Fold < NFV.Fold) en el nodo raı́z; las
D
109
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 4. Bioinformática: Técnicas Machine Learning
proporciones de individuos clasificados como (IDV.Fold<NFV.Fold , IDV.Fold≥NFV.Fold),
por ejemplo ((976 − 399)/976, 399/976) = (0′ 5911, 0′ 4088) en el nodo raı́z. Los nodos finales,
también conocidos como nodos terminales, se indican con un *.
Esta técnica se aplica también en el caso de que la variable dependiente
sea categórica, en general, y no sólo dicotómica.
Variable dependiente continua
Si la variable dependiente no es cualitativa sino que es de tipo continuo,
el árbol se denomina Árbol de regresión y no de clasificación, midiéndose la
impureza de un nodo, habitualmente, con el error cuadrático medio
I(Ω) =
1 X
(yi − y)2
nΩ i∈Ω
en donde yi son los valores de la variable dependiente Y en los individuos
del nodo Ω y y la media muestral de la variable dependiente, es decir, sin
distinción de nodos. Se observa aquı́ la gran sensibilidad del proceso en el caso
de datos anómalos al ser una suma de cuadrados.
Para este tipo de variable dependiente y con el error cuadrático medio
como medida de impureza, el Árbol de Regresión se obtiene de nuevo con la
función rpart aunque cambiando el argumento method
rpart(modelo,method="anova",data)
Ejemplo 4.2
Consideremos de nuevo los datos Virco-data.csv pero ahora con la variable dependiente la
diferencia de las variables NFV.Fold-IDV.Fold y de nuevo como covariables independientes
las variables P1 hasta P99.
Ejecutando la siguiente secuencia de instrucciones en R,
>
>
>
>
>
>
>
>
Virco<-read.csv("h:\\salud\\Virco-data.csv",header=T)
Vircogen<-data.frame(Virco[,substr(names(Virco),1,1)=="P"]!="-")
attach(Virco)
Rasgo2<- NFV.Fold-IDV.Fold
library(rpart)
Arbol2<-rpart(Rasgo2~.,method="anova",data=Vircogen)
plot(Arbol2,ylim=c(0.85,1.01))
text(Arbol2)
obtenemos el árbol de regresión en la Figura 4.2.
D
110
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
P54>=0.5
|
P46>=0.5
P73< 0.5
P58< 0.5
−10.57
P35< 0.5
2.57
89.91
5.707
8.171
257.9
Figura 4.2 : Árbol de Regresión
Covariables Cualitativas y Ordinales
En los casos antes tratados las covariables eran dicotóminas, es decir, la
correspondiente covariable Xj sólo tomaba los valores 1 y 0, por lo que la
división de cada nodo (comenzando por el nodo padre) en dos nodos hija
se hará sólo de dos maneras posibles, correspondientes a estos valores (por
ejemplo el nodo hija de la izquierda para los valores Xj = 1 y el nodo hija de la
derecha para los valores Xj = 0; ası́ o al revés). Si la covariable es
cualitativa, es
=
m(m − 1)/2
decir, la correspondiente Xj toma, digamos, m valores, hay m
2
formas distintas de definir los dos nodos hija, lo que complica el cálculo. El
algoritmo que utilizaremos considera todas estas posibles divisiones.
Si la covariable Xj fuera ordinal y toma, digamos, m valores, sólo consideraremos m − 1 formas diferentes de división: la primera forma, que los
individuos en los que es Xj = 1 van al nodo hija de la izquierda y al nodo de
la derecha los individuos en los que Xj toma los valores 2, 3, ..., m. La segunda
forma de división es aquella en la que los individuos en los que Xj toma los
valores 1 ó 2 van al nodo hija de la izquierda y al nodo de la derecha los
individuos en los que Xj toma los valores 3, ..., m. Ası́ sucesivamente hasta la
posible regla de división m − 1 en la que los individuos en los que Xj toma
los valores 1 ó 2 ó ... m − 1 van al nodo hija de la izquierda y al nodo de la
derecha los individuos en los que Xj toma el valor m.
D
111
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 4. Bioinformática: Técnicas Machine Learning
Ejemplo 4.3
Los datos FMS-data.txt son los resultados de un estudio, el “FAMuSS study”, sobre tamaño
muscular y fuerza que trata de determinar los factores genéticos del aparato muscular antes y
después de realizar ejercicio fı́sico. Para ello se eligieron a n = 1397 individuos y se obtuvieron
datos sobre 225 Poliformismos de un solo nucleótido, SNPs.
En este ejemplo analizaremos la influencia de los 6 genes de este conjunto de datos relacionados con la resistencia (todos con la denominación resistin y algo más y que son categóricos
con tres niveles), en la variable dependiente NDRM.CH que mide el porcentaje de cambio
en la fuerza muscular.
Ejecutando la siguiente secuencia de instrucciones en R,
resistin_c980g=ab
|
51.23
61.04
Figura 4.3 : Árbol de Regresión
>
>
>
>
fms<-read.delim("h:\\salud\\FMS-data.txt",header=T)
attach(fms)
Rasgo3<-NDRM.CH
library(rpart)
> Arbol3<-rpart(Rasgo3~resistin_c30t+resistin_c398t+resistin_g540a+resistin_c980g
+ +resistin_c180g+resistin_a537c,method="anova",data=fms)
> Arbol3
n=611 (786 observations deleted due to missingness)
node), split, n, deviance, yval
* denotes terminal node
1) root 611 665669.4 52.85352
2) resistin_c980g=CC,CG 510 491113.4 51.23314 *
(1)
D
112
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
3) resistin_c980g=GG 101 166455.3 61.03564 *
vemos en (1) que la variable resistin-c980g es la covariable más predictiva de la variable
de respuesta NDRM.CH. Vemos también allı́ que los individuos con genotipos CC y CG tienen
un valor predictivo de 51′ 23 mientras que los individuos con genotipos GG tienen un valor
predictivo de 61′ 03
Aunque en este ejemplo la representación gráfica del árbol de regresión no es tan importante
como en otros casos, podemos conseguirla ejecutando
> plot(Arbol3,ylim=c(0.985,1.005))
> text(Arbol3)
obteniendo el árbol de regresión de la Figura 4.3.
Covariables Cuantitativas
La situación en la que la covariable es cuantitativa es muy similar al caso
de covariable ordinal: ordenamos los valores observados de esta variable en la
muestra y los consideramos como los valores de una variable ordinal.
4.2.2.
Árboles óptimos
En los apartados anteriores hemos estudiado cómo construir árboles en
diferentes situaciones. En la mayorı́a de las ocasiones los árboles obtenidos
deben de ser podados (pruned) para reducir el número final de ramas. El
problema es semejante al sobre-ajuste en la regresión lineal, problema que
consiste en que cuantas más covariables incluyamos, mejor será el ajuste en el
conjunto de datos observado pero será poco útil en predicciones para conjuntos
de datos nuevos.
De los distintos métodos de poda en la obtención del árbol óptimo, sólo
consideraremos el método Coste de la Complejidad en el que, como su nombre
indica, se define una medida del coste de tener un árbol más complejo, es decir,
con más ramas o mejor dicho, con más nodos finales, cantidad denominada
tamaño del árbol, aunque la medida tiene en cuenta también el error del ajuste
del árbol, el cual lógicamente será mayor cuantas menos ramas tenga.
Comencemos denominando impureza del árbol T al número
R(T ) =
X
τ
π(τ ) · r(τ )
en donde la suma anterior se efectúa en todos los nodos terminales τ , siendo
π(τ ) la probabilidad de pertenecer al nodo τ y r(τ ) la medida de error del
nodo τ .
Si denominamos α ≥ 0 a un parámetro de complejidad, el Coste de la
Complejidad del árbol T se define como
D
113
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 4. Bioinformática: Técnicas Machine Learning
CosCom = R(T ) + α · Tamaño del árbol T
siendo el propósito de este método determinar el tamaño del árbol que minimice el Coste de la Complejidad.
Ejemplo 4.4
Vamos a considerar de nuevo los datos Virco. Ahora vamos a determinar asociaciones entre
mutaciones en la región de proteasa del genoma del virus considerando ahora como variable
dependiente cuantitativa la resistencia al APV, variable APV.Fold.
Primero generamos el árbol de regresión como hicimos más arriba para obtener la Figura
4.4.
P47< 0.5
|
P54< 0.5
P20< 0.5
P82>=0.5
P84< 0.5
P76< 0.5
P33< 0.5
21.66
20.78
2.958 12.98
12.81 32.45
P76< 0.5
P50< 0.5
P54< 0.5
P13< 0.5
9.169
51.08
16.29 29.58
Figura 4.4 : Árbol de Regresión
> attach(Virco)
> library(rpart)
> Arbol4<-rpart(APV.Fold~.,method="anova",data=Vircogen)
> Arbol4
n=939 (127 observations deleted due to missingness)
node), split, n, deviance, yval
* denotes terminal node
1) root 939 356632.300 12.946540
2) P47< 0.5 826 220484.800 9.799758
4) P84< 0.5 646 103247.200 6.634365
8) P50< 0.5 601 74375.060 5.509651
31.23 51.23
D
114
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
16) P76< 0.5 565 53451.150 4.536460
32) P33< 0.5 476 21525.120 2.957983 *
33) P33>=0.5 89 24396.950 12.978650 *
17) P76>=0.5 36 11990.530 20.783330 *
9) P50>=0.5 45 17958.230 21.655560 *
5) P84>=0.5 180 87535.010 21.160000
10) P76< 0.5 164 60255.500 18.241460
20) P54< 0.5 54
6454.596 9.168519 *
21) P54>=0.5 110 47173.530 22.695450
42) P13< 0.5 57 10476.250 16.291230 *
43) P13>=0.5 53 31845.230 29.583020 *
11) P76>=0.5 16 11564.070 51.075000 *
3) P47>=0.5 113 68180.140 35.948670
6) P54< 0.5 38 14941.670 22.626320
12) P20< 0.5 19
2264.829 12.805260 *
13) P20>=0.5 19
9011.627 32.447370 *
7) P54>=0.5 75 43076.850 42.698670
14) P82>=0.5 32 14090.680 31.228120 *
15) P82< 0.5 43 21642.540 51.234880 *
> plot(Arbol4,ylim=c(0.6,1.03))
> text(Arbol4)
size of tree
2
3
Inf
0.13
0.061
4
5
6
7
0.03
0.027
8
9
10
0.021
0.02
0.016
11
12
1.0
0.9
0.8
0.7
0.5
0.6
X−val Relative Error
1.1
1.2
1
0.01
cp
Figura 4.5 : Parámetro de Complejidad
Para podar el árbol necesitamos determinar el valor del parámetro de complejidad. Para ello
ejecutamos
> plotcp(Arbol4)
D
115
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 4. Bioinformática: Técnicas Machine Learning
> printcp(Arbol4)
Regression tree:
rpart(formula = APV.Fold ~ ., data = Vircogen)
Variables actually used in tree construction:
[1] P13 P20 P33 P47 P50 P54 P76 P82 P84
Root node error: 356632/939 = 379.8
n=939 (127 observations deleted due to missingness)
1
2
3
4
5
6
7
8
9
10
11
12
CP nsplit rel error
0.190581
0
1.00000
0.083286
1
0.80942
0.044066
2
0.72613
0.030603
3
0.68207
0.028493
4
0.65146
0.025049
5
0.62297
0.021112
6
0.59792
0.020592
7
0.57681
0.018583
8
0.55622
0.013605
9
0.53763
0.010277
10
0.52403
0.010000
11
0.51375
xerror
1.00159
0.81551
0.76589
0.73032
0.71240
0.70722
0.68137
0.66570
0.66749
0.66596
0.65768
0.66067
xstd
0.080875
0.072546
0.067428
0.066232
0.063506
0.063294
0.061714
0.061737
0.061517
0.061638
0.061209
0.061041
De la primera sentencia obtenemos la Figura 4.5. De este gráfico y de la segunda sentencia
vemos que con un tamaño 4, es decir, con cuatro nodos finales, podemos conseguir un buen
compromiso entre reducción del error de ajuste del árbol (que se obtiene aumentando el
número de ramas) y la interpretación del árbol ajustado (que se obtiene disminuyendo el
número de ramas). Esta elección corresponde a un valor en el parámetro de complejidad
0′ 03. Para obtener el árbol con esta caracterı́stica, es decir, podar el Arbol4 antes construido,
ejecutamos
> library(rpart)
> Arbol5<-prune(Arbol4,cp=0.03)
> Arbol5
n=939 (127 observations deleted due to missingness)
node), split, n, deviance, yval
* denotes terminal node
1) root 939 356632.30 12.946540
2) P47< 0.5 826 220484.80 9.799758
4) P84< 0.5 646 103247.20 6.634365 *
5) P84>=0.5 180 87535.01 21.160000
10) P76< 0.5 164 60255.50 18.241460 *
11) P76>=0.5 16 11564.07 51.075000 *
3) P47>=0.5 113 68180.14 35.948670 *
que podemos representar ejecutando
D
116
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
P47< 0.5
|
P84< 0.5
35.95
P76< 0.5
6.634
18.24
51.08
Figura 4.6 : Árbol de regresión podado
> plot(Arbol5,ylim=c(0.6,1.03))
> text(Arbol5)
para obtener la Figura 4.6.
4.3.
Bosques Aleatorios (Random Forests, RFs)
Los Bosques Aleatorios (Random Forests), técnica también conocida por su
acrónimo anglosajón RF, fueron propuestos originalmente por Breiman (2001)
y son una generalización de los Árboles de Clasificación y Regresión (CARTs)
estudiados en la sección anterior.
Esta técnica, consistente en generar un conjunto de CARTs, tiene como
propósito principal el evitar el efecto de la colinealidad (dependencia entre las
covariables independientes).
No presenta, como resultado final, un árbol que pudiera ser interpretado
como un modelo de asociación entre la variable dependiente y las covariables
sino que suministra una medida de la contribución de cada covariable a la
variable dependiente.
El proceso de formación del bosque aleatorio (el algoritmo) consiste en,
primero, fijar un ı́ndice del algoritmo b. Para b = 1,
1. En primer lugar se seleccionan al azar (con reemplazamiento) aproximadamente 2/3 partes de la muestra para constituir lo que se denomina la
D
117
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 4. Bioinformática: Técnicas Machine Learning
muestra de aprendizaje (learning sample, LS) la cual servirá para forman
el árbol inicial. El resto de individuos de la muestra se denomina datos
de fuera de la bolsa (out-of-bag data, OOB data) y se utilizarán para
evaluar lo bien o mal que se ajustan estos datos el árbol antes generado.
2. En un segundo paso generamos el árbol CART con los datos LS pero
con dos diferencias a como lo hacı́amos en la sección anterior; primero,
que no lo podaremos y, segundo, en cada nodo no se consideran todas las
covariables posibles sino sólo un conjunto de ellas, habitualmente, una
tercera parte de ellas.
3. En el tercer paso utilizaremos la parte de la muestra que hemos denominado OOB para evaluar la importancia de cada potencial covariable
predictora. Para esto,
a) Calculamos la impureza global del árbol para esta muestra OOB,
obtenida sumando las impurezas al final de cada nodo terminal del
árbol, a la que denominaremos πb .
b) Para cada variable Xj calculamos la diferencia entre la impureza
global del árbol, πb , y la impureza del árbol cuando Xj es permutada,
digamos, πbj . De esta maneara determinamos la importancia de la
variable, δbj = πbj − πb .
4. Repetir los tres pasos anteriores para b = 2, ..., B obteniendo, para cada
variable j = 1, ..., p, δ1j , ..., δBj .
5. Calcular la Importancia Global de las Covariables θb1 , θb2 , ..., θbp , siendo
θbj =
B
1 X
δbj
B b=1
y la Importancia Global Estandarizada de cada Covariable dada por
θbj
SE(θbj )
en donde
SE(θbj ) es la desviación tı́pica de δbj en los B árboles dividido
√
por B.
El ajuste del Bosque Aleatorio se puede obtener con la función randomForest
de la librerı́a del mismo nombre,
randomForest(data,dependiente,importance)
D
118
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Bosque1
P35
P36
P54
P73
P20
P84
P6
P94
P72
P63
P45
P14
P15
P76
P57
P58
P82
P89
P2
P34
P85
P66
P37
P19
P12
P77
P47
P25
P46
P55
P36
P20
P35
P73
P25
P54
P84
P72
P93
P62
P37
P15
P46
P90
P77
P3
P58
P82
P2
P94
P10
P1
P41
P30
P70
P12
P13
P91
P95
P71
2
3
4
5
6
%IncMSE
7
8
0e+00
2e+05
4e+05
IncNodePurity
6e+05
Figura 4.7 : Importancia de cada covariable
en donde los argumentos principales de esta función son data es decir, los
datos en formato data frame, dependiente en donde ponemos el nombre de
la variable dependiente, e importance, ejecutando la opción importance=T
para obtener lo que estábamos buscando, la importancia de cada covariable
predictora en la variable dependiente.
Con estas opciones obtendrı́amos el valor de la Importancia Global Estandarizada de cada Covariable θbj /SE(θbj ). Su representación gráfica ordenada la
obtenemos con la función varImpPlot.
Es de destacar que, como esta función realiza, de hecho, un remuestreo
bootstrap, los resultados obtenidos en cada ocasión pueden ser distintos y, a
su vez, distintos de los que obtenemos aquı́.
Ejemplo 4.5
Consideremos de nuevo los datos Virco y la variable dependiente NFV.Fold-IDV.Fold como
en el Ejemplo 4.2. La función randomForest no admite datos perdidos por lo que cambiamos
un poco las sentencias de dicho ejemplo y modificamos los datos considerados. Ejecutando
(1) obtenemos la importancia de cada variable que vemos representada en la Figura 4.7
ejecutando (2).
D
119
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 4. Bioinformática: Técnicas Machine Learning
> Rasgo22<-Rasgo2[!is.na(Rasgo2)]
> Vircogen22<-Vircogen[!is.na(Rasgo2),]
> Bosque1<-randomForest(Vircogen22,Rasgo22,importance=T)
(1)
Call:
randomForest(x = Vircogen22, y = Rasgo22, importance = T)
Type of random forest: regression
Number of trees: 500
No. of variables tried at each split: 33
Mean of squared residuals: 5688.114
% Var explained: 13.77
> varImpPlot(Bosque1)
(2)
En el gráfico de la izquierda de esta figura se ve que las variables más importantes (en esta
selección aleatoria bootstrap) han resultado ser P35, P36, P54, P73 y P20.
Aunque la función randomForest no admite datos perdidos, hay algunas
posibilidades de actuación si los hubiera.
4.4.
Árboles de Regresión Lógica
Este tipo de análisis, en búsqueda de las covariables más predictivas de tipo
dicotómico, se debe a Ruczinski y otros (2003, 2004) y se basa en lo que se
denomina Combinaciones Booleanas. Si por ejemplo X1 , ..., X4 son 4 variables
dicotómicas, o mejor, las variables indicadoras de 4 variables dicotómicas, una
Combinación Booleana de ellas podrı́a ser
(X1 ∧ X2 ) ∨ (X3c ∧ X4 )
[4.1]
en donde los operadores lógicos que se utilizan son ∨ = o, ∧ = y y Ac =
no A y que se leerı́a diciendo que, o bien es X1 = 1 y X2 = 1, o bien es
X3 = 0 y X4 = 1. Esta dicotomı́a recurrente se expresa en forma de árbol de
decisión (como la Figura 4.8 del siguiente ejemplo), consistiendo el método de
los Árboles de Regresión Lógica en encontrar la Combinación Booleana más
predicitva; es decir, como si dijéramos el “modelo lineal generalizado” más
predictivo para variables dicotómicas, de la forma
g(E[Y ]) = β0 +
t
X
βj Lj
[4.2]
j=1
siendo los Lj Combinaciones Booleanas de las variables predictivas de tipo
indicador como las de (4.1).
D
120
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Este método se puede ejecutar con la función logreg de la librerı́a LogicReg
logreg(resp,bin,select)
en donde los argumentos principales de esta función son resp, para indicar el
nombre de la variable dependiente; bin, para los datos en formato data frame,
y select, para indicar el tipo de modelo a ajustar, es decir, el número de
árboles de regresión lógica a ajustar; es decir, el número de términos t que
tendrı́a el “modelo de regresión” (4.2); si este valor es mayor que 1, debemos
utilizar también los argumentos ntrees (que será igual al valor dado a select,
y nleaves sobre el número de hojas que queremos tenga el árbol ajustado.
Apuntemos de nuevo el hecho de que esta función utiliza métodos bootstrap
y que, en consecuencia, cada vez que la ejecutemos obtendremos resultados
distintos.
Ejemplo 4.6
Si consideramos de nuevo los datos Virco y la variable dependiente NFV.Fold-IDV.Fold como
en los Ejemplos 4.2 y 4.5, podemos obtener 1 árbol de regresión lógica ejecutando (1)
tree 1 out of 1
Parameter = −273.5153
or
or
or
P72
P85
and
or
P35
P93
or
P73
P25
P70
Figura 4.8 : Árbol de regresión lógica con un término
> library(LogicReg)
> Logico<-logreg(resp=Rasgo22,bin=Vircogen22,select=1)
> Logico
score 73.996
(1)
(3)
D
121
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 4. Bioinformática: Técnicas Machine Learning
-274 * (((P72 or P85) or (not P35)) or (((not P93) or (not P73)) and
((not P25) or P70)))
> plot(Logico)
(2)
Ejecutando (2) obtenemos la representación de este árbol dada por la la Figura 4.8. De esta
figura, o del resultado de ejecutar (3), vemos que el modelo ajustado es
g(E[Y ]) = −273′ 5 · {[(P 72 ∨ P 85) ∨ P 35c ] ∨ [(P 93c ∨ P 73c ) ∧ (P 25c ∨ P 70)]}
Si queremos que el “modelo lineal” tenga dos términos, ejecutaremos (4), obteniendo los
resultados con (5) y la Figura 4.9 ejecutando (6) dos veces.
> Logico2<-logreg(resp=Rasgo22,bin=Vircogen22,select=2,ntrees=2,nleaves=8)
(4)
> Logico2
2 trees with 8 leaves: score is 74.571
+235 * (((P71 and (not P72)) and (P93 and (not P54))) and P73) +44.1 *
(((not P36) and P20) or P30)
(5)
> par(mfrow=c(1,3))
> plot(Logico2)
(6)
El modelo ajustado con dos términos en este segundo caso es, por tanto
tree 2 out of 2 total size is 8
Parameter = 234.9389
Parameter = 44.0553
and
100
tree 1 out of 2 total size is 8
90
or
P73
P30
2
70
and
scores
80
and
P71 P72 P93 P54
P36
P20
50
60
and and
5
6
7
8
9
10
11
model size
Figura 4.9 : Árbol de regresión lógica con dos términos
g(E[Y ]) = 234′ 94 · {[(P 71 ∧ P 72c ) ∧ (P 93 ∧ P 54c )] ∧ P 73} + 44′ 1 · {[P 36c ∧ P 20] ∨ P 30}
D
122
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
4.5.
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Regresión a Trazos Adaptativa Multivariante
(Multivariate Adaptive Regression Splines, MARS)
La Regresión a Trazos Adaptativa Multivariante (Multivariate Adaptive
Regression Splines), conocida habitualmente por MARS, es una técnica relacionada con los CARTs debida a Friedman (1991), de nuevo con el propósito
de manejar covariables cualitativas.
Nos centraremos aquı́ en el caso de que la variable dependiente Y sea de
tipo cuantitativo aunque también es posible considerar la situación de que sea
dicotómica.
El propósito de esta técnica es, como en secciones anteriores, encontrar
asociaciones entre p covariables independientes X1 , ..., Xp y una variable dependiente Y dada una muestra de tamaño n de ellas.
El esquema de utilización del MARS es considerar en primer lugar p modelos (uno para cada covariable Xj ) de la forma
Y = β0 + β1 (Xj − t)+ + β2 (t − Xj )+ + ǫ
siendo ǫ una variable de error, t uno de los valores observados de Xj y ( )+
la componente positiva de lo que haya entre paréntesis; es decir, como Xj
es dicotómica (es decir, con valores 0-1), si es t = 0, (Xj − t)+ = Xj y
(t − Xj )+ = 0, y si es t = 1, (Xj − t)+ = 0 y (t − Xj )+ = 1 − Xj .
La covariable más predictiva, digamos Xj∗ , es elegida como aquella para
la que se obtiene la mayor reducción de la suma de cuadrados de los residuos
quedándonos con el modelo
Y = β0 + β1 Xj∗ + ǫ.
Ahora consideramos modelos de la forma
Y = β0 + β1 Xj∗ + β2 Xk + epsilon
y de la forma
Y = β0 + β1 Xj∗ + β2 Xj∗ Xk + ǫ
buscando de la misma manera que antes el modelo más predictivo que será de
una de las dos formas: con Xk o con Xj∗ Xk . Este proceso es repetido hasta
llegar a un modelo final.
Esta técnica se puede ejecutar con la función earth de la librerı́a del mismo
nombre
D
123
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 4. Bioinformática: Técnicas Machine Learning
earth(modelo,data,degree)
en donde los argumentos principales de esta función son modelo expresado de
la forma habitual; data, para los datos en formato data frame, y degree, para
indicar el máximo grado de interacción entre las covariables, valor que por
defecto se toma como 1 y que se recomienda utilizar igual a 2.
Ejemplo 4.7
Vamos a considerar de nuevo los datos Virco y la variable dependiente NFV.Fold-IDV.Fold
como en los Ejemplos 4.2, 4.5 y 4.6. Para determinar las covariables más predictivas mediante
esta técnica, considerando interacciones de orden 2 como máximo, ejecutamos (1)
> library(earth)
> solucion<-earth(Rasgo22~.,data=Vircogen22,degree=2)
(1)
> solucion
Selected 38 of 100 terms, and 22 of 99 predictors
Importance:P15TRUE,P25TRUE,P35TRUE,P36TRUE,P73TRUE,P54TRUE,P94TRUE,P10TRUE,...
Number of terms at each degree of interaction: 1 2 35
GCV 5155.408
RSS 4113795
GRSq 0.2200334
RSq 0.3610069
de donde obtenemos las covariables más predictivas por orden de importancia. Si queremos
obtener el modelo ası́ ajustando, con sus coeficientes, ejecutamos (2), obteniendo como
resultado estos coeficientes.
> summary(solucion)
Call: earth(formula=Rasgo22~., data=Vircogen22, degree=2)
(Intercept)
P35TRUE
P76TRUE
P1TRUE * P73TRUE
P10TRUE * P35TRUE
P10TRUE * P73TRUE
P15TRUE * P25TRUE
P15TRUE * P35TRUE
P15TRUE * P54TRUE
P15TRUE * P73TRUE
P20TRUE * P35TRUE
P20TRUE * P54TRUE
P20TRUE * P73TRUE
P30TRUE * P70TRUE
P30TRUE * P77TRUE
P35TRUE * P36TRUE
P35TRUE * P54TRUE
P35TRUE * P73TRUE
P35TRUE * P82TRUE
P35TRUE * P84TRUE
P35TRUE * P93TRUE
P35TRUE * P95TRUE
P36TRUE * P54TRUE
coefficients
-1.49386
36.98821
-34.95785
-30.79950
29.81243
65.50646
751.24589
-34.54019
32.95728
-58.53545
47.11367
-41.71048
77.58072
158.97600
42.81780
-42.06393
-33.73524
78.73042
-31.25249
-59.43351
23.76439
-60.69940
30.17810
(2)
D
124
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
P36TRUE
P48TRUE
P54TRUE
P54TRUE
P54TRUE
P54TRUE
P54TRUE
P63TRUE
P70TRUE
P72TRUE
P73TRUE
P73TRUE
P73TRUE
P73TRUE
P73TRUE
Cuadernos de Estadı́stica Aplicada: Área de la Salud
P73TRUE
P54TRUE
P72TRUE
P73TRUE
P84TRUE
P93TRUE
P94TRUE
P73TRUE
P73TRUE
P73TRUE
P74TRUE
P76TRUE
P77TRUE
P84TRUE
P93TRUE
-113.98578
-20.80249
24.06139
-63.96128
34.96787
-18.74152
207.51818
67.33288
-103.04692
-69.71491
-54.83226
101.72366
-54.40373
-65.68984
49.44217
Selected 38 of 100 terms, and 22 of 99 predictors
Importance:P15TRUE,P25TRUE,P35TRUE,P36TRUE,P73TRUE,P54TRUE,P94TRUE,P10TRUE, ...
Number of terms at each degree of interaction: 1 2 35
GCV 5155.408
RSS 4113795
GRSq 0.2200334
RSq 0.3610069
Obtenemos también información de que inicialmente se utilizaron 38 términos de los que
finalmente se seleccionaron 22 después de la poda.
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5
Problemas Básicos Resueltos
Problema 5.1
Los casos de SIDA diagnosticados en España en los últimos años vienen recogidos
en la siguiente tabla, clasificados por grupo de riesgo del paciente
1993
3373
631
778
68
82
56
32
321
5341
Por drogas inyectables
Heterosexuales
Homosexuales/bisexuales
Drogas inyect. y homosexuales
Hijos de madre de riesgo
Por hemoderivados
Por transfusiones
Otros
1994
4723
952
898
92
76
66
23
291
7121
1995
4432
1044
934
81
79
52
21
302
6945
1996
4203
1113
766
73
46
44
14
249
6508
1997
3143
950
580
61
37
25
12
290
5098
Analizar descriptivamente estos datos.
Se trata de unos datos correspondientes a una distribución bidimensional
de frecuencias. Para este tipo de datos (CB-sección 2.4) lo primero que deberemos hacer es identificar de qué tipo son los caracteres que dan origen a la tabla
de doble entrada donde aparece la distribución bidimensional de frecuencias.
En este ejercicio, uno de los caracteres, grupo de riesgo, es de tipo cualitativo. La distribución (de frecuencias absolutas) marginal de dicho carácter, se
obtiene directamente de la tabla de contingencia, calculando, para cada modalidad del carácter, el número de individuos que presentan dicha modalidad
a lo largo de todas las modalidades del otro carácter; es decir,
125
D
126
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Por drogas inyectables
Heterosexuales
Homosexuales/bisexuales
Drogas inyect. y homosexuales
Hijos de madre de riesgo
Por hemoderivados
Por transfusiones
Otros
ni
19874
4690
3956
375
320
243
102
1453
31013
El histograma de dicha distribución de frecuencias absolutas es
19874
4690
3956
1453
drog inyec
hetero
homo/bi
375
320
243
102
iny/homo
mad/ries
hemo
trans
otros
De las medidas de posición o dispersión, sólo podemos decir que el grupo
de riesgo más frecuente, es decir la moda, es el, ser consumidor de drogas
inyectables.
Respecto al otro carácter, año, aunque aparentemente es de tipo cuantitativo, no van a tener tampoco mucho sentido las medidas de posición o
dispersión que resuman la distribución marginal correspondiente, la cual serı́a
D
127
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
1993
1994
1995
1996
1997
ni
5341
7121
6945
6508
5098
31013
Las modalidades del carácter año actúan más como etiquetas que como
valores numéricos. No obstante, presentan una peculiaridad muy interesante:
van ordenadas. Esto las diferencia de los caracteres cualitativos.
Además, el que ese carácter se refiera al tiempo, hace que el estudio de
este tipo de datos sea especialmente importante y diferenciado de los que
hasta ahora hemos considerado.
A la vista de la distribución de frecuencias marginal anterior, ha habido
una evolución temporal primero creciente, con un máximo en 1994, para luego ir disminuyendo el número de casos, lo que parece indicar una tendencia
decreciente en el número de individuos con la enfermedad, como muestra el
gráfico siguiente
7121
thh
hhhh6945
""p
hthhh
p
"
hhhht
p
6508
"
p
P
p
"
p PP
p
PP
p
5341 "
p
t
"
p
P5098
p
Pt
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
p
1993
1994
1995
1996
1997
Pero, posiblemente, tienen más interés las distribuciones condicionadas,
por años, en especial en términos relativos
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
128
Grupo de riesgo/1993
Por drogas inyectables
Heterosexuales
Homosexuales/bisexuales
Drogas inyect. y homosexuales
Hijos de madre de riesgo
Por hemoderivados
Por transfusiones
Otros
ni
3373
631
778
68
82
56
32
321
5341
fi
0′ 6315
0′ 1181
0′ 1457
0′ 0127
0′ 0153
0′ 0105
0′ 0060
0′ 0602
1
Grupo de riesgo/1994
Por drogas inyectables
Heterosexuales
Homosexuales/bisexuales
Drogas inyect. y homosexuales
Hijos de madre de riesgo
Por hemoderivados
Por transfusiones
Otros
ni
4723
952
898
92
76
66
23
291
7121
fi
0′ 6632
0′ 1337
0′ 1261
0′ 0129
0′ 0107
0′ 0093
0′ 0032
0′ 0409
1
Grupo de riesgo/1995
Por drogas inyectables
Heterosexuales
Homosexuales/bisexuales
Drogas inyect. y homosexuales
Hijos de madre de riesgo
Por hemoderivados
Por transfusiones
Otros
ni
4432
1044
934
81
79
52
21
302
6945
fi
0 6382
0′ 1503
0′ 1345
0′ 0117
0′ 0114
0′ 0075
0′ 0030
0′ 0434
1
Grupo de riesgo/1996
Por drogas inyectables
Heterosexuales
Homosexuales/bisexuales
Drogas inyect. y homosexuales
Hijos de madre de riesgo
Por hemoderivados
Por transfusiones
Otros
ni
4203
1113
766
73
46
44
14
249
6508
fi
0′ 6458
0′ 1710
0′ 1177
0′ 0112
0′ 0071
0′ 0068
0′ 0022
0′ 0382
1
′
D
129
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
Grupo de riesgo/1997
Por drogas inyectables
Heterosexuales
Homosexuales/bisexuales
Drogas inyect. y homosexuales
Hijos de madre de riesgo
Por hemoderivados
Por transfusiones
Otros
ni
3143
950
580
61
37
25
12
290
5098
fi
0′ 6165
0′ 1863
0′ 1138
0′ 0120
0′ 0073
0′ 0049
0′ 0024
0′ 0568
1
De hecho se podrı́a decir que la tabla de doble entrada del enunciado tiene
una interpretación diferente de la habitual considerada en CB-sección 2.4.
Aquı́, no es tanto que cada uno de los n = 31013 enfermos fuera asignado
a un grupo de riesgo y a un año, hasta formar la tabla de contingencia del
enunciado, sino que, muy posiblemente, se fueran recogiendo datos, año a año
(es decir, se fueran construyendo las distribuciones condicionadas anteriores),
para formar finalmente la tabla de datos del enunciado.
Tantas son las particularidades de este tipo de datos, en los que una de las
variables es el tiempo, que existe un Método Estadı́stico Aplicado especı́fico
para su tratamiento, el cual recibe el nombre de Análisis de Series Temporales.
Analizando la evolución temporal condicionada por el grupo de riesgo, es
decir, las ocho distribuciones de frecuencias absolutas de la variable tiempo
condicionada por cada modalidad de la variable grupo de riesgo, obtendrı́amos
las siguientes distribuciones de frecuencias (sólo damos las dos primeras)
Años/Drogas inyectables
1993
1994
1995
1996
1997
ni
3373
4723
4432
4203
3143
19874
Años/Heterosexuales
1993
1994
1995
1996
1997
ni
631
952
1044
1113
950
4690
Pero posiblemente, lo más interesante de todo sea analizar de forma global,
y mediante una representación gráfica, la evolución temporal de los grupos de
riesgo en porcentaje; es decir, las distribuciones relativas condicionadas por
años, antes calculadas y que permiten realizar los siguientes gráficos, en donde
hemos omitido la evolución de la modalidad otros.
Hemos realizado dos gráficos para clarificar los dibujos y, sobre todo, para
poder variar la escala de las ordenadas y apreciar ası́ con más nitidez las
diferencias en la evolución de las frecuencias.
Ası́, aunque la evolución temporal de la distribución marginal de los años,
antes representada, indicaba una evolución con un máximo en 1994 para luego
D
130
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
mantenerse una tendencia descendente, del gráfico que sigue se deduce que
el porcentaje, sobre el total de casos registrados cada año, de enfermos cuya
causa de contagio fue la de por drogas inyectables, se mantiene prácticamente constante; que el grupo de heterosexuales crece, y que el de homosexuales/bisexuales decrece.
0′ 66
t
0′ 63
t
0′ 65
XXX
pt `
XXX 0′ 64 (((((`
``` 0′ 62
Xt((
``t
′
0 19
(((t
(
(
(
0′ 15
0′ 15 ((((((
thh
(
hhhh 0′ 13 (((((t(
thhh
h(
t
t(
hhhhth
′
′
hhh
0 12
0 13
hhht
0′ 12
0′ 17
t
0′ 11
1993
1994
1995
1996
1997
Por último, en el gráfico siguiente, se observa que el grupo de riesgo de
personas que consumen drogas inyectables y son homosexuales, manifiesta una
tendencia casi constante, que el grupo de hijos con madre de riesgo disminuye a
rachas, es decir, con perı́odos intermedios constantes; que el grupo de contagio
por hemoderivados decrece muy significativamente ya desde niveles muy bajos,
y que, por último, el grupo de transfusiones prácticamente (o mejor dicho,
porcentualmente respecto al número total de casos) casi ha desaparecido.
D
131
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
0′ 015
t
Q
Q
0′ 013
t QQ
thh
hhhh0′ 012
0′ 012
Q
hthhh
t
(
(
Q
(
′
(
hhhh(
0 011
Qt
t
t ((
Q
0′ 011
0′ 011Q
thhh
h
Q
′
hhht
0 010
Q
PP
′
Q
0 009 PP
Q
PP
0′ 007
QtP
Ppt
t
0′ 007
0′ 007PPP
tH
PP
0′ 006H
Pt
H
HH
0′ 005
′ 003
HH
0′ 003
0
t
thh
hhhh0′ 002
0′ 002
ht
t
0′ 013
1993
1994
1995
1996
1997
Problema 5.2
En 1965 A.J. Lea recogió datos sobre la temperatura anual media en varias
ciudades (de Gran Bretaña, Noruega y Suecia) y la tasa de mortalidad en un
tipo de cáncer de pecho en mujeres. Los datos que obtuvo fueron los siguientes:
Temperatura anual
media (grados Fa.)
51′ 3
49′ 9
50′ 0
49′ 2
48′ 5
47′ 8
47′ 3
45′ 1
46′ 3
42′ 1
44′ 2
43′ 5
42′ 3
40′ 2
31′ 8
34′ 0
Índice de
mortalidad
102′ 5
104′ 5
100′ 4
95′ 9
87′ 0
95′ 0
88′ 6
89′ 2
78′ 9
84′ 6
81′ 7
72′ 2
65′ 1
68′ 1
67′ 3
52′ 5
Determinar la recta de mı́nimos cuadrados ası́ como la precisión conseguida con
el ajuste obtenido mediante dicho método.
Aunque los datos del enunciado constituyen una distribución bidimensional de frecuencias, en donde la frecuencia absoluta de cada par es igual
a 1, el principal interés sobre ellos suele ser el de determinar la ecuación
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
132
de una función, generalmente una recta, que permita explicar una de las
variables —denominada dependiente— en función de la otra —denominada
independiente—, con el habitual propósito de hacer predicciones sobre la variable dependiente en función de la independiente.
En este ejercicio, el estudio de campo realizado tendrá interés si puede
demostrarse una relación entre las variables temperatura medio-ambiental e
ı́ndice de mortalidad. Si esto fuera ası́, se podrı́a predecir, mediante la función
ajustada, el ı́ndice de mortalidad que cabrı́a esperar bajo una determinada
temperatura medio-ambiental.
En este caso, por tanto, parece razonable considerar como variable independiente, X, la temperatura y como variable dependiente, Y , el ı́ndice de
mortalidad.
No obstante todo lo que acabamos de decir, hacemos la observación de que,
aunque con el coeficiente de determinación R2 , que calcularemos al final del
problema, podemos calcular la bondad del ajuste que efectuemos, no será hasta
que utilicemos las potentes técnicas de la Inferencia Estadı́stica (en concreto
de la Regresión Lineal) que podamos decidir si existe o no una relación lineal
significativa entre ambas variables.
Aunque el ajuste por mı́nimos cuadrados (CB-sección 2.4.2) que se nos
solicita es el de una recta, siempre es conveniente comenzar haciendo una
representación gráfica de los pares de puntos dados, en lo que se denomina la
nube de puntos, que no es más que la representación de los pares de puntos
(xi , yi ), i = 1, ..., 16, en unos ejes de coordenadas cartesianas, de forma que se
pueda aventurar la bondad del ajuste que se va a realizar.
Es decir, si los datos aparecen alineados la recta de mı́nimos cuadrados
explicará bien a la variable dependiente en función de la independiente, pero
si los puntos muestran una gráfica en forma de parábola, es posible que un
ajuste de tal función por mı́nimos cuadrados resulte más adecuado.
Para los datos de nuestro enunciado la nube de puntos es la siguiente
--+------------------+------------------+------------------+-104.5+
*
+
|
*
*|
|
|
|
*
*
|
M
|
|
o
+
*
*
+
r
|
*
|
t
|
*
*
|
a
|
*
|
l
|
|
i
+
+
d
|
*
|
a
|*
*
|
d
|
*
|
|
|
+
+
D
133
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
|
|
52.5|
*
|
--+------------------+------------------+------------------+-31.8
51.3
Temperatura
La disposición lineal de los datos, hace razonable el ajuste por mı́nimos
cuadrados.
Como es sabido, la recta de mı́nimos cuadrados es la más próxima a la
nube de puntos, la cual se determinó en CB que era la de ecuación
b + βb x
y=α
b y βb eran los valores determinados por las ecuaciones
en donde α
n
βb =
y
n
X
i=1
xi yi −
n
n
X
i=1
b=
α
n
X
i=1
n
X
i=1
x2i −
yi − βb
xi
!
n
X
xi
n
X
xi
i=1
n
X
i=1
!2
yi
!
i=1
.
n
Para calcularlos utilizaremos la siguiente tabla de cálculos
xi
yi
xi yi
x2i
yi2
51′ 3 102′ 5 5258′ 25 2631′ 69 10506′ 25
49′ 9 104′ 5 5214′ 55 2490′ 01 10920′ 25
50′ 0 100′ 4
5020
2500
10080′ 16
49′ 2
95′ 9
4718′ 28 2420′ 64
9196′ 81
′
′
′
′
87 0
4219 5
2352 25
7569
48 5
′
′
′
47 8
95 0
4541
2284 84
9025
47′ 3
88′ 6
4190′ 78 2237′ 29
7849′ 96
45′ 1
89′ 2
4022′ 92 2034′ 01
7956′ 64
46′ 3
78′ 9
3653′ 07 2143′ 69
6225′ 21
′
′
′
′
84 6
3561 66 1772 41
7157′ 16
42 1
44′ 2
81′ 7
3611′ 14 1953′ 64
6674′ 89
′
′
′
′
43 5
72 2
3140 7
1892 25
5212′ 84
′
′
′
′
42 3
65 1
2753 73 1789 29
4238′ 01
40′ 2
68′ 1
2737′ 62 1616′ 04
4637′ 61
′
′
′
′
31 8
67 3
2140 14 1011 24
4529′ 29
′
′
34 0
52 5
1785
1156
2756′ 25
713′ 5 1333′ 5 60568′ 34 32285′ 29 114535′ 33
D
134
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
De ella obtenemos que es
n
βb =
y
n
X
i=1
n
X
x i yi −
n
n
X
i=1
n
X
i=1
xi
!
n
X
x2i −
xi
i=1
yi − βb
n
X
n
X
i=1
2
!
yi
!
=
16 · 60568′ 34 − 713′ 5 · 1333′ 5
= 2′ 3577
16 · 32285′ 29 − 713′ 52
xi
1333′ 5 − 2′ 3577 · 713′ 5
= −21′ 795
n
16
con lo que la recta de mı́nimos cuadrados será
b=
α
i=1
i=1
=
y = −21′ 795 + 2′ 3577 x.
Para analizar la bondad del ajuste de mı́nimos cuadrados (CB-sección
2.4.3) que acabamos de realizar, calcularemos el coeficiente de determinación
R2 .
Al ser el ajuste de una recta, podemos calcular R2 a través de la fórmula
R2 = (r)2 =
b2
(β)
P
n
Pn
2
i=1 xi
2
i=1 yi
−
Pn
2
i=1 xi ) /n
P
( ni=1 yi )2 /n
−(
713′ 52
′
16
= 2′ 35772 ·
′ 52 = 0 76537
1333
114535′ 33 −
16
32285′ 29 −
o como cuadrado del coeficiente de correlación de Pearson
n
r =
n
X
i=1
v
u n
u X
tn
x2 −
i
i=1
=
siendo
√
xi yi −
n
X
i=1
xi
n
X
i=1
!2 v
u
xi
!
n
X
yi
i=1
n
u X
tn
y2 −
i
i=1
!
n
X
i=1
yi
!2
16 · 60568′ 34 − 713′ 5 · 1333′ 5
√
= 0′ 87485
16 · 32285′ 29 − 713′ 52 16 · 114535′ 33 − 1333′ 52
D
135
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
R2 = r 2 = 0′ 874852 = 0′ 76536.
Aunque dicho valor puede calificarse de aceptable, no será hasta que utilicemos el contraste de la regresión lineal simple, cuando podamos decidir si
éste se califica de bueno o no.
Problema 5.3
Supongamos que una prueba médica para diagnosticar la presencia de un determinado virus, da positivo en el 99 % de los casos que se aplica a personas que
posean el virus, y que da negativo en el 97 % de los casos que se aplica a personas
que no lo poseen. Si se cree que la probabilidad de que una persona elegida al
azar tenga el virus es 0′ 05, ¿cuál es la probabilidad de que una persona tenga
realmente el virus cuando la prueba le haya dado positiva?
Si denominamos “P os” la suceso la prueba da positivo y “V ” al suceso la
persona tiene el virus, el enunciado del problema nos dice que es
P (P os/V ) = 0′ 99
P (P os∗ /V ∗ ) = 0′ 97
P (V ) = 0′ 05
solicitándonos la probabilidad P (V /P os).
La probabilidad pedida, en función de las probabilidades dadas, se obtiene
a través de la fórmula de Bayes (CB-sección 3.10)
P (V /P os) =
=
P (P os/V ) · P (V )
P (P os/V ) · P (V ) + P (P os/V ∗ ) · P (V ∗ )
0′ 99 · 0′ 05
= 0′ 6346.
0′ 99 · 0′ 05 + 0′ 03 · 0′ 95
Problema 5.4
El uno por ciento de los niños sufre efectos secundarios tras la administración
de un determinado antibiótico. Si éste fue aplicado a seis niños, determinar la
probabilidad de que
a) Ninguno padezca efectos secundarios.
b) Lo padezca más de un niño.
c) Si se suministrase el antibiótico a 1000 niños, ¿cuál serı́a el número medio de
niños con efectos secundarios?.
d) Calcular la probabilidad de que, de esos mil niños, padezcan efectos secundarios más de 15.
a) El problema se puede formalizar mediante un modelo binomial (CBsección 4.4.1) en donde cada prueba de Bernoulli sea el administrar el antibiótico en cuestión y el suceso éxito el que el niño padezca efectos secundarios.
D
136
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
De esta forma, la variable número de niños, de entre los seis, que padecieron
efectos secundarios, se puede modelizar mediante una variable X con distribución binomial B(6, 0′ 01), al ser p = 0′ 01 la probabilidad de que se dé el suceso
éxito.
La probabilidad pedida será ahora, utilizando la tabla 1 de la distribución
binomial,
P {X = 0} = 0′ 9415.
b) En la misma situación que en el apartado anterior, la probabilidad
pedida será
P {X > 1} = 1 − P {X ≤ 1} = 1 − [P {X = 0} + P {X = 1}]
= 1 − [0′ 9415 + 0′ 0571]
= 0′ 0014.
c) Ahora lo que ocurre es que se aumenta el número de pruebas de Bernoulli, modelizándose el problema con una variable X ; B(1000, 0′ 01). La media
de esta distribución es el producto de los dos parámetros, es decir,
E[X] = n · p = 1000 · 0′ 01 = 10.
Por tanto, el número medio o número esperado de niños con efectos secundarios, de entre los mil, serı́a 10.
d) El cálculo de probabilidades de distribuciones binomiales para un gran
número de ensayos, como aquı́ ocurre, se realiza aproximando dicha distribución mediante el teorema central del lı́mite (CB-sección 4.7).
En el caso de una distribución p
binomial X ; B(n, p) , su aproximación
mediante una normal Y ; N (np , np(1 − p) ) es válida (CB-sección 4.7.1)
cuando supuesto sea p ≤ 0′ 5 (como aquı́ ocurre) entonces sea también np > 5
(como aquı́ ocurre).
Por tanto, aproximaremos la X ; B(1000, 0′ 01), por una
Y ; N 1000 · 0′ 01 ,
√
1000 · 0′ 01 · 0′ 99 = N (10 , 3′ 146)
quedando la probabilidad pedida igual a
P {X > 15} = P
X − 10
15 − 10
> ′
′
3 146
3 146
= P {Z > 1′ 59} = 0′ 0559
D
137
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
siendo Z una variable aleatoria N (0, 1) y en donde la última probabilidad la
hemos calculado utilizando la tabla 3 de dicha distribución.
Problema 5.5
La estatura de los individuos de una determinada población sigue una distribución normal de desviación tı́pica igual a 10 cm. Calcular el número mı́nimo de
individuos que habrá que seleccionar de dicha población para que la probabilidad
de que la estatura media de dicha muestra difiera de la poblacional en menos de
5 cm., sea 0′ 9.
Comenzando por el enunciado de este problema, es conveniente aclarar que
cuando nos referimos a que las estaturas de los individuos de una determinada
población siguen una distribución normal, estamos expresando que suponemos
que el histograma de estaturas de toda la población —el cual es desconocido—
tiene una forma acampanada semejante a la densidad de la normal y que,
por tal suposición, cuando elijamos al azar un individuo de esa población su
estatura seguirá las reglas probabilı́sticas del modelo normal, como por ejemplo
el que entre dicha estatura media menos tres veces la desviación tı́pica y la
estatura media más tres veces la desviación tı́pica se encuentra el 99′ 74 % de
la población,
P {µ − 3σ < X < µ + 3σ} = P {−3 < Z < 3} = 1 − 2 · 0′ 0013 = 0′ 9974.
Ahora, bajo este supuesto se pide (véase CB-sección 5.11) determinar el
tamaño muestral necesario para que se verifique la condición expresada en el
enunciado; en concreto, si la estatura en cm. de los individuos de la población,
la representamos por la variable aleatoria X y admitimos, por tanto, que es
X ; N (µ, 10), se pide determinar n de forma que sea
P {|x − µ| < 5} = 0′ 9.
En estas condiciones sabemos (CB-sección 5.4) que la media muestral se distri√
buye como x ; N (µ, 10/ n). Por tanto, tipificando en la condición anterior
y si, como siempre, Z representa una variable N (0, 1), será
P
|x − µ|
5 √
5 √
√ <
n = P |Z| <
n = 0′ 9.
10/ n
10
10
Ahora vamos a buscar en la tabla 3 de la normal N (0, 1) un valor z tal que
sea
P {|Z| < z} = 0′ 9
D
138
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
es decir, un valor tal que la N (0, 1) deje un área de probabilidad 0′ 9 entre −z
y z, o lo que es lo mismo, por haber un área de probabilidad igual a 1 debajo
de toda la curva, un valor z tal que fuera del intervalo (−z, z) haya un área de
probabilidad igual a 0′ 1; y, por la simetrı́a de dicha curva, un valor z que deje
a su derecha un área de probabilidad 0′ 05. La tabla 3 nos da (por interpolación
inmediata puesto que es el valor buscado es el punto medio) como solución
z = 1′ 645.
Por tanto, deberá ser
5 √
n = 1′ 645
10
de donde se obtiene el valor n = 10′ 8241, aunque como habrá que elegir
un tamaño de muestra entero y como a medida que aumenta n, aumenta la
probabilidad del suceso puesto como condición (al aparecer n en el numerador)
tomaremos n = 11 como n mı́nimo que mantenga la precisión exigida en el
enunciado.
Problema 5.6
El tiempo de vida en dı́as X de los individuos de una población afectados de una
nueva enfermedad es una variable aleatoria continua con función de densidad
fθ (x) = 2 θ2 x−3
si x > θ
y fθ (x) = 0 si x ≤ θ , siendo θ > 0 un parámetro desconocido.
Con objeto de estimar el parámetro θ, se extrajo una muestra aleatoria simple
de dicha población, obteniéndose los siguientes tiempos de vida, en dı́as, de los
10 individuos seleccionados, todos los cuales fallecieron por la enfermedad en
estudio
398, 356, 615, 265, 650, 325, 400, 223, 368, 680
Determinar la estimación de máxima verosimilitud de θ.
La función de densidad de la variable aleatoria en estudio X, tiempo de
vida de los individuos de la población afectados por la enfermedad en estudio, nos indica que dichos individuos contraen la enfermedad en un momento
desconocido, θ, (puesto que en ese punto la función de distribución F (x) empieza a crecer desde cero, o lo que es lo mismo la función de supervivencia
S(x) = 1 − F (x) vale 1, lo que quiere decir que todos los individuos están vivos), momento a partir del cual, y por la forma de dicha función de densidad,
la probabilidad de sobrevivir va disminuyendo.
Es precisamente el inicio de la enfermedad el objeto de la estimación. Para
ello, utilizaremos el método de la máxima verosimilitud (CB-sección 5.2). La
función de verosimilitud de la muestra será
D
139
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
L(θ) = fθ (x1 , ..., xn ) =
n
Y
i=1
n 2n
fθ (xi ) = 2 θ
n
Y
i=1
xi
!−3
si x1 , ..., xn > θ.
Como siempre, el método de la máxima verosimilitud se basa en asignar a
θ el valor que maximice la función L(θ); el problema es que ahora θ aparece
en el recorrido de la variable, es decir, que L(θ) toma un valor distinto de cero
si θ < x1 , ..., xn y si algún xi es tal que xi ≤ θ será L(θ) = 0. En la estimación
de θ habrá que tener también en cuenta, por tanto, el recorrido de L(θ).
Q
La función L(θ) = 2n θ 2 n ni=1 x−3
i crece al crecer θ, por lo que será tanto
mayor cuanto mayor sea θ, y esto hasta que θ llegue al primer xi a partir de
donde, por lo comentarios anteriores, L(θ) vale cero. Por tanto, el valor de θ
que hace máxima L(θ) es el mı́nimo de los n valores {x1 , ...xn } el cual se suele
denotar por x(1) .
La estimación de máxima verosimilitud de θ será, a partir de los 10 datos
de la muestra, x(1) = 223.
Este problema es un ejemplo de que lo importante en la determinación del
estimador de máxima verosimilitud es calcular el valor de θ que maximiza la
función L(θ), máximo que en muchas ocasiones se podrá determinar derivando
L(θ) respecto a θ e igualando a cero dicha derivada, pero que en otras ocasiones, como pasa en general al determinar el máximo de cualquier función,
deberán utilizarse otras herramientas distintas de la derivada.
Problema 5.7
Se quiere estimar, mediante un intervalo de confianza, el tiempo que transcurre
desde la administración de la primera dosis de una nueva vacuna contra la hepatitis B, hasta que se produce en el individuo una drástica disminución del nivel
de anticuerpos contra la mencionada enfermedad, requiriendo éste una nueva
dosis de recuerdo.
Para tal fin se eligió una muestra aleatoria simple de 40 individuos de la población
en estudio en los que se observó el tiempo transcurrido desde la administración
de la vacuna hasta la disminución de los anticuerpos, obteniéndose una media
muestral de 35 dı́as.
Determinar el mencionado intervalo de confianza para un coeficiente de confianza
de 0′ 95, sabiendo que en las vacunas de tipo sintético, como la aquı́ utilizada, es
admisible suponer una desviación tı́pica de 7 dı́as.
Como es habitual, primero fijaremos el modelo matemático para el problema en cuestión. No se supone distribución para la variable aleatoria en
estudio, X, dı́as transcurridos desde la administración de la vacuna hasta la
disminución de anticuerpos. No obstante, el tamaño muestral, n, es suficientemente grande (mayor que 30) para la situación aquı́ considerada de suponerse
conocida la varianza poblacional σ 2 .
D
140
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
En estas condiciones, el intervalo de confianza para tiempo medio hasta
que deja de ser eficaz la vacuna es (CB-sección 6.3)
σ
σ
x − zα/2 √ , x + zα/2 √ .
n
n
Como de la tabla 3 de la distribución normal N (0, 1) obtenemos que es
zα/2 = z0′ 05/2 = z0′ 025 = 1′ 96, el intervalo de confianza buscado será,
σ
σ
x − zα/2 √ , x + zα/2 √
n
n
=
7
7
35 − 1′ 96 √ , 35 + 1′ 96 √
40
40
= [32′ 83 , 37′ 17].
Aunque el enunciado del problema pedı́a explı́citamente el intervalo de
confianza de la media, no cabe duda de que, en este problema, resulta más
interesante determinar una estimación de cuándo deja de ser eficaz la vacuna,
es decir, una cota de confianza superior de la media, ya que es precisamente
el final del perı́odo de validez lo que nos interesa.
Surge ası́ el concepto de cota de confianza que, aunque no se aborda en CB,
su definición, totalmente análoga a la de intervalo de confianza, no presenta
ninguna dificultad. En el caso de la cota de confianza superior toda la probabilidad se traslada al extremo superior: T2 (x1 , ..., xn ) es una cota de confianza
superior para θ, de coeficiente de confianza 1 − α, si
P {θ ≤ T2 (X1 , ..., Xn )} = 1 − α.
En la cota de confianza inferior, el coeficiente se traslada al extremo inferior: T1 (x1 , ..., xn ) es una cota de confianza inferior para θ, de coeficiente de
confianza 1 − α, si
P {T1 (X1 , ..., Xn ) ≤ θ} = 1 − α.
Como sabemos que los intervalos de confianza son intervalos
[T1 (x1 , ..., xn ) , T2 (x1 , ..., xn )]
tales que
P {T1 (X1 , ..., Xn ) ≤ θ ≤ T2 (X1 , ..., Xn )} = 1 − α
la determinación, en cada caso, de la cota de confianza superior o inferior, se
realizará eligiendo el intervalo de confianza para la situación considerada y
dejando a un lado toda la probabilidad α en lugar de α/2 a cada lado, como
hacı́amos en los intervalos de confianza.
D
141
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
Ası́, en la situación en la que estamos en este problema, la cota de confianza
superior, de coeficiente de confianza 1 − α, para el tiempo medio hasta que
deja de ser eficaz la vacuna será
σ
x + zα √
n
es decir, el extremo superior del intervalo de confianza para la media en la
situación considerada, cambiando zα/2 por zα al dejar a un lado toda la probabilidad α, ya que, al ser en este caso,
x−µ
√
σ/ n
aproximadamente N (0, 1), será
es decir,
P
x−µ
√ > z1−α
σ/ n
=1−α
P
x−µ
√ > −zα
σ/ n
=1−α
y, por tanto,
σ
P µ ≤ x + zα √
n
=1−α
cumpliendo
σ
x + zα √
n
la condición de cota de confianza superior, más arriba exigida.
En definitiva, la cota de confianza superior, de coeficiente de confianza
′
0 95, para el tiempo medio hasta que deja de ser eficaz la vacuna será
σ
7
x + zα √ = 35 + 1′ 645 √ = 36′ 82
n
40
al ser zα = z0′ 05 = 1′ 645.
Problema 5.8
Con objeto de informar a sus pacientes acerca de la duración del tratamiento
de corrección de mordedura cruzada, un ortodoncista desea estimar, mediante
sendos intervalos de confianza, el tiempo medio y la desviación tı́pica de la
duración del tratamiento. Para ello seleccionó una muestra aleatoria simple de 10
fichas de pacientes con tratamiento finalizado, obteniendo los siguientes tiempos
de tratamiento, en dı́as:
D
142
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
290 , 275 , 290 , 325 , 285 , 365 , 375 , 310 , 290 , 300 .
Suponiendo que la duración de dicho tratamiento sigue una distribución normal,
determinar los intervalos de confianza para la media y la desviación tı́pica a un
coeficiente de confianza del 95 %.
Según el enunciado del problema, la variable en estudio X, duración, en
dı́as, del tratamiento de mordedura cruzada, sigue una distribución normal
N (µ, σ) de media y desviación tı́pica desconocidas.
En esta situación, el intervalo de confianza para la media µ es (CB-sección
6.2)
S
S
√ , x + tn−1;α/2 √ .
n
n
x − tn−1;α/2
De los datos observados obtenemos que es x = 310′ 5 y S = 34′ 355; además,
al ser el coeficiente de confianza 0′ 95, a partir de la tabla 5 de la distribución t
de Student obtenemos que es tn−1;α/2 = t9;0′ 025 = 2′ 262. Por tanto, el intervalo
de confianza para la media, de coeficiente de confianza 0′ 95, es
h
x − tn−1;α/2
=
√S
n
h
, x + tn−1;α/2
√S
n
i
′
′
355
310′ 5 − 2′ 262 34√355
, 310′ 5 + 2′ 262 34√10
10
i
= [285′ 92 , 335′ 08].
El intervalo de confianza para la varianza en esta situación de ser la media
poblacional desconocida es (CB-sección 6.4)
"
(n − 1)S 2 (n − 1)S 2
, 2
χ2n−1;α/2
χn−1;1−α/2
#
y como, a partir de la tabla 4 de la distribución χ2 de Pearson, es χ2n−1;α/2 =
χ29;0′ 025 = 19′ 02 y χ2n−1;1−α/2 = χ29;0′ 975 = 2′ 7, el intervalo pedido será
"
#
(n − 1)S 2 (n − 1)S 2
9 · 1180′ 3 9 · 1180′ 3
,
=
,
= [558′ 5 , 3934′ 3].
19′ 02
2′ 7
χ2n−1;α/2
χ2n−1;1−α/2
Extrayendo la raı́z cuadrada a los extremos del intervalo anterior, obtendremos el intervalo de confianza, de coeficiente de confianza 0′ 95, para la desviación tı́pica:
[23′ 63 , 62′ 72].
D
143
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
En este punto queremos reseñar un hecho a tener en cuenta. Un intervalo
de confianza no es más que un subconjunto del conjunto de valores posibles
del parámetro en estudio, elegido de forma que el estadı́stico a utilizar, en
la situación en la que nos movamos, cubra al verdadero valor del parámetro con una probabilidad dada, 1 − α, denominada coeficiente de confianza.
Si, como aquı́ ocurre, el parámetro es bidimensional, θ = (µ, σ), lo lógico
serı́a elegir un subconjunto (de dos dimensiones) del conjunto de valores posibles del parámetro (bidimensional) θ tal que el estadı́stico (bidimensional)
correspondiente, cubriese el verdadero valor de θ con probabilidad 1 − α. El
elegir como tal subconjunto el proporcionado por la intersección de los dos
intervalos de confianza correspondientes, (en nuestro problema el subconjunto {(µ, σ) : 285′ 92 ≤ µ ≤ 335′ 08, 23′ 63 ≤ σ ≤ 62′ 72}) presenta, en general,
el inconveniente de que su verdadero coeficiente de confianza será menor que
1 − α ya que, en el mejor de los casos de que los estimadores a considerar
fueran independientes y pudiéramos calcular fácilmente la probabilidad de la
intersección de los dos sucesos (que el primer estadı́stico cubra a la primera
componente del parámetro —en nuestro caso µ— y el segundo a la segunda —en nuestro caso σ—), ésta serı́a el producto de ambas probabilidades
(1 − α) × (1 − α) < 1 − α por ser 0 < α < 1.
Un estudio preciso de la determinación del subconjunto de valores posibles
del parámetro, denominado región de confianza, que mantuviese el coeficiente
de confianza 1 − α, se sale de los objetivos de CB. No obstante, una regla
práctica a utilizar con los medios de que aquı́ disponemos, podrı́a ser la de
aumentar el coeficiente de confianza de cada uno de los dos intervalos y admitir
que la que se obtendrá para el conjunto intersección de ambos será algo menor
a la fijada para la obtención de cada uno de los dos intervalos de confianza y,
en muchos casos, igual al producto de ambos coeficientes de confianza.
Problema 5.9
Se quiere estimar la eficacia de un tratamiento de fluoración del agua potable de
una determinada ciudad. Para ello, antes de aplicar el tratamiento, se eligieron al
azar 150 personas de la ciudad en cuestión y se observó que el 35 % de las mismas
presentaba alguna caries dental. Pasado un año de tratamiento, se seleccionó otra
muestra aleatoria simple de 150 habitantes de la misma ciudad, observándose
un 30 % de personas con caries. En estas condiciones, determinar un intervalo de
confianza, de coeficiente de confianza 0′ 95, para la diferencia de proporciones de
personas con caries, antes y después de aplicar el tratamiento.
Este problema pone de nuevo de manifiesto que lo importante a la hora
de considerar un problema como de datos apareados o no, no es el que se
seleccionen a las mismas personas (como ocurrı́a en el ejercicio anterior) o que
se realice un tratamiento antes o después (como ocurre en este problema);
D
144
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
lo caracterı́stico de un problema de datos apareados es que las variables que
modelizan el problema no sean independientes.
En el segundo apartado del ejercicio anterior, aunque las personas en las
que se observaban las variables en estudio eran las mismas, éstas eran independientes. En este problema, aunque se observa la proporción de individuos
con caries, antes y después de aplicar el tratamiento, los individuos se seleccionan independientemente en ambas ocasiones, por lo que se trata de variables
independientes.
En concreto, al ser éste un problema de presencia o ausencia de una caracterı́stica, o en nuestra terminologı́a de éxito o fracaso, se puede modelizar
mediante una variable Bernoulli, que no es más que una binomial B(1, p) en
donde p es la proporción de éxitos. Ası́, si X1 es una variable que toma el
valor 1 si el individuo seleccionado al azar de la población, antes de aplicar el
tratamiento, tiene caries y 0 si no tiene caries y p1 es la proporción de personas
con caries antes de aplicar el tratamiento, es X1 ; B(1, p1 ), y si X2 es una
variable que toma el valor 1 si el individuo seleccionado al azar de la población, después de aplicar el tratamiento, tiene caries y 0 si no tiene caries y p2
es la proporción de personas con caries después de aplicar el tratamiento, es
X2 ; B(1, p2 ). Como las muestras antes y después de aplicar el tratamiento
se toman de forma independiente, X1 y X2 serán variables independientes y,
por tanto, no se tratará de un problema de datos apareados, sino de uno de
determinación del intervalo de confianza para la diferencia de medias de dos
poblaciones binomiales —la media de X1 es p1 y la de X2 es p2 —, siendo el
tamaño muestral suficientemente grande (CB-sección 6.7).
El intervalo de confianza para p1 − p2 será, por tanto,
"
p̂1 − p̂2 − zα/2
r
p̂1 (1 − p̂1 )
p̂2 (1 − p̂2 )
+
, p̂1 − p̂2 + zα/2
n1
n2
r
p̂1 (1 − p̂1 )
p̂2 (1 − p̂2 )
+
n1
n2
#
De los datos del enunciado se obtiene que es p̂1 = 0′ 35, n1 = 150, p̂2 = 0′ 30,
n2 = 150 y α/2 = 0′ 025, por lo que intervalo de confianza buscado será
0′ 35 − 0′ 3 − 1′ 96
=
q
0′ 35·0′ 65
150
+
0′ 3·0′ 7
150
, 0′ 35 − 0′ 3 + 1′ 96
q
0′ 35·0′ 65
150
+
0′ 3·0′ 7
150
[−0′ 0558 , 0′ 1558]
ya que es zα/2 = z0′ 025 = 1′ 96 a partir de la tabla 3 de la distribución normal.
Problema 5.10
Se ha realizado un estudio sobre los niveles de radiación de un determinado modelo de pantalla, midiéndose la radiación en 10 pantallas de ese modelo elegidas
al azar, de donde se obtuvo una cuasivarianza muestral de S 2 = 402. Suponiendo
D
145
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
que la radiación de las pantallas sigue una distribución normal, ¿puede rechazarse, a nivel α = 0′ 05, la hipótesis de que la varianza poblacional es mayor o
igual que 1000?.
Llamando X a la variable aleatoria niveles de radiación del modelo de
pantalla en estudio, del enunciado se deduce que es X ; N (µ, σ), con µ y σ
desconocidas. Además, el contraste que se solicita es del tipo H0 : σ 2 ≥ σ02
frente a H1 : σ 2 < σ02 ; bajo las condiciones del primer párrafo del ser la
población normal y la media poblacional desconocida, se rechaza H0 cuando
y sólo cuando (CB-sección 7.4) sea
(n − 1)S 2
< χ2n−1;1−α
σ02
es decir, cuando y sólo cuando sea
9 · 402
= 3′ 618 < χ29;0′ 95 .
1000
Como, a partir de la tabla 4 de la χ2 , es χ29;0′ 95 = 3′ 325 no puede rechazarse
H0 al nivel de significación propuesto.
El p-valor —nivel de significación observado— es la probabilidad P {χ29 <
′
3 618}. A partir de la tabla 4 obtenemos los valores P {χ29 < 3′ 325} = 0′ 05
y P {χ29 < 4′ 168} = 0′ 1; es decir, que a un aumento de abscisa de 4′ 168 −
3′ 325 = 0′ 843 le corresponde un aumento de probabilidad de 0′ 1 − 0′ 05 = 0′ 05.
Por tanto, a un aumento de abscisa de 3′ 618 − 3′ 325 = 0′ 293 le corresponderá un aumento de probabilidad de 0′ 293 × 0′ 05/0′ 843 = 0′ 01738; es decir,
será P {χ29 < 3′ 618} = 0′ 05 + 0′ 01738 = 0′ 06738.
Problema 5.11
Se esté estudiando el tiempo de vida entre los pacientes a una determinada
enfermedad. A tal fin se eligieron al azar 100 fichas de pacientes fallecidos por
la enfermedad en estudio, obteniéndose una media muestral de 740 dı́as y una
cuasidesviación tı́pica muestral de 32 dı́as.
¿Puede admitirse para los pacientes de la enfermedad en cuestión un tiempo
medio de vida superior a 730 dı́as?
Si representamos por X la variable aleatoria tiempo de vida de los pacientes
con la enfermedad en estudio, y por µ su media, estamos interesados en analizar
si puede admitirse la hipótesis µ > 730 la cual, como siempre, se plantea como
hipótesis alternativa H1 , reservando la hipótesis nula al suceso complementario
H0 : µ ≤ 730.
En la situación que nos movemos de contrastes para la media, µ, de una
población no necesariamente normal de varianza desconocida siendo el tamaño
D
146
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
muestral suficientemente grande (CB-sección 7.3), se rechaza H0 : µ ≤ 730
cuando y sólo cuando sea
x − 730
√ > zα
S/ n
siendo zα el valor de la abscisa de una normal N (0, 1) que deja a la derecha
un área de probabilidad α, siendo α el nivel de significación del test.
Si fijamos como nivel de significación α = 0′ 05, la tabla 3 de la normal
N (0, 1) nos proporciona el punto crı́tico zα = z0′ 05 = 1′ 645, al obtenerse a
partir de la mencionada tabla que es P {Z > 1′ 64} = 0′ 0505 y P {Z > 1′ 65} =
0′ 0495. Al ser la probabilidad cola requerida como nivel de significación la
semisuma de las dos anteriores, el punto crı́tico también será la semisuma de
las dos abscisas anteriores: (1′ 64 + 1′ 65)/2 = 1′ 645.
Como es
x − 730
740 − 730
√
√ =
= 3′ 125 > 1′ 645 = z0′ 05
S/ n
32/ 100
rechazaremos la hipótesis nula de ser H0 : µ ≤ 730, aceptando la alternativa
H1 : µ > 730, de ser el tiempo medio de supervivencia entre los pacientes con
la enfermedad en estudio, significativamente mayor de 730 dı́as.
El p-valor del test es
P
x − 730
√ > 3′ 125 = P {Z > 3′ 125} = 0′ 0009
S/ n
obtenido, de nuevo a partir de la tabla 3, por interpolación de dos valores (en
este caso iguales). Un p-valor tan pequeño confirma la conclusión adoptada.
Problema 5.12
Un equipo de investigadores realizó un experimento en un hospital psiquiátrico
para comparar cinco métodos de remotivación de pacientes, los cuales estaban
clasificados de acuerdo a su nivel inicial de motivación. Los resultados obtenidos
fueron los siguientes:
NIVEL DE
MOTIVACIÓN
Ninguno
Muy bajo
Bajo
Mediano
A
58
62
67
70
MÉTODO
B C D
68 60 68
70 65 80
78 68 81
81 70 89
E
64
69
70
74
¿Suministran los datos suficiente evidencia como para poder concluir que existen
diferencias entre los métodos?
D
147
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
Admitiremos como válidas las suposiciones habituales de homocedasticidad
y normalidad que nos permiten hacer un Análisis de la Varianza.
Al existir una fuente de variación no deseable en las unidades experimentales (el nivel inicial de motivación de los pacientes), realizaremos un Análisis
de la Varianza por Bloques (CB-sección 8.3), siendo éstos precisamente, los
cuatro niveles de motivación inicial de los pacientes.
No obstante, el propósito sigue siendo el contrastar la igualdad de los
efectos medios de los niveles del factor en estudio, en este caso, los métodos de
remotivación, contrastando la hipótesis nula H0 : µA = µB = µC = µD = µE
frente a la alternativa de no ser todos los efectos medios iguales.
(Apuntamos aquı́ el que, en el enunciado del problema, los datos aparecen
en una disposición distinta a la de la sección 8.3 de CB. Allı́, como siempre, los
s bloques aparecen como columnas y los r tratamientos como filas. Por tanto,
si el lector no quiere confundirse, quizá es preferible que cambie primero las
filas por las columnas en la tabla del enunciado, con objeto de tener la misma
disposición que en el texto base CB.)
La tabla de Análisis de la Varianza correspondiente a tal diseño es
F. de variación
Suma de cuadrados
g.l.
c. medios
Estadı́stico
Tratamientos
Bloques
Residual
SSTi = 632′ 8
SSBl = 471′ 2
SSE = 62′ 8
4
3
12
158′ 2
F = 30′ 23
Total
SST = 1,166′ 8
19
5′ 2333
El punto crı́tico, para un nivel de significación α = 0′ 01, es F(4,12);0′ 01 =
5′ 4119 < F , lo que lleva a rechazar la hipótesis nula de igualdad entre los cinco
métodos. De hecho el p-valor es menor que 0′ 005, lo que confirma la decisión
adoptada de rechazo de la hipótesis nula.
Problema 5.13
En el análisis de la posible influencia del peso, X1 y del nivel de ácido úrico, X2 ,
sobre el nivel de colesterol, Y , en los individuos de una población, se seleccionó al
azar a 10 personas de la población en estudio, anotándose el valor, que en ellos
tomaban, las tres variables antes mencionadas. Los resultados obtenidos fueron
los siguientes:
X1
X2
Y
Se pide:
50
40
200
80
70
350
75
50
250
80
65
300
68
55
340
75
60
340
70
60
300
80
62
360
90
69
400
60
63
220
D
148
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
a) Determinar el hiperplano de regresión muestral de Y sobre X1 , X2 .
b) Contrastar, a nivel α = 0′ 05, si el hiperplano determinado explica suficientemente bien a la variable Y en función de X1 y X2 .
a) Para calcular el hiperplano (en este caso plano al haber sólo dos variable
regresoras) de regresión de Y sobre X1 , X2 ,
yt = β̂0 + β̂1 x1 + β̂2 x2
debemos determinar y resolver, previamente, el sistema de ecuaciones normales












n β̂0
β̂0
n
X
x1j


j=1


n

X




β̂
x2j
0


j=1
+ β̂1
+ β̂1
+ β̂1
n
X
j=1
n
X
j=1
n
X
x1j
x21j
x1j x2j
+ β̂2
+ β̂2
+ β̂2
j=1
n
X
j=1
n
X
j=1
n
X
x2j
=
x1j x2j =
x22j
j=1
=
n
X
j=1
n
X
j=1
n
X
yj
x1j yj
x2j yj
j=1
que para los datos del enunciado queda igual a



10 · β̂0 +
728 · β̂1 +
594 · β̂2 =
3060
728 · β̂0 + 54174 · β̂1 + 43940 · β̂2 = 228370


594 · β̂0 + 43940 · β̂1 + 36024 · β̂2 = 185380
sistema de tres ecuaciones con tres incógnitas, β̂0 , β̂1 , β̂2 , que tiene como
soluciones los valores
β̂0 = −55′ 58
β̂1 = 4′ 2301
β̂2 = 0′ 9029
El hiperplano buscado será, por tanto,
yt = −55′ 58 + 4′ 2301 x1 + 0′ 9029 x2
mediante el cual, si el Análisis de la Regresión Lineal Múltiple, que haremos
a continuación, permite aceptarlo como modelo, podrı́amos considerar como
razonable que un individuo de la población en estudio con un peso de x1 = 85
kgr. y un nivel de ácido úrico de x2 = 66, tenga un nivel de colesterol de
yt = −55′ 58 + 4′ 2301 · 85 + 0′ 9029 · 66 = 363′ 57.
D
149
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
En la determinación de los coeficientes de regresión, β̂0 , β̂1 , β̂2 , hemos utilizado el sistema de ecuaciones normales. Equivalentemente, podrı́amos haber
utilizado la notación matricial empleada en EII-sección 6.6, siendo



X=


1 x11 x12 · · · x1k
1 x21 x22 · · · x2k
..
..
..
..
..
.
.
.
.
.
1 xn1 xn2 · · · xnk



Y =


200
350
..
.
220


 
 
=
 
 


1 50 40
1 80 70 

.. ..
.. 

. .
. 
1 60 63





y siendo los coeficientes de regresión iguales a

es decir,

β̂0


′
−1
′
 β̂1  = (X X) X Y
β̂2


1 1 ··· 1


X ′ =  50 80 · · · 60 
40 70 · · · 63
la matriz traspuesta de la matriz X, obtenida de esta última intercambiando
las filas y las columnas, siendo
(X ′ X)−1

−1 

10
728
594
5′ 4148 −0′ 0325 −0′ 0496




=  728 54174 43940  =  −0′ 0325
0′ 0019 −0′ 0018 
−0′ 0496 −0′ 0018
594 43940 36024
0′ 0031
la inversa del producto de las matrices X ′ X, y siendo

Por último, será



3060


X ′ Y =  228370 
185380

 

β̂0
5′ 4148 −0′ 0325 −0′ 0496
3060



 

′
−1
′
0′ 0019 −0′ 0018  ·  228370 
 β̂1  = (X X) X Y =  −0′ 0325
0′ 0031
−0′ 0496 −0′ 0018
185380
β̂2
D
150
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud


−55′ 58
 ′

=  4 2301 
0′ 9029
b) Una vez determinado el hiperplano de regresión muestral por uno u otro
procedimiento, en este apartado vamos a analizar si éste explica suficientemente bien a la variable Y en función de X1 y X2 , contrastando la hipótesis nula
H0 :ninguna de las variables independientes Xi tiene valor en la explicación de
Y , o equivalentemente H0 : β1 = ... = βk = 0, frente a la alternativa de que
alguna Xi sirve para explicar a la variable Y .
Para ello utilizaremos la tabla de Análisis de la Varianza para la Regresión
Lineal Múltiple
F. variación
Regresión
múltiple
Residual
Total
Suma de cuadrados
SSEX =
n
X
i=1
(yti − y)2
SSN EX = SST − SSEX
SST =
n
X
i=1
yi2
1
−
n
n
X
i=1
yi
g.l.
c. medios
k
SSEX
k
n−k−1
!2
SSN EX
n−k−1
Estadı́stico
SSEX
k
SSN EX
n−k−1
n−1
Primero calcularemos la suma de cuadrados debida a la regresión lineal
múltiple
SSEX =
n
X
i=1
(yti − y)2
en donde yti representa el valor teórico obtenido por el hiperplano de regresión
muestral yt en el punto (x1i , x2i ), i = 1, ..., 10; es decir, por ejemplo
yt1 = −55′ 58 + 4′ 2301 · 50 + 0′ 9029 · 40 = 192′ 041.
Por otro lado, la media de las yi es y =
obtenemos la siguiente tabla de cálculos:
P10
i=1 yi /10
= 306, con lo que
D
151
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
yti
yti − y (yti − y)2
′
192 041 −113′ 959 12986′ 654
346′ 031
40′ 031 1602′ 481
′
306 822
0′ 822
0′ 677
′
′
341 517
35 517 1261′ 422
281′ 726 −24′ 274 589′ 213
315′ 852
9′ 851
97′ 052
′
′
294 701 −11 299 127′ 667
338′ 808
32′ 808 1076′ 352
′
387 429
81′ 429 6630′ 698
255′ 109 −50′ 891 2589′ 924
26962
Por tanto, será
SSEX =
n
X
i=1
(yti − y)2 = 26962
suma de cuadrados que tiene k = 2 grados de libertad al haber sólo dos
variables regresoras.
Por otro lado, la suma total de cuadrados es
SST =
n
X
i=1
2
(yi − y) =
n
X
i=1
yi2
n
1 X
−
yi
n i=1
!2
= 974200 −
30602
= 37840
10
la cual tiene n − 1 = 9 grados de libertad.
Por último, la suma residual de cuadrados se calcula por diferencia de las
otras dos,
SSN EX = SST − SSEX = 37840 − 26962 = 10878
con grados de libertad igual a la diferencia de grados de libertad de las otras
dos sumas de cuadrados, 9 − 2 = 7.
Los cuadrados medios de la tabla de Análisis de la Varianza se calculan
ahora como cociente entre las sumas de cuadrados y sus grados de libertad:
Cuadrado medio correspondiente a la Regresión Lineal Múltiple:
SSEX
26962
=
= 13481
2
2
Cuadrado medio Residual:
D
152
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
SSN EX
10878
=
= 1554
7
7
siendo el estadı́stico del contraste el cociente de estos dos cuadrados medios:
F =
13481
SSEX/2
=
= 8′ 675.
SSN EX/7
1554
Todos estos cálculos se resumen en la tabla de Análisis de la Varianza para
la Regresión Lineal Múltiple
F. variación
Regresión
lineal múltiple
Suma de cuadrados g.l. c. medios Estadı́stico
SSEX = 26962
2
13481
F = 8′ 675
Residual
SSN EX = 10878
7
Total
SST = 37840
9
1554
Como este estadı́stico, antes de obtener la muestra y, por tanto, tomar un
valor concreto, se distribuye como una F de Snedecor con grados de libertad
el par formado por los grados de libertad de las dos sumas de cuadrados que
forman el cociente de F , es decir, en este caso (2, 7), el punto crı́tico para
un nivel de significación α = 0′ 05, será F(2,7);0′ 05 = 4′ 7374 < 8′ 675 = F , por
lo que rechazaremos la hipótesis nula H0 , concluyendo con la alternativa de
que el hiperplano de regresión calculado en el apartado anterior es válido para
explicar Y en función de X1 y X2 .
El p-valor del test, no obstante, no es lo suficientemente contundente al
estar acotado por los valores
0′ 01 < p-valor < 0′ 025.
El coeficiente de correlación múltiple muestral
Ry,12 =
s
SSEX
=
SST
r
26962 √ ′
= 0 7125 = 0′ 8441
37840
está en lı́nea con las conclusiones anteriores: no está demasiado cerca de 1, pero
es significativamente cercano a dicho valor; o mejor dicho, es significativamente
grande como para que el estadı́stico
F′ =
2 /2
Ry,12
2 )/(10 − 2 − 1)
(1 − Ry,12
D
153
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
(igual, como vimos en CB-sección 10.4.1, al estadı́stico F antes determinado),
rechace la hipótesis nula H0 : ρy,12 = 0 , de ser cero el coeficiente de correlación
múltiple entre Y y el resto de las —en este caso dos— variables regresoras Xi .
Problema 5.14
Se quiere investigar si existen diferencias significativas entre tres métodos de
adelgazamiento. Para ello se seleccionaron al azar tres personas, las cuales utilizaron el Método1, otras cuatro que emplearon el Método2 y otras tres más que
utilizaron el Método3. Las disminuciones en kilogramos, después de dos semanas
de ejercicios con los tres métodos fueron las siguientes:
Método1
Método2
Método3
1′ 3
3′ 2
0′ 9
2′ 5
3′ 5
1′ 5
0′ 9
2′ 0
2′ 0
1′ 9
Se anotó también el peso inicial de los individuos seleccionados ya que éste puede
ser un factor que influya en el resultado del experimento. Los pesos iniciales de
las personas seleccionadas, ocupando los mismos lugares de la tabla anterior,
eran
Pesos iniciales
75 85 74
79 85 79 80
75 77 80
(es decir, el individuo de 75 kgr. adelgazó 1′ 3 kgr., el de 85 kgr. adelgazó 2′ 5, etc).
Con estos datos y a nivel de significación α = 0′ 05, se pide:
a) ¿Puede afirmarse que existen diferencias significativas entre los tres métodos
de adelgazamiento?
b) ¿Influye significativamente en el experimento el peso inicial del individuo?
Estamos antes un caso de un Análisis de la Covarianza para un factor y
un diseño completamente aleatorizado, cuyo desarrollo teórico puede seguirse
en CB-sección 11.2. Mediante este diseño podemos contrastar las dos hipótesis
que nos requiere el enunciado.
a) Existirán diferencias significativas entre los tres métodos de adelgazamiento cuando rechacemos la hipótesis nula de igualdad de los efectos medios
de dichos métodos, H0 : µ1 = µ2 = µ3 , utilizando el mencionado Análisis de
la Covarianza, cuya tabla correspondiente a dicho diseño es igual a
--------------------------------------------------------------|
F. variac.
S. cuadr.
g.l.
cuad. medi.
F
|
| ----------------------------------|
|
Métodos
0.87029
2
0.43514
1.89
|
|
Residual
1.38397
6
0.23066
|
---------------------------------------------------------------
D
154
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
De ella se deduce que, antes de tomar los datos, el estadı́stico F del contraste sigue una distribución F de Snedecor con grados de libertad (r − 1, n − r −
1) = (3−1, 10−3−1) = (2, 6), por lo que, para el nivel de significación α = 0′ 05
requerido, el punto crı́tico es F(2,6);0′ 05 = 5′ 1433 > 1′ 89 = F , aceptándose la
hipótesis nula. De dichas tablas se deduce también que el p-valor es mayor que
0′ 1, afianzándose la decisión tomada.
b) El mencionado Análisis de la Covarianza permite también valorar si la
variable concomitante, en este caso los pesos iniciales, influye o no en el experimento, contrastando la hipótesis nula H0′ : X e Y no están relacionadas
linealmente, frente a la alternativa H1′ : X e Y sı́ están relacionadas linealmente.
El estadı́stico de dicho contraste toma el valor
F′ =
2′ 61936
SSr
= ′
= 11′ 36.
SSE/(n − r − 1)
0 23066
Como es
F ′ = 11′ 36 > 5′ 9874 = F(1,6);0′ 05 = F(1,n−r−1);α
se rechaza H0′ , concluyendo que sı́ que influye significativamente el peso inicial
en el experimento.
Problema 5.15
Se quiere analizar si pueden considerarse significativamente independientes o no
el tener problemas respiratorios en la adolescencia y el tener un historial de
bronquitis en la infancia. Para ello se seleccionaron al azar 1000 adolescentes y
se les clasificó según tuvieran en la actualidad problemas respiratorios o no y
según su historial clı́nico de bronquitis en la infancia. Los resultados obtenidos
fueron los siguientes:
Problemas
respiratorios
Sı́
No
Total
Historial de
bronquitis
Sı́
No
25
40
200
735
Total
1000
¿Puede rechazarse la hipótesis nula de independencia entre ambas variables?
Se trata de un contraste de independencia de caracteres (CB-sección 12.4)
en donde la hipótesis nula es la independencia de ambas variables. Para realizar dicho contraste utilizaremos el estadı́stico λ de Pearson el cual mide las
discrepancias entre las frecuencias observadas nij y las esperadas ni· n·j /n en
D
155
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
cada casilla, siendo, respectivamente, ni· i = 1, ..., a y n·j j = 1, ..., b los totales por filas y columnas de la tabla de doble entrada que contiene los datos.
Dicho estadı́stico tiene por expresión,
λ=
a X
b
X
(nij − ni· n·j /n)2
i=1 j=1
ni· n·j /n
el cual sigue, aproximadamente, una distribución χ2 con (a − 1)(b − 1) grados
de libertad.
La tabla de frecuencias esperadas es
Problemas
respiratorios
Sı́
No
Total
Historial de
bronquitis
Sı́
No
′
14 6
50′ 4
′
210 4 724′ 6
225
735
Total
65
935
1000
siendo cada uno de los sumandos del estadı́stico λ a utilizar en el contraste χ2
igual a
Problemas
respiratorios
Sı́
No
Total
Historial de
bronquitis
Sı́
No
7′ 4
2′ 1
0′ 5
0′ 1
Total
10′ 2
A la vista de estos resultados, el estadı́stico λ de Pearson de distribución
χ21 antes de tomar la muestra, toma el valor λ = 10′ 2. (Con más precisión
λ = 10′ 157).
Como no se especifica ningún nivel de significación en el enunciado se
calcula el p-valor y si éste es muy pequeño se rechaza la hipótesis nula y si es
relativamente grande se acepta. La hipótesis nula de independencia de ambos
caracteres es rechazada al ser P {χ21 > 10′ 2} < 0′ 005.
De hecho, este razonamiento, aunque habitual entre los usuarios de la
Estadı́stica es algo informal. Lo correcto hubiera sido fijar un nivel de significación α —habitualmente 0′ 1, 0′ 05 ó 0′ 01— y para ese nivel determinar
el punto crı́tico. Si ahora es λ mayor que ese punto crı́tico, rechazaremos la
hipótesis nula; luego calcuları́amos el p-valor para valorar la decisión tomada
de la forma antes mencionada. Lo que ocurre es que con el p-valor determinado
en este ejemplo —menor que 0′ 005— si se hubiera tomado otra decisión que
no fuera el rechazo de H0 , ésta serı́a muy poco fiable. Además, el cálculo del
D
156
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
p-valor ya nos da para qué niveles de significación se rechaza H0 —los mayores
que dicho p-valor— y para cuáles se acepta —los menores. En este caso, deberı́amos haber elegido un nivel de significación mucho menor que 0′ 005 para
haber aceptado la hipótesis nula (elección absurda).
Problema 5.16
Se realizó un estudio sobre fallecimiento por angina de pecho en una población
de riesgo. Con este propósito, para cada individuo se anotó el tiempo, en años,
que transcurrió desde que se inició el estudio hasta el fallecimiento por dicha
causa. Los tiempos obtenidos sobre 1625 pacientes vienen dados en la siguiente
distribución de frecuencias:
Intervalo
[0,1)
[1,2)
[2,3)
[3,4)
[4,5)
[5,6)
[6,7)
[7,8)
[8,9)
[9,10)
[10,11)
[11,12)
[12,13)
[13,14)
[14,15)
≥ 15
no
¯ de individuos fallecidos
456
226
152
171
135
125
83
74
51
42
43
34
18
9
6
0
¿Puede admitirse una distribución exponencial para dichos tiempos de fallo?
Se trata de un contraste de bondad del ajuste de la χ2 (CB-sección 12.2)
que plantea la novedad de que ahora la distribución teórica es una exponencial, no tabulada; no obstante, el procedimiento es el mismo, aunque las
probabilidades teóricas que dicha distribución asigna a cada intervalo deberán
calcularse directamente a partir de la función de distribución y no mediante
las tablas del final del libro.
Como sabemos, la distribución exponencial Exp(θ) tiene por función de
densidad
fθ (x) = θ e−θx
con x > 0 y siendo θ > 0 un parámetro desconocido. Como siempre, dado
que no conocemos el valor de dicho parámetro, lo estimaremos a partir de la
muestra utilizando su estimador de máxima verosimilitud y restaremos a la
χ2 un grado de libertad al final.
D
157
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
Vimos en el capı́tulo tercero que el estimador de máxima verosimilitud
de θ es 1/x. A partir de los datos obtenemos que es x = 3′ 719 y, por tanto,
θ̂ = 1/x = 0′ 269.
La hipótesis nula a contrastar será entonces la de que los datos se ajustan
a una distribución Exp(0′ 269).
Como de costumbre en este tipo de contraste deberemos determinar las
frecuencias esperadas para lo que debemos calcular previamente las probabilidades que una Exp(0′ 269) asigna a cada uno de los intervalos en los que viene
dividida la distribución de frecuencias dada. Para ello será muy útil la función
de distribución de la distribución modelo, es decir, la función
Fθ (x) = P {X ≤ x} =
Z
x
0
′
θ e−θy dy = 1 − e−0 269 x .
Ası́, y de nuevo sin preocuparnos de los lı́mites de los intervalos al ser la
distribución exponencial de tipo continuo, será, redondeando en la cuarta cifra
decimal,
P {0 < X < 1} = P {0 < X ≤ 1} = P {X ≤ 1} − P {X ≤ 0} = F (1) − F (0)
′
= 1 − e−0 269 − 0 = 1 − 0′ 7641 = 0′ 2359.
Análogamente,
P {1 < X < 2} = F (2) − F (1)
′
′
′
′
= 1 − e−0 269·2 − 1 + e−0 269 = e−0 269 − e−0 538
= 0′ 7641 − 0′ 5839 = 0′ 1802.
P {2 < X < 3} = F (3) − F (2)
′
′
′
′
= 1 − e−0 269·3 − 1 + e−0 269·2 = e−0 538 − e−0 807
= 0′ 5839 − 0′ 4462 = 0′ 1377.
P {3 < X < 4} = F (4) − F (3)
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
158
′
′
′
′
′
′
′
′
′
′
′
′
′
′
= 1 − e−0 269·4 − 1 + e−0 269·3 = e−0 807 − e−1 076
= 0′ 4462 − 0′ 3410 = 0′ 1052.
P {4 < X < 5} = F (5) − F (4)
′
′
= 1 − e−0 269·5 − 1 + e−0 269·4 = e−1 076 − e−1 345
= 0′ 3410 − 0′ 2605 = 0′ 0805.
P {5 < X < 6} = F (6) − F (5)
′
′
= 1 − e−0 269·6 − 1 + e−0 269·5 = e−1 345 − e−1 614
= 0′ 2605 − 0′ 1991 = 0′ 0614.
P {6 < X < 7} = F (7) − F (6)
′
′
= 1 − e−0 269·7 − 1 + e−0 269·6 = e−1 614 − e−1 883
= 0′ 1991 − 0′ 1521 = 0′ 047.
P {7 < X < 8} = F (8) − F (7)
′
′
= 1 − e−0 269·8 − 1 + e−0 269·7 = e−1 883 − e−2 152
= 0′ 1521 − 0′ 1163 = 0′ 0358.
P {8 < X < 9} = F (9) − F (8)
′
′
= 1 − e−0 269·9 − 1 + e−0 269·8 = e−2 152 − e−2 421
= 0′ 1163 − 0′ 0888 = 0′ 0275.
D
159
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
P {9 < X < 10} = F (10) − F (9)
′
′
′
′
= 1 − e−0 269·10 − 1 + e−0 269·9 = e−2 421 − e−2 69
= 0′ 0888 − 0′ 0679 = 0′ 0209.
P {10 < X < 11} = F (11) − F (10)
′
′
′
′
= 1 − e−0 269·11 − 1 + e−0 269·10 = e−2 69 − e−2 959
= 0′ 0679 − 0′ 0519 = 0′ 016.
P {11 < X < 12} = F (12) − F (11)
′
′
′
′
′
′
′
′
= 1 − e−0 269·12 − 1 + e−0 269·11 = e−2 959 − e−3 228
= 0′ 0519 − 0′ 0396 = 0′ 0123.
P {12 < X < 13} = F (13) − F (12)
′
′
= 1 − e−0 269·13 − 1 + e−0 269·12 = e−3 228 − e−3 497
= 0′ 0396 − 0′ 0303 = 0′ 0093.
P {13 < X < 14} = F (14) − F (13)
′
′
= 1 − e−0 269·14 − 1 + e−0 269·13 = e−3 497 − e−3 766
= 0′ 0303 − 0′ 0231 = 0′ 0072.
P {X > 14} = 1 − P {X ≤ 14} = 1 − F (14)
′
′
= 1 − 1 + e−0 269·14 = e−3 766 = 0′ 0231.
D
160
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
valores que proporcionan la siguiente tabla de frecuencias observadas y esperadas, a la cual hemos añadido los primeros sumandos del estadı́stico de Pearson
y hemos extendido el último intervalo para que las probabilidades sumen 1,
Intervalo
[0,1)
[1,2)
[2,3)
[3,4)
[4,5)
[5,6)
[6,7)
[7,8)
[8,9)
[9,10)
[10,11)
[11,12)
[12,13)
[13,14)
≥ 14
ni
456
226
152
171
135
125
83
74
51
42
43
34
18
9
6
1625
pi
′
0 2359
0′ 1802
0′ 1377
0′ 1052
0′ 0805
0′ 0614
0′ 0470
0′ 0358
0′ 0275
0′ 0209
0′ 0160
0′ 0123
0′ 0093
0′ 0072
0′ 0231
1
n · pi
n2i /(n · pi )
′
383 3375 542′ 4358
292′ 825
174′ 425
223′ 7625 103′ 2523
170′ 95
171′ 05
130′ 8125 139′ 3215
99′ 775
156′ 6024
′
76 375
90′ 1997
58′ 175
94′ 1298
′
44 6875
58′ 2042
′
33 9625
51′ 9396
26
71′ 1154
′
19 9875
57′ 8361
15′ 1125
21′ 4392
′
11 7
6′ 9231
′
37 5375
0′ 9590
1625
1739′ 8331
Utilizando los valores de la última columna de la tabla anterior el estadı́stico
de Pearson tomará el valor
λ=
X
i
n2i
npi
!
− n = 1739′ 8331 − 1625 = 114′ 8331.
Como hemos estimado un parámetro a partir de la muestra, reduciremos
un grado más los de libertad de la χ2 . Como tenemos 15 clases, el estadı́stico
λ de Pearson tendrá una distribución χ215−1−1 = χ213 . De la tabla 4 obtenemos
que es χ213;0′ 005 = 29′ 82, lo que indica, al ser 114′ 8331 > 29′ 82 que el p-valor
es incluso menor que 0′ 005, concluyéndose, en definitiva, que la distribución
de frecuencias dada en el enunciado no se ajusta bien a una distribución exponencial, ya que la elegida, de parámetro 0′ 269 es la mejor de entre todas
las exponenciales al haber estimado su parámetro mediante el método de la
máxima verosimilitud.
Existen además tres factores que pueden haber influido en la decisión final.
El primero es el que los intervalos en los que venı́a clasificada la distribución
de frecuencias, eran de igual longitud en lugar de igual probabilidad, condición
siempre deseable en un contraste de bondad del ajuste; de hecho, se observa
en la última columna de la tabla anterior que en el primer intervalo se tiene
D
161
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
un discrepancia muy grande de valor 542′ 4358, que ya condiciona el valor final
de λ.
En segundo lugar, advertimos que para analizar la bondad del ajuste de
unos datos a una distribución teórica de tipo continuo suele ser más indicado
el contraste de Kolmogorov-Smirnov que el de la χ2 , más indicado, éste último,
en contrastes de bondad del ajuste de tipo discreto en donde las clases en las
que se dividen los datos ya vienen pre-establecidas por el problema de que se
trate.
Una última cuestión es la de que, al ser el tamaño muestral relativamente
grande, se le exige mucho al test, de forma que, en esta situación, pequeñas
discrepancias son magnificadas por el enorme tamaño muestral disponible,
rechazándose con más facilidad, a menos que los datos se ajusten con mucha
exactitud. En estas situaciones, suele hacerse depender el tamaño del intervalo,
del tamaño muestral de forma que al aumentar éste disminuya la longitud de
aquel.
Problema 5.17
Una psicóloga ha dividido los estados de ánimo de sus pacientes en una escala
que va de 0 a 10, correspondiendo una mayor puntuación a un mejor estado de
ánimo, y en donde el 0 representa una “fuerte depresión”, el 5 un estado de
ánimo denominado “normal” y el 10 una “euforia patológica”.
Con objeto de estudiar el estado de ánimo durante las fiestas navideñas de los
reclusos de un determinado centro penitenciario, se eligieron al azar diez de
estos reclusos unas Navidades y, realizados varios tests psicológicos, la psicóloga
asignó las siguientes puntuaciones a sus encuestados:
4 , 1 , 3 , 5 , 7 , 4 , 3 , 5′ 5 , 3′ 1 , 9 .
A la vista de estos resultados, ¿puede admitirse, a nivel α = 0′ 05, un estado de
ánimo significativamente menor del habitual en esas fiestas navideñas?
Si representamos por X a la variable aleatoria estado de ánimo de un recluso elegido al azar de la población penitenciaria, podemos resumir la distribución de X, la cual es completamente desconocida, por una medida de posición
como su mediana M . La razón de esta elección es la de que, al ser la distribución de X desconocida, debemos emplear alguno de los tests no paramétricos,
los cuales se basan en utilizar este centro de simetrı́a en la formalización de
sus hipótesis.
Como la situación de “normalidad” se ha establecido en el valor 5 de la
variable, la hipótesis que estamos interesados en validar es M < 5, por lo que
contrastaremos la hipótesis nula H0 : M ≥ 5 frente a la alternativa H1 : M <
5.
Además, como los estados de ánimo asignados por la psicóloga no representan, en realidad, una puntuación numérica sino más bien una ordenación
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
162
de los pacientes, el test a utilizar será el test de los signos (CB-sección 13.2.1)
el cual presenta la ventaja de poder manejar ese tipo de datos aunque, por
contra, dará el mismo valor al dato observado 5′ 5 que al dato 9 —ambos son
mayores que 5— no teniendo en cuenta el tamaño de la diferencia.
Si T representa el número de diferencias Xi − 5 positivas, el test de los
signos indica rechazar H0 cuando sea
T ≤ n − tα
siendo tα el menor entero tal que P {W ≥ tα } ≤ α, en donde W es una variable
aleatoria con distribución binomial B(n, 0′ 5).
Al observar los datos vemos que uno de ellos es igual a 5, por lo que,
siguiendo las sugerencias habituales sobre tratamiento del problema de los
empates, lo descartaremos, reduciendo el tamaño de la muestra.
Las nueve diferencias Xi − 5 serán
−1 , −4 , −2 , 2 , −1 , −2 , 0′ 5 , −1′ 9 , 4
con lo que el número T de diferencias positivas será T = 3.
El nivel de significación indicado es α = 0′ 05. Buscando en la tabla 1 de
la distribución binomial B(9, 0′ 5), obtenemos que es P {W = 9} = 0′ 002 con
W ; B(9, 0′ 5), por lo que el valor 9 cumple, en principio, la desigualdad
pedida
P {W ≥ 9} = P {W = 9} = 0′ 002 ≤ 0′ 05.
(Recordemos que si un número es menor que otro, entonces es menor o igual.)
Veamos, no obstante, si es el menor número entero que la verifica. De la mencionada tabla obtenemos que es P {W = 8} = 0′ 0176, por lo que será
P {W ≥ 8} = P {W = 8} + P {W = 9} = 0′ 0176 + 0′ 002 = 0′ 0196 ≤ 0′ 05
verificando también la desigualdad requerida y siendo 8 un número entero
menor que 9.
Probando ahora a reducir un poco más el valor, tenemos que es P {W =
7} = 0′ 0703, por lo que será
P {W ≥ 7} = P {W = 7} + P {W = 8} + P {W = 9}
= 0′ 0703 + 0′ 0176 + 0′ 002
= 0′ 0899 > 0′ 05
con lo que ya no se verifica la desigualdad requerida. Por tanto, el menor
número entero que la verifica, el cual es por definición tα , será tα = 8. Al ser
D
163
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
n − tα = 9 − 8 = 1 y T = 3, es T > n − tα , aceptándose en consecuencia
H0 y concluyéndose, en definitiva que, en base a ese estudio, no se produce
una disminución significativa del estado mediano “normal” de ánimo en los
reclusos.
El p-valor del test es, a partir de la tabla 1,
P {W ≤ 3} = 0′ 002 + 0′ 0176 + 0′ 0703 + 0′ 1641 = 0′ 254
suficientemente grande como para confirmar la aceptación de la hipótesis nula.
Problema 5.18
Los siguientes datos corresponden a las alturas en cm de 200 mujeres elegidas
al azar de una determinada población en la que se está realizando un estudio de
osteoporosis:
156
183
151
157
150
156
155
164
155
181
149
149
160
156
153
145
183
170
148
162
151
162
149
179
153
158
164
158
148
158
157
155
154
171
166
149
153
168
180
148
157
145
152
149
160
153
148
162
154
158
168
164
160
166
150
156
159
156
146
166
159
151
157
164
156
146
164
162
154
146
152
155
146
153
150
166
161
156
170
180
173
162
166
160
162
166
159
160
146
185
158
157
162
156
150
161
158
159
159
159
158
153
172
160
157
156
182
153
154
145
145
149
152
152
155
182
147
164
156
174
147
158
174
164
181
153
161
154
161
154
164
159
162
160
150
162
155
150
148
175
153
155
145
176
148
155
158
148
160
184
156
162
153
157
152
161
145
156
175
158
152
146
150
159
151
159
176
150
156
150
166
168
146
173
160
164
155
164
177
158
152
154
156
150
155
159
146
178
150
156
177
170
150
154
146
153
145
172
158
158
Se pide:
a) Analizar su simetrı́a gráficamente y mediante un contraste de hipótesis.
b) Analizar su normalidad gráficamente y mediante un contraste de hipótesis.
c) Si falla alguna de los dos, o las dos, determinar una transformación de Box-Cox
mediante la cual se consiga el supuesto o supuestos que falten.
a) Primero analizaremos gráficamente la simetrı́a de los n = 200 datos del
enunciado. El diagrama de hojas y ramas (CB-sección 14.2) de dichos datos
es de la siguiente forma
DEPTH STEM *
*
0
14 *
31
E
73
15 Q
+ 55
M
72
16 Q
LEAVES
5555555666666666778888888999999
000000000000111122222223333333333344444444
5555555555666666666666666777777788888888888889999999999
0000000001111122222222224444444444
D
164
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
38
28
18
10
1
Cuadernos de Estadı́stica Aplicada: Área de la Salud
*
17 E
*
18 *
*
*
DEPTH STEM *
6666666888
0001223344
55667789
001122334
5
LEAVES
el cual muestra un cierta asimetrı́a a la derecha al descender más lentamente
la rama de la derecha que la de la izquierda.
No obstante, para este tipo de análisis, es más adecuado el gráfico de
simetrı́a (CB-sección 14.3.1), el cual consiste en la representación del conjunto
de puntos
x(n−i+1) − x(i) ,
x(n−i+1) + x(i)
2
, i = 1, ..., n
en donde x(1) , ..., x(n) son los n = 200 datos muestrales, ordenados de menor
a mayor (en nuestro ejercicio, x(1) = 145, x(n) = 185), resultando una nube
de puntos alrededor de una lı́nea recta horizontal (la y = Md ) en el caso de
datos simétricos, correspondiendo a distribuciones asimétricas a la izquierda
nubes de puntos alrededor de una recta con pendiente negativa, y resultando
una nube de puntos alrededor de una recta con pendiente positiva en el caso
de datos con asimetrı́a a la derecha.
Para los datos del enunciado obtenemos el siguiente gráfico de simetrı́a
--+------------------+------------------+------------------+-165+
*+
|
* |
|
*
|
|
* *
|
|
* *
|
+
*
+
|
*
|
|
*
|
|
* * *
|
|
*
|
+
*
+
|
* *
|
|
|
|
*
|
|
*
*
|
+
*
*
+
|* * * * * *
*
|
156.5| * * * *
|
--+------------------+------------------+------------------+-0
40
A pesar de que las representaciones gráficas son muy agradables, es más
objetivo utilizar el coeficiente de asimetrı́a de Fisher, definido en CB-sección
2.3.4 y, especialmente, en CB-sección 14.3, por
D
165
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
g1 =
n
X
i=1
(xi − x)3 /(nS 3 )
en donde x es la media muestral y S la cuasidesviación tı́pica muestral.
Para los datos del ejercicio es x = 158′ 465 y S = 9′ 398, siendo
g1 =
n
X
i=1
(xi − x)3 /(nS 3 ) = 0′ 91
el cual, al ser positivo, confirma la asimetrı́a a la derecha de los datos.
No obstante, desde el punto de vista de las inferencias basadas en datos
procedentes de distribuciones simétricas, interesa saber si los datos son significativamente asimétricos, para lo que se plantea el contraste de la hipótesis
nula H0 :los datos son simétricos, frente a la alternativa H1 :los datos no son
simétricos, es decir, lo que interesa saber es si puede admitirse la simetrı́a de
los datos, no estando habitualmente interesados en, supuesto que se rechace
H0 , averiguar si puede admitirse que los datos son asimétricos a la derecha o
a la izquierda.
Como es sabido (CB-sección 14.3.2), se rechaza H0 cuando sea
g 1 p
≥ zα/2 .
6/n Fijado como nivel de significación α = 0′ 05, es zα/2 = z0′ 025 = 1′ 96, por lo
p
que (para tamaños muestrales mayores de n = 50 datos) cocientes g1 / 6/n
menores que 1′ 96 indican que puede admitirse la hipótesis de simetrı́a (al
menos a nivel 0′ 05). En nuestro caso es
g 1 p
= 5′ 246
6/n lo que indica que no puede admitirse la simetrı́a de los datos.
b) Del apartado anterior se desprende que tampoco puede admitirse su normalidad, ya que los tests que la analizan suponen que los datos son simétricos.
Dicha normalidad se calculará, fundamentalmente, con el coeficiente de
curtosis (CB-sección 14.4.3),
k=
n
X
i=1
(xi − x)4 /(nS 4 ) − 3
en donde, como antes, x es la media muestral y S la cuasidesviación tı́pica
muestral.
D
166
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
En distribuciones normales es k = 0, por lo que se contrastará la hipótesis
nula de normalidad de los datos, analizando si dicho coeficiente de curtosis se
aleja significativamente de cero,
p para lo que deberemos tipificarlo, dividiéndolo por su desviación tı́pica, 24/n, pudiendo
admitirse, para n ≥ 200, una
p
distribución normal para el estadı́stico k/ 24/n.
Por tanto, rechazaremos la hipótesis nula H0 :los datos proceden de una
normal, frente a la alternativa H1 :los datos no proceden de una normal, cuando
y sólo cuando sea
k
p
≥ zα/2 .
24/n De nuevo, cuando dicho cociente sea menor que 1′ 96 puede admitirse la normalidad de unos datos simétricos (al menos para un nivel de significación
α = 0′ 05).
Obsérvese que hemos dicho que se puede admitir la normalidad de unos
datos simétricos; es decir, debemos primero analizar la simetrı́a de los datos
y luego, si éstos son simétricos, su normalidad (siempre con las precauciones
habituales de la posible disminución del nivel de significación verdadero al
utilizar los mismos datos en dos tests consecutivos).
Por tanto, no es raro que se obtengan resultados extraños al utilizar este
test en datos no normales. Ası́, para los datos
de este ejercicio, el estadı́stico
p
de contraste tipificado toma el valor |k/ 24/n| = 1′ 013 < 1′ 96 , a pesar de
que el diagrama de hojas y ramas anterior muestra una clara asimetrı́a y, por
tanto, una falta de normalidad.
El gráfico de normalidad (CB-sección 14.4.1), el cual es una representación
del conjunto de puntos
Φ
−1
3i − 1
3n + 1
, x(i)
, i = 1, ..., n
siendo Φ−1 la inversa de la función de distribución de la N (0, 1), tiene la
interpretación siguiente: Si los puntos aparecen aproximadamente sobre una
recta de pendiente positiva, se puede admitir la normalidad de los datos.
Para los datos de nuestro ejercicio, es
--+------------------+------------------+------------------+-185+
*
*+
|
****
|
|
***
|
|
***
|
|
**
|
+
**
+
|
**
|
|
*
|
|
***
|
|
**
|
D
167
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
+
***
+
|
******
|
|
****
|
|
****
|
|
****
|
+
*****
+
|
***
|
145|*
* **********
|
--+------------------+------------------+------------------+--2.713604
2.713604
en el cual se observa una evidente falta de normalidad al tener una forma
sinuosa y no rectilı́nea.
c) Para conseguir simetrı́a y normalidad en un conjunto unimodal de datos,
suele resultar útil transformarlos mediante las denominadas transformaciones
Box-Cox (CB-sección 14.4.2), las cuales, a partir de los datos xi , obtienen los
datos
yi =

(xi + c)α − 1






α
α 6= 0 , (x > −c)
log(x + c)
α = 0 , (c > 0)
en donde α se determina a partir de los datos y c se elige para que sea
xi + c > 0 , ∀ i = 1, ..., n. Puesto que aquı́ todos los xi son positivos, eliminamos la constante c y, de hecho, simplificamos la expresión hasta dejar la
transformación de la forma
yi = xαi .
Si ası́ conseguimos simetrı́a y normalidad en los datos yi , no necesitamos
complicar innecesariamente la transformación.
Valores α > 1 comprimen la escala para los datos pequeños y la expanden
para los grandes, por lo que resultan útiles en distribuciones asimétricas a la
izquierda.
Para las distribuciones asimétricas a la derecha, se eligen valores α < 1 que
producen el efecto contrario, expandiendo los datos pequeños y comprimiendo
los grandes. Por tanto, en nuestro ejercicio probaremos con varios α < 1 hasta
conseguir que nuestros nuevos datos yi = xαi sean tales que los cocientes
primero y
g 1 p
6/n k
p
24/n D
168
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
después, sean menores que 1′ 96. A esos datos yi resultantes ya se les podrá aplicar, por ejemplo, un test de hipótesis o cualquier otra prueba estadı́stica que
requiera ambas suposiciones, o al menos una de ellas.
Si tomamos α = −1, es
g1
= −3′ 724
6/n
p
y (aunque no nos interesa, por no haberse conseguido simetrı́a con la transformación yi = x−1
i = 1/xi ) es
k
= −0′ 256.
24/n
p
Análogamente, si tomamos α = −2, es
g1
= −2′ 975
6/n
y
p
k
= −0′ 741.
24/n
p
El camino es acertado porque vamos arreglando la simetrı́a, aunque debemos aumentar (en términos absolutos) el tamaño de la potencia α.
Si tomamos α = −3, es
g1
= −2′ 238
6/n
y
p
k
= −1′ 127.
24/n
p
Como todavı́a no es (en valor absoluto) menor que 1′ 96, seguimos, eligiendo
ahora α = −4, en cuyo caso es
g1
= −1′ 517
6/n
p
y
k
= −1′ 419
24/n
p
habiendo conseguido ası́, tanto la simetrı́a como la normalidad, al haber obtenido que los valores de ambos estadı́sticos sean (en valor absoluto) menores
que 1′ 96.
En principio, esa transformación yi = 1/x4i es suficiente para nuestros
propósitos, no obstante, se obtiene una mejor transformación eligiendo α =
−4′ 8, ya que, para esa transformación, es
D
169
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
g1
= −0′ 953
6/n
p
y
k
= −1′ 443
24/n
p
consiguiendo ası́ una mayor seguridad en ambos tests. Por tanto, los datos
que utilizarı́amos en nuestra ulterior inferencia estadı́stica serı́an los datos
′
yi = 1/x4i 8 siguientes:
1
1
′ 8 , ... ,
4
156
1764′ 8
es decir, los datos,
2′ 9717 · 10−11 , ... , 1′ 6655 · 10−11 .
Como resulta muy desagradable la potencia 10−11 , se multiplican los datos
anteriores por 1011 para obtener valores más manejables, resultando, en defi′
nitiva como transformación a emplear yi = 1011 /x4i 8 y como datos a utilizar
en nuestras inferencias los siguientes:
2′ 9717 , ... , 1′ 6655
los cuales muestran un diagrama de hojas y ramas que cumple ambos requisitos
de simetrı́a y normalidad,
DEPTH
0
4
12
20
28
31
48
63
95
+ 22
83
65
47
31
25
16
7
DEPTH
STEM *
*
1 *
*
*
*
E
2 *
*
Q
*
M
3 *
Q
*
*
E
4 *
*
*
STEM *
LEAVES
3333
44444455
66667777
88889999
000
22222223333333333
444444444455555
66666666677777777777777777777777
8888888999999999999999
000000000011111111
222222222223333333
4444555555555555
777777
888888899
000000000
2222222
LEAVES
Advertimos que es conveniente, una vez determinada la transformación
final y antes de utilizar nuestros datos transformados, volver a calcular los
D
170
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
coeficientes de asimetrı́a y curtosis normalizados, puesto que este último puede
alterarse al no ser invariante a determinadas transformaciones.
Los valores de ambos coeficientes de los datos yi a utilizar 2′ 9717, ..., 1′ 6655
son iguales a
g1
= −0′ 953
6/n
y
p
k
= −1′ 588
24/n
p
ambos (en valor absoluto) menores que 1′ 96, por lo que se cumplen ambos
supuestos.
Los gráficos de simetrı́a
--+------------------+------------------+------------------+-2.962368+
*
+
|
*
|
|
*
|
| *
*
*
|
|
|
+
*
*
+
|
*
*
*
*
|
|*
*
|
|
*
*
*
|
|
|
+
*
*
*
+
|
*
*
*
*
|
|
* |
|
*
*
|
|
* |
+
*
*
+
|
* |
2.766045|
*
*|
--+------------------+------------------+------------------+-0
2.910255
y normalidad,
--+------------------+------------------+------------------+-4.221172+
***** *
*+
|
*****
|
|
***
|
|
**
|
|
****
|
+
***
+
|
****
|
|
****
|
|
****
|
|
****
|
+
***
+
D
171
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
|
**
|
|
***
|
|
**
|
|
**
|
+
***
+
|
*****
|
1.310917|*
* **
|
--+------------------+------------------+------------------+--2.713604
2.713604
confirman estos cálculos.
Obsérvese que, una vez realizada la inferencia en cuestión con los datos yi ,
es posible que se pueda realizar la transformación inversa
xi =
1011
yi
!1/4′ 8
en la correspondiente inferencia de los datos xi . Por ejemplo, si se pretendı́a
construir un intervalo de confianza para las xi y se requerı́a normalidad (y, por
tanto, simetrı́a) en nuestros datos, se determina el intervalo para los datos yi
y, si resultó como intervalo de confianza, por ejemplo, el intervalo [1′ 62 , 2′ 10],
es posible que se pueda aplicar la transformación inversa a los extremos del
intervalo anterior, obteniendo que el intervalo de confianza buscado para las
estaturas xi es el [167′ 688 , 177′ 003].
No obstante, esto requiere analizar cada inferencia particular porque, salvo
en contadas excepciones, no se cumplen relaciones del tipo E[X α ] 6= E[X]α .
Apuntamos por último, que como lo que se requiere es la simetrı́a y normalidad para, después de hacer las inferencias en cuestión, volver a los datos
originales, es más conveniente, en general, elegir como valor de α un número
entero, lo cual facilitará los cálculos.
De nuevo hay que analizar cada caso en particular, porque pueden resultar
intervalos de confianza distintos, al utilizar transformaciones distintas, pero
puede que esto no sea ningún problema si ambos intervalos de confianza tienen
el coeficiente de confianza requerido.
Problema 5.19
Se quieren estimar las estaturas medias de dos poblaciones humanas independientes, determinando un intervalo de confianza, de coeficiente de confianza
0′ 95, para la diferencia de dichas estaturas medias. Para ello se eligieron al azar
n = 4 individuos de la primera población, obteniéndose las estaturas X1 = 1′ 70,
X2 = 2′ 00, X3 = 1′ 65 y X4 = 1′ 85, y m = 4 individuos de la segunda, obteniéndose
las estaturas Y1 = 1′ 75, Y2 = 1′ 75, Y3 = 1′ 90 e Y4 = 1′ 80.
a) Determinar dicho intervalo de confianza suponiendo que las estaturas X e
Y de cada población siguen distribuciones normales de varianzas desconocidas
pero iguales.
D
172
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
b) Bajo las condiciones anteriores, ¿puede aceptarse la hipótesis nula de igualdad
de las estaturas medias de ambas poblaciones, a nivel de significación α = 0′ 05?
c) Utilizando el contraste de Wilcoxon-Mann-Whitney, contrastar a nivel α = 0′ 05
la hipótesis nula de igualdad de las estaturas medianas de ambas poblaciones.
a) Se trata de determinar un intervalo de confianza para la diferencia de
medias de dos poblaciones normales independientes de varianzas desconocidas
pero iguales, siendo los tamaños muestrales pequeños (CB-sección 6.6)

I = x − y ∓ tn+m−2;α/2

= 1′ 8 − 1′ 8 ∓ 2′ 447
s
s
(n − 1)Sx2 + (m − 1)Sy2
n+m−2
3 · 0′ 025 + 3 · 0′ 005
6
= [−0′ 2119 , 0′ 2119].
r
r

1
1
+ 
n m

1 1
+
4 4
al obtenerse, a partir de los datos del enunciado, que es x = y = 1′ 8, Sx2 =
0′ 025, Sy2 = 0′ 005 y, a partir de la tabla 5 de la t de Student, tn+m−2;α/2 =
t4+4−2;0′ 05/2 = t6;0′ 025 = 2′ 447.
b) La región de aceptación del test de hipótesis, de nivel α, para la hipótesis
nula H0 : µX = µY frente a la alternativa H0 : µX 6= µY coincide (CB-sección
7.6) con el intervalo de confianza, de coeficiente de confianza 1−α, para la diferencia de medias poblacionales µX − µY . Por tanto, la región de aceptación del
test considerado, para un nivel de significación 0′ 05, coincidirá con el intervalo
de confianza determinado en el apartado anterior. La aceptación o rechazo de
H0 dependerá de si el 0 pertenece o no a dicho intervalo. Como pertenece, se
acepta la hipótesis nula de igualdad de las medias de ambas poblaciones.
c) Si las poblaciones son simétricas, la media µ y la mediana M en cada una de ellas coincidirá, por lo que parece razonable utilizar un test no
paramétrico como alternativa al contraste realizado en el apartado anterior.
Ası́ pues, contrastaremos la hipótesis nula H0 : MX = MY frente a la alternativa H1 : MX 6= MY mediante el test de Wilcoxon-Mann-Whitney propuesto
en el enunciado (CB-sección 13.4.1).
El estadı́stico del test es
U=
4 X
4
X
Dij
i=1 j=1
es decir, el número de Yj que preceden a cada Xi .
Las ocho observaciones ordenadas forman la secuencia
D
173
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
1′ 65 , 1′ 70 , 1′ 75 , 1′ 75 , 1′ 80 , 1′ 85 , 1′ 90 , 2′ 00
en la que aparecen subrayadas las observaciones Yj de la segunda muestra.
Por tanto, el número de Yj que preceden a cada Xi será
U = 0+0+3+4 = 7
ya que a 1′ 65 (primer Xi ) no le precede ningún Yj , apareciendo el primer 0 de
la suma anterior, a 1′ 70 tampoco le precede ningún Yj (segundo cero de U ),
a 1′ 85 le preceden tres Yj (los subrayados 1′ 75, 1′ 75 y 1′ 80) lo que suministra
el 3 del tercer sumando de U , precediendo al 2′ 00 los cuatro Yj de la muestra.
U puede tomar valores entre 0 y m · n = 4 · 4 = 16.
Fijado el nivel de significación α = 0′ 05, para n = m = 4, la tabla 16 de
Wilcoxon-Mann-Whitney proporciona el punto crı́tico u4,4;α/2 = u4,4;0′ 025 = 16
siendo, por tanto, la región crı́tica del test igual a
C = {U ≤ n · m − um,n;α/2 } ∪ {U ≥ um,n;α/2 }
= {U ≤ 0} ∪ {U ≥ 16} = {0} ∪ {16}.
El valor de U obtenido (U = 7) no permite rechazar la hipótesis nula.
El cálculo del p-valor se hará de nuevo por separado según los textos de
teorı́a que utilice el lector.
Como el valor central, respecto del cual la distribución de U es simétrica
es m · n/2 = 4 · 4/2 = 8 y U ha tomado el valor 7, se llega antes a dicho
valor subiendo el lı́mite izquierdo de la región crı́tica, 0, que bajando el lı́mite
superior de la misma, 16. Ası́ pues, el p-valor será,
2 × P {U4,4 ≤ 7}.
(En la probabilidad anterior se ha puesto U4,4 ≤ 7 porque si la región crı́tica
quedase U4,4 ≤ 6 no se rechazarı́a, al ser U = 7 6≤ 6, y si la región crı́tica fuese
U4,4 ≤ 8 no proporcionarı́a el 8 la mı́nima región crı́tica para la que se rechaza
H0 . El 2 viene de que, una vez que se determina la mı́nima región crı́tica para
cual se rechaza H0 , al ser el contraste de dos colas, el mı́nimo nivel para el que
se rechaza es la probabilidad calculada, multiplicada por 2).
Al ser la distribución de U simétrica respecto a su centro de simetrı́a U = 8,
la probabilidad a calcular será 2 × P {U4,4 ≤ 7} = 2 × P {U4,4 ≥ 7}, ya que
la tabla 16 sólo me da probabilidades cola de la derecha. De dicha tabla se
obtiene que es 13 el mı́nimo valor de U4,4 para el que se tiene la acotación
P {U4,4 ≥ 13} ≤ 0′ 1, por lo que será P {U4,4 ≥ 12} > 0′ 1. Además, por
las propiedades de la probabilidad, a medida que nos desplacemos hacia la
izquierda en el valor de U (lo reduzcamos), la probabilidad que deja a su
D
174
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
derecha U será mayor, por lo que será P {U4,4 ≥ 7} > P {U4,4 ≥ 12}. El
p-valor será, en definitiva,
2 × P {U4,4 ≤ 7} = 2 × P {U4,4 ≥ 7} > 2 × P {U4,4 ≥ 12} > 2 · 0′ 1 = 0′ 2
suficientemente grande como para confirmar la decisión tomada.
Problema 5.20
Por razones aún desconocidas, el porcentaje, p, de esquizofrénicos en todos los
paı́ses es, de forma invariable, del 1 %. Determinar el tamaño de muestra necesario para que el porcentaje de esa muestra difiera en términos absolutos de p
en menos de 0′ 003 con probabilidad 0′ 9, suponiendo que dicho tamaño muestral
va a resultar grande.
Nos piden el tamaño de muestra necesario (Véase el ejemplo 5.8 de CB,
pág. 105, y la pág. 115) para que se verifique la igualdad
P {|p̂ − p| < 0′ 003} = 0′ 9
[5.1]
suponiendo que es
p̂ ≈ N p ,
q
p(1 − p)/n
≡ N 0′ 01 ,
q
0′ 01 · 0′ 99/n
al ser el tamaño muestral suficientemente grande.
Tipificando en [5.1] se obtiene que es
√
n
′
} = 0′ 9.
P {|Z| < 0 003 p
p(1 − p)
con Z ; N (0, 1). Como por otro lado es
P {|Z| < 1′ 645} = 0′ 9
será
′
0 003 p
√
n
= 1′ 645
p(1 − p)
obteniéndose de ahı́ el valor n = 2976′ 6; es decir, son necesarios n = 2977
individuos para alcanzar la precisión deseada.
Problema 5.21
Elegidas al azar 10 personas de una determinada población se anotó, para cada
una de las 10 personas, su peso en kgr. y su talla en cm. obteniéndose los
siguientes resultados:
D
175
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
Peso 67
98
77
89
95
55
80
70
58
78
Talla 170 200 167 190 180 170 190 185 171 180
Suponiendo que ambas variables observadas siguen distribuciones normales no
independientes N (µ1 , σ1 ) y N (µ2 , σ2 ) respectivamente, determinar un intervalo de
confianza, de coeficiente de confianza 0′ 95, para la diferencia de medias µ2 − µ1 .
Al no ser las variables X1 =Peso y X2 =Talla independientes por realizarse
las observaciones sobre los mismos individuos (ya nos lo dice el enunciado del
problema), debemos de considerar un esquema de datos apareados definiendo
la variable diferencia D = X2 − X1 , convirtiéndose el objetivo de la determinación del intervalo de confianza para µ2 − µ1 en el de la determinación
del intervalo de confianza para la media, µd , de la variable D, en la situación que nos movemos de ser D una variable normal de varianza desconocida
(CB-sección 6.2), el cual es
d − tn−1;α/2
S
S
√d , d + tn−1;α/2 √d .
n
n
De los datos del enunciado obtenemos que es d = 103′ 6 la media de las
n = 10 diferencias X2 − X1 y Sd = 10′ 178 la cuasidesviación tı́pica de tales
diferencias.
Como el coeficiente de confianza requerido es 1 − α = 0′ 95, a partir de la
tabla 5 de la distribución t de Student obtenemos que es tn−1;α/2 = t9;0′ 025 =
2′ 262 siendo, por tanto, el intervalo de confianza buscado igual a
h
d − tn−1;α/2
=
Sd
√
n
h
, d + tn−1;α/2
Sd
√
n
′
i
′
178
103′ 6 − 2′ 262 10√178
, 103′ 6 + 2′ 262 10√10
10
i
= [96′ 32 , 110′ 88].
Problema 5.22
Muchas teorı́as sobre la esquizofrenia sugieren alteraciones en la actividad de
una sustancia del sistema nervioso central denominada dopamina. Con objeto de
analizar esta hipótesis se trató a 10 pacientes esquizofrénicos hospitalizados, con
una medicación antipsicótica y se les clasificó, después del tratamiento, en dos
grupos: el de psicóticos (es decir, el de los que seguı́an padeciendo la enfermedad
después del tratamiento) y el de no psicóticos. Se les extrajo una muestra de fluido
cerebro-espinal a cada paciente y se anotó la actividad de la enzima dopamina bhidroxilasa (DBH) obteniéndose los siguientes datos en donde las unidades vienen
expresadas en nmol/(ml)(h)/(mg) de proteı́na:
No psicóticos
Psicóticos
0′ 0105
0′ 0222
0′ 0145
0′ 0245
0′ 0160
0′ 0320
0′ 0130
0′ 0150
0′ 0156
0′ 0104
D
176
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Suponiendo que los datos anteriores proceden de dos distribuciones normales
independientes, una para cada uno de los dos grupos de pacientes, ¿difiere la
actividad DBH entre estos dos grupos, a nivel α = 0′ 05?
Si llamamos X1 a la variable aleatoria actividad DBH de los individuos
del primer grupo —no psicóticos— y X2 a la actividad DBH de los individuos
del segundo grupo —psicóticos—, el enunciado del problema nos indica que
podemos suponer X1 ; N (µ1 , σ1 ) y X2 ; N (µ2 , σ2 ), siendo el objetivo que
se persigue el contrastar H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 .
En esta situación, de contraste para la diferencia de medias de dos poblaciones normales independientes y muestras pequeñas (CB-sección 7.6), al ser
las varianzas σ12 y σ22 desconocidas, es necesario primero poder concluir si éstas
pueden suponerse iguales o no.
Para ello contrastaremos primero, a nivel α = 0′ 05 como nos dice el enunciado, la hipótesis nula H0 : σ12 = σ22 frente a H1 : σ12 6= σ22 (CB-sección 7.5),
hipótesis nula que se acepta cuando y sólo cuando sea
i
S12 h
∈
F
,
F
n1 −1,n2 −1;1−α/2
n1 −1,n2 −1;α/2 .
S22
A partir de nuestros datos obtenemos que es
x1 = 0′ 0133
x2 = 0′ 0234
S12 = 0′ 0000061
S22 = 0′ 0000491
n1 = 6
n2 = 4
Como es
Fn1 −1,n2 −1;1−α/2 = F5,3;0′ 975 =
1
F3,5;0′ 025
=
1
7′ 7636
= 0′ 1288
utilizando las propiedades de la distribución F de Snedecor, la tabla 6 de esta
distribución, y además
Fn1 −1,n2 −1;α/2 = F5,3;0′ 025 = 14′ 885
la región de aceptación será el intervalo [0′ 1288 , 14′ 885].
Al ser el estadı́stico de contraste igual a
S12
0′ 0000061
= ′
= 0′ 1242 6∈ [0′ 1288 , 14′ 885]
2
S2
0 0000491
no aceptaremos la hipótesis nula, concluyendo con que es razonable admitir
como distintas las varianzas de las poblaciones normales.
Supuestas distintas las varianzas poblaciones, la hipótesis nula de igualdad
de la actividad DBH en los dos grupos, H0 : µ1 = µ2 se aceptará cuando y sólo
cuando sea
D
177
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
|x1 − x2 |
s
S12 S22
+
n1
n2
≤ tf ;α/2
en donde los grados de libertad f de la t de Student se determinan mediante
la aproximación de Welch, siendo éste el entero más próximo a
S12 S22
+
n1
n2
!2
0′ 0000061 0′ 0000491 2
+
6
4
!2
!2 − 2 = ′
2
′
2 − 2
2
2
0
0000061
0
0000491
S1
S2
6
4
n1
n2
+
+
7
5
n1 + 1
n2 + 1
61 491 2
+
6
4
′
′
= 2 − 2 = 5 83 − 2 = 3 83
61
491 2
6
4
+
7
5
con lo que tomaremos f = 4, siendo, por la tabla 5 de la t de Student, el punto
crı́tico igual a tf ;α/2 = t4;0′ 025 = 2′ 776. Como el estadı́stico es igual a
|x1 − x2 |
s
S12 S22
+
n1
n2
=s
|0′ 0133 − 0′ 0234|
0′ 0000061
6
+
0′ 0000491
= 2′ 770 < 2′ 776 = tf ;α/2
4
se aceptará (con muchas reservas) la hipótesis nula de igualdad (en promedio)
de la actividad DBH en los dos grupos, no pudiendo confirmar, con estos datos,
las teorı́as a las que se hizo referencia en el enunciado del problema.
Problema 5.23
Se quiere investigar si existen o no diferencias significativas entre los consumidores habituales de carne roja y los consumidores habituales de frutas y verduras,
respecto a padecer o no cáncer de estómago, contrastando la hipótesis nula de
igualdad de los porcentajes de individuos que padecen o han padecido la mencionada enfermedad en ambos colectivos. Para ello se eligieron al azar 1000
consumidores habituales de carne roja y se les preguntó si padecı́an o habı́an
padecido la mencionada enfermedad, obteniéndose una respuesta afirmativa de
11 de ellos.
Una muestra aleatoria de 1000 consumidores habituales de frutas y verduras,
obtenida independientemente de la anterior, suministró 6 personas que tenı́an o
habı́an tenido la enfermedad en cuestión.
D
178
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
A la vista de los resultados observados, ¿puede inferirse que existen diferencias
significativas entre ambos grupos de personas?
Suponiendo una variable de Bernoulli B(1, p1 ) para la primera población
de consumidores habituales de carne roja, y una variable de Bernoulli B(1, p2 )
para los consumidores habituales de frutas y verduras, se trata de contrastar
las hipótesis H0 : p1 = p2 frente a H1 : p1 6= p2 . (Véase CB-sección 7.7
ası́ como PREB-problema 5.10.)
La hipótesis nula se rechaza cuando y sólo cuando sea
s
|pc1 − pc2 |
p(1 − p) p(1 − p)
+
n1
n2
> zα/2
No obstante, en lugar de fijar un nivel de significación y luego analizar si se
da o no la desigualdad anterior, es mejor determinar el p-valor del test.
De los datos del enunciado obtenemos que es n1 = n2 = 1000, pc1 =
11/1000 = 0′ 011, pc2 = 6/1000 = 0′ 006 y p = (11 + 6)/2000 = 0′ 0085, con lo
que será
s
|pc1 − pc2 |
p(1 − p) p(1 − p)
+
n1
n2
=s
0′ 0085
|0′ 011 − 0′ 006|
· 0′ 9915
1000
+
0′ 0085
· 0′ 9915
= 1′ 2177 ≈ 1′ 22
1000
con lo que el p-valor del test será (si Z es una variable con distribución normal
estándar)
2 · P {Z > 1′ 22} = 2 · 0′ 1112 = 0′ 2224
a partir de la tabla 3 de la distribución normal, valor suficientemente grande
como para aceptar la hipótesis nula de igualdad de los porcentajes de ambas
poblaciones, pudiendo concluir, con gran seguridad, que no existen diferencias
significativas entre ambos colectivos.
Problema 5.24
Se quiere averiguar si el porcentaje de fallecidos entre los enfermos de una
determinada enfermedad asiática es significativamente mayor del 10 %. Para ello
se seleccionaron al azar 200 pacientes de dicha enfermedad, obteniéndose un
porcentaje observado de fallecimiento del 11′ 5 %. ¿Qué conclusiones obtendrı́a?
Calcular el p-valor.
D
179
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
Estamos ante un caso de contraste de hipótesis sobre el parámetro p de
una binomial, siendo el tamaño muestral n = 200 suficientemente grande (CBsección 7.3). Al estar interesados en saber si puede aceptarse la hipótesis p >
0′ 1, ésta se pone como hipótesis alternativa, estableciéndose como hipótesis
nula la complementaria. Por tanto, contrastaremos la hipótesis nula H0 : p ≤
0′ 1 frente a la alternativa H1 : p > 0′ 1.
En estas condiciones se rechaza la hipótesis nula cuando y sólo cuando sea
s
p̂ − p0
p0 (1 − p0 )
n
> zα
Como también nos piden el p-valor, en lugar de fijar un nivel de significación α, determinar zα y comprobar si se cumple o no la desigualdad anterior,
el cálculo de aquel nos permitirá decidir sobre las dos hipótesis a contrastar.
Al ser
s
0′ 115 − 0′ 1
= s
= 0′ 7071
′
′
p0 (1 − p0 )
01·09
n
200
p̂ − p0
el p-valor será, a partir de la tabla 3 de la N (0, 1),
P {Z > 0′ 7071} ≈ P {Z > 0′ 71} = 0′ 2389
valor suficientemente grande (mayor que 0′ 2) como para aceptar la hipótesis
nula y concluir que el porcentaje de fallecimiento no es significativamente
mayor del 10 %.
Problema 5.25
Se admite que el porcentaje de diferencias genéticas entre dos personas de distintas familias es mayor del 1 %. Si dicha diferencia es menor o igual se admite
que ambas personas tiene antepasados comunes.
Examinadas 200 muestras elegidas al azar en dos individuos se obtuvo una diferencia genética muestral del 1′ 05 %. ¿Cabe considerar esta diferencia como significativa, o puede concluirse que ambas personas son de la misma familia?
Se trata de un contraste de H0 : p ≤ p0 frente a H1 : p > p0 , en poblaciones
binomiales con tamaños muestrales grandes, en donde se rechaza la hipótesis
nula cuando sea (véase, por ejemplo CB-pág. 155)
s
p̂ − p0
p0 (1 − p0 )
n
> zα
D
180
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
En nuestro caso es p0 = 0′ 01, p̂ = 0′ 0105 y n = 200, con lo que será
s
p̂ − p0
p0 (1 − p0 )
n
= 0′ 07
Como el p-valor del test es (ADD-pág. 33)
P {Z > 0′ 07} = 0′ 4721
suficientemente grande, se puede aceptar la hipótesis nula de que no existen
diferencias significativas entre ambos individuos, considerándose, por tanto,
de la misma familia.
Problema 5.26
Se quiere averiguar si puede admitirse una distribución exponencial de densidad
fθ (x) = θ e−θx para el tiempo en dı́as que tardan en fallecer los individuos con
una enfermedad asiática desconocida. Para ello se observaron 100 tiempos de
individuos que habı́an fallecido de la enfermedad en estudio obteniéndose los
siguientes valores
Intervalos de tiempo
Número de fallecidos
(0,3)
48
[3,6)
29
[6,9)
16
[9,12)
4
≥ 12
3
con los que se obtuvo una media muestral x = 4. ¿Qué conclusiones obtendrı́a?
Estamos ante un caso de contraste de bondad del ajuste de unos datos a
una distribución teórica (véase CB-sección 12.2).
Como nos dicen que de la muestra se ha obtenido una media muestral
igual a x = 4 y el estimador de máxima verosimilitud de θ es θb = 1/x,
contrastaremos si puede aceptarse la hipótesis nula de proceder los datos de
una distribución Exp(0′ 25).
Para ello deberemos determinar las probabilidades que ese modelo teórico
asigna a cada uno de los cinco intervalos en los que aparecen divididos los
datos.
La función de distribución a utilizar será, si es x > 0 y θ = 0′ 25,
Fθ (x) =
Z
0
x
′
θ e−θy dy = 1 − e−0 25x
con lo que, prescindiendo de los lı́mites de los intervalos, al ser la distribución
exponencial de tipo continuo, será
′
P {0 < X < 3} = F (3) − F (0) = 1 − e−0 25·3 − 0 = 0′ 5276
D
181
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
′
P {3 < X < 6} = F (6)−F (3) = 1−e−0 25·6 −0′ 5276 = 0′ 7769−0′ 5276 = 0′ 2493
′
P {6 < X < 9} = F (9)−F (6) = 1−e−0 25·9 −0′ 7769 = 0′ 8946−0′ 7769 = 0′ 1177
′
P {9 < X < 12} = F (12)−F (9) = 1−e−0 25·12 −0′ 8946 = 0′ 9502−0′ 8946 = 0′ 0556
P {X > 12} = 1 − F (12) = 1 − 0′ 9502 = 0′ 0498
con lo que obtenemos la tabla de frecuencias observadas y esperadas
Intervalos
(0, 3)
[3, 6)
[6, 9)
[9, 12)
≥ 12
ni
48
29
16
4
3
100
pi
′
0 5276
0′ 2493
0′ 1177
0′ 0556
0′ 0498
1
npi
52′ 76
24′ 93
11′ 77
5′ 56
4′ 98
100
n2i /(npi )
43′ 67
33′ 73
21′ 75
2′ 88
1′ 81
103′ 84
Como se obtiene una frecuencia esperada para la última clase menor que
5 se puede considerar el agrupar las dos últimas clases. No obstante, dado
que está muy próximo a 5, no lo haremos ya que además las conclusiones que
sacaremos están muy claras.
El valor del estadı́stico de Pearson es
λ=
X
i
n2i
npi
!
− n = 103′ 84 − 100 = 3′ 84.
Como hemos estimado el parámetro θ a partir de la muestra, reduciremos
en un grado más la distribución χ2 . Como estamos considerando 5 clases,
quedará como distribución para λ (antes de tomar los datos lógicamente) una
χ25−1−1 = χ23 .
Al estar el p-valor del test P {χ23 > 3′ 84} acotado por (ADD, pág. 34)
0′ 1 < P {χ23 > 3′ 84} < 0′ 3
y ser muy próximo a 0′ 3, se puede aceptar con gran seguridad que los datos
proceden de la distribución exponencial Exp(0′ 25).
D
182
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Problema 5.27
Los siguientes datos proceden de un ensayo clı́nico llevado a cabo por Ezdinli y
otros (1976) para comparar dos tratamientos en el linfoma de linfocitos. Un tratamiento, denominado CP, consistı́a en cytoxan + prednisone, y otro tratamiento, denominado BP, estaba compuesto por carmustina (BCNU) + prednisone.
La variable observada fue la respuesta del tumor en cada paciente, medida en
una escala cualitativa desde “Respuesta Completa” (lo mejor que puede ocurrir)
a “Progresa” (lo peor que puede ocurrir). Los datos obtenidos fueron los dados
en la siguiente tabla:
BP
CP
Respuesta Completa
26
31
Respuesta Parcial
51
59
Sin Cambios
21
11
Progresa
40
34
¿Difieren los tratamientos en su eficacia?
Como los datos aportados son recuentos de observaciones clasificados por
clases, comparar ambas poblaciones debe hacerse mediante un test de la χ2 de
homogeneidad de varias muestras (CB-sección 12.3), en donde la hipótesis nula
que se establece es que ambos tratamientos pueden considerase homogéneos.
Esta hipótesis nula se rechazará cuando y sólo cuando sea
λ ≥ χ2(r−1)(s−1);α
siendo
λ=
r X
s
X
(nij − ni mj /n)2
i=1 j=1
ni mj /n
el estadı́stico de Pearson. En nuestro caso, toma el valor λ = 4′ 5995.
De la Tabla 4 de la χ2 de Pearson vemos que el p-valor es
P {χ2(r−1)(s−1) > 3′ 9978} = P {χ23 > 4′ 5995} > 0′ 1
suficientemente grande como para aceptar la hipótesis nula de homogeneidad
con bastante seguridad.
Si queremos resolverlo con R (EAR-sección 7.3), ejecutarı́amos la siguiente
secuencia de instrucciones. Con (1) incluimos los datos, que tienen que venir
en forma de matriz. Recordemos que, por defecto, los incorpora por columnas.
Las sentencias (2) y (3) son opcionales y sirven para poner nombre a las filas
y a las columnas de la tabla. Con (4) comprobamos que hemos incorporado
bien los datos a R. Ejecutando (5) es como le pedimos que haga el test χ2 .
> linfoma<-matrix(c(26,31,51,59,21,11,40,34),ncol=4)
> colnames(linfoma)<-c("R. Completa","R. Parcial","Sin Cambios","Progresa")
(1)
(2)
D
183
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
> rownames(linfoma)<-c("BP","CP")
> linfoma
R. Completa R. Parcial Sin Cambios Progresa
BP
26
51
21
40
CP
31
59
11
34
(3)
(4)
> chisq.test(linfoma)
(5)
Pearson’s Chi-squared test
data: linfoma
X-squared = 4.5995, df = 3, p-value = 0.2036
(6)
En (6) vemos el valor del estadı́stico de Pearson, λ = 4′ 5995 y el pvalor del test, 0′ 2036, suficientemente grande como para concluir que puede
aceptarse la hipótesis nula de homogeneidad de ambas poblaciones. Es decir,
puede concluirse que no existen diferencias entre ambos tratamientos.
Problema 5.28
Los datos de la siguiente tabla son niveles de colesterol (en mg/100ml) de hombres de más de 90 kilos de peso, elegidos al azar y clasificados en dos grupos:
Grupo I, formado por personas muy pendientes del reloj, que pasan muchas horas conduciendo vehı́culos, y Grupo II, compuesto por individuos más relajados
y menos competitivos.
Grupo I
Grupo II
233
344
295
186
310
260
249
245
245
222
199
210
270
188
220
240
240
145
240
165
Comparar ambas poblaciones mediante,
a) El test de la t de Student.
b) El test de Wilcoxon-Mann-Whitney.
c) Analizar las suposiciones necesarias para poder aplicar uno u otro test.
Se trata de realizar dos tests de comparación de dos poblaciones, el primero
paramétrico y el segundo no paramétrico. En el tercer apartado analizaremos
las condiciones en las que se realiza uno y otro y, en consecuencia, su validez.
a) A partir del enunciado se obtiene que es x1 = 250′ 1 , S12 = 1115′ 656 ,
x2 = 220′ 5 , S22 = 3214′ 722 .
Estamos ante una situación del contraste de la media de dos poblaciones normales independientes, muestras pequeñas, con varianzas desconocidas,
(CB-sección 7.6), por lo que debemos valorar primero si las varianzas, aunque
desconocidas, pueden considerarse iguales o no. Para ello contrastaremos la
hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección
7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta
hipótesis nula cuando y sólo cuando sea,
D
184
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
S12
∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ].
S22
Como es S12 /S22 = 0′ 347, si consideramos un nivel de significación α = 0′ 1,
será, a partir de la Tabla 6 de la F de Snedecor, F9,9;1−0′ 05 = 1/F9,9;0′ 05 =
1/3′ 1789 = 0′ 3146 , con lo que la región de aceptación, a nivel α = 0′ 1, es
[0′ 3136 , 3′ 1789] , contendrá al valor del estadı́stico y se aceptará la hipótesis
nula de ser iguales ambas varianzas poblacionales, a ese nivel suficientemente
alto.
Si queremos resolver este apartado con R, con las siguientes sentencias
obtenemos las medias y cuasivarianzas muestrales, ası́ como el valor del estadı́stico del contraste S12 /S22 ,
> x1<-c(233,295,310,249,245,199,270,220,240,240)
> x2<-c(344,186,260,245,222,210,188,240,145,165)
> mean(x1)
[1] 250.1
> mean(x2)
[1] 220.5
> var(x1)
[1] 1115.656
> var(x2)
[1] 3214.722
> var(x1)/var(x2)
[1] 0.3470457
De hecho, con R podemos obtener el p-valor ejecutando (1)
> 2*pf(0.347,9,9)
[1] 0.1307151
(1)
Este p-valor 0′ 1307 es lo suficientemente alto como para confirmar la aceptación de la igualdad de las varianzas poblacionales.
Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar (2), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de
aceptación,
"
S12 /S22
Fn1 −1,n2 −1; α2
,
S12 /S22
Fn1 −1,n2 −1;1− α2
#
0′ 347
0′ 347
= ′
, ′
= [0′ 109 , 1′ 103]
3 1789 0 3146
cociente contiene o no al 1. La región de aceptación se observa en (3) y el
p-valor de este test, igual lógicamente al anterior, aparece en (4).
> var.test(x1,x2,conf.level=0.9)
F test to compare two variances
(2)
D
185
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
data: x1 and x2
F = 0.347, num df = 9, denom df = 9, p-value = 0.1308
alternative hypothesis: true ratio of variances is not equal to 1
90 percent confidence interval:
0.1091719 1.1032212
sample estimates:
ratio of variances
0.3470457
(4)
(3)
Apuntamos que, intercambiando los papeles de ambas poblaciones (que es
lo que nos dice la ortodoxia, CB-sección 7.5), hubiéramos obtenido las mismas
conclusiones.
Por tanto, el test para contrastar la igualdad de las medias poblacionales;
es decir, para contrastar la hipótesis nula H0 : µ1 = µ2 frente a la alternativa
H1 : µ1 6= µ2 será el que acepte H0 cuando y sólo cuando sea
s
(n1 −
Como es
r
|x1 − x2 |
|x1 − x2 |
1)S12
+ (n2 − 1)S22
n1 + n2 − 2
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
r
1
1
+
n1
n2
= r
s
1
1
+
n1 n2
≤ tn1 +n2 −2;α/2
|250′ 1 − 220′ 5|
9 · 1115′ 656 + 9 · 3214′ 722
18
r
= 1′ 4224
1
1
+
10
10
y, a partir de la Tabla 5 de la t de Student, vemos que es 0′ 05 < P {t18 >
1′ 4224} < 0′ 1, podemos aceptar la hipótesis nula de igualdad en los niveles de
colesterol de ambas poblaciones, con un p-valor entre 0′ 1 y 0′ 2, es decir, con
suficiente confianza.
Este test de igualdad de medias se puede resolver con R ejecutando (5)
(véase EAR-sección 4.2.4), en donde indicamos que consideramos las varianzas
poblacionales como iguales. Como el 0 está incluido en la región de aceptación
dada en (6), aceptamos la hipótesis nula de igualdad de los niveles medios de
ambas poblaciones. El p-valor 0′ 172 aparece en (7) (está entre 0′ 1 y 0′ 2 como
habı́amos dicho) e indica la aceptación de H0 .
> t.test(x1,x2,var.equal=T)
(5)
Two Sample t-test
data: x1 and x2
t = 1.4224, df = 18, p-value = 0.172
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-14.11926 73.31926
(7)
(6)
D
186
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
sample estimates:
mean of x mean of y
250.1
220.5
b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las
hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2
y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0
cuando y sólo cuando sea
m · n − um,n;α/2 < U < um,n;α/2
siendo U el número de valores de la segunda muestra que preceden estrictamente a cada valor fijo de la primera muestra.
Si subrayamos los valores de la segunda muestra en la siguiente unión de
ambas muestras ordenadas, en donde los de la segunda muestra que son iguales
a los de la primera los hemos situado detrás para hacer más simple el recuento,
145, 165, 186, 188, 199, 210, 220, 222, 233, 240
240, 240, 245, 245, 249, 260, 270, 295, 310, 344.
Ahora, para calcular el valor de U nos fijamos en cada valor de la primera
muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la
segunda muestra (es decir, cuántos valores subrayados) le preceden. Es decir,
miramos el 199 (primer valor no subrayado) y vemos que hay 4 valores subrayados que lo preceden, por lo que el primer sumando de U es 4. El segundo
valor no subrayado es 220, al que le preceden 5 valores subrayados, lo que hace
que el segundo valor de U sea 5, y ası́ sucesivamente; vemos que U toma el
valor,
U = 4 + 5 + 6 + 6 + 6 + 7 + 8 + 9 + 9 + 9 = 69.
En la determinación del punto crı́tico y el p-valor utilizaremos la aproximación normal ya que los tamaños muestrales son mayores que 5. En concreto,
si el nivel de significación es α = 0′ 1, será
um,n;α/2 = u10,10;0′ 05
10 · 10
=
+ 1′ 645
2
s
10 · 10 · (10 + 10 + 1)
= 71′ 76
12
y la región de aceptación,
(m · n − um,n;α/2 , um,n;α/2 ) = (10 · 10 − 71′ 76 , 71′ 76) = (28′ 24 , 71′ 76).
D
187
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
Como U = 69 pertenece a ella, deberemos aceptar la hipótesis nula de
igualdad de ambas poblaciones, con un p-valor mayor que el nivel de significación 0′ 1. En concreto, el p-valor (aproximado por utilizar la aproximación
normal) será, utilizando la cola superior, al ser el p-valor el menor nivel de
significación para el que se rechaza la hipótesis nula,
2 × P {U > 69} ≈ 2 × P
(
69 − 10 · 10/2
Z> p
10 · 10(10 + 10 + 1)/12
)
= 2 × P {Z > 1′ 47} = 0′ 1416
que indica aceptar con confianza la hipótesis nula de igualdad.
Para resolver este ejercicio con R, deberı́amos ejecutar (8) (EAR-sección
8.4.1) si queremos utilizar las mismas opciones que las que acabamos de emplear. Los resultados son un poco distintos porque R promedia entre los valores
iguales en el cálculo de U . No obstante, el p-valor también es indicativo de la
aceptación de la hipótesis nula de igualdad de ambas poblaciones.
> wilcox.test(x1,x2,exact=F,correct=F)
(8)
Wilcoxon rank sum test
data: x1 and x2
W = 70.5, p-value = 0.1205
alternative hypothesis: true location shift is not equal to 0
c) Para utilizar tanto el test de t de Student como el de Wilcoxon-MannWhitney hay que admitir que ambas muestras son aleatorias simples y que
son independientes la una de la otra. Eso es razonable y lo admitiremos. La
segunda condición es que los datos procedan de distribuciones de tipo continuo. También esto es admisible puesto que los niveles de colesterol pueden
ser cualesquiera en un intervalo. La última condición, habitualmente la más
restrictiva para el test de la t de Student es que los datos deben proceder de
poblaciones normales. Como son pocos datos no parece razonable utilizar un
test de Kolmogorov-Smirnov para analizarlo, sino métodos gráficos.
Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase
EAR-sección 5.2.1)
> par(mfrow=c(1,2))
> qqnorm(x1)
> qqnorm(x2)
obtenemos la Figura 5.1.
Si queremos obtener dos diagramas de hojas y ramas ejecutarı́amos los
siguientes comandos
> stem(x1)
D
188
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Normal Q−Q Plot
300
250
200
150
Sample Quantiles
260
240
200
220
Sample Quantiles
280
300
350
Normal Q−Q Plot
−1.5
−0.5
0.5 1.0 1.5
Theoretical Quantiles
−1.5
−0.5
0.5 1.0 1.5
Theoretical Quantiles
Figura 5.1 Gráficos de normalidad de ambas muestras
The decimal point is 2 digit(s) to the right of the |
1
2
2
3
|
| 02344
| 557
| 01
> stem(x2)
The decimal point is 2 digit(s) to the right of the |
1
1
2
2
3
|
|
|
|
|
5799
124
56
4
Ambos tipos de gráficos sugieren asimetrı́a y, por tanto, no normalidad de
los datos. Lo razonable serı́a utilizar el segundo test no paramétrico puesto
que no requiere su normalidad.
Pero observemos que si queremos que nos haga un diagrama de cajas de
ambos conjuntos de datos para detectar datos anómalos, la homocedasticidad
contrastada al comienzo del ejercicio y la asimetrı́a, ejecutarı́amos la siguiente
D
189
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
150
200
250
300
350
Capı́tulo 5. Problemas Básicos Resueltos
1
2
Figura 5.2 Gráficos de cajas de ambas muestras
secuencia, en donde primero juntamos ambos conjuntos de datos y luego creamos unos ı́ndices para hacer la representación por grupos. Obsérvese como no
replicamos el 1 diez veces sino que ejecutamos rep(1,10).
> muestra<-c(x1,x2)
> poblaciones<-c(rep(1,10),rep(2,10))
> boxplot(muestra~poblaciones)
La Figura 5.2 ası́ obtenida, confirma la homocedasticidad ya que ambas
cajas son semejantes y la simetrı́a, pero vemos como en el segundo conjunto de datos aparece un dato anómalo que puede distorsionar el resultado lo
que sugiere utilizar tests robustos de comparación de poblaciones puesto que
los Métodos no paramétricos pueden verse muy afectados al no detectar esas
anomalı́as.
Problema 5.29
La warfarina es un medicamento anticoagulante oral que alarga el tiempo que
la sangre tarda en coagular evitando, de forma preventiva, que se produzcan
trombosis y embolias. No obstante, demasiada warfarina puede causar hemorragias graves, por lo que esta sustancia tiene un estrecho margen terapéutico y la
calibración de la dosis a administrar es un problema importante.
D
190
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Además, se piensa que la pertenencia a uno u otro grupo étnico influye en el tiempo de coagulación de este medicamento. Para analizar esta hipótesis se eligieron
al azar 18 individuos Caucásicos y 18 Asio-Americanos en los que se obtuvieron
los siguientes tiempos (en horas) de calibración de la dosis de warfarina:
Caucásicos: 2 , 4 , 6 , 7 , 8 , 9 , 10 , 10 , 12 , 14 , 16 , 19 , 21 , 24 , 26 , 30 , 35 , 44
Asio-Americanos: 2 , 2 , 3 , 3 , 4 , 5 , 5 , 6 , 6 , 6 , 7 , 7 , 8 , 9 , 10 , 12 , 19 , 32
Analizar si hay diferencias significativas entre los dos grupos étnicos en cuanto
al tiempo de calibración, mediante
a) El test de la t de Student analizando la suposición de normalidad y de homocedasticidad.
b) El test de Wilcoxon-Mann-Whitney.
a) Para ejecutar el test de la t de Student de comparación de dos poblaciones necesitamos que ambas sean de tipo normal y luego comprobar si puede
aceptarse o no que las varianzas de ambas poblaciones puedan considerarse
iguales (CB-sección 7.6). No obstante, al ser n1 ≃ n2 y n1 + n2 = 36 > 30, no
necesitamos estos requisitos para comparar las poblaciones (CB-sección 7.7)
aunque los analizaremos porque lo solicita el enunciado.
30
Normal Q−Q Plot
20
15
5
10
10
Sample Quantiles
30
20
Sample Quantiles
25
40
Normal Q−Q Plot
−2
−1
0
1
Theoretical Quantiles
2
−2
−1
0
1
2
Theoretical Quantiles
Figura 5.3 Gráficos de normalidad de ambas muestras
Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase
D
191
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
EAR-sección 5.2.1)
>
>
>
>
>
Cauca<-c(2,4,6,7,8,9,10,10,12,14,16,19,21,24,26,30,35,44)
Asiame<-c(2,2,3,3,4,5,5,6,6,6,7,7,8,9,10,12,19,32)
par(mfrow=c(1,2))
qqnorm(Cauca)
qqnorm(Asiame)
obtenemos la Figura 5.3. Ambos gráficos sugieren simetrı́a y normalidad de
los datos. De hecho, podemos ejecutar un test de Kolmogorov-Smirnov para
contrastar la hipótesis nula de que los datos de ambas poblaciones siguen
distribuciones normales. Como las medias y desviaciones tı́picas suministradas
por los datos son, ejecutando las siguientes instrucciones,
> mean(Cauca)
[1] 16.5
> sd(Cauca)
[1] 11.53129
> mean(Asiame)
[1] 8.111111
> sd(Asiame)
[1] 7.226494
es razonable contrastar si los datos de los Caucásicos se ajusta a una normal
N (16′ 5, 11′ 53) y los de los individuos Asio-Americanos a una N (8′ 11, 7′ 23).
Para ello (EAR-sección 8.3) ejecutamos las siguientes sentencias,
> ks.test(Cauca,"pnorm",16.5,11.53)
One-sample Kolmogorov-Smirnov test
data: Cauca
D = 0.158, p-value = 0.76
alternative hypothesis: two-sided
(1)
Warning message:
In ks.test(Cauca, "pnorm", 16.5, 11.53) :
cannot compute correct p-values with ties
> ks.test(Asiame,"pnorm",8.11,7.23)
One-sample Kolmogorov-Smirnov test
data: Asiame
D = 0.2302, p-value = 0.2958
alternative hypothesis: two-sided
Warning message:
In ks.test(Asiame, "pnorm", 8.11, 7.23) :
cannot compute correct p-values with ties
(2)
D
192
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
obteniéndose unos p-valores en (1) y (2) que conducen a aceptar la normalidad de ambas muestras.
Sobre la homocedasticidad, contrastaremos la hipótesis nula H0 : σ12 = σ22
frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en
el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo
cuando sea,
S12
∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ].
S22
Habı́amos obtenido más arriba que es x1 = 16′ 5 , S12 = (11′ 53)2 , x2 =
8′ 11 , S22 = (7′ 23)2 , por lo que es S12 /S22 = 132′ 94/52′ 27 = 2′ 54.
Si consideramos un nivel de significación α = 0′ 02, será, a partir de la
Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3),
qf(0.01,17,17) = 0′ 3084582 y qf(0.99,17,17) = 3′ 24193 , con lo que la
región de aceptación, a nivel α = 0′ 02, es [0′ 31 , 3′ 24] , que contendrá al valor
del estadı́stico por lo que se aceptará la hipótesis nula de ser iguales ambas
varianzas poblacionales, a ese nivel de significación.
De hecho, con R podemos obtener el p-valor ejecutando
> 2*(1-pf(2.54,17,17))
[1] 0.06267927
valor, aunque no contundente, lo suficientemente grande como para confirmar
la igualdad de las varianzas poblacionales.
Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar (3), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de
aceptación
"
S12 /S22
Fn1 −1,n2 −1; α2
,
S12 /S22
Fn1 −1,n2 −1;1− α2
#
2′ 54 2′ 54
= ′ , ′
= [0′ 78 , 8′ 19]
3 24 0 31
cociente, contiene o no al 1. La región de aceptación se observa en (4) y el
p-valor de este test, igual lógicamente al anterior, aparece en (5).
> var.test(Cauca,Asiame,conf.level=0.98)
(3)
F test to compare two variances
data: Cauca and Asiame
F = 2.5462, num df = 17, denom df = 17, p-value = 0.06201
alternative hypothesis: true ratio of variances is not equal to 1
98 percent confidence interval:
0.7854103 8.2547491
(5)
(4)
D
193
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
sample estimates:
ratio of variances
2.546245
Como dijimos al comienzo, dado que los tamaños muestrales son grandes,
el test para contrastar la igualdad de las medias poblacionales; es decir, para
contrastar la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2
será el que acepte H0 cuando y sólo cuando sea
|x1 − x2 |
s
S12 S22
+
n1
n2
≤ zα/2 .
Como es
|x1 − x2 |
s
S12 S22
+
n1
n2
=s
|16′ 5 − 8′ 11|
132′ 94 52′ 27
+
18
18
= 2′ 6153
y, a partir de la Tabla 3 de la Normal, vemos que es P {Z > 2′ 6153} < 0′ 0045,
con lo que podemos rechazar la hipótesis nula de igualdad de las medias, con
un p-valor menor que 0′ 009, es decir, con suficiente confianza.
Este test de igualdad de medias se puede resolver con R ejecutando (6)
(véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales
como iguales. Como el 0 no está incluido en la región de aceptación dada en
(7), rechazaremos la hipótesis nula de igualdad de los tiempos de calibración
en ambas razas. El p-valor 0′ 0132 aparece en (8) (aunque está calculado con
una t de Student; de ahı́ la pequeña diferencia con el calculado más arriba
utilizando la normal) y sugiere el rechazo de H0 .
> t.test(Cauca,Asiame,var.equal=T)
(6)
Two Sample t-test
data: Cauca and Asiame
t = 2.6153, df = 34, p-value = 0.01320
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.870327 14.907450
sample estimates:
mean of x mean of y
16.500000 8.111111
(8)
(7)
b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las
hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2
y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0
cuando y sólo cuando sea
D
194
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
m · n − um,n;α/2 < U < um,n;α/2
siendo U el número de valores de la segunda muestra que preceden estrictamente a cada valor fijo de la primera muestra.
Si subrayamos los valores de la segunda muestra en la siguiente unión de
ambas muestras ordenadas, en donde los de la segunda muestra que son iguales
a los de la primera los hemos situado detrás para hacer más simple el recuento,
2, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8, 8, 9, 9, 10, 10, 10
12, 12, 14, 16, 19, 19, 21, 24, 26, 30, 32, 35, 44.
Ahora, para calcular el valor de U nos fijamos en cada valor de la primera
muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la
segunda muestra (es decir, cuántos valores subrayados) le preceden. Es decir,
miramos el 2 (primer valor no subrayado) vemos que no hay ningún valor
subrayado que lo preceda, por lo que el primer sumando de U es 0. El segundo
valor no subrayado es 4, al que le preceden 4 valores subrayados, lo que hace
que el segundo valor de U sea 4, y ası́ sucesivamente; vemos que U toma el
valor,
U = 0+4+7+10+12+13+14+14+15+16+16+16+17+17+17+17+18+18 = 241.
En la determinación del punto crı́tico y el p-valor utilizaremos la aproximación normal ya que los tamaños muestrales son mayores que 5. En concreto,
si el nivel de significación es α = 0′ 02, será
um,n;α/2 = u18,18;0′ 01
18 · 18
=
+ 2′ 325
2
s
18 · 18 · (18 + 18 + 1)
= 235′ 49
12
y la región de aceptación,
(m · n − um,n;α/2 , um,n;α/2 ) = (18 · 18 − 235′ 49 , 235′ 49) = (88′ 51 , 235′ 49).
Como U = 241 no pertenece a ella, deberemos rechazar la hipótesis nula
de igualdad de ambas poblaciones, con un p-valor menor que el nivel de significación 0′ 02. En concreto, el p-valor (aproximado por utilizar la aproximación
normal) será, utilizando la cola superior, al ser el p-valor el menor nivel de
significación para el que se rechaza la hipótesis nula,
D
195
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
2 × P {U > 241} ≈ 2 × P
(
241 − 18 · 18/2
Z> p
18 · 18(18 + 18 + 1)/12
)
= 2 × P {Z > 2′ 5} = 0′ 0124
que indica rechazar con confianza la hipótesis nula de igualdad.
Para resolver este ejercicio con R, deberı́amos ejecutar (9) (EAR-sección
8.4.1) si queremos utilizar las mismas opciones que las que acabamos de emplear. Los resultados son un poco distintos porque R promedia entre los valores
iguales en el cálculo de U . No obstante, el p-valor, dado en (10), también es
indicativo del rechazo de la hipótesis nula de igualdad de ambas poblaciones.
> wilcox.test(Cauca,Asiame,exac=F,correct=F)
(9)
Wilcoxon rank sum test
data: Cauca and Asiame
W = 248, p-value = 0.00641
alternative hypothesis: true location shift is not equal to 0
(10)
Problema 5.30
El Western Collaborative Group Study fue un estudio epidemiológico de gran
tamaño (véase Rosenman et al., 1964) diseñado para investigar la asociación
del denominado en el estudio “tipo A” de comportamiento y las enfermedades
coronarias. Una parte de ese estudio aparece en el fichero WCGS2.txt en el que
se recogen los valores observados en 3154 personas de las variables Peso Corporal
en libras (Peso) y Presión Sanguı́nea Sistólica en mmHg (PSS). Se pide,
a) Determinar la recta de mı́nimos cuadrados en donde figure como variable
dependiente PSS. ¿Qué presión sistólica cabrı́a esperar en una persona de 73
kilos?
b) Contrastar si la recta determinada en el apartado anterior es significativa para
explicar la regresión lineal entre ambas variables y analizar la normalidad de los
residuos.
Resolveremos el problema con R. Para ello, primero deberemos incorporar
los datos ejecutando (1).
> WCGS2<-read.table("a:\\WCGS2.txt",header=T)
(1)
a) La recta de mı́nimos cuadrados la obtenemos ejecutado (4). Antes hemos extraı́do de los datos las dos variables de la regresión ejecutando (2) y
(3) de una manera equivalente a utilizar el número de la columna.
>
>
>
>
x<-WCGS2[,c("Peso")]
y<-WCGS2[,c("PSS")]
resultado<-lm(y~x)
resultado
(2)
(3)
(4)
D
196
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept)
97.7888
x
0.1815
La recta buscada será, por tanto,
y
100
120
140
160
180
200
220
PSS = 97′ 789 + 0′ 1815 Peso
100
150
200
250
300
x
Figura 5.4 Nube de puntos y recta ajustada
Como 73 kilos son 160′ 937 libras, la presión sistólica esperada en una persona de 73 kilos serı́a
PSS—73 = 97′ 789 + 0′ 1815 · 160′ 937 = 127
es decir, la que solemos medir como 12′ 7.
b) Para contrastar si la recta de regresión obtenida es significativa para
explicar y predecir la variable dependiente en función de la independiente, es
decir, si por ejemplo la predicción 11′ 1 es fiable, contrastaremos la hipótesis
nula H0 :las variables Peso y PSS no están relacionadas linealmente, frente
D
197
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
a la alternativa H1 de que sı́ lo están, deberemos formar la tabla de Análisis de la Varianza para la Regresión, CB-sección 9.3.1. Con R la obtenemos
inmediatamente ejecutando (5), o ejecutando >anova(resultado).
1000
Histogram of resid(resultado)
600
400
0
200
Frequency
40
20
−20
0
Sample Quantiles
60
800
80
100
Normal Q−Q Plot
−2
0
2
−20
Theoretical Quantiles
0
20
40
60
80 100
resid(resultado)
Figura 5.5 Gráfico de normalidad e Histograma de los residuos
> summary(resultado)
(5)
Call:
lm(formula = y ~ x)
Residuals:
Min
1Q
-29.549 -10.097
Median
-2.456
3Q
7.724
Max
99.544
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 97.78884
2.11473
46.24
<2e-16 ***
x
0.18148
0.01235
14.70
<2e-16 ***
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 14.63 on 3152 degrees of freedom
(6)
D
198
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Multiple R-squared: 0.06414,
Adjusted R-squared: 0.06384
F-statistic:
216 on 1 and 3152 DF, p-value: < 2.2e-16
0.000
0.005
0.010
0.015
Histogram of x
Density
0.015
0.000
0.005
0.010
Density
0.020
0.025
Histogram of y
100
140
180
y
220
50
100
150
200
250
300
x
Figura 5.6 Histogramas de PSS y Peso
El p-valor observado en (6) indica que se rechace la hipótesis nula planteada y que se concluya con que la recta de regresión determinada es válida para
explicar la regresión lineal. No obstante, el gráfico de la nube de puntos y la
recta ajustada, dados por la Figura 5.4 y obtenidos ejecutando los comandos
> plot(x,y,pch=16,col=2)
> abline(resultado,col=4)
parece indicarnos que hay demasiados puntos como para que la regresión sea
válida. Hay que tomarla con mucho cuidado. De hecho, el coeficiente de correlación lineal de Pearson es bajı́simo, r = 0′ 253, lo que de nuevo manifiesta
precauciones en las conclusiones.
> cor(x,y)
[1] 0.2532496
Por último, la normalidad de los residuos la podemos analizar ejecutando
los siguientes comandos que proporcionan la Figura 5.5
D
199
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
> par(mfrow=c(1,2))
> qqnorm(resid(resultado))
> hist(resid(resultado))
los cuales indican una asimetrı́a a la derecha y, en consecuencia, una no normalidad de los datos. De hecho, si representamos los histogramas de ambas
variables, vemos en la Figura 5.6 que la variable PSS es muy asimétrica a la
derecha. El Peso sı́ parece de tipo normal.
Problema 5.31
Los datos del fichero pesos.txt son parte de un estudio realizado en el Baystate
Medical Center, Springfield, Mass (Estados Unidos) durante 1986, sobre el peso
y raza de 189 recién nacidos, (Hosmer y Lemeshow, 1989). Las dos variables
consideradas en la matriz de datos son Raza y Peso en gramos del recién nacido.
La Raza toma los valores 1 en el caso de raza blanca, 2 en el caso de raza negra
y 3 en el caso de otra raza.
Analizar si hay diferencias significativas en el peso de los recién nacidos de raza
blanca y de raza negra, mediante
a) El test de la t de Student, analizando la suposición de normalidad y de homocedasticidad.
b) El test de Wilcoxon-Mann-Whitney.
c) Contrastar si hay diferencias significativas entre las tres razas con respecto
al peso de los recién nacidos, analizando las suposiciones requeridas por el test
utilizado. Si las hubiera, considerar la posibilidad de no existencia de diferencias
significativas entre pares de grupos de razas.
Resolveremos el problema con R. Para ello, primero deberemos incorporar
los datos ejecutando (1),
> Pesos<-read.table("a:\\pesos.txt",header=T)
(1)
Ahora extraemos los datos de las tres variables en consideración mediante
(2)
>
>
>
>
attach(Pesos)
Negros<- Pesos[raza >= 2 & raza <3,]
Blancos<- Pesos[raza <= 1,]
Otros<- Pesos[raza >= 3,]
(2)
(2)
(2)
y luego los convertimos en vectores mediante (3)
> Negros<- Negros[,2]
> Blancos<- Blancos[,2]
> Otros<- Otros[,2]
(3)
(3)
(3)
a) Para ejecutar el test de la t de Student de comparación de dos poblaciones necesitamos que ambas sean de tipo normal y luego comprobar si puede
D
200
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
aceptarse o no que las varianzas de ambas poblaciones puedan considerarse
iguales (CB-sección 7.6) ya que, aunque n1 + n2 = 96 + 26 = 122 > 30, no
es n1 ≃ n2 y no se pueden utilizar las fórmulas para muestras grandes de
CB-sección 7.7.
Normal Q−Q Plot
1000
3000
2500
2000
1500
Sample Quantiles
3000
2000
Sample Quantiles
4000
3500
5000
Normal Q−Q Plot
−2
−1
0
1
Theoretical Quantiles
2
−2
−1
0
1
2
Theoretical Quantiles
Figura 5.7 Gráficos de normalidad de ambas muestras
Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase
EAR-sección 5.2.1)
> par(mfrow=c(1,2))
> qqnorm(Blancos)
> qqnorm(Negros)
obtenemos la Figura 5.7. Ambos gráficos sugieren simetrı́a y normalidad de
los datos. De hecho, podemos ejecutar un test de Kolmogorov-Smirnov para
contrastar la hipótesis nula de que los datos de ambas poblaciones siguen
distribuciones normales. Como las medias y desviaciones tı́picas suministradas
por los datos son, ejecutando las siguientes instrucciones,
> mean(Blancos)
[1] 3102.719
> sd(Blancos)
[1] 727.8861
D
201
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
> mean(Negros)
[1] 2719.692
> sd(Negros)
[1] 638.6839
es razonable contrastar si los datos de los Blancos se ajusta a una normal
N (3102′ 72, 727′ 89) y los Negros a una N (2719′ 69, 638′ 68). Para ello (EARsección 8.3) ejecutamos las siguientes sentencias,
> ks.test(Blancos,"pnorm",3102.72,727.89)
One-sample Kolmogorov-Smirnov test
data: Blancos
D = 0.0904, p-value = 0.4129
(4)
alternative hypothesis: two-sided
Warning message:
In ks.test(Blancos, "pnorm", 3102.72, 727.89) :
cannot compute correct p-values with ties
> ks.test(Negros,"pnorm",2719.69,638.68)
One-sample Kolmogorov-Smirnov test
data: Negros
D = 0.1231, p-value = 0.8256
(4)
alternative hypothesis: two-sided
Warning message:
In ks.test(Negros, "pnorm", 2719.69, 638.68) :
cannot compute correct p-values with ties
obteniéndose dos p-valores en (4) que conducen a aceptar la normalidad de
ambas muestras.
Sobre la homocedasticidad, contrastaremos la hipótesis nula H0 : σ12 = σ22
frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en
el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo
cuando sea,
S12
∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ].
S22
Habı́amos obtenido más arriba que es S12 = (727′ 89)2 y S22 = (638′ 68)2 ,
por lo que es S12 /S22 = 1′ 29887.
D
202
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Si consideramos un nivel de significación α = 0′ 2, será, a partir de la Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3),
qf(0.1,96,26) = 0′ 69 y qf(0.9,96,26) = 1′ 553 , con lo que la región de
aceptación, a nivel α = 0′ 2, es [0′ 69 , 1′ 553] , que contendrá al valor del estadı́stico por lo que se aceptará la hipótesis nula de ser iguales ambas varianzas
poblacionales, a ese nivel de significación, por lo que el p-valor es mayor que
él, es decir, mayor que 0′ 2, suficientemente grande como para confirmar la
homocedasticidad. De hecho, con R podemos obtener el p-valor ejecutando
> 2*(1-pf(1.29887,96,26))
[1] 0.452511
Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar (5), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de
aceptación
"
S12 /S22
Fn1 −1,n2 −1; α2
,
S12 /S22
Fn1 −1,n2 −1;1− α2
#
2′ 54 2′ 54
= ′ , ′
= [0′ 78 , 8′ 19]
3 24 0 31
contiene o no al 1. La región de aceptación se observa en (7) y el p-valor de
este test, igual lógicamente al anterior, aparece en (6).
> var.test(Blancos,Negros,conf.level=0.8)
(5)
F test to compare two variances
data: Blancos and Negros
F = 1.2988, num df = 95, denom df = 25, p-value = 0.4621
alternative hypothesis: true ratio of variances is not equal to 1
80 percent confidence interval:
0.8289426 1.8921445
sample estimates:
ratio of variances
1.298838
(6)
(7)
Una vez verificadas las suposiciones necesarias para poder ejecutar el test
de la t de Student en el caso que nos ocupa de muestras pequeñas, (CB-sección
7.6), al poder considerar las varianzas poblacionales como iguales, se acepta
la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 cuando y
sólo cuando sea
D
203
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
• Se acepta H0 si
s
• Se rechaza H0 si
s
(n1 −
1)S12
(n1 −
1)S12
|x1 − x2 |
+ (n2 − 1)S22
n1 + n2 − 2
|x1 − x2 |
+ (n2 − 1)S22
n1 + n2 − 2
s
1
1
+
n1 n2
s
1
1
+
n1 n2
≤ tn1 +n2 −2;α/2
> tn1 +n2 −2;α/2
Como es
s
|x1 − x2 |
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
s
1
1
+
n1 n2
=s
|3102′ 72 − 2719′ 69|
95
· 727′ 892
+ 25 ·
120
638′ 682
r
1
1
+
96 26
el p-valor será
p-valor = 2 · P {t120 > 2′ 439364}
y, a partir de la Tabla 5 de la t de Student, es
P {t120 > 2′ 617} < P {t120 > 2′ 439364} < P {t120 > 2′ 358}
es decir,
0′ 005 < P {t120 > 2′ 439364} < 0′ 01.
Con lo que el p-valor será
0′ 01 < p-valor < 0′ 02
suficientemente pequeño como para concluir que existen diferencias significativas entre el peso de los bebés blancos y el de los bebés negros.
Este test de igualdad de medias se puede resolver con R ejecutando (8)
(véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales
como iguales. Como el 0 no está incluido en la región de aceptación dada en
(9), rechazaremos la hipótesis nula de igualdad de los pesos medios de los
recién nacidos de ambas razas. El p-valor 0′ 01618 aparece en (10) y sugiere
el rechazo de H0 .
= 2′ 439364
D
204
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
> t.test(Blancos,Negros,var.equal=T)
(8)
Two Sample t-test
data: Blancos and Negros
t = 2.4393, df = 120, p-value = 0.01618
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
72.13796 693.91493
sample estimates:
mean of x mean of y
3102.719 2719.692
(10)
(9)
b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las
hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2
y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0
cuando y sólo cuando sea
m · n − um,n;α/2 < U < um,n;α/2
siendo U el número de valores de la segunda muestra que preceden estrictamente a cada valor fijo de la primera muestra.
Dado que los tamaños muestrales son muy grandes, el subrayar los valores
de la segunda muestra que preceden a los de la primera para determinar manualmente el valor de U resulta muy complejo. Por ello utilizaremos R en la
resolución. Para ello ejecutamos (11) (EAR-sección 8.4.1). El p-valor, dado en
(12), es muy parecido al obtenido en el caso paramétrico, sugiriendo también
el rechazo de la hipótesis nula de igualdad de ambas poblaciones.
> wilcox.test(Blancos,Negros,exac=F,correct=F)
Wilcoxon rank sum test
data: Blancos and Negros
W = 1632, p-value = 0.01635
alternative hypothesis: true location shift is not equal to 0
(11)
(12)
c) Para analizar si hay o no diferencias significativas en los pesos de las
tres razas, contrastaremos la hipótesis nula H0 : µBlancos = µN egros = µOtros
frente a la alternativa de no ser todas iguales mediante un Análisis de la
Varianza para un factor y un diseño completamente aleatorizado (CB-sección
8.2).
Para obtener la tabla de Análisis de la Varianza necesitaremos un objeto del tipo Factor que creamos en (13). La tabla ANOVA la obtenemos a
continuación.
> Npesos<-c(Blancos,Negros,Otros)
> Razas<-factor(rep(LETTERS[1:3],c(96,26,67)))
(13)
(13)
D
205
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
> Datos<-data.frame(Razas,Npesos)
(13)
> tabla<-aov(Npesos~Razas)
> summary(tabla)
Df
Sum Sq Mean Sq F value
Pr(>F)
Razas
2 5015725 2507863 4.9125 0.008336 **
Residuals
186 94953931
510505
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(14)
El p-valor del test, que aparece en (14), indicando claramente el rechazo
de la hipótesis nula de igualdad de los pesos medios de las tres razas.
Para poder realizar un ANOVA, las poblaciones a comparar deben seguir
un modelo normal y además debe verificarse la suposición de homocedasticidad, es decir, que todas ellas deben tener la misma varianza. El análisis teórico
de estas cuestiones se analizó en CB-capı́tulo 14.
Normal Q−Q Plot
4000
Normal Q−Q Plot
1000
3500
3000
2500
Sample Quantiles
2000
2500
Sample Quantiles
1500
−2
−1
0
1
Theoretical Quantiles
2
1000
1500
2000
2000
3000
Sample Quantiles
3000
4000
3500
5000
Normal Q−Q Plot
−2
−1
0
1
2
−2
Theoretical Quantiles
−1
0
1
2
Theoretical Quantiles
Figura 5.8 : Gráficos de normalidad
El Análisis de la Normalidad de unos datos (CB-sección 14.4) se puede efectuar gráficamente con ayuda del Gráfico de normalidad (CB-sección 14.4.1),
el cual se pueden obtener fácilmente con R gracias a la función qqnorm, y con
la ayuda del Diagrama de hojas y ramas (CB-sección 14.2) obtenido con la
función stem.
D
206
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Ası́, después de abrir una ventana de tres gráficos en (15), hacemos los
gráficos de normalidad para las tres variables, cuya representación obtenemos
en la Figura 5.8. Se ve que los datos se sitúan aproximadamente en la diagonal
del gráfico, lo que sugiere que se puede admitir para ellos una distribución normal. Los gráficos de hojas y ramas, obtenidos tras ejecutar (16), lo confirman.
>
>
>
>
par(mfrow=c(1,3))
qqnorm(Blancos,pch=16)
qqnorm(Negros,pch=16)
qqnorm(Otros,pch=16)
> stem(Blancos)
(15)
(16)
The decimal point is 3 digit(s) to the right of the |
1
1
2
2
3
3
4
4
5
|
|
|
|
|
|
|
|
|
0
889999
1111223444444
55566667788888899999
00000111111111233444
55566666667777778888999999
00112222
6
0
> stem(Negros)
(16)
The decimal point is 3 digit(s) to the right of the |
1
1
2
2
3
3
|
|
|
|
|
|
1
79
1234444
5589999
0013444
89
> stem(Otros)
(16)
The decimal point is 3 digit(s) to the right of the |
0
1
1
2
2
3
3
4
|
|
|
|
|
|
|
|
7
3
566799
0111222333444
555566677888899
111222222222333333
5556668899
001
El Análisis de la homocedasticidad se puede hacer gráficamente mediante
D
207
1000
2000
3000
4000
5000
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
A
B
C
Figura 5.9 : Gráfico de cajas
un Gráfico de cajas (CB-sección 14.5.1), obtenido con la función boxplot,
obtenido ejecutando ejecutando (17) y que aparece en la Figura 5.9. En él
se ve que las cajas son bastante semejantes, es decir, que puede considerarse
razonable admitir una varianza común.
También se puede analizar la homocedasticidad mediante el test de Bartlett
(CB-sección 14.5.2) de la hipótesis nula de igualdad de las varianzas, ejecutado con la función de R, bartlett.test, como hacemos en (18). El p-valor
de dicho test, dado en (19), es bastante concluyente en la aceptación de la
hipótesis nula de igualdad de las varianzas.
> boxplot(Npesos~Razas)
> bartlett.test(Npesos~Razas)
(17)
(18)
Bartlett test of homogeneity of variances
data: Npesos by Razas
Bartlett’s K-squared = 0.6595, df = 2, p-value = 0.7191
(19)
Como estudiamos en CB-sección 8.2.1, una vez rechazada la hipótesis nula
de igualdad de las medias de las poblaciones a comparar, parece razonable
analizar si existen grupos de tratamientos sin diferencias significativas. Para resolver este problema con R ejecutaremos el Contraste de Tukey HSD
allı́ analizado, utilizando la función TukeyHSD, (EAR-sección 5.2.2). Para ello,
ejecutamos (20)
D
208
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
> TukeyHSD(tabla)
(20)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = Npesos ~ Razas)
$Razas
diff
lwr
upr
p adj
B-A -383.02644 -756.2363 -9.816581 0.0428037
C-A -297.43517 -566.1652 -28.705095 0.0260124
C-B
85.59127 -304.4521 475.634630 0.8624372
Los intervalos (regiones de aceptación) obtenidos, cuyo extremo inferior
está encabezado con lwr y el superior con upr, que contengan al cero implicarán la igualdad de los efectos medios cuyas letras aparecen al comienzo de
la lı́nea. Esto sólo le ocurre el tercer intervalo [−304′ 45 , 475′ 63] el cual, al
contener al cero, implica la igualdad de los efectos medios de los tratamiento
C-B. De esta manera vemos que podemos considerar dos clases de tratamientos
equivalentes: el {A} y el {B, C}. La última columna nos da los p-valores de los
tests, los cuales confirman la clasificación anterior. Obsérvese que el p-valor de
comparar la raza blanca con la negra es distinto del obtenido en el apartado
(a) debido a que los tests son distintos.
Problema 5.32
En un artı́culo del 27 de Mayo de 2001 del diario “The Arizona Republic”, aparecen los datos de las concentraciones de arsénico en partes por billón (americano)
en el agua potable de 10 barrios de Phoenix, capital del estado norteamericano
de Arizona (columna izquierda de la tabla), y de 10 zonas rurales de dicho estado
(columna derecha de la tabla). Los datos fueron los siguientes:
Phoenix Centro
Chandler
Gilbert
Glendale
Mesa
Paradise Valley
Peoria
Scottsdale
Sun City
Tempe
3
7
25
10
15
6
12
25
7
15
Rimrock
Goodyear
New River
Apache Junction
Buckeye
Nogales
Black Canyon City
Sedona
Casa Grande
Payson
48
44
40
38
33
21
20
12
18
1
Se pide:
a) Analizar la igualdad de las varianzas poblacionales.
b) Supuesto que las varianzas poblacionales pueden considerarse iguales, analizar
si existen diferencias significativas entre ambos grupos mediante un test de la t
de Student.
D
209
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
Como resolveremos también el ejercicio con R, comencemos incluyendo los
datos y obteniendo las medias y cuasivarianzas muestrales,
ciudad<-c(3,7,25,10,15,6,12,25,7,15)
campo<-c(48,44,40,38,33,21,20,12,18,1)
> mean(ciudad)
[1] 12.5
> var(ciudad)
[1] 58.27778
> mean(campo)
[1] 27.5
> var(campo)
[1] 235.6111
Con lo que será x1 = 12′ 5, S12 = 58′ 3 y x2 = 27′ 5, S22 = 235′ 6.
a) Para ejecutar el test de la t de Student de comparación de dos poblaciones necesitamos comprobar antes si puede aceptarse o no que las varianzas
de ambas poblaciones puedan considerarse iguales (CB-sección 7.6) ya que
los tamaños muestrales son pequeños. Es decir, debemos contrastar antes la
hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección
7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta
hipótesis nula cuando y sólo cuando sea,
S12
∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ].
S22
El estadı́stico toma el valor S12 /S22 = 0′ 247. Si consideramos un nivel de
significación α = 0′ 05, será, a partir de la Tabla 6 de la F de Snedecor, o
directamente utilizando R (EAR-sección 3.5.3), Fn1 −1,n2 −1;1− α2 = F9,9;0′ 975 =
1/F9,9;0′ 025 = 1/4′ 026 = 0′ 248 = qf(0.025,9,9) y Fn1 −1,n2 −1; α2 = F9,9;0′ 025 =
4′ 026 = qf(0.975,9,9), con lo que la región de aceptación, a nivel α = 0′ 05,
es [0′ 248 , 4′ 026] , que no contiene el valor del estadı́stico pero por muy poco
y con este nivel de significación que no es definitivo.
Utilizando R podemos ejecutar este test con (1), (EAR-sección 4.2.3),
observando que aquı́ se analiza si la región de aceptación
"
S12 /S22
Fn1 −1,n2 −1; α2
,
S12 /S22
Fn1 −1,n2 −1;1− α2
#
=
0′ 247 0′ 247
,
= [0′ 061 , 0′ 996]
4′ 026 0′ 248
contiene o no al 1. La región de aceptación se observa en (2) y el p-valor de
este test aparece en (3).
> var.test(ciudad,campo)
(1)
D
210
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
F test to compare two variances
data: ciudad and campo
F = 0.2473, num df = 9, denom df = 9, p-value = 0.04936
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.06143758 0.99581888
sample estimates:
ratio of variances
0.2473473
(3)
(2)
Como dijimos antes, este test no es nada concluyente.
b) Suponiendo que puede aceptarse que ambas varianzas poblacionales
son iguales, se acepta la hipótesis nula H0 : µ1 = µ2 frente a la alternativa
H1 : µ1 6= µ2 cuando y sólo cuando sea
• Se acepta H0 si
s
• Se rechaza H0 si
s
|x1 − x2 |
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
(n1 −
1)S12
|x1 − x2 |
+ (n2 − 1)S22
n1 + n2 − 2
s
1
1
+
n1 n2
s
1
1
+
n1 n2
≤ tn1 +n2 −2;α/2
> tn1 +n2 −2;α/2
Como es
s
(n1 −
1)S12
|x1 − x2 |
+ (n2 −
n1 + n2 − 2
1)S22
s
1
1
+
n1 n2
=s
|12′ 5 − 27′ 5|
9·
58′ 3 +
9
18
· 235′ 6
r
el p-valor será
p-valor = 2 · P {t18 > 2′ 7669}
y, a partir de la Tabla 5 de la t de Student, es
P {t18 > 2′ 878} < P {t18 > 2′ 7669} < P {t18 > 2′ 552}
es decir,
= 2′ 7669
1
1
+
10 10
D
211
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 5. Problemas Básicos Resueltos
0′ 005 < P {t120 > 2′ 7669} < 0′ 01.
Con lo que el p-valor será
0′ 01 < p-valor < 0′ 02
suficientemente pequeño como para concluir que existen diferencias significativas en la contaminación de los dos grupos.
Este test de igualdad de medias se puede resolver con R ejecutando (4)
(véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales
como iguales. Como el 0 no está incluido en la región de aceptación dada en
(5), rechazaremos la hipótesis nula de igualdad de los dos grupos. El p-valor
0′ 0127 aparece en (6) y sugiere el rechazo de H0 .
Por tanto, existe suficiente evidencia para concluir que la concentración
media de arsénico en el agua potable en las zonas rurales de Arizona es distinta
(y mayor) que en su capital Phoenix.
> t.test(ciudad,campo,var.equal=T)
(4)
Two Sample t-test
data: ciudad and campo
t = -2.7669, df = 18, p-value = 0.01270
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-26.389418 -3.610582
sample estimates:
mean of x mean of y
12.5
27.5
(6)
(5)
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
212
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6
Problemas Avanzados
Resueltos
Problema 6.1
Con objeto de analizar la posible relación de dependencia que pudiera existir entre tres variables, Edad, Sexo y Consumo de Fármacos Psicóticos, se realizó una
encuesta a 5833 londinenses (Murray et al., 1981) clasificándose a los encuestados
según la siguiente tabla,
Entre 16 y 29 años
Sı́ toma medicamentos
No toma medicamentos
Hombre
21
683
Mujer
46
738
Hombre
32
596
Mujer
89
700
Hombre
70
705
Mujer
169
847
Hombre
43
295
Mujer
98
336
Hombre
19
99
Mujer
51
196
Entre 30 y 44 años
Sı́ toma medicamentos
No toma medicamentos
Entre 45 y 64 años
Sı́ toma medicamentos
No toma medicamentos
Entre 65 y 74 años
Sı́ toma medicamentos
No toma medicamentos
Más de 74 años
Sı́ toma medicamentos
No toma medicamentos
213
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
214
Analizar dicha posible relación mediante un modelo log-lineal.
Primero vamos a incorporar los datos (que están en el fichero psico) en
formato estructura de datos (data frame). Para ello utilizaremos en (1), la
función read.table que lee los datos y crea dicho formato. En (2) comprobamos que lo ha ejecutado bien,
> psico<-read.table("a:\\psico",header=T)
> psico
Toma1 Toma2 Edad1 Edad2 Edad3 Edad4 Edad5 Sexo1 Sexo2 Frecu
1
1
0
1
0
0
0
0
1
0
21
2
1
0
1
0
0
0
0
0
1
46
3
0
1
1
0
0
0
0
1
0
683
4
0
1
1
0
0
0
0
0
1
738
5
1
0
0
1
0
0
0
1
0
32
6
1
0
0
1
0
0
0
0
1
89
7
0
1
0
1
0
0
0
1
0
596
8
0
1
0
1
0
0
0
0
1
700
9
1
0
0
0
1
0
0
1
0
70
10
1
0
0
0
1
0
0
0
1
169
11
0
1
0
0
1
0
0
1
0
705
12
0
1
0
0
1
0
0
0
1
847
13
1
0
0
0
0
1
0
1
0
43
14
1
0
0
0
0
1
0
0
1
98
15
0
1
0
0
0
1
0
1
0
295
16
0
1
0
0
0
1
0
0
1
336
17
1
0
0
0
0
0
1
1
0
19
18
1
0
0
0
0
0
1
0
1
51
19
0
1
0
0
0
0
1
1
0
99
20
0
1
0
0
0
0
1
0
1
196
(1)
(2)
Ahora vamos a analizar cuántos modelos log-lineales puede ser aceptados,
en principio, antes de utilizar los tests condicionales para modelos anidados
con los determinaremos, de entre éstos, el modelo con el que finalemente nos
quedaremos.
Como sabemos, al tratar con variable de tipo cualitativo, debemos expresar nuestro modelo con variables indicadoras, tantas como clases presente la
variable indicadora menos una. Ası́, expresaremos la variable dicotómica de la
Toma o no de medicamentos psicóticos con una de las dos indicadoras Toma1
o Toma2; hemos elegido la segunda. Expresaremos también el modelo para
Edad con cuatro de las cinco variables indicadoras que genera (en este caso
las cuatro últimas), y finalmente Sexo con Sexo2.
Como sabemos por el texto TA-Sección 8.6, utilizaremos en el análisis de
los modelos log-lineales la función de Rmo glm.
Comencemos al análisis con el modelo que no tiene interacciones entre las
variables (3 Independencias Condicionadas) ejecutando (3), obteniendo en
D
215
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6. Problemas Avanzados Resueltos
(4) los grados de libertad de la χ2 (13 grados) y en (5) el valor del estadı́stico
deviance G2 = 245′ 7
> glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2,family=poisson,data=psico)
(3)
Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 +
Edad5 + Sexo2, family = poisson, data = psico)
Coefficients:
(Interc)
Toma2
4.26989 2.09711
Edad2
-0.04889
Edad3
0.18534
Edad4
-0.65620
Degrees of Freedom: 19 Total (i.e. Null);
Null Deviance:
5716
Residual Deviance: 245.7
(5)
Edad5
-1.40529
Sexo2
0.24361
(6)
(4)
13 Residual
AIC: 396.7
Las estimaciones de los coeficientes de regresión, dadas en (6), no tienen aquı́ ningún interés; de hecho, se suele denominar a dichos coeficientes
parámetros de ruido.
Por último, el p-valor del test se obtiene ejecutando (7) (probabilidad
cola de una χ2 , utilizando la función 1-pchisq, con 13 grados de libertad, su
segundo argumento, a la derecha del valor del estadı́stico de contraste, 245,7,
su primer argumento), observando en (8) que debemos rechazar el modelo
con solamente los efectos simples de las tres variables Edad, Toma/No Toma
y Sexo, al ser el p-valor cero.
> 1-pchisq(245.7,13)
[1] 0
(7)
(8)
Los otros modelos que incluyen las interacciones por pares y la interacción
de las tres variables, se contrastan a continuación. (Obsérvese que hay que
ejecutar dos instrucciones para cada modelo.)
Hemos subrayado, para cada modelo, los grados de libertad de la χ2 , el
valor del estadı́stico de contraste y el p-valor.
Por último, apuntemos que para incluir los efectos de la interacción entre
variables, es necesario cruzar todas (menos una) las variables auxiliares de las
variables respecto de las cuales queramos incluir su interacción.
2 Independencias condicionadas
s,t,e,st
> glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Sexo2,
+ family=poisson,data=psico)
D
216
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 +
Edad5 + Sexo2 + Toma2 * Sexo2, family = poisson, data = psico)
Coefficients:
(Inter)
Toma2
Edad2
3.85426 2.55366 -0.04889
Toma2.Sexo2
-0.72612
Edad3
Edad4
Edad5
0.18534 -0.65620 -1.40529
Degrees of Freedom: 19 Total (i.e. Null);
Null Deviance:
5716
Residual Deviance: 178.3
-------
Sexo2
0.89554
12 Residual
----
AIC: 331.3
> 1-pchisq(178.3,12)
[1] 0
---
Por tanto, este modelo se rechaza.
s,t,e,te
> glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+
+ Toma2*Edad3+Toma2*Edad4+Toma2*Edad5,family=poisson,data=psico)
Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 +
Edad5 +
Sexo2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 +
Toma2 *
Edad5, family = poisson, data = psico)
Coefficients:
(Interc)
Toma2
Edad2
3.3823 3.0544 0.5911
Toma2.Edad2 Toma2.Edad3
-0.6832
-1.1836
Edad3
Edad4
Edad5
Sexo2
1.2718 0.7441 0.0438 0.2436
Toma2.Edad4 Toma2.Edad5
-1.5559
-1.6159
Degrees of Freedom: 19 Total (i.e. Null);
Null Deviance:
5716
Residual Deviance: 89.74
------
9 Residual
---
AIC: 248.7
> 1-pchisq(89.74,9)
[1] 1.887379e-15
--------------
Por tanto, este modelo se rechaza.
s,t,e,se
> glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Sexo2*Edad2+
+ Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico)
D
217
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6. Problemas Avanzados Resueltos
Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 +
Edad5 + Sexo2 + Sexo2 * Edad2 + Sexo2 * Edad3 + Sexo2 * Edad4 +
Sexo2 * Edad5, family = poisson, data = psico)
Coefficients:
(Interc)
Toma2§§§ Edad2§
Edad3
Edad4
Edad5
4.34383 2.09711 -0.11424 0.09608 -0.73373 -1.78609
Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2
0.12060
0.16313
0.14237
0.63107
Degrees of Freedom: 19 Total (i.e. Null);
Null Deviance:
5716
Residual Deviance: 217.9
-------
Sexo2
0.10763
9 Residual
---
AIC: 376.8
> 1-pchisq(217.9,9)
[1] 0
---
Por tanto, este modelo se rechaza.
1 Independencia condicionada
s,t,e,st,te
> glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Sexo2*Toma2+Toma2*Edad2+
+ Toma2*Edad3+Toma2*Edad4+Toma2*Edad5,family=poisson,data=psico)
Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 +
Sexo2 + Sexo2 * Toma2 + Toma2 * Edad2 + Toma2 * Edad3 +
Toma2 * Edad4 + Toma2 * Edad5, family = poisson, data = psico)
Coefficients:
(Inter)
Toma2
Edad2
Edad3
Edad4
Edad5
Sexo2
2.9667 3.5110 0.5911 1.2718 0.7441 0.0438 0.8955
Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 Toma2.Sexo2
-0.6832
-1.1836
-1.5559
-1.6159
-0.7261
Degrees of Freedom: 19 Total (i.e. Null);
Null Deviance:
5716
Residual Deviance: 22.36
-------
AIC: 183.3
> 1-pchisq(22.36,8)
[1] 0.004290856
----------------
Por tanto, este modelo se rechaza.
8 Residual
---
D
218
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
s,t,e,st,se
> glm(Frecu ~Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Sexo2*Toma2+Sexo2*Edad2+
+ Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico)
Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 +
Edad5 + Sexo2 + Sexo2 * Toma2 + Sexo2 * Edad2 + Sexo2 * Edad3 +
Sexo2 * Edad4 + Sexo2 * Edad5, family = poisson, data = psico)
Coefficients:
(Inter)
Toma2
Edad2
Edad3
Edad4
Edad5
Sexo2
3.92820 2.55366 -0.11424 0.09608 -0.73373 -1.78609 0.75956
Toma2.Sexo2 Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2
-0.72612
0.12060
0.16313
0.14237
0.63107
Degrees of Freedom: 19 Total (i.e. Null);
Null Deviance:
5716
Residual Deviance: 150.5
-------
8 Residual
--
AIC: 311.5
> 1-pchisq(150.5,8)
[1] 0
---
Por tanto, este modelo se rechaza.
s,t,e,te,se
> glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+
+ Toma2*Edad3+Toma2*Edad4+Toma2*Edad5+Sexo2*Edad2+Sexo2*Edad3+
+ Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico)
Call: glm(formula = Frecu ~ Toma2 +
Edad5 + Sexo2 + Toma2 * Edad2 + Toma2
Toma2 * Edad5 + Sexo2 * Edad2 + Sexo2
Sexo2 * Edad5, family = poisson, data
Edad2 + Edad3 + Edad4 +
* Edad3 + Toma2 * Edad4 +
* Edad3 + Sexo2 * Edad4 +
= psico)
Coefficients:
(Inter) Toma2
Edad2
Edad3
Edad4
Edad5
Sexo2
3.4563 3.0544 0.5258 1.1825
0.6665 -0.3370 0.1076
Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5
-0.6832
-1.1836
-1.5559
-1.6159
Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2
0.1206
0.1631
0.1424 0.6311
Degrees of Freedom: 19 Total (i.e. Null);
Null Deviance:
5716
Residual Deviance: 61.92
-------
AIC: 228.9
5 Residual
---
D
219
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6. Problemas Avanzados Resueltos
> 1-pchisq(61.92,5)
[1] 4.871659e-12
--------------
Por tanto, este modelo se rechaza.
0 Independencias condicionadas
s,t,e,se,st,te
> glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+
+ Toma2*Edad3+ Toma2*Edad4+Toma2*Edad5+Toma2*Sexo2+Sexo2*Edad2+
+ Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico)
Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 +
Edad5 + Sexo2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 +
Toma2 * Edad5 + Toma2 * Sexo2 + Sexo2 * Edad2 + Sexo2 * Edad3 +
Sexo2 * Edad4 + Sexo2 * Edad5, family = poisson, data = psico)
Coefficients:
(Inter)
Toma2
Edad2
Edad3
Edad4
Edad5
Sexo2
3.05302 3.47321 0.52535 1.19807 0.70810 -0.35652 0.77172
Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 Toma2.Sexo2
-0.66776
-1.16636
-1.54735
-1.53331
-0.69376
Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2
0.05216
0.54224
0.09474
0.10602
Degrees of Freedom: 19 Total (i.e. Null);
4 Residual
---
Null Deviance:
5716
Residual Deviance: 2.3 AIC: 171.3
---> 1-pchisq(2.3,4)
[1] 0.680769
----------
Por tanto, este modelo se acepta.
s,t,e,se,st,te,ste (Modelo saturado)
>
+
+
+
glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+
Toma2*Edad3+Toma2*Edad4+Toma2*Edad5+Toma2*Sexo2+Sexo2*Edad2+
Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5+Sexo2*Toma2*Edad2+Sexo2*Toma2*Edad3+
Sexo2*Toma2*Edad4+Sexo2*Toma2*Edad5,family=poisson,data=psico)
Call:
Edad5
Toma2
Sexo2
Toma2
glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 +
+ Sexo2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 +
* Edad5 + Toma2 * Sexo2 + Sexo2 * Edad2 + Sexo2 * Edad3 +
* Edad4 + Sexo2 * Edad5 + Sexo2 * Toma2 * Edad2 + Sexo2 *
* Edad3 + Sexo2 * Toma2 * Edad4 + Sexo2 * Toma2 * Edad5,
D
220
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
family = poisson, data = psico)
Coefficients:
(Inter)
Toma2
Edad2
Edad3
Edad4
Edad5
Sexo2
3.04452 3.48197 0.42121 1.20397 0.71668 -0.10008 0.78412
Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 Toma2.Sexo2 Edad2.Sexo2
-0.55747
-1.17227
-1.55620
-1.83129
-0.70667
0.23878
Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 Toma2.Edad2.Sexo2 Toma2.Edad3.Sexo2
0.09728
0.03965
0.20327
-0.15539
0.00877
Toma2.Edad4.Sexo2 Toma2.Edad5.Sexo2
0.01304
0.40228
Degrees of Freedom: 19 Total (i.e. Null);
Null Deviance:
5716
Residual Deviance: -3.422e-13
-----------
0 Residual
---
AIC: 177
modelo, este último, que se rechaza y al que corresponde un deviance cero
(en realidad nos sale -3.422e-13 que significa que corramos la coma de 3′ 422
trece lugares a la izquierda).
En resumen, se ha aceptado un solo modelo. Si se hubieran aceptado
más modelos deberı́amos haber utilizado los tests condicionales para modelos
anidados (como se indica en la la Sección 8.4.1 del texto TA) para quedarnos
finalmente con un modelo.
El quedarnos finalmente con el modelo de 0 Independencias condicionadas,
es decir, con el modelo
s,t,e,se,st,te
significa, según la Tabla 8.3 de TA, que no se puede colapsar ninguna de las
tres variables y que el estudio debe hacerse por separado para hombre y para
mujeres, para cada uno de los tres grupos de edad y también por separado
para los que toman medicamentos y para los que no los toman.
Problema 6.2
En el estudio de Rosenman et al. (1964), se observó también la Edad de los pacientes que habı́an padecido una determinada enfermedad coronaria, codificados
éstos con chd = 1. Los datos ası́ obtenidos aparecen en el ficheros de datos wgcs.
Se desea efectuar un Análisis de Regresión Logı́stica de dichos datos.
Primero vamos a incorporar los datos (que están en el fichero wcgs) en
formato estructura de datos (data frame). Para ello utilizaremos en (1), la
función read.table que lee los datos y crea dicho formato. En (2) comprobamos que lo ha ejecutado bien,
D
221
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6. Problemas Avanzados Resueltos
> wcgs<-read.table("a:\\wgcs",header=T)
> wcgs
> wcgs
Edad chd
1
50
0
2
51
0
3
59
0
.............
3152 53
0
3153 54
0
3154 48
0
(1)
(2)
Ahora ejecutamos (3) y (4) para ajustar el modelo de regresión logı́stica
solicitado.
> resultado<-glm(chd ~ Edad,family=binomial,data=wcgs)
> summary(resultado)
(3)
(4)
Call:
glm(formula = chd ~ Edad, family = binomial, data = wcgs)
Deviance Residuals:
Min
1Q
Median
-0.6208 -0.4545 -0.3669
3Q
-0.3292
Max
2.4835
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.93938
0.54814 -10.835 < 2e-16 ***
Edad
0.07442
0.01128
6.596 4.23e-11 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05
(5)
‘.’
0.1
‘’
1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1781.2
Residual deviance: 1738.4
AIC: 1742.4
on 3153
on 3152
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 4
Vemos en (5) que la Edad es efectivamente significativa para explicar el
padecimiento de la enfermedad coronaria en estudio, obteniendo, en consecuencia, como modelo ajustado el siguiente:
p
= −5′ 94 + 0′ 0744 Edad
1−p
De hecho, se podrı́a contrastar el modelo global como habitualmente hacemos, ejecutando
log
> 1-pchisq(1738.4,3152)
[1] 1
D
222
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
0.0
0.2
0.4
p
0.6
0.8
1.0
que indica un ajuste estadı́sticamente perfecto.
Por tanto, el modelo ası́ ajustado será
0
50
100
150
Edad
Figura 6.1 : Función logı́stica
p=
siendo
exp(−5′ 94 + 0′ 0744 Edad)
1 + exp(−5′ 94 + 0′ 0744 Edad)
[6.1]
p = P {éxito} = P {Y = 1} = P {chd = 1}
Por ejemplo, la probabilidad de que un individuo de 65 años (de la población de donde se extrajo la muestra o, en general, de una población de la
que la muestra sea representativa) padezca la enfermedad coronaria en estudio
será
p=
exp(−5′ 94 + 0′ 0744 · 65)
= 0′ 249
1 + exp(−5′ 94 + 0′ 0744 · 65)
y la probabilidad de uno de 25 años,
D
223
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6. Problemas Avanzados Resueltos
p=
exp(−5′ 94 + 0′ 0744 · 25)
= 0′ 0166.
1 + exp(−5′ 94 + 0′ 0744 · 25)
De hecho, si representamos la función (6.1) ası́ ajustada, su representación
gráfica es la Figura (6.1) que es claramente una función logı́stica
Respecto a la interpretación de los coeficientes ajustados, como tenemos
una regresión lineal para el logaritmo de la odds ratio log p/(1 − p), la interpretación de la pendiente de esta recta ajustada, β̂1 = 0′ 0744 , es clara como
vimos en el capı́tulo anterior: β̂1 = 0′ 0744 es una estimación del cambio en el
logaritmo de la OR del riesgo a infarto chd por el incremento de un año de
Edad; es decir, exp(0′ 0744) = 1′ 077 (= 0′ 077 · 100/1 = 7′ 7 %) es una estimación del incremento en la odds ratio del riesgo de infarto por el incremento en
cada año de Edad.
Una estimación clı́nicamente más relevante es el incremento en la odds
ratio del riesgo a infarto por el incremento de 10 años en la Edad. Ésta será:
exp(0′ 0744 · 10) = 2′ 096; y en tanto por ciento, = 1′ 096 · 100/1 = 109′ 6 %, es
decir, de más del 100 %, es decir, de más del doble.
Problema 6.3
Los datos de la siguiente tabla corresponden a la Edad, la Tasa de Filtrado
Glomerular (gfr) y la Creatinina en suero (cr), de 30 pacientes de los 180 del
estudio de las funciones renales de Brochner-Mortensen et al. (1977). La gfr es
el volumen de lı́quido filtrado desde los capilares glomerulares renales al interior
de la cápsula Bowman, por unidad de tiempo (habitualmente, milı́metros por
minuto) y clı́nicamente es muy importante porque se usa para analizar funciones
renales. No obstante, en lugar de medir la gfr, es más simple estimarla a partir
del ritmo de evacuación de la creatinina, cr, una molécula endógena, sintetizada
en el cuerpo y que aparece como producto de la degradación de la creatina (un
compuesto de alta energı́a) en los músculos, y que posee una tasa de excreción
notablemente constante a lo largo del dı́a para cada paciente.
La ventaja de esta técnica es que al ser la creatinina un producto endógeno, no
requiere introducir en el organismo del paciente una sustancia extraña.
La creatinina es libremente filtrada a nivel glomerular, aunque a diferencia de la
insulina, también es excretada en pequeñas cantidades por los túbulos renales.
Estas caracterı́sticas hacen que, aunque no exacta, la medida empleando el ı́ndice
de evacuación de creatinina sea una buena aproximación del gfr aunque un simple
gráfico prueba que esa relación no es de tipo lineal.
D
224
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Edad
25
25
28
21
30
32
38
44
49
42
41
47
44
43
43
57
56
51
51
52
56
54
66
64
62
64
65
61
69
67
CR
0.71
0.45
1.2
1.1
0.99
0.8
4.35
0.98
0.85
1.31
1.11
1.77
8.21
4.5
2.47
0.64
0.75
1.02
1
5.43
9.75
9.15
1.48
0.81
1.5
1.65
2
10.75
6.84
3.8
GFR
167
103
95
80
133
89
19
92
102
88
68
29
6.2
7.7
27
111
116
113
68
10
10
7.5
68
88
63
56
36
6.3
9.6
12
El objeto de este ejercicio es analizar, para este conjunto de datos,
a) Una relación del tipo
log(gf r) = β0 + β1 x
siendo x = 1/cr .
b) Una relación del tipo
log(gf r) = β0 + β1 log(cr) + β2 log(Edad)
Los datos del enunciado están en el fichero GFR por lo que primero los
incorporaremos a R. Lo haremos con estructura data frame porque es la más
general. A partir de ella podemos obtener los vectores de datos para la regresión.
> GFR<-read.table("a:\\GFR",header=T)
D
225
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6. Problemas Avanzados Resueltos
4.0
2.5
2.0
0.5
3.0
1.0
3.5
1.5
4.5
2.0
5.0
> GFR
Edad
CR
GFR
1
25 0.71 167.0
2
25 0.45 103.0
3
28 1.20 95.0
...................
28
61 10.75
6.3
29
69 6.84
9.6
30
67 3.80 12.0
x
y
Figura 6.2 : Gráficos de Cajas de ambas variables
a) Denominaremos x e y a los dos variables de regresión de la forma
> y<-log(GFR[,3])
> x<-1/GFR[,2]
Si analizamos separadamente ambas variables, Figura 6.2, mediante dos
gráficos de cajas (box-plots) (CB-sección 14.5.1) vemos en el de la variable
x un dato más allá del mayor bigote (whisker), que recordemos es una lı́nea
que se traza en la mayor observación, si es que ésta es menor que 1′ 5 veces el
recorrido intercuartı́lico (diferencia entre el tercer cuartil y el primer cuartil),
y, si no es menor, el bigote se traza en ese 1′ 5 veces el recorrido intercuartı́lico.
(Análogamente con el menor bigote). De esa forma se destacan los outliers, es
D
226
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
2
0.5
1.0
1.5
2.0
Figura 6.3 : Valores x ordenados
decir, aquellos datos más allá del grupo general de observaciones (más allá de
1′ 5 veces el recorrido intercuartı́lico).
Esta Figura 6.2 se obtuvo ejecutando
> par(mfrow=c(1,2))
> boxplot(x,xlab="x")
> boxplot(y,xlab="y")
El gráfico unidimensional de x, Figura 6.3, obtenido ejecutando
> stripchart(x,pch=16,col=4)
> text(2.2,1.04,2,col=2)
confirma que la segunda observación es un dato anómalo.
Si representamos los datos bidimensionales, Figura 6.4, ejecutando
> plot(x,y,pch=16)
> text(x,y,1:30,adj=2,cex=0.8,col=2)
vemos que el dato 2 está, como antes, fuera de la nube de puntos del resto de
los otros datos. Pero si calculamos la recta de mı́nimos cuadrados ejecutando
> recta1<-lm(y~x)
> recta1
Call:
lm(formula = y ~ x)
D
227
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6. Problemas Avanzados Resueltos
5.0
1
5
17
4.5
18
26
23
25
3
8
4
9
24 6
16
2
11 19
27
3.5
y
4.0
10
12
3.0
15
2.5
7
30
2.0
212920
22 14
28
13
0.5
1.0
1.5
2.0
x
Figura 6.4 : Nube de puntos
Coefficients:
(Intercept)
2.387
x
1.771
y obtenemos
y = 2′ 387 + 1′ 771
la gráfica de los residuos de esta recta (Figura 6.5), obtenidos ejecutando
> plot(resid(recta1))
no da una muestra clara de que ese valor es un outlier. Si calculamos la recta
de regresión de Huber ejecutando
> recta2<-rlm(y~x)
> recta2
Call:
rlm(formula = y ~ x)
Converged in 7 iterations
Coefficients:
(Intercept)
2.218666
x
2.070785
Degrees of freedom: 30 total; 28 residual
Scale estimate: 0.457
D
228
−0.5
−1.5
−1.0
resid(recta1)
0.0
0.5
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
0
5
10
15
20
25
30
Index
Figura 6.5 : Residuos de la recta de mı́nimos cuadrados
es decir,
y = 2′ 1867 + 2′ 071
esta sı́ que proporciona unos residuos claros, (Figura 6.6). Es decir, la regresión
robusta no sólo sirve para determinar rectas o hiperplanos menos sensibles a
datos anómalos, sino que, a través de los residuos de las rectas de regresión
robustas podemos detectar outliers, Método que se denomina Regression Diagnostics.
> plot(resid(recta2))
En la Figura 6.7 aparecen ambas rectas en la nube de puntos, la de mı́nimos
cuadrados en negro y trazo continuo y la de Huber en azul y trazo discontinuo.
Este figura se obtuvo ejecutando
> plot(x,y,pch=16,col=2)
> abline(recta1)
> abline(recta2,col=4,lty=4)
b) Si incluimos ahora la primera variable, Edad y calculamos la Regresión
Lineal Múltiple clásica ejecutando (1) y la Robusta, ejecutando (2),
> x1<-log(GFR[,1])
> x2<-log(GFR[,2])
D
229
−0.5
−1.0
−2.0
−1.5
resid(recta2)
0.0
0.5
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6. Problemas Avanzados Resueltos
0
5
10
15
20
25
30
Index
Figura 6.6 : Residuos de la recta de regresión robusta de Huber
> r1<-lm(y~x1+x2)
> r1
(1)
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept)
4.56983
x1
-0.04318
x2
-1.11616
> r2<-rlm(y~x1+x2)
(2)
> r2
Call:
rlm(formula = y ~ x1 + x2)
Converged in 6 iterations
Coefficients:
(Intercept)
x1
4.8867925 -0.1201561
x2
-1.1173761
Degrees of freedom: 30 total; 27 residual
Scale estimate: 0.299
el gráfico dado por la Figura 6.8 pone de manifiesto una vez más, que tanto el
dato 2 como el 14 son caracterizados como anómalos más claramente con la
regresión robusta.
> par(mfrow=c(1,2))
D
230
y
2.0
2.5
3.0
3.5
4.0
4.5
5.0
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Cuadernos de Estadı́stica Aplicada: Área de la Salud
0.5
1.0
1.5
2.0
x
Figura 6.7 : Nube de puntos y rectas de regresión
> plot(resid(r1))
> plot(resid(r2))
D
231
−0.2
−0.8
−0.6
−0.4
resid(r2)
0.0
0.2
0.4
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
0.0
−0.2
−0.4
−0.6
resid(r1)
0.2
0.4
Capı́tulo 6. Problemas Avanzados Resueltos
0
5
10
15
Index
20
25
30
0
5
10
15
20
25
Index
Figura 6.8 : Residuos de las regresiones clásica y robusta
30
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
232
D
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Bibliografı́a
Appelman, Y.E.A., Piek, J.J., Strikwerda, S., Tijssen, J.G.P., de Feyter, P.J., David, G.K.,
Serruys, P.W., Margolis, J.R., Koelemay, M.J., Montauban van Swijndregt, E.W.J.
y Koolen, J.J. (1996). Randomised trial of excimer laser angioplasty versus balloon
angioplasty for treatment of obstructive coronary artery disease. The Lancet, 347,
79-84.
Azorı́n, F. y Sánchez-Crespo, J.L. (1986). Métodos y Aplicaciones del Muestreo. Alianza
Universidad Textos.
Brandjes, D.P.M., Buller, H.R., Heijboer, H., Huisman, M.V., de Rijk, M., Jagt, H. y ten
Cate, J.W. (1997). Randomised trial of effect of compression stockings in patients with
symptomatic proximal-vein thrombosis. The Lancet, 349, 759-762.
Breiman, L. (2001). Random forest. Machine Learning, 45, 5-32.
Breiman, L., Friedman, J., Olshen, R., y Stone, C. (1993). Classification and Regression
Trees. Chapman and Hall/CRC.
Brochner-Mortensen, J., Jensen, S. y Rodbro, P. (1977). Assessment of renal function from
plasma creatinine in adult patients. Scandinavian Journal of Urology and Nephrology,
11, 263-270.
Clayton, D. y Hills, M. (1993). Statistical Models in Epidemiology. Oxford University Press,
Oxford.
Cockburn, F., Belton, N.R., Purvis, R.J., Giles, M.M., Brown, J.K, Turner, T.L., Wilkinson,
E.M., Forfar, J.O., Barrie, W.J., Mckay, G.S. y Pocock, S.J. (1980). Maternal vitamin D intake and mineral matabolism in mothers and their newborn infants. British
Medical Journal, 281, 11-14.
Cox, D.R. (1972). Regression models and life tables (with discussion). Journal of the Royal
Statistical Society, B, 34, 187-220.
Crowley, P., Chalmers, I. y Keirse, M.J.N.C. (1990). The effects of corticosteroid administration before preterm delivery: an overview of the evidence from controlled trials.
British Journal of Obstetrics and Gynaecology, 97, 11-25.
Ezdinli, E., Pocock, S., Berard, C.W., Aungst, C.W., Silverstein, M., Horton, J., Bennett,
J., Bakemeier, R., Stolbach, L., Perlia, C., Brunk, S.F., Lenhard, R.E., Klaassen, D.J.,
Richter, P. y Carbone, P. (1976). Comparison of intensive versus moderate chemotherapy of lymphocytic lymphomas: a progress report. Cancer, 38, 1060-1068.
Feigl, P. y Zelen, M. (1965). Estimation of exponential survival probabilities with concomitant information. Biometrics, 21, 826-838.
Friedman, J. (1991). Multivariate adaptive regression splines (with discussion). Annals of
Statistics, 19, 1-141.
233
D
Cuadernos de Estadı́stica Aplicada: Área de la Salud
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
234
Garcı́a Pérez, A. (1993). Estadı́stica Aplicada con BMDP. UNED. Colección: Educación
Permanente.
Garcı́a Pérez, A. (1993). Estadı́stica Aplicada con SAS. UNED. Colección: Educación Permanente.
Garcı́a Pérez, A. (1998). Problemas Resueltos de Estadı́stica Básica. UNED. Colección:
Educación Permanente.
Garcı́a Pérez, A. (2005). Métodos Avanzados de Estadı́stica Aplicada. Técnicas Avanzadas.
UNED. Colección: Educación Permanente.
Garcı́a Pérez, A. (2005). Métodos Avanzados de Estadı́stica Aplicada. Métodos Robustos y
de Remuestreo. UNED. Colección: Educación Permanente.
Garcı́a Pérez, A. (2008). Estadı́stica Aplicada: Conceptos Básicos. Segunda edición. UNED.
Colección: Educación Permanente.
Garcı́a Pérez, A. (2008). Ejercicios de Estadı́stica Básica. UNED. Colección: Cuadernos de
la UNED.
Garcı́a Pérez, A. (2008). Estadı́stica Aplicada con R. Editorial UNED. Colección Varia.
Hackett, A.F., Court, S., Matthews, J.N.S., McCowen, C. y Parkin, J.M. (1989). Do education groups help diabetics and their parents? Archives of Disease in Childhood, 64,
997-1003.
Hommel, E., Parving, H.H, Mathiesen, E., Edsberg, B., Damkjaer, Nielsen, M. y Giese, J.
(1986). Effect of Captopril on kidney function in insulin-dependent diabetic patients
with nephropathy. British Medical Journal, 293, 467-470.
Hosmer, D.W. y Lemeshow, S. (1989). Applied Logistic Regression. Ed. Wiley.
Kalbfleisch, J.D. y Prentice, R.L. (1980). The statistical analysis of failure time data. Ed.
Wiley.
Krall, J.M., Uthoff, V.A. y Harley, J.B. (1975). A step-up procedure for selecting variables
associated with survival. Biometrics, 31, 49-57.
Lee, E.T. (1980). Statistical methods for survival data analysis. Belmont, CA:Life-time learning publications.
Lind, J. (1753). A Treatise of the Scurvy. Sand Murray Cochran, Edinburgh.
Matthews, J.N.S. (2000). An Introduction to Randomized Controlled Clinical Trials. Arnold,
London.
MIST Study Group (1998). Randomized trial of efficacy and safety of inhaled zanamivir in
treatment of influenza A and B virus infections. The Lancet, 352, 1877-1881.
Murray, J.D., Dunn, G., Williams, P. y Tarnopolsky, A. (1981). Factors influencing the
consumption of psychotropic drugs. Psychological Medicine, 12, 371-378.
Nelson, W.B. y Hahn, G.J. (1972). Linear estimation of a regression relationships from
censored data, part 1. Technometrics, 14, 247-276.
Packard, F.R. (1921). The Life and Times of Ambroise Paré. Hoeber, New York.
Pike, M.C. (1966). A method of analysis of certain class of experiments in carcinogenesis.
Biometrics, 22, 142-161.
Rosenman, R.H., Friedman, M., Straus, R., Wurm, M., Kositchek, R., Hahn, W. y Werthessen, N.T. (1964). A predictive study of coronary heart disease: the western collaborative group study. Journal of the American Medical Association, 189, 113-120.
D
235
Al f
on
so
Ga
rcı́
aP
ére
z.
UN
E
Capı́tulo 6. Problemas Avanzados Resueltos
Ruczinski, I., Kooperberg, C. y LeBlanc, M. (2003). Logic regression. Journal of Computational and Graphical Statistics, 12, 475-511.
Ruczinski, I., Kooperberg, C. y LeBlanc, M. (2004). Exploring interactions in high dimensional genomic data: an overview of logic regression. Journal of Multivariate Analysis,
90, 178-195.
Senn, S.J. y Auclair, P. (1990). The graphical representation of clinical trials with particular
reference to measurements over time. Statictics in Medicine, 9, 1287-1302.
Smith, A.C., Dowsett, J.F., Russell, R.C.G., Hatfield, A.R.W. y Cotton, P.B. (1994). Randomised trial of endoscopic stenting versus surgical bypass in malignant low bileduct
obstruction. The Lancet, 344, 1655-1660.
Tobin, J. (1958). Estimation of relationships for limited dependent variables, Econometrica,
26, 24-36.
Vittinghoff, E., Glidden, D.V., Shiboski, S.C. y McCulloch, C.E. (2005). Regression Methods
in Biostatistics. Linear, Logistic, Survival, and Repeated Measures Models. Springer,
New York.
Winston, D.J., Wirin, D., Shaked, A. y Busuttil, R.W. (1995). Randomised comparison of
gancislovir and high-dose acylovir for long-term cytomegalovirus prophylaxis in livertransplant recipients. The Lancet, 346, 69-74.
Descargar