D Al f on so Ga rcı́ aP ére z. UN E CUADERNOS ESTADÍSTICA ÁREA DE DE APLICADA: LA Alfonso Garcı́a Pérez SALUD D Al f on so Ga rcı́ aP ére z. UN E c Copyright 2011 Alfonso Garcı́a Pérez Fotografı́a de la Portada: Hospital Gregorio Marañón. Madrid “No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros medios, sin el permiso previo y por escrito de los titulares del Copyright. El contenido de este libro está registrado por el autor en el Registro de la Propiedad Intelectual con el número 16/2005/2564 y protegido por la Ley, que establece penas de prisión además de las correspondientes indemnizaciones para quien lo plagiara” Edita: Universidad Nacional de Educación a Distancia D Al f on so Ga rcı́ aP ére z. UN E Prólogo El presente texto, en formato pdf, corresponde al estudio de las Técnicas Estadı́sticas Actuales en el Área de la Salud dentro del Máster, Técnicas Actuales de Estadı́stica Aplicada. No es un texto autosuficiente sino que se supone que el lector ha estudiado los temas anteriores del Máster. Con este libro se pretende cubrir una serie de temas especı́ficos de esta área ası́ como incluir numerosos problemas resueltos, que proporcionarán al alumno una mejor soltura en el manejo de las técnicas estadı́sticas aplicadas en esta rama del saber. En el libro se citarán los textos Estadı́stica Aplicada: Conceptos Básicos (abreviado por CB), Métodos Avanzados de Estadı́stica Aplicada. Técnicas Avanzadas (en adelante TA) y Métodos Avanzados de Estadı́stica Aplicada. Métodos Robustos y de Remuestreo (en adelante MR). Otras referencias que pueden aparecer son los libros Estadı́stica Aplicada con BMDP (EABMDP), Estadı́stica Aplicada con SAS (EASAS) y Estadı́stica Aplicada con R (EAR). Alfonso Garcı́a Pérez e-mail: [email protected] i ii Al f on so Ga rcı́ aP ére z. UN E D D Al f on so Ga rcı́ aP ére z. UN E Índice 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos 1.1. 1.2. 1.3. 1.4. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . Población y Muestra . . . . . . . . . . . . . . . . . . . . . . Formalización del problema . . . . . . . . . . . . . . . . . . Tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1. Poblaciones normales . . . . . . . . . . . . . . . . . 1.4.2. Poblaciones binomiales . . . . . . . . . . . . . . . . . 1.5. Métodos de asignación . . . . . . . . . . . . . . . . . . . . . 1.5.1. Grupos de tratamientos permutados aleatoriamente 1.6. Análisis de los resultados . . . . . . . . . . . . . . . . . . . 1.7. Enfoques alternativos . . . . . . . . . . . . . . . . . . . . . 1.7.1. Ensayos cruzados (Crossover trials) . . . . . . . . . . 1.7.2. Meta-Análisis . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . 2. Análisis de Supervivencia 1 3 4 4 5 10 14 16 18 28 28 32 41 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Tipos de censura . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Distribuciones de tiempo de fallo . . . . . . . . . . . . . . . . . 2.3.1. Algunas distribuciones de tiempo de fallo . . . . . . . . 2.4. Modelos de Regresión . . . . . . . . . . . . . . . . . . . . . . . 2.4.1. Modelos de regresión Exponencial y Weibull . . . . . . . 2.4.2. Modelo de Azar Proporcional . . . . . . . . . . . . . . . 2.4.3. Modelo de Tiempo de Fallo Acelerado . . . . . . . . . . 2.5. Estimación de la función de supervivencia . . . . . . . . . . . . 2.5.1. Estimador de Kaplan-Meier (Método del lı́mite-producto) 2.5.2. Método de la tabla de supervivencia . . . . . . . . . . . 2.6. Comparación de curvas de supervivencia . . . . . . . . . . . . . 2.6.1. Test de Savage de rangos logarı́tmicos . . . . . . . . . . 2.7. Análisis de Supervivencia con SAS . . . . . . . . . . . . . . . . 2.7.1. Procedimiento LIFETEST . . . . . . . . . . . . . . . . . Especificaciones del procedimiento LIFETEST . . . . . iii 41 42 44 45 48 48 49 50 51 51 52 53 53 55 55 56 D Al f on so Ga rcı́ aP ére z. UN E Opciones en PROC LIFETEST . . . . . . . . Sentencias especı́ficas en PROC LIFETEST . 2.7.2. Procedimiento LIFEREG . . . . . . . . . . . Especificaciones del procedimiento LIFEREG 2.7.3. Procedimiento PHREG . . . . . . . . . . . . Especificaciones del procedimiento PHREG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . AaBb . . . . . . . . . . . . . . . . . . . . . . . 91 . 92 . 95 . 98 . 99 . 103 3. Estimación de Haplotipos y de su riesgo 3.1. Conceptos de Genética . . . . . . . . . . . . . . . . 3.2. Genotipos y Haplotipos . . . . . . . . . . . . . . . 3.3. Asignación de haplotipos a individuos con genotipo 3.3.1. Asignación de haplotipos . . . . . . . . . . 3.4. Comparación de poblaciones: Regresión Logı́stica . 3.4.1. Regresión Logı́stica . . . . . . . . . . . . . . 4. Bioinformática: Técnicas Machine Learning 56 57 75 75 80 80 91 105 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2. Árboles de Clasificación y Regresión (Classification and Regression Trees, CARTs) . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2.1. Construcción de un Árbol . . . . . . . . . . . . . . . . . 106 4.2.2. Árboles óptimos . . . . . . . . . . . . . . . . . . . . . . 112 4.3. Bosques Aleatorios (Random Forests, RFs) . . . . . . . . . . . 116 4.4. Árboles de Regresión Lógica . . . . . . . . . . . . . . . . . . . . 119 4.5. Regresión a Trazos Adaptativa Multivariante (Multivariate Adaptive Regression Splines, MARS) . . . . . . . . . . . . . . . . . . 122 5. Problemas Básicos Resueltos 125 6. Problemas Avanzados Resueltos 213 iv D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1 Fundamentos Estadı́sticos de los Ensayos Clı́nicos 1.1. Introducción Solemos referirnos a los ensayos o pruebas clı́nicas como a experimentos realizados con personas con objeto de valorar si un nuevo tratamiento es efectivo en la curación de una determinada enfermedad. Y aunque tengamos en mente esta definición cuando hablemos de los ensayos clı́nicos, también se utiliza esta denominación cuando los experimentos no se refieran a personas o los tratamientos no sean, necesariamente, medicamentos; éstos deberán entenderse en un sentido amplio, como por ejemplo, procedimientos quirúrgicos, o nuevos programas de diagnóstico, etc. De hecho, este tipo de pruebas también se aplican en otras áreas distintas de las Ciencias de la Salud, tales como la Agricultura o la Industria. Básicamente, los ensayos clı́nicos no son más que experimentos, realizados de acuerdo con unas determinadas pautas estadı́sticas, mediante los cuales comparamos dos o más poblaciones. No obstante, es en el campo de las Ciencias de la Salud en donde más se han utilizado estas técnicas, razón por la que las estudiaremos desde esta perspectiva. Si sólo tenemos dos poblaciones, a la población a la que aplicamos el nuevo tratamiento se la denomina grupo tratamiento y a la población a la que aplicamos el tratamiento estándar o ningún tratamiento, grupo control. Si a esta segunda población no se le va a aplicar ningún tratamiento, por razones psicológicas, a sus individuos se le administra un falso tratamiento, sin ningún efecto, denominado placebo. En principio, a ambas poblaciones se les debe aplicar los tratamientos simultáneamente y además, los individuos deben ser asignados a uno u otro grupo aleatoriamente, para evitar sesgos en las conclusiones. No obstante, ve1 D 2 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud remos más adelante que no siempre ocurre ası́. Aunque los ensayos clı́nicos, entendidos éstos en un sentido amplio del término, han estado presentes a lo largo de la Historia de la Humanidad 1 2 , la introducción de la Estadı́stica como método cientı́fico a utilizar en la comparación de tratamientos, se remonta a la segunda guerra mundial. Ejemplo 1.1 A continuación damos una tabla con tres ejemplos de ensayos clı́nicos reales Enfermedad Arteria coronaria obstructiva (Appelman et al., 1996) Profilaxis de citomegalovirus (CMV) en pacientes trasplantados de hı́gado (Winston et al., 1995) Hipocalcaemia neonatal (Cockburn et al., 1980) Diabetes mellitus en la infancia y la adolescencia (Hackett et al., 1989) Grupo Tratamiento Angioplastia coronaria con láser Ganciclovir Grupo Control Angioplastia con bomba Altas dosis de Aciclovir Suplementos de vitamina D antes del nacimiento Clases de educación especial además de las visitas clı́nicas habituales Suplementos de placebo Sólo las habituales visitas clı́nicas cuyas referencias aparecen en la Bibliografı́a al final del texto. Podemos decir que en los ensayos clı́nicos hay dos grandes etapas. En un primer paso debemos elegir los individuos, cuya observación dará origen a los datos, de forma muy precisa, puesto que éstos serán la materia prima a utilizar en la segunda parte, dedicada al Análisis de los Resultados. Esta segunda parte fue, básicamente, estudiada en CB ya que, está basada en la utilización de Intervalos de Confianza, Tests de Hipótesis, Análisis de la Varianza y Análisis de la Covarianza, razón por la cual, y aunque su peso es igual o mayor que la primera parte, no será estudiada aquı́ con detalle. A cambio, nos concentraremos en estudiar la primera parte de la toma de datos en las secciones 1.2, 1.4 y 1.5, concluyendo el capı́tulo con la sección 1.7, en la que se analizan otros enfoques de interés en los ensayos clı́nicos. En resumen, este capı́tulo sirve de complemento y profundización en una herramienta, los ensayos clı́nicos, cada vez más utilizada, especialmente, en la Ciencias de la Salud. 1 Con objeto de curar las heridas sufridas en la batalla por la toma del castillo francés de Villaine en 1537, Ambroise Paré concluyó que el tratamiento consistente en un digestivo compuesto por yemas de huevo, aceite de rosas y trementina, mejoraba el tradicional tratamiento con aceite hirviendo. (Packard, 1921, páginas 27 y 163.) 2 Con objeto de curar el escorbuto en los marineros de los barcos, n 1747, Jamestrató Lind ae pacientes con vinagre de sidra (elixir vitriol), nuez moscada y agua 47517(s)-484.274(c15.446208771(a)4.28236,(a)4.28236y(o)4.205736(d)3.08771 D 6 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud P ot(λ) = P Z > zα/2 − r = 1 − Φ zα/2 − r λ σ12 n1 + σ22 n2 λ σ12 n1 + σ22 n2 +P Z < −zα/2 − r + Φ−zα/2 − r λ σ12 n1 λ σ12 n1 + σ22 n2 + σ22 n2 0.6 0.4 0.2 Pot(lambda) 0.8 1.0 siendo Z una variable aleatoria con distribución N (0, 1) y Φ su función de distribución. -2 -1 0 1 2 lambda Figura 1.1 : Funciones de potencia para n1 = n2 = 20 (lı́nea continua), n1 = n2 = 40 (lı́nea con puntos y curvas), n1 = n2 = 80 (lı́nea con puntos y curva continua sobrepuesta) Observemos que en la expresión acabada de obtener para la potencia del test conocemos todos sus elementos, por lo que tenemos una función de λ que hemos denominado P ot(λ). Por ejemplo, si suponemos α = 0′ 05 (con lo que es zα/2 = 1′ 96) y σ1 = σ2 = 1, la figura 1.1 muestra como a medida que aumentamos el tamaño muestral, aumenta la potencia del test. D 7 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos Ası́, para n1 = n2 = 20 tenemos la lı́nea continua; para n1 = n2 = 40 tenemos la lı́nea formada con puntos y curvas que no se sobreponen (potencia siempre mayor que la anterior sea cual sea el valor de λ) y, por último, en el caso de sea n1 = n2 = 80 tenemos la lı́nea con puntos y curva sobrepuesta que muestra una potencia siempre mayor que en los dos casos anteriores, sea cual sea el valor de λ. En todos los casos, la función de potencia toma un valor igual al nivel de significación para el valor de λ igual a la hipótesis nula que estemos considerando (en este caso λ = 0) y además, para este tipo de test, aumenta cuando nos alejamos de dicha hipótesis nula. Si denominamos λM a la mı́nima diferencia clı́nica importante, es decir, si consideramos irrelevantes los valores de λ < λM , y además, sin pérdida de generalidad suponemos λM > 0 (si no fuera ası́ se intercambiarı́an los papeles de µ1 y µ2 ), sólo nos van a interesar los λ > λM > 0, por lo que, si despreciamos el último término de la ecuación de P ot(λ) (cosa que podemos hacer por ser λM > 0), será P ot(λM ) = 1 − Φ zα/2 − r λM σ12 n1 + σ22 n2 < 1 − Φzα/2 − r λ σ12 n1 + σ22 n2 = P ot(λ) con lo que si deseamos que nuestro test de nivel α tenga, al menos, una potencia determinada 1 − β, la ecuación de la que debemos determinar el tamaño muestral de nuestro ensayo clı́nico será es decir, 1 − β < 1 − Φ zα/2 − r Φ zα/2 − r o bien (por ser z1−β = −zβ ), zα/2 − r es decir, λM σ12 n1 + σ22 n2 λM σ12 n1 + σ22 n2 λM σ12 n1 + 2 σ2 n2 <β < Φ−1 (β) = −zβ D 8 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud r λM σ12 n1 + σ22 n2 > zα/2 + zβ o lo que es lo mismo, s σ12 σ22 λM + < . n1 n2 zα/2 + zβ [1.1] Suponiendo un tamaño muestral total n = n1 + n2 fijo, como la función h(n2 ) = s σ2 σ12 + 2 n − n2 n2 alcanza su mı́nimo para n2 = n σ2 σ1 + σ2 y por tanto, para n1 = n − n2 = n σ1 σ1 + σ2 de la ecuación [1.1] tendremos que deberá ser s σ12 σ22 + < σ1 n/(σ1 + σ2 ) σ2 n/(σ1 + σ2 ) s σ12 σ22 λM + < n1 n2 zα/2 + zβ con lo que del primer y último miembro de la desigualdad anterior, tenemos que deberá ser s es decir, (σ1 + σ2 )2 λM < n zα/2 + zβ n> (σ1 + σ2 )2 (zα/2 + zβ )2 . λ2M Ası́ pues, el tamaño muestral mı́nimo para un test como el aquı́ considerado de comparación de dos poblaciones normales independientes de varianzas conocidas (y supuesto que no se considere el término antes despreciado), será n0 = (σ1 + σ2 )2 (zα/2 + zβ )2 λ2M D 9 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos supuesto un nivel de significación α y una potencia mı́nima deseada 1 − β. Y de ahı́, la asignación (allocation), es decir, el reparto del tamaño muestral entre las dos poblaciones deberá ser igual a n1 = n 0 σ1 σ1 + σ2 n2 = n 0 σ2 . σ1 + σ2 En el caso particular de que sea σ1 = σ2 = σ, el mı́nimo tamaño muestral requerido será igual a n0 = 4 σ 2 (zα/2 + zβ )2 λ2M y n1 = n2 = n0 /2, fórmulas habitualmente utilizadas por los usuarios de estos métodos y, como hemos visto, sólo válida en unos supuestos muy particulares que acabamos de especificar. En otras condiciones (hipótesis unilaterales, poblaciones no normales, varianzas desconocidas, muestras pequeñas, etc.) el tamaño muestral mı́nimo será otro; además, si no es posible despreciar el término no considerado habrá que resolver las ecuaciones por métodos numéricos. Con objeto de no exponer todas las posibles situaciones recomendamos al lector consultar a un estadı́stico si quiere obtener una expresión exacta para su situación particular. Ejemplo 1.3 En 1998 se llevó a cabo un ensayo clı́nico (MIST Study Group, 1998) para tratar de establecer algún tipo de efectividad (positiva o negativa) del zanamivir, un nuevo tratamiento para la gripe, comparando el grupo tratado con este medicamento a un grupo control tratado con placebo. Los investigadores decidieron que la variable de interés serı́a el número de dı́as trascurridos hasta la disminución apreciable de los sı́ntomas, para la cual consideraron como razonable admitir una distribución normal en ambas poblaciones. Además, un estudio previo habı́a establecido como razonables el valor σ = 2′ 75 dı́as para la desviación tı́pica común y el valor λM = 1 dı́a para la mı́nima diferencia clı́nica importante. Como los investigadores utilizaron en su análisis un nivel de significación α = 0′ 05 y deseaban alcanzar con su test una potencia mı́nima del 90 %, el tamaño muestral mı́nimo deberá ser n0 = 4 σ 2 (zα/2 + zβ )2 4 · 2′ 752 · (1′ 96 + 1′ 28)2 = = 317′ 55 2 λM 12 al ser zα/2 = z0′ 025 = 1′ 96 y zβ = z0′ 1 = 1′ 28. Por tanto, el tamaño muestral de ensayo deberá ser n0 = 318 y los individuos a elegir de cada grupo (la asignación), n1 = n2 = n0 /2 = 159. D 12 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud no dependiente de p1 . Esta transformación de la variable se denomina transformación angular. Tamaño muestral del ensayo Ya estamos en condiciones de determinar el tamaño muestral del ensayo en el caso de dos poblaciones binomiales X1 ; B(1, p1 ) y X2 ; B(1, p2 ) y en el que contrastamos la hipótesis nula H0 : p1 = p2 . En este caso, si el tamaño muestral del ensayo clı́nico en cada población es suficientemente grande, el estadı́stico p̂1 tendrá como distribución aproximada p̂1 ; N p1 , s p1 (1 − p1 ) n1 por lo que, por la transformación angular será p √ arc-sen( p1 ) , 1 √ 2 n1 ! p √ arc-sen( p2 ) , 1 √ 2 n2 ! arc-sen( p̂1 ) ; N y, análogamente, será arc-sen( p̂2 ) ; N y, por tanto, como contrastar H0 : p1 = p2 es equivalente a contrastar H0 : √ √ √ √ arc-sen( p1 ) = arc-sen( p2 ), es decir H0 : arc-sen( p1 ) − arc-sen( p2 ) = 0, podemos utilizar el estadı́stico de contraste arc-sen( p p̂1 ) − arc-sen( p p̂2 ) ; N √ r √ arc-sen( p1 ) − arc-sen( p2 ) , 1 1 + 4 n1 4 n2 aceptando H0 : p1 = p2 cuando y sólo cuando sea arc-sen( p p̂1 ) − arc-sen( p p̂2 ) ∈ −zα/2 r 1 1 + , zα/2 4 n1 4 n2 r 1 1 + . 4 n1 4 n2 Respecto a la potencia del test, que es lo que nos ocupa, frente a una alternativa p1 = π1 , p2 = π2 , será arc-sen( p p̂1 ) − arc-sen( p p̂2 ) ; N √ √ arc-sen( π1 ) − arc-sen( π2 ) , r 1 1 + 4 n1 4 n2 con lo que, haciendo exactamente los mismos cálculos que en la sección anterior, el tamaño muestral mı́nimo del ensayo de tamaño α, para una potencia 1 − β será D 13 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos n0 = (zα/2 + zβ )2 √ √ (arc-sen( π1 ) − arc-sen( π2 ))2 y los de cada población n1 = n2 = n0 /2, y todo esto suponiendo que los tamaños muestrales van a ser suficientemente grandes como para que sea válida la aproximación normal, suponiendo además que podemos despreciar el término de la función de potencia que comentamos más arriba. Ejemplo 1.4 En un trabajo llevado a cabo por Smith y otros en 1994 se pretendı́a comparar dos métodos de tratamiento de una obstrucción maligna del conducto biliar inferior. Uno se realizaba con cirugı́a mediante un bypass biliar y el otro mediante una inserción endoscópica. La comparación de ambos métodos se pretendı́a llevar a cabo mediante la realización de un ensayo clı́nico en el que se observara si el paciente no habı́a fallecido a los 30 dı́as de finalizado el tratamiento. El modelo matemático con el que formalizarı́amos el ensayo se basarı́a en la observación de dos variables dicotómicas X1 ; B(1, p1 ) y X2 ; B(1, p2 ) las cuales tomarı́an el valor 1, éxito, en el caso de que el individuo tratado, respectivamente, con el método 1 ó 2, sobreviviera. Los dos métodos se considerarı́an equivalentes si se pudiera aceptar la hipótesis nula de igualdad de las probabilidades de éxito H0 : p1 = p2 . El equipo de Smith et al. (1994) consideró un nivel de significación 0′ 05, y una potencia del 95 % para detectar un cambio en la tasa de mortalidad del 20 % al 5 %. La fórmula a emplear será, por tanto, n0 = (zα/2 + zβ )2 √ √ (arc-sen( π1 ) − arc-sen( π2 ))2 √ √ en donde zα/2 = z0′ 05/2 = z0′ 025 = 1′ 96, zβ = z0′ 05 = 1′ 645, arc-sen( π1 ) = arc-sen( 0′ 2) = √ √ ′ ′ 0 4636 y arc-sen( π2 ) = arc-sen( 0′ 05) = 0 2255, con lo que obtendremos un tamaño muestral del ensayo igual a n0 = (zα/2 + zβ )2 (1′ 96 + 1′ 645)2 = = 229′ 21 √ √ (arc-sen( π1 ) − arc-sen( π2 ))2 (0′ 4636 + 0′ 2255)2 con lo que el tamaño del ensayo clı́nico (si queremos obtener, al menos, la potencia deseada) deberá ser de n0 = 230 individuos (a medida que aumentamos el tamaño del ensayo aumentamos la potencia). La afijación (el número de individuos a aplicar cada uno de los dos tratamientos) será de n1 = n2 = n0 /2 = 115. Como muestra de que, en cuanto el tamaño del ensayo clı́nico sea un poco grande, podemos despreciar sin problemas el término que comentamos más arriba, éste es en el caso de dos poblaciones binomiales igual a Φ −zα/2 − √ Φ arc-sen( π1 ) − arc-sen( π2 ) que con los datos del ejemplo es igual a q 0′ 2381 −1 96 − p ′ √ 1 230 1 4 n1 ! + 1 4 n2 = 0′ 0000000127. D 14 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Observemos, por último, que si ahora quisiéramos detectar un cambio en la tasa de mortalidad del 50 % al 35 %, en lugar del 20 % al 5 %, el tamaño del ensayo serı́a n0 = (1′ 96 + 1′ 645)2 (1′ 96 + 1′ 645)2 √ √ = ′ = 560′ 17 (0 7854 + 0′ 6331)2 (arc-sen( 0′ 5) − arc-sen( 0′ 35))2 es decir, mucho mayor que antes, aunque la diferencia entre ambas tasas de mortalidad siga siendo del 15 %. 1.5. Métodos de asignación Una vez determinado el tamaño muestral n0 que debe tener el ensayo clı́nico para alcanzar una potencia determinada, una cuestión de sumo interés es el de la asignación (a veces denominada afijación), consistente en el reparto de los n0 individuos entre las poblaciones a comparar; es decir, supuesto que sólo comparamos dos poblaciones, ¿cuántos individuos de los n0 deben formar el grupo tratamiento? (los restantes pasarán a formar parte del grupo control) y, ¿cómo se asignará a los pacientes uno u otro tratamiento? Una respuesta obvia serı́a la de ir tirando una moneda y si sale cara el individuo irı́a, por ejemplo, al grupo tratamiento y si sale cruz, al grupo control. Esto harı́a que posiblemente el tamaño de la asignación de cada uno de los dos grupos no fuera el mismo y eso, implicarı́a una pérdida de potencia. Además, con objeto de evitar posibles sesgos no deseados en los resultados, es muy recomendable que el paciente no conozca qué tratamiento se le aplica (single-blind trial), de ahı́ la utilización de placebos, aunque, por otro lado, últimamente se habla del efecto placebo como una mejora subjetiva del paciente, recomendándose también comparar dos poblaciones, una tratada con placebo y otra no tratada con nada, para averiguar si realmente existe este efecto placebo. También es muy recomendable que el médico desconozca qué tratamiento se le va a aplicar a cada paciente en concreto, con objeto de evitar de nuevo posibles sesgos (double-blind trial). Centrándonos en la potencia del test para la comparación de dos poblaciones normales, como el que vimos en la sección anterior, en el caso de que fuera σ1 = σ2 = λ, serı́a P ot(n1 ) = 1 − Φ zα/2 − q 1 1 n1 + 1 n0 −n1 s = Φ función que si derivamos e igualamos a cero, n1 (n0 − n1 ) − zα/2 n0 D 15 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos s P ot′ (n1 ) = φ (n0 − 2 n1 )/n0 n1 (n0 − n1 ) − zα/2 · p =0 n0 2 n1 (n0 − n1 )/n0 0.4 0.0 0.2 Pot(n1) 0.6 0.8 vemos que sólo se va a anular cuando el segundo factor sea cero (la función de densidad φ de la normal no se anula nunca); es decir, cuando sea n1 = n0 /2, valor que corresponde a un máximo de la función. La figura 1.2 muestra el caso de que sea α = 0′ 05 y n0 = 30; como se ve, la potencia crece a medida de que n1 crece, alcanzando su máximo en n0 /2 = 15, decreciendo a continuación. 0 5 10 15 20 25 30 n1 Figura 1.2 :Potencia en función de la asignación, para el caso de poblaciones normales Por tanto, si a los individuos que se van incorporando al ensayo, los vamos asignando a uno u otro grupo al azar de forma independiente y equiprobable y resulta una asignación desigual, es decir, no balanceada, estaremos perdiendo potencia en el test. Tampoco podremos finalizar las asignaciones de forma no aleatoria cuando hayamos llegado a la mitad del tamaño muestral del ensayo (es decir, si el ensayo debe tener tamaño muestral n0 = 30 y ya hemos asignado 15 individuos al grupo control y 13 al grupo tratamiento, no debemos asignar D 16 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud a los dos últimos al grupo tratamiento), puesto que no estarı́amos ante una asignación completamente aleatoria. En el siguiente apartado veremos algunas maneras de realizar la asignación de forma aleatoria, manteniendo una asignación igual. Apuntamos, no obstante que, salvo que la asignación sea muy desproporcionada, no se perderá mucha potencia y, en ocasiones puede que hasta sea conveniente el considerar un ensayo no balanceado, como por ejemplo cuando probamos un nuevo tratamiento y deseamos obtener mucha información sobre él; en esta situación tomamos más individuos de la población a la que aplicamos el nuevo tratamiento que de la otra población y luego calculamos la potencia del ensayo clı́nico para ver si no ha disminuido de la mı́nima deseada. 1.5.1. Grupos de tratamientos permutados aleatoriamente Si queremos comparar dos tratamientos y el tamaño de nuestro ensayo clı́nico se fijó en n0 = 6 individuos, de forma que deseamos aplicar cada uno de los dos tratamientos a tres individuos para tener un experimento balanceado, uno puede pensar en asignar uno de los dos tratamientos al individuo que se incorpora al ensayo mediante un mecanismo de azar equivalente a lanzar una moneda, el cual puede consistir en elegir una muestra aleatoria de tamaño 6 de una binomial B(1, 0′ 5). Si se utiliza el software del curso ejecutando (1), obtendrá secuencias como la dada en (2), que lleva a aplicar al primer individuo incorporado al estudio, el tratamiento denominado 1, al segundo paciente incorporado al estudio el otro tratamiento, denominado 0, y ası́ sucesivamente, aplicando a cuatro pacientes el tratamiento 1 y a cuatro el 0, con lo que no tendrı́amos un ensayo no balanceado. > rbinom(6,1,0.5) [1] 1 0 1 0 0 0 (1) (2) Una forma alternativa de asignar de forma aleatoria y equiprobable los dos tratamientos a los 6 individuos del estudio según vayan llegando, obteniendo además un ensayo balanceado, es la de escribir primero todas las posibles alternativas de colocar tres unos y tres ceros. Éstas serán las permutaciones con repetición de 6 elementos, uno de los cuales se repite 3 veces y otro 3 veces (véase CB-sección 3.6); su número es RP63,3 = y su expresión 6! = 20 3! 3! D 17 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos 1. 4. 7. 10. 13. 16. 19. 111000 110001 101001 100011 001101 010101 011010 2. 5. 8. 11. 14. 17. 20. 110100 101100 100110 000111 001110 010110 011100 3. 6. 9. 12. 15. 18. 110010 101010 100101 001011 010011 011001 ahora elegirı́amos al azar de forma equiprobable uno de los 20 números y si obtenemos, por ejemplo, el 15 = {0, 1, 0, 0, 1, 1}, irı́amos aplicando a los individuos que se fueran incorporando al ensayo la secuencia de tratamientos número 15; es decir, al primer individuo que se incorpore al ensayo le aplicaremos el tratamiento 0, al segundo el tratamiento 1, y ası́ sucesivamente hasta el sexto, al cual le aplicarı́amos el tratamiento 1. El conjunto de 20 secuencias como las anteriores se denomina grupo de tratamientos permutados aleatoriamente, en este caso, de longitud 6. En inglés suelen denominarse random permuted blocks, pero esta denominación podrı́a confundirse con un tipo de Diseño de Experimento, sobre el que hablaremos más tarde. Como el número de individuos a los que se aplicará el ensayo clı́nico suele ser elevado, suelen utilizarse grupos de tratamientos permutados aleatoriamente de longitud 4, cuyo número serı́a RP42,2 = 4! =6 2! 2! y su expresión 1. 1100 4. 0011 2. 1001 5. 0110 3. 1010 6. 0101 sorteando después, de forma equiprobable, los números {1, 2, 3, 4, 5, 6} hasta formar una muestra del tamaño requerido por el ensayo clı́nico. Ası́ por ejemplo, si queremos que nuestro ensayo tenga un tamaño muestral igual a 20 individuos elegirı́amos primero de forma equiprobable e independiente cinco números de entre {1, 2, 3, 4, 5, 6} y si obtenemos, por ejemplo, los números 1, 4, 2, 1, 3, encadenarı́amos una sucesión de tratamientos de módulo 4, según los números seleccionados, resultando la siguiente sucesión de tratamientos a aplicar: 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0 Es decir, al primer y segundo individuos incorporado al estudio se le aplica el tratamiento 1, al tercero el tratamiento 0 y ası́ sucesivamente, hasta el vigésimo individuo que se le aplicarı́a el tratamiento 0. D 18 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Por supuesto existen otras posibles longitudes de grupos de tratamientos permutados aleatoriamente, dependiendo del número de individuos a seleccionar finalmente. Además, existen más variaciones sobre esta cuestión que no analizaremos con detalle, como por ejemplo, para evitar el posible sesgo que supone que el doctor sepa que tratamiento le va a aplicar al último paciente de un modulo; ası́ por ejemplo, si estamos utilizando una serie de tratamientos de modulo 4, una vez que sepa el doctor el tratamiento que se les ha aplicado a los tres primeros pacientes de la serie, dado que debe haber dos pacientes a los que se les aplica cada uno de los dos tratamientos, sabrá con certeza qué tratamiento se le va a aplicar a este último paciente. Esto se soluciona con los denominados grupos de tratamientos permutados aleatoriamente de longitud aleatoria los cuales consisten en combinar aleatoriamente dos grupos de tratamientos de longitud fija como los anteriormente descritos. Ası́ por ejemplo, se sortea primero con probabilidad 0′ 5 si se utiliza un grupo de tratamientos permutados aleatoriamente de longitud 4 o de longitud 6; una vez seleccionado el grupo se aplica el método antes descrito, con lo que no se tendrá conocimiento exacto de cuál es el tratamiento que viene a continuación puesto que el médico no sabrá qué longitud tiene el grupo de tratamientos. Por último, en el caso de que se esté considerando un Diseño por Bloques 3 aleatorizados (véase CB-sección 8.3) con el que eliminar una fuente de variación adicional no deseada del material soporte (en el caso de los ensayos clı́nicos, una fuente de variación adicional no deseada debida a los individuos), habrá de elegir una serie de grupos de tratamientos permutados aleatoriamente en cada uno de los bloques. 1.6. Análisis de los resultados En las secciones anteriores hemos determinado cuál deberı́a ser el tamaño de la muestra a utilizar en un ensayo clı́nico; también hemos analizado cómo debı́a dividirse ese tamaño muestral entre los grupos a comparar, e inclusive hemos estudiado cómo debı́an elegirse los individuos del ensayo, de forma que no se produjeran sesgos en los resultados. Hasta ahora, en toda esta primera parte del capı́tulo, nuestros esfuerzos han ido encaminados en obtener unos datos lo más representativos posible de las poblaciones que querı́amos comparar, de forma que la materia prima fuera de la mejor calidad. El análisis de esos resultados obtenidos constituye la segunda parte del ensayo clı́nico y, posiblemente, la más importante. No obstante, esta sección será breve puesto que la mayorı́a de los Métodos Estadı́sticos a utilizar en el 3 también denominados en ocasiones estratos D 19 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos mencionado análisis fueron ya estudiados en CB, por lo que no volveremos a revisarlos aquı́. Entre ellos podemos destacar los Intervalos de Confianza (CB-capı́tulo 6), los cuales deberán ser aplicados según las diversas situaciones (supuestas) que dieron origen a los datos obtenidos (poblaciones normales o no necesariamente normales, muestras pequeñas o grandes, varianzas conocidas o desconocidas, iguales o no, ...). No obstante, la herramienta estadı́stica más utilizada será, sin duda, el Contraste de Hipótesis (CB-capı́tulo 7) con la que podremos comparar las dos poblaciones en estudio. Si tenemos más de dos poblaciones (tratamientos) a comparar, la técnica del Análisis de la Varianza (CB-capı́tulo 8) en sus diversas modalidades (Diseño Completamente Aleatorizado, Diseño por Bloques, Diseño de Cuadrado Latino, ...) será el Método Estadı́stico adecuado a utilizar. Por último, si existe información relevante que desea ser incorporada en el análisis estadı́stico, de forma que no se distorsionen los resultados al partir los individuos seleccionados de condiciones (relacionadas con el ensayo) distintas, nos valdremos del Análisis de la Covarianza (CB-capı́tulo 11). Por tanto, los mencionados capı́tulos de CB contienen análisis de ensayos clı́nicos que pueden ser revisados. Lo que haremos en esta sección será analizar un ensayo clı́nico más, comentando algunas cuestiones adicionales. En concreto, analizaremos los resultados obtenidos en un ensayo clı́nico llevado a cabo por Hommel y otros en 1986, en pacientes de nefropatı́a, una dolencia del riñón que termina produciéndose como complicación médica en enfermos de diabetes. Como uno de los problemas que puede agravar la nefropatı́a es la presión sanguı́nea alta, el propósito que se persigue con el ensayo clı́nico es averiguar si, entre pacientes con nefropatı́a diabética dependientes de la insulina, es efectivo un medicamento denominado Captopril, en la reducción de la presión sanguı́nea sistólica. Para ello se determinó al azar un grupo tratamiento, a cuyos nueve individuos se les aplicó Captopril, y un grupo control, a cuyos siete pacientes se les aplicó un placebo. La variable observada fue la presión sanguı́nea sistólica (en mmHg) al cabo de una semana del comienzo del experimento, valor que denominaremos X1 para los individuos del grupo tratamiento y X2 para los del grupo control. Los resultados obtenidos por el equipo de Hommel fueron los dados en la tabla 1.1, Si modelizamos la situación suponiendo que las dos variables observadas siguen distribuciones normales, X1 ; N (µ1 , σ1 ) y X2 ; N (µ2 , σ2 ), lo que queremos averiguar con nuestro ensayo clı́nico es si puede aceptarse la hipótesis µ1 < µ2 , por lo que deberemos contrastar la hipótesis nula H0 : µ1 ≥ µ2 , frente a la alternativa H1 : µ1 < µ2 . Como los tamaños muestrales son pequeños, deberemos utilizar un test D 20 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud basado en la t de Student, para lo que resulta imprescindible la hipótesis de normalidad. (Más adelante relajaremos esta condición.) En estas condiciones, lo primero que debemos decidir si es aceptable considerar las varianzas poblaciones σ12 y σ22 como iguales o distintas. Captopril Paciente 1 2 3 4 5 6 7 8 9 Placebo Paciente 1 2 3 4 5 6 7 X1 137 120 141 137 140 144 134 123 142 X2 139 134 136 151 147 137 149 Tabla 1.1 Aunque siempre es criticable el utilizar los mismos datos, tanto para contrastar las hipótesis de interés sobre las medias poblacionales como las relativas a las varianzas, H0 : σ12 = σ22 frente a H1 : σ12 6= σ22 , habitualmente suele hacerse. Fundamentalmente, lo que implica esta doble utilización de los datos, es que hay que tener mucho cuidado con las conclusiones, las cuales deberı́an ser mucho más claras en un sentido de aceptación o rechazo de la hipótesis nula de interés. De los datos de la tabla 1.1 se obtiene que es x1 = 135′ 33, x2 = 141′ 86, 2 S1 = 71 y S22 = 48′ 14, por lo que aceptaremos la hipótesis H0 : σ12 = σ22 cuando y sólo cuando sea (CB-sección 7.5) i S12 h ∈ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 . 2 S2 Inclusive fijando un nivel de significación α = 0′ 2, el intervalo de aceptación anterior es h Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 i = = F8,6;0′ 9 , F8,6;0′ 1 = " 1 F6,8;0′ 1 , F8,6;0′ 1 # 1 , 2′ 983 = [0′ 3748 , 2′ 983] ′ 2 6683 y como es S12 /S22 = 1′ 4749, se aceptará la hipótesis nula con un p-valor mayor que 0′ 2, por lo que podemos aceptar la igualdad de las varianzas con gran seguridad. D 21 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos Ahora, la hipótesis nula de interés, H0 : µ1 ≥ µ2 se aceptará cuando y sólo cuando sea (CB-sección 7.6) s Como es (n1 − s x1 − x2 1)S12 + (n2 − 1)S22 n1 + n2 − 2 (n1 − 1)S12 s x1 − x2 + (n2 − n1 + n2 − 2 1)S22 ≥ tn1 +n2 −2;1−α . 1 1 + n1 n2 s 1 1 + n1 n2 = −1′ 6547 el p-valor del test será P {t14 < −1′ 6547} = 0′ 0601, lo que indica una decisión no muy clara (al estar entre 0′ 01 y 0′ 2). Si contrastamos la hipótesis nula de igualdad de las medias de los tratamientos, H0 : µ1 = µ2 , como mandan los cánones de los ensayos clı́nicos, aceptarı́amos H0 cuando fuera s |x1 − x2 | (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 s 1 1 + n1 n2 ≤ tn1 +n2 −2;1−α/2 siendo, en este caso, el p-valor del test, P {|t14 | > 1′ 6547} = 2·0′ 0601 = 0′ 1202, algo más indicativo de aceptar la hipótesis de igualdad de las dos medias poblacionales. Para obtener más información, suele acompañarse a todo análisis de resultados de un ensayo clı́nico, el intervalo de confianza, que para las caracterı́sticas que en las que aquı́ nos movemos serı́a (CB-sección 6.6), con un coeficiente de confianza del 95 %, " x1 − x2 ∓ tn1 +n2 −2;α/2 r (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 r 1 1 + n1 n2 # = [−14′ 98 , 1′ 93] el cual puede interpretarse como que puede existir un pequeño sesgo positivo de que se eleve (menos de 2 mmHg) la presión sanguı́nea (de consecuencias prácticamente irrelevantes) pero que es muy probable que disminuya de forma significativa esa presión sanguı́nea, puesto que la mayor parte del intervalo de confianza cubre la parte negativa de la diferencia de medias. Esto podrı́a deshacer la situación de indecisión, proporcionada por el test anterior, y hacer que nos decantáramos por aplicar el tratamiento con Captopril. Si analizamos con algún detalle la suposición de normalidad de los datos X1 y X2 , vemos en la figura 1.3 del gráfico de normalidad (CB-sección 14.4.1) D 22 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 120 125 130 X1 135 140 de los datos del grupo tratamiento, que un par de valores están algo alejados de la lı́nea, lo que puede augurar una posible falta de normalidad. -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Quantiles of Standard Normal Figura 1.3 : Gráfico de normalidad de los datos X1 De hecho, el coeficiente de curtosis k= n X i=1 (xi − x)4 /(nS 4 ) − 3 está algo alejado de cero, ya que toma el valor k = −1′ 0701. No obstante y aunque no tenemos muchos datos, el test de normalidad basado en dicho coeficiente de curtosis (CB-sección 14.4.3), proporciona un valor del estadı́stico de contraste (de distribución aproximadamente normal) igual a p |k| = 0′ 6553 24/n1 lo que da un p-valor igual a 2·P {Z > 0′ 6553} = 0′ 5122 sugiriendo la aceptación de la hipótesis nula de normalidad. Respecto a los datos del grupo control, el gráfico de normalidad dado en la figura 1.4 también sugiere una posible ausencia de normalidad. No obstante, el coeficiente de curtosis es igual a D 23 Al f on so Ga rcı́ aP ére z. UN E 135 140 X2 145 150 Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos -1.0 -0.5 0.0 0.5 1.0 Quantiles of Standard Normal Figura 1.4 : Gráfico de normalidad de los datos X2 k= n X i=1 (xi − x)4 /(nS 4 ) − 3 = −2′ 019885 y el test de normalidad basado en dicho coeficiente de curtosis proporciona un valor del estadı́stico de contraste igual a |k| = 1′ 09086 24/n2 p de p-valor igual a 2 · P {Z > 0′ 1′ 09086} = 0′ D 24 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud (hacemos notar que, aunque los empates no se deberı́an de presentar por ser las observaciones de tipo continuo, no podemos deshacerlas puesto que no tenemos los datos originales que podrı́an discriminarlos. No obstante, recordamos que el estadı́stico de contraste U es el número de X2 que preceden a cada X1 fijo, por lo que contaremos eso, los que preceden, es decir, los que son estrictamente menores, haciendo en consecuencia irrelevante el orden de los datos empatados). Contando ahora el número de X2 (valores subrayados) que preceden (es decir, que son estrictamente menores) que cada X1 (que cada valor sin subrayar) fijo, se obtendrá, al ir variando los X1 , un valor de U igual a U = (0 + 0 + 0) + (2 + 2) + (4 + 4 + 4 + 4) = 20 (por ejemplo, no existe ningún X2 que preceda al primer X1 = 120, de ahı́ el primer 0 de U ). Ahora, aceptaremos H0 : M1 ≥ M2 cuando y sólo cuando sea U > m·n−cα. Como ambos tamaños muestrales son aproximadamente iguales y mayores que 5, podemos aproximar el punto crı́tico cα por una normal, según se explica en CB, quedando en nuestro caso, para un nivel de significación α = 0′ 05, mn + zα cα = 2 s m n (n + m + 1) 9·7 = + 1′ 645 12 2 s 9 · 7 (7 + 9 + 1) = 47′ 04. 12 Como es U = 20 > m·n−cα = 15′ 96, no tenemos suficiente evidencia como para rechazar la hipótesis nula y aceptar la de interés, por lo que deberemos aceptar H0 . Inclusive, si contrastamos la hipótesis nula H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptaremos esta hipótesis nula cuando y sólo cuando sea m · n − cα/2 < U < cα/2 es decir, 63 − 50′ 02 < U < 50′ 02 ya que para un nivel de significación α = 0′ 05, será cα/2 mn = +zα/2 2 Y como es s m n (n + m + 1) 9·7 = +1′ 96 12 2 s 9 · 7 (7 + 9 + 1) = 50′ 02. 12 D 25 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos 12′ 98 < 20 = U < 50′ 02 aceptarı́amos incluso la igualdad de los efectos medianos de ambos grupos. El gráfico de normalidad dado por la figura 1.3 sugiere la posible presencia de dos datos anómalos al comienzo del recorrido de los valores del grupo tratamiento. De la misma manera, la figura 1.4 parece indicarnos un par de outliers en los extremos de los valores X2 . Todo esto sugiere la utilización de Métodos Robustos; en concreto el test robusto de comparación de dos poblaciones, basado en las medias α-recortadas (MR-sección 4.2), contrastando ahora la hipótesis nula H0 : µα,1 ≥ µα,2 frente a la alternativa H1 : µα,1 < µα,2 . Si utilizamos el software del curso de Estadı́stica Avanzada, introducirı́amos los datos en (1) y (2) y, considerando un porcentaje de recorte de α = 0′ 2 y un nivel de significación 0′ 05, ejecutarı́amos la sentencia yuen(X1,X2,0.2,0.1) en (3). > X1<-c(137,120,141,137,140,144,134,123,142) > X2<-c(139,134,136,151,147,137,149) > yuen(X1,X2,0.2,0.1) $ci [1] -13.912438 3.283867 $siglevel [1] 0.2876732 $dif [1] -5.314286 $se [1] 4.717804 $teststat [1] 1.126432 $crit [1] 1.822491 $df [1] 9.485389 (1) (2) (3) (4) (5) D 26 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Como el extremo superior del intervalo de Yuen, obtenido en (4), es 3,283867 > 0, debemos aceptar la hipótesis nula. De hecho el p-valor del test, es la mitad del valor dado en (5), e igual a 0′ 1438. La generalización robusta del test de Wilcoxon-Mann-Whitney (MR-sección 4.3) para contrastar de nuevo la igualdad de las medianas poblacionales H0 : M1 = M2 frente a H1 : M1 6= M2 , se podrı́a realizar ejecutando la función mee del curso de Estadı́stica Avanzada, que para un nivel de significación 0′ 05 se harı́a con la expresión (6), > mee(X1,X2) [1] "Peligro:Empates. Aunque las distribuciones sean idénticas no es necesariamente P(X<Y)=0.5" $phat [1] 0.6349206 $ci [1] 0.3322171 0.8587498 (6) (7) obteniendo en (7) el intervalo de aceptación el cual, al contener al 1/2, conduce también a aceptar la hipótesis nula de no influencia del Captopril. Por tanto, a pesar de la interpretación un tanto generosa que hicimos con el intervalo de confianza, todos los tests (tanto paramétricos, como robustos, como no paramétricos) nos indican que debemos concluir con que no existen diferencias significativas entre el grupo tratamiento y el grupo control, no siendo efectivo, al parecer, el uso del Captopril en la reducción de la presión sanguı́nea sistólica. No obstante, el equipo de Hommel pensó que la presión sanguı́nea inicial, antes de realizar el experimento, podı́a influir en los resultados, por lo que utilizó los valores de ésta (baseline value) B, los cuales habı́a anotado antes de realizar el experimento en los pacientes de ambos grupos, B1 y B2 , realizando un Análisis de la Covarianza para un factor y un diseño completamente aleatorizado (CB-sección 11.2). Los valores obtenidos por el equipo de Hommel son los que aparecen en la tabla 1.2, D 27 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos Captopril Paciente B1 1 147 2 129 3 158 4 164 5 134 6 155 7 151 8 141 9 153 X1 137 120 141 137 140 144 134 123 142 Placebo Paciente B2 1 133 2 129 3 152 4 161 5 154 6 141 7 156 X2 139 134 136 151 147 137 149 Tabla 1.2 Realizando un Análisis de la Covarianza con SAS (EASAS-sección 5.9), en el que planteamos las dos hipótesis nulas habituales, H0 : µ1 = µ2 , y H0′ : X y B no están relacionadas linealmente, (es decir, el Análisis de la Covarianza es innecesario), obtenemos la siguiente salida Dependent Variable: despues Source Model Error Corrected Total Source medica antes Source medica antes DF Sum of Squares Mean Square F Value Pr > F 2 576.69244 288.346220 8.37 0.0046 13 447.74506 34.441928 15 1024.43750 R-Square Coeff Var Root MSE despues Mean 0.562936 4.246929 5.868725 138.1875 DF Type I SS Mean Square F Value Pr > F 1 1 167.5803571 409.1120836 167.5803571 409.1120836 4.87 11.88 0.0460 0.0043 DF Type III SS Mean Square F Value Pr > F 1 1 202.0350785 409.1120836 202.0350785 409.1120836 5.87 11.88 0.0308 0.0043 (8) (9) obteniendo en (8) el p-valor del primer test que conduce a rechazar, ahora con mucha mayor claridad, la igualdad de los efectos medios del grupo tratamiento y el grupo control. (Sin la información adicional de la presión sanguı́nea antes de realizar el experimento, se obtuvo más arriba un p-valor de 0′ 1202 conducente a aceptar H0 ). Finalmente en (9) se obtiene el p-valor del segundo test, rechazando mucho más claramente que no es adecuado el Análisis de la Covarianza, por lo que D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 28 es este análisis el adecuado, con el cual, como acabamos de decir, se confirma que existen diferencias significativas entre el grupo tratamiento y el grupo control que, por los valores de las medias muestrales, lleva a concluir con que sı́ resulta efectivo el Captopril en la reducción de la presión sanguı́nea sistólica en enfermos de nefropatı́a diabética dependientes de la insulina. 1.7. Enfoques alternativos Vamos a estudiar en los dos siguientes apartados dos enfoques alternativos de ensayos clı́nicos; de hecho, sólo podemos calificar de ensayos clı́nicos a los analizados en el siguiente apartado, ya que el meta-análisis, con el que concluimos el capı́tulo, es una técnica de gran actualidad que permite aunar los resultados obtenidos en verdaderos ensayos clı́nicos. 1.7.1. Ensayos cruzados (Crossover trials) En los ensayos considerados hasta ahora (en ocasiones denominados Parallel group designs) se aplicaba un tratamiento a cada paciente, obteniéndose un sólo dato como respuesta a ese tratamiento. Este esquema es razonable en pacientes que, una vez realizado el ensayo, se curan. No obstante, en pacientes que no sanan después de aplicado el tratamiento (como, por ejemplo, los diabéticos) es posible modificar esta forma de actuación, aplicando todos los tratamientos a comparar, en cada uno de los pacientes seleccionados en el ensayo. Este tipo de ensayos recibe el nombre de Ensayos cruzados (Crossover trials). Con ellos es posible comparar, supuesto que consideráramos dos tratamientos, la respuesta obtenida al aplicar el tratamiento A con la obtenida al aplicar el tratamiento B, en el mismo paciente, evitando ası́ el posible sesgo del material soporte donde se realiza el experimento (en este caso, el paciente), obteniendo de esta manera resultados más precisos. No obstante, el propósito de este tipo de ensayos sigue siendo el mismo de siempre, contrastar la hipótesis nula, H0 : µA = µB , frente a la alternativa, H1 : µA 6= µB . El diseño AB/BA En el caso de comparación de sólo dos tratamientos, A y B (uno de los cuales puede ser un placebo), el ensayo cruzado más simple es el diseño AB/BA. Para realizarlo se asignan al azar los n pacientes del ensayo clı́nico a dos grupos: Los n1 pacientes del Grupo 1 recibirán los tratamientos en el orden AB D 29 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos y los n2 = n − n1 del Grupo 2 en el orden BA. La etapa en la que se aplica uno u otro tratamiento se denomina periodo, de forma que las asignaciones en el diseño AB/BA serı́an las dadas en la tabla 1.3 Periodo 1 A B Grupo 1 Grupo 2 Periodo 2 B A Tabla 1.3 obteniendo, después de realizar el ensayo, datos como los que aparecen en la tabla 1.4 Grupo 1 Grupo 2 Periodo 1 x11 . . . x1n1 y21 . . . y2n2 Periodo 2 y11 . . . y1n1 x21 . . . x2n2 Tabla 1.4 Si obtenemos la variable diferencia, puesto que son datos apareados, en los individuos del primer grupo Vi = X1i − Y1i , i = 1, ..., n1 y de la misma manera en los del segundo grupo, Wi = Y2i − X2i , i = 1, ..., n2 , tendrı́amos datos obtenidos de dos poblaciones independientes (Grupo 1 y Grupo 2) como los de la tabla 1.5 Grupo 1 Grupo 2 v1 . . . vn1 w1 . . . wn2 Tabla 1.5 por lo que podremos contrastar la hipótesis nula de igualdad de las medias poblacionales de ambos grupos, H0 : µV = µW de la forma habitual, como se estudió en CB-secciones 7.6 y 7.7. Por ejemplo, supuesto que V y W son normales (cosa que se tiene si X e Y lo son) con varianzas desconocidas pero iguales y los tamaños muestrales son pequeños, aceptarı́amos H0 : µV = µW cuando y sólo cuando sea s |v − w| 2 (n1 − 1)Sv2 + (n2 − 1)Sw n1 + n2 − 2 s 1 1 + n1 n2 ≤ tn1 +n2 −2;α/2 . Pero, como es µV = E[V ] = E[X1 − Y1 ] = E[X1 ] − E[Y1 ] = µA − µB y µW = E[W ] = E[Y2 − X2 ] = µB − µA , con el contraste t de Student anterior de comparación de dos muestras independientes, basado en v − w, D 30 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud estarı́amos contrastando la hipótesis nula H0 : µA − µB = µB − µA , es decir, H0 : 2 µA = 2 µB , o bien H0 : µA = µB , la hipótesis de interés. En situaciones distintas (poblaciones no normales, muestras grandes, etc.) utilizaremos el correspondiente test para la comparación de las dos muestras obtenidas como diferencia de los datos originales. Ejemplo 1.5 Senn y Auclair (1990) realizaron un ensayo cruzado AB/BA en el que se compararon dos broncodilatadores, salbutamol S y formoterol F , en pacientes con asma. Los pacientes fueron aleatoriamente asignados a dos grupos; en el Grupo 1 el orden fue F − S y en el Grupo 2, S −F . La variable observada fue el máximo caudal en espiración (MFE) en litros por minuto. Los resultados en los pacientes de ambos grupos, en ambos periodos, aparecen en la tabla 1.6 Grupo 1 (orden F − S) Grupo 2 (orden S − F ) Paciente 1 2 3 4 5 6 7 1 2 3 4 5 6 Periodo 1 310 310 370 410 250 380 330 370 310 380 290 260 90 Periodo 2 270 260 300 390 210 350 365 385 400 410 320 340 220 Tabla 1.6 Según vimos más arriba, para contrastar la hipótesis nula H0 : µS = µF , frente a la alternativa de H1 : µS 6= µF , deberemos realizar un contraste, en las condiciones que admitan los datos, con el que comparar las variables diferencia. Si suponemos que los valores MFE, para ambos fármacos, siguen distribuciones normales, podemos realizar un test de la t de Student con el software del curso avanzado, con la siguiente secuencia de instrucciones: > > > > > > > v1<-c(310,310,370,410,250,380,330) v2<-c(270,260,300,390,210,350,365) v<-v1-v2 w1<-c(370,310,380,290,260,90) w2<-c(385,400,410,320,340,220) w<-w1-w2 t.test(v,w,var.equal=T) Two Sample t-test data: v and w (1) D 31 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos t = 4.3249, df = 11, p-value = 0.001205 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 45.77619 140.65238 sample estimates: mean of x mean of y 30.71429 -62.50000 (2) Ejecutando (1) obtenemos el p-valor del test en (2) que conduce a rechazar la hipótesis nula anterior. Observemos que si hubiéramos realizado un ensayo clı́nico como los planteados hasta esta sección (es decir, un parallel group trial) considerando sólo el primer periodo, ejecutarı́amos (3) y obtendrı́amos en (4) un p-valor que indicarı́a aceptar la igualdad de los dos tratamientos. > t.test(v1,w1,var.equal=T) (3) Two Sample t-test data: v1 and w1 t = 1.1883, df = 11, p-value = 0.2597 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -45.8596 153.4786 sample estimates: mean of x mean of y 337.1429 283.3333 (4) Con el diseño AB/BA hemos eliminado del análisis la variabilidad entre los pacientes. Apuntamos también que con la utilización de Métodos Robustos en la comparación de los dos tratamientos (MR-sección 4.2.3) hubiéramos obtenido las mismas conclusiones, ya que, ejecutando (5), obtendrı́amos en (6) un p-valor conducente a rechazar la igualdad de los efectos medios de ambos tratamientos (al igual que antes). Análogamente, ejecutando (7), obtendrı́amos en (8) un p-valor que indica la igualdad de ambos medicamentos, al considerar tan solo el primer periodo. > yuen(v,w) $ci [1] 32.43511 154.56489 $siglevel [1] 0.01393364 $dif [1] 93.5 $se [1] 21.34282 (5) (6) D 32 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud $teststat [1] 4.380865 $crit [1] 2.861145 $df [1] 3.719139 > yuen(v1,w1) $ci [1] -64.10747 129.10747 $siglevel [1] 0.4247106 $dif [1] 32.5 (7) (8) $se [1] 37.34014 $teststat [1] 0.8703771 $crit [1] 2.587229 $df [1] 4.895166 En todo este apartado hemos supuesto que el efecto del tratamiento aplicado en el periodo 1 no persiste durante el periodo 2; es decir, que no existe el denominado efecto remanente (carryover effect). 1.7.2. Meta-Análisis En este punto resulta superfluo decir que los ensayos clı́nicos no siempre conducen a decisiones claras, y no sólo porque el p-valor asociado a un ensayo clı́nico quede en el intervalo (0′ 01 , 0′ 2), sino porque, en algunas ocasiones, distintos Métodos Estadı́sticos conducen a distintas conclusiones. Además, un mismo ensayo clı́nico repetido al cabo de un año puede contradecir al que le precedió, simplemente porque algunas condiciones han cambiado durante en ese tiempo. Por otro lado, resulta evidente la gran cantidad de publicaciones sobre, prácticamente, el mismo ensayo clı́nico. Parece pues razonable utilizar algún tipo de técnica que permita utilizar D 33 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos toda la información disponible sobre un mismo ensayo, de manera que se pueda sacar una conclusión global la cual, en principio, deberı́a ser más fiable puesto que se basa en varios ensayos y no sólo en uno. Esto es básicamente el MetaAnálisis, revisiones cuantitativas de la evidencia disponible, realizadas, en la mayorı́a de los casos, sin disponer de los datos originales. Además, el hecho de que algunos comités éticos exijan esta revisión de la evidencia disponible antes de autorizar un nuevo ensayo clı́nico, ha hecho del Meta-Análisis un tema de gran actualidad, el cual debe valorarse en su justa medida, ya que pueden existir grandes diferencias en ensayos clı́nicos que se aúnan en un meta-análisis. Ya para empezar, la primera dificultad práctica con la que nos encontramos es la gran cantidad de publicaciones (más de 20.000 revistas biomédicas publicando un total de más de 2.000.000 de artı́culos cada año), lo que dificulta notablemente la localización de trabajos relevantes sobre el tema en el que estemos interesados. Una dirección de internet frecuentemente utilizada para esta búsqueda es http://www.medscape.com o su análogo http://www.medline.com aunque es necesario inscribirse para obtener la mayorı́a de las informaciones interesantes. En todo caso, supongamos que ya contamos con resultados de ensayos, publicados o no, sobre un determinada comparación de tratamientos en la que estemos interesados. Estos ensayos, con los que haremos el meta-análisis, se denominan ensayos identificados. En los dos siguientes apartados haremos dos tipos distintos de meta-análisis. Estimación del efecto global mediante el uso de efectos fijos Uno de los objetivos habituales del meta-análisis es la estimación del denominado efecto global θ del tratamiento que está siendo valorado, basándonos en los ensayos identificados. θ será la diferencia de medias de las dos poblaciones a comparar, o la diferencia de proporciones, o también puede ser una log odds ratio (en TA-capı́tulos 8 y 9 se estudian otros análisis de log odds ratios). Denominaremos θ̂1 , ..., θ̂k a los k estimadores de θ obtenidos en los k ensayos identificados. El modelo que consideramos en este apartado se denomina de efectos fijos porque supone que todos los ensayos identificados estiman la misma cantidad θ. Es decir, supondremos aquı́ que la única variabilidad que afecta a cada estimador θ̂i es su varianza en el muestro, Vi . D 34 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Si los θ̂i fueran de la forma diferencia de medias muestrales, xi1 − xi2 , serı́a (si las muestras son pequeñas, las poblaciones normales con varianzas desconocidas pero iguales), Vi = (ni1 − 1)(S1i )2 + (ni2 − 1)(S2i )2 ni1 + ni2 · i i ni1 + ni2 − 2 n1 n2 Si los θ̂i fueran de la forma diferencia de proporciones muestrales, p̂i1 − p̂i2 , serı́a Vi = p̂i1 (1 − p̂i1 ) p̂i2 (1 − p̂i2 ) + ni1 ni2 Por último, puede ocurrir que los resultados de los k ensayos identificados fueran los de una tabla de frecuencias absolutas como la tabla 1.7 Ensayo 1 .. . i .. . k Grupo 1 Muertos Vivos a1 b1 .. .. . . ai bi .. .. . . ak bk Grupo 2 Muertos Vivos c1 d1 .. .. . . ci di .. .. . . ck dk Tabla 1.7 con lo que cada uno de los θ̂i serı́a el logaritmo de una razón de frecuencias o prevalencias (log odds ratio) de la forma di = OR ai /bi ai · di = ci /di ci · bi es decir, el cociente entre la razón de muertos respecto a vivos en el primer grupo y la razón de muertos respecto a vivos en el grupo segundo, o mejor, la prevalencia en el primer grupo dividido por la prevalencia en el segundo. Una OR < 1 indica que es más eficaz (porque se muere menos gente) el tratamiento al que fue sometido el Grupo 1. Una OR > 1 indica que es más efectivo el tratamiento del Grupo 2. Suele añadirse el factor 0′ 5 a todas esas cantidades para reducir el sesgo de los estimadores y para que, en el caso de que alguna de las frecuencias absolutas de la tabla genérica 1.7 sea cero, la odds ratio dé un valor absurdo, utilizándose por tanto la expresión di = OR (ai + 0′ 5) · (di + 0′ 5) . (ci + 0′ 5) · (bi + 0′ 5) D 35 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos d i es estimada por La varianza Vi de θ̂i = log OR 1 1 1 1 + + + . ′ ′ ′ ai + 0 5 bi + 0 5 ci + 0 5 di + 0′ 5 Vi = d i en lugar de las pro(Se toman como estimadores θ̂i los logaritmos de las OR pias odds ratios porque con el logaritmo obtenemos una mejor aproximación a la distribución normal). Como estimador de θ, el modelo de efectos fijos utiliza θ̂F = Pk i=1 wi · θ̂i Pk i=1 wi = k X i=1 wi Pk i=1 wi θ̂i en donde es wi = 1/Vi . La varianza de θ̂F es 1 V (θ̂F ) = ( k X wi )2 k X 1 1 1 wi2 V (θ̂i ) = ( k X wi )2 1 k X 1 1 wi2 Vi = ( k X wi )2 k X 1 1 wi = 1 k X wi 1 Si√puede admitirse para los θ̂i distribuciones aproximadamente normales N (θ, Vi ), también θ̂F tendrá una distribución aproximadamente normal (estimando también insesgadamente a θ), por lo que un intervalo de confianza para θ, de coeficiente de confianza 1 − α, será (siguiendo para la obtención de dicho intervalo el guión establecido en las secciones 6.1 ó 6.2 de CB) 1 IF = θ̂F − zα/2 qP k 1 1 wi , θ̂F + zα/2 qP k 1 wi . Ejemplo 1.6 Crowley y otros (1990) recogieron los resultados de 12 ensayos clı́nicos llevados a cabo para analizar el efecto de una terapia con esteroides (habitualmente dexametasona) en comparación con un tratamiento placebo, en futuras madres, para la prevención del sı́ndrome de agotamiento respiratorio (RDS) en los recién nacidos. La variable de respuesta fue dicotómica: el bebé murió (por RDS) o no. Los resultados aparecen en la tabla 1.8. D 36 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Ensayo 1 2 3 4 5 6 7 8 9 10 11 12 Grupo de esteroides Muertos Vivos 36 496 1 68 3 61 5 51 2 79 0 38 14 117 36 335 7 114 1 70 2 65 5 29 Grupo control Muertos Vivos 60 478 5 56 12 46 7 64 10 53 0 42 20 117 37 335 13 111 5 70 7 52 5 26 Tabla 1.8 Los elementos que son necesarios en la determinación del estimador θ̂F y del intervalo de confianza, aparecen en la tabla 1.9. Por ejemplo, los odds ratios del primer ensayo y su varianza son respectivamente c1 = OR 36′ 5 · 478′ 5 = 0′ 58 496′ 5 · 60′ 5 1 1 1 1 + + ′ + = 0′ 048. 36′ 5 496′ 5 60 5 478′ 5 Los valores que representan las demás columnas aparecen indicados en la primera fila de la propia tabla 1.9. V1 = Ensayo 1 2 3 4 5 6 7 8 9 10 11 12 Sumas ci OR 0′ 58 0′ 22 0′ 21 0′ 92 0′ 16 1′ 10 0′ 71 0′ 97 0′ 54 0′ 27 0′ 27 0′ 90 Vi 0′ 0480 0′ 8808 0′ 4035 0′ 3500 0′ 5265 4′ 0495 0′ 1348 0′ 0601 0′ 2251 0′ 8769 0′ 5676 0′ 4352 wi = 1/Vi 20′ 833 1′ 135 2′ 478 2′ 857 1′ 899 0′ 247 7′ 418 16′ 639 4′ 442 1′ 140 1′ 762 ′ P 2 298 ′ wi = 63 148 Pesos: wi / 0′ 330 0′ 019 0′ 039 0′ 046 0′ 030 0′ 004 0′ 117 0′ 263 0′ 070 0′ 018 0′ 028 0′ 036 1 P wi ci θ̂i = log OR −0′ 5447 −1′ 5141 −1′ 5606 −0′ 0834 −1′ 8326 0′ 0953 −0′ 3425 −0′ 0305 −0′ 6162 −1′ 3093 −1′ 3093 −0′ 1054 wi · θ̂i −11′ 348 −1′ 718 −3′ 867 −0′ 238 −3′ 480 0′ 023 −2′ 541 −0′ 507 −2′ 737 −1′ 493 −2′ 307 −0′ 242 −30′ 455 Tabla 1.9 En esta tabla observamos que los pesos wi correspondientes a los ensayos más numerosos son mayores, por lo que éstos influirán más en el estimador, como debe de ser. De esta tabla obtenemos que el estimador del efecto global proporcionado por el meta-análisis de efectos fijos es D 37 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos θ̂F = Pk w · θ̂i 30′ 455 i=1 i =− ′ = −0′ 4823 P k i=1 y, por tanto, el del odds ratio, wi 63 148 c = exp{θ̂F } = 0′ 6174 OR indicando, al ser este estimador menor que 1, que es más efectivo el tratamiento suministrado al grupo 1, en el sentido de que hay menos fallecimientos (por RDS) con este tratamiento a base de esteroides. El intervalo de confianza del 95 % para θ = log OR será IF = 1 θ̂F − zα/2 q Pk 1 = wi , θ̂F + zα/2 q 1 Pk 1 wi 1 1 , −0′ 4823 + 1′ 96 √ −0 4823 − 1 96 √ 63′ 148 63′ 148 ′ ′ = [−0′ 7829 , −0′ 2357] con lo que el intervalo de confianza para el odds ratio será (tomando las exponenciales de los extremos anteriores), [0′ 4824 , 0′ 79] que, como vemos, tiene un extremo superior bastante alejado de 1, confirmando las conclusiones que obtuvimos más arriba para el estimador puntual. Estimación del efecto global mediante el uso de efectos aleatorios En el apartado anterior estudiamos cómo se podı́a estimar el efecto global θ, suponiendo que los k ensayos identificados analizaban todos ellos el mismo efecto global θ. De hecho, se suele contrastar (aunque con poca potencia) la hipótesis nula de modelo de efectos fijos mediante el estadı́stico de contraste Q= k X i=1 wi (θ̂i − θ̂F )2 [1 2.77685(2)71]11TfΩ2.880TdΩ[(=)-10176 D 38 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud √ estimamos un efecto θi mediante un estimador θ̂i con distribución N (θi , Vi ). Éste es el modelo de efectos aleatorios. Es decir, podemos representar este modelo como un proceso de selección en dos etapas: En la primera obtenemos una muestra aleatoria θ1 , θ2 , ..., θk , en donde cada una de ellas tiene distribución N (θ, σ), la misma que la población de donde se obtuvieron. En la segunda estimamos cada uno de estos θi (en el ensayo i-ésimo regido por un modelo de efectos fijos como el estudiado en el apartado√anterior) con el estimador θ̂i , el cual suponemos sigue una distribución N (θi , Vi ). Por tanto, la media y la varianza de cada θˆi será h i h i E θ̂i = E1 E2 [θ̂i /θi ] = E1 [θi ] = θ i h V θ̂i = E1 V2 (θ̂i /θi ) + V1 E2 [θ̂i /θi ] = E1 (Vi ) + V1 (θ1 ) = Vi + σ 2 en donde la segunda igualdad se obtiene de aplicar el teorema de Madow. (Para estos resultados, muestreo con submuestreo, puede verse por ejemplo Azorı́n y Sánchez-Crespo, 1986, pág. 174). Ası́ pues, el meta-análisis de efectos aleatorios supone un procedimiento en dos etapas en donde con cada θ̂i estimamos (insesgadamente) θ con una varianza σ 2 + Vi , varianza a la que denominaremos 1/w̃i ; es decir, w̃i = σ2 1 . + Vi Ahora, como estimador de θ, el modelo de efectos aleatorios utiliza θ̂A = Pk k · θ̂i X w̃i θ̂i = Pk i=1 w̃i i=1 w̃i i=1 i=1 w̃i Pk P estimador que tendrá varianza 1/ w̃i . Por tanto, un intervalo de confianza para θ basado en θ̂A , de coeficiente de confianza 1 − α, será 1 IA = θ̂A − zα/2 qP k 1 1 w̃i , θ̂A + zα/2 qP k 1 w̃i . Como es σ 2 ≥ 0 será w̃i ≤ wi para todo i = 1, ..., k, con lo que el intervalo de confianza suministrado por el meta-análisis de efectos aleatorios tiene mayor longitud (es menos preciso) que el de efectos fijos, cosa lógica puesto que el de efectos aleatorios recoge la incertidumbre de una mayor variabilidad. D 39 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos Por último, digamos que el cálculo de los w̃i requiere del conocimiento de σ 2 , valor que suele estimarse por ( c 2 σ = máx 0 , P Q−k+1 P P wi − ( wi2 )/ wi ) c2 será más preciso cuanto en donde Q viene dado por [1.2]. El estimador σ mayor sea k. Ejemplo 1.6 (conclusión) Aunque el estadı́stico [1.2] toma, para los datos de este ejemplo, un valor Q = 14′ 05, lo que proporciona un p-valor igual a P {χ211 > 14′ 05} = 0′ 2302391, que conducirı́a a aceptar la hipótesis de un meta-análisis de efectos fijos, vamos a determinar los estimadores suministrados por uno de efectos aleatorios. El estimador de σ 2 serı́a σb2 = 0′ 061, siendo el estimador de efectos aleatorios de θ = log OR igual a θ̂A = −0′ 549 y, por tanto, el estimador de efectos aleatorios de la odds ratio, c = exp{−0′ 549} = 0′ 58 y el intervalo de confianza para la odds ratio, [0′ 42 , 0′ 79]. OR Como se ve, valores muy semejantes a los obtenidos con el de efectos fijos, por ser σb2 muy pequeño. Ejemplo 1.7 El trabajo cientı́fico que dio origen al meta-análisis se debe a Lau y su equipo, el cual fue publicado en 1992 en la revista New England Journal of Medicine y que trataba sobre el uso de trombolı́ticos para el tratamiento del infarto de miocardio. Los trombolı́ticos son denominados, frecuentemente, caza-coágulos (clot-busters) porque son administrados inmediatamente después del infarto con objeto de que disuelvan el coágulo de sangre y se disminuya en todo lo posible el daño causado en el corazón. Entre los años 1959 y 1988 se habı́an realizado 33 ensayos clı́nicos utilizando este medicamento. En todos ellos se asignaban al azar pacientes al grupo tratamiento (a los que se suministraba el trombolı́tico) o al grupo control (a los que se les administraba placebo), observándose si el paciente sobrevivı́a o fallecı́a. En http://www.statsol.ie/metaanalysis/pics/cma.gif aparece el resultado de los 33 ensayos en los que se observa que casi todos indican aceptar la hipótesis nula de ausencia de diferencias significativas entre ambos grupos al ser los p-valores de 26 de ellos mayores que 0′ 05 (aunque dos son dudosos, European 3 y Wisenberg). Sólo en 7 de los ensayos se obtuvieron p-valores menores que 0′ 05 (aunque el cuarto es muy dudoso) indicando la eficacia de los trombolı́ticos. En el lado derecho aparece el forest plot en el que se van representando los intervalos de aceptación de cada ensayo y la lı́nea vertical de la hipótesis nula OR = 1, es decir ningún efecto, (una OR < 1 indica un mejor comportamiento del grupo tratado y una OR > 1 un mejor comportamiento del grupo control). Si la lı́nea vertical corta el intervalo del ensayo, éste no es estadı́sticamente significativo. Lau y su grupo efectuaron el meta-análisis, el cual aparece en la última lı́nea, para que el obtuvieron una odds ratio igual a 0′ 768 y un p-valor menor que 0′ 0001. Como resultado de esta meta-análisis, hoy en dı́a se utilizan los trombolı́ticos en el tratamiento estándar de un ataque al corazón. D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 40 Una de las razones para que sucediera esta aparente contradicción es que los tamaños muestrales (columna N Total) no son adecuados en la mayorı́a de los ensayos. D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2 Análisis de Supervivencia 2.1. Introducción Se denomina Análisis de Supervivencia a una serie de técnicas y métodos estadı́sticos desarrollados para el análisis de datos referentes al tiempo que transcurre hasta que un determinado suceso ocurre. Estos sucesos se denominan fallos, por lo que el Análisis de Supervivencia es, en definitiva, un análisis de tiempos de fallo T1 , ..., Tn , concebidos éstos como realizaciones de n variables aleatorias independientes e idénticamente distribuidas, aunque con una particularidad, éstos son variables no negativas, ya que ningún tiempo de fallo puede serlo. Existe una peculiaridad adicional en estos datos como veremos más adelante: algunos pueden ser valores censurados. Estos tiempos de fallo suelen ser variables biomédicas, como por ejemplo tiempos de vida de pacientes, aunque también pueden ser variables de tipo industrial, como por ejemplo las duraciones de determinados componentes electrónicos. Sobre estas variables se realizarán las habituales inferencias: estimación por punto, intervalos de confianza y contrastes de hipótesis, referentes a algún parámetro desconocido de su distribución. No obstante, es muy habitual que existan una serie de covariables o predictores X1 , ..., Xk bajo el control del investigador, que suponemos influyen sobre la variable en observación Tiempo de Fallo T . Por ello, dividiremos el Análisis de Supervivencia en dos grandes secciones. En la primera no supondremos la existencia de esas covariables explicativas, estando interesados, entre otras cosas, en estimar y especificar un modelo para la distribución de tiempo de fallo, es decir, para la distribución de T . En la segunda analizaremos el tipo de relación existente entre la variable tiempo de fallo T y k variables explicativas X1 , ..., Xk , es decir, realizaremos un Análisis de Regresión. Pero, como comentábamos más arriba, tanto en la primera como en la 41 D 42 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud segunda parte, va a estar presente una caracterı́stica muy peculiar del Análisis de Supervivencia: algunos datos pueden ser censurados, es decir, algunos de los tiempos de fallo observados pueden faltar, bien porque éstos hayan salido del experimento antes de fallar (por ejemplo hayan muerto por alguna causa diferente de la que se estaba estudiando, o porque hayan dejado de ir a la consulta), o simplemente porque el experimento haya terminado sin que se hubiera producido el fallo. Ejemplo 2.1 La siguiente tabla recoge, Pike (1966), los dı́as transcurridos desde que varias ratas fueron inoculadas con el carcinogén DMBA hasta su muerte por cáncer vaginal. Se distinguieron dos grupos a causa de dos tratamientos previos a dicha inoculación, siendo el propósito del experimento averiguar si existen diferencias significativas entre estos dos pretratamientos a la hora de prevenir el mencionado cáncer. Grupo 1 143 220 164 227 188 230 188 234 190 246 192 265 206 304 209 216∗ 213 244∗ 216 Grupo 2 142 233 344∗ 156 239 163 240 198 261 205 280 232 280 232 296 233 296 233 323 233 204∗ Sin embargo, no podemos realizar, por ejemplo, un test de la t de Student o algún test no paramétrico de comparación de dos poblaciones porque entre los datos anteriores existen cuatro datos censurados —los marcados con asterisco—. Cuatro ratas murieron por una causa diferente a la objeto de estudio; no obstante, estas cuatro observaciones no deben eliminarse, ya que aportan información interesante: sus tiempos de fallo son superiores a 216, 244, 204 y 344 dı́as respectivamente. 2.2. Tipos de censura A continuación vamos a estudiar diversas maneras en las que puede producirse la pérdida de tiempos de fallo. Sean T1 , ..., Tn , n tiempos de fallo, es decir, n variables aleatorias independientes, identicamente distribuidas y no negativas. Censura de tipo I Este tipo de censura, también denominada censura temporal es la más habitual desde un punto de vista práctico tanto en ingenierı́a como en estudios médicos. Supongamos, por ejemplo, que ponemos a prueba un grupo de motores con objeto de observar sus tiempos de fallo, es decir, cuándo dejan de funcionar. Si éstos tienen un tiempo de fallo muy elevado, no podemos esperar a que fallen todos los motores para obtener las observaciones, por lo que parece razona- D 43 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia ble parar el experimento en un tiempo prefijado tc , obteniendo solamente los tiempos de fallo inferiores a tc . Situaciones semejantes se presentan en Medicina cuando, antes de iniciar un experimento, tenemos un tiempo prefijado para terminar el estudio y debemos censurar aquellos tiempos de fallo no obtenidos antes de terminar dicho experimento. Es decir, en lugar de observar los tiempos de fallo T1 , ..., Tn , los datos que tenemos son realizaciones de las variables Z1 , ..., Zn en donde Zi = ( Ti si Ti ≤ tc tc si tc < Ti Censura de tipo II Como acabamos de decir, en algunas ocasiones, especialmente en ingenierı́a, debido a que los tiempos de fallo de las componentes son muy elevados, no suele interesar esperar a la obtención de todos ellos, siendo razonable utilizar un tipo de censura temporal. No obstante, puede ocurrir que cuando se alcance el tiempo tc no haya fallado ningún individuo todavı́a, resultando el experimento muy poco significativo. Una forma alternativa de actuar es concluir el experimento después del résimo fallo, siendo en ese caso las observaciones, en función de los estadı́sticos ordenados, Z(1) = T(1) , ..., Z(r) = T(r) , ..., Z(r+1) = T(r) , ..., Z(n) = T(r) es decir, detenemos el experimento cuando tengamos r tiempos de fallo; los restantes n − r serán de censura. Censura aleatoria En la censura de tipo I observábamos el tiempo de fallo Ti , i = 1, ..., n siempre y cuando éste fuera menor o igual que una constante prefijada. La censura aleatoria generaliza este concepto considerando, en lugar de una constante, una variable aleatoria Ci , denominada tiempo de censura —la cual representa aquellas posibles causas no consideradas en el experimento y que provocan la censura—, observando el tiempo de fallo cuando sea Ti ≤ Ci . Nuestros datos, por tanto, serán observaciones Zi , las cuales además sabremos si son tiempos de fallo o de censura. En concreto, los datos serán pares de la forma (Z1 , δ1 ), ..., (Zn , δn ), en donde Zi = mı́n{Ti , Ci } y δi = ( 1 si Ti ≤ Ci 0 si Ti > Ci D 44 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud siendo las variables Ti y Ci independientes, i = 1, ..., n. Otros tipos de censura En todos los tipos de censura anteriores, hablábamos de censura por la derecha, la cual se caracteriza porque los valores de la variable tiempo de fallo son demasiado grandes como para ser observados todos. De forma análoga puede considerarse la censura por la izquierda en la que observamos (Z1 , ǫ1 ), ..., (Zn , ǫn ), siendo Zi = máx{Ti , Ci } y ǫi = ( 1 si Ti ≥ Ci 0 si Ti < Ci y siendo de nuevo las variables Ti y Ci independientes, i = 1, ..., n. Esta situación se da, por ejemplo, cuando un psicólogo quiere averiguar la edad a la cual un cierto grupo de niños aprende a realizar una determinada tarea —leer, escribir, etc—. Los niños que sepan realizar la tarea en cuestión al comienzo del estudio, constituyen los datos censurados por la izquierda; los que aprendan durante el estudio aportarán los tiempos de fallo. Y, ¿qué ocurre si algunos no llegan a aprender en el tiempo que dura el experimento?; en ese caso, nos faltarı́an los tiempos de fallo anteriores al comienzo del experimento y posteriores a su conclusión, y habları́amos de censura por intervalos. 2.3. Distribuciones de tiempo de fallo Después de analizar diversas formas de censura, vamos a definir las principales funciones a utilizar en un análisis de supervivencia. En esta sección supondremos una población homogénea, es decir, sin presencia de covariables. La presencia de covariables será considerada en la siguiente sección. Sea T una variable aleatoria no negativa la cual representa el tiempo de fallo de un individuo. La distribución de probabilidad de T se puede especificar de varias maneras aunque, en Análisis de Supervivencia, tres son particularmente útiles: La función de supervivencia, la función de densidad (o masa) y la función tasa de azar. La función de supervivencia de T se define como la probabilidad de que T sea al menos tan grande como t; es decir, S(t) = P {T ≥ t} t≥0 función claramente no creciente, continua por la izquierda, con S(0) = 1 y lı́mt→∞ S(t) = 0. Aunque es posible encontrar distribuciones de tiempo de fallo discretas (o mixtas), en la mayorı́a de las situaciones que trataremos, las distribuciones de D 45 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia tiempo de fallo serán continuas, las cuales están caracterizadas por la función de densidad, definida de la forma habitual d S(t) dt f (t) = − siendo, por tanto, S(t) = Z ∞ f (u) du f (t) ≥ 0 , t Z y ∞ f (t) dt = 1 0 y siendo el tiempo medio de supervivencia µ= Z ∞ t f (t) dt. 0 La tercera función habitualmente utilizada para caracterizar la distribución de tiempo de fallo es la denominada tasa de azar, definida como λ(t) = f (t) S(t) la cual representa la tasa instantánea de fallo en T = t condicionada a haber sobrevivido hasta el tiempo t. Como es d log S(t) dt integrando y usando que S(0) = 1 se obtiene que λ(t) = − S(t) = exp − y Z t λ(u) du 0 f (t) = λ(t) exp − Z 0 t λ(u) du [2.1] [2.2] lo que demuestra que la tasa de azar también caracteriza la distribución de tiempo de fallo. 2.3.1. Algunas distribuciones de tiempo de fallo Como antes, sea T ≥ 0 una variable aleatoria tiempo de fallo siendo Y = log T . A continuación vamos a estudiar algunas de las distribuciones de tiempo de fallo —distribuciones de T — más habituales, las cuales caracterizaremos en términos de T o de Y . D 46 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud No hemos incluido entre ellas otras tres de sobra conocidas; nos referimos a la distribución normal, la distribución gamma y la distribución logı́stica. Distribución exponencial Se define a través de su tasa de azar. Diremos que T sigue una distribución exponencial si su tasa de azar es constante; es decir, si ∀t ≥ 0 λ(t) = λ > 0 es decir, que la propensión al fallo de un individuo en un momento dado t es independiente del tiempo que éste lleve vivo. Por esta razón se dice que la distribución exponencial tiene una propiedad de falta de memoria. A partir de [2.1] y [2.2] será ahora S(t) = e−λ t f (t) = λ e−λ t y t ≥ 0. Por tanto, una forma razonable de comprobar si los tiempos de fallo siguen una distribución exponencial los logaritmos del estimador de la es representar función de supervivencia, ti , log Ŝ(ti ) y ver si están aproximadamente en lı́nea recta de pendiente (−λ) negativa. Un sencillo cambio de variable determina que la función de densidad de Y = log T es f (y) = exp y − α − ey−α −∞<y <∞ con lo que si expresamos Y de la forma Y =α+W la distribución de W tendrı́a por densidad f (w) = exp {w − ew } [2.3] denominada distribución del valor extremo (mı́nimo). Se puede demostrar que la distribución exponencial se obtiene como lı́mite del mı́nimo, de muestras extraı́das de distribuciones con soporte en (0, ∞), lo que justifica su uso en estudios de supervivencia en donde un mecanismo complejo falla cuando alguno de sus componentes falla. Distribución de Weibull Si permitimos que la tasa de azar dependa (potencialmente) del tiempo, λ(t) = λ p (λ t)p−1 D 47 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia se obtiene la denominada distribución de Weibull de dos parámetros, λ, p > 0, la cual es una generalización de la distribución exponencial. Su función de supervivencia y densidad serán, por tanto, S(t) = exp {−(λ t)p } y f (t) = λ p (λ t)p−1 exp {−(λ t)p } t≥0 con lo que una forma razonable que comprobar si nuestros tiempos de fallo siguen una distribución de Weibull, es ver si los pares log ti , log(− log Ŝ(ti )) están aproximadamente en lı́nea recta de pendiente p. Como la función de densidad de Y = log T es f (y) = 1 y−α exp − e(y−α)/σ σ σ −∞<y <∞ con σ = p−1 y α = − log λ, podemos escribir Y = α+σW en donde W tiene la distribución del valor extremo del apartado anterior. Distribución log-normal Si expresamos de nuevo Y = log T de la forma Y = α+σW ahora con W ; N (0, 1), la distribución de T se dice log-normal. Su función de densidad es p f (t) = √ exp t 2π ( −p2 (log λt)2 2 ) en donde, como antes, α = − log λ y σ = 1/p. Si Φ representa la función de distribución de la N (0, 1), la función de supervivencia de T es S(t) = 1 − Φ(p log λt). El modelo log-normal es sencillo de aplicar cuando no hay censura, aunque, cuando ésta está presente, los cálculos se hacen laboriosos, siendo habitual, en ese caso, utilizar una distribución de tiempo de fallo log-logı́stica, la cual es una buena aproximación de la log-normal. Distribución log-logı́stica Si expresamos Y = log T de la forma D 48 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Y = α+σW se pueden obtener diversas distribuciones de tiempo de fallo, considerando diferentes distribuciones para W . En concreto, si consideramos para W una distribución logı́stica, con función de densidad f (w) = ew (1 + ew )2 la distribución de T se dirá log-logı́stica, la cual tiene por función de densidad f (t) = λ p (λt)p−1 [1 + (λt)p ]−2 en donde de nuevo es λ = e−α y p = 1/σ. Como antes dijimos, una de las ventajas de esta distribución es que su función de supervivencia y su tasa de azar son muy manejables. Éstas son respectivamente, S(t) = 2.4. 1 1 + (λ t)p y λ(t) = λ p (λt)p−1 1 + (λt)p Modelos de Regresión En análisis de supervivencia es habitual contar con la presencia de determinadas variables independientes X1 , ..., Xk , denominadas covariables, las cuales aportan información sobre la variable dependiente tiempo de fallo T (o su logaritmo Y ). El propósito de esta sección es modelar la relación existente entre las covariables independientes y la variable dependiente. Se trata, por tanto, de un Análisis de la Regresión en donde, como es habitual, el propósito principal será, primero, determinar qué covariables son significativas a la hora de explicar la variable dependiente T y, segundo, estimar los parámetros α, β1 , ..., βk que relacionan las covariables significativas y la variable dependiente. Ahora, no obstante, tendremos la peculiaridad de que pueden aparecer datos censurados y que la distribución de los errores aleatorios no siempre será normal. 2.4.1. Modelos de regresión Exponencial y Weibull Si admitimos que la tasa de azar sea función de las covariables xt = (x1 , ..., xk ) de la forma xt β λ(t; x) = λ e = λ exp ( k X i=1 xi βi ) D 49 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia con β = (β1 , ..., βk )t , la tasa de azar será constante para cada x, como corresponde a una distribución exponencial, aunque dependiente ahora de las mencionadas covariables. En términos de Y = log T el modelo anterior se puede expresar de la forma Y = α − xt β + W donde α = − log λ y W una variable aleatoria con distribución del valor extremo (mı́nimo) dada por [2.3]. La distribución de Weibull también puede generalizarse a un modelo de regresión, esencialmente de la misma manera, modelando la tasa de azar de la forma λ(t; x) = λ p (λ t)p−1 ex tβ O alternativamente, en términos de Y = log T , de la forma Y = α − σxt β + σW donde α = − log λ y σ = 1/p. Los modelos de regresión exponencial y Weibull sugieren dos posibles generalizaciones. Por un lado, generalizar el hecho de que en ambos casos las covariables actúan de forma multiplicativa sobre la tasa de azar; esto dará origen al Modelo de Azar Proporcional. Por otro lado, el que ambos modelos sean log-lineales en el sentido de que las covariables actúan de forma aditiva sobre Y (o multiplicativa sobre T ). Una clase general de modelos log-lineales dará origen al Modelo de Tiempo de Fallo Acelerado. 2.4.2. Modelo de Azar Proporcional El Modelo de Azar Proporcional se define, Cox (1972), como aquel Modelo de Regresión que tiene por tasa de azar una de la forma λ(t; x) = λ0 (t) ex tβ en donde λ0 es una tasa de azar arbitraria denominada tasa de azar base (baseline hazard rate) para una variable tiempo de fallo continua. La función de densidad, dado x, asociada a λ(t; x) será, por [2.2], xt β f (t; x) = λ0 (t) e xt β exp −e Z 0 t λ0 (u) du . D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 50 Por [2.1] se obtiene que la función de supervivencia de T , dado x, será S(t; x) = [S0 (t)]exp{x t β} en donde S0 es la denominada función de supervivencia base S0 (t) = exp − 2.4.3. Z 0 t λ0 (u) du . Modelo de Tiempo de Fallo Acelerado En el modelo de azar proporcional, el efecto multiplicativo de las variables de regresión sobre la tasa de azar, no implicaba ninguna relación directa entre las covariables x y la variable tiempo de fallo T . Supongamos que Y = log T está relacionado con las covariables x vı́a un modelo lineal de la forma Y = xt β + W siendo W una variable de error con distribución base dada por una función de densidad f0 . De ahı́ se obtiene n o T = exp xt β T0 con T0 = exp{W } una variable tiempo de fallo con tasa de azar base, digamos, λ0 , independiente de β. La tasa de azar de T será λ(t; x) = λ0 t e−x siendo la función de supervivencia " S(t; x) = exp − Z 0 tβ e−x t exp{−xt β} tβ [2.4] # λ0 (u) du . De la expresión anterior para la tasa de azar de T se deduce que las covariables xt actuan multiplicativamente sobre T , en lugar de sobre la función λ como ocurrı́a en el modelo anterior. Es decir, en este modelo suponemos la existencia de una tasa de azar base λ0 y, además, que el efecto de las covariables es alterar, a lo largo del tiempo, la tasa de fallo que tiene un individuo; es decir, suponemos que el papel de las covariables x es acelerar (o decelerar) el tiempo de fallo. De ahı́ que el modelo cuya tasa de azar sea la dada por [2.4] reciba el nombre de modelo de tiempo de fallo acelerado. D 51 2.5. Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Estimación de la función de supervivencia Hasta ahora hemos analizado los principales modelos teóricos utilizados en el análisis de supervivencia. En esta sección estudiaremos dos métodos para estimar la distribución de tiempo de fallo a través de la función de supervivencia en poblaciones homogéneas, es decir, en poblaciones donde no se consideran covariables. 2.5.1. Estimador de Kaplan-Meier (Método del lı́mite-producto) Sean t1 < t2 < ... < tk los tiempos de fallo distintos que aparecen en nuestra muestra; si, para j = 1, ..., k , nj representa el número de supervivientes justo antes de tj y dj representa el número de individuos que fallan en tj , el estimador del lı́mite-producto, también denominado estimador de KaplanMeier, de la función de supervivencia se define como Ŝ(t) = si 0 ≤ t < t1 1 Y {j:tj nj − dj nj ≤t} si t ≥ t1 función que será, por tanto, constante entre cada dos tiempos de fallo y continua por la derecha. Si nk = 1 entonces Ŝ(t) = 0 ∀t ≥ tk , pero si nk > 1, entonces Ŝ(t) queda indeterminado para t > tk . La varianza asintótica de Ŝ(t) se estima por d Ŝ(t)) = Ŝ 2 (t) Var( X {j:tj ≤t} dj nj (nj − dj ) y su desviación tı́pica por la raı́z cuadrada de la cantidad anterior. Ejemplo 2.1 (continuación) El estimador de Kaplan-Meier para el grupo 1 será D 52 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud tj 143 164 188 190 192 206 209 213 216 220 227 230 234 246 265 304 nj 19 18 17 15 14 13 12 11 10 8 7 6 5 3 2 1 dj 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 Ŝ(tj ) 0′ 9474 0′ 8947 0′ 7895 0′ 7368 0′ 6842 0′ 6316 0′ 5789 0′ 5263 0′ 4737 0′ 4145 0′ 3553 0′ 2961 0′ 2368 0′ 1579 0′ 0789 0 en donde, por ejemplo, Ŝ(143) = 19 − 1 18 = = 0′ 9474 19 19 Ŝ(164) = 18 17 · = 0′ 8947 19 18 18 17 15 15 · · = = 0′ 7895 19 18 17 19 ...................................... 9 7 Ŝ(220) = · = 0′ 4145 19 8 ...................................... 9 7 6 5 4 2 Ŝ(246) = · · · · · = 0′ 1579 19 8 7 6 5 3 ...................................... Ŝ(188) = 2.5.2. Método de la tabla de supervivencia Este método se utiliza especialmente cuando los datos vienen agrupados por intervalos I1 , ..., Ik , siendo Ij = [bj−1 , bj ), j = 1, ..., k con b0 = 0 y bk = ∞. Esto suele ocurrir cuando tenemos muchos datos, siendo los extremos bj tiempos de fallo. Si por dj representamos el número de individuos que fallan en el intervalo Ij , por nj el número de supervivientes al comienzo del intervalo Ij y por mj el número de individuos censurados en Ij , para j = 1, ..., k, el estimador de la probabilidad condicionada de fallo en Ij , supuesto que su tiempo de supervivencia es mayor o igual que bj−1 (es decir, supuesto que estaba vivo al comienzo del intervalo) es D 53 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia q̂j = dj nj − mj /2 si nj > 0 1 si nj = 0 El correspondiente estimador de la función de supervivencia es Ŝ(bj ) = j Y i=1 (1 − q̂i ) j = 1, ..., k definiéndose Ŝ(0) = 1 y Ŝ(t) = Ŝ(bj−1 ) ∀ t ∈ Ij . La función de densidad se estima por Ŝ(tj−1 ) q̂j fˆ(t) = bj − bj−1 ∀ t ∈ Ij y la tasa de azar por λ̂(t) = 2.6. 2 q̂j (bj − bj−1 )(2 − q̂j ) ∀ t ∈ Ij Comparación de curvas de supervivencia En Análisis de Supervivencia suele ser de interés determinar si existe o no diferencia significativa entre dos o más curvas de supervivencia, es decir, entre dos o más poblaciones. Al existir datos censurados, los métodos tradicionales no son válidos, por lo que deben utilizarse tests especı́ficos que tengan en cuenta este hecho. Si por S1 , ..., Sr representamos las funciones de supervivencia poblacionales a comparar, los tests que habitualmente se utilizan para contrastar la hipótesis nula H0 : S1 (t) = · · · = Sr (t), ∀t ≥ 0 son el test de rangos logarı́tmicos, debido a Savage, el test de Wilcoxon en el caso de presencia de datos censurados, y un test de razón de verosimilitudes para datos censurados, que supone una distribución de tiempo de fallo para T exponencial, y que, por tanto, no será válido cuando este supuesto no se pueda admitir. A continuación analizaremos con detalle el test de Savage de rangos logarı́tmicos. 2.6.1. Test de Savage de rangos logarı́tmicos Sean t1 < ... < tk los tiempos de fallo de la muestra combinada resultado de unir las r muestras. Llamaremos dj al número de fallos en tj y nj al número D 54 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud de supervivientes justo antes de tj , j = 1, ..., k, reservando para dij y nij las mismas definiciones en la correspondiente muestra i-ésima, i = 1, ..., r. En cada tj los datos pueden expresarse en forma de tabla de contingencia r × 2 de la forma Población Fallos Supervivientes 1 d1j n1j − d1j ......... ..... .............. i dij nij − dij ......... ..... .............. r drj nrj − drj dj nj − dj Condicional a tj , al ser las r poblaciones independientes, la distribución conjunta del vector (d1j , ..., drj ) tendrá como función de masa el producto de r distribuciones binomiales, es decir, r Y i=1 ! r Y nij dij nij d λj (1 − λj )nij −dij = λj j (1 − λj )nj −dj dij dij i=1 ! en donde λj es la probabilidad condicionada de fallo en tj , igual en las r poblaciones, bajo la hipótesis nula. Por tanto, la distribución condicionada de (d1j , ..., drj /dj ) será una distribución multi-hipergeométrica de función de masa conjunta d λj j (1 − λj )nj −dj ! r Y i=1 nij dij ! nj dj λ (1 − λj )nj −dj dj j = r Y nij dij i=1 nj dj ! ! siendo, por tanto, la media y la varianza marginal para dij /dj iguales a wij = y (Vj )ii = nij dj nj nij (nj − nij ) dj (nj − dj ) n2j (nj − 1) respectivamente, y una covarianza entre dij y dlj igual a (Vj )il = − nij nlj dj (nj − dj ) n2j (nj − 1) D 55 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Por tanto, el estadı́stico vjt = (d1j −w1j , ..., drj −wrj ) tiene media condicionada cero y matriz de covarianzas condicionada Vj . El test de rangos logarı́tmicos se basa en el vector v= k X vj j=1 es decir, el vector del número de fallos observados en cada una de las r poblaciones, menos el correspondiente vector del número de fallos esperados. Si las k tablas de contingencia fueran independientes, la varianza del estadı́stico v serı́a V = V1 + · · · + Vk , estando basado el test de igualdad de las r poblaciones en un test χ2 , ya que el estadı́stico del contraste, vt V −1 v, tiene asintóticamente una distribución χ2r−1 . En general, V −1 deberá ser la inversa generalizada de V , o más sencillamente, el estadı́stico χ2r−1 puede formarse usando r − 1 elementos cualesquiera de v y la correspondiente submatriz (r − 1) × (r − 1) de V . Ejemplo 2.1 (continuación) Como es v= 17 − 12′ 237 19 − 23′ 763 = 4′ 763 −4′ 763 con matriz de covarianzas igual a V = 7′ 263 −7′ 263 −7′ 263 7′ 263 el estadı́stico del test toma el valor vt V −1 v = (4′ 763)2 /7′ 263 = 3′ 12, el cual resulta significativo al 10 %, al compararlo con una χ21 . 2.7. Análisis de Supervivencia con SAS En esta sección estudiaremos cómo ejecutar Análisis de Supervivencia con SAS. Existen tres Procedimientos en SAS, el Procedimiento LIFETEST para poblaciones homogéneas, es decir, sin presencia de covariables; el Procedimiento LIFEREG cuando las haya mediante un modelo de tiempo de fallo acelerado, y el Procedimiento PHREG para el Modelo de azar proporcional. 2.7.1. Procedimiento LIFETEST El procedimiento LIFETEST se utiliza con datos algunos de los cuales pueden ser censurados por la derecha, con objeto de D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 56 Determinar y representar estimadores, Ŝ(t), de la función de supervivencia —el de Kaplan-Meier (sección 2.5.1) y el obtenido por el método de la tabla de supervivencia (sección 2.5.2). Realizar, para el estimador de la función de supervivencia Ŝ(t) elegido, las gráficas {ti , − log(Ŝ(ti ))} y {log ti , log(− log(Ŝ(ti )))} con objeto de averiguar si la distribución de tiempo de fallo es, respectivamente, exponencial o de Weibull. (Sección 2.3.1) Realizar tests de rangos con los que inferir el grado de relación existente entre las covariables y la variable dependiente de tiempo de fallo. Si los datos vienen agrupados por poblaciones, realizar tests de rangos con objeto de contrastar la igualdad entre las funciones de supervivencia de las poblaciones. Especificaciones del procedimiento LIFETEST Como en todo procedimiento SAS existen una serie de especificaciones que permiten adecuar el análisis estadı́stico a realizar. Las más importantes que permite el procedimiento LIFETEST son las siguientes PROC LIFETEST opciones; TIME fallo especificación; STRATA variable (rango); TEST variables; FREQ variable; Todas, excepto TIME, son opcionales. Opciones en PROC LIFETEST Detrás de PROC LIFETEST podemos incluir uno o varios de los siguientes comandos opcionales: • method= pl , lt Mediante la opción method=pl especificamos que el método a utilizar en la estimación de la función de supervivencia es el del producto lı́mite. Si empleamos la opción method=lt requerimos el método de la tabla de supervivencia en la estimación de la distribución de tiempo de fallo. Si no es utiliza esta opción, el procedimiento LIFETEST determina por defecto el del producto lı́mite. D 57 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia • plots= s , ls , lls , h , p Con la opción plots=s se realiza un gráfico de los pares de puntos (ti , Ŝ(ti )) plots=ls se utiliza para realizar un gráfico de los pares de puntos (ti , − log(Ŝ(ti ))) Con plots=lls el gráfico que se optiene es el de los pares (log ti , log(− log(Ŝ(ti )))) plots=h permite obtener un gráfico de los pares (ti , λ̂(ti )) siendo λ̂ el estimador de la tasa de azar obtenido por el método de la tabla de supervivencia. Por último, plots=p lleva a la obtención de un gráfico de los pares de puntos (ti , fˆ(ti )) siendo fˆ el estimador de la función de densidad obtenido por el método de la tabla de supervivencia. Esas dos últimas opciones, en consecuencia, sólo son válidas si se especificó dicho método. Es posible hacer varias especificaciones a la vez, por ejemplo, pidiéndole los tres primeros gráficos, mediante la opción plots=(s,ls,lls) • intervals Utilizada para especificar los extremos de los intervalos a considerar en el método de la tabla de supervivencia. Sentencias especı́ficas en PROC LIFETEST TIME fallo especificación; La sentencia TIME se usa para especificar las variables que definen el tiempo de supervivencia y la variable de censura. La estructura de esta sentencia es TIME fallo<*corte(numero)> mediante la cual indicamos que la variable de tiempo de fallo es fallo. Si, opcionalmente, utilizamos la expresión entre < >, señalaremos que aquellos fallos para los que la variable de censura corte tome el valor numero, son tiempos censurados. D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 58 STRATA variable (rango); La sentencia STRATA especifica la variable o variables que definen las poblaciones (estratos) del análisis. TEST variables; Mediante la sentencia TEST especificamos las covariables numéricas cuyo grado de asociación con la variable dependiente tiempo de fallo T queremos contrastar. El grado de dependencia de cada variable independiente con la variable T es contrastado de forma separada, contrastándose también una correlación múltiple entre el conjunto de covariables y la variable dependiente T . FREQ variable; Mediante esta sentencia indicamos que los valores de la variable variable son frecuencias absolutas, es decir, recuentos de observaciones. Ejemplo 2.1 (continuación) Para analizar los datos es este ejemplo emplearemos el siguiente programa SAS DATA ejemplo1; INPUT dias @@; censura = (dias < 0); dias = abs(dias); if _n_ < 20 then grupo = ’pretrat1’; else grupo = ’pretrat2’; CARDS; 143 164 188 188 190 192 206 209 213 216 220 227 230 234 246 265 304 -216 -244 142 156 163 198 205 232 232 233 233 233 233 239 240 261 280 280 296 296 323 -204 -344 ; PROC LIFETEST plots=(s,ls,lls); TIME dias*censura(1); STRATA grupo; RUN; [1] [2] [3] [4] [5] [6] [7] [8] Con las sentencias DATA indicamos, en primer lugar, [1], que vamos a crear un conjunto de datos SAS al que denominamos ejemplo1. A continuación, [2], con la sentencia INPUT indicamos que la variable que dará origen a los datos la llamaremos dias y que éstos vendrán en formato libre, al añadir @@. Después, [3], definimos la variable lógica censura como los datos negativos, redefiniendo, [4], la variables dias como el valor absoluto de las observaciones. Se definen por último, [5], los dos grupos (estratos) a comparar, formando el grupo 1, pretrat1, las 19 primeras observaciones, y pretrat2 las restantes. La opción plots, [6], nos permitirá obtener gráficos del estimador de la función de supervivencia, el cual por defecto será el de Kaplan-Meier, ası́ como de adecuadas transformaciones suyas. Mediante la sentencia TIME, [7], indicamos qué datos son tiempos de fallo y cuáles de censura. Los tiempos de fallo son aquellos datos proporcionados por la variable dias (40 D 59 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia observaciones positivas puesto que fue redefinida en [4]) menos aquellos en los que además la variable censura tome el valor 1, en cuyo caso la observación será un dato censurado. Por último, mediante la sentencia STRATA señalamos, [8], qué variable se utiliza para formar las poblaciones; en nuestro caso grupo. Con el programa anterior se obtendrı́an los siguientes resultados Product-Limit Survival Estimates GRUPO = pretrat1 DIAS Survival 0.000 143.000 164.000 188.000 188.000 190.000 192.000 206.000 209.000 213.000 216.000 216.000* 220.000 227.000 230.000 234.000 244.000* 246.000 265.000 304.000 1.0000 0.9474 0.8947 . 0.7895 0.7368 0.6842 0.6316 0.5789 0.5263 0.4737 . 0.4145 0.3553 0.2961 0.2368 . 0.1579 0.0789 0 [1] [2] Quantiles 75% 50% 25% Failure Survival Standard Error Number Failed Number Left 0 1 2 3 4 5 6 7 8 9 10 10 11 12 13 14 14 15 16 17 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 0 0 0.0526 0.0512 0.1053 0.0704 . . 0.2105 0.0935 0.2632 0.1010 0.3158 0.1066 0.3684 0.1107 0.4211 0.1133 0.4737 0.1145 0.5263 0.1145 . . 0.5855 0.1145 0.6447 0.1124 0.7039 0.1082 0.7632 0.1015 . . 0.8421 0.0934 0.9211 0.0728 1.0000 0 * Censored Observation [3] 234.000 216.000 190.000 Mean Standard Error 218.757 9.403 [4] [5] Product-Limit Survival Estimates GRUPO = pretrat2 DIAS 0.000 142.000 156.000 163.000 198.000 204.000* 205.000 232.000 232.000 233.000 233.000 233.000 233.000 239.000 240.000 Survival Failure Survival Standard Error 1.0000 0.9524 0.9048 0.8571 0.8095 . 0.7589 . 0.6577 . . . 0.4554 0.4048 0.3542 0 0.0476 0.0952 0.1429 0.1905 . 0.2411 . 0.3423 . . . 0.5446 0.5952 0.6458 0 0.0465 0.0641 0.0764 0.0857 . 0.0941 . 0.1053 . . . 0.1114 0.1099 0.1072 Number Failed Number Left 0 1 2 3 4 4 5 6 7 8 9 10 11 12 13 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 D 60 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 261.000 280.000 280.000 296.000 296.000 323.000 344.000* 0.3036 . 0.2024 . 0.1012 0.0506 . [1] [2] Quantiles 75% 50% 25% 0.6964 0.1031 . . 0.7976 0.0902 . . 0.8988 0.0678 0.9494 0.0493 . . * Censored Observation [3] 280.000 233.000 232.000 14 15 16 17 18 19 19 Mean Standard Error 6 5 4 3 2 1 0 240.795 11.206 [4] [5] NOTE: The last observation was censored so the estimate of the mean is biased. Summary of the Number of Censored and Uncensored Values GRUPO Total Failed Censored %Censored pretrat1 pretrat2 19 21 17 19 2 2 10.5263 9.5238 Total 40 36 4 10.0000 Survival Function Estimates S u r v i v a l D i s t r i b u t i o n F u n c t i o n SDF | | | | | 1.0 +*---------------------------*P | B|-B | P---P | B-*----P | B----|-B | | | 0.8 + P BB | | B----B | P | | P--P | | | BB | PP | 0.6 + | | | PP | | P | | | | | PP BB | | | 0.4 + PP B | PP B---B | | | | PP B---B | | | | P-P | 0.2 + | B--B | P---P | | | | | | B-----B | P-------P B | | 0.0 + P [6] D 61 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia | | | | | -+----+----+----+----+----+----+----+----+----+----+----+----+----+----+ 0 25 50 75 100 125 150 175 200 225 250 275 300 325 350 DIAS Censored Observations Strata B + B B P + P P -------+------+------+------+------+------+------+------+------0 50 100 150 200 250 300 350 DIAS N e g a t i v e L o g S D F -Log(Survival Function) Estimates -LOG SDF | | 3.0 + B | + | + | + | + | + 2.5 + P + | + + | + + | + B | + + | + + 2.0 + + + | + + | P + | + + | + + | + B 1.5 + + + | P + | + + | P + | + +B | + ++ 1.0 + P B | P B | + + | P B | P + | P + 0.5 + +P + | P +B | P ++ | +P+BB | B++ | +++++++++++*+*P 0.0 + *+++++++++++ | | -----+-------+-------+-------+-------+-------+-------+-------+----0 50 100 150 200 250 300 350 DIAS [8] [9] D 62 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Log(-Log(Survival Function)) Estimates L o g N e g a t i v e L o g S D F L(-L(S)) | | | | | 2 + | | | | | +B 1 + +P +++ | ++ B+ | P+ ++ | ++ +B | P ++ | P ++B 0 + P B++ | P B+B | P + | P + | P + | ++P +B [10] -1 + P++ +++ | P ++ | + +B+ | +P++B | ++++++ | B++++ -2 + + ++ | + P | B++ | +++ | ++ | +++ -3 + BP | | | | | ---+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+--4.9 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 Log DIAS Legend for Strata Symbols P:GRUPO=pretrat1 B:GRUPO=pretrat2 Testing Homogeneity of Survival Curves over Strata Rank Statistics GRUPO Log-Rank Wilcoxon pretrat1 pretrat2 4.762466 -4.76247 114 -114 [7] D 63 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Covariance Matrix for the Log-Rank Statistics GRUPO pretrat1 pretrat2 pretrat1 pretrat2 7.26327 -7.26327 -7.26327 7.26327 Covariance Matrix for the Wilcoxon Statistics GRUPO pretrat1 pretrat2 pretrat1 pretrat2 4902.22 -4902.22 -4902.22 4902.22 Test of Equality over Strata Test Log-Rank Wilcoxon -2Log(LR) Chi-Square DF Pr > Chi-Square 3.1227 2.6510 0.0775 1 1 1 0.0772 0.1035 0.7807 [11] [12] [13] En ellos se observa, en primer lugar, una tabla para cada una de las dos poblaciones, en donde aparecen, [1], los tiempos de fallo, ti , y de censura (valores con asterı́sco), ası́ como, [2], los valores del estimador de la función de supervivencia, Ŝ(ti ), en dichos tiempos de fallo, el cual, al no haber utilizado la opción method será el de Kaplan-Meier. En [3] aparece su desviación tı́pica estimada. (Sección 2.5.1). Destancan también, el tiempo medio de supervivencia estimado, [4], y su error de muestreo, [5]. A continuación aparecen los gráficos del estimador de la función de supervivencia para cada una de las dos poblaciones, [6], en las que, como se indica en [7], la marcada con una P corresponde a la primera y la marcada con una B a la segunda. El gráfico [8] muestra donde se produjeron los valores censurados en cada una de las dos poblaciones. El gráfico [9] es una representación de los pares de puntos {ti , − log(Ŝ(ti ))} los cuales, al no estar alineados sugieren (véase sección 2.3.1) que un modelo exponencial para la distribución de tiempo de fallo no es adecuado. Por el contrario, el gráfico [10], en el cual se representan los pares {log ti , log(− log(Ŝ(ti )))} sı́ sugiere (véase sección 2.3.1) una distribución de Weibull como distribución de tiempo de fallo. Aunque ni el test de Savage (véase sección 2.6), dado por [11], ni el de Wilcoxon, dado por [12], sean demasiado concluyentes, en todo caso llevan a aceptar la hipótesis nula de igualdad antre ambas poblaciones a niveles de significación menores que 0′ 0772. El test de razón de verosimilitudes, dado por [13], no es indicativo de nada, pues requiere para su realización que las distribuciones de tiempo de fallo en cada una de las poblaciones, sea exponencial, supuesto descartado, como vimos, por el gráfico [9]. D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 64 Ejemplo 2.2 Los siguientes datos, Feigl y Zelen (1965) corresponden a tiempos de fallo en semanas, T , y número de glóbulos blancos, W BC, de pacientes con leucemia. Los datos vienen agrupados en dos poblaciones, una con AG positivo y otra con AG negativo. AG+ W BC T 2′ 3 65 0′ 75 156 4′ 3 100 2′ 6 134 6 16 10′ 5 108 10 121 17 4 5′ 4 39 7 143 9′ 4 56 32 26 35 22 100 1 100 1 52 5 100 65 AG– W BC 4′ 4 3 4 1′ 5 9 5′ 3 10 19 27 28 31 26 21 79 100 100 T 56 65 17 7 16 22 3 4 2 3 8 4 3 30 4 43 Existen dos diferencias con el ejemplo anterior. Aquı́ suponemos una covariable, W BC, y además que los grupos no se definen previamente, sino mediante una cantidad no controlada, AG. El programa SAS que utilizaremos será el siguiente DATA ejemplo2; INPUT wbc t @@; if _n_ < 18 then grupo = ’AG+’; else grupo = ’AG-’; lwbc=log(wbc); CARDS; 2.3 65 .75 156 4.3 100 2.6 134 6 10 121 17 4 5.4 39 7 143 9.4 35 22 100 1 100 1 52 5 100 4.4 56 3 65 4 17 1.5 7 9 10 3 19 4 27 2 28 3 31 21 3 79 30 100 4 100 43 ; PROC LIFETEST; TIME t; STRATA grupo; TEST lwbc; RUN; [1] [2] [3] 16 10.5 108 56 32 26 65 16 5.3 22 8 26 4 [4] [5] [6] En él se observa, dentro de las sentencias DATA, que con INPUT indicamos, [1], que los datos que aparecen a continuación, son pares de observaciones de las variables wbc y t, indicando con @@ que dichos datos vendrán en formato libre. A continuación, [2], formamos las dos poblaciones, estando en AG+ las 17 primeras observaciones que aparecen después. D 65 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Se concluye las sentencias DATA definiendo en [3] una nueva variable, lwbc, como el logaritmo de wbc. En este ejemplo hacemos las siguientes especificaciones en PROC LIFETEST: con la sentencia TIME señalamos, [4], que la variable tiempo de fallo es t, con STRATA que la variable utilizada para formar los grupos [5], es grupo, y por último, [6], con TEST que la covariable a utilizar en la regresión es lwbc. Con este programa obtendrı́amos los siguientes resultados: Product-Limit Survival Estimates GRUPO = AG+ T Survival Failure Survival Standard Error 0.000 1.000 1.000 4.000 5.000 16.000 22.000 26.000 39.000 56.000 65.000 65.000 100.000 108.000 121.000 134.000 143.000 156.000 1.0000 . 0.8824 0.8235 0.7647 0.7059 0.6471 0.5882 0.5294 0.4706 . 0.3529 0.2941 0.2353 0.1765 0.1176 0.0588 0 0 . 0.1176 0.1765 0.2353 0.2941 0.3529 0.4118 0.4706 0.5294 . 0.6471 0.7059 0.7647 0.8235 0.8824 0.9412 1.0000 0 . 0.0781 0.0925 0.1029 0.1105 0.1159 0.1194 0.1211 0.1211 . 0.1159 0.1105 0.1029 0.0925 0.0781 0.0571 0 [1] [2] Quantiles Number Failed Number Left 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 [3] 75% 50% 25% 108.000 56.000 16.000 Mean Standard Error 62.471 13.183 [4] [5] Product-Limit Survival Estimates GRUPO = AG- T Survival Failure Survival Standard Error 0.000 2.000 3.000 3.000 3.000 4.000 4.000 4.000 7.000 8.000 16.000 17.000 22.000 30.000 43.000 56.000 65.000 1.0000 0.9375 . . 0.7500 . . 0.5625 0.5000 0.4375 0.3750 0.3125 0.2500 0.1875 0.1250 0.0625 0 0 0.0625 . . 0.2500 . . 0.4375 0.5000 0.5625 0.6250 0.6875 0.7500 0.8125 0.8750 0.9375 1.0000 0 0.0605 . . 0.1083 . . 0.1240 0.1250 0.1240 0.1210 0.1159 0.1083 0.0976 0.0827 0.0605 0 [1] [2] [3] Number Failed Number Left 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 D 66 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Quantiles 75% 50% 25% 26.000 7.500 3.500 Mean Standard Error 17.937 5.076 [4] [5] Summary of the Number of Censored and Uncensored Values GRUPO Total Failed Censored %Censored AG+ AG- 17 16 17 16 0 0 0.0000 0.0000 Total 33 33 0 0.0000 Testing Homogeneity of Survival Curves over Strata Rank Statistics GRUPO Log-Rank Wilcoxon AG+ AG- -6.70336 6.70336 -128 128 Covariance Matrix for the Log-Rank Statistics GRUPO AG+ AG- AG+ AG- 5.31858 -5.31858 -5.31858 5.31858 Covariance Matrix for the Wilcoxon Statistics GRUPO AG+ AG- AG+ AG- 2927.69 -2927.69 -2927.69 2927.69 Test of Equality over Strata Test Log-Rank Wilcoxon -2Log(LR) Chi-Square DF Pr > Chi-Square 8.4487 5.5962 11.9401 1 1 1 0.0037 0.0180 0.0005 [6] [7] [8] Rank Tests for the Association of Response with Covariates Pooled over Strata [9] Univariate Chi-Squares for the WILCOXON Test Variable LWBC Test Statistic Variance -11.7337 15.8531 Chi-Square 8.6848 Pr > Chi-Square 0.0032 Covariance Matrix for the WILCOXON Statistics [11] D 67 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Variable LWBC LWBC [10] 15.8531 Forward Stepwise Sequence of Chi-Squares for the WILCOXON Test Variable LWBC DF 1 [9] Pr > Chi-Square Chi-Square 8.6848 Chi-Square Increment 0.0032 Pr > Increment 8.6848 0.0032 Univariate Chi-Squares for the LOG RANK Test Variable LWBC Test Statistic Variance -19.4051 50.7236 Chi-Square Pr > Chi-Square 7.4237 0.0064 [12] Covariance Matrix for the LOG RANK Statistics Variable LWBC [10] 50.7236 Forward Stepwise Sequence of Chi-Squares for the LOG RANK Test Variable LWBC LWBC DF 1 Chi-Square 7.4237 Pr > Chi-Square 0.0064 Chi-Square Increment 7.4237 Pr > Increment 0.0064 Se observa en ellos, en primer lugar, una tabla para cada una de las dos poblaciones, en donde aparecen, [1], los tiempos de fallo, ti , [2], los valores del estimador de la función de supervivencia, Ŝ(ti ), en dichos tiempos de fallo, el cual, al no haber utilizado la opción method será el de Kaplan-Meier, y [3], su desviación tı́pica estimada. (Sección 2.5.1). Destancan también, el tiempo medio de supervivencia estimado, [4], y su error de muestreo, [5]. A continuación, los tests de Savage, [6], de Wilcoxon, [7], y de razón de verosimilitudes, [8], concluyen, al ser sus p-valores suficientemente pequeños, que existen diferencias significativas entre las poblaciones comparadas, es decir, que no pueden considerarse equivalentes los grupos AG+ y AG–. Por último aparecen dos tests utilizados para contrastar el grado de dependencia de la covariable señalada en nuestro programa SAS con la sentencia TEST, lwbc, con la variable dependiente tiempo de fallo, señalada en TIME, t. Cada uno de estos dos tests, el de Wilcoxon y el de los rangos logarı́tmicos de Savage, realiza primero, [9], tests marginales de dependencia entre cada una de las covariables —señaladas en TEST— y la variable dependiente, y luego, [10], una secuencia de tests de dependencia en donde va incluyendo a cada paso una nueva covariable. En nuestro ejemplo, al no existir nada más que una covariable esta segunda secuencia de tests coincide con la primera. Tanto el test de Wilcoxon como el de los rangos logarı́tmicos, consideran como hipótesis nula, tanto en sus versiones marginales, [9], como en las secuenciales, [10], la ausencia de correlación entre la variable dependiente T y la covariable —en el caso marginal [9]— o D 68 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud covariables —en la secuencia de tests [10]. Es decir, que H0 indicará que la covariable o covariables consideradas no explican adecuadamente a la variable dependiente T , o con más precisión, que el vector de parámetros β es igual al vector 0. Un p-valor pequeño llevará a rechazar la correspondiente hipótesis nula y a aceptar, en consecuencia, una correlación significativa entre las variables consideradas. En nuestro ejemplo, tanto el test de Wilcoxon, [11], como el de Savage, [12], concluyen con la existencia de una correlación significativa entre la variable tiempo de fallo y el logaritmo del número de glóbulos blancos en la sangre, al ser sus p-valores, 0′ 0032 y 0′ 0064 suficientemente pequeños. Ejemplo 2.3 Los siguientes datos, Lee (1980), representan, respectivamente, el número de tiempos de fallo y de censura de hombres con angina de pecho, que se presentan en cada uno de los intervalos señalados Intervalo [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) [14,15) ≥ 15 no ¯ de fallos 456 226 152 171 135 125 83 74 51 42 43 34 18 9 6 0 no ¯ de censuras 0 39 22 23 24 107 133 102 68 64 45 53 33 27 23 30 Con objeto de estimar, entre otras cosas, su función de supervivencia, se realizó el siguiente programa SAS DATA ejemplo3; keep freq tiempo c; retain tiempo -.5; INPUT fallo censura @@; tiempo = tiempo + 1; c = 0; freq = fallo; output; c = 1; freq = censura; output; CARDS; 456 0 226 39 152 22 171 23 135 24 125 107 83 133 74 102 51 68 42 64 43 45 34 53 18 33 9 27 6 23 0 0 0 30 ; PROC LIFETEST plots = (s,ls,lls,h,p) intervals = (0 to 15) method = act; TIME tiempo*c(1); FREQ freq; [1] [2] [3] [4] [5] [6] [7] [8] D 69 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia RUN; En él se observa, [1], que las variables a utilizar por el procedimiento más abajo empleado son las señaladas por keep, es decir, freq, tiempo y c. Se indica, [2], que en cada paso del programa, debe mantenerse —retain— la variable tiempo, la cual además debe comenzar en −,5 , para ir aumentando, [4], de uno en uno. Se indica, [3], mediante INPUT que los datos que aparecerán más abajo son, respectivamente al añadirse @@, datos de fallo y censura. No obstante, [5], queremos que nuestros datos salida aparezcan bajo la variable freq aunque divididos en dos grupos según los valores de la variable c. Después de los datos aparecen las sentencias propias del procedimiento LIFETEST referidas, como indicamos con keep, a las variables freq, tiempo y c. Primero, dentro de las opciones de dicho procedimiento, le indicamos, [6], que realice los gráficos del estimador de la función de supervivencia, s, del − log de dicho estimador, ls, del log(− log) del estimador, lls, del estimador de la tasa de azar, h y del estimador de la función de densidad, p (véase sección 2.7.2). Estos dos últimos, posibles porque en la opción method indicamos que el estimador de la función de supervivencia a determinar fuera el obtenido por el método de la tabla de supervivencia, method = act, en donde los intervalos a considerarar en dicho método deberán llegar hasta el de extremo 15. Con la sentencia TIME indicamos, [7], que la variable de tiempo de fallo es tiempo siempre que c sea igual a 1. Por último, [8], con la sentencia FREQ señalamos que los valores dados por la variable freq son recuentos, es decir frecuencias absolutas. Con este programa se obtendrı́an los siguientes resultados Life Table Survival Estimates Interval [Lower, Upper) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 . [1] Interval [Lower, Upper) 0 1 2 3 4 5 6 1 2 3 4 5 6 7 Number Failed Number Censored Effective Sample Size 456 226 152 171 135 125 83 74 51 42 43 34 18 9 6 0 0 39 22 23 24 107 133 102 68 64 45 53 33 27 23 30 2418.0 1942.5 1686.0 1511.5 1317.0 1116.5 871.5 671.0 512.0 395.0 298.5 206.5 129.5 81.5 47.5 15.0 0.1886 0.1163 0.0902 0.1131 0.1025 0.1120 0.0952 0.1103 0.0996 0.1063 0.1441 0.1646 0.1390 0.1104 0.1263 0 [1] [1] [2] [3] Survival Failure Survival Standard Error 1.0000 0.8114 0.7170 0.6524 0.5786 0.5193 0.4611 0 0.1886 0.2830 0.3476 0.4214 0.4807 0.5389 0 0.00796 0.00918 0.0097 0.0101 0.0103 0.0104 Conditional Probability of Failure Conditional Probability Standard Error 0.00796 0.00728 0.00698 0.00815 0.00836 0.00944 0.0099 0.0121 0.0132 0.0155 0.0203 0.0258 0.0304 0.0347 0.0482 0 [4] Median Residual Lifetime Median Standard Error 5.3313 6.2499 6.3432 6.2262 6.2185 5.9077 5.5962 0.1749 0.2001 0.2361 0.2361 0.1853 0.1806 0.1855 D 70 7 8 9 10 11 12 13 14 15 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 8 9 10 11 12 13 14 15 . 0.4172 0.3712 0.3342 0.2987 0.2557 0.2136 0.1839 0.1636 0.1429 0.5828 0.6288 0.6658 0.7013 0.7443 0.7864 0.8161 0.8364 0.8571 0.0105 0.0106 0.0107 0.0109 0.0111 0.0114 0.0118 0.0123 0.0133 5.1671 4.9421 4.8258 4.6888 . . . . . 0.2713 0.2763 0.4141 0.4183 . . . . . [5] [6] [7] [8] [9] Evaluated at the Midpoint of the Interval Interval [Lower, Upper) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 . PDF PDF Standard Error Hazard Hazard Standard Error 0.1886 0.0944 0.0646 0.0738 0.0593 0.0581 0.0439 0.0460 0.0370 0.0355 0.0430 0.0421 0.0297 0.0203 0.0207 . 0.00796 0.00598 0.00507 0.00543 0.00495 0.00503 0.00469 0.00518 0.00502 0.00531 0.00627 0.00685 0.00668 0.00651 0.00804 . 0.208219 0.123531 0.09441 0.119916 0.108043 0.118596 0.1 0.116719 0.10483 0.112299 0.155235 0.17942 0.149378 0.116883 0.134831 . 0.009698 0.008201 0.007649 0.009154 0.009285 0.010589 0.010963 0.013545 0.014659 0.017301 0.023602 0.030646 0.03511 0.038894 0.054919 . [10] [11] [12] [13] Summary of the Number of Censored and Uncensored Values Total Failed Censored %Censored 2418 1625 793 32.7957 NOTE: There were 4 observations with missing values. Survival Function Estimates S u r v i v a l D i s t r i b u SDF | | | | | 1.0 + | | | | | 0.8 + | | | | | 0.6 + | | | | A + + + + + A ++ A+ ++ A + + A++ +A ++ A++ [14] D 71 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia t | +A i 0.4 + ++ o | A++ n | +A+ | +A++ F | +A u | ++ n 0.2 + A+++A+ c | +A++ t | +A i | o | n | 0.0 + | | | | | --------+------+------+------+------+------+------+------+------+------0 2 4 6 8 10 12 14 16 TIEMPO -Log(Survival Funcoion) Esoimaoes H a z a r d F u n c t i o n 0.25 + | | | | | A 0.20 + + | + | + A | + + + | + + + | + A + 0.15 + + + A | + + + | + + + +A | A + + ++ | + A++ +A+ A++ + A [17] | + + +A+ ++ ++ +A++A 0.10 + + + A | A | | | | 0.05 + | | | | | 0.00 + | | | | | ------+------+------+------+------+------+------+------+------+-----0 2 4 6 8 10 12 14 16 TIEMPO Probability Density Function Estimates D e n s i t y 0.200 + | | | | 0.175 + | | | | 0.150 + | PDF | | | 0.125 + | | | D 73 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia A + + + + + + + + + + + + + + + + D 74 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud | + F 0.100 + + u | A [18] n | + c | + t | + i 0.075 + + A o | + ++ ++ n | A + | A++A | ++ 0.050 + + | A++A+ +A+ | ++ ++ +A+ | A++A ++ | A 0.025 + ++ | A+++A | | | 0.000 + -------+------+------+------+------+------+------+------+------+-----0 2 4 6 8 10 12 14 16 TIEMPO En ellos se observa, al haberse solicitado que el método de estimación de la curva de supervivencia fuera el de la tabla de supervivencia, la distribución de frecuencias, por intervalos, de los tiempos de fallo y de censura, [1]. Además, véase la sección 2.5.2, el número, [2], de individuos en riesgo al comienzo de cada intervalo, nj , el estimador, [3], de la probabilidad condicionada de fallo en cada uno de los intervalos, q̂j , ası́ como su error de muestreo, [4]. También se obtiene, [5], el estimador Ŝ(t) de la función de supervivencia al comienzo de cada intervalo, su error de muestreo, [7], ası́ como 1 − Ŝ(t), [6]. Se obtiene también, [8], un estimador del tiempo de vida residual mediano, el cual se define como la cantidad de tiempo transcurrido antes de que el número de unidades en riesgo se reduzca a la mitad. Este valor también se denomina tiempo de vida futuro mediano. Se da también, [9], su error de muestreo. A continuación aparece, [10], la función de densidad estimada, fˆ(t), en el punto medio del intervalo, ası́ como su error de muestreo, [11]. Por último se observa, [12] y [13] respectivamente, el estimador de la tasa de azar, λ̂, ası́ como su error de muestreo. Los resultados concluyen con los gráficos antes mencionados. Primero se representa, [14], los pares de puntos (ti , Ŝ(ti )) a continuación, [15], el de los pares de puntos, En [16] el de los pares (ti , − log(Ŝ(ti ))) (log ti , log(− log(Ŝ(ti )))) En [17] el de la tasa de azar, es decir, el de los pares (ti , λ̂(ti )) apareciendo, por último, en [18], el de la función de densidad estimada, D 75 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia (ti , fˆ(ti )) 2.7.2. Procedimiento LIFEREG El procedimiento LIFEREG se utiliza con datos, algunos de los cuales pueden ser censurados por la derecha, o por la izquierda o por intervalos (véase sección 2.2), con objeto de Ajustar un modelo de tiempo de fallo acelerado (sección 2.4.3) a dichos tiempos de fallo, de la forma Y = xt β + W con W = log T0 la variable de error con distribución base dada por una función de densidad f0 , siendo Y la variable dependiente o de respuesta y xt el vector de covariables o variables independientes. Los parámetros β se estiman por máxima verosimilitud usando el método de Newton-Raphson. Especificaciones del procedimiento LIFEREG Como en todo procedimiento SAS el procedimiento LIFEREG permite una serie de especificaciones. La más importante, además de obligatoria, es la sentencia MODEL, PROC LIFEREG; MODEL respuesta = covariables / opciones; Con esta sentencia especificamos cual es la variable dependiente, respuesta, y cuales las covariables o variables independientes, covariables. Si existen datos censurados debemos indicarlo de una de las siguientes maneras: • Si existe una variable indicadora de censura, para unos determinados valores de la cual, los datos observados en respuesta son censurados por la derecha, debemos expresarlo de la forma MODEL respuesta< ∗censura(numero) >= covariables / opciones; Ası́ por ejemplo, si la variable de respuesta es muerte, salvo en aquellos casos en los que la variable perdida tome los valores 0 y 1, en cuyo caso los datos son tiempos de censura en lugar de tiempos de fallo, lo indicaremos de la forma D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 76 MODEL muerte∗perdida(0,1) = covariables / opciones; • Si existe un intervalo de censura (minimo , maximo) fuera del cual los datos son censurados, lo expresaremos de la forma MODEL (minimo, maximo) = covariables / opciones; Si se omite el extremo inferior del intervalo de censura, se obtienen datos censurados por la izquierda. La ausencia del extremo superior se utiliza, por su parte, para indicar una censura por la derecha. En todos los casos, en opciones se fija la distribución base de la variable de error W . Debemos expresarlo de la forma MODEL respuesta = covariables / DIST = distribucion; y entre las posibles distribuciones a especificar en distribución se incluyen WEIBULL, comando mediante el cual se especifica la distribución de Weibull. No obstante, esta distribución se tiene por defecto. EXPONENTIAL, especifica una distribución exponencial. LNORMAL, especifica una distribución Log-Normal. LLOGISTIC, especifica una distribución Log-Logı́stica. GAMMA, especifica una distribución gamma. NORMAL, especifica una distribución normal. LOGISTIC, especifica una distribución logı́stica. Si queremos ajustar más de un modelo, especificaremos una lı́nea para cada uno de ellos, etiquetándolos al comienzo. Por ejmplo, A: MODEL ... B: MODEL ... Ejemplo 2.4 Los siguientes datos, Nelson y Hahn (1972), corresponden al número de horas hasta el fallo de 40 motores actuando bajo determinadas temperaturas D 77 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Temp. 150o C 170o C 1764 2772 190o C 220o C 408 408 408 408 Horas hasta el fallo Ninguno de los 10 falló a las 8064 horas 3444 3542 3780 4860 5196 No fallaron 3 a las 5448 horas 1344 1344 1440 No fallaron 5 a las 1680 horas 504 504 504 No fallaron 5 a las 528 horas El principal propósito del experimento fue estimar el tiempo mediano de vida a una temperatura de 130o C, utilizando un modelo de tiempo de fallo acelerado con una sola covariable x = 1000/(273′ 2 + tempe) y una distribución base log-normal, o de Weibull. Como el método de mı́nimos cuadrados ponderados, utilizado para estimar los parámetros de regresión β, requiere al menos dos fallos en cada temperatura, se eliminaron los datos referentes a 150o C. Por otro lado, con objeto de utilizar la misma notación que el SAS, expresaremos el modelo de tiempo de fallo acelerado de la forma Y = α + xβ + σω El programa SAS a utilizar será el siguiente DATA ejemplo4; INPUT tiempo censura tempe @@; x = 1000/(273.2+tempe); CARDS; 1764 1 170 2772 1 170 3444 1 170 3542 5196 1 170 5448 0 170 5448 0 170 5448 1344 1 190 1344 1 190 1440 1 190 1680 1680 0 190 1680 0 190 408 1 220 408 504 1 220 528 0 220 528 0 220 528 ; PROC LIFEREG; A: MODEL tiempo*censura(0) = x; B: MODEL tiempo*censura(0) = x / RUN; [1] [2] 1 0 0 1 0 170 3780 1 170 4860 1 170 170 408 1 190 408 1 190 190 1680 0 190 1680 0 190 220 504 1 220 504 1 220 220 528 0 220 528 0 220 [3] [4] DIST = LNORMAL; En él se observa, [1], que los datos corresponden a las variables tiempo, censura y tempe, los cuales se introducen en formato libre al añadirse @@. Se define a continuación, [2], la variable x, la cual será utilizada más abajo por el procedimiento como covariable en el modelo. Después de los datos aparecen las sentencias propias del procedimiento LIFEREG, en donde se especifican dos modelos a considerar, uno con distribución de Weibull para los errores, [3], y el otro con distribución log-normal, [4]. En ellos se señala que aquellos tiempos en los que la variable censura tome el valor 0 será datos censurados, y el resto tiempos de fallo. En ambos se expresa como covariable x. Los resultados obtenidos con dicho programa SAS serı́an los siguientes L I F E R E G P R O C E D U R E Data Set =WORK.EJEMPLO4 Dependent Variable=Log(TIEMPO) Censoring Variable=CENSURA Censoring Value(s)= 0 Noncensored Values= 17 Right Censored Values= Left Censored Values= 0 Interval Censored Values= Log Likelihood for WEIBULL -22.95148315 13 0 [1] [1] [2] D 78 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud L I F E R E G P R O C E D U R E Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value INTERCPT X SCALE 1 1 1 -11.89122 9.03834032 0.36128138 [3] 1.965507 0.905993 0.079501 [4] 36.6019 99.52392 0.0001 0.0001 Intercept [5] [6] Extreme value scale paramet L I F E R E G P R O C E D U R E Data Set =WORK.EJEMPLO4 Dependent Variable=Log(TIEMPO) Censoring Variable=CENSURA Censoring Value(s)= 0 Noncensored Values= 17 Right Censored Values= Left Censored Values= 0 Interval Censored Values= 13 0 Log Likelihood for LNORMAL -24.47381031 L I F E R E G [7] P R O C E D U R E Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value INTERCPT X SCALE 1 1 1 -10.470563 8.3220835 0.6040344 [8] 2.77192 1.284124 0.110729 14.26851 42.00011 0.0002 0.0001 Intercept Normal scale parameter En ellos se observa, después de un recuento de cuales datos son no censurados y cuales censurados (y de que tipo), [1], el valor alcanzado por la verosimilitud bajo un modelo Weibull para los errores, [2], igual a −22′ 95148. La tabla que aparece a continuación recoge las estimaciones, [3], de los parámetros del modelo de tiempo de fallo acelerado Y = α + xβ + σω ′ ′ las cuales son α̂ = −11 891, β̂ = 9 038 y σ̂ = 0′ 3613. Se observa también su desviación tı́pica, [4], ası́ como los tests para contrastar la hipótesis nula de igualdad a cero de los parámetros de regresión, los cuales tiene unos valores del estadı́stico de contraste dados por [5], siendo el p-valor de cada uno de ellos, [6], los suficientemente significativo como para rechazar dicha hipótesis nula y aceptar, en consecuencia, el modelo propuesto, el cual, al ser para 130o C la covariable igual a x0 = 1000/(273′ 2+130) = 2′ 48 implica una predicción para el logaritmo del tiempo de vida mediano igual a y0′ 5 = −11′ 891 + 2′ 48 · 9′ 038 + 0′ 3613 · 0 = 10′ 523 al ser w0′ 5 = 0. En la segunda parte de los resultados se observa de nuevo, lógicamente, el mismo recuento de valores censurados y no censurados, una verosimilitud, [7], bajo una distribución log-normal, algo menor, −24′ 4738, —lo cual sugiere utilizar el modelo con distribución de Weibull— , confirmando los tests de la última tabla las estimaciones dadas en [8], α̂ = −10′ 471, β̂ = 8′ 322 y σ̂ = 0′ 604, las cuales proporcionan ahora una estimación para el logaritmo del tiempo de vida mediano igual a D 79 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia y0′ 5 = −10′ 471 + 2′ 48 · 8′ 322 + 0′ 604 · 0 = 10′ 17 Utilizando el modelo de tiempo de fallo acelerado, con una distribución de Weibull para los errores, el tiempo de vida mediano estimado será, por tanto, exp{10′ 523} = 37160′ 4. Ejemplo 2.5 Los siguientes datos, Tobin (1958), corresponden a 20 observaciones de tres variables, duracion, edad y liquidez, obtenidos con objeto de ajustar un modelo de tiempo de fallo acelerado, en donde figure como variable dependiente duracion y en donde se admita como distribución base una normal. Se supone que la variable duracion está censurada por la izquierda en cero, por lo que debemos eliminar aquellos datos en los que dicha variable tome el valor 0. El programa SAS a utilizar será el siguiente DATA ejemplo5; INPUT duracion edad liquidez @@; IF duracion=0 THEN menor=.; ELSE menor=duracion; CARDS; 0.0 57.7 236 0.0 59.8 216 10.4 46.8 207 0.7 50.9 283 0.0 44.3 284 0.0 58.0 249 0.0 48.5 207 3.7 45.1 221 0.0 58.9 246 0.0 41.7 220 0.0 51.7 275 0.0 40.0 277 0.0 47.7 238 3.0 50.0 269 1.5 34.1 231 ; PROC LIFEREG; MODEL (menor , duracion) = edad liquidez RUN; [1] 0.0 0.0 3.5 6.1 0.0 39.9 33.4 48.1 46.1 53.1 219 240 266 214 251 / DIST = NORMAL; [2] En él se observa la introducción de la variable menor con la que definir el intervalo de censura utilizado en [2]. El resto de las sentencias son ya conocidas. Los resultados obtenidos con dicho programa SAS serı́an los siguientes L I F E R E G P R O C E D U R E Data Set =WORK.EJEMPLO5 Dependent Variable=MENOR Dependent Variable=DURACION Noncensored Values= 7 Right Censored Values= Left Censored Values= 13 Interval Censored Values= 0 0 Log Likelihood for NORMAL -28.92596097 L I F E R E G P R O C E D U R E Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value INTERCPT EDAD LIQUIDEZ SCALE 1 1 1 1 15.2771208 -0.1340075 -0.0451356 5.56935051 [1] 16.03272 0.218931 0.058269 1.728145 0.907964 0.374664 0.600026 0.3407 0.5405 0.4386 Intercept Normal scale parameter [2] En ellos se observan las estimaciones del modelo, quedando éste de la forma Y = 15′ 277 − 0′ 134 · EDAD − 0′ 045 · LIQUIDEZ + 5′ 569 ω D 80 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud No obstante, los p-valores, [2], de los tests que contrastan como hipótesis nula la igualdad de cero de los parámetros del modelo, sugieren que el ajuste efectuado no es el adecuado. 2.7.3. Procedimiento PHREG El procedimiento PHREG se utiliza con datos, algunos de los cuales pueden ser censurados por la derecha, con objeto de Realizar un análisis de regresión basado en el modelo de azar proporcional (véase sección 2.4.2) el cual supone una función tasa de azar de la forma λ(t; x) = λ0 (t) ex tβ y, en consecuencia, una función de supervivencia de la forma S(t; x) = [S0 (t)]exp{x t β} en donde λ0 es la denominada tasa de azar base y S0 la correspondiente función de supervivencia base. Especificaciones del procedimiento PHREG Como en todo procedimiento SAS el procedimiento PHREG permite una serie de especificaciones. La más importante, además de obligatoria, es la sentencia MODEL, PROC PHREG; MODEL respuesta = covariables / opciones; Con esta sentencia especificamos cual es la variable dependiente, respuesta, y cuales las covariables o variables independientes, covariables. Si existen datos censurados debemos indicarlo introduciendo una variable indicadora de censura, para unos determinados valores de la cual, los datos observados en respuesta son censurados por la derecha, debemos expresarlo de la forma MODEL respuesta< ∗censura(numero) >= covariables / opciones; Ası́ por ejemplo, si la variable de respuesta es muerte, salvo en aquellos casos en los que la variable perdida tome los valores 1 y 2, en cuyo caso los datos son tiempos de censura en lugar de tiempos de fallo, lo indicaremos de la forma MODEL muerte∗perdida(1,2) = covariables / opciones; D 81 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Entre la opciones de MODEL están las siguientes SELECTION = opcion Mediante SELECTION determinamos la manera en la que SAS selecciona las coariables significativas en el modelo de azar proporcional. Podemos elegir, entre otras, stepwise, con la cual elegimos el método stepwise de selección, o score con el cual idetificamos un número determinado de modelos con un mayor estadı́stico χ2 de entre todos los posibles modelos que podemos formar con las covariables, utilizando desde una hasta todas ellas. El número de modelos, n, se determina con BEST=n. SLENTRY = α Especifica el nivel de significación con el que se realiza el contraste para incorporar las variables con el método stepwise. Entre todas las covariables que no estén en el modelo, se incorpora aquella con el p-valor más pequeño, si éste es menor o igual que α. SLSTAY = α Especifica el nivel de significación con el que se realiza el contraste para eliminar las variables con el método stepwise. Entre todas las covariables que están en el modelo, se elimina aquella con el mayor p-valor, si éste es mayor que α. DETAILS Permite obtener detalles del proceso de selección de las variables por el método stepwise. Ejemplo 2.1 (continuación) El propósito ahora es utilizar un modelo de azar porporcional en donde se considera a la variable de respuesta dias, función —a través de dicho modelo— de la covariable grupo. El programa SAS a utilizar serı́a el siguiente DATA ejemplo6; INPUT dias estatus grupo @@; CARDS; 143 1 1 164 1 1 188 1 1 188 1 1 209 1 1 213 1 1 216 1 1 220 1 1 246 1 1 265 1 1 304 1 1 216 0 1 163 1 2 198 1 2 205 1 2 232 1 2 233 1 2 233 1 2 239 1 2 240 1 2 296 1 2 296 1 2 323 1 2 204 0 2 ; PROC PHREG; MODEL dias*estatus(0) = grupo; RUN; 190 227 244 232 261 344 1 1 0 1 1 0 1 1 1 2 2 2 192 230 142 233 280 1 1 1 1 1 1 1 2 2 2 206 234 156 233 280 1 1 1 1 1 1 1 2 2 2 [1] En él se observa, [1], la identificación de la censura como el valor 0 de la variable estatus, ası́ como que en dicho modelo la covariable utilizada es grupo. El resto de las sentencias son D 82 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud ya conocidas. Los resultados obtenidos con dicho programa SAS serı́an los siguientes The PHREG Procedure Data Set: WORK.EJEMPLO6 Dependent Variable: DIAS Censoring Variable: ESTATUS Censoring Value(s): 0 Ties Handling: BRESLOW Summary of the Number of Event and Censored Values Total Event Censored Percent Censored 40 36 4 10.00 Testing Global Null Hypothesis: BETA=0 Criterion -2 LOG L Score Wald Without Covariates With Covariates 204.317 . . 201.438 . . Model Chi-Square 2.878 with 1 DF (p=0.0898) 3.000 with 1 DF (p=0.0833) 2.925 with 1 DF (p=0.0872) [1] [1] [1] Analysis of Maximum Likelihood Estimates Variable GRUPO DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio 1 -0.595896 0.34840 2.92532 0.0872 0.551 [2] Como la variable grupo toma solamente dos valores, la hipótesis nula de igualdad entre los dos grupos, resulta equivalente a la hipótesis nula aquı́ contrastada H0 : β = 0. Los p-valores, [1], de los tres tests realizados, no son nada concluyentes. Se incluye también, [2], el valor del cociente entre las tasas de azar de cada uno de los dos grupos. El valor de dicho estadı́stico, 0′ 551, implica que la tasa de azar para el grupo 2 es menor que para el grupo 1. Es decir, las ratas del grupo 2 viven más tiempo que las del grupo 1. Obsérvese que la comparación de las curvas de supervivencia aquı́ realizada es diferente a la del capı́tulo 2. Aquı́, ambas funciones de supervivencia son modeladas a través de un modelo de azar proporcional. Allı́ eran estimadas por medio del estimador de Kaplan-Meier o por medio de la tabla de supervivencia y luego comparadas. Ejemplo 2.6 Krall, Uthoff y Harley (1975) analizaron datos procedentes de un estudio sobre cáncer de huesos, en el cual, los investigadores trataron 65 pacientes con agentes alcalinos. De esos pacientes, 48 murieron (por el mal en cuestión) durante el estudio y 17 sobrevivieron. Cuando diagnosticaron a los pacientes su enfermedad, los investigadores observaron en ellos las siguientes variables: logbun el logaritmo de bun, hgb niveles de hemoglobina, plaqueta niveles de plaquetas, edad de los pacientes, logwbc el logaritmo de wbc, frac número de fracturas, logplas logarı́tmo del porcentaje de células con plasma en la médula de los huesos, proteina niveles de proteinas y suerocal niveles de suero cálcico. D 83 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia El propósito del experimento es determinar que variables de entre las anteriores son significativas, supuesto un modelo de azar proporcional para el tiempo de supervivencia. Los datos obtenidos aparecen ya en el siguiente programa SAS, los cuales incluyen también el tiempo de fallo de cada individuo y una variable de censura para indicar los 17 individuos que sobrevivieron al estudio y que, por tanto, corresponden a datos censurados. DATA ejemplo7; INPUT tiempo censura logbun hgb plaqueta edad logwbc frac logplas proteina suerocal; CARDS; 1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 10 1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18 2.00 1 1.5185 9.8 1 81 3.8751 1 2.0000 2 15 2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553 0 12 2.00 1 1.3010 5.1 0 57 3.7243 1 2.0000 3 9 3.00 1 1.5441 6.7 1 46 4.4757 0 1.9345 12 10 5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628 4 9 5.00 1 1.6812 6.5 1 74 3.7324 0 1.7324 5 9 6.00 1 1.3617 9.0 1 77 3.5441 0 1.4624 1 8 6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617 1 8 6.00 1 1.1139 9.7 1 60 3.5185 1 1.3979 0 10 6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902 0 8 7.00 1 1.9777 9.5 1 48 3.3617 1 1.5682 5 10 7.00 1 1.0414 5.1 0 61 3.7324 1 2.0000 1 10 7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185 1 13 9.00 1 1.7243 8.2 1 55 3.7993 1 1.7404 0 12 11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788 0 10 11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761 1 9 11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195 1 10 11.00 1 1.5682 7.5 1 70 3.8865 0 1.6721 0 12 11.00 1 1.0792 9.6 1 51 3.5051 1 1.9031 0 9 13.00 1 0.7782 5.5 0 60 3.5798 1 1.3979 2 10 14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553 2 10 15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314 0 11 16.00 1 1.3424 9.0 1 48 3.9345 1 2.0000 0 10 16.00 1 1.3222 8.8 1 62 3.6990 1 0.6990 17 10 17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472 4 9 17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128 1 10 18.00 1 1.4472 7.5 1 65 3.5682 0 0.9031 7 8 19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000 6 15 19.00 1 1.2553 7.5 0 60 3.7924 1 1.9294 5 9 24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771 0 9 25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435 0 10 26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11 32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335 1 9 35.00 1 1.1139 7.0 0 48 3.6532 1 1.1761 4 10 37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041 7 9 41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771 6 10 41.00 1 1.1461 5.0 1 70 3.5185 1 1.3424 0 9 51.00 1 1.5682 7.7 0 74 3.4150 1 1.0414 4 13 52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532 4 10 54.00 1 1.2553 9.0 1 49 3.7243 1 1.6990 2 10 58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10 66.00 1 1.4472 6.6 1 59 3.7853 1 1.8195 0 9 67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414 1 10 88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21 9 89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232 1 9 92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150 4 11 4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10 D 84 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232 0 13 7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573 0 10 7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808 0 11 8.00 0 1.0792 9.9 1 57 3.8325 1 1.6532 0 8 12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461 0 7 11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451 3 9 12.00 0 1.3979 8.8 1 66 3.8388 1 1.3617 0 9 13.00 0 1.6628 4.9 0 71 3.6435 0 1.7924 0 9 16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031 0 9 19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000 1 10 19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185 0 10 28.00 0 1.2304 7.3 1 82 3.7482 1 1.6721 0 9 41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472 1 9 53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000 1 11 57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542 0 11 77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12 ; PROC PHREG; MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac logplas proteina suerocal / SELECTION=stepwise [1] SLENTRY=0.25 [2] SLSTAY=0.15 [3] DETAILS; [4] RUN; Las sentencias del paso data son ya concocidas. Respecto a las sentencias especı́ficas del procedimiento PHREG, se indica, [1], que el método de selección de variables es stepwise y que los niveles de significación para incorporar variables, [2], y para excluirlas, [3] son respectivamente 0′ 25 y 0′ 15. Se requiere, por último, [4], que el proceso se muestre detalladamente. Los resultados obtenidos con dicho programa SAS serı́an los siguientes The PHREG Procedure Data Set: WORK.EJEMPLO7 Dependent Variable: TIEMPO Censoring Variable: CENSURA Censoring Value(s): 0 Ties Handling: BRESLOW Summary of the Number of Event and Censored Values Total Event Censored Percent Censored 65 48 17 26.15 Analysis of Variables Not in the Model Variable Score Chi-Square Pr > Chi-Square LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC 8.5164 5.0664 3.1816 0.0183 0.5658 0.9151 0.0035 0.0244 0.0745 0.8924 0.4519 0.3388 [1] D 85 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia LOGPLAS PROTEINA SUEROCAL 0.5846 0.1466 1.1109 Residual Chi-square = 18.4550 Step 0.4445 0.7018 0.2919 with 9 DF (p=0.0302) 1: Variable LOGBUN is entered. The model contains the following explanatory variables. LOGBUN The PHREG Procedure Testing Global Null Hypothesis: BETA=0 Criterion -2 LOG L Score Wald Without Covariates With Covariates 309.716 . . 301.959 . . Model Chi-Square 7.757 with 1 DF (p=0.0053) 8.516 with 1 DF (p=0.0035) 8.339 with 1 DF (p=0.0039) Analysis of Maximum Likelihood Estimates Variable LOGBUN DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio 1 1.745947 0.60460 8.33919 0.0039 [2] 5.731 Analysis of Variables Not in the Model Variable Score Chi-Square Pr > Chi-Square HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA SUEROCAL 4.3468 2.0183 0.7159 0.0704 1.0354 1.0334 0.5214 1.4150 0.0371 0.1554 0.3975 0.7908 0.3089 0.3094 0.4703 0.2342 Residual Chi-square = 9.3164 Step [3] with 8 DF (p=0.3163) 2: Variable HGB is entered. The model contains the following explanatory variables. LOGBUN HGB The PHREG Procedure Testing Global Null Hypothesis: BETA=0 Criterion -2 LOG L Score Without Covariates With Covariates 309.716 . 297.767 . Model Chi-Square 11.949 with 2 DF (p=0.0025) 12.725 with 2 DF (p=0.0017) D 86 Wald Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud . . 12.190 with 2 DF (p=0.0023) Analysis of Maximum Likelihood Estimates Variable LOGBUN HGB DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio 1 1 1.674399 -0.118987 0.61209 0.05751 7.48330 4.28112 0.0062 0.0385 [4] 5.336 0.888 Analysis of Variables Not in the Model Variable Score Chi-Square Pr > Chi-Square PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA SUEROCAL 0.2266 1.3508 0.3785 1.0491 0.6741 0.6592 1.8225 0.6341 0.2451 0.5384 0.3057 0.4116 0.4168 0.1770 Residual Chi-square = 5.3635 Step [5] with 7 DF (p=0.6157) 3: Variable SUEROCAL is entered. The model contains the following explanatory variables. LOGBUN HGB SUEROCAL The PHREG Procedure Testing Global Null Hypothesis: BETA=0 Criterion -2 LOG L Score Wald Without Covariates With Covariates 309.716 . . 296.078 . . Model Chi-Square 13.638 with 3 DF (p=0.0034) 15.305 with 3 DF (p=0.0016) 14.454 with 3 DF (p=0.0023) Analysis of Maximum Likelihood Estimates Variable DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio LOGBUN HGB SUEROCAL 1 1 1 1.635924 -0.126428 0.132856 0.62359 0.05868 0.09868 6.88214 4.64194 1.81254 0.0087 0.0312 0.1782 [6] 5.134 0.881 1.142 Step 4: Variable SUEROCAL is removed. The model contains the following explanatory variable(s). LOGBUN HGB Testing Global Null Hypothesis: BETA=0 D 87 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Criterion -2 LOG L Score Wald Without Covariates With Covariates 309.716 . . 297.767 . . Model Chi-Square 11.949 with 2 DF (p=0.0025) 12.725 with 2 DF (p=0.0017) 12.190 with 2 DF (p=0.0023) The PHREG Procedure Analysis of Maximum Likelihood Estimates Variable LOGBUN HGB DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio 1 1 1.674399 -0.118987 0.61209 0.05751 7.48330 4.28112 0.0062 0.0385 5.336 0.888 Analysis of Variables Not in the Model Variable Score Chi-Square Pr > Chi-Square PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA SUEROCAL 0.2266 1.3508 0.3785 1.0491 0.6741 0.6592 1.8225 0.6341 0.2451 0.5384 0.3057 0.4116 0.4168 0.1770 Residual Chi-square = 5.3635 with 7 DF (p=0.6157) NOTE: Model building terminates because the variable to be entered is the variable that was removed in the last step. [7] Summary of Stepwise Procedure Step 1 2 3 4 Variable Entered Removed LOGBUN HGB SUEROCAL SUEROCAL Number In Score Chi-Square Wald Chi-Square Pr > Chi-Square 1 2 3 2 8.5164 4.3468 1.8225 . . . . 1.8125 0.0035 0.0371 0.1770 0.1782 El procedimiento de selección stepwise es un proceso a pasos de inclusión y exclusión de covariables. Primero se realizan, [1], unos tests χ2 para cada una de las covariables. El primer paso consiste en incluir aquella covariable para la que se haya obtenido un menor p-valor en los tests χ2 anteriores, y siempre y cuando dicho p-valor sea menor o igual que el lı́mite establecido en la opción SLENTRY. En nuestro caso, dicho lı́mite era 0′ 25, por lo que incorporamos la covariable logbun, de p-valor marginal 0′ 0035. Véase Step 1. A continuación, como el test de Wald, [2], proporciona un p-valor (0′ 0039) menor que el lı́mite de exclusión de covariables fijado en la opción SLSTAY, (0′ 15 en nuestro programa), la covariable logbun se queda en el modelo. Una nueva serie de tests χ2 , [3], indican que la siguiente covariable a incorporar al modelo es hgb de p-valor 0′ 0371 menor que el lı́mite antes mencionado 0′ 25. De nuevo el test de Wald, [4], indica valores significativos, tanto para logbun como para hgb, al no llegar ninguno de los dos p-valores al lı́mite 0′ 15, infiéndose, por tanto, la permanencia D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 88 de la covariables logbun y hgb en el modelo. La siguiente baterı́a de tests, [5], sugiere incorporar ahora a la covariable suerocal, formando un modelo con las covariables logbun, hgb y suerocal. No obstante, el test de Wald, [6], resulta no ser significativo para la variable suerocal (p-valor = 0′ 1782), con lo que es excluida del modelo. Véase Step 4. El proceso concluye, [7], con un resumen de los pasos dados, que para nuestro ejemplo implican incorporar al modelo, en definitiva, las covariables logbun y hgb. Ejemplo 2.7 Como antes dijimos, una forma alternativa de seleccionar las variables a incorporar al modelo es la de utilizar la opción score en SELECTION. A continuación vamos a repetir el ejemplo anterior, utilizando esta opción. El programa SAS a utilizar serı́a el siguiente DATA ejemplo8; INPUT tiempo censura logbun hgb plaqueta edad logwbc frac logplas proteina suerocal; CARDS; 1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 10 1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18 2.00 1 1.5185 9.8 1 81 3.8751 1 2.0000 2 15 2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553 0 12 2.00 1 1.3010 5.1 0 57 3.7243 1 2.0000 3 9 3.00 1 1.5441 6.7 1 46 4.4757 0 1.9345 12 10 5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628 4 9 5.00 1 1.6812 6.5 1 74 3.7324 0 1.7324 5 9 6.00 1 1.3617 9.0 1 77 3.5441 0 1.4624 1 8 6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617 1 8 6.00 1 1.1139 9.7 1 60 3.5185 1 1.3979 0 10 6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902 0 8 7.00 1 1.9777 9.5 1 48 3.3617 1 1.5682 5 10 7.00 1 1.0414 5.1 0 61 3.7324 1 2.0000 1 10 7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185 1 13 9.00 1 1.7243 8.2 1 55 3.7993 1 1.7404 0 12 11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788 0 10 11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761 1 9 11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195 1 10 11.00 1 1.5682 7.5 1 70 3.8865 0 1.6721 0 12 11.00 1 1.0792 9.6 1 51 3.5051 1 1.9031 0 9 13.00 1 0.7782 5.5 0 60 3.5798 1 1.3979 2 10 14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553 2 10 15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314 0 11 16.00 1 1.3424 9.0 1 48 3.9345 1 2.0000 0 10 16.00 1 1.3222 8.8 1 62 3.6990 1 0.6990 17 10 17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472 4 9 17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128 1 10 18.00 1 1.4472 7.5 1 65 3.5682 0 0.9031 7 8 19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000 6 15 19.00 1 1.2553 7.5 0 60 3.7924 1 1.9294 5 9 24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771 0 9 25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435 0 10 26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11 32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335 1 9 35.00 1 1.1139 7.0 0 48 3.6532 1 1.1761 4 10 37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041 7 9 41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771 6 10 41.00 1 1.1461 5.0 1 70 3.5185 1 1.3424 0 9 D 89 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia 51.00 1 1.5682 7.7 0 74 3.4150 1 1.0414 4 13 52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532 4 10 54.00 1 1.2553 9.0 1 49 3.7243 1 1.6990 2 10 58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10 66.00 1 1.4472 6.6 1 59 3.7853 1 1.8195 0 9 67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414 1 10 88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21 9 89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232 1 9 92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150 4 11 4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10 4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232 0 13 7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573 0 10 7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808 0 11 8.00 0 1.0792 9.9 1 57 3.8325 1 1.6532 0 8 12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461 0 7 11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451 3 9 12.00 0 1.3979 8.8 1 66 3.8388 1 1.3617 0 9 13.00 0 1.6628 4.9 0 71 3.6435 0 1.7924 0 9 16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031 0 9 19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000 1 10 19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185 0 10 28.00 0 1.2304 7.3 1 82 3.7482 1 1.6721 0 9 41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472 1 9 53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000 1 11 57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542 0 11 77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12 ; PROC PHREG; MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac logplas proteina suerocal / SELECTION=score BEST=3; [1] RUN; en donde se observa, [1], que SAS debe elegir, en este caso tres, mejores modelos de cada tamaño. Es decir, el procedimiento deberá mostrar los tres modelos con mayor estadı́stico χ2 —los más significativos, es decir, para aquellos que se rechace más claramente la hipotesis H0 : β = 0— de todos los modelos posibles con cada número indicado de covariables. Los resultados obtenidos con este programa fueron los siguientes The PHREG Procedure Data Set: WORK.EJEMPLO8 Dependent Variable: TIEMPO Censoring Variable: CENSURA Censoring Value(s): 0 Ties Handling: BRESLOW Summary of the Number of Event and Censored Values Total Event Censored Percent Censored 65 48 17 26.15 The PHREG Procedure Regression Models Selected by Score Criterion D 90 In Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Score Value Variables Included in Model 1 8.516 LOGBUN 1 5.066 HGB 1 3.182 PLAQUETA -----------------------------2 12.725 LOGBUN HGB 2 11.184 LOGBUN PLAQUETA 2 9.996 LOGBUN SUEROCAL ------------------------------------3 15.305 LOGBUN HGB SUEROCAL 3 13.991 LOGBUN HGB EDAD 3 13.579 LOGBUN HGB FRAC ------------------------------------4 16.987 LOGBUN HGB EDAD SUEROCAL 4 16.046 LOGBUN HGB FRAC SUEROCAL 4 15.762 LOGBUN HGB LOGPLAS SUEROCAL ------------------------------------------------5 17.629 LOGBUN HGB EDAD FRAC SUEROCAL 5 17.352 LOGBUN HGB EDAD LOGPLAS SUEROCAL 5 17.192 LOGBUN HGB EDAD LOGWBC SUEROCAL ----------------------------------------------------6 17.912 LOGBUN HGB EDAD FRAC LOGPLAS SUEROCAL 6 17.795 LOGBUN HGB EDAD LOGWBC FRAC SUEROCAL 6 17.774 LOGBUN HGB PLAQUETA EDAD FRAC SUEROCAL -----------------------------------------------------------7 18.152 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS SUEROCAL 7 18.057 LOGBUN HGB EDAD LOGWBC FRAC LOGPLAS SUEROCAL 7 18.022 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC SUEROCAL ------------------------------------------------------------------8 18.392 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS SUEROCAL 8 18.164 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS PROTEINA SUEROCAL 8 18.131 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC PROTEINA SUEROCAL ---------------------------------------------------------------------------9 18.455 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA SUEROCAL ------------------------------------------------------------------------------ En ellos se observa, en la primera columna, el número de covariables utilizadas en cada modelo y, en la última, el nombre de cada una de las covariables utilizadas en él. Los modelos son listados en orden decreciente de su estadı́stico de contraste. Por ejemplo, entre todos los modelos conteniendo tres covariables, el formado por las covariables logbun, hgb y suerocal es el que proporciona un mayor valor para el estadı́stico de contraste, el formado por logbun, hgb y suerocal el segundo mayor valor y el formado por logbun, hgb y frac el tercer mayor valor. Los estadı́sticos obtenidos por este procedimiento son los estadı́sticos score del método anterior, por lo que los valores obtenidos por este método en la segunda columna, deben confrontarse con los puntos crı́ticos de las tablas de dicho test para determinar los que son significativos. D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3 Estimación de Haplotipos y de su riesgo 3.1. Conceptos de Genética Los humanos estamos formados por, aproximadamente, 100 billones de células. Cada célula tiene un núcleo y dentro de este núcleo hay una molécula de ADN. Esta molécula de ADN es una sucesión ordenada de cuatro ácidos nucleicos, la Adenina A, la Guanina G, la Citosina, C y la Timina, T . Es decir, esta molécula de ADN es un puzle o sopa de letras del tipo AT CT GACCA..., dando ası́ lugar a nuestro código genético, el cual estará pues determinado por el orden que ocupen estas cuatro letras en la escalera del ADN. Este larguı́sima molécula de ADN está estructurada en 23 pares de cromosonas. Son pares porque uno procede de la madre y otro del padre (por eso se dice que los humanos somos diploides); este par de cromosomas asociados se denominan homólogos. De hecho, esta molécula de ADN está formada fı́sicamente, por dos filamentos estrechamente entrelazados dispuestos en forma de doble hélice, hecho descubierto, fundamentalmente, por James Watson y Francis Crick, en Febrero de 1953. Podemos pensar por tanto, en esta larga doble hélice de letras, divididas en 23 pares denominados cromosomas conteniendo la información genética heredada. Cada cromosoma contendrá, pues, una larga combinación de esas cuatro letras básicas. Grupos de estas letras se denominan genes. Ésta es la visión de mayor a menor. De más pequeño a más grande podemos decir que los genes están hechos de ADN y que se disponen en lı́nea a lo largo de cada cromosoma. Cada gen ocupa en el cromosoma una posición determinada denominada locus. 91 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 92 Por tanto, un gen no es más que un fragmento de ADN que contiene instrucciones. Estas instrucciones se utilizan para fabricar una proteı́na. Un error o una omisión en las letras que forman un gen producirı́a proteı́nas defectuosas y, en consecuencia, una enfermedad genética. En el núcleo de una célula hay unos 100.000 genes distintos y en todo el cuerpo humano unos 3.500 millones de genes distintos. El Proyecto Genoma Humano descifró los 23 pares de cromosomas. La diferencia genética entre un chimpancé y un ser humano es tan sólo del 1′ 5 % y entre un ser humano y otro ser humano del 1 por mil, debido a la casi extinción de nuestra especie no hace mucho tiempo. No todo el ADN se encuentra en el núcleo celular, una pequeña parte se encuentra fuera del núcleo, en las mitocondrias, unos órganos de la célula que se encargan de proporcionarle energı́a. Esta pequeña parte del genóma (menos del uno por mil) se denomina ADN mitocondrial y se abrevia por mtADN. La ausencia de proteı́nas protectoras hace que el mtADN acumule muchos más errores al replicarse que el ADN del interior del núcleo celular por lo que le convierte en un marcador apropiado para estudiar la evolución de una especie. Las mitocondrias tienen una ventaja adicional: debido a que sólo el núcleo de los espermatozoides penetra en el óvulo al fecundarlo, el mtADN se transmite únicamente por vı́a materna y no experimento recombinaciones como le ocurre a los cromosomas del núcleo. Esto significa que, desde un punto de vista evolutivo, el más fácil interpretar este mtAND puesto que no presenta recombinaciones. El estudio del mtADN hacia atrás para analizar nuestros orı́genes, darı́a la gran sorpresa de que todos los europeos descendemos de siete Evas, puesto que sólo hay siete tipos diferentes de mtAND entre los millones de europeos. 3.2. Genotipos y Haplotipos El genotipo de un individuo es como un código propio de él consistente en combinaciones de parte o de todos los genes. Ası́ supongamos un indiviuo en el que nos fijamos en dos genes especı́ficos, que posee el alelo a en el mismo gen de los dos cromosomas homólogos y el alelo B en el otro gen de los dos cromosomas homólogos; es decir, una situación del tipo Cromosoma 1 : · · · Cromosoma 1’ : · · · a ··· B ··· a ··· B ··· ↑ ↑ Gen 1 Gen 2 Este individuo se dice que tiene el genotipo aaBB. Los haplotipos son grupos de genes ordenados. El individuo anterior da D 93 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo lugar a dos haplotipos aB ya que Cromosoma 1 : · · · a · · · B · · · → aB Cromosoma 1’ : · · · a · · · B · · · → aB Los genotipos se pueden observar pero los haplotipos hay que asignarlos. Algunas asignaciones no presenta ninguna dificultad, pero otras no están claras y las realizamos con técnicas estadı́sticas. Veamos todos los genotipos posibles y las asignaciones de haplotipos en cada caso, 1.-Genotipo AABB En este caso la asignación es clara. La situación de un individuo con genotipo AABB puede ser Cromosoma 1 : · · · A · · · B · · · → AB Cromosoma 1’ : · · · A · · · B · · · → AB en cuyo caso el individuo darı́a lugar a dos haplotipos AB, o también podrı́a ser como la siguiente, · · · A · · · B · · · → AB l Cromosoma 1’ : · · · A · · · B · · · → AB Cromosoma 1 : que también darı́a lugar a dos haplotipos AB. Es decir, que un individuo con el genotipo AABB da lugar a dos haplotipos, uno AB y otro también AB. 2.-Genotipo AABb En este caso, también la asignación es clara. La situación puede ser Cromosoma 1 : · · · A · · · B · · · → AB Cromosoma 1’ : · · · A · · · b · · · → Ab en cuyo caso darı́a lugar a dos haplotipos, uno AB y otro Ab. La situación también podrı́a ser como la siguiente, b · · · → Ab l Cromosoma 1’ : · · · A · · · B · · · → AB Cromosoma 1 : ··· A ··· aunque en esta segunda situación también darı́a lugar a dos haplotipos, uno AB y otro Ab. Es decir, en cualquiera de las dos situaciones, un individuo con el genotipo AABb da lugar a dos haplotipos, uno AB y otro Ab. D 94 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 3.-Genotipo AAbb En este caso, la asignación es clara, Cromosoma 1 : · · · A · · · b · · · → Ab Cromosoma 1’ : · · · A · · · b · · · → Ab Un individuo con el genotipo AAbb da lugar a dos haplotipos, uno Ab y otro también Ab. 4.-Genotipo AaBB En este caso, la asignación es clara, Cromosoma 1 : · · · A · · · B · · · → AB Cromosoma 1’ : · · · a · · · B · · · → aB Un individuo con el genotipo AaBB da lugar a dos haplotipos, uno aB y otro AB. 5.-Genotipo Aabb En este caso, la asignación es clara, Cromosoma 1 : · · · A · · · b · · · → Ab Cromosoma 1’ : · · · a · · · b · · · → ab Un individuo con el genotipo AABb da lugar a dos haplotipos, uno Ab y otro ab. 6.-Genotipo aaBB En este caso, la asignación es clara, Cromosoma 1 : · · · a · · · B · · · → aB Cromosoma 1’ : · · · a · · · B · · · → aB Un individuo con el genotipo aaBB da lugar a dos haplotipos, uno aB y otro también aB. 7.-Genotipo aaBb En este caso, la asignación es clara, Cromosoma 1 : · · · a · · · B · · · → aB Cromosoma 1’ : · · · a · · · b · · · → ab Un individuo con el genotipo aaBb da lugar a dos haplotipos, uno aB y otro ab. 8.-Genotipo aabb D 95 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo En este caso, la asignación es clara, Cromosoma 1 : · · · a · · · b · · · → ab Cromosoma 1’ : · · · a · · · b · · · → ab Un individuo con el genotipo aabb da lugar a dos haplotipos, uno ab y otro también ab. 9.-Genotipo AaBb Éste es el único caso en el que la asignación no es clara. La situación puede ser del tipo Cromosoma 1 : · · · A · · · B · · · → AB Cromosoma 1’ : · · · a · · · b · · · → ab en cuyo caso darı́a lugar a los haplotipos AB y ab, pero también puede ser la situación de la siguiente manera, Cromosoma 1 : · · · A · · · b · · · → Ab Cromosoma 1’ : · · · a · · · B · · · → aB en cuyo caso darı́a lugar a los haplotipos Ab y aB. Precisamente, la asignación de los haplotipos más verosı́miles a individuos con genotipo AaBb se realiza con métodos estadı́sticos, basándonos en la frecuencia de haplotipos existentes en la población a la que pertenece el individuo, utilizando el algoritmo EM. 3.3. Asignación de haplotipos a individuos con genotipo AaBb En el último apartado de la sección anterior, indicamos los haplotipos que cabrı́a asignar a los individuos según el genotipo que tuvieran. Cabı́an, no obstante, dos posibilidades de asignación de haplotipos a los individuos con genotipo AaBb. Ésta la haremos mediante un proceso iterativo el cual, en su forma computacional, recibe el nombre de algoritmo EM. El proceso de actuación (el algoritmo) es el siguiente: En una etapa inicial consideramos a priori como equiprobables la obtención de los dos haplotipos que se consiguen con cada genotipo y, además, como equiprobables las dos situaciones que se podı́an presentar en el apartado 9 anterior. Ası́ por ejemplo, es seguro que a un individuo con genotipo AABB se le asigna un haplotipo AB (es decir, P (AB/AABB) = 1), o por ejemplo que a un individuo con genotipo AABb se le asigna un haplotipo AB con probabilidad 1/2 puesto que también se le prodrı́a asignar el otro haplotipo Ab con probabilidad 1/2 (es decir, P (AB/AABb) = 1/2) y, además, en D 96 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud relación a la última situación conflictiva, será como hemos dicho, a priori, es decir, en la etapa inicial, P (AB ∩ ab/AaBb) = 1/2. Para obtener uno de los dos deberá sortear otra vez con probabilidad 1/2 y será, por ejemplo, P (AB/AaBb) = 1/4. Por tanto, un individuo elegido al azar de un población, el cual tenga genotipo AaBb, tendrá probabilidad de tener los haplotipos AB y ab (primera posibilidad, digamos S1 ) con probabilidad P (S1 /AaBb) = P (AB ∩ ab/AaBb) = 1/2. La otra posibilidad es que tenga los haplotipos Ab y aB (posibilidad a la que denominaremos S2 ), de probabilidad a priori P (S2 /AaBb) = P (Ab ∩ aB/AaBb) = 1 − P (S1 ) = 1/2. Estas dos posibilidades se suelen denominar en genética, respectivamente S1 ≡ AB/ab y S2 ≡ Ab/aB aunque no tengan nada que ver con sucesos condicionados. El algoritmo EM va modificando esas probabilidades a priori en base a datos observados en una determinada muestra de la población en estudio. Supongamos una población de 398 individuos clasificados según sus pares de alelos en los dos cromosomas homólogos, BB Bb bb AA 0 0 3 Aa 1 24 46 aa 34 127 163 Es decir, tenemos 34 individuos en la población con el genotipo aaBB a los que, por el razonamiento de más arriba, asignaremos a cada uno de ellos dos haplotipos aB; 3 individuos con el genotipo AAbb a los que asignaremos dos haplotipos Ab; pero, ¿qué haplotipos asignaremos a los 24 individuos con el genotipo AaBb? En la etapa a priori tenı́amos P (S1 /AaBb) = 1/2 P (S2 /AaBb) = 1/2. Ahora vamos a transformar, en un Primer Paso, esta información a priori con la información muestral disponible, obteniendo una probabilidades a posteriori para P (S1 /AaBb) y P (S2 /AaBb), las cuales serán utilizadas en un Segundo Paso como probabilidades a priori en lugar de los valores previos 0′ 5, 0′ 5. D 97 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo En vista de la tabla, si denominamos AABB al suceso obtener un individuo de la población con genotipo AABB y de la misma manera denotamos a los otros ocho posibles genotipos de la población, éstos formarán un sistema completo de sucesos y, por tanto, la probabilidad de elegir un individuo de la población con haplotipo AB, P (AB) será, por el teorema de la probabilidad total, P (AB) = P (AABB)P (AB/AABB) + P (AAbb)P (AB/AAbb) + P (Aabb)P (AB/Aabb) + P (aaBb)P (AB/aaBb) + P (AaBb)P (AB/AaBb) 0 1 3 0 = ·1+ · + ·0+ 398 398 2 398 + + + + + P (AABb)P (AB/AABb) P (AaBB)P (AB/AaBB) P (aaBB)P (AB/aaBB) P (aabb)P (AB/aabb) 1 1 46 34 · + ·0+ ·0 398 2 398 398 127 163 24 1 ·0+ ·0+ · = 0′ 01633166 398 398 398 4 Análogamente se obtendrı́a que P (aB) = 0′ 2613065 P (Ab) = 0′ 080402 P (ab) = 0′ 6419597 siendo P (AB) + P (aB) + P (Ab) + P (ab) = 1, pues estos cuatro haplotipos son los cuatro posibles. Por tanto, la probabilidad de obtener en esa población un individuo con haplotipos AB y ab será P (S1 ) = P (AB) · P (ab) = 0′ 01633166 · 0′ 6419597 = 0′ 01048423 y con haplotipos Ab y aB P (S2 ) = P (Ab) · P (aB) = 0′ 080402 · 0′ 2613065 = 0′ 02100957. La de que un individuo de esa población con genotipo AaBb tenga esa pareja de haplotipos será, por el teorema de Bayes, P (S1 /AaBb) = = P (AaBb/S1 ) · P (S1 ) P (AaBb/S1 ) · P (S1 ) + P (AaBb/S2 ) · P (S2 ) 1 · 0′ 01048423 = 0′ 332899 1 · 0′ 01048423 + 1 · 0′ 02100957 D 98 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud y, por tanto, P (S2 /AaBb) = 1 − 0′ 332899 = 0′ 667101. Ya tenı́amos la información a priori P (S1 /AaBb) = P (AB ∩ ab/AaBb) = 1/2 P (S2 /AaBb) = P (Ab ∩ aB/AaBb) = 1 − P (S1 ) = 1/2. Ahora, después de una iteración (o combinación de una etapa con la muestra) será P (S1 /AaBb) = 0′ 332899 P (S2 /AaBb) = 1 − 0′ 332899 = 0′ 667101 y, por tanto, ′ P (AB/AaBb) = 0 332899 = 0′ 1664495 2 ′ P (ab/AaBb) = 0 332899 = 0′ 1664495 2 ′ P (Ab/AaBb) = 0 667101 = 0′ 3335505 2 ′ = 0′ 3335505 P (aB/AaBb) = 0 667101 2 valores a introducir de nuevo en el proceso en la Etapa Segunda, en lugar de los valores 1/4 utilizados en la Primera Etapa. Utilizando el algoritmo EM, en lugar de repetir el proceso manualmente, después de 20 iteraciones el algoritmo converge a los valores P (S1 /AaBb) = 0′ 088 P (S2 /AaBb) = 1 − 0′ 088 = 0′ 912. (Se podrı́an hacer pruebas con otros valores a priori en lugar de 0′ 5 y ver si se obtiene la misma estimación final.) 3.3.1. Asignación de haplotipos Una vez estimadas las probabilidades de ambos sucesos, S1 y S2 , proceso que suele llamarse Fase de Determinación, comienza la denominada Fase de Asignación en la que caben, básicamente, dos opciones, D 99 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo 1. Uniforme: Asignar a todos los individuos con genotipo AaBa los haplotipos más probables. Esto es lo que habitualmente se hace. En nuestro caso, asignarı́amos a los 24 individuos los haplotipos S2 es decir, Ab/aB 2. Máximo-verosı́mil: Asignar a cada uno de los individuos con genotipo AaBa los haplotipos S1 o S2 según las probabilidades estimadas. En nuestro caso, asignar a cada uno de los 24 individuos de la población en estudio, los haplotipos Ab/aB con probabilidad 0′ 912 y los haplotipos AB/ab con probabilidad 0′ 088. 3.4. Comparación de poblaciones: Regresión Logı́stica En muchas ocasiones es de interés comparar dos poblaciones, por ejemplo la que está en estudio y una población control, con objeto de analizar si existen diferencias significativas entre ellas, mediante una Regresión Logı́stica, considerando varias covariables en el estudio. En concreto, considerando como una de las covariables posibles, los haplotipos de ambas poblaciones. Si sólo se considerase esta covariable, un tratamiento alternativo de comparación, puesto que los datos observados son recuentos de observaciones, serı́a un test de comparación de varias muestras de la χ2 . No obstante, lo más frecuente es utilizar más covariables tales como la Edad, etc. Por razones pedagógicas, consideremos aquı́ sólo la covariable haplotipo y comparemos la población antes considerada con una Población Control con 458 individuos BB Bb bb AA 0 1 2 Aa 3 25 56 aa 25 151 195 Repitiendo exactamente el mismo proceso de la sección anterior se llegarı́a, en esta Población a P (S1 /AaBb) = 0′ 268 P (S2 /AaBb) = 0′ 732. Los resultados dependerán del tipo de asignación elegido. Como el primer caso es un caso particular del segundo en el que la P (S1 /AaBb) = 0 ó igual a 1, llamaremos p = P (S1 /AaBb) y luego sustituiremos p por uno u otro valor según el tipo de asignación considerado. D 100 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Necesitamos determinar el número esperado de individuos de cada uno de los cuatro haplotipos, para cada una de las dos poblaciones a comparar. Para ello, habrá que calcular la probabilidad de los cuatro haplotipos posibles y luego, multiplicarlas por el tamaño de la población. Sustituyendo 1/4 por p/2 ó (1 − p)/2 en [3.3] según el caso, será para la población en estudio, P (AB) = P (AABB)P (AB/AABB) + P (AAbb)P (AB/AAbb) + P (Aabb)P (AB/Aabb) + P (aaBb)P (AB/aaBb) + P (AaBb)P (AB/AaBb) 0 0 1 3 = ·1+ · + ·0+ 398 398 2 398 + P (AABB)P (aB/AABB) + P (AAbb)P (aB/AAbb) + P (Aabb)P (aB/Aabb) + P (aaBb)P (aB/aaBb) + P (AaBb)P (aB/AaBb) 0 0 3 ·0+ ·0+ ·0+ = 398 398 398 + 1 1 46 34 · + ·0+ ·0 398 2 398 398 + + + + P (AABb)P (aB/AABb) P (AaBB)P (aB/AaBB) P (aaBB)P (aB/aaBB) P (aabb)P (aB/aabb) 1 1 46 34 · + ·0+ ·1 398 2 398 398 127 1 163 24 1−p 110 − 12p · + ·0+ · = 398 2 398 398 2 398 P (AABB)P (Ab/AABB) + P (AAbb)P (Ab/AAbb) + P (Aabb)P (Ab/Aabb) + P (aaBb)P (Ab/aaBb) + P (AaBb)P (Ab/AaBb) 0 0 1 3 = ·0+ · + ·1+ 398 398 2 398 + P (AABb)P (AB/AABb) P (AaBB)P (AB/AaBB) P (aaBB)P (AB/aaBB) P (aabb)P (AB/aabb) 0′ 5 + 12p 127 163 24 p = ·0+ ·0+ · 398 398 398 2 398 P (aB) = P (Ab) = + + + + + + + + P (AABb)P (Ab/AABb) P (AaBB)P (Ab/AaBB) P (aaBB)P (Ab/aaBB) P (aabb)P (Ab/aabb) 1 46 1 34 ·0+ · + ·0 398 398 2 398 127 163 24 1−p 38 − 12p ·0+ ·0+ · = 398 398 398 2 398 D 101 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo P (ab) = P (AABB)P (ab/AABB) + P (AAbb)P (ab/AAbb) + P (Aabb)P (ab/Aabb) + P (aaBb)P (ab/aaBb) + P (AaBb)P (ab/AaBb) 0 0 3 ·0+ ·0+ ·0+ = 398 398 398 + + + + + P (AABb)P (ab/AABb) P (AaBB)P (ab/AaBB) P (aaBB)P (ab/aaBB) P (aabb)P (ab/aabb) 1 46 1 34 ·0+ · + ·0 398 398 2 398 24 249′ 5 + 12p 127 1 163 p · + ·1+ · = 398 2 398 398 2 398 Lógicamente, es 0′ 5 + 12p 110 − 12p 38 − 12p 249′ 5 + 12p + + + = 1. 398 398 398 398 Para la población control será P (AB) = P (AABB)P (AB/AABB) + P (AAbb)P (AB/AAbb) + P (Aabb)P (AB/Aabb) + P (aaBb)P (AB/aaBb) + P (AaBb)P (AB/AaBb) 0 1 1 2 = ·1+ · + ·0+ 458 458 2 458 + + + + + P (AABb)P (AB/AABb) P (AaBB)P (AB/AaBB) P (aaBB)P (AB/aaBB) P (aabb)P (AB/aabb) 3 1 56 25 · + ·0+ ·0 458 2 458 458 151 p 2 + 12′ 5p 195 25 = ·0+ ·0+ · 458 458 458 2 458 P (aB) = P (AABB)P (aB/AABB) + P (AAbb)P (aB/AAbb) + P (Aabb)P (aB/Aabb) + P (aaBb)P (aB/aaBb) + P (AaBb)P (aB/AaBb) 0 1 2 ·0+ ·0+ ·0+ = 458 458 458 + + + + + P (AABb)P (aB/AABb) P (AaBB)P (aB/AaBB) P (aaBB)P (aB/aaBB) P (aabb)P (aB/aabb) 3 1 56 25 · + ·0+ ·1 458 2 458 458 151 1 195 25 1−p 114′ 5 − 12′ 5p · + ·0+ · = 458 2 458 458 2 458 D 102 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud P (Ab) = P (AABB)P (Ab/AABB) + P (AAbb)P (Ab/AAbb) + P (Aabb)P (Ab/Aabb) + P (aaBb)P (Ab/aaBb) + P (AaBb)P (Ab/AaBb) 1 1 2 0 ·0+ · + ·1+ = 458 458 2 458 + + + + + P (AABb)P (Ab/AABb) P (AaBB)P (Ab/AaBB) P (aaBB)P (Ab/aaBB) P (aabb)P (Ab/aabb) 3 56 1 25 ·0+ · + ·0 458 458 2 458 151 1−p 195 25 43 − 12′ 5p ·0+ ·0+ · = 458 458 458 2 458 P (ab) = P (AABB)P (ab/AABB) + P (AAbb)P (ab/AAbb) + P (Aabb)P (ab/Aabb) + P (aaBb)P (ab/aaBb) + P (AaBb)P (ab/AaBb) 1 2 0 = ·0+ ·0+ ·0+ 458 458 458 + + + + + P (AABb)P (ab/AABb) P (AaBB)P (ab/AaBB) P (aaBB)P (ab/aaBB) P (aabb)P (ab/aabb) 3 56 1 25 ·0+ · + ·0 458 458 2 458 151 1 195 25 p 298′ 5 + 12′ 5p · + ·1+ · = 458 2 458 458 2 458 Ahora también es 2 + 12′ 5p 114′ 5 − 12′ 5p 43 − 12′ 5p 298′ 5 + 12′ 5p + + + = 1. 458 458 458 458 Asignación Uniforme: En este tipo de asignación, para el ejemplo que estamos considerando, es p = 0 en ambas poblaciones puesto que era más probable S2 que S1 . Por tanto, sustituyendo p = 0 en las probabilidades anteriores quedará la probabilidad de los cuatro haplotipos en cada una de las dos poblaciones como sigue: AB aB Ab ab Población en estudio 0′ 5/398 110/398 38/398 249′ 5/398 1 Población Control 2/458 114′ 5/458 43/458 298′ 5/458 1 multiplicando ahora las cuatro probabilidades de la población en estudio por el número de individuos que hay en ella, 398, y por 458 en la Población Control, D 103 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo quedará el número esperado de haplotipos en cada una de las dos poblaciones como sigue: AB aB Ab ab Población en estudio Población Control 0′ 5 2 110 114′ 5 38 43 249′ 5 298′ 5 398 458 Tabla 1 Asignación Máximo-verosı́mil: En este tipo de asignación, para el ejemplo que estamos considerando, era p = 0′ 088 en la Población en estudio y p = 0′ 268 en la Población Control, con lo que las probabilidades de los cuatro haplotipos en cada una de las dos poblaciones queda como sigue: AB aB Ab ab Población en estudio 1′ 556/398 108′ 944/398 36′ 944/398 250′ 556/398 1 Población Control 5′ 35/458 111′ 15/458 39′ 65/458 301′ 85/458 1 multiplicando ahora las cuatro probabilidades de la población en estudio por el número de individuos que hay en ella, 398, y por 458 en la Población Control, quedará el número esperado de haplotipos en cada una de las dos poblaciones como sigue: AB aB Ab ab 3.4.1. Población en estudio Población Control 1′ 556 5′ 35 108′ 944 111′ 15 ′ 36 944 39′ 65 ′ 250 556 301′ 85 398 458 Tabla 2 Regresión Logı́stica A continuación vamos a comparar ambas poblaciones en cada una de las dos situaciones de asignación utilizando los datos de las Tablas 1 y 2. Observamos primero que, en algunos casos, aparecen números decimales de individuos con un determinado haplotipo en dichas Tablas. Aunque en un Análisis de D 104 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Regresión Logı́stica las covariables no tienen porque tomar valores enteros, al ser en este caso la única covariable, haplotipo, cualitativa con cuatro clases posibles, es natural que ası́ lo fuera (aunque recuérdese que, al estimar las probabilidades y luego las frecuencias absolutas de cada celdilla, éstas podrı́an ser números decimales). Por tanto, suele tomarse el entero más próximo a los valores de las Tablas 1 y 2 para realizar el Análisis. Es decir, por ejemplo se estima que hay 5 individuos con haplotipo AB en la Población control de la Tabla 2. Por otro lado, es habitual que los genetistas consideren los haplotipos por parejas, de manera que duplican el número de individuos en cada población para que sigan sumando las probabilidades estimadas 1. Por ello, si primero multiplicamos por dos los números de las Tablas 1 y 2 y luego tomamos el entero más próximo en los casos que queden valores decimales, las tablas a considerar serán, finalmente, Asignación uniforme: AB aB Ab ab Población en estudio Población Control 1 4 220 229 76 86 499 597 796 916 Tabla 1 Un Análisis de Regresión Logı́stica proporcionó el valor 2′ 7933 para el estadı́stico de Wald con p-valor asociado igual a 0′ 4246. Asignación Máximo-verosı́mil: La tabla de observaciones es AB aB Ab ab Población en estudio Población Control 3 11 218 222 74 79 501 604 796 916 Tabla 2 proporcionando el Análisis de Regresión Logı́stica un valor para el estadı́stico de Wald igual a 5′ 6159 y un p-valor asociado de 0′ 1319. D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4 Bioinformática: Técnicas Machine Learning 4.1. Introducción Las Técnicas Estadı́sticas aquı́ estudiadas no sólo se utilizan en Ciencias de la Salud aunque, dado que en este curso las aplicaremos fundamentalmente a estudios de asociación (condicional) genética, se han incluido en el tema dedicado a esta materia. Obviamente, su aplicación es mucho más amplia. Dado lo reciente de estas técnicas, en muchas ocasiones hemos mantenido la denominación anglosajona para su fácil identificación. Los Métodos aquı́ estudiados suelen venir englobados habitualmente en lo que se denomina Minerı́a de Datos o Data Mining porque suelen utilizarse con datos de gran dimensión (número p de variables muy alto) y/o enorme tamaño muestral (n muy grande) y, en ocasiones, con p >> n lo que crea graves problemas de aplicación de las técnicas estadı́sticas tradicionales. Una cuestión de interés que nos gustarı́a resaltar es que, en contra de lo que comúnmente se cree, este tipo de técnicas suelen ser poco robustas, es decir, suelen ser sensibles a la presencia de datos anómalos en la muestra. 4.2. Árboles de Clasificación y Regresión (Classification and Regression Trees, CARTs) Los Árboles de Clasificación y Regresión (Classification and Regression Trees), habitualmente conocidos por su acrónimo anglosajón CARTs, son una técnica consistente en descubrir relaciones (condicionales) entre un gran número de covariables independientes y una dependiente cualitativa o continua. Se denominan Árboles de Clasificación cuando se aplican a variables dependien105 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 106 tes cualitativas y Árboles de Regresión cuando la variable dependiente es de tipo continuo. Ambas técnicas, debidas a Breiman et al. (1993), suponen la aplicación de un algoritmo que va dividiendo el conjunto de individuos de la muestra en subgrupos, de manera que se minimice la heterogeneidad (denominada impureza del nodo) dentro de los nuevos grupos formados. 4.2.1. Construcción de un Árbol Los datos de los que dispondremos serán n observaciones de una variable dependiente (que aquı́ será un fenotipo) Y y p variables independientes X1 , ..., Xp las cuales pensamos sirven para predecir a la variable dependiente. Un Árbol se construye determinando primero la variable Xj más predictiva del fenotipo Y en el sentido que veremos más abajo. Supongamos para comenzar que esta variable Xj tomara sólo dos valores; los individuos de la muestra, los cuales inicialmente están todos en un conjunto, denominado nodo raı́z, o nodo padre y que representaremos por Ω, se dividirán en dos subconjuntos o nodos hija, Ω1 y Ω2 según los valores de esta variable de Xj . Si tomase más valores –por ejemplo, fuera de tipo continua–, los dos grupos se formarı́an dependiendo de si Xj < c, ó Xj ≥ c, siendo c algún valor posible de Xj . Se elige a continuación la segunda variable más predictiva de Y en cada uno de los nodos hija y se aplica de nuevo una regla similar en cada uno de los dos nodos hija; y ası́ se sigue particionando la muestra hasta un determinado momento fijado por una regla de parada (por ejemplo que el nodo tenga menos de tres individuos). Advertimos que el método puede conducir a árboles asimétricos. Cuando hayamos construido el Árbol habremos seleccionado unas cuantas covariables, las más influyentes en la variable dependiente, y además por orden de importancia. La elección de la variable más predictiva y la regla de clasificación a partir de ella, se basa en lo que se denomina impureza del nodo (es decir, su heterogeneidad) I(Ω) para la que existen varias opciones; no obstante, suele decirse que todas conducen básicamente la mismo árbol. La variable más predictiva (y la regla de clasificación basada en ella) se elige como aquella que maximice I(Ω) − I(ΩD ) − I(ΩI ) siendo ΩD y ΩI los dos nodos hija (Derecha e Izquierda) del nodo Ω obtenidos después de aplicar la regla considerada. Variable dependiente dicotómica De las diversas medidas de impureza del nodo, la más habitual para el caso de que la variable dependiente Y sea dicotómica, es el Índice de Gini definido D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 108 Otras variables P1 hasta P99 son los lugares (lugar 1, lugar 2, ..., lugar 99) del animoácido en la región de proteasa del genoma de este virus y constituirán las covariables (dicotómicas: presencia/ausencia) independientes. Ejecutando la siguiente secuencia de instrucciones en R, > > > > > > > > Virco<-read.csv("h:\\salud\\Virco-data.csv",header=T) Vircogen<-data.frame(Virco[,substr(names(Virco),1,1)=="P"]!="-") attach(Virco) Rasgo<-as.factor(IDV.Fold>NFV.Fold) library(rpart) Arbol<-rpart(Rasgo~.,method="class",data=Vircogen) plot(Arbol,ylim=c(0.7,1.03)) text(Arbol) obtenemos el árbol de clasificación en la Figura 4.1. En este árbol se observa que la primera variable más predictiva es P54 y el que tome un valor menor (o mayor o igual) que 0′ 5, la regla de clasificación de los individuos de la muestra. Se ve a continuación que en el nodo hija de la izquierda la variable más predictiva es P76 y que en el nodo de la derecha es P46 y ası́ sucesivamente. Se puede obtener más información sobre el árbol obtenido ejecutando el resultado obtenido al aplicar la función rpart, es decir, ejecutando > Arbol n=976 (90 observations deleted due to missingness) node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 976 399 FALSE (0.5911885 0.4088115) 2) P54< 0.5 480 130 FALSE (0.7291667 0.2708333) 4) P76< 0.5 466 116 FALSE (0.7510730 0.2489270) * 5) P76>=0.5 14 0 TRUE (0.0000000 1.0000000) * 3) P54>=0.5 496 227 TRUE (0.4576613 0.5423387) 6) P46< 0.5 158 57 FALSE (0.6392405 0.3607595) 12) P1< 0.5 115 31 FALSE (0.7304348 0.2695652) * 13) P1>=0.5 43 17 TRUE (0.3953488 0.6046512) * 7) P46>=0.5 338 126 TRUE (0.3727811 0.6272189) 14) P10< 0.5 22 7 FALSE (0.6818182 0.3181818) * 15) P10>=0.5 316 111 TRUE (0.3512658 0.6487342) 30) P48< 0.5 278 106 TRUE (0.3812950 0.6187050) 60) P20< 0.5 113 55 TRUE (0.4867257 0.5132743) 120) P76< 0.5 92 40 FALSE (0.5652174 0.4347826) * 121) P76>=0.5 21 3 TRUE (0.1428571 0.8571429) * 61) P20>=0.5 165 51 TRUE (0.3090909 0.6909091) * 31) P48>=0.5 38 5 TRUE (0.1315789 0.8684211) * Se obtiene ası́, para cada nodo, el número de individuos de la muestra utilizados, por ejemplo 976 en el nodo raı́z; el número de observaciones para las cuales la variable de respuesta es predicha incorrectamente, por ejemplo 399 en el nodo raı́z; el valor predicho de esta variable de respuesta, por ejemplo FALSE (equivalentemente IDV.Fold < NFV.Fold) en el nodo raı́z; las D 109 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning proporciones de individuos clasificados como (IDV.Fold<NFV.Fold , IDV.Fold≥NFV.Fold), por ejemplo ((976 − 399)/976, 399/976) = (0′ 5911, 0′ 4088) en el nodo raı́z. Los nodos finales, también conocidos como nodos terminales, se indican con un *. Esta técnica se aplica también en el caso de que la variable dependiente sea categórica, en general, y no sólo dicotómica. Variable dependiente continua Si la variable dependiente no es cualitativa sino que es de tipo continuo, el árbol se denomina Árbol de regresión y no de clasificación, midiéndose la impureza de un nodo, habitualmente, con el error cuadrático medio I(Ω) = 1 X (yi − y)2 nΩ i∈Ω en donde yi son los valores de la variable dependiente Y en los individuos del nodo Ω y y la media muestral de la variable dependiente, es decir, sin distinción de nodos. Se observa aquı́ la gran sensibilidad del proceso en el caso de datos anómalos al ser una suma de cuadrados. Para este tipo de variable dependiente y con el error cuadrático medio como medida de impureza, el Árbol de Regresión se obtiene de nuevo con la función rpart aunque cambiando el argumento method rpart(modelo,method="anova",data) Ejemplo 4.2 Consideremos de nuevo los datos Virco-data.csv pero ahora con la variable dependiente la diferencia de las variables NFV.Fold-IDV.Fold y de nuevo como covariables independientes las variables P1 hasta P99. Ejecutando la siguiente secuencia de instrucciones en R, > > > > > > > > Virco<-read.csv("h:\\salud\\Virco-data.csv",header=T) Vircogen<-data.frame(Virco[,substr(names(Virco),1,1)=="P"]!="-") attach(Virco) Rasgo2<- NFV.Fold-IDV.Fold library(rpart) Arbol2<-rpart(Rasgo2~.,method="anova",data=Vircogen) plot(Arbol2,ylim=c(0.85,1.01)) text(Arbol2) obtenemos el árbol de regresión en la Figura 4.2. D 110 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud P54>=0.5 | P46>=0.5 P73< 0.5 P58< 0.5 −10.57 P35< 0.5 2.57 89.91 5.707 8.171 257.9 Figura 4.2 : Árbol de Regresión Covariables Cualitativas y Ordinales En los casos antes tratados las covariables eran dicotóminas, es decir, la correspondiente covariable Xj sólo tomaba los valores 1 y 0, por lo que la división de cada nodo (comenzando por el nodo padre) en dos nodos hija se hará sólo de dos maneras posibles, correspondientes a estos valores (por ejemplo el nodo hija de la izquierda para los valores Xj = 1 y el nodo hija de la derecha para los valores Xj = 0; ası́ o al revés). Si la covariable es cualitativa, es = m(m − 1)/2 decir, la correspondiente Xj toma, digamos, m valores, hay m 2 formas distintas de definir los dos nodos hija, lo que complica el cálculo. El algoritmo que utilizaremos considera todas estas posibles divisiones. Si la covariable Xj fuera ordinal y toma, digamos, m valores, sólo consideraremos m − 1 formas diferentes de división: la primera forma, que los individuos en los que es Xj = 1 van al nodo hija de la izquierda y al nodo de la derecha los individuos en los que Xj toma los valores 2, 3, ..., m. La segunda forma de división es aquella en la que los individuos en los que Xj toma los valores 1 ó 2 van al nodo hija de la izquierda y al nodo de la derecha los individuos en los que Xj toma los valores 3, ..., m. Ası́ sucesivamente hasta la posible regla de división m − 1 en la que los individuos en los que Xj toma los valores 1 ó 2 ó ... m − 1 van al nodo hija de la izquierda y al nodo de la derecha los individuos en los que Xj toma el valor m. D 111 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning Ejemplo 4.3 Los datos FMS-data.txt son los resultados de un estudio, el “FAMuSS study”, sobre tamaño muscular y fuerza que trata de determinar los factores genéticos del aparato muscular antes y después de realizar ejercicio fı́sico. Para ello se eligieron a n = 1397 individuos y se obtuvieron datos sobre 225 Poliformismos de un solo nucleótido, SNPs. En este ejemplo analizaremos la influencia de los 6 genes de este conjunto de datos relacionados con la resistencia (todos con la denominación resistin y algo más y que son categóricos con tres niveles), en la variable dependiente NDRM.CH que mide el porcentaje de cambio en la fuerza muscular. Ejecutando la siguiente secuencia de instrucciones en R, resistin_c980g=ab | 51.23 61.04 Figura 4.3 : Árbol de Regresión > > > > fms<-read.delim("h:\\salud\\FMS-data.txt",header=T) attach(fms) Rasgo3<-NDRM.CH library(rpart) > Arbol3<-rpart(Rasgo3~resistin_c30t+resistin_c398t+resistin_g540a+resistin_c980g + +resistin_c180g+resistin_a537c,method="anova",data=fms) > Arbol3 n=611 (786 observations deleted due to missingness) node), split, n, deviance, yval * denotes terminal node 1) root 611 665669.4 52.85352 2) resistin_c980g=CC,CG 510 491113.4 51.23314 * (1) D 112 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 3) resistin_c980g=GG 101 166455.3 61.03564 * vemos en (1) que la variable resistin-c980g es la covariable más predictiva de la variable de respuesta NDRM.CH. Vemos también allı́ que los individuos con genotipos CC y CG tienen un valor predictivo de 51′ 23 mientras que los individuos con genotipos GG tienen un valor predictivo de 61′ 03 Aunque en este ejemplo la representación gráfica del árbol de regresión no es tan importante como en otros casos, podemos conseguirla ejecutando > plot(Arbol3,ylim=c(0.985,1.005)) > text(Arbol3) obteniendo el árbol de regresión de la Figura 4.3. Covariables Cuantitativas La situación en la que la covariable es cuantitativa es muy similar al caso de covariable ordinal: ordenamos los valores observados de esta variable en la muestra y los consideramos como los valores de una variable ordinal. 4.2.2. Árboles óptimos En los apartados anteriores hemos estudiado cómo construir árboles en diferentes situaciones. En la mayorı́a de las ocasiones los árboles obtenidos deben de ser podados (pruned) para reducir el número final de ramas. El problema es semejante al sobre-ajuste en la regresión lineal, problema que consiste en que cuantas más covariables incluyamos, mejor será el ajuste en el conjunto de datos observado pero será poco útil en predicciones para conjuntos de datos nuevos. De los distintos métodos de poda en la obtención del árbol óptimo, sólo consideraremos el método Coste de la Complejidad en el que, como su nombre indica, se define una medida del coste de tener un árbol más complejo, es decir, con más ramas o mejor dicho, con más nodos finales, cantidad denominada tamaño del árbol, aunque la medida tiene en cuenta también el error del ajuste del árbol, el cual lógicamente será mayor cuantas menos ramas tenga. Comencemos denominando impureza del árbol T al número R(T ) = X τ π(τ ) · r(τ ) en donde la suma anterior se efectúa en todos los nodos terminales τ , siendo π(τ ) la probabilidad de pertenecer al nodo τ y r(τ ) la medida de error del nodo τ . Si denominamos α ≥ 0 a un parámetro de complejidad, el Coste de la Complejidad del árbol T se define como D 113 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning CosCom = R(T ) + α · Tamaño del árbol T siendo el propósito de este método determinar el tamaño del árbol que minimice el Coste de la Complejidad. Ejemplo 4.4 Vamos a considerar de nuevo los datos Virco. Ahora vamos a determinar asociaciones entre mutaciones en la región de proteasa del genoma del virus considerando ahora como variable dependiente cuantitativa la resistencia al APV, variable APV.Fold. Primero generamos el árbol de regresión como hicimos más arriba para obtener la Figura 4.4. P47< 0.5 | P54< 0.5 P20< 0.5 P82>=0.5 P84< 0.5 P76< 0.5 P33< 0.5 21.66 20.78 2.958 12.98 12.81 32.45 P76< 0.5 P50< 0.5 P54< 0.5 P13< 0.5 9.169 51.08 16.29 29.58 Figura 4.4 : Árbol de Regresión > attach(Virco) > library(rpart) > Arbol4<-rpart(APV.Fold~.,method="anova",data=Vircogen) > Arbol4 n=939 (127 observations deleted due to missingness) node), split, n, deviance, yval * denotes terminal node 1) root 939 356632.300 12.946540 2) P47< 0.5 826 220484.800 9.799758 4) P84< 0.5 646 103247.200 6.634365 8) P50< 0.5 601 74375.060 5.509651 31.23 51.23 D 114 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 16) P76< 0.5 565 53451.150 4.536460 32) P33< 0.5 476 21525.120 2.957983 * 33) P33>=0.5 89 24396.950 12.978650 * 17) P76>=0.5 36 11990.530 20.783330 * 9) P50>=0.5 45 17958.230 21.655560 * 5) P84>=0.5 180 87535.010 21.160000 10) P76< 0.5 164 60255.500 18.241460 20) P54< 0.5 54 6454.596 9.168519 * 21) P54>=0.5 110 47173.530 22.695450 42) P13< 0.5 57 10476.250 16.291230 * 43) P13>=0.5 53 31845.230 29.583020 * 11) P76>=0.5 16 11564.070 51.075000 * 3) P47>=0.5 113 68180.140 35.948670 6) P54< 0.5 38 14941.670 22.626320 12) P20< 0.5 19 2264.829 12.805260 * 13) P20>=0.5 19 9011.627 32.447370 * 7) P54>=0.5 75 43076.850 42.698670 14) P82>=0.5 32 14090.680 31.228120 * 15) P82< 0.5 43 21642.540 51.234880 * > plot(Arbol4,ylim=c(0.6,1.03)) > text(Arbol4) size of tree 2 3 Inf 0.13 0.061 4 5 6 7 0.03 0.027 8 9 10 0.021 0.02 0.016 11 12 1.0 0.9 0.8 0.7 0.5 0.6 X−val Relative Error 1.1 1.2 1 0.01 cp Figura 4.5 : Parámetro de Complejidad Para podar el árbol necesitamos determinar el valor del parámetro de complejidad. Para ello ejecutamos > plotcp(Arbol4) D 115 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning > printcp(Arbol4) Regression tree: rpart(formula = APV.Fold ~ ., data = Vircogen) Variables actually used in tree construction: [1] P13 P20 P33 P47 P50 P54 P76 P82 P84 Root node error: 356632/939 = 379.8 n=939 (127 observations deleted due to missingness) 1 2 3 4 5 6 7 8 9 10 11 12 CP nsplit rel error 0.190581 0 1.00000 0.083286 1 0.80942 0.044066 2 0.72613 0.030603 3 0.68207 0.028493 4 0.65146 0.025049 5 0.62297 0.021112 6 0.59792 0.020592 7 0.57681 0.018583 8 0.55622 0.013605 9 0.53763 0.010277 10 0.52403 0.010000 11 0.51375 xerror 1.00159 0.81551 0.76589 0.73032 0.71240 0.70722 0.68137 0.66570 0.66749 0.66596 0.65768 0.66067 xstd 0.080875 0.072546 0.067428 0.066232 0.063506 0.063294 0.061714 0.061737 0.061517 0.061638 0.061209 0.061041 De la primera sentencia obtenemos la Figura 4.5. De este gráfico y de la segunda sentencia vemos que con un tamaño 4, es decir, con cuatro nodos finales, podemos conseguir un buen compromiso entre reducción del error de ajuste del árbol (que se obtiene aumentando el número de ramas) y la interpretación del árbol ajustado (que se obtiene disminuyendo el número de ramas). Esta elección corresponde a un valor en el parámetro de complejidad 0′ 03. Para obtener el árbol con esta caracterı́stica, es decir, podar el Arbol4 antes construido, ejecutamos > library(rpart) > Arbol5<-prune(Arbol4,cp=0.03) > Arbol5 n=939 (127 observations deleted due to missingness) node), split, n, deviance, yval * denotes terminal node 1) root 939 356632.30 12.946540 2) P47< 0.5 826 220484.80 9.799758 4) P84< 0.5 646 103247.20 6.634365 * 5) P84>=0.5 180 87535.01 21.160000 10) P76< 0.5 164 60255.50 18.241460 * 11) P76>=0.5 16 11564.07 51.075000 * 3) P47>=0.5 113 68180.14 35.948670 * que podemos representar ejecutando D 116 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud P47< 0.5 | P84< 0.5 35.95 P76< 0.5 6.634 18.24 51.08 Figura 4.6 : Árbol de regresión podado > plot(Arbol5,ylim=c(0.6,1.03)) > text(Arbol5) para obtener la Figura 4.6. 4.3. Bosques Aleatorios (Random Forests, RFs) Los Bosques Aleatorios (Random Forests), técnica también conocida por su acrónimo anglosajón RF, fueron propuestos originalmente por Breiman (2001) y son una generalización de los Árboles de Clasificación y Regresión (CARTs) estudiados en la sección anterior. Esta técnica, consistente en generar un conjunto de CARTs, tiene como propósito principal el evitar el efecto de la colinealidad (dependencia entre las covariables independientes). No presenta, como resultado final, un árbol que pudiera ser interpretado como un modelo de asociación entre la variable dependiente y las covariables sino que suministra una medida de la contribución de cada covariable a la variable dependiente. El proceso de formación del bosque aleatorio (el algoritmo) consiste en, primero, fijar un ı́ndice del algoritmo b. Para b = 1, 1. En primer lugar se seleccionan al azar (con reemplazamiento) aproximadamente 2/3 partes de la muestra para constituir lo que se denomina la D 117 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning muestra de aprendizaje (learning sample, LS) la cual servirá para forman el árbol inicial. El resto de individuos de la muestra se denomina datos de fuera de la bolsa (out-of-bag data, OOB data) y se utilizarán para evaluar lo bien o mal que se ajustan estos datos el árbol antes generado. 2. En un segundo paso generamos el árbol CART con los datos LS pero con dos diferencias a como lo hacı́amos en la sección anterior; primero, que no lo podaremos y, segundo, en cada nodo no se consideran todas las covariables posibles sino sólo un conjunto de ellas, habitualmente, una tercera parte de ellas. 3. En el tercer paso utilizaremos la parte de la muestra que hemos denominado OOB para evaluar la importancia de cada potencial covariable predictora. Para esto, a) Calculamos la impureza global del árbol para esta muestra OOB, obtenida sumando las impurezas al final de cada nodo terminal del árbol, a la que denominaremos πb . b) Para cada variable Xj calculamos la diferencia entre la impureza global del árbol, πb , y la impureza del árbol cuando Xj es permutada, digamos, πbj . De esta maneara determinamos la importancia de la variable, δbj = πbj − πb . 4. Repetir los tres pasos anteriores para b = 2, ..., B obteniendo, para cada variable j = 1, ..., p, δ1j , ..., δBj . 5. Calcular la Importancia Global de las Covariables θb1 , θb2 , ..., θbp , siendo θbj = B 1 X δbj B b=1 y la Importancia Global Estandarizada de cada Covariable dada por θbj SE(θbj ) en donde SE(θbj ) es la desviación tı́pica de δbj en los B árboles dividido √ por B. El ajuste del Bosque Aleatorio se puede obtener con la función randomForest de la librerı́a del mismo nombre, randomForest(data,dependiente,importance) D 118 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Bosque1 P35 P36 P54 P73 P20 P84 P6 P94 P72 P63 P45 P14 P15 P76 P57 P58 P82 P89 P2 P34 P85 P66 P37 P19 P12 P77 P47 P25 P46 P55 P36 P20 P35 P73 P25 P54 P84 P72 P93 P62 P37 P15 P46 P90 P77 P3 P58 P82 P2 P94 P10 P1 P41 P30 P70 P12 P13 P91 P95 P71 2 3 4 5 6 %IncMSE 7 8 0e+00 2e+05 4e+05 IncNodePurity 6e+05 Figura 4.7 : Importancia de cada covariable en donde los argumentos principales de esta función son data es decir, los datos en formato data frame, dependiente en donde ponemos el nombre de la variable dependiente, e importance, ejecutando la opción importance=T para obtener lo que estábamos buscando, la importancia de cada covariable predictora en la variable dependiente. Con estas opciones obtendrı́amos el valor de la Importancia Global Estandarizada de cada Covariable θbj /SE(θbj ). Su representación gráfica ordenada la obtenemos con la función varImpPlot. Es de destacar que, como esta función realiza, de hecho, un remuestreo bootstrap, los resultados obtenidos en cada ocasión pueden ser distintos y, a su vez, distintos de los que obtenemos aquı́. Ejemplo 4.5 Consideremos de nuevo los datos Virco y la variable dependiente NFV.Fold-IDV.Fold como en el Ejemplo 4.2. La función randomForest no admite datos perdidos por lo que cambiamos un poco las sentencias de dicho ejemplo y modificamos los datos considerados. Ejecutando (1) obtenemos la importancia de cada variable que vemos representada en la Figura 4.7 ejecutando (2). D 119 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning > Rasgo22<-Rasgo2[!is.na(Rasgo2)] > Vircogen22<-Vircogen[!is.na(Rasgo2),] > Bosque1<-randomForest(Vircogen22,Rasgo22,importance=T) (1) Call: randomForest(x = Vircogen22, y = Rasgo22, importance = T) Type of random forest: regression Number of trees: 500 No. of variables tried at each split: 33 Mean of squared residuals: 5688.114 % Var explained: 13.77 > varImpPlot(Bosque1) (2) En el gráfico de la izquierda de esta figura se ve que las variables más importantes (en esta selección aleatoria bootstrap) han resultado ser P35, P36, P54, P73 y P20. Aunque la función randomForest no admite datos perdidos, hay algunas posibilidades de actuación si los hubiera. 4.4. Árboles de Regresión Lógica Este tipo de análisis, en búsqueda de las covariables más predictivas de tipo dicotómico, se debe a Ruczinski y otros (2003, 2004) y se basa en lo que se denomina Combinaciones Booleanas. Si por ejemplo X1 , ..., X4 son 4 variables dicotómicas, o mejor, las variables indicadoras de 4 variables dicotómicas, una Combinación Booleana de ellas podrı́a ser (X1 ∧ X2 ) ∨ (X3c ∧ X4 ) [4.1] en donde los operadores lógicos que se utilizan son ∨ = o, ∧ = y y Ac = no A y que se leerı́a diciendo que, o bien es X1 = 1 y X2 = 1, o bien es X3 = 0 y X4 = 1. Esta dicotomı́a recurrente se expresa en forma de árbol de decisión (como la Figura 4.8 del siguiente ejemplo), consistiendo el método de los Árboles de Regresión Lógica en encontrar la Combinación Booleana más predicitva; es decir, como si dijéramos el “modelo lineal generalizado” más predictivo para variables dicotómicas, de la forma g(E[Y ]) = β0 + t X βj Lj [4.2] j=1 siendo los Lj Combinaciones Booleanas de las variables predictivas de tipo indicador como las de (4.1). D 120 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Este método se puede ejecutar con la función logreg de la librerı́a LogicReg logreg(resp,bin,select) en donde los argumentos principales de esta función son resp, para indicar el nombre de la variable dependiente; bin, para los datos en formato data frame, y select, para indicar el tipo de modelo a ajustar, es decir, el número de árboles de regresión lógica a ajustar; es decir, el número de términos t que tendrı́a el “modelo de regresión” (4.2); si este valor es mayor que 1, debemos utilizar también los argumentos ntrees (que será igual al valor dado a select, y nleaves sobre el número de hojas que queremos tenga el árbol ajustado. Apuntemos de nuevo el hecho de que esta función utiliza métodos bootstrap y que, en consecuencia, cada vez que la ejecutemos obtendremos resultados distintos. Ejemplo 4.6 Si consideramos de nuevo los datos Virco y la variable dependiente NFV.Fold-IDV.Fold como en los Ejemplos 4.2 y 4.5, podemos obtener 1 árbol de regresión lógica ejecutando (1) tree 1 out of 1 Parameter = −273.5153 or or or P72 P85 and or P35 P93 or P73 P25 P70 Figura 4.8 : Árbol de regresión lógica con un término > library(LogicReg) > Logico<-logreg(resp=Rasgo22,bin=Vircogen22,select=1) > Logico score 73.996 (1) (3) D 121 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning -274 * (((P72 or P85) or (not P35)) or (((not P93) or (not P73)) and ((not P25) or P70))) > plot(Logico) (2) Ejecutando (2) obtenemos la representación de este árbol dada por la la Figura 4.8. De esta figura, o del resultado de ejecutar (3), vemos que el modelo ajustado es g(E[Y ]) = −273′ 5 · {[(P 72 ∨ P 85) ∨ P 35c ] ∨ [(P 93c ∨ P 73c ) ∧ (P 25c ∨ P 70)]} Si queremos que el “modelo lineal” tenga dos términos, ejecutaremos (4), obteniendo los resultados con (5) y la Figura 4.9 ejecutando (6) dos veces. > Logico2<-logreg(resp=Rasgo22,bin=Vircogen22,select=2,ntrees=2,nleaves=8) (4) > Logico2 2 trees with 8 leaves: score is 74.571 +235 * (((P71 and (not P72)) and (P93 and (not P54))) and P73) +44.1 * (((not P36) and P20) or P30) (5) > par(mfrow=c(1,3)) > plot(Logico2) (6) El modelo ajustado con dos términos en este segundo caso es, por tanto tree 2 out of 2 total size is 8 Parameter = 234.9389 Parameter = 44.0553 and 100 tree 1 out of 2 total size is 8 90 or P73 P30 2 70 and scores 80 and P71 P72 P93 P54 P36 P20 50 60 and and 5 6 7 8 9 10 11 model size Figura 4.9 : Árbol de regresión lógica con dos términos g(E[Y ]) = 234′ 94 · {[(P 71 ∧ P 72c ) ∧ (P 93 ∧ P 54c )] ∧ P 73} + 44′ 1 · {[P 36c ∧ P 20] ∨ P 30} D 122 Al f on so Ga rcı́ aP ére z. UN E 4.5. Cuadernos de Estadı́stica Aplicada: Área de la Salud Regresión a Trazos Adaptativa Multivariante (Multivariate Adaptive Regression Splines, MARS) La Regresión a Trazos Adaptativa Multivariante (Multivariate Adaptive Regression Splines), conocida habitualmente por MARS, es una técnica relacionada con los CARTs debida a Friedman (1991), de nuevo con el propósito de manejar covariables cualitativas. Nos centraremos aquı́ en el caso de que la variable dependiente Y sea de tipo cuantitativo aunque también es posible considerar la situación de que sea dicotómica. El propósito de esta técnica es, como en secciones anteriores, encontrar asociaciones entre p covariables independientes X1 , ..., Xp y una variable dependiente Y dada una muestra de tamaño n de ellas. El esquema de utilización del MARS es considerar en primer lugar p modelos (uno para cada covariable Xj ) de la forma Y = β0 + β1 (Xj − t)+ + β2 (t − Xj )+ + ǫ siendo ǫ una variable de error, t uno de los valores observados de Xj y ( )+ la componente positiva de lo que haya entre paréntesis; es decir, como Xj es dicotómica (es decir, con valores 0-1), si es t = 0, (Xj − t)+ = Xj y (t − Xj )+ = 0, y si es t = 1, (Xj − t)+ = 0 y (t − Xj )+ = 1 − Xj . La covariable más predictiva, digamos Xj∗ , es elegida como aquella para la que se obtiene la mayor reducción de la suma de cuadrados de los residuos quedándonos con el modelo Y = β0 + β1 Xj∗ + ǫ. Ahora consideramos modelos de la forma Y = β0 + β1 Xj∗ + β2 Xk + epsilon y de la forma Y = β0 + β1 Xj∗ + β2 Xj∗ Xk + ǫ buscando de la misma manera que antes el modelo más predictivo que será de una de las dos formas: con Xk o con Xj∗ Xk . Este proceso es repetido hasta llegar a un modelo final. Esta técnica se puede ejecutar con la función earth de la librerı́a del mismo nombre D 123 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning earth(modelo,data,degree) en donde los argumentos principales de esta función son modelo expresado de la forma habitual; data, para los datos en formato data frame, y degree, para indicar el máximo grado de interacción entre las covariables, valor que por defecto se toma como 1 y que se recomienda utilizar igual a 2. Ejemplo 4.7 Vamos a considerar de nuevo los datos Virco y la variable dependiente NFV.Fold-IDV.Fold como en los Ejemplos 4.2, 4.5 y 4.6. Para determinar las covariables más predictivas mediante esta técnica, considerando interacciones de orden 2 como máximo, ejecutamos (1) > library(earth) > solucion<-earth(Rasgo22~.,data=Vircogen22,degree=2) (1) > solucion Selected 38 of 100 terms, and 22 of 99 predictors Importance:P15TRUE,P25TRUE,P35TRUE,P36TRUE,P73TRUE,P54TRUE,P94TRUE,P10TRUE,... Number of terms at each degree of interaction: 1 2 35 GCV 5155.408 RSS 4113795 GRSq 0.2200334 RSq 0.3610069 de donde obtenemos las covariables más predictivas por orden de importancia. Si queremos obtener el modelo ası́ ajustando, con sus coeficientes, ejecutamos (2), obteniendo como resultado estos coeficientes. > summary(solucion) Call: earth(formula=Rasgo22~., data=Vircogen22, degree=2) (Intercept) P35TRUE P76TRUE P1TRUE * P73TRUE P10TRUE * P35TRUE P10TRUE * P73TRUE P15TRUE * P25TRUE P15TRUE * P35TRUE P15TRUE * P54TRUE P15TRUE * P73TRUE P20TRUE * P35TRUE P20TRUE * P54TRUE P20TRUE * P73TRUE P30TRUE * P70TRUE P30TRUE * P77TRUE P35TRUE * P36TRUE P35TRUE * P54TRUE P35TRUE * P73TRUE P35TRUE * P82TRUE P35TRUE * P84TRUE P35TRUE * P93TRUE P35TRUE * P95TRUE P36TRUE * P54TRUE coefficients -1.49386 36.98821 -34.95785 -30.79950 29.81243 65.50646 751.24589 -34.54019 32.95728 -58.53545 47.11367 -41.71048 77.58072 158.97600 42.81780 -42.06393 -33.73524 78.73042 -31.25249 -59.43351 23.76439 -60.69940 30.17810 (2) D 124 * * * * * * * * * * * * * * * Al f on so Ga rcı́ aP ére z. UN E P36TRUE P48TRUE P54TRUE P54TRUE P54TRUE P54TRUE P54TRUE P63TRUE P70TRUE P72TRUE P73TRUE P73TRUE P73TRUE P73TRUE P73TRUE Cuadernos de Estadı́stica Aplicada: Área de la Salud P73TRUE P54TRUE P72TRUE P73TRUE P84TRUE P93TRUE P94TRUE P73TRUE P73TRUE P73TRUE P74TRUE P76TRUE P77TRUE P84TRUE P93TRUE -113.98578 -20.80249 24.06139 -63.96128 34.96787 -18.74152 207.51818 67.33288 -103.04692 -69.71491 -54.83226 101.72366 -54.40373 -65.68984 49.44217 Selected 38 of 100 terms, and 22 of 99 predictors Importance:P15TRUE,P25TRUE,P35TRUE,P36TRUE,P73TRUE,P54TRUE,P94TRUE,P10TRUE, ... Number of terms at each degree of interaction: 1 2 35 GCV 5155.408 RSS 4113795 GRSq 0.2200334 RSq 0.3610069 Obtenemos también información de que inicialmente se utilizaron 38 términos de los que finalmente se seleccionaron 22 después de la poda. D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5 Problemas Básicos Resueltos Problema 5.1 Los casos de SIDA diagnosticados en España en los últimos años vienen recogidos en la siguiente tabla, clasificados por grupo de riesgo del paciente 1993 3373 631 778 68 82 56 32 321 5341 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros 1994 4723 952 898 92 76 66 23 291 7121 1995 4432 1044 934 81 79 52 21 302 6945 1996 4203 1113 766 73 46 44 14 249 6508 1997 3143 950 580 61 37 25 12 290 5098 Analizar descriptivamente estos datos. Se trata de unos datos correspondientes a una distribución bidimensional de frecuencias. Para este tipo de datos (CB-sección 2.4) lo primero que deberemos hacer es identificar de qué tipo son los caracteres que dan origen a la tabla de doble entrada donde aparece la distribución bidimensional de frecuencias. En este ejercicio, uno de los caracteres, grupo de riesgo, es de tipo cualitativo. La distribución (de frecuencias absolutas) marginal de dicho carácter, se obtiene directamente de la tabla de contingencia, calculando, para cada modalidad del carácter, el número de individuos que presentan dicha modalidad a lo largo de todas las modalidades del otro carácter; es decir, 125 D 126 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 19874 4690 3956 375 320 243 102 1453 31013 El histograma de dicha distribución de frecuencias absolutas es 19874 4690 3956 1453 drog inyec hetero homo/bi 375 320 243 102 iny/homo mad/ries hemo trans otros De las medidas de posición o dispersión, sólo podemos decir que el grupo de riesgo más frecuente, es decir la moda, es el, ser consumidor de drogas inyectables. Respecto al otro carácter, año, aunque aparentemente es de tipo cuantitativo, no van a tener tampoco mucho sentido las medidas de posición o dispersión que resuman la distribución marginal correspondiente, la cual serı́a D 127 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 1993 1994 1995 1996 1997 ni 5341 7121 6945 6508 5098 31013 Las modalidades del carácter año actúan más como etiquetas que como valores numéricos. No obstante, presentan una peculiaridad muy interesante: van ordenadas. Esto las diferencia de los caracteres cualitativos. Además, el que ese carácter se refiera al tiempo, hace que el estudio de este tipo de datos sea especialmente importante y diferenciado de los que hasta ahora hemos considerado. A la vista de la distribución de frecuencias marginal anterior, ha habido una evolución temporal primero creciente, con un máximo en 1994, para luego ir disminuyendo el número de casos, lo que parece indicar una tendencia decreciente en el número de individuos con la enfermedad, como muestra el gráfico siguiente 7121 thh hhhh6945 ""p hthhh p " hhhht p 6508 " p P p " p PP p PP p 5341 " p t " p P5098 p Pt p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p 1993 1994 1995 1996 1997 Pero, posiblemente, tienen más interés las distribuciones condicionadas, por años, en especial en términos relativos D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 128 Grupo de riesgo/1993 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 3373 631 778 68 82 56 32 321 5341 fi 0′ 6315 0′ 1181 0′ 1457 0′ 0127 0′ 0153 0′ 0105 0′ 0060 0′ 0602 1 Grupo de riesgo/1994 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 4723 952 898 92 76 66 23 291 7121 fi 0′ 6632 0′ 1337 0′ 1261 0′ 0129 0′ 0107 0′ 0093 0′ 0032 0′ 0409 1 Grupo de riesgo/1995 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 4432 1044 934 81 79 52 21 302 6945 fi 0 6382 0′ 1503 0′ 1345 0′ 0117 0′ 0114 0′ 0075 0′ 0030 0′ 0434 1 Grupo de riesgo/1996 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 4203 1113 766 73 46 44 14 249 6508 fi 0′ 6458 0′ 1710 0′ 1177 0′ 0112 0′ 0071 0′ 0068 0′ 0022 0′ 0382 1 ′ D 129 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Grupo de riesgo/1997 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 3143 950 580 61 37 25 12 290 5098 fi 0′ 6165 0′ 1863 0′ 1138 0′ 0120 0′ 0073 0′ 0049 0′ 0024 0′ 0568 1 De hecho se podrı́a decir que la tabla de doble entrada del enunciado tiene una interpretación diferente de la habitual considerada en CB-sección 2.4. Aquı́, no es tanto que cada uno de los n = 31013 enfermos fuera asignado a un grupo de riesgo y a un año, hasta formar la tabla de contingencia del enunciado, sino que, muy posiblemente, se fueran recogiendo datos, año a año (es decir, se fueran construyendo las distribuciones condicionadas anteriores), para formar finalmente la tabla de datos del enunciado. Tantas son las particularidades de este tipo de datos, en los que una de las variables es el tiempo, que existe un Método Estadı́stico Aplicado especı́fico para su tratamiento, el cual recibe el nombre de Análisis de Series Temporales. Analizando la evolución temporal condicionada por el grupo de riesgo, es decir, las ocho distribuciones de frecuencias absolutas de la variable tiempo condicionada por cada modalidad de la variable grupo de riesgo, obtendrı́amos las siguientes distribuciones de frecuencias (sólo damos las dos primeras) Años/Drogas inyectables 1993 1994 1995 1996 1997 ni 3373 4723 4432 4203 3143 19874 Años/Heterosexuales 1993 1994 1995 1996 1997 ni 631 952 1044 1113 950 4690 Pero posiblemente, lo más interesante de todo sea analizar de forma global, y mediante una representación gráfica, la evolución temporal de los grupos de riesgo en porcentaje; es decir, las distribuciones relativas condicionadas por años, antes calculadas y que permiten realizar los siguientes gráficos, en donde hemos omitido la evolución de la modalidad otros. Hemos realizado dos gráficos para clarificar los dibujos y, sobre todo, para poder variar la escala de las ordenadas y apreciar ası́ con más nitidez las diferencias en la evolución de las frecuencias. Ası́, aunque la evolución temporal de la distribución marginal de los años, antes representada, indicaba una evolución con un máximo en 1994 para luego D 130 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud mantenerse una tendencia descendente, del gráfico que sigue se deduce que el porcentaje, sobre el total de casos registrados cada año, de enfermos cuya causa de contagio fue la de por drogas inyectables, se mantiene prácticamente constante; que el grupo de heterosexuales crece, y que el de homosexuales/bisexuales decrece. 0′ 66 t 0′ 63 t 0′ 65 XXX pt ` XXX 0′ 64 (((((` ``` 0′ 62 Xt(( ``t ′ 0 19 (((t ( ( ( 0′ 15 0′ 15 (((((( thh ( hhhh 0′ 13 (((((t( thhh h( t t( hhhhth ′ ′ hhh 0 12 0 13 hhht 0′ 12 0′ 17 t 0′ 11 1993 1994 1995 1996 1997 Por último, en el gráfico siguiente, se observa que el grupo de riesgo de personas que consumen drogas inyectables y son homosexuales, manifiesta una tendencia casi constante, que el grupo de hijos con madre de riesgo disminuye a rachas, es decir, con perı́odos intermedios constantes; que el grupo de contagio por hemoderivados decrece muy significativamente ya desde niveles muy bajos, y que, por último, el grupo de transfusiones prácticamente (o mejor dicho, porcentualmente respecto al número total de casos) casi ha desaparecido. D 131 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 0′ 015 t Q Q 0′ 013 t QQ thh hhhh0′ 012 0′ 012 Q hthhh t ( ( Q ( ′ ( hhhh( 0 011 Qt t t (( Q 0′ 011 0′ 011Q thhh h Q ′ hhht 0 010 Q PP ′ Q 0 009 PP Q PP 0′ 007 QtP Ppt t 0′ 007 0′ 007PPP tH PP 0′ 006H Pt H HH 0′ 005 ′ 003 HH 0′ 003 0 t thh hhhh0′ 002 0′ 002 ht t 0′ 013 1993 1994 1995 1996 1997 Problema 5.2 En 1965 A.J. Lea recogió datos sobre la temperatura anual media en varias ciudades (de Gran Bretaña, Noruega y Suecia) y la tasa de mortalidad en un tipo de cáncer de pecho en mujeres. Los datos que obtuvo fueron los siguientes: Temperatura anual media (grados Fa.) 51′ 3 49′ 9 50′ 0 49′ 2 48′ 5 47′ 8 47′ 3 45′ 1 46′ 3 42′ 1 44′ 2 43′ 5 42′ 3 40′ 2 31′ 8 34′ 0 Índice de mortalidad 102′ 5 104′ 5 100′ 4 95′ 9 87′ 0 95′ 0 88′ 6 89′ 2 78′ 9 84′ 6 81′ 7 72′ 2 65′ 1 68′ 1 67′ 3 52′ 5 Determinar la recta de mı́nimos cuadrados ası́ como la precisión conseguida con el ajuste obtenido mediante dicho método. Aunque los datos del enunciado constituyen una distribución bidimensional de frecuencias, en donde la frecuencia absoluta de cada par es igual a 1, el principal interés sobre ellos suele ser el de determinar la ecuación D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 132 de una función, generalmente una recta, que permita explicar una de las variables —denominada dependiente— en función de la otra —denominada independiente—, con el habitual propósito de hacer predicciones sobre la variable dependiente en función de la independiente. En este ejercicio, el estudio de campo realizado tendrá interés si puede demostrarse una relación entre las variables temperatura medio-ambiental e ı́ndice de mortalidad. Si esto fuera ası́, se podrı́a predecir, mediante la función ajustada, el ı́ndice de mortalidad que cabrı́a esperar bajo una determinada temperatura medio-ambiental. En este caso, por tanto, parece razonable considerar como variable independiente, X, la temperatura y como variable dependiente, Y , el ı́ndice de mortalidad. No obstante todo lo que acabamos de decir, hacemos la observación de que, aunque con el coeficiente de determinación R2 , que calcularemos al final del problema, podemos calcular la bondad del ajuste que efectuemos, no será hasta que utilicemos las potentes técnicas de la Inferencia Estadı́stica (en concreto de la Regresión Lineal) que podamos decidir si existe o no una relación lineal significativa entre ambas variables. Aunque el ajuste por mı́nimos cuadrados (CB-sección 2.4.2) que se nos solicita es el de una recta, siempre es conveniente comenzar haciendo una representación gráfica de los pares de puntos dados, en lo que se denomina la nube de puntos, que no es más que la representación de los pares de puntos (xi , yi ), i = 1, ..., 16, en unos ejes de coordenadas cartesianas, de forma que se pueda aventurar la bondad del ajuste que se va a realizar. Es decir, si los datos aparecen alineados la recta de mı́nimos cuadrados explicará bien a la variable dependiente en función de la independiente, pero si los puntos muestran una gráfica en forma de parábola, es posible que un ajuste de tal función por mı́nimos cuadrados resulte más adecuado. Para los datos de nuestro enunciado la nube de puntos es la siguiente --+------------------+------------------+------------------+-104.5+ * + | * *| | | | * * | M | | o + * * + r | * | t | * * | a | * | l | | i + + d | * | a |* * | d | * | | | + + D 133 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos | | 52.5| * | --+------------------+------------------+------------------+-31.8 51.3 Temperatura La disposición lineal de los datos, hace razonable el ajuste por mı́nimos cuadrados. Como es sabido, la recta de mı́nimos cuadrados es la más próxima a la nube de puntos, la cual se determinó en CB que era la de ecuación b + βb x y=α b y βb eran los valores determinados por las ecuaciones en donde α n βb = y n X i=1 xi yi − n n X i=1 b= α n X i=1 n X i=1 x2i − yi − βb xi ! n X xi n X xi i=1 n X i=1 !2 yi ! i=1 . n Para calcularlos utilizaremos la siguiente tabla de cálculos xi yi xi yi x2i yi2 51′ 3 102′ 5 5258′ 25 2631′ 69 10506′ 25 49′ 9 104′ 5 5214′ 55 2490′ 01 10920′ 25 50′ 0 100′ 4 5020 2500 10080′ 16 49′ 2 95′ 9 4718′ 28 2420′ 64 9196′ 81 ′ ′ ′ ′ 87 0 4219 5 2352 25 7569 48 5 ′ ′ ′ 47 8 95 0 4541 2284 84 9025 47′ 3 88′ 6 4190′ 78 2237′ 29 7849′ 96 45′ 1 89′ 2 4022′ 92 2034′ 01 7956′ 64 46′ 3 78′ 9 3653′ 07 2143′ 69 6225′ 21 ′ ′ ′ ′ 84 6 3561 66 1772 41 7157′ 16 42 1 44′ 2 81′ 7 3611′ 14 1953′ 64 6674′ 89 ′ ′ ′ ′ 43 5 72 2 3140 7 1892 25 5212′ 84 ′ ′ ′ ′ 42 3 65 1 2753 73 1789 29 4238′ 01 40′ 2 68′ 1 2737′ 62 1616′ 04 4637′ 61 ′ ′ ′ ′ 31 8 67 3 2140 14 1011 24 4529′ 29 ′ ′ 34 0 52 5 1785 1156 2756′ 25 713′ 5 1333′ 5 60568′ 34 32285′ 29 114535′ 33 D 134 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud De ella obtenemos que es n βb = y n X i=1 n X x i yi − n n X i=1 n X i=1 xi ! n X x2i − xi i=1 yi − βb n X n X i=1 2 ! yi ! = 16 · 60568′ 34 − 713′ 5 · 1333′ 5 = 2′ 3577 16 · 32285′ 29 − 713′ 52 xi 1333′ 5 − 2′ 3577 · 713′ 5 = −21′ 795 n 16 con lo que la recta de mı́nimos cuadrados será b= α i=1 i=1 = y = −21′ 795 + 2′ 3577 x. Para analizar la bondad del ajuste de mı́nimos cuadrados (CB-sección 2.4.3) que acabamos de realizar, calcularemos el coeficiente de determinación R2 . Al ser el ajuste de una recta, podemos calcular R2 a través de la fórmula R2 = (r)2 = b2 (β) P n Pn 2 i=1 xi 2 i=1 yi − Pn 2 i=1 xi ) /n P ( ni=1 yi )2 /n −( 713′ 52 ′ 16 = 2′ 35772 · ′ 52 = 0 76537 1333 114535′ 33 − 16 32285′ 29 − o como cuadrado del coeficiente de correlación de Pearson n r = n X i=1 v u n u X tn x2 − i i=1 = siendo √ xi yi − n X i=1 xi n X i=1 !2 v u xi ! n X yi i=1 n u X tn y2 − i i=1 ! n X i=1 yi !2 16 · 60568′ 34 − 713′ 5 · 1333′ 5 √ = 0′ 87485 16 · 32285′ 29 − 713′ 52 16 · 114535′ 33 − 1333′ 52 D 135 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos R2 = r 2 = 0′ 874852 = 0′ 76536. Aunque dicho valor puede calificarse de aceptable, no será hasta que utilicemos el contraste de la regresión lineal simple, cuando podamos decidir si éste se califica de bueno o no. Problema 5.3 Supongamos que una prueba médica para diagnosticar la presencia de un determinado virus, da positivo en el 99 % de los casos que se aplica a personas que posean el virus, y que da negativo en el 97 % de los casos que se aplica a personas que no lo poseen. Si se cree que la probabilidad de que una persona elegida al azar tenga el virus es 0′ 05, ¿cuál es la probabilidad de que una persona tenga realmente el virus cuando la prueba le haya dado positiva? Si denominamos “P os” la suceso la prueba da positivo y “V ” al suceso la persona tiene el virus, el enunciado del problema nos dice que es P (P os/V ) = 0′ 99 P (P os∗ /V ∗ ) = 0′ 97 P (V ) = 0′ 05 solicitándonos la probabilidad P (V /P os). La probabilidad pedida, en función de las probabilidades dadas, se obtiene a través de la fórmula de Bayes (CB-sección 3.10) P (V /P os) = = P (P os/V ) · P (V ) P (P os/V ) · P (V ) + P (P os/V ∗ ) · P (V ∗ ) 0′ 99 · 0′ 05 = 0′ 6346. 0′ 99 · 0′ 05 + 0′ 03 · 0′ 95 Problema 5.4 El uno por ciento de los niños sufre efectos secundarios tras la administración de un determinado antibiótico. Si éste fue aplicado a seis niños, determinar la probabilidad de que a) Ninguno padezca efectos secundarios. b) Lo padezca más de un niño. c) Si se suministrase el antibiótico a 1000 niños, ¿cuál serı́a el número medio de niños con efectos secundarios?. d) Calcular la probabilidad de que, de esos mil niños, padezcan efectos secundarios más de 15. a) El problema se puede formalizar mediante un modelo binomial (CBsección 4.4.1) en donde cada prueba de Bernoulli sea el administrar el antibiótico en cuestión y el suceso éxito el que el niño padezca efectos secundarios. D 136 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud De esta forma, la variable número de niños, de entre los seis, que padecieron efectos secundarios, se puede modelizar mediante una variable X con distribución binomial B(6, 0′ 01), al ser p = 0′ 01 la probabilidad de que se dé el suceso éxito. La probabilidad pedida será ahora, utilizando la tabla 1 de la distribución binomial, P {X = 0} = 0′ 9415. b) En la misma situación que en el apartado anterior, la probabilidad pedida será P {X > 1} = 1 − P {X ≤ 1} = 1 − [P {X = 0} + P {X = 1}] = 1 − [0′ 9415 + 0′ 0571] = 0′ 0014. c) Ahora lo que ocurre es que se aumenta el número de pruebas de Bernoulli, modelizándose el problema con una variable X ; B(1000, 0′ 01). La media de esta distribución es el producto de los dos parámetros, es decir, E[X] = n · p = 1000 · 0′ 01 = 10. Por tanto, el número medio o número esperado de niños con efectos secundarios, de entre los mil, serı́a 10. d) El cálculo de probabilidades de distribuciones binomiales para un gran número de ensayos, como aquı́ ocurre, se realiza aproximando dicha distribución mediante el teorema central del lı́mite (CB-sección 4.7). En el caso de una distribución p binomial X ; B(n, p) , su aproximación mediante una normal Y ; N (np , np(1 − p) ) es válida (CB-sección 4.7.1) cuando supuesto sea p ≤ 0′ 5 (como aquı́ ocurre) entonces sea también np > 5 (como aquı́ ocurre). Por tanto, aproximaremos la X ; B(1000, 0′ 01), por una Y ; N 1000 · 0′ 01 , √ 1000 · 0′ 01 · 0′ 99 = N (10 , 3′ 146) quedando la probabilidad pedida igual a P {X > 15} = P X − 10 15 − 10 > ′ ′ 3 146 3 146 = P {Z > 1′ 59} = 0′ 0559 D 137 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos siendo Z una variable aleatoria N (0, 1) y en donde la última probabilidad la hemos calculado utilizando la tabla 3 de dicha distribución. Problema 5.5 La estatura de los individuos de una determinada población sigue una distribución normal de desviación tı́pica igual a 10 cm. Calcular el número mı́nimo de individuos que habrá que seleccionar de dicha población para que la probabilidad de que la estatura media de dicha muestra difiera de la poblacional en menos de 5 cm., sea 0′ 9. Comenzando por el enunciado de este problema, es conveniente aclarar que cuando nos referimos a que las estaturas de los individuos de una determinada población siguen una distribución normal, estamos expresando que suponemos que el histograma de estaturas de toda la población —el cual es desconocido— tiene una forma acampanada semejante a la densidad de la normal y que, por tal suposición, cuando elijamos al azar un individuo de esa población su estatura seguirá las reglas probabilı́sticas del modelo normal, como por ejemplo el que entre dicha estatura media menos tres veces la desviación tı́pica y la estatura media más tres veces la desviación tı́pica se encuentra el 99′ 74 % de la población, P {µ − 3σ < X < µ + 3σ} = P {−3 < Z < 3} = 1 − 2 · 0′ 0013 = 0′ 9974. Ahora, bajo este supuesto se pide (véase CB-sección 5.11) determinar el tamaño muestral necesario para que se verifique la condición expresada en el enunciado; en concreto, si la estatura en cm. de los individuos de la población, la representamos por la variable aleatoria X y admitimos, por tanto, que es X ; N (µ, 10), se pide determinar n de forma que sea P {|x − µ| < 5} = 0′ 9. En estas condiciones sabemos (CB-sección 5.4) que la media muestral se distri√ buye como x ; N (µ, 10/ n). Por tanto, tipificando en la condición anterior y si, como siempre, Z representa una variable N (0, 1), será P |x − µ| 5 √ 5 √ √ < n = P |Z| < n = 0′ 9. 10/ n 10 10 Ahora vamos a buscar en la tabla 3 de la normal N (0, 1) un valor z tal que sea P {|Z| < z} = 0′ 9 D 138 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud es decir, un valor tal que la N (0, 1) deje un área de probabilidad 0′ 9 entre −z y z, o lo que es lo mismo, por haber un área de probabilidad igual a 1 debajo de toda la curva, un valor z tal que fuera del intervalo (−z, z) haya un área de probabilidad igual a 0′ 1; y, por la simetrı́a de dicha curva, un valor z que deje a su derecha un área de probabilidad 0′ 05. La tabla 3 nos da (por interpolación inmediata puesto que es el valor buscado es el punto medio) como solución z = 1′ 645. Por tanto, deberá ser 5 √ n = 1′ 645 10 de donde se obtiene el valor n = 10′ 8241, aunque como habrá que elegir un tamaño de muestra entero y como a medida que aumenta n, aumenta la probabilidad del suceso puesto como condición (al aparecer n en el numerador) tomaremos n = 11 como n mı́nimo que mantenga la precisión exigida en el enunciado. Problema 5.6 El tiempo de vida en dı́as X de los individuos de una población afectados de una nueva enfermedad es una variable aleatoria continua con función de densidad fθ (x) = 2 θ2 x−3 si x > θ y fθ (x) = 0 si x ≤ θ , siendo θ > 0 un parámetro desconocido. Con objeto de estimar el parámetro θ, se extrajo una muestra aleatoria simple de dicha población, obteniéndose los siguientes tiempos de vida, en dı́as, de los 10 individuos seleccionados, todos los cuales fallecieron por la enfermedad en estudio 398, 356, 615, 265, 650, 325, 400, 223, 368, 680 Determinar la estimación de máxima verosimilitud de θ. La función de densidad de la variable aleatoria en estudio X, tiempo de vida de los individuos de la población afectados por la enfermedad en estudio, nos indica que dichos individuos contraen la enfermedad en un momento desconocido, θ, (puesto que en ese punto la función de distribución F (x) empieza a crecer desde cero, o lo que es lo mismo la función de supervivencia S(x) = 1 − F (x) vale 1, lo que quiere decir que todos los individuos están vivos), momento a partir del cual, y por la forma de dicha función de densidad, la probabilidad de sobrevivir va disminuyendo. Es precisamente el inicio de la enfermedad el objeto de la estimación. Para ello, utilizaremos el método de la máxima verosimilitud (CB-sección 5.2). La función de verosimilitud de la muestra será D 139 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos L(θ) = fθ (x1 , ..., xn ) = n Y i=1 n 2n fθ (xi ) = 2 θ n Y i=1 xi !−3 si x1 , ..., xn > θ. Como siempre, el método de la máxima verosimilitud se basa en asignar a θ el valor que maximice la función L(θ); el problema es que ahora θ aparece en el recorrido de la variable, es decir, que L(θ) toma un valor distinto de cero si θ < x1 , ..., xn y si algún xi es tal que xi ≤ θ será L(θ) = 0. En la estimación de θ habrá que tener también en cuenta, por tanto, el recorrido de L(θ). Q La función L(θ) = 2n θ 2 n ni=1 x−3 i crece al crecer θ, por lo que será tanto mayor cuanto mayor sea θ, y esto hasta que θ llegue al primer xi a partir de donde, por lo comentarios anteriores, L(θ) vale cero. Por tanto, el valor de θ que hace máxima L(θ) es el mı́nimo de los n valores {x1 , ...xn } el cual se suele denotar por x(1) . La estimación de máxima verosimilitud de θ será, a partir de los 10 datos de la muestra, x(1) = 223. Este problema es un ejemplo de que lo importante en la determinación del estimador de máxima verosimilitud es calcular el valor de θ que maximiza la función L(θ), máximo que en muchas ocasiones se podrá determinar derivando L(θ) respecto a θ e igualando a cero dicha derivada, pero que en otras ocasiones, como pasa en general al determinar el máximo de cualquier función, deberán utilizarse otras herramientas distintas de la derivada. Problema 5.7 Se quiere estimar, mediante un intervalo de confianza, el tiempo que transcurre desde la administración de la primera dosis de una nueva vacuna contra la hepatitis B, hasta que se produce en el individuo una drástica disminución del nivel de anticuerpos contra la mencionada enfermedad, requiriendo éste una nueva dosis de recuerdo. Para tal fin se eligió una muestra aleatoria simple de 40 individuos de la población en estudio en los que se observó el tiempo transcurrido desde la administración de la vacuna hasta la disminución de los anticuerpos, obteniéndose una media muestral de 35 dı́as. Determinar el mencionado intervalo de confianza para un coeficiente de confianza de 0′ 95, sabiendo que en las vacunas de tipo sintético, como la aquı́ utilizada, es admisible suponer una desviación tı́pica de 7 dı́as. Como es habitual, primero fijaremos el modelo matemático para el problema en cuestión. No se supone distribución para la variable aleatoria en estudio, X, dı́as transcurridos desde la administración de la vacuna hasta la disminución de anticuerpos. No obstante, el tamaño muestral, n, es suficientemente grande (mayor que 30) para la situación aquı́ considerada de suponerse conocida la varianza poblacional σ 2 . D 140 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud En estas condiciones, el intervalo de confianza para tiempo medio hasta que deja de ser eficaz la vacuna es (CB-sección 6.3) σ σ x − zα/2 √ , x + zα/2 √ . n n Como de la tabla 3 de la distribución normal N (0, 1) obtenemos que es zα/2 = z0′ 05/2 = z0′ 025 = 1′ 96, el intervalo de confianza buscado será, σ σ x − zα/2 √ , x + zα/2 √ n n = 7 7 35 − 1′ 96 √ , 35 + 1′ 96 √ 40 40 = [32′ 83 , 37′ 17]. Aunque el enunciado del problema pedı́a explı́citamente el intervalo de confianza de la media, no cabe duda de que, en este problema, resulta más interesante determinar una estimación de cuándo deja de ser eficaz la vacuna, es decir, una cota de confianza superior de la media, ya que es precisamente el final del perı́odo de validez lo que nos interesa. Surge ası́ el concepto de cota de confianza que, aunque no se aborda en CB, su definición, totalmente análoga a la de intervalo de confianza, no presenta ninguna dificultad. En el caso de la cota de confianza superior toda la probabilidad se traslada al extremo superior: T2 (x1 , ..., xn ) es una cota de confianza superior para θ, de coeficiente de confianza 1 − α, si P {θ ≤ T2 (X1 , ..., Xn )} = 1 − α. En la cota de confianza inferior, el coeficiente se traslada al extremo inferior: T1 (x1 , ..., xn ) es una cota de confianza inferior para θ, de coeficiente de confianza 1 − α, si P {T1 (X1 , ..., Xn ) ≤ θ} = 1 − α. Como sabemos que los intervalos de confianza son intervalos [T1 (x1 , ..., xn ) , T2 (x1 , ..., xn )] tales que P {T1 (X1 , ..., Xn ) ≤ θ ≤ T2 (X1 , ..., Xn )} = 1 − α la determinación, en cada caso, de la cota de confianza superior o inferior, se realizará eligiendo el intervalo de confianza para la situación considerada y dejando a un lado toda la probabilidad α en lugar de α/2 a cada lado, como hacı́amos en los intervalos de confianza. D 141 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Ası́, en la situación en la que estamos en este problema, la cota de confianza superior, de coeficiente de confianza 1 − α, para el tiempo medio hasta que deja de ser eficaz la vacuna será σ x + zα √ n es decir, el extremo superior del intervalo de confianza para la media en la situación considerada, cambiando zα/2 por zα al dejar a un lado toda la probabilidad α, ya que, al ser en este caso, x−µ √ σ/ n aproximadamente N (0, 1), será es decir, P x−µ √ > z1−α σ/ n =1−α P x−µ √ > −zα σ/ n =1−α y, por tanto, σ P µ ≤ x + zα √ n =1−α cumpliendo σ x + zα √ n la condición de cota de confianza superior, más arriba exigida. En definitiva, la cota de confianza superior, de coeficiente de confianza ′ 0 95, para el tiempo medio hasta que deja de ser eficaz la vacuna será σ 7 x + zα √ = 35 + 1′ 645 √ = 36′ 82 n 40 al ser zα = z0′ 05 = 1′ 645. Problema 5.8 Con objeto de informar a sus pacientes acerca de la duración del tratamiento de corrección de mordedura cruzada, un ortodoncista desea estimar, mediante sendos intervalos de confianza, el tiempo medio y la desviación tı́pica de la duración del tratamiento. Para ello seleccionó una muestra aleatoria simple de 10 fichas de pacientes con tratamiento finalizado, obteniendo los siguientes tiempos de tratamiento, en dı́as: D 142 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 290 , 275 , 290 , 325 , 285 , 365 , 375 , 310 , 290 , 300 . Suponiendo que la duración de dicho tratamiento sigue una distribución normal, determinar los intervalos de confianza para la media y la desviación tı́pica a un coeficiente de confianza del 95 %. Según el enunciado del problema, la variable en estudio X, duración, en dı́as, del tratamiento de mordedura cruzada, sigue una distribución normal N (µ, σ) de media y desviación tı́pica desconocidas. En esta situación, el intervalo de confianza para la media µ es (CB-sección 6.2) S S √ , x + tn−1;α/2 √ . n n x − tn−1;α/2 De los datos observados obtenemos que es x = 310′ 5 y S = 34′ 355; además, al ser el coeficiente de confianza 0′ 95, a partir de la tabla 5 de la distribución t de Student obtenemos que es tn−1;α/2 = t9;0′ 025 = 2′ 262. Por tanto, el intervalo de confianza para la media, de coeficiente de confianza 0′ 95, es h x − tn−1;α/2 = √S n h , x + tn−1;α/2 √S n i ′ ′ 355 310′ 5 − 2′ 262 34√355 , 310′ 5 + 2′ 262 34√10 10 i = [285′ 92 , 335′ 08]. El intervalo de confianza para la varianza en esta situación de ser la media poblacional desconocida es (CB-sección 6.4) " (n − 1)S 2 (n − 1)S 2 , 2 χ2n−1;α/2 χn−1;1−α/2 # y como, a partir de la tabla 4 de la distribución χ2 de Pearson, es χ2n−1;α/2 = χ29;0′ 025 = 19′ 02 y χ2n−1;1−α/2 = χ29;0′ 975 = 2′ 7, el intervalo pedido será " # (n − 1)S 2 (n − 1)S 2 9 · 1180′ 3 9 · 1180′ 3 , = , = [558′ 5 , 3934′ 3]. 19′ 02 2′ 7 χ2n−1;α/2 χ2n−1;1−α/2 Extrayendo la raı́z cuadrada a los extremos del intervalo anterior, obtendremos el intervalo de confianza, de coeficiente de confianza 0′ 95, para la desviación tı́pica: [23′ 63 , 62′ 72]. D 143 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos En este punto queremos reseñar un hecho a tener en cuenta. Un intervalo de confianza no es más que un subconjunto del conjunto de valores posibles del parámetro en estudio, elegido de forma que el estadı́stico a utilizar, en la situación en la que nos movamos, cubra al verdadero valor del parámetro con una probabilidad dada, 1 − α, denominada coeficiente de confianza. Si, como aquı́ ocurre, el parámetro es bidimensional, θ = (µ, σ), lo lógico serı́a elegir un subconjunto (de dos dimensiones) del conjunto de valores posibles del parámetro (bidimensional) θ tal que el estadı́stico (bidimensional) correspondiente, cubriese el verdadero valor de θ con probabilidad 1 − α. El elegir como tal subconjunto el proporcionado por la intersección de los dos intervalos de confianza correspondientes, (en nuestro problema el subconjunto {(µ, σ) : 285′ 92 ≤ µ ≤ 335′ 08, 23′ 63 ≤ σ ≤ 62′ 72}) presenta, en general, el inconveniente de que su verdadero coeficiente de confianza será menor que 1 − α ya que, en el mejor de los casos de que los estimadores a considerar fueran independientes y pudiéramos calcular fácilmente la probabilidad de la intersección de los dos sucesos (que el primer estadı́stico cubra a la primera componente del parámetro —en nuestro caso µ— y el segundo a la segunda —en nuestro caso σ—), ésta serı́a el producto de ambas probabilidades (1 − α) × (1 − α) < 1 − α por ser 0 < α < 1. Un estudio preciso de la determinación del subconjunto de valores posibles del parámetro, denominado región de confianza, que mantuviese el coeficiente de confianza 1 − α, se sale de los objetivos de CB. No obstante, una regla práctica a utilizar con los medios de que aquı́ disponemos, podrı́a ser la de aumentar el coeficiente de confianza de cada uno de los dos intervalos y admitir que la que se obtendrá para el conjunto intersección de ambos será algo menor a la fijada para la obtención de cada uno de los dos intervalos de confianza y, en muchos casos, igual al producto de ambos coeficientes de confianza. Problema 5.9 Se quiere estimar la eficacia de un tratamiento de fluoración del agua potable de una determinada ciudad. Para ello, antes de aplicar el tratamiento, se eligieron al azar 150 personas de la ciudad en cuestión y se observó que el 35 % de las mismas presentaba alguna caries dental. Pasado un año de tratamiento, se seleccionó otra muestra aleatoria simple de 150 habitantes de la misma ciudad, observándose un 30 % de personas con caries. En estas condiciones, determinar un intervalo de confianza, de coeficiente de confianza 0′ 95, para la diferencia de proporciones de personas con caries, antes y después de aplicar el tratamiento. Este problema pone de nuevo de manifiesto que lo importante a la hora de considerar un problema como de datos apareados o no, no es el que se seleccionen a las mismas personas (como ocurrı́a en el ejercicio anterior) o que se realice un tratamiento antes o después (como ocurre en este problema); D 144 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud lo caracterı́stico de un problema de datos apareados es que las variables que modelizan el problema no sean independientes. En el segundo apartado del ejercicio anterior, aunque las personas en las que se observaban las variables en estudio eran las mismas, éstas eran independientes. En este problema, aunque se observa la proporción de individuos con caries, antes y después de aplicar el tratamiento, los individuos se seleccionan independientemente en ambas ocasiones, por lo que se trata de variables independientes. En concreto, al ser éste un problema de presencia o ausencia de una caracterı́stica, o en nuestra terminologı́a de éxito o fracaso, se puede modelizar mediante una variable Bernoulli, que no es más que una binomial B(1, p) en donde p es la proporción de éxitos. Ası́, si X1 es una variable que toma el valor 1 si el individuo seleccionado al azar de la población, antes de aplicar el tratamiento, tiene caries y 0 si no tiene caries y p1 es la proporción de personas con caries antes de aplicar el tratamiento, es X1 ; B(1, p1 ), y si X2 es una variable que toma el valor 1 si el individuo seleccionado al azar de la población, después de aplicar el tratamiento, tiene caries y 0 si no tiene caries y p2 es la proporción de personas con caries después de aplicar el tratamiento, es X2 ; B(1, p2 ). Como las muestras antes y después de aplicar el tratamiento se toman de forma independiente, X1 y X2 serán variables independientes y, por tanto, no se tratará de un problema de datos apareados, sino de uno de determinación del intervalo de confianza para la diferencia de medias de dos poblaciones binomiales —la media de X1 es p1 y la de X2 es p2 —, siendo el tamaño muestral suficientemente grande (CB-sección 6.7). El intervalo de confianza para p1 − p2 será, por tanto, " p̂1 − p̂2 − zα/2 r p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + , p̂1 − p̂2 + zα/2 n1 n2 r p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + n1 n2 # De los datos del enunciado se obtiene que es p̂1 = 0′ 35, n1 = 150, p̂2 = 0′ 30, n2 = 150 y α/2 = 0′ 025, por lo que intervalo de confianza buscado será 0′ 35 − 0′ 3 − 1′ 96 = q 0′ 35·0′ 65 150 + 0′ 3·0′ 7 150 , 0′ 35 − 0′ 3 + 1′ 96 q 0′ 35·0′ 65 150 + 0′ 3·0′ 7 150 [−0′ 0558 , 0′ 1558] ya que es zα/2 = z0′ 025 = 1′ 96 a partir de la tabla 3 de la distribución normal. Problema 5.10 Se ha realizado un estudio sobre los niveles de radiación de un determinado modelo de pantalla, midiéndose la radiación en 10 pantallas de ese modelo elegidas al azar, de donde se obtuvo una cuasivarianza muestral de S 2 = 402. Suponiendo D 145 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos que la radiación de las pantallas sigue una distribución normal, ¿puede rechazarse, a nivel α = 0′ 05, la hipótesis de que la varianza poblacional es mayor o igual que 1000?. Llamando X a la variable aleatoria niveles de radiación del modelo de pantalla en estudio, del enunciado se deduce que es X ; N (µ, σ), con µ y σ desconocidas. Además, el contraste que se solicita es del tipo H0 : σ 2 ≥ σ02 frente a H1 : σ 2 < σ02 ; bajo las condiciones del primer párrafo del ser la población normal y la media poblacional desconocida, se rechaza H0 cuando y sólo cuando (CB-sección 7.4) sea (n − 1)S 2 < χ2n−1;1−α σ02 es decir, cuando y sólo cuando sea 9 · 402 = 3′ 618 < χ29;0′ 95 . 1000 Como, a partir de la tabla 4 de la χ2 , es χ29;0′ 95 = 3′ 325 no puede rechazarse H0 al nivel de significación propuesto. El p-valor —nivel de significación observado— es la probabilidad P {χ29 < ′ 3 618}. A partir de la tabla 4 obtenemos los valores P {χ29 < 3′ 325} = 0′ 05 y P {χ29 < 4′ 168} = 0′ 1; es decir, que a un aumento de abscisa de 4′ 168 − 3′ 325 = 0′ 843 le corresponde un aumento de probabilidad de 0′ 1 − 0′ 05 = 0′ 05. Por tanto, a un aumento de abscisa de 3′ 618 − 3′ 325 = 0′ 293 le corresponderá un aumento de probabilidad de 0′ 293 × 0′ 05/0′ 843 = 0′ 01738; es decir, será P {χ29 < 3′ 618} = 0′ 05 + 0′ 01738 = 0′ 06738. Problema 5.11 Se esté estudiando el tiempo de vida entre los pacientes a una determinada enfermedad. A tal fin se eligieron al azar 100 fichas de pacientes fallecidos por la enfermedad en estudio, obteniéndose una media muestral de 740 dı́as y una cuasidesviación tı́pica muestral de 32 dı́as. ¿Puede admitirse para los pacientes de la enfermedad en cuestión un tiempo medio de vida superior a 730 dı́as? Si representamos por X la variable aleatoria tiempo de vida de los pacientes con la enfermedad en estudio, y por µ su media, estamos interesados en analizar si puede admitirse la hipótesis µ > 730 la cual, como siempre, se plantea como hipótesis alternativa H1 , reservando la hipótesis nula al suceso complementario H0 : µ ≤ 730. En la situación que nos movemos de contrastes para la media, µ, de una población no necesariamente normal de varianza desconocida siendo el tamaño D 146 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud muestral suficientemente grande (CB-sección 7.3), se rechaza H0 : µ ≤ 730 cuando y sólo cuando sea x − 730 √ > zα S/ n siendo zα el valor de la abscisa de una normal N (0, 1) que deja a la derecha un área de probabilidad α, siendo α el nivel de significación del test. Si fijamos como nivel de significación α = 0′ 05, la tabla 3 de la normal N (0, 1) nos proporciona el punto crı́tico zα = z0′ 05 = 1′ 645, al obtenerse a partir de la mencionada tabla que es P {Z > 1′ 64} = 0′ 0505 y P {Z > 1′ 65} = 0′ 0495. Al ser la probabilidad cola requerida como nivel de significación la semisuma de las dos anteriores, el punto crı́tico también será la semisuma de las dos abscisas anteriores: (1′ 64 + 1′ 65)/2 = 1′ 645. Como es x − 730 740 − 730 √ √ = = 3′ 125 > 1′ 645 = z0′ 05 S/ n 32/ 100 rechazaremos la hipótesis nula de ser H0 : µ ≤ 730, aceptando la alternativa H1 : µ > 730, de ser el tiempo medio de supervivencia entre los pacientes con la enfermedad en estudio, significativamente mayor de 730 dı́as. El p-valor del test es P x − 730 √ > 3′ 125 = P {Z > 3′ 125} = 0′ 0009 S/ n obtenido, de nuevo a partir de la tabla 3, por interpolación de dos valores (en este caso iguales). Un p-valor tan pequeño confirma la conclusión adoptada. Problema 5.12 Un equipo de investigadores realizó un experimento en un hospital psiquiátrico para comparar cinco métodos de remotivación de pacientes, los cuales estaban clasificados de acuerdo a su nivel inicial de motivación. Los resultados obtenidos fueron los siguientes: NIVEL DE MOTIVACIÓN Ninguno Muy bajo Bajo Mediano A 58 62 67 70 MÉTODO B C D 68 60 68 70 65 80 78 68 81 81 70 89 E 64 69 70 74 ¿Suministran los datos suficiente evidencia como para poder concluir que existen diferencias entre los métodos? D 147 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Admitiremos como válidas las suposiciones habituales de homocedasticidad y normalidad que nos permiten hacer un Análisis de la Varianza. Al existir una fuente de variación no deseable en las unidades experimentales (el nivel inicial de motivación de los pacientes), realizaremos un Análisis de la Varianza por Bloques (CB-sección 8.3), siendo éstos precisamente, los cuatro niveles de motivación inicial de los pacientes. No obstante, el propósito sigue siendo el contrastar la igualdad de los efectos medios de los niveles del factor en estudio, en este caso, los métodos de remotivación, contrastando la hipótesis nula H0 : µA = µB = µC = µD = µE frente a la alternativa de no ser todos los efectos medios iguales. (Apuntamos aquı́ el que, en el enunciado del problema, los datos aparecen en una disposición distinta a la de la sección 8.3 de CB. Allı́, como siempre, los s bloques aparecen como columnas y los r tratamientos como filas. Por tanto, si el lector no quiere confundirse, quizá es preferible que cambie primero las filas por las columnas en la tabla del enunciado, con objeto de tener la misma disposición que en el texto base CB.) La tabla de Análisis de la Varianza correspondiente a tal diseño es F. de variación Suma de cuadrados g.l. c. medios Estadı́stico Tratamientos Bloques Residual SSTi = 632′ 8 SSBl = 471′ 2 SSE = 62′ 8 4 3 12 158′ 2 F = 30′ 23 Total SST = 1,166′ 8 19 5′ 2333 El punto crı́tico, para un nivel de significación α = 0′ 01, es F(4,12);0′ 01 = 5′ 4119 < F , lo que lleva a rechazar la hipótesis nula de igualdad entre los cinco métodos. De hecho el p-valor es menor que 0′ 005, lo que confirma la decisión adoptada de rechazo de la hipótesis nula. Problema 5.13 En el análisis de la posible influencia del peso, X1 y del nivel de ácido úrico, X2 , sobre el nivel de colesterol, Y , en los individuos de una población, se seleccionó al azar a 10 personas de la población en estudio, anotándose el valor, que en ellos tomaban, las tres variables antes mencionadas. Los resultados obtenidos fueron los siguientes: X1 X2 Y Se pide: 50 40 200 80 70 350 75 50 250 80 65 300 68 55 340 75 60 340 70 60 300 80 62 360 90 69 400 60 63 220 D 148 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud a) Determinar el hiperplano de regresión muestral de Y sobre X1 , X2 . b) Contrastar, a nivel α = 0′ 05, si el hiperplano determinado explica suficientemente bien a la variable Y en función de X1 y X2 . a) Para calcular el hiperplano (en este caso plano al haber sólo dos variable regresoras) de regresión de Y sobre X1 , X2 , yt = β̂0 + β̂1 x1 + β̂2 x2 debemos determinar y resolver, previamente, el sistema de ecuaciones normales n β̂0 β̂0 n X x1j j=1 n X β̂ x2j 0 j=1 + β̂1 + β̂1 + β̂1 n X j=1 n X j=1 n X x1j x21j x1j x2j + β̂2 + β̂2 + β̂2 j=1 n X j=1 n X j=1 n X x2j = x1j x2j = x22j j=1 = n X j=1 n X j=1 n X yj x1j yj x2j yj j=1 que para los datos del enunciado queda igual a 10 · β̂0 + 728 · β̂1 + 594 · β̂2 = 3060 728 · β̂0 + 54174 · β̂1 + 43940 · β̂2 = 228370 594 · β̂0 + 43940 · β̂1 + 36024 · β̂2 = 185380 sistema de tres ecuaciones con tres incógnitas, β̂0 , β̂1 , β̂2 , que tiene como soluciones los valores β̂0 = −55′ 58 β̂1 = 4′ 2301 β̂2 = 0′ 9029 El hiperplano buscado será, por tanto, yt = −55′ 58 + 4′ 2301 x1 + 0′ 9029 x2 mediante el cual, si el Análisis de la Regresión Lineal Múltiple, que haremos a continuación, permite aceptarlo como modelo, podrı́amos considerar como razonable que un individuo de la población en estudio con un peso de x1 = 85 kgr. y un nivel de ácido úrico de x2 = 66, tenga un nivel de colesterol de yt = −55′ 58 + 4′ 2301 · 85 + 0′ 9029 · 66 = 363′ 57. D 149 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos En la determinación de los coeficientes de regresión, β̂0 , β̂1 , β̂2 , hemos utilizado el sistema de ecuaciones normales. Equivalentemente, podrı́amos haber utilizado la notación matricial empleada en EII-sección 6.6, siendo X= 1 x11 x12 · · · x1k 1 x21 x22 · · · x2k .. .. .. .. .. . . . . . 1 xn1 xn2 · · · xnk Y = 200 350 .. . 220 = 1 50 40 1 80 70 .. .. .. . . . 1 60 63 y siendo los coeficientes de regresión iguales a es decir, β̂0 ′ −1 ′ β̂1 = (X X) X Y β̂2 1 1 ··· 1 X ′ = 50 80 · · · 60 40 70 · · · 63 la matriz traspuesta de la matriz X, obtenida de esta última intercambiando las filas y las columnas, siendo (X ′ X)−1 −1 10 728 594 5′ 4148 −0′ 0325 −0′ 0496 = 728 54174 43940 = −0′ 0325 0′ 0019 −0′ 0018 −0′ 0496 −0′ 0018 594 43940 36024 0′ 0031 la inversa del producto de las matrices X ′ X, y siendo Por último, será 3060 X ′ Y = 228370 185380 β̂0 5′ 4148 −0′ 0325 −0′ 0496 3060 ′ −1 ′ 0′ 0019 −0′ 0018 · 228370 β̂1 = (X X) X Y = −0′ 0325 0′ 0031 −0′ 0496 −0′ 0018 185380 β̂2 D 150 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud −55′ 58 ′ = 4 2301 0′ 9029 b) Una vez determinado el hiperplano de regresión muestral por uno u otro procedimiento, en este apartado vamos a analizar si éste explica suficientemente bien a la variable Y en función de X1 y X2 , contrastando la hipótesis nula H0 :ninguna de las variables independientes Xi tiene valor en la explicación de Y , o equivalentemente H0 : β1 = ... = βk = 0, frente a la alternativa de que alguna Xi sirve para explicar a la variable Y . Para ello utilizaremos la tabla de Análisis de la Varianza para la Regresión Lineal Múltiple F. variación Regresión múltiple Residual Total Suma de cuadrados SSEX = n X i=1 (yti − y)2 SSN EX = SST − SSEX SST = n X i=1 yi2 1 − n n X i=1 yi g.l. c. medios k SSEX k n−k−1 !2 SSN EX n−k−1 Estadı́stico SSEX k SSN EX n−k−1 n−1 Primero calcularemos la suma de cuadrados debida a la regresión lineal múltiple SSEX = n X i=1 (yti − y)2 en donde yti representa el valor teórico obtenido por el hiperplano de regresión muestral yt en el punto (x1i , x2i ), i = 1, ..., 10; es decir, por ejemplo yt1 = −55′ 58 + 4′ 2301 · 50 + 0′ 9029 · 40 = 192′ 041. Por otro lado, la media de las yi es y = obtenemos la siguiente tabla de cálculos: P10 i=1 yi /10 = 306, con lo que D 151 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos yti yti − y (yti − y)2 ′ 192 041 −113′ 959 12986′ 654 346′ 031 40′ 031 1602′ 481 ′ 306 822 0′ 822 0′ 677 ′ ′ 341 517 35 517 1261′ 422 281′ 726 −24′ 274 589′ 213 315′ 852 9′ 851 97′ 052 ′ ′ 294 701 −11 299 127′ 667 338′ 808 32′ 808 1076′ 352 ′ 387 429 81′ 429 6630′ 698 255′ 109 −50′ 891 2589′ 924 26962 Por tanto, será SSEX = n X i=1 (yti − y)2 = 26962 suma de cuadrados que tiene k = 2 grados de libertad al haber sólo dos variables regresoras. Por otro lado, la suma total de cuadrados es SST = n X i=1 2 (yi − y) = n X i=1 yi2 n 1 X − yi n i=1 !2 = 974200 − 30602 = 37840 10 la cual tiene n − 1 = 9 grados de libertad. Por último, la suma residual de cuadrados se calcula por diferencia de las otras dos, SSN EX = SST − SSEX = 37840 − 26962 = 10878 con grados de libertad igual a la diferencia de grados de libertad de las otras dos sumas de cuadrados, 9 − 2 = 7. Los cuadrados medios de la tabla de Análisis de la Varianza se calculan ahora como cociente entre las sumas de cuadrados y sus grados de libertad: Cuadrado medio correspondiente a la Regresión Lineal Múltiple: SSEX 26962 = = 13481 2 2 Cuadrado medio Residual: D 152 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud SSN EX 10878 = = 1554 7 7 siendo el estadı́stico del contraste el cociente de estos dos cuadrados medios: F = 13481 SSEX/2 = = 8′ 675. SSN EX/7 1554 Todos estos cálculos se resumen en la tabla de Análisis de la Varianza para la Regresión Lineal Múltiple F. variación Regresión lineal múltiple Suma de cuadrados g.l. c. medios Estadı́stico SSEX = 26962 2 13481 F = 8′ 675 Residual SSN EX = 10878 7 Total SST = 37840 9 1554 Como este estadı́stico, antes de obtener la muestra y, por tanto, tomar un valor concreto, se distribuye como una F de Snedecor con grados de libertad el par formado por los grados de libertad de las dos sumas de cuadrados que forman el cociente de F , es decir, en este caso (2, 7), el punto crı́tico para un nivel de significación α = 0′ 05, será F(2,7);0′ 05 = 4′ 7374 < 8′ 675 = F , por lo que rechazaremos la hipótesis nula H0 , concluyendo con la alternativa de que el hiperplano de regresión calculado en el apartado anterior es válido para explicar Y en función de X1 y X2 . El p-valor del test, no obstante, no es lo suficientemente contundente al estar acotado por los valores 0′ 01 < p-valor < 0′ 025. El coeficiente de correlación múltiple muestral Ry,12 = s SSEX = SST r 26962 √ ′ = 0 7125 = 0′ 8441 37840 está en lı́nea con las conclusiones anteriores: no está demasiado cerca de 1, pero es significativamente cercano a dicho valor; o mejor dicho, es significativamente grande como para que el estadı́stico F′ = 2 /2 Ry,12 2 )/(10 − 2 − 1) (1 − Ry,12 D 153 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos (igual, como vimos en CB-sección 10.4.1, al estadı́stico F antes determinado), rechace la hipótesis nula H0 : ρy,12 = 0 , de ser cero el coeficiente de correlación múltiple entre Y y el resto de las —en este caso dos— variables regresoras Xi . Problema 5.14 Se quiere investigar si existen diferencias significativas entre tres métodos de adelgazamiento. Para ello se seleccionaron al azar tres personas, las cuales utilizaron el Método1, otras cuatro que emplearon el Método2 y otras tres más que utilizaron el Método3. Las disminuciones en kilogramos, después de dos semanas de ejercicios con los tres métodos fueron las siguientes: Método1 Método2 Método3 1′ 3 3′ 2 0′ 9 2′ 5 3′ 5 1′ 5 0′ 9 2′ 0 2′ 0 1′ 9 Se anotó también el peso inicial de los individuos seleccionados ya que éste puede ser un factor que influya en el resultado del experimento. Los pesos iniciales de las personas seleccionadas, ocupando los mismos lugares de la tabla anterior, eran Pesos iniciales 75 85 74 79 85 79 80 75 77 80 (es decir, el individuo de 75 kgr. adelgazó 1′ 3 kgr., el de 85 kgr. adelgazó 2′ 5, etc). Con estos datos y a nivel de significación α = 0′ 05, se pide: a) ¿Puede afirmarse que existen diferencias significativas entre los tres métodos de adelgazamiento? b) ¿Influye significativamente en el experimento el peso inicial del individuo? Estamos antes un caso de un Análisis de la Covarianza para un factor y un diseño completamente aleatorizado, cuyo desarrollo teórico puede seguirse en CB-sección 11.2. Mediante este diseño podemos contrastar las dos hipótesis que nos requiere el enunciado. a) Existirán diferencias significativas entre los tres métodos de adelgazamiento cuando rechacemos la hipótesis nula de igualdad de los efectos medios de dichos métodos, H0 : µ1 = µ2 = µ3 , utilizando el mencionado Análisis de la Covarianza, cuya tabla correspondiente a dicho diseño es igual a --------------------------------------------------------------| F. variac. S. cuadr. g.l. cuad. medi. F | | ----------------------------------| | Métodos 0.87029 2 0.43514 1.89 | | Residual 1.38397 6 0.23066 | --------------------------------------------------------------- D 154 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud De ella se deduce que, antes de tomar los datos, el estadı́stico F del contraste sigue una distribución F de Snedecor con grados de libertad (r − 1, n − r − 1) = (3−1, 10−3−1) = (2, 6), por lo que, para el nivel de significación α = 0′ 05 requerido, el punto crı́tico es F(2,6);0′ 05 = 5′ 1433 > 1′ 89 = F , aceptándose la hipótesis nula. De dichas tablas se deduce también que el p-valor es mayor que 0′ 1, afianzándose la decisión tomada. b) El mencionado Análisis de la Covarianza permite también valorar si la variable concomitante, en este caso los pesos iniciales, influye o no en el experimento, contrastando la hipótesis nula H0′ : X e Y no están relacionadas linealmente, frente a la alternativa H1′ : X e Y sı́ están relacionadas linealmente. El estadı́stico de dicho contraste toma el valor F′ = 2′ 61936 SSr = ′ = 11′ 36. SSE/(n − r − 1) 0 23066 Como es F ′ = 11′ 36 > 5′ 9874 = F(1,6);0′ 05 = F(1,n−r−1);α se rechaza H0′ , concluyendo que sı́ que influye significativamente el peso inicial en el experimento. Problema 5.15 Se quiere analizar si pueden considerarse significativamente independientes o no el tener problemas respiratorios en la adolescencia y el tener un historial de bronquitis en la infancia. Para ello se seleccionaron al azar 1000 adolescentes y se les clasificó según tuvieran en la actualidad problemas respiratorios o no y según su historial clı́nico de bronquitis en la infancia. Los resultados obtenidos fueron los siguientes: Problemas respiratorios Sı́ No Total Historial de bronquitis Sı́ No 25 40 200 735 Total 1000 ¿Puede rechazarse la hipótesis nula de independencia entre ambas variables? Se trata de un contraste de independencia de caracteres (CB-sección 12.4) en donde la hipótesis nula es la independencia de ambas variables. Para realizar dicho contraste utilizaremos el estadı́stico λ de Pearson el cual mide las discrepancias entre las frecuencias observadas nij y las esperadas ni· n·j /n en D 155 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos cada casilla, siendo, respectivamente, ni· i = 1, ..., a y n·j j = 1, ..., b los totales por filas y columnas de la tabla de doble entrada que contiene los datos. Dicho estadı́stico tiene por expresión, λ= a X b X (nij − ni· n·j /n)2 i=1 j=1 ni· n·j /n el cual sigue, aproximadamente, una distribución χ2 con (a − 1)(b − 1) grados de libertad. La tabla de frecuencias esperadas es Problemas respiratorios Sı́ No Total Historial de bronquitis Sı́ No ′ 14 6 50′ 4 ′ 210 4 724′ 6 225 735 Total 65 935 1000 siendo cada uno de los sumandos del estadı́stico λ a utilizar en el contraste χ2 igual a Problemas respiratorios Sı́ No Total Historial de bronquitis Sı́ No 7′ 4 2′ 1 0′ 5 0′ 1 Total 10′ 2 A la vista de estos resultados, el estadı́stico λ de Pearson de distribución χ21 antes de tomar la muestra, toma el valor λ = 10′ 2. (Con más precisión λ = 10′ 157). Como no se especifica ningún nivel de significación en el enunciado se calcula el p-valor y si éste es muy pequeño se rechaza la hipótesis nula y si es relativamente grande se acepta. La hipótesis nula de independencia de ambos caracteres es rechazada al ser P {χ21 > 10′ 2} < 0′ 005. De hecho, este razonamiento, aunque habitual entre los usuarios de la Estadı́stica es algo informal. Lo correcto hubiera sido fijar un nivel de significación α —habitualmente 0′ 1, 0′ 05 ó 0′ 01— y para ese nivel determinar el punto crı́tico. Si ahora es λ mayor que ese punto crı́tico, rechazaremos la hipótesis nula; luego calcuları́amos el p-valor para valorar la decisión tomada de la forma antes mencionada. Lo que ocurre es que con el p-valor determinado en este ejemplo —menor que 0′ 005— si se hubiera tomado otra decisión que no fuera el rechazo de H0 , ésta serı́a muy poco fiable. Además, el cálculo del D 156 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud p-valor ya nos da para qué niveles de significación se rechaza H0 —los mayores que dicho p-valor— y para cuáles se acepta —los menores. En este caso, deberı́amos haber elegido un nivel de significación mucho menor que 0′ 005 para haber aceptado la hipótesis nula (elección absurda). Problema 5.16 Se realizó un estudio sobre fallecimiento por angina de pecho en una población de riesgo. Con este propósito, para cada individuo se anotó el tiempo, en años, que transcurrió desde que se inició el estudio hasta el fallecimiento por dicha causa. Los tiempos obtenidos sobre 1625 pacientes vienen dados en la siguiente distribución de frecuencias: Intervalo [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) [14,15) ≥ 15 no ¯ de individuos fallecidos 456 226 152 171 135 125 83 74 51 42 43 34 18 9 6 0 ¿Puede admitirse una distribución exponencial para dichos tiempos de fallo? Se trata de un contraste de bondad del ajuste de la χ2 (CB-sección 12.2) que plantea la novedad de que ahora la distribución teórica es una exponencial, no tabulada; no obstante, el procedimiento es el mismo, aunque las probabilidades teóricas que dicha distribución asigna a cada intervalo deberán calcularse directamente a partir de la función de distribución y no mediante las tablas del final del libro. Como sabemos, la distribución exponencial Exp(θ) tiene por función de densidad fθ (x) = θ e−θx con x > 0 y siendo θ > 0 un parámetro desconocido. Como siempre, dado que no conocemos el valor de dicho parámetro, lo estimaremos a partir de la muestra utilizando su estimador de máxima verosimilitud y restaremos a la χ2 un grado de libertad al final. D 157 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Vimos en el capı́tulo tercero que el estimador de máxima verosimilitud de θ es 1/x. A partir de los datos obtenemos que es x = 3′ 719 y, por tanto, θ̂ = 1/x = 0′ 269. La hipótesis nula a contrastar será entonces la de que los datos se ajustan a una distribución Exp(0′ 269). Como de costumbre en este tipo de contraste deberemos determinar las frecuencias esperadas para lo que debemos calcular previamente las probabilidades que una Exp(0′ 269) asigna a cada uno de los intervalos en los que viene dividida la distribución de frecuencias dada. Para ello será muy útil la función de distribución de la distribución modelo, es decir, la función Fθ (x) = P {X ≤ x} = Z x 0 ′ θ e−θy dy = 1 − e−0 269 x . Ası́, y de nuevo sin preocuparnos de los lı́mites de los intervalos al ser la distribución exponencial de tipo continuo, será, redondeando en la cuarta cifra decimal, P {0 < X < 1} = P {0 < X ≤ 1} = P {X ≤ 1} − P {X ≤ 0} = F (1) − F (0) ′ = 1 − e−0 269 − 0 = 1 − 0′ 7641 = 0′ 2359. Análogamente, P {1 < X < 2} = F (2) − F (1) ′ ′ ′ ′ = 1 − e−0 269·2 − 1 + e−0 269 = e−0 269 − e−0 538 = 0′ 7641 − 0′ 5839 = 0′ 1802. P {2 < X < 3} = F (3) − F (2) ′ ′ ′ ′ = 1 − e−0 269·3 − 1 + e−0 269·2 = e−0 538 − e−0 807 = 0′ 5839 − 0′ 4462 = 0′ 1377. P {3 < X < 4} = F (4) − F (3) D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 158 ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ = 1 − e−0 269·4 − 1 + e−0 269·3 = e−0 807 − e−1 076 = 0′ 4462 − 0′ 3410 = 0′ 1052. P {4 < X < 5} = F (5) − F (4) ′ ′ = 1 − e−0 269·5 − 1 + e−0 269·4 = e−1 076 − e−1 345 = 0′ 3410 − 0′ 2605 = 0′ 0805. P {5 < X < 6} = F (6) − F (5) ′ ′ = 1 − e−0 269·6 − 1 + e−0 269·5 = e−1 345 − e−1 614 = 0′ 2605 − 0′ 1991 = 0′ 0614. P {6 < X < 7} = F (7) − F (6) ′ ′ = 1 − e−0 269·7 − 1 + e−0 269·6 = e−1 614 − e−1 883 = 0′ 1991 − 0′ 1521 = 0′ 047. P {7 < X < 8} = F (8) − F (7) ′ ′ = 1 − e−0 269·8 − 1 + e−0 269·7 = e−1 883 − e−2 152 = 0′ 1521 − 0′ 1163 = 0′ 0358. P {8 < X < 9} = F (9) − F (8) ′ ′ = 1 − e−0 269·9 − 1 + e−0 269·8 = e−2 152 − e−2 421 = 0′ 1163 − 0′ 0888 = 0′ 0275. D 159 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos P {9 < X < 10} = F (10) − F (9) ′ ′ ′ ′ = 1 − e−0 269·10 − 1 + e−0 269·9 = e−2 421 − e−2 69 = 0′ 0888 − 0′ 0679 = 0′ 0209. P {10 < X < 11} = F (11) − F (10) ′ ′ ′ ′ = 1 − e−0 269·11 − 1 + e−0 269·10 = e−2 69 − e−2 959 = 0′ 0679 − 0′ 0519 = 0′ 016. P {11 < X < 12} = F (12) − F (11) ′ ′ ′ ′ ′ ′ ′ ′ = 1 − e−0 269·12 − 1 + e−0 269·11 = e−2 959 − e−3 228 = 0′ 0519 − 0′ 0396 = 0′ 0123. P {12 < X < 13} = F (13) − F (12) ′ ′ = 1 − e−0 269·13 − 1 + e−0 269·12 = e−3 228 − e−3 497 = 0′ 0396 − 0′ 0303 = 0′ 0093. P {13 < X < 14} = F (14) − F (13) ′ ′ = 1 − e−0 269·14 − 1 + e−0 269·13 = e−3 497 − e−3 766 = 0′ 0303 − 0′ 0231 = 0′ 0072. P {X > 14} = 1 − P {X ≤ 14} = 1 − F (14) ′ ′ = 1 − 1 + e−0 269·14 = e−3 766 = 0′ 0231. D 160 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud valores que proporcionan la siguiente tabla de frecuencias observadas y esperadas, a la cual hemos añadido los primeros sumandos del estadı́stico de Pearson y hemos extendido el último intervalo para que las probabilidades sumen 1, Intervalo [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) ≥ 14 ni 456 226 152 171 135 125 83 74 51 42 43 34 18 9 6 1625 pi ′ 0 2359 0′ 1802 0′ 1377 0′ 1052 0′ 0805 0′ 0614 0′ 0470 0′ 0358 0′ 0275 0′ 0209 0′ 0160 0′ 0123 0′ 0093 0′ 0072 0′ 0231 1 n · pi n2i /(n · pi ) ′ 383 3375 542′ 4358 292′ 825 174′ 425 223′ 7625 103′ 2523 170′ 95 171′ 05 130′ 8125 139′ 3215 99′ 775 156′ 6024 ′ 76 375 90′ 1997 58′ 175 94′ 1298 ′ 44 6875 58′ 2042 ′ 33 9625 51′ 9396 26 71′ 1154 ′ 19 9875 57′ 8361 15′ 1125 21′ 4392 ′ 11 7 6′ 9231 ′ 37 5375 0′ 9590 1625 1739′ 8331 Utilizando los valores de la última columna de la tabla anterior el estadı́stico de Pearson tomará el valor λ= X i n2i npi ! − n = 1739′ 8331 − 1625 = 114′ 8331. Como hemos estimado un parámetro a partir de la muestra, reduciremos un grado más los de libertad de la χ2 . Como tenemos 15 clases, el estadı́stico λ de Pearson tendrá una distribución χ215−1−1 = χ213 . De la tabla 4 obtenemos que es χ213;0′ 005 = 29′ 82, lo que indica, al ser 114′ 8331 > 29′ 82 que el p-valor es incluso menor que 0′ 005, concluyéndose, en definitiva, que la distribución de frecuencias dada en el enunciado no se ajusta bien a una distribución exponencial, ya que la elegida, de parámetro 0′ 269 es la mejor de entre todas las exponenciales al haber estimado su parámetro mediante el método de la máxima verosimilitud. Existen además tres factores que pueden haber influido en la decisión final. El primero es el que los intervalos en los que venı́a clasificada la distribución de frecuencias, eran de igual longitud en lugar de igual probabilidad, condición siempre deseable en un contraste de bondad del ajuste; de hecho, se observa en la última columna de la tabla anterior que en el primer intervalo se tiene D 161 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos un discrepancia muy grande de valor 542′ 4358, que ya condiciona el valor final de λ. En segundo lugar, advertimos que para analizar la bondad del ajuste de unos datos a una distribución teórica de tipo continuo suele ser más indicado el contraste de Kolmogorov-Smirnov que el de la χ2 , más indicado, éste último, en contrastes de bondad del ajuste de tipo discreto en donde las clases en las que se dividen los datos ya vienen pre-establecidas por el problema de que se trate. Una última cuestión es la de que, al ser el tamaño muestral relativamente grande, se le exige mucho al test, de forma que, en esta situación, pequeñas discrepancias son magnificadas por el enorme tamaño muestral disponible, rechazándose con más facilidad, a menos que los datos se ajusten con mucha exactitud. En estas situaciones, suele hacerse depender el tamaño del intervalo, del tamaño muestral de forma que al aumentar éste disminuya la longitud de aquel. Problema 5.17 Una psicóloga ha dividido los estados de ánimo de sus pacientes en una escala que va de 0 a 10, correspondiendo una mayor puntuación a un mejor estado de ánimo, y en donde el 0 representa una “fuerte depresión”, el 5 un estado de ánimo denominado “normal” y el 10 una “euforia patológica”. Con objeto de estudiar el estado de ánimo durante las fiestas navideñas de los reclusos de un determinado centro penitenciario, se eligieron al azar diez de estos reclusos unas Navidades y, realizados varios tests psicológicos, la psicóloga asignó las siguientes puntuaciones a sus encuestados: 4 , 1 , 3 , 5 , 7 , 4 , 3 , 5′ 5 , 3′ 1 , 9 . A la vista de estos resultados, ¿puede admitirse, a nivel α = 0′ 05, un estado de ánimo significativamente menor del habitual en esas fiestas navideñas? Si representamos por X a la variable aleatoria estado de ánimo de un recluso elegido al azar de la población penitenciaria, podemos resumir la distribución de X, la cual es completamente desconocida, por una medida de posición como su mediana M . La razón de esta elección es la de que, al ser la distribución de X desconocida, debemos emplear alguno de los tests no paramétricos, los cuales se basan en utilizar este centro de simetrı́a en la formalización de sus hipótesis. Como la situación de “normalidad” se ha establecido en el valor 5 de la variable, la hipótesis que estamos interesados en validar es M < 5, por lo que contrastaremos la hipótesis nula H0 : M ≥ 5 frente a la alternativa H1 : M < 5. Además, como los estados de ánimo asignados por la psicóloga no representan, en realidad, una puntuación numérica sino más bien una ordenación D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 162 de los pacientes, el test a utilizar será el test de los signos (CB-sección 13.2.1) el cual presenta la ventaja de poder manejar ese tipo de datos aunque, por contra, dará el mismo valor al dato observado 5′ 5 que al dato 9 —ambos son mayores que 5— no teniendo en cuenta el tamaño de la diferencia. Si T representa el número de diferencias Xi − 5 positivas, el test de los signos indica rechazar H0 cuando sea T ≤ n − tα siendo tα el menor entero tal que P {W ≥ tα } ≤ α, en donde W es una variable aleatoria con distribución binomial B(n, 0′ 5). Al observar los datos vemos que uno de ellos es igual a 5, por lo que, siguiendo las sugerencias habituales sobre tratamiento del problema de los empates, lo descartaremos, reduciendo el tamaño de la muestra. Las nueve diferencias Xi − 5 serán −1 , −4 , −2 , 2 , −1 , −2 , 0′ 5 , −1′ 9 , 4 con lo que el número T de diferencias positivas será T = 3. El nivel de significación indicado es α = 0′ 05. Buscando en la tabla 1 de la distribución binomial B(9, 0′ 5), obtenemos que es P {W = 9} = 0′ 002 con W ; B(9, 0′ 5), por lo que el valor 9 cumple, en principio, la desigualdad pedida P {W ≥ 9} = P {W = 9} = 0′ 002 ≤ 0′ 05. (Recordemos que si un número es menor que otro, entonces es menor o igual.) Veamos, no obstante, si es el menor número entero que la verifica. De la mencionada tabla obtenemos que es P {W = 8} = 0′ 0176, por lo que será P {W ≥ 8} = P {W = 8} + P {W = 9} = 0′ 0176 + 0′ 002 = 0′ 0196 ≤ 0′ 05 verificando también la desigualdad requerida y siendo 8 un número entero menor que 9. Probando ahora a reducir un poco más el valor, tenemos que es P {W = 7} = 0′ 0703, por lo que será P {W ≥ 7} = P {W = 7} + P {W = 8} + P {W = 9} = 0′ 0703 + 0′ 0176 + 0′ 002 = 0′ 0899 > 0′ 05 con lo que ya no se verifica la desigualdad requerida. Por tanto, el menor número entero que la verifica, el cual es por definición tα , será tα = 8. Al ser D 163 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos n − tα = 9 − 8 = 1 y T = 3, es T > n − tα , aceptándose en consecuencia H0 y concluyéndose, en definitiva que, en base a ese estudio, no se produce una disminución significativa del estado mediano “normal” de ánimo en los reclusos. El p-valor del test es, a partir de la tabla 1, P {W ≤ 3} = 0′ 002 + 0′ 0176 + 0′ 0703 + 0′ 1641 = 0′ 254 suficientemente grande como para confirmar la aceptación de la hipótesis nula. Problema 5.18 Los siguientes datos corresponden a las alturas en cm de 200 mujeres elegidas al azar de una determinada población en la que se está realizando un estudio de osteoporosis: 156 183 151 157 150 156 155 164 155 181 149 149 160 156 153 145 183 170 148 162 151 162 149 179 153 158 164 158 148 158 157 155 154 171 166 149 153 168 180 148 157 145 152 149 160 153 148 162 154 158 168 164 160 166 150 156 159 156 146 166 159 151 157 164 156 146 164 162 154 146 152 155 146 153 150 166 161 156 170 180 173 162 166 160 162 166 159 160 146 185 158 157 162 156 150 161 158 159 159 159 158 153 172 160 157 156 182 153 154 145 145 149 152 152 155 182 147 164 156 174 147 158 174 164 181 153 161 154 161 154 164 159 162 160 150 162 155 150 148 175 153 155 145 176 148 155 158 148 160 184 156 162 153 157 152 161 145 156 175 158 152 146 150 159 151 159 176 150 156 150 166 168 146 173 160 164 155 164 177 158 152 154 156 150 155 159 146 178 150 156 177 170 150 154 146 153 145 172 158 158 Se pide: a) Analizar su simetrı́a gráficamente y mediante un contraste de hipótesis. b) Analizar su normalidad gráficamente y mediante un contraste de hipótesis. c) Si falla alguna de los dos, o las dos, determinar una transformación de Box-Cox mediante la cual se consiga el supuesto o supuestos que falten. a) Primero analizaremos gráficamente la simetrı́a de los n = 200 datos del enunciado. El diagrama de hojas y ramas (CB-sección 14.2) de dichos datos es de la siguiente forma DEPTH STEM * * 0 14 * 31 E 73 15 Q + 55 M 72 16 Q LEAVES 5555555666666666778888888999999 000000000000111122222223333333333344444444 5555555555666666666666666777777788888888888889999999999 0000000001111122222222224444444444 D 164 Al f on so Ga rcı́ aP ére z. UN E 38 28 18 10 1 Cuadernos de Estadı́stica Aplicada: Área de la Salud * 17 E * 18 * * * DEPTH STEM * 6666666888 0001223344 55667789 001122334 5 LEAVES el cual muestra un cierta asimetrı́a a la derecha al descender más lentamente la rama de la derecha que la de la izquierda. No obstante, para este tipo de análisis, es más adecuado el gráfico de simetrı́a (CB-sección 14.3.1), el cual consiste en la representación del conjunto de puntos x(n−i+1) − x(i) , x(n−i+1) + x(i) 2 , i = 1, ..., n en donde x(1) , ..., x(n) son los n = 200 datos muestrales, ordenados de menor a mayor (en nuestro ejercicio, x(1) = 145, x(n) = 185), resultando una nube de puntos alrededor de una lı́nea recta horizontal (la y = Md ) en el caso de datos simétricos, correspondiendo a distribuciones asimétricas a la izquierda nubes de puntos alrededor de una recta con pendiente negativa, y resultando una nube de puntos alrededor de una recta con pendiente positiva en el caso de datos con asimetrı́a a la derecha. Para los datos del enunciado obtenemos el siguiente gráfico de simetrı́a --+------------------+------------------+------------------+-165+ *+ | * | | * | | * * | | * * | + * + | * | | * | | * * * | | * | + * + | * * | | | | * | | * * | + * * + |* * * * * * * | 156.5| * * * * | --+------------------+------------------+------------------+-0 40 A pesar de que las representaciones gráficas son muy agradables, es más objetivo utilizar el coeficiente de asimetrı́a de Fisher, definido en CB-sección 2.3.4 y, especialmente, en CB-sección 14.3, por D 165 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos g1 = n X i=1 (xi − x)3 /(nS 3 ) en donde x es la media muestral y S la cuasidesviación tı́pica muestral. Para los datos del ejercicio es x = 158′ 465 y S = 9′ 398, siendo g1 = n X i=1 (xi − x)3 /(nS 3 ) = 0′ 91 el cual, al ser positivo, confirma la asimetrı́a a la derecha de los datos. No obstante, desde el punto de vista de las inferencias basadas en datos procedentes de distribuciones simétricas, interesa saber si los datos son significativamente asimétricos, para lo que se plantea el contraste de la hipótesis nula H0 :los datos son simétricos, frente a la alternativa H1 :los datos no son simétricos, es decir, lo que interesa saber es si puede admitirse la simetrı́a de los datos, no estando habitualmente interesados en, supuesto que se rechace H0 , averiguar si puede admitirse que los datos son asimétricos a la derecha o a la izquierda. Como es sabido (CB-sección 14.3.2), se rechaza H0 cuando sea g 1 p ≥ zα/2 . 6/n Fijado como nivel de significación α = 0′ 05, es zα/2 = z0′ 025 = 1′ 96, por lo p que (para tamaños muestrales mayores de n = 50 datos) cocientes g1 / 6/n menores que 1′ 96 indican que puede admitirse la hipótesis de simetrı́a (al menos a nivel 0′ 05). En nuestro caso es g 1 p = 5′ 246 6/n lo que indica que no puede admitirse la simetrı́a de los datos. b) Del apartado anterior se desprende que tampoco puede admitirse su normalidad, ya que los tests que la analizan suponen que los datos son simétricos. Dicha normalidad se calculará, fundamentalmente, con el coeficiente de curtosis (CB-sección 14.4.3), k= n X i=1 (xi − x)4 /(nS 4 ) − 3 en donde, como antes, x es la media muestral y S la cuasidesviación tı́pica muestral. D 166 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud En distribuciones normales es k = 0, por lo que se contrastará la hipótesis nula de normalidad de los datos, analizando si dicho coeficiente de curtosis se aleja significativamente de cero, p para lo que deberemos tipificarlo, dividiéndolo por su desviación tı́pica, 24/n, pudiendo admitirse, para n ≥ 200, una p distribución normal para el estadı́stico k/ 24/n. Por tanto, rechazaremos la hipótesis nula H0 :los datos proceden de una normal, frente a la alternativa H1 :los datos no proceden de una normal, cuando y sólo cuando sea k p ≥ zα/2 . 24/n De nuevo, cuando dicho cociente sea menor que 1′ 96 puede admitirse la normalidad de unos datos simétricos (al menos para un nivel de significación α = 0′ 05). Obsérvese que hemos dicho que se puede admitir la normalidad de unos datos simétricos; es decir, debemos primero analizar la simetrı́a de los datos y luego, si éstos son simétricos, su normalidad (siempre con las precauciones habituales de la posible disminución del nivel de significación verdadero al utilizar los mismos datos en dos tests consecutivos). Por tanto, no es raro que se obtengan resultados extraños al utilizar este test en datos no normales. Ası́, para los datos de este ejercicio, el estadı́stico p de contraste tipificado toma el valor |k/ 24/n| = 1′ 013 < 1′ 96 , a pesar de que el diagrama de hojas y ramas anterior muestra una clara asimetrı́a y, por tanto, una falta de normalidad. El gráfico de normalidad (CB-sección 14.4.1), el cual es una representación del conjunto de puntos Φ −1 3i − 1 3n + 1 , x(i) , i = 1, ..., n siendo Φ−1 la inversa de la función de distribución de la N (0, 1), tiene la interpretación siguiente: Si los puntos aparecen aproximadamente sobre una recta de pendiente positiva, se puede admitir la normalidad de los datos. Para los datos de nuestro ejercicio, es --+------------------+------------------+------------------+-185+ * *+ | **** | | *** | | *** | | ** | + ** + | ** | | * | | *** | | ** | D 167 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos + *** + | ****** | | **** | | **** | | **** | + ***** + | *** | 145|* * ********** | --+------------------+------------------+------------------+--2.713604 2.713604 en el cual se observa una evidente falta de normalidad al tener una forma sinuosa y no rectilı́nea. c) Para conseguir simetrı́a y normalidad en un conjunto unimodal de datos, suele resultar útil transformarlos mediante las denominadas transformaciones Box-Cox (CB-sección 14.4.2), las cuales, a partir de los datos xi , obtienen los datos yi = (xi + c)α − 1 α α 6= 0 , (x > −c) log(x + c) α = 0 , (c > 0) en donde α se determina a partir de los datos y c se elige para que sea xi + c > 0 , ∀ i = 1, ..., n. Puesto que aquı́ todos los xi son positivos, eliminamos la constante c y, de hecho, simplificamos la expresión hasta dejar la transformación de la forma yi = xαi . Si ası́ conseguimos simetrı́a y normalidad en los datos yi , no necesitamos complicar innecesariamente la transformación. Valores α > 1 comprimen la escala para los datos pequeños y la expanden para los grandes, por lo que resultan útiles en distribuciones asimétricas a la izquierda. Para las distribuciones asimétricas a la derecha, se eligen valores α < 1 que producen el efecto contrario, expandiendo los datos pequeños y comprimiendo los grandes. Por tanto, en nuestro ejercicio probaremos con varios α < 1 hasta conseguir que nuestros nuevos datos yi = xαi sean tales que los cocientes primero y g 1 p 6/n k p 24/n D 168 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud después, sean menores que 1′ 96. A esos datos yi resultantes ya se les podrá aplicar, por ejemplo, un test de hipótesis o cualquier otra prueba estadı́stica que requiera ambas suposiciones, o al menos una de ellas. Si tomamos α = −1, es g1 = −3′ 724 6/n p y (aunque no nos interesa, por no haberse conseguido simetrı́a con la transformación yi = x−1 i = 1/xi ) es k = −0′ 256. 24/n p Análogamente, si tomamos α = −2, es g1 = −2′ 975 6/n y p k = −0′ 741. 24/n p El camino es acertado porque vamos arreglando la simetrı́a, aunque debemos aumentar (en términos absolutos) el tamaño de la potencia α. Si tomamos α = −3, es g1 = −2′ 238 6/n y p k = −1′ 127. 24/n p Como todavı́a no es (en valor absoluto) menor que 1′ 96, seguimos, eligiendo ahora α = −4, en cuyo caso es g1 = −1′ 517 6/n p y k = −1′ 419 24/n p habiendo conseguido ası́, tanto la simetrı́a como la normalidad, al haber obtenido que los valores de ambos estadı́sticos sean (en valor absoluto) menores que 1′ 96. En principio, esa transformación yi = 1/x4i es suficiente para nuestros propósitos, no obstante, se obtiene una mejor transformación eligiendo α = −4′ 8, ya que, para esa transformación, es D 169 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos g1 = −0′ 953 6/n p y k = −1′ 443 24/n p consiguiendo ası́ una mayor seguridad en ambos tests. Por tanto, los datos que utilizarı́amos en nuestra ulterior inferencia estadı́stica serı́an los datos ′ yi = 1/x4i 8 siguientes: 1 1 ′ 8 , ... , 4 156 1764′ 8 es decir, los datos, 2′ 9717 · 10−11 , ... , 1′ 6655 · 10−11 . Como resulta muy desagradable la potencia 10−11 , se multiplican los datos anteriores por 1011 para obtener valores más manejables, resultando, en defi′ nitiva como transformación a emplear yi = 1011 /x4i 8 y como datos a utilizar en nuestras inferencias los siguientes: 2′ 9717 , ... , 1′ 6655 los cuales muestran un diagrama de hojas y ramas que cumple ambos requisitos de simetrı́a y normalidad, DEPTH 0 4 12 20 28 31 48 63 95 + 22 83 65 47 31 25 16 7 DEPTH STEM * * 1 * * * * E 2 * * Q * M 3 * Q * * E 4 * * * STEM * LEAVES 3333 44444455 66667777 88889999 000 22222223333333333 444444444455555 66666666677777777777777777777777 8888888999999999999999 000000000011111111 222222222223333333 4444555555555555 777777 888888899 000000000 2222222 LEAVES Advertimos que es conveniente, una vez determinada la transformación final y antes de utilizar nuestros datos transformados, volver a calcular los D 170 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud coeficientes de asimetrı́a y curtosis normalizados, puesto que este último puede alterarse al no ser invariante a determinadas transformaciones. Los valores de ambos coeficientes de los datos yi a utilizar 2′ 9717, ..., 1′ 6655 son iguales a g1 = −0′ 953 6/n y p k = −1′ 588 24/n p ambos (en valor absoluto) menores que 1′ 96, por lo que se cumplen ambos supuestos. Los gráficos de simetrı́a --+------------------+------------------+------------------+-2.962368+ * + | * | | * | | * * * | | | + * * + | * * * * | |* * | | * * * | | | + * * * + | * * * * | | * | | * * | | * | + * * + | * | 2.766045| * *| --+------------------+------------------+------------------+-0 2.910255 y normalidad, --+------------------+------------------+------------------+-4.221172+ ***** * *+ | ***** | | *** | | ** | | **** | + *** + | **** | | **** | | **** | | **** | + *** + D 171 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos | ** | | *** | | ** | | ** | + *** + | ***** | 1.310917|* * ** | --+------------------+------------------+------------------+--2.713604 2.713604 confirman estos cálculos. Obsérvese que, una vez realizada la inferencia en cuestión con los datos yi , es posible que se pueda realizar la transformación inversa xi = 1011 yi !1/4′ 8 en la correspondiente inferencia de los datos xi . Por ejemplo, si se pretendı́a construir un intervalo de confianza para las xi y se requerı́a normalidad (y, por tanto, simetrı́a) en nuestros datos, se determina el intervalo para los datos yi y, si resultó como intervalo de confianza, por ejemplo, el intervalo [1′ 62 , 2′ 10], es posible que se pueda aplicar la transformación inversa a los extremos del intervalo anterior, obteniendo que el intervalo de confianza buscado para las estaturas xi es el [167′ 688 , 177′ 003]. No obstante, esto requiere analizar cada inferencia particular porque, salvo en contadas excepciones, no se cumplen relaciones del tipo E[X α ] 6= E[X]α . Apuntamos por último, que como lo que se requiere es la simetrı́a y normalidad para, después de hacer las inferencias en cuestión, volver a los datos originales, es más conveniente, en general, elegir como valor de α un número entero, lo cual facilitará los cálculos. De nuevo hay que analizar cada caso en particular, porque pueden resultar intervalos de confianza distintos, al utilizar transformaciones distintas, pero puede que esto no sea ningún problema si ambos intervalos de confianza tienen el coeficiente de confianza requerido. Problema 5.19 Se quieren estimar las estaturas medias de dos poblaciones humanas independientes, determinando un intervalo de confianza, de coeficiente de confianza 0′ 95, para la diferencia de dichas estaturas medias. Para ello se eligieron al azar n = 4 individuos de la primera población, obteniéndose las estaturas X1 = 1′ 70, X2 = 2′ 00, X3 = 1′ 65 y X4 = 1′ 85, y m = 4 individuos de la segunda, obteniéndose las estaturas Y1 = 1′ 75, Y2 = 1′ 75, Y3 = 1′ 90 e Y4 = 1′ 80. a) Determinar dicho intervalo de confianza suponiendo que las estaturas X e Y de cada población siguen distribuciones normales de varianzas desconocidas pero iguales. D 172 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud b) Bajo las condiciones anteriores, ¿puede aceptarse la hipótesis nula de igualdad de las estaturas medias de ambas poblaciones, a nivel de significación α = 0′ 05? c) Utilizando el contraste de Wilcoxon-Mann-Whitney, contrastar a nivel α = 0′ 05 la hipótesis nula de igualdad de las estaturas medianas de ambas poblaciones. a) Se trata de determinar un intervalo de confianza para la diferencia de medias de dos poblaciones normales independientes de varianzas desconocidas pero iguales, siendo los tamaños muestrales pequeños (CB-sección 6.6) I = x − y ∓ tn+m−2;α/2 = 1′ 8 − 1′ 8 ∓ 2′ 447 s s (n − 1)Sx2 + (m − 1)Sy2 n+m−2 3 · 0′ 025 + 3 · 0′ 005 6 = [−0′ 2119 , 0′ 2119]. r r 1 1 + n m 1 1 + 4 4 al obtenerse, a partir de los datos del enunciado, que es x = y = 1′ 8, Sx2 = 0′ 025, Sy2 = 0′ 005 y, a partir de la tabla 5 de la t de Student, tn+m−2;α/2 = t4+4−2;0′ 05/2 = t6;0′ 025 = 2′ 447. b) La región de aceptación del test de hipótesis, de nivel α, para la hipótesis nula H0 : µX = µY frente a la alternativa H0 : µX 6= µY coincide (CB-sección 7.6) con el intervalo de confianza, de coeficiente de confianza 1−α, para la diferencia de medias poblacionales µX − µY . Por tanto, la región de aceptación del test considerado, para un nivel de significación 0′ 05, coincidirá con el intervalo de confianza determinado en el apartado anterior. La aceptación o rechazo de H0 dependerá de si el 0 pertenece o no a dicho intervalo. Como pertenece, se acepta la hipótesis nula de igualdad de las medias de ambas poblaciones. c) Si las poblaciones son simétricas, la media µ y la mediana M en cada una de ellas coincidirá, por lo que parece razonable utilizar un test no paramétrico como alternativa al contraste realizado en el apartado anterior. Ası́ pues, contrastaremos la hipótesis nula H0 : MX = MY frente a la alternativa H1 : MX 6= MY mediante el test de Wilcoxon-Mann-Whitney propuesto en el enunciado (CB-sección 13.4.1). El estadı́stico del test es U= 4 X 4 X Dij i=1 j=1 es decir, el número de Yj que preceden a cada Xi . Las ocho observaciones ordenadas forman la secuencia D 173 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 1′ 65 , 1′ 70 , 1′ 75 , 1′ 75 , 1′ 80 , 1′ 85 , 1′ 90 , 2′ 00 en la que aparecen subrayadas las observaciones Yj de la segunda muestra. Por tanto, el número de Yj que preceden a cada Xi será U = 0+0+3+4 = 7 ya que a 1′ 65 (primer Xi ) no le precede ningún Yj , apareciendo el primer 0 de la suma anterior, a 1′ 70 tampoco le precede ningún Yj (segundo cero de U ), a 1′ 85 le preceden tres Yj (los subrayados 1′ 75, 1′ 75 y 1′ 80) lo que suministra el 3 del tercer sumando de U , precediendo al 2′ 00 los cuatro Yj de la muestra. U puede tomar valores entre 0 y m · n = 4 · 4 = 16. Fijado el nivel de significación α = 0′ 05, para n = m = 4, la tabla 16 de Wilcoxon-Mann-Whitney proporciona el punto crı́tico u4,4;α/2 = u4,4;0′ 025 = 16 siendo, por tanto, la región crı́tica del test igual a C = {U ≤ n · m − um,n;α/2 } ∪ {U ≥ um,n;α/2 } = {U ≤ 0} ∪ {U ≥ 16} = {0} ∪ {16}. El valor de U obtenido (U = 7) no permite rechazar la hipótesis nula. El cálculo del p-valor se hará de nuevo por separado según los textos de teorı́a que utilice el lector. Como el valor central, respecto del cual la distribución de U es simétrica es m · n/2 = 4 · 4/2 = 8 y U ha tomado el valor 7, se llega antes a dicho valor subiendo el lı́mite izquierdo de la región crı́tica, 0, que bajando el lı́mite superior de la misma, 16. Ası́ pues, el p-valor será, 2 × P {U4,4 ≤ 7}. (En la probabilidad anterior se ha puesto U4,4 ≤ 7 porque si la región crı́tica quedase U4,4 ≤ 6 no se rechazarı́a, al ser U = 7 6≤ 6, y si la región crı́tica fuese U4,4 ≤ 8 no proporcionarı́a el 8 la mı́nima región crı́tica para la que se rechaza H0 . El 2 viene de que, una vez que se determina la mı́nima región crı́tica para cual se rechaza H0 , al ser el contraste de dos colas, el mı́nimo nivel para el que se rechaza es la probabilidad calculada, multiplicada por 2). Al ser la distribución de U simétrica respecto a su centro de simetrı́a U = 8, la probabilidad a calcular será 2 × P {U4,4 ≤ 7} = 2 × P {U4,4 ≥ 7}, ya que la tabla 16 sólo me da probabilidades cola de la derecha. De dicha tabla se obtiene que es 13 el mı́nimo valor de U4,4 para el que se tiene la acotación P {U4,4 ≥ 13} ≤ 0′ 1, por lo que será P {U4,4 ≥ 12} > 0′ 1. Además, por las propiedades de la probabilidad, a medida que nos desplacemos hacia la izquierda en el valor de U (lo reduzcamos), la probabilidad que deja a su D 174 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud derecha U será mayor, por lo que será P {U4,4 ≥ 7} > P {U4,4 ≥ 12}. El p-valor será, en definitiva, 2 × P {U4,4 ≤ 7} = 2 × P {U4,4 ≥ 7} > 2 × P {U4,4 ≥ 12} > 2 · 0′ 1 = 0′ 2 suficientemente grande como para confirmar la decisión tomada. Problema 5.20 Por razones aún desconocidas, el porcentaje, p, de esquizofrénicos en todos los paı́ses es, de forma invariable, del 1 %. Determinar el tamaño de muestra necesario para que el porcentaje de esa muestra difiera en términos absolutos de p en menos de 0′ 003 con probabilidad 0′ 9, suponiendo que dicho tamaño muestral va a resultar grande. Nos piden el tamaño de muestra necesario (Véase el ejemplo 5.8 de CB, pág. 105, y la pág. 115) para que se verifique la igualdad P {|p̂ − p| < 0′ 003} = 0′ 9 [5.1] suponiendo que es p̂ ≈ N p , q p(1 − p)/n ≡ N 0′ 01 , q 0′ 01 · 0′ 99/n al ser el tamaño muestral suficientemente grande. Tipificando en [5.1] se obtiene que es √ n ′ } = 0′ 9. P {|Z| < 0 003 p p(1 − p) con Z ; N (0, 1). Como por otro lado es P {|Z| < 1′ 645} = 0′ 9 será ′ 0 003 p √ n = 1′ 645 p(1 − p) obteniéndose de ahı́ el valor n = 2976′ 6; es decir, son necesarios n = 2977 individuos para alcanzar la precisión deseada. Problema 5.21 Elegidas al azar 10 personas de una determinada población se anotó, para cada una de las 10 personas, su peso en kgr. y su talla en cm. obteniéndose los siguientes resultados: D 175 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Peso 67 98 77 89 95 55 80 70 58 78 Talla 170 200 167 190 180 170 190 185 171 180 Suponiendo que ambas variables observadas siguen distribuciones normales no independientes N (µ1 , σ1 ) y N (µ2 , σ2 ) respectivamente, determinar un intervalo de confianza, de coeficiente de confianza 0′ 95, para la diferencia de medias µ2 − µ1 . Al no ser las variables X1 =Peso y X2 =Talla independientes por realizarse las observaciones sobre los mismos individuos (ya nos lo dice el enunciado del problema), debemos de considerar un esquema de datos apareados definiendo la variable diferencia D = X2 − X1 , convirtiéndose el objetivo de la determinación del intervalo de confianza para µ2 − µ1 en el de la determinación del intervalo de confianza para la media, µd , de la variable D, en la situación que nos movemos de ser D una variable normal de varianza desconocida (CB-sección 6.2), el cual es d − tn−1;α/2 S S √d , d + tn−1;α/2 √d . n n De los datos del enunciado obtenemos que es d = 103′ 6 la media de las n = 10 diferencias X2 − X1 y Sd = 10′ 178 la cuasidesviación tı́pica de tales diferencias. Como el coeficiente de confianza requerido es 1 − α = 0′ 95, a partir de la tabla 5 de la distribución t de Student obtenemos que es tn−1;α/2 = t9;0′ 025 = 2′ 262 siendo, por tanto, el intervalo de confianza buscado igual a h d − tn−1;α/2 = Sd √ n h , d + tn−1;α/2 Sd √ n ′ i ′ 178 103′ 6 − 2′ 262 10√178 , 103′ 6 + 2′ 262 10√10 10 i = [96′ 32 , 110′ 88]. Problema 5.22 Muchas teorı́as sobre la esquizofrenia sugieren alteraciones en la actividad de una sustancia del sistema nervioso central denominada dopamina. Con objeto de analizar esta hipótesis se trató a 10 pacientes esquizofrénicos hospitalizados, con una medicación antipsicótica y se les clasificó, después del tratamiento, en dos grupos: el de psicóticos (es decir, el de los que seguı́an padeciendo la enfermedad después del tratamiento) y el de no psicóticos. Se les extrajo una muestra de fluido cerebro-espinal a cada paciente y se anotó la actividad de la enzima dopamina bhidroxilasa (DBH) obteniéndose los siguientes datos en donde las unidades vienen expresadas en nmol/(ml)(h)/(mg) de proteı́na: No psicóticos Psicóticos 0′ 0105 0′ 0222 0′ 0145 0′ 0245 0′ 0160 0′ 0320 0′ 0130 0′ 0150 0′ 0156 0′ 0104 D 176 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Suponiendo que los datos anteriores proceden de dos distribuciones normales independientes, una para cada uno de los dos grupos de pacientes, ¿difiere la actividad DBH entre estos dos grupos, a nivel α = 0′ 05? Si llamamos X1 a la variable aleatoria actividad DBH de los individuos del primer grupo —no psicóticos— y X2 a la actividad DBH de los individuos del segundo grupo —psicóticos—, el enunciado del problema nos indica que podemos suponer X1 ; N (µ1 , σ1 ) y X2 ; N (µ2 , σ2 ), siendo el objetivo que se persigue el contrastar H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 . En esta situación, de contraste para la diferencia de medias de dos poblaciones normales independientes y muestras pequeñas (CB-sección 7.6), al ser las varianzas σ12 y σ22 desconocidas, es necesario primero poder concluir si éstas pueden suponerse iguales o no. Para ello contrastaremos primero, a nivel α = 0′ 05 como nos dice el enunciado, la hipótesis nula H0 : σ12 = σ22 frente a H1 : σ12 6= σ22 (CB-sección 7.5), hipótesis nula que se acepta cuando y sólo cuando sea i S12 h ∈ F , F n1 −1,n2 −1;1−α/2 n1 −1,n2 −1;α/2 . S22 A partir de nuestros datos obtenemos que es x1 = 0′ 0133 x2 = 0′ 0234 S12 = 0′ 0000061 S22 = 0′ 0000491 n1 = 6 n2 = 4 Como es Fn1 −1,n2 −1;1−α/2 = F5,3;0′ 975 = 1 F3,5;0′ 025 = 1 7′ 7636 = 0′ 1288 utilizando las propiedades de la distribución F de Snedecor, la tabla 6 de esta distribución, y además Fn1 −1,n2 −1;α/2 = F5,3;0′ 025 = 14′ 885 la región de aceptación será el intervalo [0′ 1288 , 14′ 885]. Al ser el estadı́stico de contraste igual a S12 0′ 0000061 = ′ = 0′ 1242 6∈ [0′ 1288 , 14′ 885] 2 S2 0 0000491 no aceptaremos la hipótesis nula, concluyendo con que es razonable admitir como distintas las varianzas de las poblaciones normales. Supuestas distintas las varianzas poblaciones, la hipótesis nula de igualdad de la actividad DBH en los dos grupos, H0 : µ1 = µ2 se aceptará cuando y sólo cuando sea D 177 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos |x1 − x2 | s S12 S22 + n1 n2 ≤ tf ;α/2 en donde los grados de libertad f de la t de Student se determinan mediante la aproximación de Welch, siendo éste el entero más próximo a S12 S22 + n1 n2 !2 0′ 0000061 0′ 0000491 2 + 6 4 !2 !2 − 2 = ′ 2 ′ 2 − 2 2 2 0 0000061 0 0000491 S1 S2 6 4 n1 n2 + + 7 5 n1 + 1 n2 + 1 61 491 2 + 6 4 ′ ′ = 2 − 2 = 5 83 − 2 = 3 83 61 491 2 6 4 + 7 5 con lo que tomaremos f = 4, siendo, por la tabla 5 de la t de Student, el punto crı́tico igual a tf ;α/2 = t4;0′ 025 = 2′ 776. Como el estadı́stico es igual a |x1 − x2 | s S12 S22 + n1 n2 =s |0′ 0133 − 0′ 0234| 0′ 0000061 6 + 0′ 0000491 = 2′ 770 < 2′ 776 = tf ;α/2 4 se aceptará (con muchas reservas) la hipótesis nula de igualdad (en promedio) de la actividad DBH en los dos grupos, no pudiendo confirmar, con estos datos, las teorı́as a las que se hizo referencia en el enunciado del problema. Problema 5.23 Se quiere investigar si existen o no diferencias significativas entre los consumidores habituales de carne roja y los consumidores habituales de frutas y verduras, respecto a padecer o no cáncer de estómago, contrastando la hipótesis nula de igualdad de los porcentajes de individuos que padecen o han padecido la mencionada enfermedad en ambos colectivos. Para ello se eligieron al azar 1000 consumidores habituales de carne roja y se les preguntó si padecı́an o habı́an padecido la mencionada enfermedad, obteniéndose una respuesta afirmativa de 11 de ellos. Una muestra aleatoria de 1000 consumidores habituales de frutas y verduras, obtenida independientemente de la anterior, suministró 6 personas que tenı́an o habı́an tenido la enfermedad en cuestión. D 178 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud A la vista de los resultados observados, ¿puede inferirse que existen diferencias significativas entre ambos grupos de personas? Suponiendo una variable de Bernoulli B(1, p1 ) para la primera población de consumidores habituales de carne roja, y una variable de Bernoulli B(1, p2 ) para los consumidores habituales de frutas y verduras, se trata de contrastar las hipótesis H0 : p1 = p2 frente a H1 : p1 6= p2 . (Véase CB-sección 7.7 ası́ como PREB-problema 5.10.) La hipótesis nula se rechaza cuando y sólo cuando sea s |pc1 − pc2 | p(1 − p) p(1 − p) + n1 n2 > zα/2 No obstante, en lugar de fijar un nivel de significación y luego analizar si se da o no la desigualdad anterior, es mejor determinar el p-valor del test. De los datos del enunciado obtenemos que es n1 = n2 = 1000, pc1 = 11/1000 = 0′ 011, pc2 = 6/1000 = 0′ 006 y p = (11 + 6)/2000 = 0′ 0085, con lo que será s |pc1 − pc2 | p(1 − p) p(1 − p) + n1 n2 =s 0′ 0085 |0′ 011 − 0′ 006| · 0′ 9915 1000 + 0′ 0085 · 0′ 9915 = 1′ 2177 ≈ 1′ 22 1000 con lo que el p-valor del test será (si Z es una variable con distribución normal estándar) 2 · P {Z > 1′ 22} = 2 · 0′ 1112 = 0′ 2224 a partir de la tabla 3 de la distribución normal, valor suficientemente grande como para aceptar la hipótesis nula de igualdad de los porcentajes de ambas poblaciones, pudiendo concluir, con gran seguridad, que no existen diferencias significativas entre ambos colectivos. Problema 5.24 Se quiere averiguar si el porcentaje de fallecidos entre los enfermos de una determinada enfermedad asiática es significativamente mayor del 10 %. Para ello se seleccionaron al azar 200 pacientes de dicha enfermedad, obteniéndose un porcentaje observado de fallecimiento del 11′ 5 %. ¿Qué conclusiones obtendrı́a? Calcular el p-valor. D 179 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Estamos ante un caso de contraste de hipótesis sobre el parámetro p de una binomial, siendo el tamaño muestral n = 200 suficientemente grande (CBsección 7.3). Al estar interesados en saber si puede aceptarse la hipótesis p > 0′ 1, ésta se pone como hipótesis alternativa, estableciéndose como hipótesis nula la complementaria. Por tanto, contrastaremos la hipótesis nula H0 : p ≤ 0′ 1 frente a la alternativa H1 : p > 0′ 1. En estas condiciones se rechaza la hipótesis nula cuando y sólo cuando sea s p̂ − p0 p0 (1 − p0 ) n > zα Como también nos piden el p-valor, en lugar de fijar un nivel de significación α, determinar zα y comprobar si se cumple o no la desigualdad anterior, el cálculo de aquel nos permitirá decidir sobre las dos hipótesis a contrastar. Al ser s 0′ 115 − 0′ 1 = s = 0′ 7071 ′ ′ p0 (1 − p0 ) 01·09 n 200 p̂ − p0 el p-valor será, a partir de la tabla 3 de la N (0, 1), P {Z > 0′ 7071} ≈ P {Z > 0′ 71} = 0′ 2389 valor suficientemente grande (mayor que 0′ 2) como para aceptar la hipótesis nula y concluir que el porcentaje de fallecimiento no es significativamente mayor del 10 %. Problema 5.25 Se admite que el porcentaje de diferencias genéticas entre dos personas de distintas familias es mayor del 1 %. Si dicha diferencia es menor o igual se admite que ambas personas tiene antepasados comunes. Examinadas 200 muestras elegidas al azar en dos individuos se obtuvo una diferencia genética muestral del 1′ 05 %. ¿Cabe considerar esta diferencia como significativa, o puede concluirse que ambas personas son de la misma familia? Se trata de un contraste de H0 : p ≤ p0 frente a H1 : p > p0 , en poblaciones binomiales con tamaños muestrales grandes, en donde se rechaza la hipótesis nula cuando sea (véase, por ejemplo CB-pág. 155) s p̂ − p0 p0 (1 − p0 ) n > zα D 180 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud En nuestro caso es p0 = 0′ 01, p̂ = 0′ 0105 y n = 200, con lo que será s p̂ − p0 p0 (1 − p0 ) n = 0′ 07 Como el p-valor del test es (ADD-pág. 33) P {Z > 0′ 07} = 0′ 4721 suficientemente grande, se puede aceptar la hipótesis nula de que no existen diferencias significativas entre ambos individuos, considerándose, por tanto, de la misma familia. Problema 5.26 Se quiere averiguar si puede admitirse una distribución exponencial de densidad fθ (x) = θ e−θx para el tiempo en dı́as que tardan en fallecer los individuos con una enfermedad asiática desconocida. Para ello se observaron 100 tiempos de individuos que habı́an fallecido de la enfermedad en estudio obteniéndose los siguientes valores Intervalos de tiempo Número de fallecidos (0,3) 48 [3,6) 29 [6,9) 16 [9,12) 4 ≥ 12 3 con los que se obtuvo una media muestral x = 4. ¿Qué conclusiones obtendrı́a? Estamos ante un caso de contraste de bondad del ajuste de unos datos a una distribución teórica (véase CB-sección 12.2). Como nos dicen que de la muestra se ha obtenido una media muestral igual a x = 4 y el estimador de máxima verosimilitud de θ es θb = 1/x, contrastaremos si puede aceptarse la hipótesis nula de proceder los datos de una distribución Exp(0′ 25). Para ello deberemos determinar las probabilidades que ese modelo teórico asigna a cada uno de los cinco intervalos en los que aparecen divididos los datos. La función de distribución a utilizar será, si es x > 0 y θ = 0′ 25, Fθ (x) = Z 0 x ′ θ e−θy dy = 1 − e−0 25x con lo que, prescindiendo de los lı́mites de los intervalos, al ser la distribución exponencial de tipo continuo, será ′ P {0 < X < 3} = F (3) − F (0) = 1 − e−0 25·3 − 0 = 0′ 5276 D 181 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos ′ P {3 < X < 6} = F (6)−F (3) = 1−e−0 25·6 −0′ 5276 = 0′ 7769−0′ 5276 = 0′ 2493 ′ P {6 < X < 9} = F (9)−F (6) = 1−e−0 25·9 −0′ 7769 = 0′ 8946−0′ 7769 = 0′ 1177 ′ P {9 < X < 12} = F (12)−F (9) = 1−e−0 25·12 −0′ 8946 = 0′ 9502−0′ 8946 = 0′ 0556 P {X > 12} = 1 − F (12) = 1 − 0′ 9502 = 0′ 0498 con lo que obtenemos la tabla de frecuencias observadas y esperadas Intervalos (0, 3) [3, 6) [6, 9) [9, 12) ≥ 12 ni 48 29 16 4 3 100 pi ′ 0 5276 0′ 2493 0′ 1177 0′ 0556 0′ 0498 1 npi 52′ 76 24′ 93 11′ 77 5′ 56 4′ 98 100 n2i /(npi ) 43′ 67 33′ 73 21′ 75 2′ 88 1′ 81 103′ 84 Como se obtiene una frecuencia esperada para la última clase menor que 5 se puede considerar el agrupar las dos últimas clases. No obstante, dado que está muy próximo a 5, no lo haremos ya que además las conclusiones que sacaremos están muy claras. El valor del estadı́stico de Pearson es λ= X i n2i npi ! − n = 103′ 84 − 100 = 3′ 84. Como hemos estimado el parámetro θ a partir de la muestra, reduciremos en un grado más la distribución χ2 . Como estamos considerando 5 clases, quedará como distribución para λ (antes de tomar los datos lógicamente) una χ25−1−1 = χ23 . Al estar el p-valor del test P {χ23 > 3′ 84} acotado por (ADD, pág. 34) 0′ 1 < P {χ23 > 3′ 84} < 0′ 3 y ser muy próximo a 0′ 3, se puede aceptar con gran seguridad que los datos proceden de la distribución exponencial Exp(0′ 25). D 182 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Problema 5.27 Los siguientes datos proceden de un ensayo clı́nico llevado a cabo por Ezdinli y otros (1976) para comparar dos tratamientos en el linfoma de linfocitos. Un tratamiento, denominado CP, consistı́a en cytoxan + prednisone, y otro tratamiento, denominado BP, estaba compuesto por carmustina (BCNU) + prednisone. La variable observada fue la respuesta del tumor en cada paciente, medida en una escala cualitativa desde “Respuesta Completa” (lo mejor que puede ocurrir) a “Progresa” (lo peor que puede ocurrir). Los datos obtenidos fueron los dados en la siguiente tabla: BP CP Respuesta Completa 26 31 Respuesta Parcial 51 59 Sin Cambios 21 11 Progresa 40 34 ¿Difieren los tratamientos en su eficacia? Como los datos aportados son recuentos de observaciones clasificados por clases, comparar ambas poblaciones debe hacerse mediante un test de la χ2 de homogeneidad de varias muestras (CB-sección 12.3), en donde la hipótesis nula que se establece es que ambos tratamientos pueden considerase homogéneos. Esta hipótesis nula se rechazará cuando y sólo cuando sea λ ≥ χ2(r−1)(s−1);α siendo λ= r X s X (nij − ni mj /n)2 i=1 j=1 ni mj /n el estadı́stico de Pearson. En nuestro caso, toma el valor λ = 4′ 5995. De la Tabla 4 de la χ2 de Pearson vemos que el p-valor es P {χ2(r−1)(s−1) > 3′ 9978} = P {χ23 > 4′ 5995} > 0′ 1 suficientemente grande como para aceptar la hipótesis nula de homogeneidad con bastante seguridad. Si queremos resolverlo con R (EAR-sección 7.3), ejecutarı́amos la siguiente secuencia de instrucciones. Con (1) incluimos los datos, que tienen que venir en forma de matriz. Recordemos que, por defecto, los incorpora por columnas. Las sentencias (2) y (3) son opcionales y sirven para poner nombre a las filas y a las columnas de la tabla. Con (4) comprobamos que hemos incorporado bien los datos a R. Ejecutando (5) es como le pedimos que haga el test χ2 . > linfoma<-matrix(c(26,31,51,59,21,11,40,34),ncol=4) > colnames(linfoma)<-c("R. Completa","R. Parcial","Sin Cambios","Progresa") (1) (2) D 183 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos > rownames(linfoma)<-c("BP","CP") > linfoma R. Completa R. Parcial Sin Cambios Progresa BP 26 51 21 40 CP 31 59 11 34 (3) (4) > chisq.test(linfoma) (5) Pearson’s Chi-squared test data: linfoma X-squared = 4.5995, df = 3, p-value = 0.2036 (6) En (6) vemos el valor del estadı́stico de Pearson, λ = 4′ 5995 y el pvalor del test, 0′ 2036, suficientemente grande como para concluir que puede aceptarse la hipótesis nula de homogeneidad de ambas poblaciones. Es decir, puede concluirse que no existen diferencias entre ambos tratamientos. Problema 5.28 Los datos de la siguiente tabla son niveles de colesterol (en mg/100ml) de hombres de más de 90 kilos de peso, elegidos al azar y clasificados en dos grupos: Grupo I, formado por personas muy pendientes del reloj, que pasan muchas horas conduciendo vehı́culos, y Grupo II, compuesto por individuos más relajados y menos competitivos. Grupo I Grupo II 233 344 295 186 310 260 249 245 245 222 199 210 270 188 220 240 240 145 240 165 Comparar ambas poblaciones mediante, a) El test de la t de Student. b) El test de Wilcoxon-Mann-Whitney. c) Analizar las suposiciones necesarias para poder aplicar uno u otro test. Se trata de realizar dos tests de comparación de dos poblaciones, el primero paramétrico y el segundo no paramétrico. En el tercer apartado analizaremos las condiciones en las que se realiza uno y otro y, en consecuencia, su validez. a) A partir del enunciado se obtiene que es x1 = 250′ 1 , S12 = 1115′ 656 , x2 = 220′ 5 , S22 = 3214′ 722 . Estamos ante una situación del contraste de la media de dos poblaciones normales independientes, muestras pequeñas, con varianzas desconocidas, (CB-sección 7.6), por lo que debemos valorar primero si las varianzas, aunque desconocidas, pueden considerarse iguales o no. Para ello contrastaremos la hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo cuando sea, D 184 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud S12 ∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ]. S22 Como es S12 /S22 = 0′ 347, si consideramos un nivel de significación α = 0′ 1, será, a partir de la Tabla 6 de la F de Snedecor, F9,9;1−0′ 05 = 1/F9,9;0′ 05 = 1/3′ 1789 = 0′ 3146 , con lo que la región de aceptación, a nivel α = 0′ 1, es [0′ 3136 , 3′ 1789] , contendrá al valor del estadı́stico y se aceptará la hipótesis nula de ser iguales ambas varianzas poblacionales, a ese nivel suficientemente alto. Si queremos resolver este apartado con R, con las siguientes sentencias obtenemos las medias y cuasivarianzas muestrales, ası́ como el valor del estadı́stico del contraste S12 /S22 , > x1<-c(233,295,310,249,245,199,270,220,240,240) > x2<-c(344,186,260,245,222,210,188,240,145,165) > mean(x1) [1] 250.1 > mean(x2) [1] 220.5 > var(x1) [1] 1115.656 > var(x2) [1] 3214.722 > var(x1)/var(x2) [1] 0.3470457 De hecho, con R podemos obtener el p-valor ejecutando (1) > 2*pf(0.347,9,9) [1] 0.1307151 (1) Este p-valor 0′ 1307 es lo suficientemente alto como para confirmar la aceptación de la igualdad de las varianzas poblacionales. Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar (2), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de aceptación, " S12 /S22 Fn1 −1,n2 −1; α2 , S12 /S22 Fn1 −1,n2 −1;1− α2 # 0′ 347 0′ 347 = ′ , ′ = [0′ 109 , 1′ 103] 3 1789 0 3146 cociente contiene o no al 1. La región de aceptación se observa en (3) y el p-valor de este test, igual lógicamente al anterior, aparece en (4). > var.test(x1,x2,conf.level=0.9) F test to compare two variances (2) D 185 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos data: x1 and x2 F = 0.347, num df = 9, denom df = 9, p-value = 0.1308 alternative hypothesis: true ratio of variances is not equal to 1 90 percent confidence interval: 0.1091719 1.1032212 sample estimates: ratio of variances 0.3470457 (4) (3) Apuntamos que, intercambiando los papeles de ambas poblaciones (que es lo que nos dice la ortodoxia, CB-sección 7.5), hubiéramos obtenido las mismas conclusiones. Por tanto, el test para contrastar la igualdad de las medias poblacionales; es decir, para contrastar la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 será el que acepte H0 cuando y sólo cuando sea s (n1 − Como es r |x1 − x2 | |x1 − x2 | 1)S12 + (n2 − 1)S22 n1 + n2 − 2 (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 r 1 1 + n1 n2 = r s 1 1 + n1 n2 ≤ tn1 +n2 −2;α/2 |250′ 1 − 220′ 5| 9 · 1115′ 656 + 9 · 3214′ 722 18 r = 1′ 4224 1 1 + 10 10 y, a partir de la Tabla 5 de la t de Student, vemos que es 0′ 05 < P {t18 > 1′ 4224} < 0′ 1, podemos aceptar la hipótesis nula de igualdad en los niveles de colesterol de ambas poblaciones, con un p-valor entre 0′ 1 y 0′ 2, es decir, con suficiente confianza. Este test de igualdad de medias se puede resolver con R ejecutando (5) (véase EAR-sección 4.2.4), en donde indicamos que consideramos las varianzas poblacionales como iguales. Como el 0 está incluido en la región de aceptación dada en (6), aceptamos la hipótesis nula de igualdad de los niveles medios de ambas poblaciones. El p-valor 0′ 172 aparece en (7) (está entre 0′ 1 y 0′ 2 como habı́amos dicho) e indica la aceptación de H0 . > t.test(x1,x2,var.equal=T) (5) Two Sample t-test data: x1 and x2 t = 1.4224, df = 18, p-value = 0.172 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -14.11926 73.31926 (7) (6) D 186 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud sample estimates: mean of x mean of y 250.1 220.5 b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2 y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0 cuando y sólo cuando sea m · n − um,n;α/2 < U < um,n;α/2 siendo U el número de valores de la segunda muestra que preceden estrictamente a cada valor fijo de la primera muestra. Si subrayamos los valores de la segunda muestra en la siguiente unión de ambas muestras ordenadas, en donde los de la segunda muestra que son iguales a los de la primera los hemos situado detrás para hacer más simple el recuento, 145, 165, 186, 188, 199, 210, 220, 222, 233, 240 240, 240, 245, 245, 249, 260, 270, 295, 310, 344. Ahora, para calcular el valor de U nos fijamos en cada valor de la primera muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la segunda muestra (es decir, cuántos valores subrayados) le preceden. Es decir, miramos el 199 (primer valor no subrayado) y vemos que hay 4 valores subrayados que lo preceden, por lo que el primer sumando de U es 4. El segundo valor no subrayado es 220, al que le preceden 5 valores subrayados, lo que hace que el segundo valor de U sea 5, y ası́ sucesivamente; vemos que U toma el valor, U = 4 + 5 + 6 + 6 + 6 + 7 + 8 + 9 + 9 + 9 = 69. En la determinación del punto crı́tico y el p-valor utilizaremos la aproximación normal ya que los tamaños muestrales son mayores que 5. En concreto, si el nivel de significación es α = 0′ 1, será um,n;α/2 = u10,10;0′ 05 10 · 10 = + 1′ 645 2 s 10 · 10 · (10 + 10 + 1) = 71′ 76 12 y la región de aceptación, (m · n − um,n;α/2 , um,n;α/2 ) = (10 · 10 − 71′ 76 , 71′ 76) = (28′ 24 , 71′ 76). D 187 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Como U = 69 pertenece a ella, deberemos aceptar la hipótesis nula de igualdad de ambas poblaciones, con un p-valor mayor que el nivel de significación 0′ 1. En concreto, el p-valor (aproximado por utilizar la aproximación normal) será, utilizando la cola superior, al ser el p-valor el menor nivel de significación para el que se rechaza la hipótesis nula, 2 × P {U > 69} ≈ 2 × P ( 69 − 10 · 10/2 Z> p 10 · 10(10 + 10 + 1)/12 ) = 2 × P {Z > 1′ 47} = 0′ 1416 que indica aceptar con confianza la hipótesis nula de igualdad. Para resolver este ejercicio con R, deberı́amos ejecutar (8) (EAR-sección 8.4.1) si queremos utilizar las mismas opciones que las que acabamos de emplear. Los resultados son un poco distintos porque R promedia entre los valores iguales en el cálculo de U . No obstante, el p-valor también es indicativo de la aceptación de la hipótesis nula de igualdad de ambas poblaciones. > wilcox.test(x1,x2,exact=F,correct=F) (8) Wilcoxon rank sum test data: x1 and x2 W = 70.5, p-value = 0.1205 alternative hypothesis: true location shift is not equal to 0 c) Para utilizar tanto el test de t de Student como el de Wilcoxon-MannWhitney hay que admitir que ambas muestras son aleatorias simples y que son independientes la una de la otra. Eso es razonable y lo admitiremos. La segunda condición es que los datos procedan de distribuciones de tipo continuo. También esto es admisible puesto que los niveles de colesterol pueden ser cualesquiera en un intervalo. La última condición, habitualmente la más restrictiva para el test de la t de Student es que los datos deben proceder de poblaciones normales. Como son pocos datos no parece razonable utilizar un test de Kolmogorov-Smirnov para analizarlo, sino métodos gráficos. Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase EAR-sección 5.2.1) > par(mfrow=c(1,2)) > qqnorm(x1) > qqnorm(x2) obtenemos la Figura 5.1. Si queremos obtener dos diagramas de hojas y ramas ejecutarı́amos los siguientes comandos > stem(x1) D 188 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Normal Q−Q Plot 300 250 200 150 Sample Quantiles 260 240 200 220 Sample Quantiles 280 300 350 Normal Q−Q Plot −1.5 −0.5 0.5 1.0 1.5 Theoretical Quantiles −1.5 −0.5 0.5 1.0 1.5 Theoretical Quantiles Figura 5.1 Gráficos de normalidad de ambas muestras The decimal point is 2 digit(s) to the right of the | 1 2 2 3 | | 02344 | 557 | 01 > stem(x2) The decimal point is 2 digit(s) to the right of the | 1 1 2 2 3 | | | | | 5799 124 56 4 Ambos tipos de gráficos sugieren asimetrı́a y, por tanto, no normalidad de los datos. Lo razonable serı́a utilizar el segundo test no paramétrico puesto que no requiere su normalidad. Pero observemos que si queremos que nos haga un diagrama de cajas de ambos conjuntos de datos para detectar datos anómalos, la homocedasticidad contrastada al comienzo del ejercicio y la asimetrı́a, ejecutarı́amos la siguiente D 189 Al f on so Ga rcı́ aP ére z. UN E 150 200 250 300 350 Capı́tulo 5. Problemas Básicos Resueltos 1 2 Figura 5.2 Gráficos de cajas de ambas muestras secuencia, en donde primero juntamos ambos conjuntos de datos y luego creamos unos ı́ndices para hacer la representación por grupos. Obsérvese como no replicamos el 1 diez veces sino que ejecutamos rep(1,10). > muestra<-c(x1,x2) > poblaciones<-c(rep(1,10),rep(2,10)) > boxplot(muestra~poblaciones) La Figura 5.2 ası́ obtenida, confirma la homocedasticidad ya que ambas cajas son semejantes y la simetrı́a, pero vemos como en el segundo conjunto de datos aparece un dato anómalo que puede distorsionar el resultado lo que sugiere utilizar tests robustos de comparación de poblaciones puesto que los Métodos no paramétricos pueden verse muy afectados al no detectar esas anomalı́as. Problema 5.29 La warfarina es un medicamento anticoagulante oral que alarga el tiempo que la sangre tarda en coagular evitando, de forma preventiva, que se produzcan trombosis y embolias. No obstante, demasiada warfarina puede causar hemorragias graves, por lo que esta sustancia tiene un estrecho margen terapéutico y la calibración de la dosis a administrar es un problema importante. D 190 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Además, se piensa que la pertenencia a uno u otro grupo étnico influye en el tiempo de coagulación de este medicamento. Para analizar esta hipótesis se eligieron al azar 18 individuos Caucásicos y 18 Asio-Americanos en los que se obtuvieron los siguientes tiempos (en horas) de calibración de la dosis de warfarina: Caucásicos: 2 , 4 , 6 , 7 , 8 , 9 , 10 , 10 , 12 , 14 , 16 , 19 , 21 , 24 , 26 , 30 , 35 , 44 Asio-Americanos: 2 , 2 , 3 , 3 , 4 , 5 , 5 , 6 , 6 , 6 , 7 , 7 , 8 , 9 , 10 , 12 , 19 , 32 Analizar si hay diferencias significativas entre los dos grupos étnicos en cuanto al tiempo de calibración, mediante a) El test de la t de Student analizando la suposición de normalidad y de homocedasticidad. b) El test de Wilcoxon-Mann-Whitney. a) Para ejecutar el test de la t de Student de comparación de dos poblaciones necesitamos que ambas sean de tipo normal y luego comprobar si puede aceptarse o no que las varianzas de ambas poblaciones puedan considerarse iguales (CB-sección 7.6). No obstante, al ser n1 ≃ n2 y n1 + n2 = 36 > 30, no necesitamos estos requisitos para comparar las poblaciones (CB-sección 7.7) aunque los analizaremos porque lo solicita el enunciado. 30 Normal Q−Q Plot 20 15 5 10 10 Sample Quantiles 30 20 Sample Quantiles 25 40 Normal Q−Q Plot −2 −1 0 1 Theoretical Quantiles 2 −2 −1 0 1 2 Theoretical Quantiles Figura 5.3 Gráficos de normalidad de ambas muestras Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase D 191 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos EAR-sección 5.2.1) > > > > > Cauca<-c(2,4,6,7,8,9,10,10,12,14,16,19,21,24,26,30,35,44) Asiame<-c(2,2,3,3,4,5,5,6,6,6,7,7,8,9,10,12,19,32) par(mfrow=c(1,2)) qqnorm(Cauca) qqnorm(Asiame) obtenemos la Figura 5.3. Ambos gráficos sugieren simetrı́a y normalidad de los datos. De hecho, podemos ejecutar un test de Kolmogorov-Smirnov para contrastar la hipótesis nula de que los datos de ambas poblaciones siguen distribuciones normales. Como las medias y desviaciones tı́picas suministradas por los datos son, ejecutando las siguientes instrucciones, > mean(Cauca) [1] 16.5 > sd(Cauca) [1] 11.53129 > mean(Asiame) [1] 8.111111 > sd(Asiame) [1] 7.226494 es razonable contrastar si los datos de los Caucásicos se ajusta a una normal N (16′ 5, 11′ 53) y los de los individuos Asio-Americanos a una N (8′ 11, 7′ 23). Para ello (EAR-sección 8.3) ejecutamos las siguientes sentencias, > ks.test(Cauca,"pnorm",16.5,11.53) One-sample Kolmogorov-Smirnov test data: Cauca D = 0.158, p-value = 0.76 alternative hypothesis: two-sided (1) Warning message: In ks.test(Cauca, "pnorm", 16.5, 11.53) : cannot compute correct p-values with ties > ks.test(Asiame,"pnorm",8.11,7.23) One-sample Kolmogorov-Smirnov test data: Asiame D = 0.2302, p-value = 0.2958 alternative hypothesis: two-sided Warning message: In ks.test(Asiame, "pnorm", 8.11, 7.23) : cannot compute correct p-values with ties (2) D 192 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud obteniéndose unos p-valores en (1) y (2) que conducen a aceptar la normalidad de ambas muestras. Sobre la homocedasticidad, contrastaremos la hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo cuando sea, S12 ∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ]. S22 Habı́amos obtenido más arriba que es x1 = 16′ 5 , S12 = (11′ 53)2 , x2 = 8′ 11 , S22 = (7′ 23)2 , por lo que es S12 /S22 = 132′ 94/52′ 27 = 2′ 54. Si consideramos un nivel de significación α = 0′ 02, será, a partir de la Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3), qf(0.01,17,17) = 0′ 3084582 y qf(0.99,17,17) = 3′ 24193 , con lo que la región de aceptación, a nivel α = 0′ 02, es [0′ 31 , 3′ 24] , que contendrá al valor del estadı́stico por lo que se aceptará la hipótesis nula de ser iguales ambas varianzas poblacionales, a ese nivel de significación. De hecho, con R podemos obtener el p-valor ejecutando > 2*(1-pf(2.54,17,17)) [1] 0.06267927 valor, aunque no contundente, lo suficientemente grande como para confirmar la igualdad de las varianzas poblacionales. Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar (3), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de aceptación " S12 /S22 Fn1 −1,n2 −1; α2 , S12 /S22 Fn1 −1,n2 −1;1− α2 # 2′ 54 2′ 54 = ′ , ′ = [0′ 78 , 8′ 19] 3 24 0 31 cociente, contiene o no al 1. La región de aceptación se observa en (4) y el p-valor de este test, igual lógicamente al anterior, aparece en (5). > var.test(Cauca,Asiame,conf.level=0.98) (3) F test to compare two variances data: Cauca and Asiame F = 2.5462, num df = 17, denom df = 17, p-value = 0.06201 alternative hypothesis: true ratio of variances is not equal to 1 98 percent confidence interval: 0.7854103 8.2547491 (5) (4) D 193 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos sample estimates: ratio of variances 2.546245 Como dijimos al comienzo, dado que los tamaños muestrales son grandes, el test para contrastar la igualdad de las medias poblacionales; es decir, para contrastar la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 será el que acepte H0 cuando y sólo cuando sea |x1 − x2 | s S12 S22 + n1 n2 ≤ zα/2 . Como es |x1 − x2 | s S12 S22 + n1 n2 =s |16′ 5 − 8′ 11| 132′ 94 52′ 27 + 18 18 = 2′ 6153 y, a partir de la Tabla 3 de la Normal, vemos que es P {Z > 2′ 6153} < 0′ 0045, con lo que podemos rechazar la hipótesis nula de igualdad de las medias, con un p-valor menor que 0′ 009, es decir, con suficiente confianza. Este test de igualdad de medias se puede resolver con R ejecutando (6) (véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales como iguales. Como el 0 no está incluido en la región de aceptación dada en (7), rechazaremos la hipótesis nula de igualdad de los tiempos de calibración en ambas razas. El p-valor 0′ 0132 aparece en (8) (aunque está calculado con una t de Student; de ahı́ la pequeña diferencia con el calculado más arriba utilizando la normal) y sugiere el rechazo de H0 . > t.test(Cauca,Asiame,var.equal=T) (6) Two Sample t-test data: Cauca and Asiame t = 2.6153, df = 34, p-value = 0.01320 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.870327 14.907450 sample estimates: mean of x mean of y 16.500000 8.111111 (8) (7) b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2 y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0 cuando y sólo cuando sea D 194 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud m · n − um,n;α/2 < U < um,n;α/2 siendo U el número de valores de la segunda muestra que preceden estrictamente a cada valor fijo de la primera muestra. Si subrayamos los valores de la segunda muestra en la siguiente unión de ambas muestras ordenadas, en donde los de la segunda muestra que son iguales a los de la primera los hemos situado detrás para hacer más simple el recuento, 2, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8, 8, 9, 9, 10, 10, 10 12, 12, 14, 16, 19, 19, 21, 24, 26, 30, 32, 35, 44. Ahora, para calcular el valor de U nos fijamos en cada valor de la primera muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la segunda muestra (es decir, cuántos valores subrayados) le preceden. Es decir, miramos el 2 (primer valor no subrayado) vemos que no hay ningún valor subrayado que lo preceda, por lo que el primer sumando de U es 0. El segundo valor no subrayado es 4, al que le preceden 4 valores subrayados, lo que hace que el segundo valor de U sea 4, y ası́ sucesivamente; vemos que U toma el valor, U = 0+4+7+10+12+13+14+14+15+16+16+16+17+17+17+17+18+18 = 241. En la determinación del punto crı́tico y el p-valor utilizaremos la aproximación normal ya que los tamaños muestrales son mayores que 5. En concreto, si el nivel de significación es α = 0′ 02, será um,n;α/2 = u18,18;0′ 01 18 · 18 = + 2′ 325 2 s 18 · 18 · (18 + 18 + 1) = 235′ 49 12 y la región de aceptación, (m · n − um,n;α/2 , um,n;α/2 ) = (18 · 18 − 235′ 49 , 235′ 49) = (88′ 51 , 235′ 49). Como U = 241 no pertenece a ella, deberemos rechazar la hipótesis nula de igualdad de ambas poblaciones, con un p-valor menor que el nivel de significación 0′ 02. En concreto, el p-valor (aproximado por utilizar la aproximación normal) será, utilizando la cola superior, al ser el p-valor el menor nivel de significación para el que se rechaza la hipótesis nula, D 195 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 2 × P {U > 241} ≈ 2 × P ( 241 − 18 · 18/2 Z> p 18 · 18(18 + 18 + 1)/12 ) = 2 × P {Z > 2′ 5} = 0′ 0124 que indica rechazar con confianza la hipótesis nula de igualdad. Para resolver este ejercicio con R, deberı́amos ejecutar (9) (EAR-sección 8.4.1) si queremos utilizar las mismas opciones que las que acabamos de emplear. Los resultados son un poco distintos porque R promedia entre los valores iguales en el cálculo de U . No obstante, el p-valor, dado en (10), también es indicativo del rechazo de la hipótesis nula de igualdad de ambas poblaciones. > wilcox.test(Cauca,Asiame,exac=F,correct=F) (9) Wilcoxon rank sum test data: Cauca and Asiame W = 248, p-value = 0.00641 alternative hypothesis: true location shift is not equal to 0 (10) Problema 5.30 El Western Collaborative Group Study fue un estudio epidemiológico de gran tamaño (véase Rosenman et al., 1964) diseñado para investigar la asociación del denominado en el estudio “tipo A” de comportamiento y las enfermedades coronarias. Una parte de ese estudio aparece en el fichero WCGS2.txt en el que se recogen los valores observados en 3154 personas de las variables Peso Corporal en libras (Peso) y Presión Sanguı́nea Sistólica en mmHg (PSS). Se pide, a) Determinar la recta de mı́nimos cuadrados en donde figure como variable dependiente PSS. ¿Qué presión sistólica cabrı́a esperar en una persona de 73 kilos? b) Contrastar si la recta determinada en el apartado anterior es significativa para explicar la regresión lineal entre ambas variables y analizar la normalidad de los residuos. Resolveremos el problema con R. Para ello, primero deberemos incorporar los datos ejecutando (1). > WCGS2<-read.table("a:\\WCGS2.txt",header=T) (1) a) La recta de mı́nimos cuadrados la obtenemos ejecutado (4). Antes hemos extraı́do de los datos las dos variables de la regresión ejecutando (2) y (3) de una manera equivalente a utilizar el número de la columna. > > > > x<-WCGS2[,c("Peso")] y<-WCGS2[,c("PSS")] resultado<-lm(y~x) resultado (2) (3) (4) D 196 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Call: lm(formula = y ~ x) Coefficients: (Intercept) 97.7888 x 0.1815 La recta buscada será, por tanto, y 100 120 140 160 180 200 220 PSS = 97′ 789 + 0′ 1815 Peso 100 150 200 250 300 x Figura 5.4 Nube de puntos y recta ajustada Como 73 kilos son 160′ 937 libras, la presión sistólica esperada en una persona de 73 kilos serı́a PSS—73 = 97′ 789 + 0′ 1815 · 160′ 937 = 127 es decir, la que solemos medir como 12′ 7. b) Para contrastar si la recta de regresión obtenida es significativa para explicar y predecir la variable dependiente en función de la independiente, es decir, si por ejemplo la predicción 11′ 1 es fiable, contrastaremos la hipótesis nula H0 :las variables Peso y PSS no están relacionadas linealmente, frente D 197 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos a la alternativa H1 de que sı́ lo están, deberemos formar la tabla de Análisis de la Varianza para la Regresión, CB-sección 9.3.1. Con R la obtenemos inmediatamente ejecutando (5), o ejecutando >anova(resultado). 1000 Histogram of resid(resultado) 600 400 0 200 Frequency 40 20 −20 0 Sample Quantiles 60 800 80 100 Normal Q−Q Plot −2 0 2 −20 Theoretical Quantiles 0 20 40 60 80 100 resid(resultado) Figura 5.5 Gráfico de normalidad e Histograma de los residuos > summary(resultado) (5) Call: lm(formula = y ~ x) Residuals: Min 1Q -29.549 -10.097 Median -2.456 3Q 7.724 Max 99.544 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 97.78884 2.11473 46.24 <2e-16 *** x 0.18148 0.01235 14.70 <2e-16 *** --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 14.63 on 3152 degrees of freedom (6) D 198 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Multiple R-squared: 0.06414, Adjusted R-squared: 0.06384 F-statistic: 216 on 1 and 3152 DF, p-value: < 2.2e-16 0.000 0.005 0.010 0.015 Histogram of x Density 0.015 0.000 0.005 0.010 Density 0.020 0.025 Histogram of y 100 140 180 y 220 50 100 150 200 250 300 x Figura 5.6 Histogramas de PSS y Peso El p-valor observado en (6) indica que se rechace la hipótesis nula planteada y que se concluya con que la recta de regresión determinada es válida para explicar la regresión lineal. No obstante, el gráfico de la nube de puntos y la recta ajustada, dados por la Figura 5.4 y obtenidos ejecutando los comandos > plot(x,y,pch=16,col=2) > abline(resultado,col=4) parece indicarnos que hay demasiados puntos como para que la regresión sea válida. Hay que tomarla con mucho cuidado. De hecho, el coeficiente de correlación lineal de Pearson es bajı́simo, r = 0′ 253, lo que de nuevo manifiesta precauciones en las conclusiones. > cor(x,y) [1] 0.2532496 Por último, la normalidad de los residuos la podemos analizar ejecutando los siguientes comandos que proporcionan la Figura 5.5 D 199 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos > par(mfrow=c(1,2)) > qqnorm(resid(resultado)) > hist(resid(resultado)) los cuales indican una asimetrı́a a la derecha y, en consecuencia, una no normalidad de los datos. De hecho, si representamos los histogramas de ambas variables, vemos en la Figura 5.6 que la variable PSS es muy asimétrica a la derecha. El Peso sı́ parece de tipo normal. Problema 5.31 Los datos del fichero pesos.txt son parte de un estudio realizado en el Baystate Medical Center, Springfield, Mass (Estados Unidos) durante 1986, sobre el peso y raza de 189 recién nacidos, (Hosmer y Lemeshow, 1989). Las dos variables consideradas en la matriz de datos son Raza y Peso en gramos del recién nacido. La Raza toma los valores 1 en el caso de raza blanca, 2 en el caso de raza negra y 3 en el caso de otra raza. Analizar si hay diferencias significativas en el peso de los recién nacidos de raza blanca y de raza negra, mediante a) El test de la t de Student, analizando la suposición de normalidad y de homocedasticidad. b) El test de Wilcoxon-Mann-Whitney. c) Contrastar si hay diferencias significativas entre las tres razas con respecto al peso de los recién nacidos, analizando las suposiciones requeridas por el test utilizado. Si las hubiera, considerar la posibilidad de no existencia de diferencias significativas entre pares de grupos de razas. Resolveremos el problema con R. Para ello, primero deberemos incorporar los datos ejecutando (1), > Pesos<-read.table("a:\\pesos.txt",header=T) (1) Ahora extraemos los datos de las tres variables en consideración mediante (2) > > > > attach(Pesos) Negros<- Pesos[raza >= 2 & raza <3,] Blancos<- Pesos[raza <= 1,] Otros<- Pesos[raza >= 3,] (2) (2) (2) y luego los convertimos en vectores mediante (3) > Negros<- Negros[,2] > Blancos<- Blancos[,2] > Otros<- Otros[,2] (3) (3) (3) a) Para ejecutar el test de la t de Student de comparación de dos poblaciones necesitamos que ambas sean de tipo normal y luego comprobar si puede D 200 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud aceptarse o no que las varianzas de ambas poblaciones puedan considerarse iguales (CB-sección 7.6) ya que, aunque n1 + n2 = 96 + 26 = 122 > 30, no es n1 ≃ n2 y no se pueden utilizar las fórmulas para muestras grandes de CB-sección 7.7. Normal Q−Q Plot 1000 3000 2500 2000 1500 Sample Quantiles 3000 2000 Sample Quantiles 4000 3500 5000 Normal Q−Q Plot −2 −1 0 1 Theoretical Quantiles 2 −2 −1 0 1 2 Theoretical Quantiles Figura 5.7 Gráficos de normalidad de ambas muestras Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase EAR-sección 5.2.1) > par(mfrow=c(1,2)) > qqnorm(Blancos) > qqnorm(Negros) obtenemos la Figura 5.7. Ambos gráficos sugieren simetrı́a y normalidad de los datos. De hecho, podemos ejecutar un test de Kolmogorov-Smirnov para contrastar la hipótesis nula de que los datos de ambas poblaciones siguen distribuciones normales. Como las medias y desviaciones tı́picas suministradas por los datos son, ejecutando las siguientes instrucciones, > mean(Blancos) [1] 3102.719 > sd(Blancos) [1] 727.8861 D 201 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos > mean(Negros) [1] 2719.692 > sd(Negros) [1] 638.6839 es razonable contrastar si los datos de los Blancos se ajusta a una normal N (3102′ 72, 727′ 89) y los Negros a una N (2719′ 69, 638′ 68). Para ello (EARsección 8.3) ejecutamos las siguientes sentencias, > ks.test(Blancos,"pnorm",3102.72,727.89) One-sample Kolmogorov-Smirnov test data: Blancos D = 0.0904, p-value = 0.4129 (4) alternative hypothesis: two-sided Warning message: In ks.test(Blancos, "pnorm", 3102.72, 727.89) : cannot compute correct p-values with ties > ks.test(Negros,"pnorm",2719.69,638.68) One-sample Kolmogorov-Smirnov test data: Negros D = 0.1231, p-value = 0.8256 (4) alternative hypothesis: two-sided Warning message: In ks.test(Negros, "pnorm", 2719.69, 638.68) : cannot compute correct p-values with ties obteniéndose dos p-valores en (4) que conducen a aceptar la normalidad de ambas muestras. Sobre la homocedasticidad, contrastaremos la hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo cuando sea, S12 ∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ]. S22 Habı́amos obtenido más arriba que es S12 = (727′ 89)2 y S22 = (638′ 68)2 , por lo que es S12 /S22 = 1′ 29887. D 202 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Si consideramos un nivel de significación α = 0′ 2, será, a partir de la Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3), qf(0.1,96,26) = 0′ 69 y qf(0.9,96,26) = 1′ 553 , con lo que la región de aceptación, a nivel α = 0′ 2, es [0′ 69 , 1′ 553] , que contendrá al valor del estadı́stico por lo que se aceptará la hipótesis nula de ser iguales ambas varianzas poblacionales, a ese nivel de significación, por lo que el p-valor es mayor que él, es decir, mayor que 0′ 2, suficientemente grande como para confirmar la homocedasticidad. De hecho, con R podemos obtener el p-valor ejecutando > 2*(1-pf(1.29887,96,26)) [1] 0.452511 Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar (5), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de aceptación " S12 /S22 Fn1 −1,n2 −1; α2 , S12 /S22 Fn1 −1,n2 −1;1− α2 # 2′ 54 2′ 54 = ′ , ′ = [0′ 78 , 8′ 19] 3 24 0 31 contiene o no al 1. La región de aceptación se observa en (7) y el p-valor de este test, igual lógicamente al anterior, aparece en (6). > var.test(Blancos,Negros,conf.level=0.8) (5) F test to compare two variances data: Blancos and Negros F = 1.2988, num df = 95, denom df = 25, p-value = 0.4621 alternative hypothesis: true ratio of variances is not equal to 1 80 percent confidence interval: 0.8289426 1.8921445 sample estimates: ratio of variances 1.298838 (6) (7) Una vez verificadas las suposiciones necesarias para poder ejecutar el test de la t de Student en el caso que nos ocupa de muestras pequeñas, (CB-sección 7.6), al poder considerar las varianzas poblacionales como iguales, se acepta la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 cuando y sólo cuando sea D 203 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos • Se acepta H0 si s • Se rechaza H0 si s (n1 − 1)S12 (n1 − 1)S12 |x1 − x2 | + (n2 − 1)S22 n1 + n2 − 2 |x1 − x2 | + (n2 − 1)S22 n1 + n2 − 2 s 1 1 + n1 n2 s 1 1 + n1 n2 ≤ tn1 +n2 −2;α/2 > tn1 +n2 −2;α/2 Como es s |x1 − x2 | (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 s 1 1 + n1 n2 =s |3102′ 72 − 2719′ 69| 95 · 727′ 892 + 25 · 120 638′ 682 r 1 1 + 96 26 el p-valor será p-valor = 2 · P {t120 > 2′ 439364} y, a partir de la Tabla 5 de la t de Student, es P {t120 > 2′ 617} < P {t120 > 2′ 439364} < P {t120 > 2′ 358} es decir, 0′ 005 < P {t120 > 2′ 439364} < 0′ 01. Con lo que el p-valor será 0′ 01 < p-valor < 0′ 02 suficientemente pequeño como para concluir que existen diferencias significativas entre el peso de los bebés blancos y el de los bebés negros. Este test de igualdad de medias se puede resolver con R ejecutando (8) (véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales como iguales. Como el 0 no está incluido en la región de aceptación dada en (9), rechazaremos la hipótesis nula de igualdad de los pesos medios de los recién nacidos de ambas razas. El p-valor 0′ 01618 aparece en (10) y sugiere el rechazo de H0 . = 2′ 439364 D 204 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud > t.test(Blancos,Negros,var.equal=T) (8) Two Sample t-test data: Blancos and Negros t = 2.4393, df = 120, p-value = 0.01618 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 72.13796 693.91493 sample estimates: mean of x mean of y 3102.719 2719.692 (10) (9) b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2 y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0 cuando y sólo cuando sea m · n − um,n;α/2 < U < um,n;α/2 siendo U el número de valores de la segunda muestra que preceden estrictamente a cada valor fijo de la primera muestra. Dado que los tamaños muestrales son muy grandes, el subrayar los valores de la segunda muestra que preceden a los de la primera para determinar manualmente el valor de U resulta muy complejo. Por ello utilizaremos R en la resolución. Para ello ejecutamos (11) (EAR-sección 8.4.1). El p-valor, dado en (12), es muy parecido al obtenido en el caso paramétrico, sugiriendo también el rechazo de la hipótesis nula de igualdad de ambas poblaciones. > wilcox.test(Blancos,Negros,exac=F,correct=F) Wilcoxon rank sum test data: Blancos and Negros W = 1632, p-value = 0.01635 alternative hypothesis: true location shift is not equal to 0 (11) (12) c) Para analizar si hay o no diferencias significativas en los pesos de las tres razas, contrastaremos la hipótesis nula H0 : µBlancos = µN egros = µOtros frente a la alternativa de no ser todas iguales mediante un Análisis de la Varianza para un factor y un diseño completamente aleatorizado (CB-sección 8.2). Para obtener la tabla de Análisis de la Varianza necesitaremos un objeto del tipo Factor que creamos en (13). La tabla ANOVA la obtenemos a continuación. > Npesos<-c(Blancos,Negros,Otros) > Razas<-factor(rep(LETTERS[1:3],c(96,26,67))) (13) (13) D 205 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos > Datos<-data.frame(Razas,Npesos) (13) > tabla<-aov(Npesos~Razas) > summary(tabla) Df Sum Sq Mean Sq F value Pr(>F) Razas 2 5015725 2507863 4.9125 0.008336 ** Residuals 186 94953931 510505 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (14) El p-valor del test, que aparece en (14), indicando claramente el rechazo de la hipótesis nula de igualdad de los pesos medios de las tres razas. Para poder realizar un ANOVA, las poblaciones a comparar deben seguir un modelo normal y además debe verificarse la suposición de homocedasticidad, es decir, que todas ellas deben tener la misma varianza. El análisis teórico de estas cuestiones se analizó en CB-capı́tulo 14. Normal Q−Q Plot 4000 Normal Q−Q Plot 1000 3500 3000 2500 Sample Quantiles 2000 2500 Sample Quantiles 1500 −2 −1 0 1 Theoretical Quantiles 2 1000 1500 2000 2000 3000 Sample Quantiles 3000 4000 3500 5000 Normal Q−Q Plot −2 −1 0 1 2 −2 Theoretical Quantiles −1 0 1 2 Theoretical Quantiles Figura 5.8 : Gráficos de normalidad El Análisis de la Normalidad de unos datos (CB-sección 14.4) se puede efectuar gráficamente con ayuda del Gráfico de normalidad (CB-sección 14.4.1), el cual se pueden obtener fácilmente con R gracias a la función qqnorm, y con la ayuda del Diagrama de hojas y ramas (CB-sección 14.2) obtenido con la función stem. D 206 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Ası́, después de abrir una ventana de tres gráficos en (15), hacemos los gráficos de normalidad para las tres variables, cuya representación obtenemos en la Figura 5.8. Se ve que los datos se sitúan aproximadamente en la diagonal del gráfico, lo que sugiere que se puede admitir para ellos una distribución normal. Los gráficos de hojas y ramas, obtenidos tras ejecutar (16), lo confirman. > > > > par(mfrow=c(1,3)) qqnorm(Blancos,pch=16) qqnorm(Negros,pch=16) qqnorm(Otros,pch=16) > stem(Blancos) (15) (16) The decimal point is 3 digit(s) to the right of the | 1 1 2 2 3 3 4 4 5 | | | | | | | | | 0 889999 1111223444444 55566667788888899999 00000111111111233444 55566666667777778888999999 00112222 6 0 > stem(Negros) (16) The decimal point is 3 digit(s) to the right of the | 1 1 2 2 3 3 | | | | | | 1 79 1234444 5589999 0013444 89 > stem(Otros) (16) The decimal point is 3 digit(s) to the right of the | 0 1 1 2 2 3 3 4 | | | | | | | | 7 3 566799 0111222333444 555566677888899 111222222222333333 5556668899 001 El Análisis de la homocedasticidad se puede hacer gráficamente mediante D 207 1000 2000 3000 4000 5000 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos A B C Figura 5.9 : Gráfico de cajas un Gráfico de cajas (CB-sección 14.5.1), obtenido con la función boxplot, obtenido ejecutando ejecutando (17) y que aparece en la Figura 5.9. En él se ve que las cajas son bastante semejantes, es decir, que puede considerarse razonable admitir una varianza común. También se puede analizar la homocedasticidad mediante el test de Bartlett (CB-sección 14.5.2) de la hipótesis nula de igualdad de las varianzas, ejecutado con la función de R, bartlett.test, como hacemos en (18). El p-valor de dicho test, dado en (19), es bastante concluyente en la aceptación de la hipótesis nula de igualdad de las varianzas. > boxplot(Npesos~Razas) > bartlett.test(Npesos~Razas) (17) (18) Bartlett test of homogeneity of variances data: Npesos by Razas Bartlett’s K-squared = 0.6595, df = 2, p-value = 0.7191 (19) Como estudiamos en CB-sección 8.2.1, una vez rechazada la hipótesis nula de igualdad de las medias de las poblaciones a comparar, parece razonable analizar si existen grupos de tratamientos sin diferencias significativas. Para resolver este problema con R ejecutaremos el Contraste de Tukey HSD allı́ analizado, utilizando la función TukeyHSD, (EAR-sección 5.2.2). Para ello, ejecutamos (20) D 208 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud > TukeyHSD(tabla) (20) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Npesos ~ Razas) $Razas diff lwr upr p adj B-A -383.02644 -756.2363 -9.816581 0.0428037 C-A -297.43517 -566.1652 -28.705095 0.0260124 C-B 85.59127 -304.4521 475.634630 0.8624372 Los intervalos (regiones de aceptación) obtenidos, cuyo extremo inferior está encabezado con lwr y el superior con upr, que contengan al cero implicarán la igualdad de los efectos medios cuyas letras aparecen al comienzo de la lı́nea. Esto sólo le ocurre el tercer intervalo [−304′ 45 , 475′ 63] el cual, al contener al cero, implica la igualdad de los efectos medios de los tratamiento C-B. De esta manera vemos que podemos considerar dos clases de tratamientos equivalentes: el {A} y el {B, C}. La última columna nos da los p-valores de los tests, los cuales confirman la clasificación anterior. Obsérvese que el p-valor de comparar la raza blanca con la negra es distinto del obtenido en el apartado (a) debido a que los tests son distintos. Problema 5.32 En un artı́culo del 27 de Mayo de 2001 del diario “The Arizona Republic”, aparecen los datos de las concentraciones de arsénico en partes por billón (americano) en el agua potable de 10 barrios de Phoenix, capital del estado norteamericano de Arizona (columna izquierda de la tabla), y de 10 zonas rurales de dicho estado (columna derecha de la tabla). Los datos fueron los siguientes: Phoenix Centro Chandler Gilbert Glendale Mesa Paradise Valley Peoria Scottsdale Sun City Tempe 3 7 25 10 15 6 12 25 7 15 Rimrock Goodyear New River Apache Junction Buckeye Nogales Black Canyon City Sedona Casa Grande Payson 48 44 40 38 33 21 20 12 18 1 Se pide: a) Analizar la igualdad de las varianzas poblacionales. b) Supuesto que las varianzas poblacionales pueden considerarse iguales, analizar si existen diferencias significativas entre ambos grupos mediante un test de la t de Student. D 209 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Como resolveremos también el ejercicio con R, comencemos incluyendo los datos y obteniendo las medias y cuasivarianzas muestrales, ciudad<-c(3,7,25,10,15,6,12,25,7,15) campo<-c(48,44,40,38,33,21,20,12,18,1) > mean(ciudad) [1] 12.5 > var(ciudad) [1] 58.27778 > mean(campo) [1] 27.5 > var(campo) [1] 235.6111 Con lo que será x1 = 12′ 5, S12 = 58′ 3 y x2 = 27′ 5, S22 = 235′ 6. a) Para ejecutar el test de la t de Student de comparación de dos poblaciones necesitamos comprobar antes si puede aceptarse o no que las varianzas de ambas poblaciones puedan considerarse iguales (CB-sección 7.6) ya que los tamaños muestrales son pequeños. Es decir, debemos contrastar antes la hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo cuando sea, S12 ∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ]. S22 El estadı́stico toma el valor S12 /S22 = 0′ 247. Si consideramos un nivel de significación α = 0′ 05, será, a partir de la Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3), Fn1 −1,n2 −1;1− α2 = F9,9;0′ 975 = 1/F9,9;0′ 025 = 1/4′ 026 = 0′ 248 = qf(0.025,9,9) y Fn1 −1,n2 −1; α2 = F9,9;0′ 025 = 4′ 026 = qf(0.975,9,9), con lo que la región de aceptación, a nivel α = 0′ 05, es [0′ 248 , 4′ 026] , que no contiene el valor del estadı́stico pero por muy poco y con este nivel de significación que no es definitivo. Utilizando R podemos ejecutar este test con (1), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de aceptación " S12 /S22 Fn1 −1,n2 −1; α2 , S12 /S22 Fn1 −1,n2 −1;1− α2 # = 0′ 247 0′ 247 , = [0′ 061 , 0′ 996] 4′ 026 0′ 248 contiene o no al 1. La región de aceptación se observa en (2) y el p-valor de este test aparece en (3). > var.test(ciudad,campo) (1) D 210 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud F test to compare two variances data: ciudad and campo F = 0.2473, num df = 9, denom df = 9, p-value = 0.04936 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.06143758 0.99581888 sample estimates: ratio of variances 0.2473473 (3) (2) Como dijimos antes, este test no es nada concluyente. b) Suponiendo que puede aceptarse que ambas varianzas poblacionales son iguales, se acepta la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 cuando y sólo cuando sea • Se acepta H0 si s • Se rechaza H0 si s |x1 − x2 | (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 (n1 − 1)S12 |x1 − x2 | + (n2 − 1)S22 n1 + n2 − 2 s 1 1 + n1 n2 s 1 1 + n1 n2 ≤ tn1 +n2 −2;α/2 > tn1 +n2 −2;α/2 Como es s (n1 − 1)S12 |x1 − x2 | + (n2 − n1 + n2 − 2 1)S22 s 1 1 + n1 n2 =s |12′ 5 − 27′ 5| 9· 58′ 3 + 9 18 · 235′ 6 r el p-valor será p-valor = 2 · P {t18 > 2′ 7669} y, a partir de la Tabla 5 de la t de Student, es P {t18 > 2′ 878} < P {t18 > 2′ 7669} < P {t18 > 2′ 552} es decir, = 2′ 7669 1 1 + 10 10 D 211 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 0′ 005 < P {t120 > 2′ 7669} < 0′ 01. Con lo que el p-valor será 0′ 01 < p-valor < 0′ 02 suficientemente pequeño como para concluir que existen diferencias significativas en la contaminación de los dos grupos. Este test de igualdad de medias se puede resolver con R ejecutando (4) (véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales como iguales. Como el 0 no está incluido en la región de aceptación dada en (5), rechazaremos la hipótesis nula de igualdad de los dos grupos. El p-valor 0′ 0127 aparece en (6) y sugiere el rechazo de H0 . Por tanto, existe suficiente evidencia para concluir que la concentración media de arsénico en el agua potable en las zonas rurales de Arizona es distinta (y mayor) que en su capital Phoenix. > t.test(ciudad,campo,var.equal=T) (4) Two Sample t-test data: ciudad and campo t = -2.7669, df = 18, p-value = 0.01270 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -26.389418 -3.610582 sample estimates: mean of x mean of y 12.5 27.5 (6) (5) D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 212 D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6 Problemas Avanzados Resueltos Problema 6.1 Con objeto de analizar la posible relación de dependencia que pudiera existir entre tres variables, Edad, Sexo y Consumo de Fármacos Psicóticos, se realizó una encuesta a 5833 londinenses (Murray et al., 1981) clasificándose a los encuestados según la siguiente tabla, Entre 16 y 29 años Sı́ toma medicamentos No toma medicamentos Hombre 21 683 Mujer 46 738 Hombre 32 596 Mujer 89 700 Hombre 70 705 Mujer 169 847 Hombre 43 295 Mujer 98 336 Hombre 19 99 Mujer 51 196 Entre 30 y 44 años Sı́ toma medicamentos No toma medicamentos Entre 45 y 64 años Sı́ toma medicamentos No toma medicamentos Entre 65 y 74 años Sı́ toma medicamentos No toma medicamentos Más de 74 años Sı́ toma medicamentos No toma medicamentos 213 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 214 Analizar dicha posible relación mediante un modelo log-lineal. Primero vamos a incorporar los datos (que están en el fichero psico) en formato estructura de datos (data frame). Para ello utilizaremos en (1), la función read.table que lee los datos y crea dicho formato. En (2) comprobamos que lo ha ejecutado bien, > psico<-read.table("a:\\psico",header=T) > psico Toma1 Toma2 Edad1 Edad2 Edad3 Edad4 Edad5 Sexo1 Sexo2 Frecu 1 1 0 1 0 0 0 0 1 0 21 2 1 0 1 0 0 0 0 0 1 46 3 0 1 1 0 0 0 0 1 0 683 4 0 1 1 0 0 0 0 0 1 738 5 1 0 0 1 0 0 0 1 0 32 6 1 0 0 1 0 0 0 0 1 89 7 0 1 0 1 0 0 0 1 0 596 8 0 1 0 1 0 0 0 0 1 700 9 1 0 0 0 1 0 0 1 0 70 10 1 0 0 0 1 0 0 0 1 169 11 0 1 0 0 1 0 0 1 0 705 12 0 1 0 0 1 0 0 0 1 847 13 1 0 0 0 0 1 0 1 0 43 14 1 0 0 0 0 1 0 0 1 98 15 0 1 0 0 0 1 0 1 0 295 16 0 1 0 0 0 1 0 0 1 336 17 1 0 0 0 0 0 1 1 0 19 18 1 0 0 0 0 0 1 0 1 51 19 0 1 0 0 0 0 1 1 0 99 20 0 1 0 0 0 0 1 0 1 196 (1) (2) Ahora vamos a analizar cuántos modelos log-lineales puede ser aceptados, en principio, antes de utilizar los tests condicionales para modelos anidados con los determinaremos, de entre éstos, el modelo con el que finalemente nos quedaremos. Como sabemos, al tratar con variable de tipo cualitativo, debemos expresar nuestro modelo con variables indicadoras, tantas como clases presente la variable indicadora menos una. Ası́, expresaremos la variable dicotómica de la Toma o no de medicamentos psicóticos con una de las dos indicadoras Toma1 o Toma2; hemos elegido la segunda. Expresaremos también el modelo para Edad con cuatro de las cinco variables indicadoras que genera (en este caso las cuatro últimas), y finalmente Sexo con Sexo2. Como sabemos por el texto TA-Sección 8.6, utilizaremos en el análisis de los modelos log-lineales la función de Rmo glm. Comencemos al análisis con el modelo que no tiene interacciones entre las variables (3 Independencias Condicionadas) ejecutando (3), obteniendo en D 215 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos (4) los grados de libertad de la χ2 (13 grados) y en (5) el valor del estadı́stico deviance G2 = 245′ 7 > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2,family=poisson,data=psico) (3) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2, family = poisson, data = psico) Coefficients: (Interc) Toma2 4.26989 2.09711 Edad2 -0.04889 Edad3 0.18534 Edad4 -0.65620 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 245.7 (5) Edad5 -1.40529 Sexo2 0.24361 (6) (4) 13 Residual AIC: 396.7 Las estimaciones de los coeficientes de regresión, dadas en (6), no tienen aquı́ ningún interés; de hecho, se suele denominar a dichos coeficientes parámetros de ruido. Por último, el p-valor del test se obtiene ejecutando (7) (probabilidad cola de una χ2 , utilizando la función 1-pchisq, con 13 grados de libertad, su segundo argumento, a la derecha del valor del estadı́stico de contraste, 245,7, su primer argumento), observando en (8) que debemos rechazar el modelo con solamente los efectos simples de las tres variables Edad, Toma/No Toma y Sexo, al ser el p-valor cero. > 1-pchisq(245.7,13) [1] 0 (7) (8) Los otros modelos que incluyen las interacciones por pares y la interacción de las tres variables, se contrastan a continuación. (Obsérvese que hay que ejecutar dos instrucciones para cada modelo.) Hemos subrayado, para cada modelo, los grados de libertad de la χ2 , el valor del estadı́stico de contraste y el p-valor. Por último, apuntemos que para incluir los efectos de la interacción entre variables, es necesario cruzar todas (menos una) las variables auxiliares de las variables respecto de las cuales queramos incluir su interacción. 2 Independencias condicionadas s,t,e,st > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Sexo2, + family=poisson,data=psico) D 216 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Toma2 * Sexo2, family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 3.85426 2.55366 -0.04889 Toma2.Sexo2 -0.72612 Edad3 Edad4 Edad5 0.18534 -0.65620 -1.40529 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 178.3 ------- Sexo2 0.89554 12 Residual ---- AIC: 331.3 > 1-pchisq(178.3,12) [1] 0 --- Por tanto, este modelo se rechaza. s,t,e,te > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+ + Toma2*Edad3+Toma2*Edad4+Toma2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 + Toma2 * Edad5, family = poisson, data = psico) Coefficients: (Interc) Toma2 Edad2 3.3823 3.0544 0.5911 Toma2.Edad2 Toma2.Edad3 -0.6832 -1.1836 Edad3 Edad4 Edad5 Sexo2 1.2718 0.7441 0.0438 0.2436 Toma2.Edad4 Toma2.Edad5 -1.5559 -1.6159 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 89.74 ------ 9 Residual --- AIC: 248.7 > 1-pchisq(89.74,9) [1] 1.887379e-15 -------------- Por tanto, este modelo se rechaza. s,t,e,se > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Sexo2*Edad2+ + Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico) D 217 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Sexo2 * Edad2 + Sexo2 * Edad3 + Sexo2 * Edad4 + Sexo2 * Edad5, family = poisson, data = psico) Coefficients: (Interc) Toma2§§§ Edad2§ Edad3 Edad4 Edad5 4.34383 2.09711 -0.11424 0.09608 -0.73373 -1.78609 Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 0.12060 0.16313 0.14237 0.63107 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 217.9 ------- Sexo2 0.10763 9 Residual --- AIC: 376.8 > 1-pchisq(217.9,9) [1] 0 --- Por tanto, este modelo se rechaza. 1 Independencia condicionada s,t,e,st,te > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Sexo2*Toma2+Toma2*Edad2+ + Toma2*Edad3+Toma2*Edad4+Toma2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Sexo2 * Toma2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 + Toma2 * Edad5, family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 2.9667 3.5110 0.5911 1.2718 0.7441 0.0438 0.8955 Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 Toma2.Sexo2 -0.6832 -1.1836 -1.5559 -1.6159 -0.7261 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 22.36 ------- AIC: 183.3 > 1-pchisq(22.36,8) [1] 0.004290856 ---------------- Por tanto, este modelo se rechaza. 8 Residual --- D 218 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud s,t,e,st,se > glm(Frecu ~Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Sexo2*Toma2+Sexo2*Edad2+ + Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Sexo2 * Toma2 + Sexo2 * Edad2 + Sexo2 * Edad3 + Sexo2 * Edad4 + Sexo2 * Edad5, family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 3.92820 2.55366 -0.11424 0.09608 -0.73373 -1.78609 0.75956 Toma2.Sexo2 Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 -0.72612 0.12060 0.16313 0.14237 0.63107 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 150.5 ------- 8 Residual -- AIC: 311.5 > 1-pchisq(150.5,8) [1] 0 --- Por tanto, este modelo se rechaza. s,t,e,te,se > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+ + Toma2*Edad3+Toma2*Edad4+Toma2*Edad5+Sexo2*Edad2+Sexo2*Edad3+ + Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad5 + Sexo2 + Toma2 * Edad2 + Toma2 Toma2 * Edad5 + Sexo2 * Edad2 + Sexo2 Sexo2 * Edad5, family = poisson, data Edad2 + Edad3 + Edad4 + * Edad3 + Toma2 * Edad4 + * Edad3 + Sexo2 * Edad4 + = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 3.4563 3.0544 0.5258 1.1825 0.6665 -0.3370 0.1076 Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 -0.6832 -1.1836 -1.5559 -1.6159 Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 0.1206 0.1631 0.1424 0.6311 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 61.92 ------- AIC: 228.9 5 Residual --- D 219 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos > 1-pchisq(61.92,5) [1] 4.871659e-12 -------------- Por tanto, este modelo se rechaza. 0 Independencias condicionadas s,t,e,se,st,te > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+ + Toma2*Edad3+ Toma2*Edad4+Toma2*Edad5+Toma2*Sexo2+Sexo2*Edad2+ + Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 + Toma2 * Edad5 + Toma2 * Sexo2 + Sexo2 * Edad2 + Sexo2 * Edad3 + Sexo2 * Edad4 + Sexo2 * Edad5, family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 3.05302 3.47321 0.52535 1.19807 0.70810 -0.35652 0.77172 Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 Toma2.Sexo2 -0.66776 -1.16636 -1.54735 -1.53331 -0.69376 Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 0.05216 0.54224 0.09474 0.10602 Degrees of Freedom: 19 Total (i.e. Null); 4 Residual --- Null Deviance: 5716 Residual Deviance: 2.3 AIC: 171.3 ---> 1-pchisq(2.3,4) [1] 0.680769 ---------- Por tanto, este modelo se acepta. s,t,e,se,st,te,ste (Modelo saturado) > + + + glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+ Toma2*Edad3+Toma2*Edad4+Toma2*Edad5+Toma2*Sexo2+Sexo2*Edad2+ Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5+Sexo2*Toma2*Edad2+Sexo2*Toma2*Edad3+ Sexo2*Toma2*Edad4+Sexo2*Toma2*Edad5,family=poisson,data=psico) Call: Edad5 Toma2 Sexo2 Toma2 glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + + Sexo2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 + * Edad5 + Toma2 * Sexo2 + Sexo2 * Edad2 + Sexo2 * Edad3 + * Edad4 + Sexo2 * Edad5 + Sexo2 * Toma2 * Edad2 + Sexo2 * * Edad3 + Sexo2 * Toma2 * Edad4 + Sexo2 * Toma2 * Edad5, D 220 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 3.04452 3.48197 0.42121 1.20397 0.71668 -0.10008 0.78412 Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 Toma2.Sexo2 Edad2.Sexo2 -0.55747 -1.17227 -1.55620 -1.83129 -0.70667 0.23878 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 Toma2.Edad2.Sexo2 Toma2.Edad3.Sexo2 0.09728 0.03965 0.20327 -0.15539 0.00877 Toma2.Edad4.Sexo2 Toma2.Edad5.Sexo2 0.01304 0.40228 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: -3.422e-13 ----------- 0 Residual --- AIC: 177 modelo, este último, que se rechaza y al que corresponde un deviance cero (en realidad nos sale -3.422e-13 que significa que corramos la coma de 3′ 422 trece lugares a la izquierda). En resumen, se ha aceptado un solo modelo. Si se hubieran aceptado más modelos deberı́amos haber utilizado los tests condicionales para modelos anidados (como se indica en la la Sección 8.4.1 del texto TA) para quedarnos finalmente con un modelo. El quedarnos finalmente con el modelo de 0 Independencias condicionadas, es decir, con el modelo s,t,e,se,st,te significa, según la Tabla 8.3 de TA, que no se puede colapsar ninguna de las tres variables y que el estudio debe hacerse por separado para hombre y para mujeres, para cada uno de los tres grupos de edad y también por separado para los que toman medicamentos y para los que no los toman. Problema 6.2 En el estudio de Rosenman et al. (1964), se observó también la Edad de los pacientes que habı́an padecido una determinada enfermedad coronaria, codificados éstos con chd = 1. Los datos ası́ obtenidos aparecen en el ficheros de datos wgcs. Se desea efectuar un Análisis de Regresión Logı́stica de dichos datos. Primero vamos a incorporar los datos (que están en el fichero wcgs) en formato estructura de datos (data frame). Para ello utilizaremos en (1), la función read.table que lee los datos y crea dicho formato. En (2) comprobamos que lo ha ejecutado bien, D 221 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos > wcgs<-read.table("a:\\wgcs",header=T) > wcgs > wcgs Edad chd 1 50 0 2 51 0 3 59 0 ............. 3152 53 0 3153 54 0 3154 48 0 (1) (2) Ahora ejecutamos (3) y (4) para ajustar el modelo de regresión logı́stica solicitado. > resultado<-glm(chd ~ Edad,family=binomial,data=wcgs) > summary(resultado) (3) (4) Call: glm(formula = chd ~ Edad, family = binomial, data = wcgs) Deviance Residuals: Min 1Q Median -0.6208 -0.4545 -0.3669 3Q -0.3292 Max 2.4835 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -5.93938 0.54814 -10.835 < 2e-16 *** Edad 0.07442 0.01128 6.596 4.23e-11 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 (5) ‘.’ 0.1 ‘’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1781.2 Residual deviance: 1738.4 AIC: 1742.4 on 3153 on 3152 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 4 Vemos en (5) que la Edad es efectivamente significativa para explicar el padecimiento de la enfermedad coronaria en estudio, obteniendo, en consecuencia, como modelo ajustado el siguiente: p = −5′ 94 + 0′ 0744 Edad 1−p De hecho, se podrı́a contrastar el modelo global como habitualmente hacemos, ejecutando log > 1-pchisq(1738.4,3152) [1] 1 D 222 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 0.0 0.2 0.4 p 0.6 0.8 1.0 que indica un ajuste estadı́sticamente perfecto. Por tanto, el modelo ası́ ajustado será 0 50 100 150 Edad Figura 6.1 : Función logı́stica p= siendo exp(−5′ 94 + 0′ 0744 Edad) 1 + exp(−5′ 94 + 0′ 0744 Edad) [6.1] p = P {éxito} = P {Y = 1} = P {chd = 1} Por ejemplo, la probabilidad de que un individuo de 65 años (de la población de donde se extrajo la muestra o, en general, de una población de la que la muestra sea representativa) padezca la enfermedad coronaria en estudio será p= exp(−5′ 94 + 0′ 0744 · 65) = 0′ 249 1 + exp(−5′ 94 + 0′ 0744 · 65) y la probabilidad de uno de 25 años, D 223 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos p= exp(−5′ 94 + 0′ 0744 · 25) = 0′ 0166. 1 + exp(−5′ 94 + 0′ 0744 · 25) De hecho, si representamos la función (6.1) ası́ ajustada, su representación gráfica es la Figura (6.1) que es claramente una función logı́stica Respecto a la interpretación de los coeficientes ajustados, como tenemos una regresión lineal para el logaritmo de la odds ratio log p/(1 − p), la interpretación de la pendiente de esta recta ajustada, β̂1 = 0′ 0744 , es clara como vimos en el capı́tulo anterior: β̂1 = 0′ 0744 es una estimación del cambio en el logaritmo de la OR del riesgo a infarto chd por el incremento de un año de Edad; es decir, exp(0′ 0744) = 1′ 077 (= 0′ 077 · 100/1 = 7′ 7 %) es una estimación del incremento en la odds ratio del riesgo de infarto por el incremento en cada año de Edad. Una estimación clı́nicamente más relevante es el incremento en la odds ratio del riesgo a infarto por el incremento de 10 años en la Edad. Ésta será: exp(0′ 0744 · 10) = 2′ 096; y en tanto por ciento, = 1′ 096 · 100/1 = 109′ 6 %, es decir, de más del 100 %, es decir, de más del doble. Problema 6.3 Los datos de la siguiente tabla corresponden a la Edad, la Tasa de Filtrado Glomerular (gfr) y la Creatinina en suero (cr), de 30 pacientes de los 180 del estudio de las funciones renales de Brochner-Mortensen et al. (1977). La gfr es el volumen de lı́quido filtrado desde los capilares glomerulares renales al interior de la cápsula Bowman, por unidad de tiempo (habitualmente, milı́metros por minuto) y clı́nicamente es muy importante porque se usa para analizar funciones renales. No obstante, en lugar de medir la gfr, es más simple estimarla a partir del ritmo de evacuación de la creatinina, cr, una molécula endógena, sintetizada en el cuerpo y que aparece como producto de la degradación de la creatina (un compuesto de alta energı́a) en los músculos, y que posee una tasa de excreción notablemente constante a lo largo del dı́a para cada paciente. La ventaja de esta técnica es que al ser la creatinina un producto endógeno, no requiere introducir en el organismo del paciente una sustancia extraña. La creatinina es libremente filtrada a nivel glomerular, aunque a diferencia de la insulina, también es excretada en pequeñas cantidades por los túbulos renales. Estas caracterı́sticas hacen que, aunque no exacta, la medida empleando el ı́ndice de evacuación de creatinina sea una buena aproximación del gfr aunque un simple gráfico prueba que esa relación no es de tipo lineal. D 224 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Edad 25 25 28 21 30 32 38 44 49 42 41 47 44 43 43 57 56 51 51 52 56 54 66 64 62 64 65 61 69 67 CR 0.71 0.45 1.2 1.1 0.99 0.8 4.35 0.98 0.85 1.31 1.11 1.77 8.21 4.5 2.47 0.64 0.75 1.02 1 5.43 9.75 9.15 1.48 0.81 1.5 1.65 2 10.75 6.84 3.8 GFR 167 103 95 80 133 89 19 92 102 88 68 29 6.2 7.7 27 111 116 113 68 10 10 7.5 68 88 63 56 36 6.3 9.6 12 El objeto de este ejercicio es analizar, para este conjunto de datos, a) Una relación del tipo log(gf r) = β0 + β1 x siendo x = 1/cr . b) Una relación del tipo log(gf r) = β0 + β1 log(cr) + β2 log(Edad) Los datos del enunciado están en el fichero GFR por lo que primero los incorporaremos a R. Lo haremos con estructura data frame porque es la más general. A partir de ella podemos obtener los vectores de datos para la regresión. > GFR<-read.table("a:\\GFR",header=T) D 225 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos 4.0 2.5 2.0 0.5 3.0 1.0 3.5 1.5 4.5 2.0 5.0 > GFR Edad CR GFR 1 25 0.71 167.0 2 25 0.45 103.0 3 28 1.20 95.0 ................... 28 61 10.75 6.3 29 69 6.84 9.6 30 67 3.80 12.0 x y Figura 6.2 : Gráficos de Cajas de ambas variables a) Denominaremos x e y a los dos variables de regresión de la forma > y<-log(GFR[,3]) > x<-1/GFR[,2] Si analizamos separadamente ambas variables, Figura 6.2, mediante dos gráficos de cajas (box-plots) (CB-sección 14.5.1) vemos en el de la variable x un dato más allá del mayor bigote (whisker), que recordemos es una lı́nea que se traza en la mayor observación, si es que ésta es menor que 1′ 5 veces el recorrido intercuartı́lico (diferencia entre el tercer cuartil y el primer cuartil), y, si no es menor, el bigote se traza en ese 1′ 5 veces el recorrido intercuartı́lico. (Análogamente con el menor bigote). De esa forma se destacan los outliers, es D 226 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 2 0.5 1.0 1.5 2.0 Figura 6.3 : Valores x ordenados decir, aquellos datos más allá del grupo general de observaciones (más allá de 1′ 5 veces el recorrido intercuartı́lico). Esta Figura 6.2 se obtuvo ejecutando > par(mfrow=c(1,2)) > boxplot(x,xlab="x") > boxplot(y,xlab="y") El gráfico unidimensional de x, Figura 6.3, obtenido ejecutando > stripchart(x,pch=16,col=4) > text(2.2,1.04,2,col=2) confirma que la segunda observación es un dato anómalo. Si representamos los datos bidimensionales, Figura 6.4, ejecutando > plot(x,y,pch=16) > text(x,y,1:30,adj=2,cex=0.8,col=2) vemos que el dato 2 está, como antes, fuera de la nube de puntos del resto de los otros datos. Pero si calculamos la recta de mı́nimos cuadrados ejecutando > recta1<-lm(y~x) > recta1 Call: lm(formula = y ~ x) D 227 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos 5.0 1 5 17 4.5 18 26 23 25 3 8 4 9 24 6 16 2 11 19 27 3.5 y 4.0 10 12 3.0 15 2.5 7 30 2.0 212920 22 14 28 13 0.5 1.0 1.5 2.0 x Figura 6.4 : Nube de puntos Coefficients: (Intercept) 2.387 x 1.771 y obtenemos y = 2′ 387 + 1′ 771 la gráfica de los residuos de esta recta (Figura 6.5), obtenidos ejecutando > plot(resid(recta1)) no da una muestra clara de que ese valor es un outlier. Si calculamos la recta de regresión de Huber ejecutando > recta2<-rlm(y~x) > recta2 Call: rlm(formula = y ~ x) Converged in 7 iterations Coefficients: (Intercept) 2.218666 x 2.070785 Degrees of freedom: 30 total; 28 residual Scale estimate: 0.457 D 228 −0.5 −1.5 −1.0 resid(recta1) 0.0 0.5 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 0 5 10 15 20 25 30 Index Figura 6.5 : Residuos de la recta de mı́nimos cuadrados es decir, y = 2′ 1867 + 2′ 071 esta sı́ que proporciona unos residuos claros, (Figura 6.6). Es decir, la regresión robusta no sólo sirve para determinar rectas o hiperplanos menos sensibles a datos anómalos, sino que, a través de los residuos de las rectas de regresión robustas podemos detectar outliers, Método que se denomina Regression Diagnostics. > plot(resid(recta2)) En la Figura 6.7 aparecen ambas rectas en la nube de puntos, la de mı́nimos cuadrados en negro y trazo continuo y la de Huber en azul y trazo discontinuo. Este figura se obtuvo ejecutando > plot(x,y,pch=16,col=2) > abline(recta1) > abline(recta2,col=4,lty=4) b) Si incluimos ahora la primera variable, Edad y calculamos la Regresión Lineal Múltiple clásica ejecutando (1) y la Robusta, ejecutando (2), > x1<-log(GFR[,1]) > x2<-log(GFR[,2]) D 229 −0.5 −1.0 −2.0 −1.5 resid(recta2) 0.0 0.5 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos 0 5 10 15 20 25 30 Index Figura 6.6 : Residuos de la recta de regresión robusta de Huber > r1<-lm(y~x1+x2) > r1 (1) Call: lm(formula = y ~ x1 + x2) Coefficients: (Intercept) 4.56983 x1 -0.04318 x2 -1.11616 > r2<-rlm(y~x1+x2) (2) > r2 Call: rlm(formula = y ~ x1 + x2) Converged in 6 iterations Coefficients: (Intercept) x1 4.8867925 -0.1201561 x2 -1.1173761 Degrees of freedom: 30 total; 27 residual Scale estimate: 0.299 el gráfico dado por la Figura 6.8 pone de manifiesto una vez más, que tanto el dato 2 como el 14 son caracterizados como anómalos más claramente con la regresión robusta. > par(mfrow=c(1,2)) D 230 y 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 0.5 1.0 1.5 2.0 x Figura 6.7 : Nube de puntos y rectas de regresión > plot(resid(r1)) > plot(resid(r2)) D 231 −0.2 −0.8 −0.6 −0.4 resid(r2) 0.0 0.2 0.4 Al f on so Ga rcı́ aP ére z. UN E 0.0 −0.2 −0.4 −0.6 resid(r1) 0.2 0.4 Capı́tulo 6. Problemas Avanzados Resueltos 0 5 10 15 Index 20 25 30 0 5 10 15 20 25 Index Figura 6.8 : Residuos de las regresiones clásica y robusta 30 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 232 D Al f on so Ga rcı́ aP ére z. UN E Bibliografı́a Appelman, Y.E.A., Piek, J.J., Strikwerda, S., Tijssen, J.G.P., de Feyter, P.J., David, G.K., Serruys, P.W., Margolis, J.R., Koelemay, M.J., Montauban van Swijndregt, E.W.J. y Koolen, J.J. (1996). Randomised trial of excimer laser angioplasty versus balloon angioplasty for treatment of obstructive coronary artery disease. The Lancet, 347, 79-84. Azorı́n, F. y Sánchez-Crespo, J.L. (1986). Métodos y Aplicaciones del Muestreo. Alianza Universidad Textos. Brandjes, D.P.M., Buller, H.R., Heijboer, H., Huisman, M.V., de Rijk, M., Jagt, H. y ten Cate, J.W. (1997). Randomised trial of effect of compression stockings in patients with symptomatic proximal-vein thrombosis. The Lancet, 349, 759-762. Breiman, L. (2001). Random forest. Machine Learning, 45, 5-32. Breiman, L., Friedman, J., Olshen, R., y Stone, C. (1993). Classification and Regression Trees. Chapman and Hall/CRC. Brochner-Mortensen, J., Jensen, S. y Rodbro, P. (1977). Assessment of renal function from plasma creatinine in adult patients. Scandinavian Journal of Urology and Nephrology, 11, 263-270. Clayton, D. y Hills, M. (1993). Statistical Models in Epidemiology. Oxford University Press, Oxford. Cockburn, F., Belton, N.R., Purvis, R.J., Giles, M.M., Brown, J.K, Turner, T.L., Wilkinson, E.M., Forfar, J.O., Barrie, W.J., Mckay, G.S. y Pocock, S.J. (1980). Maternal vitamin D intake and mineral matabolism in mothers and their newborn infants. British Medical Journal, 281, 11-14. Cox, D.R. (1972). Regression models and life tables (with discussion). Journal of the Royal Statistical Society, B, 34, 187-220. Crowley, P., Chalmers, I. y Keirse, M.J.N.C. (1990). The effects of corticosteroid administration before preterm delivery: an overview of the evidence from controlled trials. British Journal of Obstetrics and Gynaecology, 97, 11-25. Ezdinli, E., Pocock, S., Berard, C.W., Aungst, C.W., Silverstein, M., Horton, J., Bennett, J., Bakemeier, R., Stolbach, L., Perlia, C., Brunk, S.F., Lenhard, R.E., Klaassen, D.J., Richter, P. y Carbone, P. (1976). Comparison of intensive versus moderate chemotherapy of lymphocytic lymphomas: a progress report. Cancer, 38, 1060-1068. Feigl, P. y Zelen, M. (1965). Estimation of exponential survival probabilities with concomitant information. Biometrics, 21, 826-838. Friedman, J. (1991). Multivariate adaptive regression splines (with discussion). Annals of Statistics, 19, 1-141. 233 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 234 Garcı́a Pérez, A. (1993). Estadı́stica Aplicada con BMDP. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (1993). Estadı́stica Aplicada con SAS. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (1998). Problemas Resueltos de Estadı́stica Básica. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (2005). Métodos Avanzados de Estadı́stica Aplicada. Técnicas Avanzadas. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (2005). Métodos Avanzados de Estadı́stica Aplicada. Métodos Robustos y de Remuestreo. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (2008). Estadı́stica Aplicada: Conceptos Básicos. Segunda edición. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (2008). Ejercicios de Estadı́stica Básica. UNED. Colección: Cuadernos de la UNED. Garcı́a Pérez, A. (2008). Estadı́stica Aplicada con R. Editorial UNED. Colección Varia. Hackett, A.F., Court, S., Matthews, J.N.S., McCowen, C. y Parkin, J.M. (1989). Do education groups help diabetics and their parents? Archives of Disease in Childhood, 64, 997-1003. Hommel, E., Parving, H.H, Mathiesen, E., Edsberg, B., Damkjaer, Nielsen, M. y Giese, J. (1986). Effect of Captopril on kidney function in insulin-dependent diabetic patients with nephropathy. British Medical Journal, 293, 467-470. Hosmer, D.W. y Lemeshow, S. (1989). Applied Logistic Regression. Ed. Wiley. Kalbfleisch, J.D. y Prentice, R.L. (1980). The statistical analysis of failure time data. Ed. Wiley. Krall, J.M., Uthoff, V.A. y Harley, J.B. (1975). A step-up procedure for selecting variables associated with survival. Biometrics, 31, 49-57. Lee, E.T. (1980). Statistical methods for survival data analysis. Belmont, CA:Life-time learning publications. Lind, J. (1753). A Treatise of the Scurvy. Sand Murray Cochran, Edinburgh. Matthews, J.N.S. (2000). An Introduction to Randomized Controlled Clinical Trials. Arnold, London. MIST Study Group (1998). Randomized trial of efficacy and safety of inhaled zanamivir in treatment of influenza A and B virus infections. The Lancet, 352, 1877-1881. Murray, J.D., Dunn, G., Williams, P. y Tarnopolsky, A. (1981). Factors influencing the consumption of psychotropic drugs. Psychological Medicine, 12, 371-378. Nelson, W.B. y Hahn, G.J. (1972). Linear estimation of a regression relationships from censored data, part 1. Technometrics, 14, 247-276. Packard, F.R. (1921). The Life and Times of Ambroise Paré. Hoeber, New York. Pike, M.C. (1966). A method of analysis of certain class of experiments in carcinogenesis. Biometrics, 22, 142-161. Rosenman, R.H., Friedman, M., Straus, R., Wurm, M., Kositchek, R., Hahn, W. y Werthessen, N.T. (1964). A predictive study of coronary heart disease: the western collaborative group study. Journal of the American Medical Association, 189, 113-120. D 235 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos Ruczinski, I., Kooperberg, C. y LeBlanc, M. (2003). Logic regression. Journal of Computational and Graphical Statistics, 12, 475-511. Ruczinski, I., Kooperberg, C. y LeBlanc, M. (2004). Exploring interactions in high dimensional genomic data: an overview of logic regression. Journal of Multivariate Analysis, 90, 178-195. Senn, S.J. y Auclair, P. (1990). The graphical representation of clinical trials with particular reference to measurements over time. Statictics in Medicine, 9, 1287-1302. Smith, A.C., Dowsett, J.F., Russell, R.C.G., Hatfield, A.R.W. y Cotton, P.B. (1994). Randomised trial of endoscopic stenting versus surgical bypass in malignant low bileduct obstruction. The Lancet, 344, 1655-1660. Tobin, J. (1958). Estimation of relationships for limited dependent variables, Econometrica, 26, 24-36. Vittinghoff, E., Glidden, D.V., Shiboski, S.C. y McCulloch, C.E. (2005). Regression Methods in Biostatistics. Linear, Logistic, Survival, and Repeated Measures Models. Springer, New York. Winston, D.J., Wirin, D., Shaked, A. y Busuttil, R.W. (1995). Randomised comparison of gancislovir and high-dose acylovir for long-term cytomegalovirus prophylaxis in livertransplant recipients. The Lancet, 346, 69-74.