A lfonso G arc´ıa P érez.U N ED

D Al f on so Ga rcı́ aP ére z. UN E CUADERNOS ESTADÍSTICA ÁREA DE DE APLICADA: LA Alfonso Garcı́a Pérez SALUD D Al f on so Ga rcı́ aP ére z. UN E c Copyright 2011 Alfonso Garcı́a Pérez Fotografı́a de la Portada: Hospital Gregorio Marañón. Madrid “No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros medios, sin el permiso previo y por escrito de los titulares del Copyright. El contenido de este libro está registrado por el autor en el Registro de la Propiedad Intelectual con el número 16/2005/2564 y protegido por la Ley, que establece penas de prisión además de las correspondientes indemnizaciones para quien lo plagiara” Edita: Universidad Nacional de Educación a Distancia D Al f on so Ga rcı́ aP ére z. UN E Prólogo El presente texto, en formato pdf, corresponde al estudio de las Técnicas Estadı́sticas Actuales en el Área de la Salud dentro del Máster, Técnicas Actuales de Estadı́stica Aplicada. No es un texto autosuficiente sino que se supone que el lector ha estudiado los temas anteriores del Máster. Con este libro se pretende cubrir una serie de temas especı́ficos de esta área ası́ como incluir numerosos problemas resueltos, que proporcionarán al alumno una mejor soltura en el manejo de las técnicas estadı́sticas aplicadas en esta rama del saber. En el libro se citarán los textos Estadı́stica Aplicada: Conceptos Básicos (abreviado por CB), Métodos Avanzados de Estadı́stica Aplicada. Técnicas Avanzadas (en adelante TA) y Métodos Avanzados de Estadı́stica Aplicada. Métodos Robustos y de Remuestreo (en adelante MR). Otras referencias que pueden aparecer son los libros Estadı́stica Aplicada con BMDP (EABMDP), Estadı́stica Aplicada con SAS (EASAS) y Estadı́stica Aplicada con R (EAR). Alfonso Garcı́a Pérez e-mail: [email protected] i ii Al f on so Ga rcı́ aP ére z. UN E D D Al f on so Ga rcı́ aP ére z. UN E Índice 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos 1.1. 1.2. 1.3. 1.4. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . Población y Muestra . . . . . . . . . . . . . . . . . . . . . . Formalización del problema . . . . . . . . . . . . . . . . . . Tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1. Poblaciones normales . . . . . . . . . . . . . . . . . 1.4.2. Poblaciones binomiales . . . . . . . . . . . . . . . . . 1.5. Métodos de asignación . . . . . . . . . . . . . . . . . . . . . 1.5.1. Grupos de tratamientos permutados aleatoriamente 1.6. Análisis de los resultados . . . . . . . . . . . . . . . . . . . 1.7. Enfoques alternativos . . . . . . . . . . . . . . . . . . . . . 1.7.1. Ensayos cruzados (Crossover trials) . . . . . . . . . . 1.7.2. Meta-Análisis . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . 2. Análisis de Supervivencia 1 3 4 4 5 10 14 16 18 28 28 32 41 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Tipos de censura . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Distribuciones de tiempo de fallo . . . . . . . . . . . . . . . . . 2.3.1. Algunas distribuciones de tiempo de fallo . . . . . . . . 2.4. Modelos de Regresión . . . . . . . . . . . . . . . . . . . . . . . 2.4.1. Modelos de regresión Exponencial y Weibull . . . . . . . 2.4.2. Modelo de Azar Proporcional . . . . . . . . . . . . . . . 2.4.3. Modelo de Tiempo de Fallo Acelerado . . . . . . . . . . 2.5. Estimación de la función de supervivencia . . . . . . . . . . . . 2.5.1. Estimador de Kaplan-Meier (Método del lı́mite-producto) 2.5.2. Método de la tabla de supervivencia . . . . . . . . . . . 2.6. Comparación de curvas de supervivencia . . . . . . . . . . . . . 2.6.1. Test de Savage de rangos logarı́tmicos . . . . . . . . . . 2.7. Análisis de Supervivencia con SAS . . . . . . . . . . . . . . . . 2.7.1. Procedimiento LIFETEST . . . . . . . . . . . . . . . . . Especificaciones del procedimiento LIFETEST . . . . . iii 41 42 44 45 48 48 49 50 51 51 52 53 53 55 55 56 D Al f on so Ga rcı́ aP ére z. UN E Opciones en PROC LIFETEST . . . . . . . . Sentencias especı́ficas en PROC LIFETEST . 2.7.2. Procedimiento LIFEREG . . . . . . . . . . . Especificaciones del procedimiento LIFEREG 2.7.3. Procedimiento PHREG . . . . . . . . . . . . Especificaciones del procedimiento PHREG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . AaBb . . . . . . . . . . . . . . . . . . . . . . . 91 . 92 . 95 . 98 . 99 . 103 3. Estimación de Haplotipos y de su riesgo 3.1. Conceptos de Genética . . . . . . . . . . . . . . . . 3.2. Genotipos y Haplotipos . . . . . . . . . . . . . . . 3.3. Asignación de haplotipos a individuos con genotipo 3.3.1. Asignación de haplotipos . . . . . . . . . . 3.4. Comparación de poblaciones: Regresión Logı́stica . 3.4.1. Regresión Logı́stica . . . . . . . . . . . . . . 4. Bioinformática: Técnicas Machine Learning 56 57 75 75 80 80 91 105 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2. Árboles de Clasificación y Regresión (Classification and Regression Trees, CARTs) . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2.1. Construcción de un Árbol . . . . . . . . . . . . . . . . . 106 4.2.2. Árboles óptimos . . . . . . . . . . . . . . . . . . . . . . 112 4.3. Bosques Aleatorios (Random Forests, RFs) . . . . . . . . . . . 116 4.4. Árboles de Regresión Lógica . . . . . . . . . . . . . . . . . . . . 119 4.5. Regresión a Trazos Adaptativa Multivariante (Multivariate Adaptive Regression Splines, MARS) . . . . . . . . . . . . . . . . . . 122 5. Problemas Básicos Resueltos 125 6. Problemas Avanzados Resueltos 213 iv D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1 Fundamentos Estadı́sticos de los Ensayos Clı́nicos 1.1. Introducción Solemos referirnos a los ensayos o pruebas clı́nicas como a experimentos realizados con personas con objeto de valorar si un nuevo tratamiento es efectivo en la curación de una determinada enfermedad. Y aunque tengamos en mente esta definición cuando hablemos de los ensayos clı́nicos, también se utiliza esta denominación cuando los experimentos no se refieran a personas o los tratamientos no sean, necesariamente, medicamentos; éstos deberán entenderse en un sentido amplio, como por ejemplo, procedimientos quirúrgicos, o nuevos programas de diagnóstico, etc. De hecho, este tipo de pruebas también se aplican en otras áreas distintas de las Ciencias de la Salud, tales como la Agricultura o la Industria. Básicamente, los ensayos clı́nicos no son más que experimentos, realizados de acuerdo con unas determinadas pautas estadı́sticas, mediante los cuales comparamos dos o más poblaciones. No obstante, es en el campo de las Ciencias de la Salud en donde más se han utilizado estas técnicas, razón por la que las estudiaremos desde esta perspectiva. Si sólo tenemos dos poblaciones, a la población a la que aplicamos el nuevo tratamiento se la denomina grupo tratamiento y a la población a la que aplicamos el tratamiento estándar o ningún tratamiento, grupo control. Si a esta segunda población no se le va a aplicar ningún tratamiento, por razones psicológicas, a sus individuos se le administra un falso tratamiento, sin ningún efecto, denominado placebo. En principio, a ambas poblaciones se les debe aplicar los tratamientos simultáneamente y además, los individuos deben ser asignados a uno u otro grupo aleatoriamente, para evitar sesgos en las conclusiones. No obstante, ve1 D 2 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud remos más adelante que no siempre ocurre ası́. Aunque los ensayos clı́nicos, entendidos éstos en un sentido amplio del término, han estado presentes a lo largo de la Historia de la Humanidad 1 2 , la introducción de la Estadı́stica como método cientı́fico a utilizar en la comparación de tratamientos, se remonta a la segunda guerra mundial. Ejemplo 1.1 A continuación damos una tabla con tres ejemplos de ensayos clı́nicos reales Enfermedad Arteria coronaria obstructiva (Appelman et al., 1996) Profilaxis de citomegalovirus (CMV) en pacientes trasplantados de hı́gado (Winston et al., 1995) Hipocalcaemia neonatal (Cockburn et al., 1980) Diabetes mellitus en la infancia y la adolescencia (Hackett et al., 1989) Grupo Tratamiento Angioplastia coronaria con láser Ganciclovir Grupo Control Angioplastia con bomba Altas dosis de Aciclovir Suplementos de vitamina D antes del nacimiento Clases de educación especial además de las visitas clı́nicas habituales Suplementos de placebo Sólo las habituales visitas clı́nicas cuyas referencias aparecen en la Bibliografı́a al final del texto. Podemos decir que en los ensayos clı́nicos hay dos grandes etapas. En un primer paso debemos elegir los individuos, cuya observación dará origen a los datos, de forma muy precisa, puesto que éstos serán la materia prima a utilizar en la segunda parte, dedicada al Análisis de los Resultados. Esta segunda parte fue, básicamente, estudiada en CB ya que, está basada en la utilización de Intervalos de Confianza, Tests de Hipótesis, Análisis de la Varianza y Análisis de la Covarianza, razón por la cual, y aunque su peso es igual o mayor que la primera parte, no será estudiada aquı́ con detalle. A cambio, nos concentraremos en estudiar la primera parte de la toma de datos en las secciones 1.2, 1.4 y 1.5, concluyendo el capı́tulo con la sección 1.7, en la que se analizan otros enfoques de interés en los ensayos clı́nicos. En resumen, este capı́tulo sirve de complemento y profundización en una herramienta, los ensayos clı́nicos, cada vez más utilizada, especialmente, en la Ciencias de la Salud. 1 Con objeto de curar las heridas sufridas en la batalla por la toma del castillo francés de Villaine en 1537, Ambroise Paré concluyó que el tratamiento consistente en un digestivo compuesto por yemas de huevo, aceite de rosas y trementina, mejoraba el tradicional tratamiento con aceite hirviendo. (Packard, 1921, páginas 27 y 163.) 2 Con objeto de curar el escorbuto en los marineros de los barcos, n 1747, Jamestrató Lind ae pacientes con vinagre de sidra (elixir vitriol), nuez moscada y agua 47517(s)-484.274(c15.446208771(a)4.28236,(a)4.28236y(o)4.205736(d)3.08771 D 6 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud P ot(λ) = P        Z > zα/2 − r   = 1 − Φ zα/2 − r λ σ12 n1 + σ22 n2 λ σ12 n1 + σ22 n2        +P          Z < −zα/2 − r    + Φ−zα/2 − r   λ σ12 n1 λ σ12 n1 + σ22 n2 + σ22 n2            0.6 0.4 0.2 Pot(lambda) 0.8 1.0 siendo Z una variable aleatoria con distribución N (0, 1) y Φ su función de distribución. -2 -1 0 1 2 lambda Figura 1.1 : Funciones de potencia para n1 = n2 = 20 (lı́nea continua), n1 = n2 = 40 (lı́nea con puntos y curvas), n1 = n2 = 80 (lı́nea con puntos y curva continua sobrepuesta) Observemos que en la expresión acabada de obtener para la potencia del test conocemos todos sus elementos, por lo que tenemos una función de λ que hemos denominado P ot(λ). Por ejemplo, si suponemos α = 0′ 05 (con lo que es zα/2 = 1′ 96) y σ1 = σ2 = 1, la figura 1.1 muestra como a medida que aumentamos el tamaño muestral, aumenta la potencia del test. D 7 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos Ası́, para n1 = n2 = 20 tenemos la lı́nea continua; para n1 = n2 = 40 tenemos la lı́nea formada con puntos y curvas que no se sobreponen (potencia siempre mayor que la anterior sea cual sea el valor de λ) y, por último, en el caso de sea n1 = n2 = 80 tenemos la lı́nea con puntos y curva sobrepuesta que muestra una potencia siempre mayor que en los dos casos anteriores, sea cual sea el valor de λ. En todos los casos, la función de potencia toma un valor igual al nivel de significación para el valor de λ igual a la hipótesis nula que estemos considerando (en este caso λ = 0) y además, para este tipo de test, aumenta cuando nos alejamos de dicha hipótesis nula. Si denominamos λM a la mı́nima diferencia clı́nica importante, es decir, si consideramos irrelevantes los valores de λ < λM , y además, sin pérdida de generalidad suponemos λM > 0 (si no fuera ası́ se intercambiarı́an los papeles de µ1 y µ2 ), sólo nos van a interesar los λ > λM > 0, por lo que, si despreciamos el último término de la ecuación de P ot(λ) (cosa que podemos hacer por ser λM > 0), será   P ot(λM ) = 1 − Φ zα/2 − r λM σ12 n1 + σ22 n2      < 1 − Φzα/2 − r   λ σ12 n1 + σ22 n2    = P ot(λ)  con lo que si deseamos que nuestro test de nivel α tenga, al menos, una potencia determinada 1 − β, la ecuación de la que debemos determinar el tamaño muestral de nuestro ensayo clı́nico será   es decir, 1 − β < 1 − Φ zα/2 − r   Φ zα/2 − r o bien (por ser z1−β = −zβ ), zα/2 − r es decir, λM σ12 n1 + σ22 n2 λM σ12 n1 + σ22 n2  λM σ12 n1 +   2  σ2 n2   <β  < Φ−1 (β) = −zβ D 8 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud r λM σ12 n1 + σ22 n2 > zα/2 + zβ o lo que es lo mismo, s σ12 σ22 λM + < . n1 n2 zα/2 + zβ [1.1] Suponiendo un tamaño muestral total n = n1 + n2 fijo, como la función h(n2 ) = s σ2 σ12 + 2 n − n2 n2 alcanza su mı́nimo para n2 = n σ2 σ1 + σ2 y por tanto, para n1 = n − n2 = n σ1 σ1 + σ2 de la ecuación [1.1] tendremos que deberá ser s σ12 σ22 + < σ1 n/(σ1 + σ2 ) σ2 n/(σ1 + σ2 ) s σ12 σ22 λM + < n1 n2 zα/2 + zβ con lo que del primer y último miembro de la desigualdad anterior, tenemos que deberá ser s es decir, (σ1 + σ2 )2 λM < n zα/2 + zβ n> (σ1 + σ2 )2 (zα/2 + zβ )2 . λ2M Ası́ pues, el tamaño muestral mı́nimo para un test como el aquı́ considerado de comparación de dos poblaciones normales independientes de varianzas conocidas (y supuesto que no se considere el término antes despreciado), será n0 = (σ1 + σ2 )2 (zα/2 + zβ )2 λ2M D 9 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos supuesto un nivel de significación α y una potencia mı́nima deseada 1 − β. Y de ahı́, la asignación (allocation), es decir, el reparto del tamaño muestral entre las dos poblaciones deberá ser igual a n1 = n 0 σ1 σ1 + σ2 n2 = n 0 σ2 . σ1 + σ2 En el caso particular de que sea σ1 = σ2 = σ, el mı́nimo tamaño muestral requerido será igual a n0 = 4 σ 2 (zα/2 + zβ )2 λ2M y n1 = n2 = n0 /2, fórmulas habitualmente utilizadas por los usuarios de estos métodos y, como hemos visto, sólo válida en unos supuestos muy particulares que acabamos de especificar. En otras condiciones (hipótesis unilaterales, poblaciones no normales, varianzas desconocidas, muestras pequeñas, etc.) el tamaño muestral mı́nimo será otro; además, si no es posible despreciar el término no considerado habrá que resolver las ecuaciones por métodos numéricos. Con objeto de no exponer todas las posibles situaciones recomendamos al lector consultar a un estadı́stico si quiere obtener una expresión exacta para su situación particular. Ejemplo 1.3 En 1998 se llevó a cabo un ensayo clı́nico (MIST Study Group, 1998) para tratar de establecer algún tipo de efectividad (positiva o negativa) del zanamivir, un nuevo tratamiento para la gripe, comparando el grupo tratado con este medicamento a un grupo control tratado con placebo. Los investigadores decidieron que la variable de interés serı́a el número de dı́as trascurridos hasta la disminución apreciable de los sı́ntomas, para la cual consideraron como razonable admitir una distribución normal en ambas poblaciones. Además, un estudio previo habı́a establecido como razonables el valor σ = 2′ 75 dı́as para la desviación tı́pica común y el valor λM = 1 dı́a para la mı́nima diferencia clı́nica importante. Como los investigadores utilizaron en su análisis un nivel de significación α = 0′ 05 y deseaban alcanzar con su test una potencia mı́nima del 90 %, el tamaño muestral mı́nimo deberá ser n0 = 4 σ 2 (zα/2 + zβ )2 4 · 2′ 752 · (1′ 96 + 1′ 28)2 = = 317′ 55 2 λM 12 al ser zα/2 = z0′ 025 = 1′ 96 y zβ = z0′ 1 = 1′ 28. Por tanto, el tamaño muestral de ensayo deberá ser n0 = 318 y los individuos a elegir de cada grupo (la asignación), n1 = n2 = n0 /2 = 159. D 12 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud no dependiente de p1 . Esta transformación de la variable se denomina transformación angular. Tamaño muestral del ensayo Ya estamos en condiciones de determinar el tamaño muestral del ensayo en el caso de dos poblaciones binomiales X1 ; B(1, p1 ) y X2 ; B(1, p2 ) y en el que contrastamos la hipótesis nula H0 : p1 = p2 . En este caso, si el tamaño muestral del ensayo clı́nico en cada población es suficientemente grande, el estadı́stico p̂1 tendrá como distribución aproximada  p̂1 ; N p1 , s  p1 (1 − p1 )  n1 por lo que, por la transformación angular será p √ arc-sen( p1 ) , 1 √ 2 n1 ! p √ arc-sen( p2 ) , 1 √ 2 n2 ! arc-sen( p̂1 ) ; N y, análogamente, será arc-sen( p̂2 ) ; N y, por tanto, como contrastar H0 : p1 = p2 es equivalente a contrastar H0 : √ √ √ √ arc-sen( p1 ) = arc-sen( p2 ), es decir H0 : arc-sen( p1 ) − arc-sen( p2 ) = 0, podemos utilizar el estadı́stico de contraste arc-sen( p p̂1 ) − arc-sen( p p̂2 ) ; N √ r √ arc-sen( p1 ) − arc-sen( p2 ) , 1 1 + 4 n1 4 n2 aceptando H0 : p1 = p2 cuando y sólo cuando sea arc-sen( p p̂1 ) − arc-sen( p p̂2 ) ∈ −zα/2 r 1 1 + , zα/2 4 n1 4 n2 r 1 1 + . 4 n1 4 n2 Respecto a la potencia del test, que es lo que nos ocupa, frente a una alternativa p1 = π1 , p2 = π2 , será arc-sen( p p̂1 ) − arc-sen( p p̂2 ) ; N √ √ arc-sen( π1 ) − arc-sen( π2 ) , r 1 1 + 4 n1 4 n2 con lo que, haciendo exactamente los mismos cálculos que en la sección anterior, el tamaño muestral mı́nimo del ensayo de tamaño α, para una potencia 1 − β será D 13 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos n0 = (zα/2 + zβ )2 √ √ (arc-sen( π1 ) − arc-sen( π2 ))2 y los de cada población n1 = n2 = n0 /2, y todo esto suponiendo que los tamaños muestrales van a ser suficientemente grandes como para que sea válida la aproximación normal, suponiendo además que podemos despreciar el término de la función de potencia que comentamos más arriba. Ejemplo 1.4 En un trabajo llevado a cabo por Smith y otros en 1994 se pretendı́a comparar dos métodos de tratamiento de una obstrucción maligna del conducto biliar inferior. Uno se realizaba con cirugı́a mediante un bypass biliar y el otro mediante una inserción endoscópica. La comparación de ambos métodos se pretendı́a llevar a cabo mediante la realización de un ensayo clı́nico en el que se observara si el paciente no habı́a fallecido a los 30 dı́as de finalizado el tratamiento. El modelo matemático con el que formalizarı́amos el ensayo se basarı́a en la observación de dos variables dicotómicas X1 ; B(1, p1 ) y X2 ; B(1, p2 ) las cuales tomarı́an el valor 1, éxito, en el caso de que el individuo tratado, respectivamente, con el método 1 ó 2, sobreviviera. Los dos métodos se considerarı́an equivalentes si se pudiera aceptar la hipótesis nula de igualdad de las probabilidades de éxito H0 : p1 = p2 . El equipo de Smith et al. (1994) consideró un nivel de significación 0′ 05, y una potencia del 95 % para detectar un cambio en la tasa de mortalidad del 20 % al 5 %. La fórmula a emplear será, por tanto, n0 = (zα/2 + zβ )2 √ √ (arc-sen( π1 ) − arc-sen( π2 ))2 √ √ en donde zα/2 = z0′ 05/2 = z0′ 025 = 1′ 96, zβ = z0′ 05 = 1′ 645, arc-sen( π1 ) = arc-sen( 0′ 2) = √ √ ′ ′ 0 4636 y arc-sen( π2 ) = arc-sen( 0′ 05) = 0 2255, con lo que obtendremos un tamaño muestral del ensayo igual a n0 = (zα/2 + zβ )2 (1′ 96 + 1′ 645)2 = = 229′ 21 √ √ (arc-sen( π1 ) − arc-sen( π2 ))2 (0′ 4636 + 0′ 2255)2 con lo que el tamaño del ensayo clı́nico (si queremos obtener, al menos, la potencia deseada) deberá ser de n0 = 230 individuos (a medida que aumentamos el tamaño del ensayo aumentamos la potencia). La afijación (el número de individuos a aplicar cada uno de los dos tratamientos) será de n1 = n2 = n0 /2 = 115. Como muestra de que, en cuanto el tamaño del ensayo clı́nico sea un poco grande, podemos despreciar sin problemas el término que comentamos más arriba, éste es en el caso de dos poblaciones binomiales igual a  Φ −zα/2 − √ Φ  arc-sen( π1 ) − arc-sen( π2 )  que con los datos del ejemplo es igual a q 0′ 2381 −1 96 − p ′ √ 1 230 1 4 n1 ! + 1 4 n2 = 0′ 0000000127. D 14 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Observemos, por último, que si ahora quisiéramos detectar un cambio en la tasa de mortalidad del 50 % al 35 %, en lugar del 20 % al 5 %, el tamaño del ensayo serı́a n0 = (1′ 96 + 1′ 645)2 (1′ 96 + 1′ 645)2 √ √ = ′ = 560′ 17 (0 7854 + 0′ 6331)2 (arc-sen( 0′ 5) − arc-sen( 0′ 35))2 es decir, mucho mayor que antes, aunque la diferencia entre ambas tasas de mortalidad siga siendo del 15 %. 1.5. Métodos de asignación Una vez determinado el tamaño muestral n0 que debe tener el ensayo clı́nico para alcanzar una potencia determinada, una cuestión de sumo interés es el de la asignación (a veces denominada afijación), consistente en el reparto de los n0 individuos entre las poblaciones a comparar; es decir, supuesto que sólo comparamos dos poblaciones, ¿cuántos individuos de los n0 deben formar el grupo tratamiento? (los restantes pasarán a formar parte del grupo control) y, ¿cómo se asignará a los pacientes uno u otro tratamiento? Una respuesta obvia serı́a la de ir tirando una moneda y si sale cara el individuo irı́a, por ejemplo, al grupo tratamiento y si sale cruz, al grupo control. Esto harı́a que posiblemente el tamaño de la asignación de cada uno de los dos grupos no fuera el mismo y eso, implicarı́a una pérdida de potencia. Además, con objeto de evitar posibles sesgos no deseados en los resultados, es muy recomendable que el paciente no conozca qué tratamiento se le aplica (single-blind trial), de ahı́ la utilización de placebos, aunque, por otro lado, últimamente se habla del efecto placebo como una mejora subjetiva del paciente, recomendándose también comparar dos poblaciones, una tratada con placebo y otra no tratada con nada, para averiguar si realmente existe este efecto placebo. También es muy recomendable que el médico desconozca qué tratamiento se le va a aplicar a cada paciente en concreto, con objeto de evitar de nuevo posibles sesgos (double-blind trial). Centrándonos en la potencia del test para la comparación de dos poblaciones normales, como el que vimos en la sección anterior, en el caso de que fuera σ1 = σ2 = λ, serı́a  P ot(n1 ) = 1 − Φ zα/2 − q 1 1 n1 + 1 n0 −n1  s  = Φ función que si derivamos e igualamos a cero,  n1 (n0 − n1 ) − zα/2  n0 D 15 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos s P ot′ (n1 ) = φ   (n0 − 2 n1 )/n0 n1 (n0 − n1 ) − zα/2  · p =0 n0 2 n1 (n0 − n1 )/n0 0.4 0.0 0.2 Pot(n1) 0.6 0.8 vemos que sólo se va a anular cuando el segundo factor sea cero (la función de densidad φ de la normal no se anula nunca); es decir, cuando sea n1 = n0 /2, valor que corresponde a un máximo de la función. La figura 1.2 muestra el caso de que sea α = 0′ 05 y n0 = 30; como se ve, la potencia crece a medida de que n1 crece, alcanzando su máximo en n0 /2 = 15, decreciendo a continuación. 0 5 10 15 20 25 30 n1 Figura 1.2 :Potencia en función de la asignación, para el caso de poblaciones normales Por tanto, si a los individuos que se van incorporando al ensayo, los vamos asignando a uno u otro grupo al azar de forma independiente y equiprobable y resulta una asignación desigual, es decir, no balanceada, estaremos perdiendo potencia en el test. Tampoco podremos finalizar las asignaciones de forma no aleatoria cuando hayamos llegado a la mitad del tamaño muestral del ensayo (es decir, si el ensayo debe tener tamaño muestral n0 = 30 y ya hemos asignado 15 individuos al grupo control y 13 al grupo tratamiento, no debemos asignar D 16 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud a los dos últimos al grupo tratamiento), puesto que no estarı́amos ante una asignación completamente aleatoria. En el siguiente apartado veremos algunas maneras de realizar la asignación de forma aleatoria, manteniendo una asignación igual. Apuntamos, no obstante que, salvo que la asignación sea muy desproporcionada, no se perderá mucha potencia y, en ocasiones puede que hasta sea conveniente el considerar un ensayo no balanceado, como por ejemplo cuando probamos un nuevo tratamiento y deseamos obtener mucha información sobre él; en esta situación tomamos más individuos de la población a la que aplicamos el nuevo tratamiento que de la otra población y luego calculamos la potencia del ensayo clı́nico para ver si no ha disminuido de la mı́nima deseada. 1.5.1. Grupos de tratamientos permutados aleatoriamente Si queremos comparar dos tratamientos y el tamaño de nuestro ensayo clı́nico se fijó en n0 = 6 individuos, de forma que deseamos aplicar cada uno de los dos tratamientos a tres individuos para tener un experimento balanceado, uno puede pensar en asignar uno de los dos tratamientos al individuo que se incorpora al ensayo mediante un mecanismo de azar equivalente a lanzar una moneda, el cual puede consistir en elegir una muestra aleatoria de tamaño 6 de una binomial B(1, 0′ 5). Si se utiliza el software del curso ejecutando (1), obtendrá secuencias como la dada en (2), que lleva a aplicar al primer individuo incorporado al estudio, el tratamiento denominado 1, al segundo paciente incorporado al estudio el otro tratamiento, denominado 0, y ası́ sucesivamente, aplicando a cuatro pacientes el tratamiento 1 y a cuatro el 0, con lo que no tendrı́amos un ensayo no balanceado. > rbinom(6,1,0.5) [1] 1 0 1 0 0 0 (1) (2) Una forma alternativa de asignar de forma aleatoria y equiprobable los dos tratamientos a los 6 individuos del estudio según vayan llegando, obteniendo además un ensayo balanceado, es la de escribir primero todas las posibles alternativas de colocar tres unos y tres ceros. Éstas serán las permutaciones con repetición de 6 elementos, uno de los cuales se repite 3 veces y otro 3 veces (véase CB-sección 3.6); su número es RP63,3 = y su expresión 6! = 20 3! 3! D 17 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos 1. 4. 7. 10. 13. 16. 19. 111000 110001 101001 100011 001101 010101 011010 2. 5. 8. 11. 14. 17. 20. 110100 101100 100110 000111 001110 010110 011100 3. 6. 9. 12. 15. 18. 110010 101010 100101 001011 010011 011001 ahora elegirı́amos al azar de forma equiprobable uno de los 20 números y si obtenemos, por ejemplo, el 15 = {0, 1, 0, 0, 1, 1}, irı́amos aplicando a los individuos que se fueran incorporando al ensayo la secuencia de tratamientos número 15; es decir, al primer individuo que se incorpore al ensayo le aplicaremos el tratamiento 0, al segundo el tratamiento 1, y ası́ sucesivamente hasta el sexto, al cual le aplicarı́amos el tratamiento 1. El conjunto de 20 secuencias como las anteriores se denomina grupo de tratamientos permutados aleatoriamente, en este caso, de longitud 6. En inglés suelen denominarse random permuted blocks, pero esta denominación podrı́a confundirse con un tipo de Diseño de Experimento, sobre el que hablaremos más tarde. Como el número de individuos a los que se aplicará el ensayo clı́nico suele ser elevado, suelen utilizarse grupos de tratamientos permutados aleatoriamente de longitud 4, cuyo número serı́a RP42,2 = 4! =6 2! 2! y su expresión 1. 1100 4. 0011 2. 1001 5. 0110 3. 1010 6. 0101 sorteando después, de forma equiprobable, los números {1, 2, 3, 4, 5, 6} hasta formar una muestra del tamaño requerido por el ensayo clı́nico. Ası́ por ejemplo, si queremos que nuestro ensayo tenga un tamaño muestral igual a 20 individuos elegirı́amos primero de forma equiprobable e independiente cinco números de entre {1, 2, 3, 4, 5, 6} y si obtenemos, por ejemplo, los números 1, 4, 2, 1, 3, encadenarı́amos una sucesión de tratamientos de módulo 4, según los números seleccionados, resultando la siguiente sucesión de tratamientos a aplicar: 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0 Es decir, al primer y segundo individuos incorporado al estudio se le aplica el tratamiento 1, al tercero el tratamiento 0 y ası́ sucesivamente, hasta el vigésimo individuo que se le aplicarı́a el tratamiento 0. D 18 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Por supuesto existen otras posibles longitudes de grupos de tratamientos permutados aleatoriamente, dependiendo del número de individuos a seleccionar finalmente. Además, existen más variaciones sobre esta cuestión que no analizaremos con detalle, como por ejemplo, para evitar el posible sesgo que supone que el doctor sepa que tratamiento le va a aplicar al último paciente de un modulo; ası́ por ejemplo, si estamos utilizando una serie de tratamientos de modulo 4, una vez que sepa el doctor el tratamiento que se les ha aplicado a los tres primeros pacientes de la serie, dado que debe haber dos pacientes a los que se les aplica cada uno de los dos tratamientos, sabrá con certeza qué tratamiento se le va a aplicar a este último paciente. Esto se soluciona con los denominados grupos de tratamientos permutados aleatoriamente de longitud aleatoria los cuales consisten en combinar aleatoriamente dos grupos de tratamientos de longitud fija como los anteriormente descritos. Ası́ por ejemplo, se sortea primero con probabilidad 0′ 5 si se utiliza un grupo de tratamientos permutados aleatoriamente de longitud 4 o de longitud 6; una vez seleccionado el grupo se aplica el método antes descrito, con lo que no se tendrá conocimiento exacto de cuál es el tratamiento que viene a continuación puesto que el médico no sabrá qué longitud tiene el grupo de tratamientos. Por último, en el caso de que se esté considerando un Diseño por Bloques 3 aleatorizados (véase CB-sección 8.3) con el que eliminar una fuente de variación adicional no deseada del material soporte (en el caso de los ensayos clı́nicos, una fuente de variación adicional no deseada debida a los individuos), habrá de elegir una serie de grupos de tratamientos permutados aleatoriamente en cada uno de los bloques. 1.6. Análisis de los resultados En las secciones anteriores hemos determinado cuál deberı́a ser el tamaño de la muestra a utilizar en un ensayo clı́nico; también hemos analizado cómo debı́a dividirse ese tamaño muestral entre los grupos a comparar, e inclusive hemos estudiado cómo debı́an elegirse los individuos del ensayo, de forma que no se produjeran sesgos en los resultados. Hasta ahora, en toda esta primera parte del capı́tulo, nuestros esfuerzos han ido encaminados en obtener unos datos lo más representativos posible de las poblaciones que querı́amos comparar, de forma que la materia prima fuera de la mejor calidad. El análisis de esos resultados obtenidos constituye la segunda parte del ensayo clı́nico y, posiblemente, la más importante. No obstante, esta sección será breve puesto que la mayorı́a de los Métodos Estadı́sticos a utilizar en el 3 también denominados en ocasiones estratos D 19 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos mencionado análisis fueron ya estudiados en CB, por lo que no volveremos a revisarlos aquı́. Entre ellos podemos destacar los Intervalos de Confianza (CB-capı́tulo 6), los cuales deberán ser aplicados según las diversas situaciones (supuestas) que dieron origen a los datos obtenidos (poblaciones normales o no necesariamente normales, muestras pequeñas o grandes, varianzas conocidas o desconocidas, iguales o no, ...). No obstante, la herramienta estadı́stica más utilizada será, sin duda, el Contraste de Hipótesis (CB-capı́tulo 7) con la que podremos comparar las dos poblaciones en estudio. Si tenemos más de dos poblaciones (tratamientos) a comparar, la técnica del Análisis de la Varianza (CB-capı́tulo 8) en sus diversas modalidades (Diseño Completamente Aleatorizado, Diseño por Bloques, Diseño de Cuadrado Latino, ...) será el Método Estadı́stico adecuado a utilizar. Por último, si existe información relevante que desea ser incorporada en el análisis estadı́stico, de forma que no se distorsionen los resultados al partir los individuos seleccionados de condiciones (relacionadas con el ensayo) distintas, nos valdremos del Análisis de la Covarianza (CB-capı́tulo 11). Por tanto, los mencionados capı́tulos de CB contienen análisis de ensayos clı́nicos que pueden ser revisados. Lo que haremos en esta sección será analizar un ensayo clı́nico más, comentando algunas cuestiones adicionales. En concreto, analizaremos los resultados obtenidos en un ensayo clı́nico llevado a cabo por Hommel y otros en 1986, en pacientes de nefropatı́a, una dolencia del riñón que termina produciéndose como complicación médica en enfermos de diabetes. Como uno de los problemas que puede agravar la nefropatı́a es la presión sanguı́nea alta, el propósito que se persigue con el ensayo clı́nico es averiguar si, entre pacientes con nefropatı́a diabética dependientes de la insulina, es efectivo un medicamento denominado Captopril, en la reducción de la presión sanguı́nea sistólica. Para ello se determinó al azar un grupo tratamiento, a cuyos nueve individuos se les aplicó Captopril, y un grupo control, a cuyos siete pacientes se les aplicó un placebo. La variable observada fue la presión sanguı́nea sistólica (en mmHg) al cabo de una semana del comienzo del experimento, valor que denominaremos X1 para los individuos del grupo tratamiento y X2 para los del grupo control. Los resultados obtenidos por el equipo de Hommel fueron los dados en la tabla 1.1, Si modelizamos la situación suponiendo que las dos variables observadas siguen distribuciones normales, X1 ; N (µ1 , σ1 ) y X2 ; N (µ2 , σ2 ), lo que queremos averiguar con nuestro ensayo clı́nico es si puede aceptarse la hipótesis µ1 < µ2 , por lo que deberemos contrastar la hipótesis nula H0 : µ1 ≥ µ2 , frente a la alternativa H1 : µ1 < µ2 . Como los tamaños muestrales son pequeños, deberemos utilizar un test D 20 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud basado en la t de Student, para lo que resulta imprescindible la hipótesis de normalidad. (Más adelante relajaremos esta condición.) En estas condiciones, lo primero que debemos decidir si es aceptable considerar las varianzas poblaciones σ12 y σ22 como iguales o distintas. Captopril Paciente 1 2 3 4 5 6 7 8 9 Placebo Paciente 1 2 3 4 5 6 7 X1 137 120 141 137 140 144 134 123 142 X2 139 134 136 151 147 137 149 Tabla 1.1 Aunque siempre es criticable el utilizar los mismos datos, tanto para contrastar las hipótesis de interés sobre las medias poblacionales como las relativas a las varianzas, H0 : σ12 = σ22 frente a H1 : σ12 6= σ22 , habitualmente suele hacerse. Fundamentalmente, lo que implica esta doble utilización de los datos, es que hay que tener mucho cuidado con las conclusiones, las cuales deberı́an ser mucho más claras en un sentido de aceptación o rechazo de la hipótesis nula de interés. De los datos de la tabla 1.1 se obtiene que es x1 = 135′ 33, x2 = 141′ 86, 2 S1 = 71 y S22 = 48′ 14, por lo que aceptaremos la hipótesis H0 : σ12 = σ22 cuando y sólo cuando sea (CB-sección 7.5) i S12 h ∈ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 . 2 S2 Inclusive fijando un nivel de significación α = 0′ 2, el intervalo de aceptación anterior es h Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 i = = F8,6;0′ 9 , F8,6;0′ 1 = " 1 F6,8;0′ 1 , F8,6;0′ 1 # 1 , 2′ 983 = [0′ 3748 , 2′ 983] ′ 2 6683 y como es S12 /S22 = 1′ 4749, se aceptará la hipótesis nula con un p-valor mayor que 0′ 2, por lo que podemos aceptar la igualdad de las varianzas con gran seguridad. D 21 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos Ahora, la hipótesis nula de interés, H0 : µ1 ≥ µ2 se aceptará cuando y sólo cuando sea (CB-sección 7.6) s Como es (n1 − s x1 − x2 1)S12 + (n2 − 1)S22 n1 + n2 − 2 (n1 − 1)S12 s x1 − x2 + (n2 − n1 + n2 − 2 1)S22 ≥ tn1 +n2 −2;1−α . 1 1 + n1 n2 s 1 1 + n1 n2 = −1′ 6547 el p-valor del test será P {t14 < −1′ 6547} = 0′ 0601, lo que indica una decisión no muy clara (al estar entre 0′ 01 y 0′ 2). Si contrastamos la hipótesis nula de igualdad de las medias de los tratamientos, H0 : µ1 = µ2 , como mandan los cánones de los ensayos clı́nicos, aceptarı́amos H0 cuando fuera s |x1 − x2 | (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 s 1 1 + n1 n2 ≤ tn1 +n2 −2;1−α/2 siendo, en este caso, el p-valor del test, P {|t14 | > 1′ 6547} = 2·0′ 0601 = 0′ 1202, algo más indicativo de aceptar la hipótesis de igualdad de las dos medias poblacionales. Para obtener más información, suele acompañarse a todo análisis de resultados de un ensayo clı́nico, el intervalo de confianza, que para las caracterı́sticas que en las que aquı́ nos movemos serı́a (CB-sección 6.6), con un coeficiente de confianza del 95 %, " x1 − x2 ∓ tn1 +n2 −2;α/2 r (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 r 1 1 + n1 n2 # = [−14′ 98 , 1′ 93] el cual puede interpretarse como que puede existir un pequeño sesgo positivo de que se eleve (menos de 2 mmHg) la presión sanguı́nea (de consecuencias prácticamente irrelevantes) pero que es muy probable que disminuya de forma significativa esa presión sanguı́nea, puesto que la mayor parte del intervalo de confianza cubre la parte negativa de la diferencia de medias. Esto podrı́a deshacer la situación de indecisión, proporcionada por el test anterior, y hacer que nos decantáramos por aplicar el tratamiento con Captopril. Si analizamos con algún detalle la suposición de normalidad de los datos X1 y X2 , vemos en la figura 1.3 del gráfico de normalidad (CB-sección 14.4.1) D 22 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 120 125 130 X1 135 140 de los datos del grupo tratamiento, que un par de valores están algo alejados de la lı́nea, lo que puede augurar una posible falta de normalidad. -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 Quantiles of Standard Normal Figura 1.3 : Gráfico de normalidad de los datos X1 De hecho, el coeficiente de curtosis k= n X i=1 (xi − x)4 /(nS 4 ) − 3 está algo alejado de cero, ya que toma el valor k = −1′ 0701. No obstante y aunque no tenemos muchos datos, el test de normalidad basado en dicho coeficiente de curtosis (CB-sección 14.4.3), proporciona un valor del estadı́stico de contraste (de distribución aproximadamente normal) igual a p |k| = 0′ 6553 24/n1 lo que da un p-valor igual a 2·P {Z > 0′ 6553} = 0′ 5122 sugiriendo la aceptación de la hipótesis nula de normalidad. Respecto a los datos del grupo control, el gráfico de normalidad dado en la figura 1.4 también sugiere una posible ausencia de normalidad. No obstante, el coeficiente de curtosis es igual a D 23 Al f on so Ga rcı́ aP ére z. UN E 135 140 X2 145 150 Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos -1.0 -0.5 0.0 0.5 1.0 Quantiles of Standard Normal Figura 1.4 : Gráfico de normalidad de los datos X2 k= n X i=1 (xi − x)4 /(nS 4 ) − 3 = −2′ 019885 y el test de normalidad basado en dicho coeficiente de curtosis proporciona un valor del estadı́stico de contraste igual a |k| = 1′ 09086 24/n2 p de p-valor igual a 2 · P {Z > 0′ 1′ 09086} = 0′ D 24 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud (hacemos notar que, aunque los empates no se deberı́an de presentar por ser las observaciones de tipo continuo, no podemos deshacerlas puesto que no tenemos los datos originales que podrı́an discriminarlos. No obstante, recordamos que el estadı́stico de contraste U es el número de X2 que preceden a cada X1 fijo, por lo que contaremos eso, los que preceden, es decir, los que son estrictamente menores, haciendo en consecuencia irrelevante el orden de los datos empatados). Contando ahora el número de X2 (valores subrayados) que preceden (es decir, que son estrictamente menores) que cada X1 (que cada valor sin subrayar) fijo, se obtendrá, al ir variando los X1 , un valor de U igual a U = (0 + 0 + 0) + (2 + 2) + (4 + 4 + 4 + 4) = 20 (por ejemplo, no existe ningún X2 que preceda al primer X1 = 120, de ahı́ el primer 0 de U ). Ahora, aceptaremos H0 : M1 ≥ M2 cuando y sólo cuando sea U > m·n−cα. Como ambos tamaños muestrales son aproximadamente iguales y mayores que 5, podemos aproximar el punto crı́tico cα por una normal, según se explica en CB, quedando en nuestro caso, para un nivel de significación α = 0′ 05, mn + zα cα = 2 s m n (n + m + 1) 9·7 = + 1′ 645 12 2 s 9 · 7 (7 + 9 + 1) = 47′ 04. 12 Como es U = 20 > m·n−cα = 15′ 96, no tenemos suficiente evidencia como para rechazar la hipótesis nula y aceptar la de interés, por lo que deberemos aceptar H0 . Inclusive, si contrastamos la hipótesis nula H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptaremos esta hipótesis nula cuando y sólo cuando sea m · n − cα/2 < U < cα/2 es decir, 63 − 50′ 02 < U < 50′ 02 ya que para un nivel de significación α = 0′ 05, será cα/2 mn = +zα/2 2 Y como es s m n (n + m + 1) 9·7 = +1′ 96 12 2 s 9 · 7 (7 + 9 + 1) = 50′ 02. 12 D 25 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos 12′ 98 < 20 = U < 50′ 02 aceptarı́amos incluso la igualdad de los efectos medianos de ambos grupos. El gráfico de normalidad dado por la figura 1.3 sugiere la posible presencia de dos datos anómalos al comienzo del recorrido de los valores del grupo tratamiento. De la misma manera, la figura 1.4 parece indicarnos un par de outliers en los extremos de los valores X2 . Todo esto sugiere la utilización de Métodos Robustos; en concreto el test robusto de comparación de dos poblaciones, basado en las medias α-recortadas (MR-sección 4.2), contrastando ahora la hipótesis nula H0 : µα,1 ≥ µα,2 frente a la alternativa H1 : µα,1 < µα,2 . Si utilizamos el software del curso de Estadı́stica Avanzada, introducirı́amos los datos en (1) y (2) y, considerando un porcentaje de recorte de α = 0′ 2 y un nivel de significación 0′ 05, ejecutarı́amos la sentencia yuen(X1,X2,0.2,0.1) en (3). > X1<-c(137,120,141,137,140,144,134,123,142) > X2<-c(139,134,136,151,147,137,149) > yuen(X1,X2,0.2,0.1) $ci [1] -13.912438 3.283867 $siglevel [1] 0.2876732 $dif [1] -5.314286 $se [1] 4.717804 $teststat [1] 1.126432 $crit [1] 1.822491 $df [1] 9.485389 (1) (2) (3) (4) (5) D 26 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Como el extremo superior del intervalo de Yuen, obtenido en (4), es 3,283867 > 0, debemos aceptar la hipótesis nula. De hecho el p-valor del test, es la mitad del valor dado en (5), e igual a 0′ 1438. La generalización robusta del test de Wilcoxon-Mann-Whitney (MR-sección 4.3) para contrastar de nuevo la igualdad de las medianas poblacionales H0 : M1 = M2 frente a H1 : M1 6= M2 , se podrı́a realizar ejecutando la función mee del curso de Estadı́stica Avanzada, que para un nivel de significación 0′ 05 se harı́a con la expresión (6), > mee(X1,X2) [1] "Peligro:Empates. Aunque las distribuciones sean idénticas no es necesariamente P(X<Y)=0.5" $phat [1] 0.6349206 $ci [1] 0.3322171 0.8587498 (6) (7) obteniendo en (7) el intervalo de aceptación el cual, al contener al 1/2, conduce también a aceptar la hipótesis nula de no influencia del Captopril. Por tanto, a pesar de la interpretación un tanto generosa que hicimos con el intervalo de confianza, todos los tests (tanto paramétricos, como robustos, como no paramétricos) nos indican que debemos concluir con que no existen diferencias significativas entre el grupo tratamiento y el grupo control, no siendo efectivo, al parecer, el uso del Captopril en la reducción de la presión sanguı́nea sistólica. No obstante, el equipo de Hommel pensó que la presión sanguı́nea inicial, antes de realizar el experimento, podı́a influir en los resultados, por lo que utilizó los valores de ésta (baseline value) B, los cuales habı́a anotado antes de realizar el experimento en los pacientes de ambos grupos, B1 y B2 , realizando un Análisis de la Covarianza para un factor y un diseño completamente aleatorizado (CB-sección 11.2). Los valores obtenidos por el equipo de Hommel son los que aparecen en la tabla 1.2, D 27 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos Captopril Paciente B1 1 147 2 129 3 158 4 164 5 134 6 155 7 151 8 141 9 153 X1 137 120 141 137 140 144 134 123 142 Placebo Paciente B2 1 133 2 129 3 152 4 161 5 154 6 141 7 156 X2 139 134 136 151 147 137 149 Tabla 1.2 Realizando un Análisis de la Covarianza con SAS (EASAS-sección 5.9), en el que planteamos las dos hipótesis nulas habituales, H0 : µ1 = µ2 , y H0′ : X y B no están relacionadas linealmente, (es decir, el Análisis de la Covarianza es innecesario), obtenemos la siguiente salida Dependent Variable: despues Source Model Error Corrected Total Source medica antes Source medica antes DF Sum of Squares Mean Square F Value Pr > F 2 576.69244 288.346220 8.37 0.0046 13 447.74506 34.441928 15 1024.43750 R-Square Coeff Var Root MSE despues Mean 0.562936 4.246929 5.868725 138.1875 DF Type I SS Mean Square F Value Pr > F 1 1 167.5803571 409.1120836 167.5803571 409.1120836 4.87 11.88 0.0460 0.0043 DF Type III SS Mean Square F Value Pr > F 1 1 202.0350785 409.1120836 202.0350785 409.1120836 5.87 11.88 0.0308 0.0043 (8) (9) obteniendo en (8) el p-valor del primer test que conduce a rechazar, ahora con mucha mayor claridad, la igualdad de los efectos medios del grupo tratamiento y el grupo control. (Sin la información adicional de la presión sanguı́nea antes de realizar el experimento, se obtuvo más arriba un p-valor de 0′ 1202 conducente a aceptar H0 ). Finalmente en (9) se obtiene el p-valor del segundo test, rechazando mucho más claramente que no es adecuado el Análisis de la Covarianza, por lo que D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 28 es este análisis el adecuado, con el cual, como acabamos de decir, se confirma que existen diferencias significativas entre el grupo tratamiento y el grupo control que, por los valores de las medias muestrales, lleva a concluir con que sı́ resulta efectivo el Captopril en la reducción de la presión sanguı́nea sistólica en enfermos de nefropatı́a diabética dependientes de la insulina. 1.7. Enfoques alternativos Vamos a estudiar en los dos siguientes apartados dos enfoques alternativos de ensayos clı́nicos; de hecho, sólo podemos calificar de ensayos clı́nicos a los analizados en el siguiente apartado, ya que el meta-análisis, con el que concluimos el capı́tulo, es una técnica de gran actualidad que permite aunar los resultados obtenidos en verdaderos ensayos clı́nicos. 1.7.1. Ensayos cruzados (Crossover trials) En los ensayos considerados hasta ahora (en ocasiones denominados Parallel group designs) se aplicaba un tratamiento a cada paciente, obteniéndose un sólo dato como respuesta a ese tratamiento. Este esquema es razonable en pacientes que, una vez realizado el ensayo, se curan. No obstante, en pacientes que no sanan después de aplicado el tratamiento (como, por ejemplo, los diabéticos) es posible modificar esta forma de actuación, aplicando todos los tratamientos a comparar, en cada uno de los pacientes seleccionados en el ensayo. Este tipo de ensayos recibe el nombre de Ensayos cruzados (Crossover trials). Con ellos es posible comparar, supuesto que consideráramos dos tratamientos, la respuesta obtenida al aplicar el tratamiento A con la obtenida al aplicar el tratamiento B, en el mismo paciente, evitando ası́ el posible sesgo del material soporte donde se realiza el experimento (en este caso, el paciente), obteniendo de esta manera resultados más precisos. No obstante, el propósito de este tipo de ensayos sigue siendo el mismo de siempre, contrastar la hipótesis nula, H0 : µA = µB , frente a la alternativa, H1 : µA 6= µB . El diseño AB/BA En el caso de comparación de sólo dos tratamientos, A y B (uno de los cuales puede ser un placebo), el ensayo cruzado más simple es el diseño AB/BA. Para realizarlo se asignan al azar los n pacientes del ensayo clı́nico a dos grupos: Los n1 pacientes del Grupo 1 recibirán los tratamientos en el orden AB D 29 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos y los n2 = n − n1 del Grupo 2 en el orden BA. La etapa en la que se aplica uno u otro tratamiento se denomina periodo, de forma que las asignaciones en el diseño AB/BA serı́an las dadas en la tabla 1.3 Periodo 1 A B Grupo 1 Grupo 2 Periodo 2 B A Tabla 1.3 obteniendo, después de realizar el ensayo, datos como los que aparecen en la tabla 1.4 Grupo 1 Grupo 2 Periodo 1 x11 . . . x1n1 y21 . . . y2n2 Periodo 2 y11 . . . y1n1 x21 . . . x2n2 Tabla 1.4 Si obtenemos la variable diferencia, puesto que son datos apareados, en los individuos del primer grupo Vi = X1i − Y1i , i = 1, ..., n1 y de la misma manera en los del segundo grupo, Wi = Y2i − X2i , i = 1, ..., n2 , tendrı́amos datos obtenidos de dos poblaciones independientes (Grupo 1 y Grupo 2) como los de la tabla 1.5 Grupo 1 Grupo 2 v1 . . . vn1 w1 . . . wn2 Tabla 1.5 por lo que podremos contrastar la hipótesis nula de igualdad de las medias poblacionales de ambos grupos, H0 : µV = µW de la forma habitual, como se estudió en CB-secciones 7.6 y 7.7. Por ejemplo, supuesto que V y W son normales (cosa que se tiene si X e Y lo son) con varianzas desconocidas pero iguales y los tamaños muestrales son pequeños, aceptarı́amos H0 : µV = µW cuando y sólo cuando sea s |v − w| 2 (n1 − 1)Sv2 + (n2 − 1)Sw n1 + n2 − 2 s 1 1 + n1 n2 ≤ tn1 +n2 −2;α/2 . Pero, como es µV = E[V ] = E[X1 − Y1 ] = E[X1 ] − E[Y1 ] = µA − µB y µW = E[W ] = E[Y2 − X2 ] = µB − µA , con el contraste t de Student anterior de comparación de dos muestras independientes, basado en v − w, D 30 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud estarı́amos contrastando la hipótesis nula H0 : µA − µB = µB − µA , es decir, H0 : 2 µA = 2 µB , o bien H0 : µA = µB , la hipótesis de interés. En situaciones distintas (poblaciones no normales, muestras grandes, etc.) utilizaremos el correspondiente test para la comparación de las dos muestras obtenidas como diferencia de los datos originales. Ejemplo 1.5 Senn y Auclair (1990) realizaron un ensayo cruzado AB/BA en el que se compararon dos broncodilatadores, salbutamol S y formoterol F , en pacientes con asma. Los pacientes fueron aleatoriamente asignados a dos grupos; en el Grupo 1 el orden fue F − S y en el Grupo 2, S −F . La variable observada fue el máximo caudal en espiración (MFE) en litros por minuto. Los resultados en los pacientes de ambos grupos, en ambos periodos, aparecen en la tabla 1.6 Grupo 1 (orden F − S) Grupo 2 (orden S − F ) Paciente 1 2 3 4 5 6 7 1 2 3 4 5 6 Periodo 1 310 310 370 410 250 380 330 370 310 380 290 260 90 Periodo 2 270 260 300 390 210 350 365 385 400 410 320 340 220 Tabla 1.6 Según vimos más arriba, para contrastar la hipótesis nula H0 : µS = µF , frente a la alternativa de H1 : µS 6= µF , deberemos realizar un contraste, en las condiciones que admitan los datos, con el que comparar las variables diferencia. Si suponemos que los valores MFE, para ambos fármacos, siguen distribuciones normales, podemos realizar un test de la t de Student con el software del curso avanzado, con la siguiente secuencia de instrucciones: > > > > > > > v1<-c(310,310,370,410,250,380,330) v2<-c(270,260,300,390,210,350,365) v<-v1-v2 w1<-c(370,310,380,290,260,90) w2<-c(385,400,410,320,340,220) w<-w1-w2 t.test(v,w,var.equal=T) Two Sample t-test data: v and w (1) D 31 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos t = 4.3249, df = 11, p-value = 0.001205 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 45.77619 140.65238 sample estimates: mean of x mean of y 30.71429 -62.50000 (2) Ejecutando (1) obtenemos el p-valor del test en (2) que conduce a rechazar la hipótesis nula anterior. Observemos que si hubiéramos realizado un ensayo clı́nico como los planteados hasta esta sección (es decir, un parallel group trial) considerando sólo el primer periodo, ejecutarı́amos (3) y obtendrı́amos en (4) un p-valor que indicarı́a aceptar la igualdad de los dos tratamientos. > t.test(v1,w1,var.equal=T) (3) Two Sample t-test data: v1 and w1 t = 1.1883, df = 11, p-value = 0.2597 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -45.8596 153.4786 sample estimates: mean of x mean of y 337.1429 283.3333 (4) Con el diseño AB/BA hemos eliminado del análisis la variabilidad entre los pacientes. Apuntamos también que con la utilización de Métodos Robustos en la comparación de los dos tratamientos (MR-sección 4.2.3) hubiéramos obtenido las mismas conclusiones, ya que, ejecutando (5), obtendrı́amos en (6) un p-valor conducente a rechazar la igualdad de los efectos medios de ambos tratamientos (al igual que antes). Análogamente, ejecutando (7), obtendrı́amos en (8) un p-valor que indica la igualdad de ambos medicamentos, al considerar tan solo el primer periodo. > yuen(v,w) $ci [1] 32.43511 154.56489 $siglevel [1] 0.01393364 $dif [1] 93.5 $se [1] 21.34282 (5) (6) D 32 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud $teststat [1] 4.380865 $crit [1] 2.861145 $df [1] 3.719139 > yuen(v1,w1) $ci [1] -64.10747 129.10747 $siglevel [1] 0.4247106 $dif [1] 32.5 (7) (8) $se [1] 37.34014 $teststat [1] 0.8703771 $crit [1] 2.587229 $df [1] 4.895166 En todo este apartado hemos supuesto que el efecto del tratamiento aplicado en el periodo 1 no persiste durante el periodo 2; es decir, que no existe el denominado efecto remanente (carryover effect). 1.7.2. Meta-Análisis En este punto resulta superfluo decir que los ensayos clı́nicos no siempre conducen a decisiones claras, y no sólo porque el p-valor asociado a un ensayo clı́nico quede en el intervalo (0′ 01 , 0′ 2), sino porque, en algunas ocasiones, distintos Métodos Estadı́sticos conducen a distintas conclusiones. Además, un mismo ensayo clı́nico repetido al cabo de un año puede contradecir al que le precedió, simplemente porque algunas condiciones han cambiado durante en ese tiempo. Por otro lado, resulta evidente la gran cantidad de publicaciones sobre, prácticamente, el mismo ensayo clı́nico. Parece pues razonable utilizar algún tipo de técnica que permita utilizar D 33 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos toda la información disponible sobre un mismo ensayo, de manera que se pueda sacar una conclusión global la cual, en principio, deberı́a ser más fiable puesto que se basa en varios ensayos y no sólo en uno. Esto es básicamente el MetaAnálisis, revisiones cuantitativas de la evidencia disponible, realizadas, en la mayorı́a de los casos, sin disponer de los datos originales. Además, el hecho de que algunos comités éticos exijan esta revisión de la evidencia disponible antes de autorizar un nuevo ensayo clı́nico, ha hecho del Meta-Análisis un tema de gran actualidad, el cual debe valorarse en su justa medida, ya que pueden existir grandes diferencias en ensayos clı́nicos que se aúnan en un meta-análisis. Ya para empezar, la primera dificultad práctica con la que nos encontramos es la gran cantidad de publicaciones (más de 20.000 revistas biomédicas publicando un total de más de 2.000.000 de artı́culos cada año), lo que dificulta notablemente la localización de trabajos relevantes sobre el tema en el que estemos interesados. Una dirección de internet frecuentemente utilizada para esta búsqueda es http://www.medscape.com o su análogo http://www.medline.com aunque es necesario inscribirse para obtener la mayorı́a de las informaciones interesantes. En todo caso, supongamos que ya contamos con resultados de ensayos, publicados o no, sobre un determinada comparación de tratamientos en la que estemos interesados. Estos ensayos, con los que haremos el meta-análisis, se denominan ensayos identificados. En los dos siguientes apartados haremos dos tipos distintos de meta-análisis. Estimación del efecto global mediante el uso de efectos fijos Uno de los objetivos habituales del meta-análisis es la estimación del denominado efecto global θ del tratamiento que está siendo valorado, basándonos en los ensayos identificados. θ será la diferencia de medias de las dos poblaciones a comparar, o la diferencia de proporciones, o también puede ser una log odds ratio (en TA-capı́tulos 8 y 9 se estudian otros análisis de log odds ratios). Denominaremos θ̂1 , ..., θ̂k a los k estimadores de θ obtenidos en los k ensayos identificados. El modelo que consideramos en este apartado se denomina de efectos fijos porque supone que todos los ensayos identificados estiman la misma cantidad θ. Es decir, supondremos aquı́ que la única variabilidad que afecta a cada estimador θ̂i es su varianza en el muestro, Vi . D 34 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Si los θ̂i fueran de la forma diferencia de medias muestrales, xi1 − xi2 , serı́a (si las muestras son pequeñas, las poblaciones normales con varianzas desconocidas pero iguales), Vi = (ni1 − 1)(S1i )2 + (ni2 − 1)(S2i )2 ni1 + ni2 · i i ni1 + ni2 − 2 n1 n2 Si los θ̂i fueran de la forma diferencia de proporciones muestrales, p̂i1 − p̂i2 , serı́a Vi = p̂i1 (1 − p̂i1 ) p̂i2 (1 − p̂i2 ) + ni1 ni2 Por último, puede ocurrir que los resultados de los k ensayos identificados fueran los de una tabla de frecuencias absolutas como la tabla 1.7 Ensayo 1 .. . i .. . k Grupo 1 Muertos Vivos a1 b1 .. .. . . ai bi .. .. . . ak bk Grupo 2 Muertos Vivos c1 d1 .. .. . . ci di .. .. . . ck dk Tabla 1.7 con lo que cada uno de los θ̂i serı́a el logaritmo de una razón de frecuencias o prevalencias (log odds ratio) de la forma di = OR ai /bi ai · di = ci /di ci · bi es decir, el cociente entre la razón de muertos respecto a vivos en el primer grupo y la razón de muertos respecto a vivos en el grupo segundo, o mejor, la prevalencia en el primer grupo dividido por la prevalencia en el segundo. Una OR < 1 indica que es más eficaz (porque se muere menos gente) el tratamiento al que fue sometido el Grupo 1. Una OR > 1 indica que es más efectivo el tratamiento del Grupo 2. Suele añadirse el factor 0′ 5 a todas esas cantidades para reducir el sesgo de los estimadores y para que, en el caso de que alguna de las frecuencias absolutas de la tabla genérica 1.7 sea cero, la odds ratio dé un valor absurdo, utilizándose por tanto la expresión di = OR (ai + 0′ 5) · (di + 0′ 5) . (ci + 0′ 5) · (bi + 0′ 5) D 35 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos d i es estimada por La varianza Vi de θ̂i = log OR 1 1 1 1 + + + . ′ ′ ′ ai + 0 5 bi + 0 5 ci + 0 5 di + 0′ 5 Vi = d i en lugar de las pro(Se toman como estimadores θ̂i los logaritmos de las OR pias odds ratios porque con el logaritmo obtenemos una mejor aproximación a la distribución normal). Como estimador de θ, el modelo de efectos fijos utiliza θ̂F = Pk i=1 wi · θ̂i Pk i=1 wi = k X i=1 wi Pk i=1 wi θ̂i en donde es wi = 1/Vi . La varianza de θ̂F es 1 V (θ̂F ) = ( k X wi )2 k X 1 1 1 wi2 V (θ̂i ) = ( k X wi )2 1 k X 1 1 wi2 Vi = ( k X wi )2 k X 1 1 wi = 1 k X wi 1 Si√puede admitirse para los θ̂i distribuciones aproximadamente normales N (θ, Vi ), también θ̂F tendrá una distribución aproximadamente normal (estimando también insesgadamente a θ), por lo que un intervalo de confianza para θ, de coeficiente de confianza 1 − α, será (siguiendo para la obtención de dicho intervalo el guión establecido en las secciones 6.1 ó 6.2 de CB)  1 IF = θ̂F − zα/2 qP k 1 1 wi , θ̂F + zα/2 qP k 1 wi  . Ejemplo 1.6 Crowley y otros (1990) recogieron los resultados de 12 ensayos clı́nicos llevados a cabo para analizar el efecto de una terapia con esteroides (habitualmente dexametasona) en comparación con un tratamiento placebo, en futuras madres, para la prevención del sı́ndrome de agotamiento respiratorio (RDS) en los recién nacidos. La variable de respuesta fue dicotómica: el bebé murió (por RDS) o no. Los resultados aparecen en la tabla 1.8. D 36 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Ensayo 1 2 3 4 5 6 7 8 9 10 11 12 Grupo de esteroides Muertos Vivos 36 496 1 68 3 61 5 51 2 79 0 38 14 117 36 335 7 114 1 70 2 65 5 29 Grupo control Muertos Vivos 60 478 5 56 12 46 7 64 10 53 0 42 20 117 37 335 13 111 5 70 7 52 5 26 Tabla 1.8 Los elementos que son necesarios en la determinación del estimador θ̂F y del intervalo de confianza, aparecen en la tabla 1.9. Por ejemplo, los odds ratios del primer ensayo y su varianza son respectivamente c1 = OR 36′ 5 · 478′ 5 = 0′ 58 496′ 5 · 60′ 5 1 1 1 1 + + ′ + = 0′ 048. 36′ 5 496′ 5 60 5 478′ 5 Los valores que representan las demás columnas aparecen indicados en la primera fila de la propia tabla 1.9. V1 = Ensayo 1 2 3 4 5 6 7 8 9 10 11 12 Sumas ci OR 0′ 58 0′ 22 0′ 21 0′ 92 0′ 16 1′ 10 0′ 71 0′ 97 0′ 54 0′ 27 0′ 27 0′ 90 Vi 0′ 0480 0′ 8808 0′ 4035 0′ 3500 0′ 5265 4′ 0495 0′ 1348 0′ 0601 0′ 2251 0′ 8769 0′ 5676 0′ 4352 wi = 1/Vi 20′ 833 1′ 135 2′ 478 2′ 857 1′ 899 0′ 247 7′ 418 16′ 639 4′ 442 1′ 140 1′ 762 ′ P 2 298 ′ wi = 63 148 Pesos: wi / 0′ 330 0′ 019 0′ 039 0′ 046 0′ 030 0′ 004 0′ 117 0′ 263 0′ 070 0′ 018 0′ 028 0′ 036 1 P wi ci θ̂i = log OR −0′ 5447 −1′ 5141 −1′ 5606 −0′ 0834 −1′ 8326 0′ 0953 −0′ 3425 −0′ 0305 −0′ 6162 −1′ 3093 −1′ 3093 −0′ 1054 wi · θ̂i −11′ 348 −1′ 718 −3′ 867 −0′ 238 −3′ 480 0′ 023 −2′ 541 −0′ 507 −2′ 737 −1′ 493 −2′ 307 −0′ 242 −30′ 455 Tabla 1.9 En esta tabla observamos que los pesos wi correspondientes a los ensayos más numerosos son mayores, por lo que éstos influirán más en el estimador, como debe de ser. De esta tabla obtenemos que el estimador del efecto global proporcionado por el meta-análisis de efectos fijos es D 37 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos θ̂F = Pk w · θ̂i 30′ 455 i=1 i =− ′ = −0′ 4823 P k i=1 y, por tanto, el del odds ratio, wi 63 148 c = exp{θ̂F } = 0′ 6174 OR indicando, al ser este estimador menor que 1, que es más efectivo el tratamiento suministrado al grupo 1, en el sentido de que hay menos fallecimientos (por RDS) con este tratamiento a base de esteroides. El intervalo de confianza del 95 % para θ = log OR será IF =  1 θ̂F − zα/2 q Pk 1 = wi , θ̂F + zα/2 q 1 Pk 1 wi   1 1 , −0′ 4823 + 1′ 96 √ −0 4823 − 1 96 √ 63′ 148 63′ 148 ′ ′ = [−0′ 7829 , −0′ 2357] con lo que el intervalo de confianza para el odds ratio será (tomando las exponenciales de los extremos anteriores), [0′ 4824 , 0′ 79] que, como vemos, tiene un extremo superior bastante alejado de 1, confirmando las conclusiones que obtuvimos más arriba para el estimador puntual. Estimación del efecto global mediante el uso de efectos aleatorios En el apartado anterior estudiamos cómo se podı́a estimar el efecto global θ, suponiendo que los k ensayos identificados analizaban todos ellos el mismo efecto global θ. De hecho, se suele contrastar (aunque con poca potencia) la hipótesis nula de modelo de efectos fijos mediante el estadı́stico de contraste Q= k X i=1 wi (θ̂i − θ̂F )2 [1 2.77685(2)71]11TfΩ2.880TdΩ[(=)-10176 D 38 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud √ estimamos un efecto θi mediante un estimador θ̂i con distribución N (θi , Vi ). Éste es el modelo de efectos aleatorios. Es decir, podemos representar este modelo como un proceso de selección en dos etapas: En la primera obtenemos una muestra aleatoria θ1 , θ2 , ..., θk , en donde cada una de ellas tiene distribución N (θ, σ), la misma que la población de donde se obtuvieron. En la segunda estimamos cada uno de estos θi (en el ensayo i-ésimo regido por un modelo de efectos fijos como el estudiado en el apartado√anterior) con el estimador θ̂i , el cual suponemos sigue una distribución N (θi , Vi ). Por tanto, la media y la varianza de cada θˆi será h i h i E θ̂i = E1 E2 [θ̂i /θi ] = E1 [θi ] = θ i h V θ̂i = E1 V2 (θ̂i /θi ) + V1 E2 [θ̂i /θi ] = E1 (Vi ) + V1 (θ1 ) = Vi + σ 2 en donde la segunda igualdad se obtiene de aplicar el teorema de Madow. (Para estos resultados, muestreo con submuestreo, puede verse por ejemplo Azorı́n y Sánchez-Crespo, 1986, pág. 174). Ası́ pues, el meta-análisis de efectos aleatorios supone un procedimiento en dos etapas en donde con cada θ̂i estimamos (insesgadamente) θ con una varianza σ 2 + Vi , varianza a la que denominaremos 1/w̃i ; es decir, w̃i = σ2 1 . + Vi Ahora, como estimador de θ, el modelo de efectos aleatorios utiliza θ̂A = Pk k · θ̂i X w̃i θ̂i = Pk i=1 w̃i i=1 w̃i i=1 i=1 w̃i Pk P estimador que tendrá varianza 1/ w̃i . Por tanto, un intervalo de confianza para θ basado en θ̂A , de coeficiente de confianza 1 − α, será  1 IA = θ̂A − zα/2 qP k 1 1 w̃i , θ̂A + zα/2 qP k 1 w̃i  . Como es σ 2 ≥ 0 será w̃i ≤ wi para todo i = 1, ..., k, con lo que el intervalo de confianza suministrado por el meta-análisis de efectos aleatorios tiene mayor longitud (es menos preciso) que el de efectos fijos, cosa lógica puesto que el de efectos aleatorios recoge la incertidumbre de una mayor variabilidad. D 39 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 1. Fundamentos Estadı́sticos de los Ensayos Clı́nicos Por último, digamos que el cálculo de los w̃i requiere del conocimiento de σ 2 , valor que suele estimarse por ( c 2 σ = máx 0 , P Q−k+1 P P wi − ( wi2 )/ wi ) c2 será más preciso cuanto en donde Q viene dado por [1.2]. El estimador σ mayor sea k. Ejemplo 1.6 (conclusión) Aunque el estadı́stico [1.2] toma, para los datos de este ejemplo, un valor Q = 14′ 05, lo que proporciona un p-valor igual a P {χ211 > 14′ 05} = 0′ 2302391, que conducirı́a a aceptar la hipótesis de un meta-análisis de efectos fijos, vamos a determinar los estimadores suministrados por uno de efectos aleatorios. El estimador de σ 2 serı́a σb2 = 0′ 061, siendo el estimador de efectos aleatorios de θ = log OR igual a θ̂A = −0′ 549 y, por tanto, el estimador de efectos aleatorios de la odds ratio, c = exp{−0′ 549} = 0′ 58 y el intervalo de confianza para la odds ratio, [0′ 42 , 0′ 79]. OR Como se ve, valores muy semejantes a los obtenidos con el de efectos fijos, por ser σb2 muy pequeño. Ejemplo 1.7 El trabajo cientı́fico que dio origen al meta-análisis se debe a Lau y su equipo, el cual fue publicado en 1992 en la revista New England Journal of Medicine y que trataba sobre el uso de trombolı́ticos para el tratamiento del infarto de miocardio. Los trombolı́ticos son denominados, frecuentemente, caza-coágulos (clot-busters) porque son administrados inmediatamente después del infarto con objeto de que disuelvan el coágulo de sangre y se disminuya en todo lo posible el daño causado en el corazón. Entre los años 1959 y 1988 se habı́an realizado 33 ensayos clı́nicos utilizando este medicamento. En todos ellos se asignaban al azar pacientes al grupo tratamiento (a los que se suministraba el trombolı́tico) o al grupo control (a los que se les administraba placebo), observándose si el paciente sobrevivı́a o fallecı́a. En http://www.statsol.ie/metaanalysis/pics/cma.gif aparece el resultado de los 33 ensayos en los que se observa que casi todos indican aceptar la hipótesis nula de ausencia de diferencias significativas entre ambos grupos al ser los p-valores de 26 de ellos mayores que 0′ 05 (aunque dos son dudosos, European 3 y Wisenberg). Sólo en 7 de los ensayos se obtuvieron p-valores menores que 0′ 05 (aunque el cuarto es muy dudoso) indicando la eficacia de los trombolı́ticos. En el lado derecho aparece el forest plot en el que se van representando los intervalos de aceptación de cada ensayo y la lı́nea vertical de la hipótesis nula OR = 1, es decir ningún efecto, (una OR < 1 indica un mejor comportamiento del grupo tratado y una OR > 1 un mejor comportamiento del grupo control). Si la lı́nea vertical corta el intervalo del ensayo, éste no es estadı́sticamente significativo. Lau y su grupo efectuaron el meta-análisis, el cual aparece en la última lı́nea, para que el obtuvieron una odds ratio igual a 0′ 768 y un p-valor menor que 0′ 0001. Como resultado de esta meta-análisis, hoy en dı́a se utilizan los trombolı́ticos en el tratamiento estándar de un ataque al corazón. D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 40 Una de las razones para que sucediera esta aparente contradicción es que los tamaños muestrales (columna N Total) no son adecuados en la mayorı́a de los ensayos. D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2 Análisis de Supervivencia 2.1. Introducción Se denomina Análisis de Supervivencia a una serie de técnicas y métodos estadı́sticos desarrollados para el análisis de datos referentes al tiempo que transcurre hasta que un determinado suceso ocurre. Estos sucesos se denominan fallos, por lo que el Análisis de Supervivencia es, en definitiva, un análisis de tiempos de fallo T1 , ..., Tn , concebidos éstos como realizaciones de n variables aleatorias independientes e idénticamente distribuidas, aunque con una particularidad, éstos son variables no negativas, ya que ningún tiempo de fallo puede serlo. Existe una peculiaridad adicional en estos datos como veremos más adelante: algunos pueden ser valores censurados. Estos tiempos de fallo suelen ser variables biomédicas, como por ejemplo tiempos de vida de pacientes, aunque también pueden ser variables de tipo industrial, como por ejemplo las duraciones de determinados componentes electrónicos. Sobre estas variables se realizarán las habituales inferencias: estimación por punto, intervalos de confianza y contrastes de hipótesis, referentes a algún parámetro desconocido de su distribución. No obstante, es muy habitual que existan una serie de covariables o predictores X1 , ..., Xk bajo el control del investigador, que suponemos influyen sobre la variable en observación Tiempo de Fallo T . Por ello, dividiremos el Análisis de Supervivencia en dos grandes secciones. En la primera no supondremos la existencia de esas covariables explicativas, estando interesados, entre otras cosas, en estimar y especificar un modelo para la distribución de tiempo de fallo, es decir, para la distribución de T . En la segunda analizaremos el tipo de relación existente entre la variable tiempo de fallo T y k variables explicativas X1 , ..., Xk , es decir, realizaremos un Análisis de Regresión. Pero, como comentábamos más arriba, tanto en la primera como en la 41 D 42 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud segunda parte, va a estar presente una caracterı́stica muy peculiar del Análisis de Supervivencia: algunos datos pueden ser censurados, es decir, algunos de los tiempos de fallo observados pueden faltar, bien porque éstos hayan salido del experimento antes de fallar (por ejemplo hayan muerto por alguna causa diferente de la que se estaba estudiando, o porque hayan dejado de ir a la consulta), o simplemente porque el experimento haya terminado sin que se hubiera producido el fallo. Ejemplo 2.1 La siguiente tabla recoge, Pike (1966), los dı́as transcurridos desde que varias ratas fueron inoculadas con el carcinogén DMBA hasta su muerte por cáncer vaginal. Se distinguieron dos grupos a causa de dos tratamientos previos a dicha inoculación, siendo el propósito del experimento averiguar si existen diferencias significativas entre estos dos pretratamientos a la hora de prevenir el mencionado cáncer. Grupo 1 143 220 164 227 188 230 188 234 190 246 192 265 206 304 209 216∗ 213 244∗ 216 Grupo 2 142 233 344∗ 156 239 163 240 198 261 205 280 232 280 232 296 233 296 233 323 233 204∗ Sin embargo, no podemos realizar, por ejemplo, un test de la t de Student o algún test no paramétrico de comparación de dos poblaciones porque entre los datos anteriores existen cuatro datos censurados —los marcados con asterisco—. Cuatro ratas murieron por una causa diferente a la objeto de estudio; no obstante, estas cuatro observaciones no deben eliminarse, ya que aportan información interesante: sus tiempos de fallo son superiores a 216, 244, 204 y 344 dı́as respectivamente. 2.2. Tipos de censura A continuación vamos a estudiar diversas maneras en las que puede producirse la pérdida de tiempos de fallo. Sean T1 , ..., Tn , n tiempos de fallo, es decir, n variables aleatorias independientes, identicamente distribuidas y no negativas. Censura de tipo I Este tipo de censura, también denominada censura temporal es la más habitual desde un punto de vista práctico tanto en ingenierı́a como en estudios médicos. Supongamos, por ejemplo, que ponemos a prueba un grupo de motores con objeto de observar sus tiempos de fallo, es decir, cuándo dejan de funcionar. Si éstos tienen un tiempo de fallo muy elevado, no podemos esperar a que fallen todos los motores para obtener las observaciones, por lo que parece razona- D 43 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia ble parar el experimento en un tiempo prefijado tc , obteniendo solamente los tiempos de fallo inferiores a tc . Situaciones semejantes se presentan en Medicina cuando, antes de iniciar un experimento, tenemos un tiempo prefijado para terminar el estudio y debemos censurar aquellos tiempos de fallo no obtenidos antes de terminar dicho experimento. Es decir, en lugar de observar los tiempos de fallo T1 , ..., Tn , los datos que tenemos son realizaciones de las variables Z1 , ..., Zn en donde Zi = ( Ti si Ti ≤ tc tc si tc < Ti Censura de tipo II Como acabamos de decir, en algunas ocasiones, especialmente en ingenierı́a, debido a que los tiempos de fallo de las componentes son muy elevados, no suele interesar esperar a la obtención de todos ellos, siendo razonable utilizar un tipo de censura temporal. No obstante, puede ocurrir que cuando se alcance el tiempo tc no haya fallado ningún individuo todavı́a, resultando el experimento muy poco significativo. Una forma alternativa de actuar es concluir el experimento después del résimo fallo, siendo en ese caso las observaciones, en función de los estadı́sticos ordenados, Z(1) = T(1) , ..., Z(r) = T(r) , ..., Z(r+1) = T(r) , ..., Z(n) = T(r) es decir, detenemos el experimento cuando tengamos r tiempos de fallo; los restantes n − r serán de censura. Censura aleatoria En la censura de tipo I observábamos el tiempo de fallo Ti , i = 1, ..., n siempre y cuando éste fuera menor o igual que una constante prefijada. La censura aleatoria generaliza este concepto considerando, en lugar de una constante, una variable aleatoria Ci , denominada tiempo de censura —la cual representa aquellas posibles causas no consideradas en el experimento y que provocan la censura—, observando el tiempo de fallo cuando sea Ti ≤ Ci . Nuestros datos, por tanto, serán observaciones Zi , las cuales además sabremos si son tiempos de fallo o de censura. En concreto, los datos serán pares de la forma (Z1 , δ1 ), ..., (Zn , δn ), en donde Zi = mı́n{Ti , Ci } y δi = ( 1 si Ti ≤ Ci 0 si Ti > Ci D 44 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud siendo las variables Ti y Ci independientes, i = 1, ..., n. Otros tipos de censura En todos los tipos de censura anteriores, hablábamos de censura por la derecha, la cual se caracteriza porque los valores de la variable tiempo de fallo son demasiado grandes como para ser observados todos. De forma análoga puede considerarse la censura por la izquierda en la que observamos (Z1 , ǫ1 ), ..., (Zn , ǫn ), siendo Zi = máx{Ti , Ci } y ǫi = ( 1 si Ti ≥ Ci 0 si Ti < Ci y siendo de nuevo las variables Ti y Ci independientes, i = 1, ..., n. Esta situación se da, por ejemplo, cuando un psicólogo quiere averiguar la edad a la cual un cierto grupo de niños aprende a realizar una determinada tarea —leer, escribir, etc—. Los niños que sepan realizar la tarea en cuestión al comienzo del estudio, constituyen los datos censurados por la izquierda; los que aprendan durante el estudio aportarán los tiempos de fallo. Y, ¿qué ocurre si algunos no llegan a aprender en el tiempo que dura el experimento?; en ese caso, nos faltarı́an los tiempos de fallo anteriores al comienzo del experimento y posteriores a su conclusión, y habları́amos de censura por intervalos. 2.3. Distribuciones de tiempo de fallo Después de analizar diversas formas de censura, vamos a definir las principales funciones a utilizar en un análisis de supervivencia. En esta sección supondremos una población homogénea, es decir, sin presencia de covariables. La presencia de covariables será considerada en la siguiente sección. Sea T una variable aleatoria no negativa la cual representa el tiempo de fallo de un individuo. La distribución de probabilidad de T se puede especificar de varias maneras aunque, en Análisis de Supervivencia, tres son particularmente útiles: La función de supervivencia, la función de densidad (o masa) y la función tasa de azar. La función de supervivencia de T se define como la probabilidad de que T sea al menos tan grande como t; es decir, S(t) = P {T ≥ t} t≥0 función claramente no creciente, continua por la izquierda, con S(0) = 1 y lı́mt→∞ S(t) = 0. Aunque es posible encontrar distribuciones de tiempo de fallo discretas (o mixtas), en la mayorı́a de las situaciones que trataremos, las distribuciones de D 45 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia tiempo de fallo serán continuas, las cuales están caracterizadas por la función de densidad, definida de la forma habitual d S(t) dt f (t) = − siendo, por tanto, S(t) = Z ∞ f (u) du f (t) ≥ 0 , t Z y ∞ f (t) dt = 1 0 y siendo el tiempo medio de supervivencia µ= Z ∞ t f (t) dt. 0 La tercera función habitualmente utilizada para caracterizar la distribución de tiempo de fallo es la denominada tasa de azar, definida como λ(t) = f (t) S(t) la cual representa la tasa instantánea de fallo en T = t condicionada a haber sobrevivido hasta el tiempo t. Como es d log S(t) dt integrando y usando que S(0) = 1 se obtiene que λ(t) = − S(t) = exp − y Z t λ(u) du 0 f (t) = λ(t) exp − Z 0 t λ(u) du [2.1] [2.2] lo que demuestra que la tasa de azar también caracteriza la distribución de tiempo de fallo. 2.3.1. Algunas distribuciones de tiempo de fallo Como antes, sea T ≥ 0 una variable aleatoria tiempo de fallo siendo Y = log T . A continuación vamos a estudiar algunas de las distribuciones de tiempo de fallo —distribuciones de T — más habituales, las cuales caracterizaremos en términos de T o de Y . D 46 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud No hemos incluido entre ellas otras tres de sobra conocidas; nos referimos a la distribución normal, la distribución gamma y la distribución logı́stica. Distribución exponencial Se define a través de su tasa de azar. Diremos que T sigue una distribución exponencial si su tasa de azar es constante; es decir, si ∀t ≥ 0 λ(t) = λ > 0 es decir, que la propensión al fallo de un individuo en un momento dado t es independiente del tiempo que éste lleve vivo. Por esta razón se dice que la distribución exponencial tiene una propiedad de falta de memoria. A partir de [2.1] y [2.2] será ahora S(t) = e−λ t f (t) = λ e−λ t y t ≥ 0. Por tanto, una forma razonable de comprobar si los tiempos de fallo siguen una distribución exponencial los logaritmos del estimador de la es representar función de supervivencia, ti , log Ŝ(ti ) y ver si están aproximadamente en lı́nea recta de pendiente (−λ) negativa. Un sencillo cambio de variable determina que la función de densidad de Y = log T es f (y) = exp y − α − ey−α −∞<y <∞ con lo que si expresamos Y de la forma Y =α+W la distribución de W tendrı́a por densidad f (w) = exp {w − ew } [2.3] denominada distribución del valor extremo (mı́nimo). Se puede demostrar que la distribución exponencial se obtiene como lı́mite del mı́nimo, de muestras extraı́das de distribuciones con soporte en (0, ∞), lo que justifica su uso en estudios de supervivencia en donde un mecanismo complejo falla cuando alguno de sus componentes falla. Distribución de Weibull Si permitimos que la tasa de azar dependa (potencialmente) del tiempo, λ(t) = λ p (λ t)p−1 D 47 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia se obtiene la denominada distribución de Weibull de dos parámetros, λ, p > 0, la cual es una generalización de la distribución exponencial. Su función de supervivencia y densidad serán, por tanto, S(t) = exp {−(λ t)p } y f (t) = λ p (λ t)p−1 exp {−(λ t)p } t≥0 con lo que una forma razonable que comprobar si nuestros tiempos de fallo siguen una distribución de Weibull, es ver si los pares log ti , log(− log Ŝ(ti )) están aproximadamente en lı́nea recta de pendiente p. Como la función de densidad de Y = log T es f (y) = 1 y−α exp − e(y−α)/σ σ σ −∞<y <∞ con σ = p−1 y α = − log λ, podemos escribir Y = α+σW en donde W tiene la distribución del valor extremo del apartado anterior. Distribución log-normal Si expresamos de nuevo Y = log T de la forma Y = α+σW ahora con W ; N (0, 1), la distribución de T se dice log-normal. Su función de densidad es p f (t) = √ exp t 2π ( −p2 (log λt)2 2 ) en donde, como antes, α = − log λ y σ = 1/p. Si Φ representa la función de distribución de la N (0, 1), la función de supervivencia de T es S(t) = 1 − Φ(p log λt). El modelo log-normal es sencillo de aplicar cuando no hay censura, aunque, cuando ésta está presente, los cálculos se hacen laboriosos, siendo habitual, en ese caso, utilizar una distribución de tiempo de fallo log-logı́stica, la cual es una buena aproximación de la log-normal. Distribución log-logı́stica Si expresamos Y = log T de la forma D 48 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Y = α+σW se pueden obtener diversas distribuciones de tiempo de fallo, considerando diferentes distribuciones para W . En concreto, si consideramos para W una distribución logı́stica, con función de densidad f (w) = ew (1 + ew )2 la distribución de T se dirá log-logı́stica, la cual tiene por función de densidad f (t) = λ p (λt)p−1 [1 + (λt)p ]−2 en donde de nuevo es λ = e−α y p = 1/σ. Como antes dijimos, una de las ventajas de esta distribución es que su función de supervivencia y su tasa de azar son muy manejables. Éstas son respectivamente, S(t) = 2.4. 1 1 + (λ t)p y λ(t) = λ p (λt)p−1 1 + (λt)p Modelos de Regresión En análisis de supervivencia es habitual contar con la presencia de determinadas variables independientes X1 , ..., Xk , denominadas covariables, las cuales aportan información sobre la variable dependiente tiempo de fallo T (o su logaritmo Y ). El propósito de esta sección es modelar la relación existente entre las covariables independientes y la variable dependiente. Se trata, por tanto, de un Análisis de la Regresión en donde, como es habitual, el propósito principal será, primero, determinar qué covariables son significativas a la hora de explicar la variable dependiente T y, segundo, estimar los parámetros α, β1 , ..., βk que relacionan las covariables significativas y la variable dependiente. Ahora, no obstante, tendremos la peculiaridad de que pueden aparecer datos censurados y que la distribución de los errores aleatorios no siempre será normal. 2.4.1. Modelos de regresión Exponencial y Weibull Si admitimos que la tasa de azar sea función de las covariables xt = (x1 , ..., xk ) de la forma xt β λ(t; x) = λ e = λ exp ( k X i=1 xi βi ) D 49 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia con β = (β1 , ..., βk )t , la tasa de azar será constante para cada x, como corresponde a una distribución exponencial, aunque dependiente ahora de las mencionadas covariables. En términos de Y = log T el modelo anterior se puede expresar de la forma Y = α − xt β + W donde α = − log λ y W una variable aleatoria con distribución del valor extremo (mı́nimo) dada por [2.3]. La distribución de Weibull también puede generalizarse a un modelo de regresión, esencialmente de la misma manera, modelando la tasa de azar de la forma λ(t; x) = λ p (λ t)p−1 ex tβ O alternativamente, en términos de Y = log T , de la forma Y = α − σxt β + σW donde α = − log λ y σ = 1/p. Los modelos de regresión exponencial y Weibull sugieren dos posibles generalizaciones. Por un lado, generalizar el hecho de que en ambos casos las covariables actúan de forma multiplicativa sobre la tasa de azar; esto dará origen al Modelo de Azar Proporcional. Por otro lado, el que ambos modelos sean log-lineales en el sentido de que las covariables actúan de forma aditiva sobre Y (o multiplicativa sobre T ). Una clase general de modelos log-lineales dará origen al Modelo de Tiempo de Fallo Acelerado. 2.4.2. Modelo de Azar Proporcional El Modelo de Azar Proporcional se define, Cox (1972), como aquel Modelo de Regresión que tiene por tasa de azar una de la forma λ(t; x) = λ0 (t) ex tβ en donde λ0 es una tasa de azar arbitraria denominada tasa de azar base (baseline hazard rate) para una variable tiempo de fallo continua. La función de densidad, dado x, asociada a λ(t; x) será, por [2.2], xt β f (t; x) = λ0 (t) e xt β exp −e Z 0 t λ0 (u) du . D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 50 Por [2.1] se obtiene que la función de supervivencia de T , dado x, será S(t; x) = [S0 (t)]exp{x t β} en donde S0 es la denominada función de supervivencia base S0 (t) = exp − 2.4.3. Z 0 t λ0 (u) du . Modelo de Tiempo de Fallo Acelerado En el modelo de azar proporcional, el efecto multiplicativo de las variables de regresión sobre la tasa de azar, no implicaba ninguna relación directa entre las covariables x y la variable tiempo de fallo T . Supongamos que Y = log T está relacionado con las covariables x vı́a un modelo lineal de la forma Y = xt β + W siendo W una variable de error con distribución base dada por una función de densidad f0 . De ahı́ se obtiene n o T = exp xt β T0 con T0 = exp{W } una variable tiempo de fallo con tasa de azar base, digamos, λ0 , independiente de β. La tasa de azar de T será λ(t; x) = λ0 t e−x siendo la función de supervivencia " S(t; x) = exp − Z 0 tβ e−x t exp{−xt β} tβ [2.4] # λ0 (u) du . De la expresión anterior para la tasa de azar de T se deduce que las covariables xt actuan multiplicativamente sobre T , en lugar de sobre la función λ como ocurrı́a en el modelo anterior. Es decir, en este modelo suponemos la existencia de una tasa de azar base λ0 y, además, que el efecto de las covariables es alterar, a lo largo del tiempo, la tasa de fallo que tiene un individuo; es decir, suponemos que el papel de las covariables x es acelerar (o decelerar) el tiempo de fallo. De ahı́ que el modelo cuya tasa de azar sea la dada por [2.4] reciba el nombre de modelo de tiempo de fallo acelerado. D 51 2.5. Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Estimación de la función de supervivencia Hasta ahora hemos analizado los principales modelos teóricos utilizados en el análisis de supervivencia. En esta sección estudiaremos dos métodos para estimar la distribución de tiempo de fallo a través de la función de supervivencia en poblaciones homogéneas, es decir, en poblaciones donde no se consideran covariables. 2.5.1. Estimador de Kaplan-Meier (Método del lı́mite-producto) Sean t1 < t2 < ... < tk los tiempos de fallo distintos que aparecen en nuestra muestra; si, para j = 1, ..., k , nj representa el número de supervivientes justo antes de tj y dj representa el número de individuos que fallan en tj , el estimador del lı́mite-producto, también denominado estimador de KaplanMeier, de la función de supervivencia se define como Ŝ(t) =          si 0 ≤ t < t1 1 Y {j:tj nj − dj nj ≤t} si t ≥ t1 función que será, por tanto, constante entre cada dos tiempos de fallo y continua por la derecha. Si nk = 1 entonces Ŝ(t) = 0 ∀t ≥ tk , pero si nk > 1, entonces Ŝ(t) queda indeterminado para t > tk . La varianza asintótica de Ŝ(t) se estima por d Ŝ(t)) = Ŝ 2 (t) Var( X {j:tj ≤t} dj nj (nj − dj ) y su desviación tı́pica por la raı́z cuadrada de la cantidad anterior. Ejemplo 2.1 (continuación) El estimador de Kaplan-Meier para el grupo 1 será D 52 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud tj 143 164 188 190 192 206 209 213 216 220 227 230 234 246 265 304 nj 19 18 17 15 14 13 12 11 10 8 7 6 5 3 2 1 dj 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 Ŝ(tj ) 0′ 9474 0′ 8947 0′ 7895 0′ 7368 0′ 6842 0′ 6316 0′ 5789 0′ 5263 0′ 4737 0′ 4145 0′ 3553 0′ 2961 0′ 2368 0′ 1579 0′ 0789 0 en donde, por ejemplo, Ŝ(143) = 19 − 1 18 = = 0′ 9474 19 19 Ŝ(164) = 18 17 · = 0′ 8947 19 18 18 17 15 15 · · = = 0′ 7895 19 18 17 19 ...................................... 9 7 Ŝ(220) = · = 0′ 4145 19 8 ...................................... 9 7 6 5 4 2 Ŝ(246) = · · · · · = 0′ 1579 19 8 7 6 5 3 ...................................... Ŝ(188) = 2.5.2. Método de la tabla de supervivencia Este método se utiliza especialmente cuando los datos vienen agrupados por intervalos I1 , ..., Ik , siendo Ij = [bj−1 , bj ), j = 1, ..., k con b0 = 0 y bk = ∞. Esto suele ocurrir cuando tenemos muchos datos, siendo los extremos bj tiempos de fallo. Si por dj representamos el número de individuos que fallan en el intervalo Ij , por nj el número de supervivientes al comienzo del intervalo Ij y por mj el número de individuos censurados en Ij , para j = 1, ..., k, el estimador de la probabilidad condicionada de fallo en Ij , supuesto que su tiempo de supervivencia es mayor o igual que bj−1 (es decir, supuesto que estaba vivo al comienzo del intervalo) es D 53 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia q̂j =        dj nj − mj /2 si nj > 0 1 si nj = 0 El correspondiente estimador de la función de supervivencia es Ŝ(bj ) = j Y i=1 (1 − q̂i ) j = 1, ..., k definiéndose Ŝ(0) = 1 y Ŝ(t) = Ŝ(bj−1 ) ∀ t ∈ Ij . La función de densidad se estima por Ŝ(tj−1 ) q̂j fˆ(t) = bj − bj−1 ∀ t ∈ Ij y la tasa de azar por λ̂(t) = 2.6. 2 q̂j (bj − bj−1 )(2 − q̂j ) ∀ t ∈ Ij Comparación de curvas de supervivencia En Análisis de Supervivencia suele ser de interés determinar si existe o no diferencia significativa entre dos o más curvas de supervivencia, es decir, entre dos o más poblaciones. Al existir datos censurados, los métodos tradicionales no son válidos, por lo que deben utilizarse tests especı́ficos que tengan en cuenta este hecho. Si por S1 , ..., Sr representamos las funciones de supervivencia poblacionales a comparar, los tests que habitualmente se utilizan para contrastar la hipótesis nula H0 : S1 (t) = · · · = Sr (t), ∀t ≥ 0 son el test de rangos logarı́tmicos, debido a Savage, el test de Wilcoxon en el caso de presencia de datos censurados, y un test de razón de verosimilitudes para datos censurados, que supone una distribución de tiempo de fallo para T exponencial, y que, por tanto, no será válido cuando este supuesto no se pueda admitir. A continuación analizaremos con detalle el test de Savage de rangos logarı́tmicos. 2.6.1. Test de Savage de rangos logarı́tmicos Sean t1 < ... < tk los tiempos de fallo de la muestra combinada resultado de unir las r muestras. Llamaremos dj al número de fallos en tj y nj al número D 54 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud de supervivientes justo antes de tj , j = 1, ..., k, reservando para dij y nij las mismas definiciones en la correspondiente muestra i-ésima, i = 1, ..., r. En cada tj los datos pueden expresarse en forma de tabla de contingencia r × 2 de la forma Población Fallos Supervivientes 1 d1j n1j − d1j ......... ..... .............. i dij nij − dij ......... ..... .............. r drj nrj − drj dj nj − dj Condicional a tj , al ser las r poblaciones independientes, la distribución conjunta del vector (d1j , ..., drj ) tendrá como función de masa el producto de r distribuciones binomiales, es decir, r Y i=1 ! r Y nij dij nij d λj (1 − λj )nij −dij = λj j (1 − λj )nj −dj dij dij i=1 ! en donde λj es la probabilidad condicionada de fallo en tj , igual en las r poblaciones, bajo la hipótesis nula. Por tanto, la distribución condicionada de (d1j , ..., drj /dj ) será una distribución multi-hipergeométrica de función de masa conjunta d λj j (1 − λj )nj −dj ! r Y i=1 nij dij ! nj dj λ (1 − λj )nj −dj dj j = r Y nij dij i=1 nj dj ! ! siendo, por tanto, la media y la varianza marginal para dij /dj iguales a wij = y (Vj )ii = nij dj nj nij (nj − nij ) dj (nj − dj ) n2j (nj − 1) respectivamente, y una covarianza entre dij y dlj igual a (Vj )il = − nij nlj dj (nj − dj ) n2j (nj − 1) D 55 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Por tanto, el estadı́stico vjt = (d1j −w1j , ..., drj −wrj ) tiene media condicionada cero y matriz de covarianzas condicionada Vj . El test de rangos logarı́tmicos se basa en el vector v= k X vj j=1 es decir, el vector del número de fallos observados en cada una de las r poblaciones, menos el correspondiente vector del número de fallos esperados. Si las k tablas de contingencia fueran independientes, la varianza del estadı́stico v serı́a V = V1 + · · · + Vk , estando basado el test de igualdad de las r poblaciones en un test χ2 , ya que el estadı́stico del contraste, vt V −1 v, tiene asintóticamente una distribución χ2r−1 . En general, V −1 deberá ser la inversa generalizada de V , o más sencillamente, el estadı́stico χ2r−1 puede formarse usando r − 1 elementos cualesquiera de v y la correspondiente submatriz (r − 1) × (r − 1) de V . Ejemplo 2.1 (continuación) Como es v= 17 − 12′ 237 19 − 23′ 763 = 4′ 763 −4′ 763 con matriz de covarianzas igual a V = 7′ 263 −7′ 263 −7′ 263 7′ 263 el estadı́stico del test toma el valor vt V −1 v = (4′ 763)2 /7′ 263 = 3′ 12, el cual resulta significativo al 10 %, al compararlo con una χ21 . 2.7. Análisis de Supervivencia con SAS En esta sección estudiaremos cómo ejecutar Análisis de Supervivencia con SAS. Existen tres Procedimientos en SAS, el Procedimiento LIFETEST para poblaciones homogéneas, es decir, sin presencia de covariables; el Procedimiento LIFEREG cuando las haya mediante un modelo de tiempo de fallo acelerado, y el Procedimiento PHREG para el Modelo de azar proporcional. 2.7.1. Procedimiento LIFETEST El procedimiento LIFETEST se utiliza con datos algunos de los cuales pueden ser censurados por la derecha, con objeto de D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 56 Determinar y representar estimadores, Ŝ(t), de la función de supervivencia —el de Kaplan-Meier (sección 2.5.1) y el obtenido por el método de la tabla de supervivencia (sección 2.5.2). Realizar, para el estimador de la función de supervivencia Ŝ(t) elegido, las gráficas {ti , − log(Ŝ(ti ))} y {log ti , log(− log(Ŝ(ti )))} con objeto de averiguar si la distribución de tiempo de fallo es, respectivamente, exponencial o de Weibull. (Sección 2.3.1) Realizar tests de rangos con los que inferir el grado de relación existente entre las covariables y la variable dependiente de tiempo de fallo. Si los datos vienen agrupados por poblaciones, realizar tests de rangos con objeto de contrastar la igualdad entre las funciones de supervivencia de las poblaciones. Especificaciones del procedimiento LIFETEST Como en todo procedimiento SAS existen una serie de especificaciones que permiten adecuar el análisis estadı́stico a realizar. Las más importantes que permite el procedimiento LIFETEST son las siguientes PROC LIFETEST opciones; TIME fallo especificación; STRATA variable (rango); TEST variables; FREQ variable; Todas, excepto TIME, son opcionales. Opciones en PROC LIFETEST Detrás de PROC LIFETEST podemos incluir uno o varios de los siguientes comandos opcionales: • method= pl , lt Mediante la opción method=pl especificamos que el método a utilizar en la estimación de la función de supervivencia es el del producto lı́mite. Si empleamos la opción method=lt requerimos el método de la tabla de supervivencia en la estimación de la distribución de tiempo de fallo. Si no es utiliza esta opción, el procedimiento LIFETEST determina por defecto el del producto lı́mite. D 57 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia • plots= s , ls , lls , h , p Con la opción plots=s se realiza un gráfico de los pares de puntos (ti , Ŝ(ti )) plots=ls se utiliza para realizar un gráfico de los pares de puntos (ti , − log(Ŝ(ti ))) Con plots=lls el gráfico que se optiene es el de los pares (log ti , log(− log(Ŝ(ti )))) plots=h permite obtener un gráfico de los pares (ti , λ̂(ti )) siendo λ̂ el estimador de la tasa de azar obtenido por el método de la tabla de supervivencia. Por último, plots=p lleva a la obtención de un gráfico de los pares de puntos (ti , fˆ(ti )) siendo fˆ el estimador de la función de densidad obtenido por el método de la tabla de supervivencia. Esas dos últimas opciones, en consecuencia, sólo son válidas si se especificó dicho método. Es posible hacer varias especificaciones a la vez, por ejemplo, pidiéndole los tres primeros gráficos, mediante la opción plots=(s,ls,lls) • intervals Utilizada para especificar los extremos de los intervalos a considerar en el método de la tabla de supervivencia. Sentencias especı́ficas en PROC LIFETEST TIME fallo especificación; La sentencia TIME se usa para especificar las variables que definen el tiempo de supervivencia y la variable de censura. La estructura de esta sentencia es TIME fallo<*corte(numero)> mediante la cual indicamos que la variable de tiempo de fallo es fallo. Si, opcionalmente, utilizamos la expresión entre < >, señalaremos que aquellos fallos para los que la variable de censura corte tome el valor numero, son tiempos censurados. D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 58 STRATA variable (rango); La sentencia STRATA especifica la variable o variables que definen las poblaciones (estratos) del análisis. TEST variables; Mediante la sentencia TEST especificamos las covariables numéricas cuyo grado de asociación con la variable dependiente tiempo de fallo T queremos contrastar. El grado de dependencia de cada variable independiente con la variable T es contrastado de forma separada, contrastándose también una correlación múltiple entre el conjunto de covariables y la variable dependiente T . FREQ variable; Mediante esta sentencia indicamos que los valores de la variable variable son frecuencias absolutas, es decir, recuentos de observaciones. Ejemplo 2.1 (continuación) Para analizar los datos es este ejemplo emplearemos el siguiente programa SAS DATA ejemplo1; INPUT dias @@; censura = (dias < 0); dias = abs(dias); if _n_ < 20 then grupo = ’pretrat1’; else grupo = ’pretrat2’; CARDS; 143 164 188 188 190 192 206 209 213 216 220 227 230 234 246 265 304 -216 -244 142 156 163 198 205 232 232 233 233 233 233 239 240 261 280 280 296 296 323 -204 -344 ; PROC LIFETEST plots=(s,ls,lls); TIME dias*censura(1); STRATA grupo; RUN; [1] [2] [3] [4] [5] [6] [7] [8] Con las sentencias DATA indicamos, en primer lugar, [1], que vamos a crear un conjunto de datos SAS al que denominamos ejemplo1. A continuación, [2], con la sentencia INPUT indicamos que la variable que dará origen a los datos la llamaremos dias y que éstos vendrán en formato libre, al añadir @@. Después, [3], definimos la variable lógica censura como los datos negativos, redefiniendo, [4], la variables dias como el valor absoluto de las observaciones. Se definen por último, [5], los dos grupos (estratos) a comparar, formando el grupo 1, pretrat1, las 19 primeras observaciones, y pretrat2 las restantes. La opción plots, [6], nos permitirá obtener gráficos del estimador de la función de supervivencia, el cual por defecto será el de Kaplan-Meier, ası́ como de adecuadas transformaciones suyas. Mediante la sentencia TIME, [7], indicamos qué datos son tiempos de fallo y cuáles de censura. Los tiempos de fallo son aquellos datos proporcionados por la variable dias (40 D 59 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia observaciones positivas puesto que fue redefinida en [4]) menos aquellos en los que además la variable censura tome el valor 1, en cuyo caso la observación será un dato censurado. Por último, mediante la sentencia STRATA señalamos, [8], qué variable se utiliza para formar las poblaciones; en nuestro caso grupo. Con el programa anterior se obtendrı́an los siguientes resultados Product-Limit Survival Estimates GRUPO = pretrat1 DIAS Survival 0.000 143.000 164.000 188.000 188.000 190.000 192.000 206.000 209.000 213.000 216.000 216.000* 220.000 227.000 230.000 234.000 244.000* 246.000 265.000 304.000 1.0000 0.9474 0.8947 . 0.7895 0.7368 0.6842 0.6316 0.5789 0.5263 0.4737 . 0.4145 0.3553 0.2961 0.2368 . 0.1579 0.0789 0 [1] [2] Quantiles 75% 50% 25% Failure Survival Standard Error Number Failed Number Left 0 1 2 3 4 5 6 7 8 9 10 10 11 12 13 14 14 15 16 17 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 0 0 0.0526 0.0512 0.1053 0.0704 . . 0.2105 0.0935 0.2632 0.1010 0.3158 0.1066 0.3684 0.1107 0.4211 0.1133 0.4737 0.1145 0.5263 0.1145 . . 0.5855 0.1145 0.6447 0.1124 0.7039 0.1082 0.7632 0.1015 . . 0.8421 0.0934 0.9211 0.0728 1.0000 0 * Censored Observation [3] 234.000 216.000 190.000 Mean Standard Error 218.757 9.403 [4] [5] Product-Limit Survival Estimates GRUPO = pretrat2 DIAS 0.000 142.000 156.000 163.000 198.000 204.000* 205.000 232.000 232.000 233.000 233.000 233.000 233.000 239.000 240.000 Survival Failure Survival Standard Error 1.0000 0.9524 0.9048 0.8571 0.8095 . 0.7589 . 0.6577 . . . 0.4554 0.4048 0.3542 0 0.0476 0.0952 0.1429 0.1905 . 0.2411 . 0.3423 . . . 0.5446 0.5952 0.6458 0 0.0465 0.0641 0.0764 0.0857 . 0.0941 . 0.1053 . . . 0.1114 0.1099 0.1072 Number Failed Number Left 0 1 2 3 4 4 5 6 7 8 9 10 11 12 13 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 D 60 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 261.000 280.000 280.000 296.000 296.000 323.000 344.000* 0.3036 . 0.2024 . 0.1012 0.0506 . [1] [2] Quantiles 75% 50% 25% 0.6964 0.1031 . . 0.7976 0.0902 . . 0.8988 0.0678 0.9494 0.0493 . . * Censored Observation [3] 280.000 233.000 232.000 14 15 16 17 18 19 19 Mean Standard Error 6 5 4 3 2 1 0 240.795 11.206 [4] [5] NOTE: The last observation was censored so the estimate of the mean is biased. Summary of the Number of Censored and Uncensored Values GRUPO Total Failed Censored %Censored pretrat1 pretrat2 19 21 17 19 2 2 10.5263 9.5238 Total 40 36 4 10.0000 Survival Function Estimates S u r v i v a l D i s t r i b u t i o n F u n c t i o n SDF | | | | | 1.0 +*---------------------------*P | B|-B | P---P | B-*----P | B----|-B | | | 0.8 + P BB | | B----B | P | | P--P | | | BB | PP | 0.6 + | | | PP | | P | | | | | PP BB | | | 0.4 + PP B | PP B---B | | | | PP B---B | | | | P-P | 0.2 + | B--B | P---P | | | | | | B-----B | P-------P B | | 0.0 + P [6] D 61 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia | | | | | -+----+----+----+----+----+----+----+----+----+----+----+----+----+----+ 0 25 50 75 100 125 150 175 200 225 250 275 300 325 350 DIAS Censored Observations Strata B + B B P + P P -------+------+------+------+------+------+------+------+------0 50 100 150 200 250 300 350 DIAS N e g a t i v e L o g S D F -Log(Survival Function) Estimates -LOG SDF | | 3.0 + B | + | + | + | + | + 2.5 + P + | + + | + + | + B | + + | + + 2.0 + + + | + + | P + | + + | + + | + B 1.5 + + + | P + | + + | P + | + +B | + ++ 1.0 + P B | P B | + + | P B | P + | P + 0.5 + +P + | P +B | P ++ | +P+BB | B++ | +++++++++++*+*P 0.0 + *+++++++++++ | | -----+-------+-------+-------+-------+-------+-------+-------+----0 50 100 150 200 250 300 350 DIAS [8] [9] D 62 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Log(-Log(Survival Function)) Estimates L o g N e g a t i v e L o g S D F L(-L(S)) | | | | | 2 + | | | | | +B 1 + +P +++ | ++ B+ | P+ ++ | ++ +B | P ++ | P ++B 0 + P B++ | P B+B | P + | P + | P + | ++P +B [10] -1 + P++ +++ | P ++ | + +B+ | +P++B | ++++++ | B++++ -2 + + ++ | + P | B++ | +++ | ++ | +++ -3 + BP | | | | | ---+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+--4.9 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 Log DIAS Legend for Strata Symbols P:GRUPO=pretrat1 B:GRUPO=pretrat2 Testing Homogeneity of Survival Curves over Strata Rank Statistics GRUPO Log-Rank Wilcoxon pretrat1 pretrat2 4.762466 -4.76247 114 -114 [7] D 63 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Covariance Matrix for the Log-Rank Statistics GRUPO pretrat1 pretrat2 pretrat1 pretrat2 7.26327 -7.26327 -7.26327 7.26327 Covariance Matrix for the Wilcoxon Statistics GRUPO pretrat1 pretrat2 pretrat1 pretrat2 4902.22 -4902.22 -4902.22 4902.22 Test of Equality over Strata Test Log-Rank Wilcoxon -2Log(LR) Chi-Square DF Pr > Chi-Square 3.1227 2.6510 0.0775 1 1 1 0.0772 0.1035 0.7807 [11] [12] [13] En ellos se observa, en primer lugar, una tabla para cada una de las dos poblaciones, en donde aparecen, [1], los tiempos de fallo, ti , y de censura (valores con asterı́sco), ası́ como, [2], los valores del estimador de la función de supervivencia, Ŝ(ti ), en dichos tiempos de fallo, el cual, al no haber utilizado la opción method será el de Kaplan-Meier. En [3] aparece su desviación tı́pica estimada. (Sección 2.5.1). Destancan también, el tiempo medio de supervivencia estimado, [4], y su error de muestreo, [5]. A continuación aparecen los gráficos del estimador de la función de supervivencia para cada una de las dos poblaciones, [6], en las que, como se indica en [7], la marcada con una P corresponde a la primera y la marcada con una B a la segunda. El gráfico [8] muestra donde se produjeron los valores censurados en cada una de las dos poblaciones. El gráfico [9] es una representación de los pares de puntos {ti , − log(Ŝ(ti ))} los cuales, al no estar alineados sugieren (véase sección 2.3.1) que un modelo exponencial para la distribución de tiempo de fallo no es adecuado. Por el contrario, el gráfico [10], en el cual se representan los pares {log ti , log(− log(Ŝ(ti )))} sı́ sugiere (véase sección 2.3.1) una distribución de Weibull como distribución de tiempo de fallo. Aunque ni el test de Savage (véase sección 2.6), dado por [11], ni el de Wilcoxon, dado por [12], sean demasiado concluyentes, en todo caso llevan a aceptar la hipótesis nula de igualdad antre ambas poblaciones a niveles de significación menores que 0′ 0772. El test de razón de verosimilitudes, dado por [13], no es indicativo de nada, pues requiere para su realización que las distribuciones de tiempo de fallo en cada una de las poblaciones, sea exponencial, supuesto descartado, como vimos, por el gráfico [9]. D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 64 Ejemplo 2.2 Los siguientes datos, Feigl y Zelen (1965) corresponden a tiempos de fallo en semanas, T , y número de glóbulos blancos, W BC, de pacientes con leucemia. Los datos vienen agrupados en dos poblaciones, una con AG positivo y otra con AG negativo. AG+ W BC T 2′ 3 65 0′ 75 156 4′ 3 100 2′ 6 134 6 16 10′ 5 108 10 121 17 4 5′ 4 39 7 143 9′ 4 56 32 26 35 22 100 1 100 1 52 5 100 65 AG– W BC 4′ 4 3 4 1′ 5 9 5′ 3 10 19 27 28 31 26 21 79 100 100 T 56 65 17 7 16 22 3 4 2 3 8 4 3 30 4 43 Existen dos diferencias con el ejemplo anterior. Aquı́ suponemos una covariable, W BC, y además que los grupos no se definen previamente, sino mediante una cantidad no controlada, AG. El programa SAS que utilizaremos será el siguiente DATA ejemplo2; INPUT wbc t @@; if _n_ < 18 then grupo = ’AG+’; else grupo = ’AG-’; lwbc=log(wbc); CARDS; 2.3 65 .75 156 4.3 100 2.6 134 6 10 121 17 4 5.4 39 7 143 9.4 35 22 100 1 100 1 52 5 100 4.4 56 3 65 4 17 1.5 7 9 10 3 19 4 27 2 28 3 31 21 3 79 30 100 4 100 43 ; PROC LIFETEST; TIME t; STRATA grupo; TEST lwbc; RUN; [1] [2] [3] 16 10.5 108 56 32 26 65 16 5.3 22 8 26 4 [4] [5] [6] En él se observa, dentro de las sentencias DATA, que con INPUT indicamos, [1], que los datos que aparecen a continuación, son pares de observaciones de las variables wbc y t, indicando con @@ que dichos datos vendrán en formato libre. A continuación, [2], formamos las dos poblaciones, estando en AG+ las 17 primeras observaciones que aparecen después. D 65 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Se concluye las sentencias DATA definiendo en [3] una nueva variable, lwbc, como el logaritmo de wbc. En este ejemplo hacemos las siguientes especificaciones en PROC LIFETEST: con la sentencia TIME señalamos, [4], que la variable tiempo de fallo es t, con STRATA que la variable utilizada para formar los grupos [5], es grupo, y por último, [6], con TEST que la covariable a utilizar en la regresión es lwbc. Con este programa obtendrı́amos los siguientes resultados: Product-Limit Survival Estimates GRUPO = AG+ T Survival Failure Survival Standard Error 0.000 1.000 1.000 4.000 5.000 16.000 22.000 26.000 39.000 56.000 65.000 65.000 100.000 108.000 121.000 134.000 143.000 156.000 1.0000 . 0.8824 0.8235 0.7647 0.7059 0.6471 0.5882 0.5294 0.4706 . 0.3529 0.2941 0.2353 0.1765 0.1176 0.0588 0 0 . 0.1176 0.1765 0.2353 0.2941 0.3529 0.4118 0.4706 0.5294 . 0.6471 0.7059 0.7647 0.8235 0.8824 0.9412 1.0000 0 . 0.0781 0.0925 0.1029 0.1105 0.1159 0.1194 0.1211 0.1211 . 0.1159 0.1105 0.1029 0.0925 0.0781 0.0571 0 [1] [2] Quantiles Number Failed Number Left 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 [3] 75% 50% 25% 108.000 56.000 16.000 Mean Standard Error 62.471 13.183 [4] [5] Product-Limit Survival Estimates GRUPO = AG- T Survival Failure Survival Standard Error 0.000 2.000 3.000 3.000 3.000 4.000 4.000 4.000 7.000 8.000 16.000 17.000 22.000 30.000 43.000 56.000 65.000 1.0000 0.9375 . . 0.7500 . . 0.5625 0.5000 0.4375 0.3750 0.3125 0.2500 0.1875 0.1250 0.0625 0 0 0.0625 . . 0.2500 . . 0.4375 0.5000 0.5625 0.6250 0.6875 0.7500 0.8125 0.8750 0.9375 1.0000 0 0.0605 . . 0.1083 . . 0.1240 0.1250 0.1240 0.1210 0.1159 0.1083 0.0976 0.0827 0.0605 0 [1] [2] [3] Number Failed Number Left 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 D 66 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Quantiles 75% 50% 25% 26.000 7.500 3.500 Mean Standard Error 17.937 5.076 [4] [5] Summary of the Number of Censored and Uncensored Values GRUPO Total Failed Censored %Censored AG+ AG- 17 16 17 16 0 0 0.0000 0.0000 Total 33 33 0 0.0000 Testing Homogeneity of Survival Curves over Strata Rank Statistics GRUPO Log-Rank Wilcoxon AG+ AG- -6.70336 6.70336 -128 128 Covariance Matrix for the Log-Rank Statistics GRUPO AG+ AG- AG+ AG- 5.31858 -5.31858 -5.31858 5.31858 Covariance Matrix for the Wilcoxon Statistics GRUPO AG+ AG- AG+ AG- 2927.69 -2927.69 -2927.69 2927.69 Test of Equality over Strata Test Log-Rank Wilcoxon -2Log(LR) Chi-Square DF Pr > Chi-Square 8.4487 5.5962 11.9401 1 1 1 0.0037 0.0180 0.0005 [6] [7] [8] Rank Tests for the Association of Response with Covariates Pooled over Strata [9] Univariate Chi-Squares for the WILCOXON Test Variable LWBC Test Statistic Variance -11.7337 15.8531 Chi-Square 8.6848 Pr > Chi-Square 0.0032 Covariance Matrix for the WILCOXON Statistics [11] D 67 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Variable LWBC LWBC [10] 15.8531 Forward Stepwise Sequence of Chi-Squares for the WILCOXON Test Variable LWBC DF 1 [9] Pr > Chi-Square Chi-Square 8.6848 Chi-Square Increment 0.0032 Pr > Increment 8.6848 0.0032 Univariate Chi-Squares for the LOG RANK Test Variable LWBC Test Statistic Variance -19.4051 50.7236 Chi-Square Pr > Chi-Square 7.4237 0.0064 [12] Covariance Matrix for the LOG RANK Statistics Variable LWBC [10] 50.7236 Forward Stepwise Sequence of Chi-Squares for the LOG RANK Test Variable LWBC LWBC DF 1 Chi-Square 7.4237 Pr > Chi-Square 0.0064 Chi-Square Increment 7.4237 Pr > Increment 0.0064 Se observa en ellos, en primer lugar, una tabla para cada una de las dos poblaciones, en donde aparecen, [1], los tiempos de fallo, ti , [2], los valores del estimador de la función de supervivencia, Ŝ(ti ), en dichos tiempos de fallo, el cual, al no haber utilizado la opción method será el de Kaplan-Meier, y [3], su desviación tı́pica estimada. (Sección 2.5.1). Destancan también, el tiempo medio de supervivencia estimado, [4], y su error de muestreo, [5]. A continuación, los tests de Savage, [6], de Wilcoxon, [7], y de razón de verosimilitudes, [8], concluyen, al ser sus p-valores suficientemente pequeños, que existen diferencias significativas entre las poblaciones comparadas, es decir, que no pueden considerarse equivalentes los grupos AG+ y AG–. Por último aparecen dos tests utilizados para contrastar el grado de dependencia de la covariable señalada en nuestro programa SAS con la sentencia TEST, lwbc, con la variable dependiente tiempo de fallo, señalada en TIME, t. Cada uno de estos dos tests, el de Wilcoxon y el de los rangos logarı́tmicos de Savage, realiza primero, [9], tests marginales de dependencia entre cada una de las covariables —señaladas en TEST— y la variable dependiente, y luego, [10], una secuencia de tests de dependencia en donde va incluyendo a cada paso una nueva covariable. En nuestro ejemplo, al no existir nada más que una covariable esta segunda secuencia de tests coincide con la primera. Tanto el test de Wilcoxon como el de los rangos logarı́tmicos, consideran como hipótesis nula, tanto en sus versiones marginales, [9], como en las secuenciales, [10], la ausencia de correlación entre la variable dependiente T y la covariable —en el caso marginal [9]— o D 68 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud covariables —en la secuencia de tests [10]. Es decir, que H0 indicará que la covariable o covariables consideradas no explican adecuadamente a la variable dependiente T , o con más precisión, que el vector de parámetros β es igual al vector 0. Un p-valor pequeño llevará a rechazar la correspondiente hipótesis nula y a aceptar, en consecuencia, una correlación significativa entre las variables consideradas. En nuestro ejemplo, tanto el test de Wilcoxon, [11], como el de Savage, [12], concluyen con la existencia de una correlación significativa entre la variable tiempo de fallo y el logaritmo del número de glóbulos blancos en la sangre, al ser sus p-valores, 0′ 0032 y 0′ 0064 suficientemente pequeños. Ejemplo 2.3 Los siguientes datos, Lee (1980), representan, respectivamente, el número de tiempos de fallo y de censura de hombres con angina de pecho, que se presentan en cada uno de los intervalos señalados Intervalo [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) [14,15) ≥ 15 no ¯ de fallos 456 226 152 171 135 125 83 74 51 42 43 34 18 9 6 0 no ¯ de censuras 0 39 22 23 24 107 133 102 68 64 45 53 33 27 23 30 Con objeto de estimar, entre otras cosas, su función de supervivencia, se realizó el siguiente programa SAS DATA ejemplo3; keep freq tiempo c; retain tiempo -.5; INPUT fallo censura @@; tiempo = tiempo + 1; c = 0; freq = fallo; output; c = 1; freq = censura; output; CARDS; 456 0 226 39 152 22 171 23 135 24 125 107 83 133 74 102 51 68 42 64 43 45 34 53 18 33 9 27 6 23 0 0 0 30 ; PROC LIFETEST plots = (s,ls,lls,h,p) intervals = (0 to 15) method = act; TIME tiempo*c(1); FREQ freq; [1] [2] [3] [4] [5] [6] [7] [8] D 69 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia RUN; En él se observa, [1], que las variables a utilizar por el procedimiento más abajo empleado son las señaladas por keep, es decir, freq, tiempo y c. Se indica, [2], que en cada paso del programa, debe mantenerse —retain— la variable tiempo, la cual además debe comenzar en −,5 , para ir aumentando, [4], de uno en uno. Se indica, [3], mediante INPUT que los datos que aparecerán más abajo son, respectivamente al añadirse @@, datos de fallo y censura. No obstante, [5], queremos que nuestros datos salida aparezcan bajo la variable freq aunque divididos en dos grupos según los valores de la variable c. Después de los datos aparecen las sentencias propias del procedimiento LIFETEST referidas, como indicamos con keep, a las variables freq, tiempo y c. Primero, dentro de las opciones de dicho procedimiento, le indicamos, [6], que realice los gráficos del estimador de la función de supervivencia, s, del − log de dicho estimador, ls, del log(− log) del estimador, lls, del estimador de la tasa de azar, h y del estimador de la función de densidad, p (véase sección 2.7.2). Estos dos últimos, posibles porque en la opción method indicamos que el estimador de la función de supervivencia a determinar fuera el obtenido por el método de la tabla de supervivencia, method = act, en donde los intervalos a considerarar en dicho método deberán llegar hasta el de extremo 15. Con la sentencia TIME indicamos, [7], que la variable de tiempo de fallo es tiempo siempre que c sea igual a 1. Por último, [8], con la sentencia FREQ señalamos que los valores dados por la variable freq son recuentos, es decir frecuencias absolutas. Con este programa se obtendrı́an los siguientes resultados Life Table Survival Estimates Interval [Lower, Upper) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 . [1] Interval [Lower, Upper) 0 1 2 3 4 5 6 1 2 3 4 5 6 7 Number Failed Number Censored Effective Sample Size 456 226 152 171 135 125 83 74 51 42 43 34 18 9 6 0 0 39 22 23 24 107 133 102 68 64 45 53 33 27 23 30 2418.0 1942.5 1686.0 1511.5 1317.0 1116.5 871.5 671.0 512.0 395.0 298.5 206.5 129.5 81.5 47.5 15.0 0.1886 0.1163 0.0902 0.1131 0.1025 0.1120 0.0952 0.1103 0.0996 0.1063 0.1441 0.1646 0.1390 0.1104 0.1263 0 [1] [1] [2] [3] Survival Failure Survival Standard Error 1.0000 0.8114 0.7170 0.6524 0.5786 0.5193 0.4611 0 0.1886 0.2830 0.3476 0.4214 0.4807 0.5389 0 0.00796 0.00918 0.0097 0.0101 0.0103 0.0104 Conditional Probability of Failure Conditional Probability Standard Error 0.00796 0.00728 0.00698 0.00815 0.00836 0.00944 0.0099 0.0121 0.0132 0.0155 0.0203 0.0258 0.0304 0.0347 0.0482 0 [4] Median Residual Lifetime Median Standard Error 5.3313 6.2499 6.3432 6.2262 6.2185 5.9077 5.5962 0.1749 0.2001 0.2361 0.2361 0.1853 0.1806 0.1855 D 70 7 8 9 10 11 12 13 14 15 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 8 9 10 11 12 13 14 15 . 0.4172 0.3712 0.3342 0.2987 0.2557 0.2136 0.1839 0.1636 0.1429 0.5828 0.6288 0.6658 0.7013 0.7443 0.7864 0.8161 0.8364 0.8571 0.0105 0.0106 0.0107 0.0109 0.0111 0.0114 0.0118 0.0123 0.0133 5.1671 4.9421 4.8258 4.6888 . . . . . 0.2713 0.2763 0.4141 0.4183 . . . . . [5] [6] [7] [8] [9] Evaluated at the Midpoint of the Interval Interval [Lower, Upper) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 . PDF PDF Standard Error Hazard Hazard Standard Error 0.1886 0.0944 0.0646 0.0738 0.0593 0.0581 0.0439 0.0460 0.0370 0.0355 0.0430 0.0421 0.0297 0.0203 0.0207 . 0.00796 0.00598 0.00507 0.00543 0.00495 0.00503 0.00469 0.00518 0.00502 0.00531 0.00627 0.00685 0.00668 0.00651 0.00804 . 0.208219 0.123531 0.09441 0.119916 0.108043 0.118596 0.1 0.116719 0.10483 0.112299 0.155235 0.17942 0.149378 0.116883 0.134831 . 0.009698 0.008201 0.007649 0.009154 0.009285 0.010589 0.010963 0.013545 0.014659 0.017301 0.023602 0.030646 0.03511 0.038894 0.054919 . [10] [11] [12] [13] Summary of the Number of Censored and Uncensored Values Total Failed Censored %Censored 2418 1625 793 32.7957 NOTE: There were 4 observations with missing values. Survival Function Estimates S u r v i v a l D i s t r i b u SDF | | | | | 1.0 + | | | | | 0.8 + | | | | | 0.6 + | | | | A + + + + + A ++ A+ ++ A + + A++ +A ++ A++ [14] D 71 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia t | +A i 0.4 + ++ o | A++ n | +A+ | +A++ F | +A u | ++ n 0.2 + A+++A+ c | +A++ t | +A i | o | n | 0.0 + | | | | | --------+------+------+------+------+------+------+------+------+------0 2 4 6 8 10 12 14 16 TIEMPO -Log(Survival Funcoion) Esoimaoes H a z a r d F u n c t i o n 0.25 + | | | | | A 0.20 + + | + | + A | + + + | + + + | + A + 0.15 + + + A | + + + | + + + +A | A + + ++ | + A++ +A+ A++ + A [17] | + + +A+ ++ ++ +A++A 0.10 + + + A | A | | | | 0.05 + | | | | | 0.00 + | | | | | ------+------+------+------+------+------+------+------+------+-----0 2 4 6 8 10 12 14 16 TIEMPO Probability Density Function Estimates D e n s i t y 0.200 + | | | | 0.175 + | | | | 0.150 + | PDF | | | 0.125 + | | | D 73 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia A + + + + + + + + + + + + + + + + D 74 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud | + F 0.100 + + u | A [18] n | + c | + t | + i 0.075 + + A o | + ++ ++ n | A + | A++A | ++ 0.050 + + | A++A+ +A+ | ++ ++ +A+ | A++A ++ | A 0.025 + ++ | A+++A | | | 0.000 + -------+------+------+------+------+------+------+------+------+-----0 2 4 6 8 10 12 14 16 TIEMPO En ellos se observa, al haberse solicitado que el método de estimación de la curva de supervivencia fuera el de la tabla de supervivencia, la distribución de frecuencias, por intervalos, de los tiempos de fallo y de censura, [1]. Además, véase la sección 2.5.2, el número, [2], de individuos en riesgo al comienzo de cada intervalo, nj , el estimador, [3], de la probabilidad condicionada de fallo en cada uno de los intervalos, q̂j , ası́ como su error de muestreo, [4]. También se obtiene, [5], el estimador Ŝ(t) de la función de supervivencia al comienzo de cada intervalo, su error de muestreo, [7], ası́ como 1 − Ŝ(t), [6]. Se obtiene también, [8], un estimador del tiempo de vida residual mediano, el cual se define como la cantidad de tiempo transcurrido antes de que el número de unidades en riesgo se reduzca a la mitad. Este valor también se denomina tiempo de vida futuro mediano. Se da también, [9], su error de muestreo. A continuación aparece, [10], la función de densidad estimada, fˆ(t), en el punto medio del intervalo, ası́ como su error de muestreo, [11]. Por último se observa, [12] y [13] respectivamente, el estimador de la tasa de azar, λ̂, ası́ como su error de muestreo. Los resultados concluyen con los gráficos antes mencionados. Primero se representa, [14], los pares de puntos (ti , Ŝ(ti )) a continuación, [15], el de los pares de puntos, En [16] el de los pares (ti , − log(Ŝ(ti ))) (log ti , log(− log(Ŝ(ti )))) En [17] el de la tasa de azar, es decir, el de los pares (ti , λ̂(ti )) apareciendo, por último, en [18], el de la función de densidad estimada, D 75 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia (ti , fˆ(ti )) 2.7.2. Procedimiento LIFEREG El procedimiento LIFEREG se utiliza con datos, algunos de los cuales pueden ser censurados por la derecha, o por la izquierda o por intervalos (véase sección 2.2), con objeto de Ajustar un modelo de tiempo de fallo acelerado (sección 2.4.3) a dichos tiempos de fallo, de la forma Y = xt β + W con W = log T0 la variable de error con distribución base dada por una función de densidad f0 , siendo Y la variable dependiente o de respuesta y xt el vector de covariables o variables independientes. Los parámetros β se estiman por máxima verosimilitud usando el método de Newton-Raphson. Especificaciones del procedimiento LIFEREG Como en todo procedimiento SAS el procedimiento LIFEREG permite una serie de especificaciones. La más importante, además de obligatoria, es la sentencia MODEL, PROC LIFEREG; MODEL respuesta = covariables / opciones; Con esta sentencia especificamos cual es la variable dependiente, respuesta, y cuales las covariables o variables independientes, covariables. Si existen datos censurados debemos indicarlo de una de las siguientes maneras: • Si existe una variable indicadora de censura, para unos determinados valores de la cual, los datos observados en respuesta son censurados por la derecha, debemos expresarlo de la forma MODEL respuesta< ∗censura(numero) >= covariables / opciones; Ası́ por ejemplo, si la variable de respuesta es muerte, salvo en aquellos casos en los que la variable perdida tome los valores 0 y 1, en cuyo caso los datos son tiempos de censura en lugar de tiempos de fallo, lo indicaremos de la forma D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 76 MODEL muerte∗perdida(0,1) = covariables / opciones; • Si existe un intervalo de censura (minimo , maximo) fuera del cual los datos son censurados, lo expresaremos de la forma MODEL (minimo, maximo) = covariables / opciones; Si se omite el extremo inferior del intervalo de censura, se obtienen datos censurados por la izquierda. La ausencia del extremo superior se utiliza, por su parte, para indicar una censura por la derecha. En todos los casos, en opciones se fija la distribución base de la variable de error W . Debemos expresarlo de la forma MODEL respuesta = covariables / DIST = distribucion; y entre las posibles distribuciones a especificar en distribución se incluyen WEIBULL, comando mediante el cual se especifica la distribución de Weibull. No obstante, esta distribución se tiene por defecto. EXPONENTIAL, especifica una distribución exponencial. LNORMAL, especifica una distribución Log-Normal. LLOGISTIC, especifica una distribución Log-Logı́stica. GAMMA, especifica una distribución gamma. NORMAL, especifica una distribución normal. LOGISTIC, especifica una distribución logı́stica. Si queremos ajustar más de un modelo, especificaremos una lı́nea para cada uno de ellos, etiquetándolos al comienzo. Por ejmplo, A: MODEL ... B: MODEL ... Ejemplo 2.4 Los siguientes datos, Nelson y Hahn (1972), corresponden al número de horas hasta el fallo de 40 motores actuando bajo determinadas temperaturas D 77 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Temp. 150o C 170o C 1764 2772 190o C 220o C 408 408 408 408 Horas hasta el fallo Ninguno de los 10 falló a las 8064 horas 3444 3542 3780 4860 5196 No fallaron 3 a las 5448 horas 1344 1344 1440 No fallaron 5 a las 1680 horas 504 504 504 No fallaron 5 a las 528 horas El principal propósito del experimento fue estimar el tiempo mediano de vida a una temperatura de 130o C, utilizando un modelo de tiempo de fallo acelerado con una sola covariable x = 1000/(273′ 2 + tempe) y una distribución base log-normal, o de Weibull. Como el método de mı́nimos cuadrados ponderados, utilizado para estimar los parámetros de regresión β, requiere al menos dos fallos en cada temperatura, se eliminaron los datos referentes a 150o C. Por otro lado, con objeto de utilizar la misma notación que el SAS, expresaremos el modelo de tiempo de fallo acelerado de la forma Y = α + xβ + σω El programa SAS a utilizar será el siguiente DATA ejemplo4; INPUT tiempo censura tempe @@; x = 1000/(273.2+tempe); CARDS; 1764 1 170 2772 1 170 3444 1 170 3542 5196 1 170 5448 0 170 5448 0 170 5448 1344 1 190 1344 1 190 1440 1 190 1680 1680 0 190 1680 0 190 408 1 220 408 504 1 220 528 0 220 528 0 220 528 ; PROC LIFEREG; A: MODEL tiempo*censura(0) = x; B: MODEL tiempo*censura(0) = x / RUN; [1] [2] 1 0 0 1 0 170 3780 1 170 4860 1 170 170 408 1 190 408 1 190 190 1680 0 190 1680 0 190 220 504 1 220 504 1 220 220 528 0 220 528 0 220 [3] [4] DIST = LNORMAL; En él se observa, [1], que los datos corresponden a las variables tiempo, censura y tempe, los cuales se introducen en formato libre al añadirse @@. Se define a continuación, [2], la variable x, la cual será utilizada más abajo por el procedimiento como covariable en el modelo. Después de los datos aparecen las sentencias propias del procedimiento LIFEREG, en donde se especifican dos modelos a considerar, uno con distribución de Weibull para los errores, [3], y el otro con distribución log-normal, [4]. En ellos se señala que aquellos tiempos en los que la variable censura tome el valor 0 será datos censurados, y el resto tiempos de fallo. En ambos se expresa como covariable x. Los resultados obtenidos con dicho programa SAS serı́an los siguientes L I F E R E G P R O C E D U R E Data Set =WORK.EJEMPLO4 Dependent Variable=Log(TIEMPO) Censoring Variable=CENSURA Censoring Value(s)= 0 Noncensored Values= 17 Right Censored Values= Left Censored Values= 0 Interval Censored Values= Log Likelihood for WEIBULL -22.95148315 13 0 [1] [1] [2] D 78 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud L I F E R E G P R O C E D U R E Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value INTERCPT X SCALE 1 1 1 -11.89122 9.03834032 0.36128138 [3] 1.965507 0.905993 0.079501 [4] 36.6019 99.52392 0.0001 0.0001 Intercept [5] [6] Extreme value scale paramet L I F E R E G P R O C E D U R E Data Set =WORK.EJEMPLO4 Dependent Variable=Log(TIEMPO) Censoring Variable=CENSURA Censoring Value(s)= 0 Noncensored Values= 17 Right Censored Values= Left Censored Values= 0 Interval Censored Values= 13 0 Log Likelihood for LNORMAL -24.47381031 L I F E R E G [7] P R O C E D U R E Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value INTERCPT X SCALE 1 1 1 -10.470563 8.3220835 0.6040344 [8] 2.77192 1.284124 0.110729 14.26851 42.00011 0.0002 0.0001 Intercept Normal scale parameter En ellos se observa, después de un recuento de cuales datos son no censurados y cuales censurados (y de que tipo), [1], el valor alcanzado por la verosimilitud bajo un modelo Weibull para los errores, [2], igual a −22′ 95148. La tabla que aparece a continuación recoge las estimaciones, [3], de los parámetros del modelo de tiempo de fallo acelerado Y = α + xβ + σω ′ ′ las cuales son α̂ = −11 891, β̂ = 9 038 y σ̂ = 0′ 3613. Se observa también su desviación tı́pica, [4], ası́ como los tests para contrastar la hipótesis nula de igualdad a cero de los parámetros de regresión, los cuales tiene unos valores del estadı́stico de contraste dados por [5], siendo el p-valor de cada uno de ellos, [6], los suficientemente significativo como para rechazar dicha hipótesis nula y aceptar, en consecuencia, el modelo propuesto, el cual, al ser para 130o C la covariable igual a x0 = 1000/(273′ 2+130) = 2′ 48 implica una predicción para el logaritmo del tiempo de vida mediano igual a y0′ 5 = −11′ 891 + 2′ 48 · 9′ 038 + 0′ 3613 · 0 = 10′ 523 al ser w0′ 5 = 0. En la segunda parte de los resultados se observa de nuevo, lógicamente, el mismo recuento de valores censurados y no censurados, una verosimilitud, [7], bajo una distribución log-normal, algo menor, −24′ 4738, —lo cual sugiere utilizar el modelo con distribución de Weibull— , confirmando los tests de la última tabla las estimaciones dadas en [8], α̂ = −10′ 471, β̂ = 8′ 322 y σ̂ = 0′ 604, las cuales proporcionan ahora una estimación para el logaritmo del tiempo de vida mediano igual a D 79 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia y0′ 5 = −10′ 471 + 2′ 48 · 8′ 322 + 0′ 604 · 0 = 10′ 17 Utilizando el modelo de tiempo de fallo acelerado, con una distribución de Weibull para los errores, el tiempo de vida mediano estimado será, por tanto, exp{10′ 523} = 37160′ 4. Ejemplo 2.5 Los siguientes datos, Tobin (1958), corresponden a 20 observaciones de tres variables, duracion, edad y liquidez, obtenidos con objeto de ajustar un modelo de tiempo de fallo acelerado, en donde figure como variable dependiente duracion y en donde se admita como distribución base una normal. Se supone que la variable duracion está censurada por la izquierda en cero, por lo que debemos eliminar aquellos datos en los que dicha variable tome el valor 0. El programa SAS a utilizar será el siguiente DATA ejemplo5; INPUT duracion edad liquidez @@; IF duracion=0 THEN menor=.; ELSE menor=duracion; CARDS; 0.0 57.7 236 0.0 59.8 216 10.4 46.8 207 0.7 50.9 283 0.0 44.3 284 0.0 58.0 249 0.0 48.5 207 3.7 45.1 221 0.0 58.9 246 0.0 41.7 220 0.0 51.7 275 0.0 40.0 277 0.0 47.7 238 3.0 50.0 269 1.5 34.1 231 ; PROC LIFEREG; MODEL (menor , duracion) = edad liquidez RUN; [1] 0.0 0.0 3.5 6.1 0.0 39.9 33.4 48.1 46.1 53.1 219 240 266 214 251 / DIST = NORMAL; [2] En él se observa la introducción de la variable menor con la que definir el intervalo de censura utilizado en [2]. El resto de las sentencias son ya conocidas. Los resultados obtenidos con dicho programa SAS serı́an los siguientes L I F E R E G P R O C E D U R E Data Set =WORK.EJEMPLO5 Dependent Variable=MENOR Dependent Variable=DURACION Noncensored Values= 7 Right Censored Values= Left Censored Values= 13 Interval Censored Values= 0 0 Log Likelihood for NORMAL -28.92596097 L I F E R E G P R O C E D U R E Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value INTERCPT EDAD LIQUIDEZ SCALE 1 1 1 1 15.2771208 -0.1340075 -0.0451356 5.56935051 [1] 16.03272 0.218931 0.058269 1.728145 0.907964 0.374664 0.600026 0.3407 0.5405 0.4386 Intercept Normal scale parameter [2] En ellos se observan las estimaciones del modelo, quedando éste de la forma Y = 15′ 277 − 0′ 134 · EDAD − 0′ 045 · LIQUIDEZ + 5′ 569 ω D 80 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud No obstante, los p-valores, [2], de los tests que contrastan como hipótesis nula la igualdad de cero de los parámetros del modelo, sugieren que el ajuste efectuado no es el adecuado. 2.7.3. Procedimiento PHREG El procedimiento PHREG se utiliza con datos, algunos de los cuales pueden ser censurados por la derecha, con objeto de Realizar un análisis de regresión basado en el modelo de azar proporcional (véase sección 2.4.2) el cual supone una función tasa de azar de la forma λ(t; x) = λ0 (t) ex tβ y, en consecuencia, una función de supervivencia de la forma S(t; x) = [S0 (t)]exp{x t β} en donde λ0 es la denominada tasa de azar base y S0 la correspondiente función de supervivencia base. Especificaciones del procedimiento PHREG Como en todo procedimiento SAS el procedimiento PHREG permite una serie de especificaciones. La más importante, además de obligatoria, es la sentencia MODEL, PROC PHREG; MODEL respuesta = covariables / opciones; Con esta sentencia especificamos cual es la variable dependiente, respuesta, y cuales las covariables o variables independientes, covariables. Si existen datos censurados debemos indicarlo introduciendo una variable indicadora de censura, para unos determinados valores de la cual, los datos observados en respuesta son censurados por la derecha, debemos expresarlo de la forma MODEL respuesta< ∗censura(numero) >= covariables / opciones; Ası́ por ejemplo, si la variable de respuesta es muerte, salvo en aquellos casos en los que la variable perdida tome los valores 1 y 2, en cuyo caso los datos son tiempos de censura en lugar de tiempos de fallo, lo indicaremos de la forma MODEL muerte∗perdida(1,2) = covariables / opciones; D 81 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Entre la opciones de MODEL están las siguientes SELECTION = opcion Mediante SELECTION determinamos la manera en la que SAS selecciona las coariables significativas en el modelo de azar proporcional. Podemos elegir, entre otras, stepwise, con la cual elegimos el método stepwise de selección, o score con el cual idetificamos un número determinado de modelos con un mayor estadı́stico χ2 de entre todos los posibles modelos que podemos formar con las covariables, utilizando desde una hasta todas ellas. El número de modelos, n, se determina con BEST=n. SLENTRY = α Especifica el nivel de significación con el que se realiza el contraste para incorporar las variables con el método stepwise. Entre todas las covariables que no estén en el modelo, se incorpora aquella con el p-valor más pequeño, si éste es menor o igual que α. SLSTAY = α Especifica el nivel de significación con el que se realiza el contraste para eliminar las variables con el método stepwise. Entre todas las covariables que están en el modelo, se elimina aquella con el mayor p-valor, si éste es mayor que α. DETAILS Permite obtener detalles del proceso de selección de las variables por el método stepwise. Ejemplo 2.1 (continuación) El propósito ahora es utilizar un modelo de azar porporcional en donde se considera a la variable de respuesta dias, función —a través de dicho modelo— de la covariable grupo. El programa SAS a utilizar serı́a el siguiente DATA ejemplo6; INPUT dias estatus grupo @@; CARDS; 143 1 1 164 1 1 188 1 1 188 1 1 209 1 1 213 1 1 216 1 1 220 1 1 246 1 1 265 1 1 304 1 1 216 0 1 163 1 2 198 1 2 205 1 2 232 1 2 233 1 2 233 1 2 239 1 2 240 1 2 296 1 2 296 1 2 323 1 2 204 0 2 ; PROC PHREG; MODEL dias*estatus(0) = grupo; RUN; 190 227 244 232 261 344 1 1 0 1 1 0 1 1 1 2 2 2 192 230 142 233 280 1 1 1 1 1 1 1 2 2 2 206 234 156 233 280 1 1 1 1 1 1 1 2 2 2 [1] En él se observa, [1], la identificación de la censura como el valor 0 de la variable estatus, ası́ como que en dicho modelo la covariable utilizada es grupo. El resto de las sentencias son D 82 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud ya conocidas. Los resultados obtenidos con dicho programa SAS serı́an los siguientes The PHREG Procedure Data Set: WORK.EJEMPLO6 Dependent Variable: DIAS Censoring Variable: ESTATUS Censoring Value(s): 0 Ties Handling: BRESLOW Summary of the Number of Event and Censored Values Total Event Censored Percent Censored 40 36 4 10.00 Testing Global Null Hypothesis: BETA=0 Criterion -2 LOG L Score Wald Without Covariates With Covariates 204.317 . . 201.438 . . Model Chi-Square 2.878 with 1 DF (p=0.0898) 3.000 with 1 DF (p=0.0833) 2.925 with 1 DF (p=0.0872) [1] [1] [1] Analysis of Maximum Likelihood Estimates Variable GRUPO DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio 1 -0.595896 0.34840 2.92532 0.0872 0.551 [2] Como la variable grupo toma solamente dos valores, la hipótesis nula de igualdad entre los dos grupos, resulta equivalente a la hipótesis nula aquı́ contrastada H0 : β = 0. Los p-valores, [1], de los tres tests realizados, no son nada concluyentes. Se incluye también, [2], el valor del cociente entre las tasas de azar de cada uno de los dos grupos. El valor de dicho estadı́stico, 0′ 551, implica que la tasa de azar para el grupo 2 es menor que para el grupo 1. Es decir, las ratas del grupo 2 viven más tiempo que las del grupo 1. Obsérvese que la comparación de las curvas de supervivencia aquı́ realizada es diferente a la del capı́tulo 2. Aquı́, ambas funciones de supervivencia son modeladas a través de un modelo de azar proporcional. Allı́ eran estimadas por medio del estimador de Kaplan-Meier o por medio de la tabla de supervivencia y luego comparadas. Ejemplo 2.6 Krall, Uthoff y Harley (1975) analizaron datos procedentes de un estudio sobre cáncer de huesos, en el cual, los investigadores trataron 65 pacientes con agentes alcalinos. De esos pacientes, 48 murieron (por el mal en cuestión) durante el estudio y 17 sobrevivieron. Cuando diagnosticaron a los pacientes su enfermedad, los investigadores observaron en ellos las siguientes variables: logbun el logaritmo de bun, hgb niveles de hemoglobina, plaqueta niveles de plaquetas, edad de los pacientes, logwbc el logaritmo de wbc, frac número de fracturas, logplas logarı́tmo del porcentaje de células con plasma en la médula de los huesos, proteina niveles de proteinas y suerocal niveles de suero cálcico. D 83 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia El propósito del experimento es determinar que variables de entre las anteriores son significativas, supuesto un modelo de azar proporcional para el tiempo de supervivencia. Los datos obtenidos aparecen ya en el siguiente programa SAS, los cuales incluyen también el tiempo de fallo de cada individuo y una variable de censura para indicar los 17 individuos que sobrevivieron al estudio y que, por tanto, corresponden a datos censurados. DATA ejemplo7; INPUT tiempo censura logbun hgb plaqueta edad logwbc frac logplas proteina suerocal; CARDS; 1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 10 1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18 2.00 1 1.5185 9.8 1 81 3.8751 1 2.0000 2 15 2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553 0 12 2.00 1 1.3010 5.1 0 57 3.7243 1 2.0000 3 9 3.00 1 1.5441 6.7 1 46 4.4757 0 1.9345 12 10 5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628 4 9 5.00 1 1.6812 6.5 1 74 3.7324 0 1.7324 5 9 6.00 1 1.3617 9.0 1 77 3.5441 0 1.4624 1 8 6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617 1 8 6.00 1 1.1139 9.7 1 60 3.5185 1 1.3979 0 10 6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902 0 8 7.00 1 1.9777 9.5 1 48 3.3617 1 1.5682 5 10 7.00 1 1.0414 5.1 0 61 3.7324 1 2.0000 1 10 7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185 1 13 9.00 1 1.7243 8.2 1 55 3.7993 1 1.7404 0 12 11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788 0 10 11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761 1 9 11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195 1 10 11.00 1 1.5682 7.5 1 70 3.8865 0 1.6721 0 12 11.00 1 1.0792 9.6 1 51 3.5051 1 1.9031 0 9 13.00 1 0.7782 5.5 0 60 3.5798 1 1.3979 2 10 14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553 2 10 15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314 0 11 16.00 1 1.3424 9.0 1 48 3.9345 1 2.0000 0 10 16.00 1 1.3222 8.8 1 62 3.6990 1 0.6990 17 10 17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472 4 9 17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128 1 10 18.00 1 1.4472 7.5 1 65 3.5682 0 0.9031 7 8 19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000 6 15 19.00 1 1.2553 7.5 0 60 3.7924 1 1.9294 5 9 24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771 0 9 25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435 0 10 26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11 32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335 1 9 35.00 1 1.1139 7.0 0 48 3.6532 1 1.1761 4 10 37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041 7 9 41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771 6 10 41.00 1 1.1461 5.0 1 70 3.5185 1 1.3424 0 9 51.00 1 1.5682 7.7 0 74 3.4150 1 1.0414 4 13 52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532 4 10 54.00 1 1.2553 9.0 1 49 3.7243 1 1.6990 2 10 58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10 66.00 1 1.4472 6.6 1 59 3.7853 1 1.8195 0 9 67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414 1 10 88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21 9 89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232 1 9 92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150 4 11 4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10 D 84 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232 0 13 7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573 0 10 7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808 0 11 8.00 0 1.0792 9.9 1 57 3.8325 1 1.6532 0 8 12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461 0 7 11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451 3 9 12.00 0 1.3979 8.8 1 66 3.8388 1 1.3617 0 9 13.00 0 1.6628 4.9 0 71 3.6435 0 1.7924 0 9 16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031 0 9 19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000 1 10 19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185 0 10 28.00 0 1.2304 7.3 1 82 3.7482 1 1.6721 0 9 41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472 1 9 53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000 1 11 57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542 0 11 77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12 ; PROC PHREG; MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac logplas proteina suerocal / SELECTION=stepwise [1] SLENTRY=0.25 [2] SLSTAY=0.15 [3] DETAILS; [4] RUN; Las sentencias del paso data son ya concocidas. Respecto a las sentencias especı́ficas del procedimiento PHREG, se indica, [1], que el método de selección de variables es stepwise y que los niveles de significación para incorporar variables, [2], y para excluirlas, [3] son respectivamente 0′ 25 y 0′ 15. Se requiere, por último, [4], que el proceso se muestre detalladamente. Los resultados obtenidos con dicho programa SAS serı́an los siguientes The PHREG Procedure Data Set: WORK.EJEMPLO7 Dependent Variable: TIEMPO Censoring Variable: CENSURA Censoring Value(s): 0 Ties Handling: BRESLOW Summary of the Number of Event and Censored Values Total Event Censored Percent Censored 65 48 17 26.15 Analysis of Variables Not in the Model Variable Score Chi-Square Pr > Chi-Square LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC 8.5164 5.0664 3.1816 0.0183 0.5658 0.9151 0.0035 0.0244 0.0745 0.8924 0.4519 0.3388 [1] D 85 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia LOGPLAS PROTEINA SUEROCAL 0.5846 0.1466 1.1109 Residual Chi-square = 18.4550 Step 0.4445 0.7018 0.2919 with 9 DF (p=0.0302) 1: Variable LOGBUN is entered. The model contains the following explanatory variables. LOGBUN The PHREG Procedure Testing Global Null Hypothesis: BETA=0 Criterion -2 LOG L Score Wald Without Covariates With Covariates 309.716 . . 301.959 . . Model Chi-Square 7.757 with 1 DF (p=0.0053) 8.516 with 1 DF (p=0.0035) 8.339 with 1 DF (p=0.0039) Analysis of Maximum Likelihood Estimates Variable LOGBUN DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio 1 1.745947 0.60460 8.33919 0.0039 [2] 5.731 Analysis of Variables Not in the Model Variable Score Chi-Square Pr > Chi-Square HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA SUEROCAL 4.3468 2.0183 0.7159 0.0704 1.0354 1.0334 0.5214 1.4150 0.0371 0.1554 0.3975 0.7908 0.3089 0.3094 0.4703 0.2342 Residual Chi-square = 9.3164 Step [3] with 8 DF (p=0.3163) 2: Variable HGB is entered. The model contains the following explanatory variables. LOGBUN HGB The PHREG Procedure Testing Global Null Hypothesis: BETA=0 Criterion -2 LOG L Score Without Covariates With Covariates 309.716 . 297.767 . Model Chi-Square 11.949 with 2 DF (p=0.0025) 12.725 with 2 DF (p=0.0017) D 86 Wald Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud . . 12.190 with 2 DF (p=0.0023) Analysis of Maximum Likelihood Estimates Variable LOGBUN HGB DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio 1 1 1.674399 -0.118987 0.61209 0.05751 7.48330 4.28112 0.0062 0.0385 [4] 5.336 0.888 Analysis of Variables Not in the Model Variable Score Chi-Square Pr > Chi-Square PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA SUEROCAL 0.2266 1.3508 0.3785 1.0491 0.6741 0.6592 1.8225 0.6341 0.2451 0.5384 0.3057 0.4116 0.4168 0.1770 Residual Chi-square = 5.3635 Step [5] with 7 DF (p=0.6157) 3: Variable SUEROCAL is entered. The model contains the following explanatory variables. LOGBUN HGB SUEROCAL The PHREG Procedure Testing Global Null Hypothesis: BETA=0 Criterion -2 LOG L Score Wald Without Covariates With Covariates 309.716 . . 296.078 . . Model Chi-Square 13.638 with 3 DF (p=0.0034) 15.305 with 3 DF (p=0.0016) 14.454 with 3 DF (p=0.0023) Analysis of Maximum Likelihood Estimates Variable DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio LOGBUN HGB SUEROCAL 1 1 1 1.635924 -0.126428 0.132856 0.62359 0.05868 0.09868 6.88214 4.64194 1.81254 0.0087 0.0312 0.1782 [6] 5.134 0.881 1.142 Step 4: Variable SUEROCAL is removed. The model contains the following explanatory variable(s). LOGBUN HGB Testing Global Null Hypothesis: BETA=0 D 87 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia Criterion -2 LOG L Score Wald Without Covariates With Covariates 309.716 . . 297.767 . . Model Chi-Square 11.949 with 2 DF (p=0.0025) 12.725 with 2 DF (p=0.0017) 12.190 with 2 DF (p=0.0023) The PHREG Procedure Analysis of Maximum Likelihood Estimates Variable LOGBUN HGB DF Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square Risk Ratio 1 1 1.674399 -0.118987 0.61209 0.05751 7.48330 4.28112 0.0062 0.0385 5.336 0.888 Analysis of Variables Not in the Model Variable Score Chi-Square Pr > Chi-Square PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA SUEROCAL 0.2266 1.3508 0.3785 1.0491 0.6741 0.6592 1.8225 0.6341 0.2451 0.5384 0.3057 0.4116 0.4168 0.1770 Residual Chi-square = 5.3635 with 7 DF (p=0.6157) NOTE: Model building terminates because the variable to be entered is the variable that was removed in the last step. [7] Summary of Stepwise Procedure Step 1 2 3 4 Variable Entered Removed LOGBUN HGB SUEROCAL SUEROCAL Number In Score Chi-Square Wald Chi-Square Pr > Chi-Square 1 2 3 2 8.5164 4.3468 1.8225 . . . . 1.8125 0.0035 0.0371 0.1770 0.1782 El procedimiento de selección stepwise es un proceso a pasos de inclusión y exclusión de covariables. Primero se realizan, [1], unos tests χ2 para cada una de las covariables. El primer paso consiste en incluir aquella covariable para la que se haya obtenido un menor p-valor en los tests χ2 anteriores, y siempre y cuando dicho p-valor sea menor o igual que el lı́mite establecido en la opción SLENTRY. En nuestro caso, dicho lı́mite era 0′ 25, por lo que incorporamos la covariable logbun, de p-valor marginal 0′ 0035. Véase Step 1. A continuación, como el test de Wald, [2], proporciona un p-valor (0′ 0039) menor que el lı́mite de exclusión de covariables fijado en la opción SLSTAY, (0′ 15 en nuestro programa), la covariable logbun se queda en el modelo. Una nueva serie de tests χ2 , [3], indican que la siguiente covariable a incorporar al modelo es hgb de p-valor 0′ 0371 menor que el lı́mite antes mencionado 0′ 25. De nuevo el test de Wald, [4], indica valores significativos, tanto para logbun como para hgb, al no llegar ninguno de los dos p-valores al lı́mite 0′ 15, infiéndose, por tanto, la permanencia D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 88 de la covariables logbun y hgb en el modelo. La siguiente baterı́a de tests, [5], sugiere incorporar ahora a la covariable suerocal, formando un modelo con las covariables logbun, hgb y suerocal. No obstante, el test de Wald, [6], resulta no ser significativo para la variable suerocal (p-valor = 0′ 1782), con lo que es excluida del modelo. Véase Step 4. El proceso concluye, [7], con un resumen de los pasos dados, que para nuestro ejemplo implican incorporar al modelo, en definitiva, las covariables logbun y hgb. Ejemplo 2.7 Como antes dijimos, una forma alternativa de seleccionar las variables a incorporar al modelo es la de utilizar la opción score en SELECTION. A continuación vamos a repetir el ejemplo anterior, utilizando esta opción. El programa SAS a utilizar serı́a el siguiente DATA ejemplo8; INPUT tiempo censura logbun hgb plaqueta edad logwbc frac logplas proteina suerocal; CARDS; 1.25 1 2.2175 9.4 1 67 3.6628 1 1.9542 12 10 1.25 1 1.9395 12.0 1 38 3.9868 1 1.9542 20 18 2.00 1 1.5185 9.8 1 81 3.8751 1 2.0000 2 15 2.00 1 1.7482 11.3 0 75 3.8062 1 1.2553 0 12 2.00 1 1.3010 5.1 0 57 3.7243 1 2.0000 3 9 3.00 1 1.5441 6.7 1 46 4.4757 0 1.9345 12 10 5.00 1 2.2355 10.1 1 50 4.9542 1 1.6628 4 9 5.00 1 1.6812 6.5 1 74 3.7324 0 1.7324 5 9 6.00 1 1.3617 9.0 1 77 3.5441 0 1.4624 1 8 6.00 1 2.1139 10.2 0 70 3.5441 1 1.3617 1 8 6.00 1 1.1139 9.7 1 60 3.5185 1 1.3979 0 10 6.00 1 1.4150 10.4 1 67 3.9294 1 1.6902 0 8 7.00 1 1.9777 9.5 1 48 3.3617 1 1.5682 5 10 7.00 1 1.0414 5.1 0 61 3.7324 1 2.0000 1 10 7.00 1 1.1761 11.4 1 53 3.7243 1 1.5185 1 13 9.00 1 1.7243 8.2 1 55 3.7993 1 1.7404 0 12 11.00 1 1.1139 14.0 1 61 3.8808 1 1.2788 0 10 11.00 1 1.2304 12.0 1 43 3.7709 1 1.1761 1 9 11.00 1 1.3010 13.2 1 65 3.7993 1 1.8195 1 10 11.00 1 1.5682 7.5 1 70 3.8865 0 1.6721 0 12 11.00 1 1.0792 9.6 1 51 3.5051 1 1.9031 0 9 13.00 1 0.7782 5.5 0 60 3.5798 1 1.3979 2 10 14.00 1 1.3979 14.6 1 66 3.7243 1 1.2553 2 10 15.00 1 1.6021 10.6 1 70 3.6902 1 1.4314 0 11 16.00 1 1.3424 9.0 1 48 3.9345 1 2.0000 0 10 16.00 1 1.3222 8.8 1 62 3.6990 1 0.6990 17 10 17.00 1 1.2304 10.0 1 53 3.8808 1 1.4472 4 9 17.00 1 1.5911 11.2 1 68 3.4314 0 1.6128 1 10 18.00 1 1.4472 7.5 1 65 3.5682 0 0.9031 7 8 19.00 1 1.0792 14.4 1 51 3.9191 1 2.0000 6 15 19.00 1 1.2553 7.5 0 60 3.7924 1 1.9294 5 9 24.00 1 1.3010 14.6 1 56 4.0899 1 0.4771 0 9 25.00 1 1.0000 12.4 1 67 3.8195 1 1.6435 0 10 26.00 1 1.2304 11.2 1 49 3.6021 1 2.0000 27 11 32.00 1 1.3222 10.6 1 46 3.6990 1 1.6335 1 9 35.00 1 1.1139 7.0 0 48 3.6532 1 1.1761 4 10 37.00 1 1.6021 11.0 1 63 3.9542 0 1.2041 7 9 41.00 1 1.0000 10.2 1 69 3.4771 1 1.4771 6 10 41.00 1 1.1461 5.0 1 70 3.5185 1 1.3424 0 9 D 89 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 2. Análisis de Supervivencia 51.00 1 1.5682 7.7 0 74 3.4150 1 1.0414 4 13 52.00 1 1.0000 10.1 1 60 3.8573 1 1.6532 4 10 54.00 1 1.2553 9.0 1 49 3.7243 1 1.6990 2 10 58.00 1 1.2041 12.1 1 42 3.6990 1 1.5798 22 10 66.00 1 1.4472 6.6 1 59 3.7853 1 1.8195 0 9 67.00 1 1.3222 12.8 1 52 3.6435 1 1.0414 1 10 88.00 1 1.1761 10.6 1 47 3.5563 0 1.7559 21 9 89.00 1 1.3222 14.0 1 63 3.6532 1 1.6232 1 9 92.00 1 1.4314 11.0 1 58 4.0755 1 1.4150 4 11 4.00 0 1.9542 10.2 1 59 4.0453 0 0.7782 12 10 4.00 0 1.9243 10.0 1 49 3.9590 0 1.6232 0 13 7.00 0 1.1139 12.4 1 48 3.7993 1 1.8573 0 10 7.00 0 1.5315 10.2 1 81 3.5911 0 1.8808 0 11 8.00 0 1.0792 9.9 1 57 3.8325 1 1.6532 0 8 12.00 0 1.1461 11.6 1 46 3.6435 0 1.1461 0 7 11.00 0 1.6128 14.0 1 60 3.7324 1 1.8451 3 9 12.00 0 1.3979 8.8 1 66 3.8388 1 1.3617 0 9 13.00 0 1.6628 4.9 0 71 3.6435 0 1.7924 0 9 16.00 0 1.1461 13.0 1 55 3.8573 0 0.9031 0 9 19.00 0 1.3222 13.0 1 59 3.7709 1 2.0000 1 10 19.00 0 1.3222 10.8 1 69 3.8808 1 1.5185 0 10 28.00 0 1.2304 7.3 1 82 3.7482 1 1.6721 0 9 41.00 0 1.7559 12.8 1 72 3.7243 1 1.4472 1 9 53.00 0 1.1139 12.0 1 66 3.6128 1 2.0000 1 11 57.00 0 1.2553 12.5 1 66 3.9685 0 1.9542 0 11 77.00 0 1.0792 14.0 1 60 3.6812 0 0.9542 0 12 ; PROC PHREG; MODEL tiempo*censura(0)=logbun hgb plaqueta edad logwbc frac logplas proteina suerocal / SELECTION=score BEST=3; [1] RUN; en donde se observa, [1], que SAS debe elegir, en este caso tres, mejores modelos de cada tamaño. Es decir, el procedimiento deberá mostrar los tres modelos con mayor estadı́stico χ2 —los más significativos, es decir, para aquellos que se rechace más claramente la hipotesis H0 : β = 0— de todos los modelos posibles con cada número indicado de covariables. Los resultados obtenidos con este programa fueron los siguientes The PHREG Procedure Data Set: WORK.EJEMPLO8 Dependent Variable: TIEMPO Censoring Variable: CENSURA Censoring Value(s): 0 Ties Handling: BRESLOW Summary of the Number of Event and Censored Values Total Event Censored Percent Censored 65 48 17 26.15 The PHREG Procedure Regression Models Selected by Score Criterion D 90 In Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Score Value Variables Included in Model 1 8.516 LOGBUN 1 5.066 HGB 1 3.182 PLAQUETA -----------------------------2 12.725 LOGBUN HGB 2 11.184 LOGBUN PLAQUETA 2 9.996 LOGBUN SUEROCAL ------------------------------------3 15.305 LOGBUN HGB SUEROCAL 3 13.991 LOGBUN HGB EDAD 3 13.579 LOGBUN HGB FRAC ------------------------------------4 16.987 LOGBUN HGB EDAD SUEROCAL 4 16.046 LOGBUN HGB FRAC SUEROCAL 4 15.762 LOGBUN HGB LOGPLAS SUEROCAL ------------------------------------------------5 17.629 LOGBUN HGB EDAD FRAC SUEROCAL 5 17.352 LOGBUN HGB EDAD LOGPLAS SUEROCAL 5 17.192 LOGBUN HGB EDAD LOGWBC SUEROCAL ----------------------------------------------------6 17.912 LOGBUN HGB EDAD FRAC LOGPLAS SUEROCAL 6 17.795 LOGBUN HGB EDAD LOGWBC FRAC SUEROCAL 6 17.774 LOGBUN HGB PLAQUETA EDAD FRAC SUEROCAL -----------------------------------------------------------7 18.152 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS SUEROCAL 7 18.057 LOGBUN HGB EDAD LOGWBC FRAC LOGPLAS SUEROCAL 7 18.022 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC SUEROCAL ------------------------------------------------------------------8 18.392 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS SUEROCAL 8 18.164 LOGBUN HGB PLAQUETA EDAD FRAC LOGPLAS PROTEINA SUEROCAL 8 18.131 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC PROTEINA SUEROCAL ---------------------------------------------------------------------------9 18.455 LOGBUN HGB PLAQUETA EDAD LOGWBC FRAC LOGPLAS PROTEINA SUEROCAL ------------------------------------------------------------------------------ En ellos se observa, en la primera columna, el número de covariables utilizadas en cada modelo y, en la última, el nombre de cada una de las covariables utilizadas en él. Los modelos son listados en orden decreciente de su estadı́stico de contraste. Por ejemplo, entre todos los modelos conteniendo tres covariables, el formado por las covariables logbun, hgb y suerocal es el que proporciona un mayor valor para el estadı́stico de contraste, el formado por logbun, hgb y suerocal el segundo mayor valor y el formado por logbun, hgb y frac el tercer mayor valor. Los estadı́sticos obtenidos por este procedimiento son los estadı́sticos score del método anterior, por lo que los valores obtenidos por este método en la segunda columna, deben confrontarse con los puntos crı́ticos de las tablas de dicho test para determinar los que son significativos. D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3 Estimación de Haplotipos y de su riesgo 3.1. Conceptos de Genética Los humanos estamos formados por, aproximadamente, 100 billones de células. Cada célula tiene un núcleo y dentro de este núcleo hay una molécula de ADN. Esta molécula de ADN es una sucesión ordenada de cuatro ácidos nucleicos, la Adenina A, la Guanina G, la Citosina, C y la Timina, T . Es decir, esta molécula de ADN es un puzle o sopa de letras del tipo AT CT GACCA..., dando ası́ lugar a nuestro código genético, el cual estará pues determinado por el orden que ocupen estas cuatro letras en la escalera del ADN. Este larguı́sima molécula de ADN está estructurada en 23 pares de cromosonas. Son pares porque uno procede de la madre y otro del padre (por eso se dice que los humanos somos diploides); este par de cromosomas asociados se denominan homólogos. De hecho, esta molécula de ADN está formada fı́sicamente, por dos filamentos estrechamente entrelazados dispuestos en forma de doble hélice, hecho descubierto, fundamentalmente, por James Watson y Francis Crick, en Febrero de 1953. Podemos pensar por tanto, en esta larga doble hélice de letras, divididas en 23 pares denominados cromosomas conteniendo la información genética heredada. Cada cromosoma contendrá, pues, una larga combinación de esas cuatro letras básicas. Grupos de estas letras se denominan genes. Ésta es la visión de mayor a menor. De más pequeño a más grande podemos decir que los genes están hechos de ADN y que se disponen en lı́nea a lo largo de cada cromosoma. Cada gen ocupa en el cromosoma una posición determinada denominada locus. 91 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 92 Por tanto, un gen no es más que un fragmento de ADN que contiene instrucciones. Estas instrucciones se utilizan para fabricar una proteı́na. Un error o una omisión en las letras que forman un gen producirı́a proteı́nas defectuosas y, en consecuencia, una enfermedad genética. En el núcleo de una célula hay unos 100.000 genes distintos y en todo el cuerpo humano unos 3.500 millones de genes distintos. El Proyecto Genoma Humano descifró los 23 pares de cromosomas. La diferencia genética entre un chimpancé y un ser humano es tan sólo del 1′ 5 % y entre un ser humano y otro ser humano del 1 por mil, debido a la casi extinción de nuestra especie no hace mucho tiempo. No todo el ADN se encuentra en el núcleo celular, una pequeña parte se encuentra fuera del núcleo, en las mitocondrias, unos órganos de la célula que se encargan de proporcionarle energı́a. Esta pequeña parte del genóma (menos del uno por mil) se denomina ADN mitocondrial y se abrevia por mtADN. La ausencia de proteı́nas protectoras hace que el mtADN acumule muchos más errores al replicarse que el ADN del interior del núcleo celular por lo que le convierte en un marcador apropiado para estudiar la evolución de una especie. Las mitocondrias tienen una ventaja adicional: debido a que sólo el núcleo de los espermatozoides penetra en el óvulo al fecundarlo, el mtADN se transmite únicamente por vı́a materna y no experimento recombinaciones como le ocurre a los cromosomas del núcleo. Esto significa que, desde un punto de vista evolutivo, el más fácil interpretar este mtAND puesto que no presenta recombinaciones. El estudio del mtADN hacia atrás para analizar nuestros orı́genes, darı́a la gran sorpresa de que todos los europeos descendemos de siete Evas, puesto que sólo hay siete tipos diferentes de mtAND entre los millones de europeos. 3.2. Genotipos y Haplotipos El genotipo de un individuo es como un código propio de él consistente en combinaciones de parte o de todos los genes. Ası́ supongamos un indiviuo en el que nos fijamos en dos genes especı́ficos, que posee el alelo a en el mismo gen de los dos cromosomas homólogos y el alelo B en el otro gen de los dos cromosomas homólogos; es decir, una situación del tipo Cromosoma 1 : · · · Cromosoma 1’ : · · · a ··· B ··· a ··· B ··· ↑ ↑ Gen 1 Gen 2 Este individuo se dice que tiene el genotipo aaBB. Los haplotipos son grupos de genes ordenados. El individuo anterior da D 93 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo lugar a dos haplotipos aB ya que Cromosoma 1 : · · · a · · · B · · · → aB Cromosoma 1’ : · · · a · · · B · · · → aB Los genotipos se pueden observar pero los haplotipos hay que asignarlos. Algunas asignaciones no presenta ninguna dificultad, pero otras no están claras y las realizamos con técnicas estadı́sticas. Veamos todos los genotipos posibles y las asignaciones de haplotipos en cada caso, 1.-Genotipo AABB En este caso la asignación es clara. La situación de un individuo con genotipo AABB puede ser Cromosoma 1 : · · · A · · · B · · · → AB Cromosoma 1’ : · · · A · · · B · · · → AB en cuyo caso el individuo darı́a lugar a dos haplotipos AB, o también podrı́a ser como la siguiente, · · · A · · · B · · · → AB l Cromosoma 1’ : · · · A · · · B · · · → AB Cromosoma 1 : que también darı́a lugar a dos haplotipos AB. Es decir, que un individuo con el genotipo AABB da lugar a dos haplotipos, uno AB y otro también AB. 2.-Genotipo AABb En este caso, también la asignación es clara. La situación puede ser Cromosoma 1 : · · · A · · · B · · · → AB Cromosoma 1’ : · · · A · · · b · · · → Ab en cuyo caso darı́a lugar a dos haplotipos, uno AB y otro Ab. La situación también podrı́a ser como la siguiente, b · · · → Ab l Cromosoma 1’ : · · · A · · · B · · · → AB Cromosoma 1 : ··· A ··· aunque en esta segunda situación también darı́a lugar a dos haplotipos, uno AB y otro Ab. Es decir, en cualquiera de las dos situaciones, un individuo con el genotipo AABb da lugar a dos haplotipos, uno AB y otro Ab. D 94 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 3.-Genotipo AAbb En este caso, la asignación es clara, Cromosoma 1 : · · · A · · · b · · · → Ab Cromosoma 1’ : · · · A · · · b · · · → Ab Un individuo con el genotipo AAbb da lugar a dos haplotipos, uno Ab y otro también Ab. 4.-Genotipo AaBB En este caso, la asignación es clara, Cromosoma 1 : · · · A · · · B · · · → AB Cromosoma 1’ : · · · a · · · B · · · → aB Un individuo con el genotipo AaBB da lugar a dos haplotipos, uno aB y otro AB. 5.-Genotipo Aabb En este caso, la asignación es clara, Cromosoma 1 : · · · A · · · b · · · → Ab Cromosoma 1’ : · · · a · · · b · · · → ab Un individuo con el genotipo AABb da lugar a dos haplotipos, uno Ab y otro ab. 6.-Genotipo aaBB En este caso, la asignación es clara, Cromosoma 1 : · · · a · · · B · · · → aB Cromosoma 1’ : · · · a · · · B · · · → aB Un individuo con el genotipo aaBB da lugar a dos haplotipos, uno aB y otro también aB. 7.-Genotipo aaBb En este caso, la asignación es clara, Cromosoma 1 : · · · a · · · B · · · → aB Cromosoma 1’ : · · · a · · · b · · · → ab Un individuo con el genotipo aaBb da lugar a dos haplotipos, uno aB y otro ab. 8.-Genotipo aabb D 95 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo En este caso, la asignación es clara, Cromosoma 1 : · · · a · · · b · · · → ab Cromosoma 1’ : · · · a · · · b · · · → ab Un individuo con el genotipo aabb da lugar a dos haplotipos, uno ab y otro también ab. 9.-Genotipo AaBb Éste es el único caso en el que la asignación no es clara. La situación puede ser del tipo Cromosoma 1 : · · · A · · · B · · · → AB Cromosoma 1’ : · · · a · · · b · · · → ab en cuyo caso darı́a lugar a los haplotipos AB y ab, pero también puede ser la situación de la siguiente manera, Cromosoma 1 : · · · A · · · b · · · → Ab Cromosoma 1’ : · · · a · · · B · · · → aB en cuyo caso darı́a lugar a los haplotipos Ab y aB. Precisamente, la asignación de los haplotipos más verosı́miles a individuos con genotipo AaBb se realiza con métodos estadı́sticos, basándonos en la frecuencia de haplotipos existentes en la población a la que pertenece el individuo, utilizando el algoritmo EM. 3.3. Asignación de haplotipos a individuos con genotipo AaBb En el último apartado de la sección anterior, indicamos los haplotipos que cabrı́a asignar a los individuos según el genotipo que tuvieran. Cabı́an, no obstante, dos posibilidades de asignación de haplotipos a los individuos con genotipo AaBb. Ésta la haremos mediante un proceso iterativo el cual, en su forma computacional, recibe el nombre de algoritmo EM. El proceso de actuación (el algoritmo) es el siguiente: En una etapa inicial consideramos a priori como equiprobables la obtención de los dos haplotipos que se consiguen con cada genotipo y, además, como equiprobables las dos situaciones que se podı́an presentar en el apartado 9 anterior. Ası́ por ejemplo, es seguro que a un individuo con genotipo AABB se le asigna un haplotipo AB (es decir, P (AB/AABB) = 1), o por ejemplo que a un individuo con genotipo AABb se le asigna un haplotipo AB con probabilidad 1/2 puesto que también se le prodrı́a asignar el otro haplotipo Ab con probabilidad 1/2 (es decir, P (AB/AABb) = 1/2) y, además, en D 96 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud relación a la última situación conflictiva, será como hemos dicho, a priori, es decir, en la etapa inicial, P (AB ∩ ab/AaBb) = 1/2. Para obtener uno de los dos deberá sortear otra vez con probabilidad 1/2 y será, por ejemplo, P (AB/AaBb) = 1/4. Por tanto, un individuo elegido al azar de un población, el cual tenga genotipo AaBb, tendrá probabilidad de tener los haplotipos AB y ab (primera posibilidad, digamos S1 ) con probabilidad P (S1 /AaBb) = P (AB ∩ ab/AaBb) = 1/2. La otra posibilidad es que tenga los haplotipos Ab y aB (posibilidad a la que denominaremos S2 ), de probabilidad a priori P (S2 /AaBb) = P (Ab ∩ aB/AaBb) = 1 − P (S1 ) = 1/2. Estas dos posibilidades se suelen denominar en genética, respectivamente S1 ≡ AB/ab y S2 ≡ Ab/aB aunque no tengan nada que ver con sucesos condicionados. El algoritmo EM va modificando esas probabilidades a priori en base a datos observados en una determinada muestra de la población en estudio. Supongamos una población de 398 individuos clasificados según sus pares de alelos en los dos cromosomas homólogos, BB Bb bb AA 0 0 3 Aa 1 24 46 aa 34 127 163 Es decir, tenemos 34 individuos en la población con el genotipo aaBB a los que, por el razonamiento de más arriba, asignaremos a cada uno de ellos dos haplotipos aB; 3 individuos con el genotipo AAbb a los que asignaremos dos haplotipos Ab; pero, ¿qué haplotipos asignaremos a los 24 individuos con el genotipo AaBb? En la etapa a priori tenı́amos P (S1 /AaBb) = 1/2 P (S2 /AaBb) = 1/2. Ahora vamos a transformar, en un Primer Paso, esta información a priori con la información muestral disponible, obteniendo una probabilidades a posteriori para P (S1 /AaBb) y P (S2 /AaBb), las cuales serán utilizadas en un Segundo Paso como probabilidades a priori en lugar de los valores previos 0′ 5, 0′ 5. D 97 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo En vista de la tabla, si denominamos AABB al suceso obtener un individuo de la población con genotipo AABB y de la misma manera denotamos a los otros ocho posibles genotipos de la población, éstos formarán un sistema completo de sucesos y, por tanto, la probabilidad de elegir un individuo de la población con haplotipo AB, P (AB) será, por el teorema de la probabilidad total, P (AB) = P (AABB)P (AB/AABB) + P (AAbb)P (AB/AAbb) + P (Aabb)P (AB/Aabb) + P (aaBb)P (AB/aaBb) + P (AaBb)P (AB/AaBb) 0 1 3 0 = ·1+ · + ·0+ 398 398 2 398 + + + + + P (AABb)P (AB/AABb) P (AaBB)P (AB/AaBB) P (aaBB)P (AB/aaBB) P (aabb)P (AB/aabb) 1 1 46 34 · + ·0+ ·0 398 2 398 398 127 163 24 1 ·0+ ·0+ · = 0′ 01633166 398 398 398 4 Análogamente se obtendrı́a que P (aB) = 0′ 2613065 P (Ab) = 0′ 080402 P (ab) = 0′ 6419597 siendo P (AB) + P (aB) + P (Ab) + P (ab) = 1, pues estos cuatro haplotipos son los cuatro posibles. Por tanto, la probabilidad de obtener en esa población un individuo con haplotipos AB y ab será P (S1 ) = P (AB) · P (ab) = 0′ 01633166 · 0′ 6419597 = 0′ 01048423 y con haplotipos Ab y aB P (S2 ) = P (Ab) · P (aB) = 0′ 080402 · 0′ 2613065 = 0′ 02100957. La de que un individuo de esa población con genotipo AaBb tenga esa pareja de haplotipos será, por el teorema de Bayes, P (S1 /AaBb) = = P (AaBb/S1 ) · P (S1 ) P (AaBb/S1 ) · P (S1 ) + P (AaBb/S2 ) · P (S2 ) 1 · 0′ 01048423 = 0′ 332899 1 · 0′ 01048423 + 1 · 0′ 02100957 D 98 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud y, por tanto, P (S2 /AaBb) = 1 − 0′ 332899 = 0′ 667101. Ya tenı́amos la información a priori P (S1 /AaBb) = P (AB ∩ ab/AaBb) = 1/2 P (S2 /AaBb) = P (Ab ∩ aB/AaBb) = 1 − P (S1 ) = 1/2. Ahora, después de una iteración (o combinación de una etapa con la muestra) será P (S1 /AaBb) = 0′ 332899 P (S2 /AaBb) = 1 − 0′ 332899 = 0′ 667101 y, por tanto, ′ P (AB/AaBb) = 0 332899 = 0′ 1664495 2 ′ P (ab/AaBb) = 0 332899 = 0′ 1664495 2 ′ P (Ab/AaBb) = 0 667101 = 0′ 3335505 2 ′ = 0′ 3335505 P (aB/AaBb) = 0 667101 2 valores a introducir de nuevo en el proceso en la Etapa Segunda, en lugar de los valores 1/4 utilizados en la Primera Etapa. Utilizando el algoritmo EM, en lugar de repetir el proceso manualmente, después de 20 iteraciones el algoritmo converge a los valores P (S1 /AaBb) = 0′ 088 P (S2 /AaBb) = 1 − 0′ 088 = 0′ 912. (Se podrı́an hacer pruebas con otros valores a priori en lugar de 0′ 5 y ver si se obtiene la misma estimación final.) 3.3.1. Asignación de haplotipos Una vez estimadas las probabilidades de ambos sucesos, S1 y S2 , proceso que suele llamarse Fase de Determinación, comienza la denominada Fase de Asignación en la que caben, básicamente, dos opciones, D 99 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo 1. Uniforme: Asignar a todos los individuos con genotipo AaBa los haplotipos más probables. Esto es lo que habitualmente se hace. En nuestro caso, asignarı́amos a los 24 individuos los haplotipos S2 es decir, Ab/aB 2. Máximo-verosı́mil: Asignar a cada uno de los individuos con genotipo AaBa los haplotipos S1 o S2 según las probabilidades estimadas. En nuestro caso, asignar a cada uno de los 24 individuos de la población en estudio, los haplotipos Ab/aB con probabilidad 0′ 912 y los haplotipos AB/ab con probabilidad 0′ 088. 3.4. Comparación de poblaciones: Regresión Logı́stica En muchas ocasiones es de interés comparar dos poblaciones, por ejemplo la que está en estudio y una población control, con objeto de analizar si existen diferencias significativas entre ellas, mediante una Regresión Logı́stica, considerando varias covariables en el estudio. En concreto, considerando como una de las covariables posibles, los haplotipos de ambas poblaciones. Si sólo se considerase esta covariable, un tratamiento alternativo de comparación, puesto que los datos observados son recuentos de observaciones, serı́a un test de comparación de varias muestras de la χ2 . No obstante, lo más frecuente es utilizar más covariables tales como la Edad, etc. Por razones pedagógicas, consideremos aquı́ sólo la covariable haplotipo y comparemos la población antes considerada con una Población Control con 458 individuos BB Bb bb AA 0 1 2 Aa 3 25 56 aa 25 151 195 Repitiendo exactamente el mismo proceso de la sección anterior se llegarı́a, en esta Población a P (S1 /AaBb) = 0′ 268 P (S2 /AaBb) = 0′ 732. Los resultados dependerán del tipo de asignación elegido. Como el primer caso es un caso particular del segundo en el que la P (S1 /AaBb) = 0 ó igual a 1, llamaremos p = P (S1 /AaBb) y luego sustituiremos p por uno u otro valor según el tipo de asignación considerado. D 100 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Necesitamos determinar el número esperado de individuos de cada uno de los cuatro haplotipos, para cada una de las dos poblaciones a comparar. Para ello, habrá que calcular la probabilidad de los cuatro haplotipos posibles y luego, multiplicarlas por el tamaño de la población. Sustituyendo 1/4 por p/2 ó (1 − p)/2 en [3.3] según el caso, será para la población en estudio, P (AB) = P (AABB)P (AB/AABB) + P (AAbb)P (AB/AAbb) + P (Aabb)P (AB/Aabb) + P (aaBb)P (AB/aaBb) + P (AaBb)P (AB/AaBb) 0 0 1 3 = ·1+ · + ·0+ 398 398 2 398 + P (AABB)P (aB/AABB) + P (AAbb)P (aB/AAbb) + P (Aabb)P (aB/Aabb) + P (aaBb)P (aB/aaBb) + P (AaBb)P (aB/AaBb) 0 0 3 ·0+ ·0+ ·0+ = 398 398 398 + 1 1 46 34 · + ·0+ ·0 398 2 398 398 + + + + P (AABb)P (aB/AABb) P (AaBB)P (aB/AaBB) P (aaBB)P (aB/aaBB) P (aabb)P (aB/aabb) 1 1 46 34 · + ·0+ ·1 398 2 398 398 127 1 163 24 1−p 110 − 12p · + ·0+ · = 398 2 398 398 2 398 P (AABB)P (Ab/AABB) + P (AAbb)P (Ab/AAbb) + P (Aabb)P (Ab/Aabb) + P (aaBb)P (Ab/aaBb) + P (AaBb)P (Ab/AaBb) 0 0 1 3 = ·0+ · + ·1+ 398 398 2 398 + P (AABb)P (AB/AABb) P (AaBB)P (AB/AaBB) P (aaBB)P (AB/aaBB) P (aabb)P (AB/aabb) 0′ 5 + 12p 127 163 24 p = ·0+ ·0+ · 398 398 398 2 398 P (aB) = P (Ab) = + + + + + + + + P (AABb)P (Ab/AABb) P (AaBB)P (Ab/AaBB) P (aaBB)P (Ab/aaBB) P (aabb)P (Ab/aabb) 1 46 1 34 ·0+ · + ·0 398 398 2 398 127 163 24 1−p 38 − 12p ·0+ ·0+ · = 398 398 398 2 398 D 101 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo P (ab) = P (AABB)P (ab/AABB) + P (AAbb)P (ab/AAbb) + P (Aabb)P (ab/Aabb) + P (aaBb)P (ab/aaBb) + P (AaBb)P (ab/AaBb) 0 0 3 ·0+ ·0+ ·0+ = 398 398 398 + + + + + P (AABb)P (ab/AABb) P (AaBB)P (ab/AaBB) P (aaBB)P (ab/aaBB) P (aabb)P (ab/aabb) 1 46 1 34 ·0+ · + ·0 398 398 2 398 24 249′ 5 + 12p 127 1 163 p · + ·1+ · = 398 2 398 398 2 398 Lógicamente, es 0′ 5 + 12p 110 − 12p 38 − 12p 249′ 5 + 12p + + + = 1. 398 398 398 398 Para la población control será P (AB) = P (AABB)P (AB/AABB) + P (AAbb)P (AB/AAbb) + P (Aabb)P (AB/Aabb) + P (aaBb)P (AB/aaBb) + P (AaBb)P (AB/AaBb) 0 1 1 2 = ·1+ · + ·0+ 458 458 2 458 + + + + + P (AABb)P (AB/AABb) P (AaBB)P (AB/AaBB) P (aaBB)P (AB/aaBB) P (aabb)P (AB/aabb) 3 1 56 25 · + ·0+ ·0 458 2 458 458 151 p 2 + 12′ 5p 195 25 = ·0+ ·0+ · 458 458 458 2 458 P (aB) = P (AABB)P (aB/AABB) + P (AAbb)P (aB/AAbb) + P (Aabb)P (aB/Aabb) + P (aaBb)P (aB/aaBb) + P (AaBb)P (aB/AaBb) 0 1 2 ·0+ ·0+ ·0+ = 458 458 458 + + + + + P (AABb)P (aB/AABb) P (AaBB)P (aB/AaBB) P (aaBB)P (aB/aaBB) P (aabb)P (aB/aabb) 3 1 56 25 · + ·0+ ·1 458 2 458 458 151 1 195 25 1−p 114′ 5 − 12′ 5p · + ·0+ · = 458 2 458 458 2 458 D 102 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud P (Ab) = P (AABB)P (Ab/AABB) + P (AAbb)P (Ab/AAbb) + P (Aabb)P (Ab/Aabb) + P (aaBb)P (Ab/aaBb) + P (AaBb)P (Ab/AaBb) 1 1 2 0 ·0+ · + ·1+ = 458 458 2 458 + + + + + P (AABb)P (Ab/AABb) P (AaBB)P (Ab/AaBB) P (aaBB)P (Ab/aaBB) P (aabb)P (Ab/aabb) 3 56 1 25 ·0+ · + ·0 458 458 2 458 151 1−p 195 25 43 − 12′ 5p ·0+ ·0+ · = 458 458 458 2 458 P (ab) = P (AABB)P (ab/AABB) + P (AAbb)P (ab/AAbb) + P (Aabb)P (ab/Aabb) + P (aaBb)P (ab/aaBb) + P (AaBb)P (ab/AaBb) 1 2 0 = ·0+ ·0+ ·0+ 458 458 458 + + + + + P (AABb)P (ab/AABb) P (AaBB)P (ab/AaBB) P (aaBB)P (ab/aaBB) P (aabb)P (ab/aabb) 3 56 1 25 ·0+ · + ·0 458 458 2 458 151 1 195 25 p 298′ 5 + 12′ 5p · + ·1+ · = 458 2 458 458 2 458 Ahora también es 2 + 12′ 5p 114′ 5 − 12′ 5p 43 − 12′ 5p 298′ 5 + 12′ 5p + + + = 1. 458 458 458 458 Asignación Uniforme: En este tipo de asignación, para el ejemplo que estamos considerando, es p = 0 en ambas poblaciones puesto que era más probable S2 que S1 . Por tanto, sustituyendo p = 0 en las probabilidades anteriores quedará la probabilidad de los cuatro haplotipos en cada una de las dos poblaciones como sigue: AB aB Ab ab Población en estudio 0′ 5/398 110/398 38/398 249′ 5/398 1 Población Control 2/458 114′ 5/458 43/458 298′ 5/458 1 multiplicando ahora las cuatro probabilidades de la población en estudio por el número de individuos que hay en ella, 398, y por 458 en la Población Control, D 103 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 3. Estimación de Haplotipos y de su riesgo quedará el número esperado de haplotipos en cada una de las dos poblaciones como sigue: AB aB Ab ab Población en estudio Población Control 0′ 5 2 110 114′ 5 38 43 249′ 5 298′ 5 398 458 Tabla 1 Asignación Máximo-verosı́mil: En este tipo de asignación, para el ejemplo que estamos considerando, era p = 0′ 088 en la Población en estudio y p = 0′ 268 en la Población Control, con lo que las probabilidades de los cuatro haplotipos en cada una de las dos poblaciones queda como sigue: AB aB Ab ab Población en estudio 1′ 556/398 108′ 944/398 36′ 944/398 250′ 556/398 1 Población Control 5′ 35/458 111′ 15/458 39′ 65/458 301′ 85/458 1 multiplicando ahora las cuatro probabilidades de la población en estudio por el número de individuos que hay en ella, 398, y por 458 en la Población Control, quedará el número esperado de haplotipos en cada una de las dos poblaciones como sigue: AB aB Ab ab 3.4.1. Población en estudio Población Control 1′ 556 5′ 35 108′ 944 111′ 15 ′ 36 944 39′ 65 ′ 250 556 301′ 85 398 458 Tabla 2 Regresión Logı́stica A continuación vamos a comparar ambas poblaciones en cada una de las dos situaciones de asignación utilizando los datos de las Tablas 1 y 2. Observamos primero que, en algunos casos, aparecen números decimales de individuos con un determinado haplotipo en dichas Tablas. Aunque en un Análisis de D 104 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Regresión Logı́stica las covariables no tienen porque tomar valores enteros, al ser en este caso la única covariable, haplotipo, cualitativa con cuatro clases posibles, es natural que ası́ lo fuera (aunque recuérdese que, al estimar las probabilidades y luego las frecuencias absolutas de cada celdilla, éstas podrı́an ser números decimales). Por tanto, suele tomarse el entero más próximo a los valores de las Tablas 1 y 2 para realizar el Análisis. Es decir, por ejemplo se estima que hay 5 individuos con haplotipo AB en la Población control de la Tabla 2. Por otro lado, es habitual que los genetistas consideren los haplotipos por parejas, de manera que duplican el número de individuos en cada población para que sigan sumando las probabilidades estimadas 1. Por ello, si primero multiplicamos por dos los números de las Tablas 1 y 2 y luego tomamos el entero más próximo en los casos que queden valores decimales, las tablas a considerar serán, finalmente, Asignación uniforme: AB aB Ab ab Población en estudio Población Control 1 4 220 229 76 86 499 597 796 916 Tabla 1 Un Análisis de Regresión Logı́stica proporcionó el valor 2′ 7933 para el estadı́stico de Wald con p-valor asociado igual a 0′ 4246. Asignación Máximo-verosı́mil: La tabla de observaciones es AB aB Ab ab Población en estudio Población Control 3 11 218 222 74 79 501 604 796 916 Tabla 2 proporcionando el Análisis de Regresión Logı́stica un valor para el estadı́stico de Wald igual a 5′ 6159 y un p-valor asociado de 0′ 1319. D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4 Bioinformática: Técnicas Machine Learning 4.1. Introducción Las Técnicas Estadı́sticas aquı́ estudiadas no sólo se utilizan en Ciencias de la Salud aunque, dado que en este curso las aplicaremos fundamentalmente a estudios de asociación (condicional) genética, se han incluido en el tema dedicado a esta materia. Obviamente, su aplicación es mucho más amplia. Dado lo reciente de estas técnicas, en muchas ocasiones hemos mantenido la denominación anglosajona para su fácil identificación. Los Métodos aquı́ estudiados suelen venir englobados habitualmente en lo que se denomina Minerı́a de Datos o Data Mining porque suelen utilizarse con datos de gran dimensión (número p de variables muy alto) y/o enorme tamaño muestral (n muy grande) y, en ocasiones, con p >> n lo que crea graves problemas de aplicación de las técnicas estadı́sticas tradicionales. Una cuestión de interés que nos gustarı́a resaltar es que, en contra de lo que comúnmente se cree, este tipo de técnicas suelen ser poco robustas, es decir, suelen ser sensibles a la presencia de datos anómalos en la muestra. 4.2. Árboles de Clasificación y Regresión (Classification and Regression Trees, CARTs) Los Árboles de Clasificación y Regresión (Classification and Regression Trees), habitualmente conocidos por su acrónimo anglosajón CARTs, son una técnica consistente en descubrir relaciones (condicionales) entre un gran número de covariables independientes y una dependiente cualitativa o continua. Se denominan Árboles de Clasificación cuando se aplican a variables dependien105 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 106 tes cualitativas y Árboles de Regresión cuando la variable dependiente es de tipo continuo. Ambas técnicas, debidas a Breiman et al. (1993), suponen la aplicación de un algoritmo que va dividiendo el conjunto de individuos de la muestra en subgrupos, de manera que se minimice la heterogeneidad (denominada impureza del nodo) dentro de los nuevos grupos formados. 4.2.1. Construcción de un Árbol Los datos de los que dispondremos serán n observaciones de una variable dependiente (que aquı́ será un fenotipo) Y y p variables independientes X1 , ..., Xp las cuales pensamos sirven para predecir a la variable dependiente. Un Árbol se construye determinando primero la variable Xj más predictiva del fenotipo Y en el sentido que veremos más abajo. Supongamos para comenzar que esta variable Xj tomara sólo dos valores; los individuos de la muestra, los cuales inicialmente están todos en un conjunto, denominado nodo raı́z, o nodo padre y que representaremos por Ω, se dividirán en dos subconjuntos o nodos hija, Ω1 y Ω2 según los valores de esta variable de Xj . Si tomase más valores –por ejemplo, fuera de tipo continua–, los dos grupos se formarı́an dependiendo de si Xj < c, ó Xj ≥ c, siendo c algún valor posible de Xj . Se elige a continuación la segunda variable más predictiva de Y en cada uno de los nodos hija y se aplica de nuevo una regla similar en cada uno de los dos nodos hija; y ası́ se sigue particionando la muestra hasta un determinado momento fijado por una regla de parada (por ejemplo que el nodo tenga menos de tres individuos). Advertimos que el método puede conducir a árboles asimétricos. Cuando hayamos construido el Árbol habremos seleccionado unas cuantas covariables, las más influyentes en la variable dependiente, y además por orden de importancia. La elección de la variable más predictiva y la regla de clasificación a partir de ella, se basa en lo que se denomina impureza del nodo (es decir, su heterogeneidad) I(Ω) para la que existen varias opciones; no obstante, suele decirse que todas conducen básicamente la mismo árbol. La variable más predictiva (y la regla de clasificación basada en ella) se elige como aquella que maximice I(Ω) − I(ΩD ) − I(ΩI ) siendo ΩD y ΩI los dos nodos hija (Derecha e Izquierda) del nodo Ω obtenidos después de aplicar la regla considerada. Variable dependiente dicotómica De las diversas medidas de impureza del nodo, la más habitual para el caso de que la variable dependiente Y sea dicotómica, es el Índice de Gini definido D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 108 Otras variables P1 hasta P99 son los lugares (lugar 1, lugar 2, ..., lugar 99) del animoácido en la región de proteasa del genoma de este virus y constituirán las covariables (dicotómicas: presencia/ausencia) independientes. Ejecutando la siguiente secuencia de instrucciones en R, > > > > > > > > Virco<-read.csv("h:\\salud\\Virco-data.csv",header=T) Vircogen<-data.frame(Virco[,substr(names(Virco),1,1)=="P"]!="-") attach(Virco) Rasgo<-as.factor(IDV.Fold>NFV.Fold) library(rpart) Arbol<-rpart(Rasgo~.,method="class",data=Vircogen) plot(Arbol,ylim=c(0.7,1.03)) text(Arbol) obtenemos el árbol de clasificación en la Figura 4.1. En este árbol se observa que la primera variable más predictiva es P54 y el que tome un valor menor (o mayor o igual) que 0′ 5, la regla de clasificación de los individuos de la muestra. Se ve a continuación que en el nodo hija de la izquierda la variable más predictiva es P76 y que en el nodo de la derecha es P46 y ası́ sucesivamente. Se puede obtener más información sobre el árbol obtenido ejecutando el resultado obtenido al aplicar la función rpart, es decir, ejecutando > Arbol n=976 (90 observations deleted due to missingness) node), split, n, loss, yval, (yprob) * denotes terminal node 1) root 976 399 FALSE (0.5911885 0.4088115) 2) P54< 0.5 480 130 FALSE (0.7291667 0.2708333) 4) P76< 0.5 466 116 FALSE (0.7510730 0.2489270) * 5) P76>=0.5 14 0 TRUE (0.0000000 1.0000000) * 3) P54>=0.5 496 227 TRUE (0.4576613 0.5423387) 6) P46< 0.5 158 57 FALSE (0.6392405 0.3607595) 12) P1< 0.5 115 31 FALSE (0.7304348 0.2695652) * 13) P1>=0.5 43 17 TRUE (0.3953488 0.6046512) * 7) P46>=0.5 338 126 TRUE (0.3727811 0.6272189) 14) P10< 0.5 22 7 FALSE (0.6818182 0.3181818) * 15) P10>=0.5 316 111 TRUE (0.3512658 0.6487342) 30) P48< 0.5 278 106 TRUE (0.3812950 0.6187050) 60) P20< 0.5 113 55 TRUE (0.4867257 0.5132743) 120) P76< 0.5 92 40 FALSE (0.5652174 0.4347826) * 121) P76>=0.5 21 3 TRUE (0.1428571 0.8571429) * 61) P20>=0.5 165 51 TRUE (0.3090909 0.6909091) * 31) P48>=0.5 38 5 TRUE (0.1315789 0.8684211) * Se obtiene ası́, para cada nodo, el número de individuos de la muestra utilizados, por ejemplo 976 en el nodo raı́z; el número de observaciones para las cuales la variable de respuesta es predicha incorrectamente, por ejemplo 399 en el nodo raı́z; el valor predicho de esta variable de respuesta, por ejemplo FALSE (equivalentemente IDV.Fold < NFV.Fold) en el nodo raı́z; las D 109 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning proporciones de individuos clasificados como (IDV.Fold<NFV.Fold , IDV.Fold≥NFV.Fold), por ejemplo ((976 − 399)/976, 399/976) = (0′ 5911, 0′ 4088) en el nodo raı́z. Los nodos finales, también conocidos como nodos terminales, se indican con un *. Esta técnica se aplica también en el caso de que la variable dependiente sea categórica, en general, y no sólo dicotómica. Variable dependiente continua Si la variable dependiente no es cualitativa sino que es de tipo continuo, el árbol se denomina Árbol de regresión y no de clasificación, midiéndose la impureza de un nodo, habitualmente, con el error cuadrático medio I(Ω) = 1 X (yi − y)2 nΩ i∈Ω en donde yi son los valores de la variable dependiente Y en los individuos del nodo Ω y y la media muestral de la variable dependiente, es decir, sin distinción de nodos. Se observa aquı́ la gran sensibilidad del proceso en el caso de datos anómalos al ser una suma de cuadrados. Para este tipo de variable dependiente y con el error cuadrático medio como medida de impureza, el Árbol de Regresión se obtiene de nuevo con la función rpart aunque cambiando el argumento method rpart(modelo,method="anova",data) Ejemplo 4.2 Consideremos de nuevo los datos Virco-data.csv pero ahora con la variable dependiente la diferencia de las variables NFV.Fold-IDV.Fold y de nuevo como covariables independientes las variables P1 hasta P99. Ejecutando la siguiente secuencia de instrucciones en R, > > > > > > > > Virco<-read.csv("h:\\salud\\Virco-data.csv",header=T) Vircogen<-data.frame(Virco[,substr(names(Virco),1,1)=="P"]!="-") attach(Virco) Rasgo2<- NFV.Fold-IDV.Fold library(rpart) Arbol2<-rpart(Rasgo2~.,method="anova",data=Vircogen) plot(Arbol2,ylim=c(0.85,1.01)) text(Arbol2) obtenemos el árbol de regresión en la Figura 4.2. D 110 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud P54>=0.5 | P46>=0.5 P73< 0.5 P58< 0.5 −10.57 P35< 0.5 2.57 89.91 5.707 8.171 257.9 Figura 4.2 : Árbol de Regresión Covariables Cualitativas y Ordinales En los casos antes tratados las covariables eran dicotóminas, es decir, la correspondiente covariable Xj sólo tomaba los valores 1 y 0, por lo que la división de cada nodo (comenzando por el nodo padre) en dos nodos hija se hará sólo de dos maneras posibles, correspondientes a estos valores (por ejemplo el nodo hija de la izquierda para los valores Xj = 1 y el nodo hija de la derecha para los valores Xj = 0; ası́ o al revés). Si la covariable es cualitativa, es = m(m − 1)/2 decir, la correspondiente Xj toma, digamos, m valores, hay m 2 formas distintas de definir los dos nodos hija, lo que complica el cálculo. El algoritmo que utilizaremos considera todas estas posibles divisiones. Si la covariable Xj fuera ordinal y toma, digamos, m valores, sólo consideraremos m − 1 formas diferentes de división: la primera forma, que los individuos en los que es Xj = 1 van al nodo hija de la izquierda y al nodo de la derecha los individuos en los que Xj toma los valores 2, 3, ..., m. La segunda forma de división es aquella en la que los individuos en los que Xj toma los valores 1 ó 2 van al nodo hija de la izquierda y al nodo de la derecha los individuos en los que Xj toma los valores 3, ..., m. Ası́ sucesivamente hasta la posible regla de división m − 1 en la que los individuos en los que Xj toma los valores 1 ó 2 ó ... m − 1 van al nodo hija de la izquierda y al nodo de la derecha los individuos en los que Xj toma el valor m. D 111 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning Ejemplo 4.3 Los datos FMS-data.txt son los resultados de un estudio, el “FAMuSS study”, sobre tamaño muscular y fuerza que trata de determinar los factores genéticos del aparato muscular antes y después de realizar ejercicio fı́sico. Para ello se eligieron a n = 1397 individuos y se obtuvieron datos sobre 225 Poliformismos de un solo nucleótido, SNPs. En este ejemplo analizaremos la influencia de los 6 genes de este conjunto de datos relacionados con la resistencia (todos con la denominación resistin y algo más y que son categóricos con tres niveles), en la variable dependiente NDRM.CH que mide el porcentaje de cambio en la fuerza muscular. Ejecutando la siguiente secuencia de instrucciones en R, resistin_c980g=ab | 51.23 61.04 Figura 4.3 : Árbol de Regresión > > > > fms<-read.delim("h:\\salud\\FMS-data.txt",header=T) attach(fms) Rasgo3<-NDRM.CH library(rpart) > Arbol3<-rpart(Rasgo3~resistin_c30t+resistin_c398t+resistin_g540a+resistin_c980g + +resistin_c180g+resistin_a537c,method="anova",data=fms) > Arbol3 n=611 (786 observations deleted due to missingness) node), split, n, deviance, yval * denotes terminal node 1) root 611 665669.4 52.85352 2) resistin_c980g=CC,CG 510 491113.4 51.23314 * (1) D 112 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 3) resistin_c980g=GG 101 166455.3 61.03564 * vemos en (1) que la variable resistin-c980g es la covariable más predictiva de la variable de respuesta NDRM.CH. Vemos también allı́ que los individuos con genotipos CC y CG tienen un valor predictivo de 51′ 23 mientras que los individuos con genotipos GG tienen un valor predictivo de 61′ 03 Aunque en este ejemplo la representación gráfica del árbol de regresión no es tan importante como en otros casos, podemos conseguirla ejecutando > plot(Arbol3,ylim=c(0.985,1.005)) > text(Arbol3) obteniendo el árbol de regresión de la Figura 4.3. Covariables Cuantitativas La situación en la que la covariable es cuantitativa es muy similar al caso de covariable ordinal: ordenamos los valores observados de esta variable en la muestra y los consideramos como los valores de una variable ordinal. 4.2.2. Árboles óptimos En los apartados anteriores hemos estudiado cómo construir árboles en diferentes situaciones. En la mayorı́a de las ocasiones los árboles obtenidos deben de ser podados (pruned) para reducir el número final de ramas. El problema es semejante al sobre-ajuste en la regresión lineal, problema que consiste en que cuantas más covariables incluyamos, mejor será el ajuste en el conjunto de datos observado pero será poco útil en predicciones para conjuntos de datos nuevos. De los distintos métodos de poda en la obtención del árbol óptimo, sólo consideraremos el método Coste de la Complejidad en el que, como su nombre indica, se define una medida del coste de tener un árbol más complejo, es decir, con más ramas o mejor dicho, con más nodos finales, cantidad denominada tamaño del árbol, aunque la medida tiene en cuenta también el error del ajuste del árbol, el cual lógicamente será mayor cuantas menos ramas tenga. Comencemos denominando impureza del árbol T al número R(T ) = X τ π(τ ) · r(τ ) en donde la suma anterior se efectúa en todos los nodos terminales τ , siendo π(τ ) la probabilidad de pertenecer al nodo τ y r(τ ) la medida de error del nodo τ . Si denominamos α ≥ 0 a un parámetro de complejidad, el Coste de la Complejidad del árbol T se define como D 113 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning CosCom = R(T ) + α · Tamaño del árbol T siendo el propósito de este método determinar el tamaño del árbol que minimice el Coste de la Complejidad. Ejemplo 4.4 Vamos a considerar de nuevo los datos Virco. Ahora vamos a determinar asociaciones entre mutaciones en la región de proteasa del genoma del virus considerando ahora como variable dependiente cuantitativa la resistencia al APV, variable APV.Fold. Primero generamos el árbol de regresión como hicimos más arriba para obtener la Figura 4.4. P47< 0.5 | P54< 0.5 P20< 0.5 P82>=0.5 P84< 0.5 P76< 0.5 P33< 0.5 21.66 20.78 2.958 12.98 12.81 32.45 P76< 0.5 P50< 0.5 P54< 0.5 P13< 0.5 9.169 51.08 16.29 29.58 Figura 4.4 : Árbol de Regresión > attach(Virco) > library(rpart) > Arbol4<-rpart(APV.Fold~.,method="anova",data=Vircogen) > Arbol4 n=939 (127 observations deleted due to missingness) node), split, n, deviance, yval * denotes terminal node 1) root 939 356632.300 12.946540 2) P47< 0.5 826 220484.800 9.799758 4) P84< 0.5 646 103247.200 6.634365 8) P50< 0.5 601 74375.060 5.509651 31.23 51.23 D 114 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 16) P76< 0.5 565 53451.150 4.536460 32) P33< 0.5 476 21525.120 2.957983 * 33) P33>=0.5 89 24396.950 12.978650 * 17) P76>=0.5 36 11990.530 20.783330 * 9) P50>=0.5 45 17958.230 21.655560 * 5) P84>=0.5 180 87535.010 21.160000 10) P76< 0.5 164 60255.500 18.241460 20) P54< 0.5 54 6454.596 9.168519 * 21) P54>=0.5 110 47173.530 22.695450 42) P13< 0.5 57 10476.250 16.291230 * 43) P13>=0.5 53 31845.230 29.583020 * 11) P76>=0.5 16 11564.070 51.075000 * 3) P47>=0.5 113 68180.140 35.948670 6) P54< 0.5 38 14941.670 22.626320 12) P20< 0.5 19 2264.829 12.805260 * 13) P20>=0.5 19 9011.627 32.447370 * 7) P54>=0.5 75 43076.850 42.698670 14) P82>=0.5 32 14090.680 31.228120 * 15) P82< 0.5 43 21642.540 51.234880 * > plot(Arbol4,ylim=c(0.6,1.03)) > text(Arbol4) size of tree 2 3 Inf 0.13 0.061 4 5 6 7 0.03 0.027 8 9 10 0.021 0.02 0.016 11 12 1.0 0.9 0.8 0.7 0.5 0.6 X−val Relative Error 1.1 1.2 1 0.01 cp Figura 4.5 : Parámetro de Complejidad Para podar el árbol necesitamos determinar el valor del parámetro de complejidad. Para ello ejecutamos > plotcp(Arbol4) D 115 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning > printcp(Arbol4) Regression tree: rpart(formula = APV.Fold ~ ., data = Vircogen) Variables actually used in tree construction: [1] P13 P20 P33 P47 P50 P54 P76 P82 P84 Root node error: 356632/939 = 379.8 n=939 (127 observations deleted due to missingness) 1 2 3 4 5 6 7 8 9 10 11 12 CP nsplit rel error 0.190581 0 1.00000 0.083286 1 0.80942 0.044066 2 0.72613 0.030603 3 0.68207 0.028493 4 0.65146 0.025049 5 0.62297 0.021112 6 0.59792 0.020592 7 0.57681 0.018583 8 0.55622 0.013605 9 0.53763 0.010277 10 0.52403 0.010000 11 0.51375 xerror 1.00159 0.81551 0.76589 0.73032 0.71240 0.70722 0.68137 0.66570 0.66749 0.66596 0.65768 0.66067 xstd 0.080875 0.072546 0.067428 0.066232 0.063506 0.063294 0.061714 0.061737 0.061517 0.061638 0.061209 0.061041 De la primera sentencia obtenemos la Figura 4.5. De este gráfico y de la segunda sentencia vemos que con un tamaño 4, es decir, con cuatro nodos finales, podemos conseguir un buen compromiso entre reducción del error de ajuste del árbol (que se obtiene aumentando el número de ramas) y la interpretación del árbol ajustado (que se obtiene disminuyendo el número de ramas). Esta elección corresponde a un valor en el parámetro de complejidad 0′ 03. Para obtener el árbol con esta caracterı́stica, es decir, podar el Arbol4 antes construido, ejecutamos > library(rpart) > Arbol5<-prune(Arbol4,cp=0.03) > Arbol5 n=939 (127 observations deleted due to missingness) node), split, n, deviance, yval * denotes terminal node 1) root 939 356632.30 12.946540 2) P47< 0.5 826 220484.80 9.799758 4) P84< 0.5 646 103247.20 6.634365 * 5) P84>=0.5 180 87535.01 21.160000 10) P76< 0.5 164 60255.50 18.241460 * 11) P76>=0.5 16 11564.07 51.075000 * 3) P47>=0.5 113 68180.14 35.948670 * que podemos representar ejecutando D 116 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud P47< 0.5 | P84< 0.5 35.95 P76< 0.5 6.634 18.24 51.08 Figura 4.6 : Árbol de regresión podado > plot(Arbol5,ylim=c(0.6,1.03)) > text(Arbol5) para obtener la Figura 4.6. 4.3. Bosques Aleatorios (Random Forests, RFs) Los Bosques Aleatorios (Random Forests), técnica también conocida por su acrónimo anglosajón RF, fueron propuestos originalmente por Breiman (2001) y son una generalización de los Árboles de Clasificación y Regresión (CARTs) estudiados en la sección anterior. Esta técnica, consistente en generar un conjunto de CARTs, tiene como propósito principal el evitar el efecto de la colinealidad (dependencia entre las covariables independientes). No presenta, como resultado final, un árbol que pudiera ser interpretado como un modelo de asociación entre la variable dependiente y las covariables sino que suministra una medida de la contribución de cada covariable a la variable dependiente. El proceso de formación del bosque aleatorio (el algoritmo) consiste en, primero, fijar un ı́ndice del algoritmo b. Para b = 1, 1. En primer lugar se seleccionan al azar (con reemplazamiento) aproximadamente 2/3 partes de la muestra para constituir lo que se denomina la D 117 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning muestra de aprendizaje (learning sample, LS) la cual servirá para forman el árbol inicial. El resto de individuos de la muestra se denomina datos de fuera de la bolsa (out-of-bag data, OOB data) y se utilizarán para evaluar lo bien o mal que se ajustan estos datos el árbol antes generado. 2. En un segundo paso generamos el árbol CART con los datos LS pero con dos diferencias a como lo hacı́amos en la sección anterior; primero, que no lo podaremos y, segundo, en cada nodo no se consideran todas las covariables posibles sino sólo un conjunto de ellas, habitualmente, una tercera parte de ellas. 3. En el tercer paso utilizaremos la parte de la muestra que hemos denominado OOB para evaluar la importancia de cada potencial covariable predictora. Para esto, a) Calculamos la impureza global del árbol para esta muestra OOB, obtenida sumando las impurezas al final de cada nodo terminal del árbol, a la que denominaremos πb . b) Para cada variable Xj calculamos la diferencia entre la impureza global del árbol, πb , y la impureza del árbol cuando Xj es permutada, digamos, πbj . De esta maneara determinamos la importancia de la variable, δbj = πbj − πb . 4. Repetir los tres pasos anteriores para b = 2, ..., B obteniendo, para cada variable j = 1, ..., p, δ1j , ..., δBj . 5. Calcular la Importancia Global de las Covariables θb1 , θb2 , ..., θbp , siendo θbj = B 1 X δbj B b=1 y la Importancia Global Estandarizada de cada Covariable dada por θbj SE(θbj ) en donde SE(θbj ) es la desviación tı́pica de δbj en los B árboles dividido √ por B. El ajuste del Bosque Aleatorio se puede obtener con la función randomForest de la librerı́a del mismo nombre, randomForest(data,dependiente,importance) D 118 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Bosque1 P35 P36 P54 P73 P20 P84 P6 P94 P72 P63 P45 P14 P15 P76 P57 P58 P82 P89 P2 P34 P85 P66 P37 P19 P12 P77 P47 P25 P46 P55 P36 P20 P35 P73 P25 P54 P84 P72 P93 P62 P37 P15 P46 P90 P77 P3 P58 P82 P2 P94 P10 P1 P41 P30 P70 P12 P13 P91 P95 P71 2 3 4 5 6 %IncMSE 7 8 0e+00 2e+05 4e+05 IncNodePurity 6e+05 Figura 4.7 : Importancia de cada covariable en donde los argumentos principales de esta función son data es decir, los datos en formato data frame, dependiente en donde ponemos el nombre de la variable dependiente, e importance, ejecutando la opción importance=T para obtener lo que estábamos buscando, la importancia de cada covariable predictora en la variable dependiente. Con estas opciones obtendrı́amos el valor de la Importancia Global Estandarizada de cada Covariable θbj /SE(θbj ). Su representación gráfica ordenada la obtenemos con la función varImpPlot. Es de destacar que, como esta función realiza, de hecho, un remuestreo bootstrap, los resultados obtenidos en cada ocasión pueden ser distintos y, a su vez, distintos de los que obtenemos aquı́. Ejemplo 4.5 Consideremos de nuevo los datos Virco y la variable dependiente NFV.Fold-IDV.Fold como en el Ejemplo 4.2. La función randomForest no admite datos perdidos por lo que cambiamos un poco las sentencias de dicho ejemplo y modificamos los datos considerados. Ejecutando (1) obtenemos la importancia de cada variable que vemos representada en la Figura 4.7 ejecutando (2). D 119 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning > Rasgo22<-Rasgo2[!is.na(Rasgo2)] > Vircogen22<-Vircogen[!is.na(Rasgo2),] > Bosque1<-randomForest(Vircogen22,Rasgo22,importance=T) (1) Call: randomForest(x = Vircogen22, y = Rasgo22, importance = T) Type of random forest: regression Number of trees: 500 No. of variables tried at each split: 33 Mean of squared residuals: 5688.114 % Var explained: 13.77 > varImpPlot(Bosque1) (2) En el gráfico de la izquierda de esta figura se ve que las variables más importantes (en esta selección aleatoria bootstrap) han resultado ser P35, P36, P54, P73 y P20. Aunque la función randomForest no admite datos perdidos, hay algunas posibilidades de actuación si los hubiera. 4.4. Árboles de Regresión Lógica Este tipo de análisis, en búsqueda de las covariables más predictivas de tipo dicotómico, se debe a Ruczinski y otros (2003, 2004) y se basa en lo que se denomina Combinaciones Booleanas. Si por ejemplo X1 , ..., X4 son 4 variables dicotómicas, o mejor, las variables indicadoras de 4 variables dicotómicas, una Combinación Booleana de ellas podrı́a ser (X1 ∧ X2 ) ∨ (X3c ∧ X4 ) [4.1] en donde los operadores lógicos que se utilizan son ∨ = o, ∧ = y y Ac = no A y que se leerı́a diciendo que, o bien es X1 = 1 y X2 = 1, o bien es X3 = 0 y X4 = 1. Esta dicotomı́a recurrente se expresa en forma de árbol de decisión (como la Figura 4.8 del siguiente ejemplo), consistiendo el método de los Árboles de Regresión Lógica en encontrar la Combinación Booleana más predicitva; es decir, como si dijéramos el “modelo lineal generalizado” más predictivo para variables dicotómicas, de la forma g(E[Y ]) = β0 + t X βj Lj [4.2] j=1 siendo los Lj Combinaciones Booleanas de las variables predictivas de tipo indicador como las de (4.1). D 120 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Este método se puede ejecutar con la función logreg de la librerı́a LogicReg logreg(resp,bin,select) en donde los argumentos principales de esta función son resp, para indicar el nombre de la variable dependiente; bin, para los datos en formato data frame, y select, para indicar el tipo de modelo a ajustar, es decir, el número de árboles de regresión lógica a ajustar; es decir, el número de términos t que tendrı́a el “modelo de regresión” (4.2); si este valor es mayor que 1, debemos utilizar también los argumentos ntrees (que será igual al valor dado a select, y nleaves sobre el número de hojas que queremos tenga el árbol ajustado. Apuntemos de nuevo el hecho de que esta función utiliza métodos bootstrap y que, en consecuencia, cada vez que la ejecutemos obtendremos resultados distintos. Ejemplo 4.6 Si consideramos de nuevo los datos Virco y la variable dependiente NFV.Fold-IDV.Fold como en los Ejemplos 4.2 y 4.5, podemos obtener 1 árbol de regresión lógica ejecutando (1) tree 1 out of 1 Parameter = −273.5153 or or or P72 P85 and or P35 P93 or P73 P25 P70 Figura 4.8 : Árbol de regresión lógica con un término > library(LogicReg) > Logico<-logreg(resp=Rasgo22,bin=Vircogen22,select=1) > Logico score 73.996 (1) (3) D 121 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning -274 * (((P72 or P85) or (not P35)) or (((not P93) or (not P73)) and ((not P25) or P70))) > plot(Logico) (2) Ejecutando (2) obtenemos la representación de este árbol dada por la la Figura 4.8. De esta figura, o del resultado de ejecutar (3), vemos que el modelo ajustado es g(E[Y ]) = −273′ 5 · {[(P 72 ∨ P 85) ∨ P 35c ] ∨ [(P 93c ∨ P 73c ) ∧ (P 25c ∨ P 70)]} Si queremos que el “modelo lineal” tenga dos términos, ejecutaremos (4), obteniendo los resultados con (5) y la Figura 4.9 ejecutando (6) dos veces. > Logico2<-logreg(resp=Rasgo22,bin=Vircogen22,select=2,ntrees=2,nleaves=8) (4) > Logico2 2 trees with 8 leaves: score is 74.571 +235 * (((P71 and (not P72)) and (P93 and (not P54))) and P73) +44.1 * (((not P36) and P20) or P30) (5) > par(mfrow=c(1,3)) > plot(Logico2) (6) El modelo ajustado con dos términos en este segundo caso es, por tanto tree 2 out of 2 total size is 8 Parameter = 234.9389 Parameter = 44.0553 and 100 tree 1 out of 2 total size is 8 90 or P73 P30 2 70 and scores 80 and P71 P72 P93 P54 P36 P20 50 60 and and 5 6 7 8 9 10 11 model size Figura 4.9 : Árbol de regresión lógica con dos términos g(E[Y ]) = 234′ 94 · {[(P 71 ∧ P 72c ) ∧ (P 93 ∧ P 54c )] ∧ P 73} + 44′ 1 · {[P 36c ∧ P 20] ∨ P 30} D 122 Al f on so Ga rcı́ aP ére z. UN E 4.5. Cuadernos de Estadı́stica Aplicada: Área de la Salud Regresión a Trazos Adaptativa Multivariante (Multivariate Adaptive Regression Splines, MARS) La Regresión a Trazos Adaptativa Multivariante (Multivariate Adaptive Regression Splines), conocida habitualmente por MARS, es una técnica relacionada con los CARTs debida a Friedman (1991), de nuevo con el propósito de manejar covariables cualitativas. Nos centraremos aquı́ en el caso de que la variable dependiente Y sea de tipo cuantitativo aunque también es posible considerar la situación de que sea dicotómica. El propósito de esta técnica es, como en secciones anteriores, encontrar asociaciones entre p covariables independientes X1 , ..., Xp y una variable dependiente Y dada una muestra de tamaño n de ellas. El esquema de utilización del MARS es considerar en primer lugar p modelos (uno para cada covariable Xj ) de la forma Y = β0 + β1 (Xj − t)+ + β2 (t − Xj )+ + ǫ siendo ǫ una variable de error, t uno de los valores observados de Xj y ( )+ la componente positiva de lo que haya entre paréntesis; es decir, como Xj es dicotómica (es decir, con valores 0-1), si es t = 0, (Xj − t)+ = Xj y (t − Xj )+ = 0, y si es t = 1, (Xj − t)+ = 0 y (t − Xj )+ = 1 − Xj . La covariable más predictiva, digamos Xj∗ , es elegida como aquella para la que se obtiene la mayor reducción de la suma de cuadrados de los residuos quedándonos con el modelo Y = β0 + β1 Xj∗ + ǫ. Ahora consideramos modelos de la forma Y = β0 + β1 Xj∗ + β2 Xk + epsilon y de la forma Y = β0 + β1 Xj∗ + β2 Xj∗ Xk + ǫ buscando de la misma manera que antes el modelo más predictivo que será de una de las dos formas: con Xk o con Xj∗ Xk . Este proceso es repetido hasta llegar a un modelo final. Esta técnica se puede ejecutar con la función earth de la librerı́a del mismo nombre D 123 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 4. Bioinformática: Técnicas Machine Learning earth(modelo,data,degree) en donde los argumentos principales de esta función son modelo expresado de la forma habitual; data, para los datos en formato data frame, y degree, para indicar el máximo grado de interacción entre las covariables, valor que por defecto se toma como 1 y que se recomienda utilizar igual a 2. Ejemplo 4.7 Vamos a considerar de nuevo los datos Virco y la variable dependiente NFV.Fold-IDV.Fold como en los Ejemplos 4.2, 4.5 y 4.6. Para determinar las covariables más predictivas mediante esta técnica, considerando interacciones de orden 2 como máximo, ejecutamos (1) > library(earth) > solucion<-earth(Rasgo22~.,data=Vircogen22,degree=2) (1) > solucion Selected 38 of 100 terms, and 22 of 99 predictors Importance:P15TRUE,P25TRUE,P35TRUE,P36TRUE,P73TRUE,P54TRUE,P94TRUE,P10TRUE,... Number of terms at each degree of interaction: 1 2 35 GCV 5155.408 RSS 4113795 GRSq 0.2200334 RSq 0.3610069 de donde obtenemos las covariables más predictivas por orden de importancia. Si queremos obtener el modelo ası́ ajustando, con sus coeficientes, ejecutamos (2), obteniendo como resultado estos coeficientes. > summary(solucion) Call: earth(formula=Rasgo22~., data=Vircogen22, degree=2) (Intercept) P35TRUE P76TRUE P1TRUE * P73TRUE P10TRUE * P35TRUE P10TRUE * P73TRUE P15TRUE * P25TRUE P15TRUE * P35TRUE P15TRUE * P54TRUE P15TRUE * P73TRUE P20TRUE * P35TRUE P20TRUE * P54TRUE P20TRUE * P73TRUE P30TRUE * P70TRUE P30TRUE * P77TRUE P35TRUE * P36TRUE P35TRUE * P54TRUE P35TRUE * P73TRUE P35TRUE * P82TRUE P35TRUE * P84TRUE P35TRUE * P93TRUE P35TRUE * P95TRUE P36TRUE * P54TRUE coefficients -1.49386 36.98821 -34.95785 -30.79950 29.81243 65.50646 751.24589 -34.54019 32.95728 -58.53545 47.11367 -41.71048 77.58072 158.97600 42.81780 -42.06393 -33.73524 78.73042 -31.25249 -59.43351 23.76439 -60.69940 30.17810 (2) D 124 * * * * * * * * * * * * * * * Al f on so Ga rcı́ aP ére z. UN E P36TRUE P48TRUE P54TRUE P54TRUE P54TRUE P54TRUE P54TRUE P63TRUE P70TRUE P72TRUE P73TRUE P73TRUE P73TRUE P73TRUE P73TRUE Cuadernos de Estadı́stica Aplicada: Área de la Salud P73TRUE P54TRUE P72TRUE P73TRUE P84TRUE P93TRUE P94TRUE P73TRUE P73TRUE P73TRUE P74TRUE P76TRUE P77TRUE P84TRUE P93TRUE -113.98578 -20.80249 24.06139 -63.96128 34.96787 -18.74152 207.51818 67.33288 -103.04692 -69.71491 -54.83226 101.72366 -54.40373 -65.68984 49.44217 Selected 38 of 100 terms, and 22 of 99 predictors Importance:P15TRUE,P25TRUE,P35TRUE,P36TRUE,P73TRUE,P54TRUE,P94TRUE,P10TRUE, ... Number of terms at each degree of interaction: 1 2 35 GCV 5155.408 RSS 4113795 GRSq 0.2200334 RSq 0.3610069 Obtenemos también información de que inicialmente se utilizaron 38 términos de los que finalmente se seleccionaron 22 después de la poda. D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5 Problemas Básicos Resueltos Problema 5.1 Los casos de SIDA diagnosticados en España en los últimos años vienen recogidos en la siguiente tabla, clasificados por grupo de riesgo del paciente 1993 3373 631 778 68 82 56 32 321 5341 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros 1994 4723 952 898 92 76 66 23 291 7121 1995 4432 1044 934 81 79 52 21 302 6945 1996 4203 1113 766 73 46 44 14 249 6508 1997 3143 950 580 61 37 25 12 290 5098 Analizar descriptivamente estos datos. Se trata de unos datos correspondientes a una distribución bidimensional de frecuencias. Para este tipo de datos (CB-sección 2.4) lo primero que deberemos hacer es identificar de qué tipo son los caracteres que dan origen a la tabla de doble entrada donde aparece la distribución bidimensional de frecuencias. En este ejercicio, uno de los caracteres, grupo de riesgo, es de tipo cualitativo. La distribución (de frecuencias absolutas) marginal de dicho carácter, se obtiene directamente de la tabla de contingencia, calculando, para cada modalidad del carácter, el número de individuos que presentan dicha modalidad a lo largo de todas las modalidades del otro carácter; es decir, 125 D 126 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 19874 4690 3956 375 320 243 102 1453 31013 El histograma de dicha distribución de frecuencias absolutas es 19874 4690 3956 1453 drog inyec hetero homo/bi 375 320 243 102 iny/homo mad/ries hemo trans otros De las medidas de posición o dispersión, sólo podemos decir que el grupo de riesgo más frecuente, es decir la moda, es el, ser consumidor de drogas inyectables. Respecto al otro carácter, año, aunque aparentemente es de tipo cuantitativo, no van a tener tampoco mucho sentido las medidas de posición o dispersión que resuman la distribución marginal correspondiente, la cual serı́a D 127 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 1993 1994 1995 1996 1997 ni 5341 7121 6945 6508 5098 31013 Las modalidades del carácter año actúan más como etiquetas que como valores numéricos. No obstante, presentan una peculiaridad muy interesante: van ordenadas. Esto las diferencia de los caracteres cualitativos. Además, el que ese carácter se refiera al tiempo, hace que el estudio de este tipo de datos sea especialmente importante y diferenciado de los que hasta ahora hemos considerado. A la vista de la distribución de frecuencias marginal anterior, ha habido una evolución temporal primero creciente, con un máximo en 1994, para luego ir disminuyendo el número de casos, lo que parece indicar una tendencia decreciente en el número de individuos con la enfermedad, como muestra el gráfico siguiente 7121 thh hhhh6945 ""p hthhh p " hhhht p 6508 " p P p " p PP p PP p 5341 " p t " p P5098 p Pt p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p 1993 1994 1995 1996 1997 Pero, posiblemente, tienen más interés las distribuciones condicionadas, por años, en especial en términos relativos D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 128 Grupo de riesgo/1993 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 3373 631 778 68 82 56 32 321 5341 fi 0′ 6315 0′ 1181 0′ 1457 0′ 0127 0′ 0153 0′ 0105 0′ 0060 0′ 0602 1 Grupo de riesgo/1994 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 4723 952 898 92 76 66 23 291 7121 fi 0′ 6632 0′ 1337 0′ 1261 0′ 0129 0′ 0107 0′ 0093 0′ 0032 0′ 0409 1 Grupo de riesgo/1995 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 4432 1044 934 81 79 52 21 302 6945 fi 0 6382 0′ 1503 0′ 1345 0′ 0117 0′ 0114 0′ 0075 0′ 0030 0′ 0434 1 Grupo de riesgo/1996 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 4203 1113 766 73 46 44 14 249 6508 fi 0′ 6458 0′ 1710 0′ 1177 0′ 0112 0′ 0071 0′ 0068 0′ 0022 0′ 0382 1 ′ D 129 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Grupo de riesgo/1997 Por drogas inyectables Heterosexuales Homosexuales/bisexuales Drogas inyect. y homosexuales Hijos de madre de riesgo Por hemoderivados Por transfusiones Otros ni 3143 950 580 61 37 25 12 290 5098 fi 0′ 6165 0′ 1863 0′ 1138 0′ 0120 0′ 0073 0′ 0049 0′ 0024 0′ 0568 1 De hecho se podrı́a decir que la tabla de doble entrada del enunciado tiene una interpretación diferente de la habitual considerada en CB-sección 2.4. Aquı́, no es tanto que cada uno de los n = 31013 enfermos fuera asignado a un grupo de riesgo y a un año, hasta formar la tabla de contingencia del enunciado, sino que, muy posiblemente, se fueran recogiendo datos, año a año (es decir, se fueran construyendo las distribuciones condicionadas anteriores), para formar finalmente la tabla de datos del enunciado. Tantas son las particularidades de este tipo de datos, en los que una de las variables es el tiempo, que existe un Método Estadı́stico Aplicado especı́fico para su tratamiento, el cual recibe el nombre de Análisis de Series Temporales. Analizando la evolución temporal condicionada por el grupo de riesgo, es decir, las ocho distribuciones de frecuencias absolutas de la variable tiempo condicionada por cada modalidad de la variable grupo de riesgo, obtendrı́amos las siguientes distribuciones de frecuencias (sólo damos las dos primeras) Años/Drogas inyectables 1993 1994 1995 1996 1997 ni 3373 4723 4432 4203 3143 19874 Años/Heterosexuales 1993 1994 1995 1996 1997 ni 631 952 1044 1113 950 4690 Pero posiblemente, lo más interesante de todo sea analizar de forma global, y mediante una representación gráfica, la evolución temporal de los grupos de riesgo en porcentaje; es decir, las distribuciones relativas condicionadas por años, antes calculadas y que permiten realizar los siguientes gráficos, en donde hemos omitido la evolución de la modalidad otros. Hemos realizado dos gráficos para clarificar los dibujos y, sobre todo, para poder variar la escala de las ordenadas y apreciar ası́ con más nitidez las diferencias en la evolución de las frecuencias. Ası́, aunque la evolución temporal de la distribución marginal de los años, antes representada, indicaba una evolución con un máximo en 1994 para luego D 130 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud mantenerse una tendencia descendente, del gráfico que sigue se deduce que el porcentaje, sobre el total de casos registrados cada año, de enfermos cuya causa de contagio fue la de por drogas inyectables, se mantiene prácticamente constante; que el grupo de heterosexuales crece, y que el de homosexuales/bisexuales decrece. 0′ 66 t 0′ 63 t 0′ 65 XXX pt ` XXX 0′ 64 (((((` ``` 0′ 62 Xt(( ``t ′ 0 19 (((t ( ( ( 0′ 15 0′ 15 (((((( thh ( hhhh 0′ 13 (((((t( thhh h( t t( hhhhth ′ ′ hhh 0 12 0 13 hhht 0′ 12 0′ 17 t 0′ 11 1993 1994 1995 1996 1997 Por último, en el gráfico siguiente, se observa que el grupo de riesgo de personas que consumen drogas inyectables y son homosexuales, manifiesta una tendencia casi constante, que el grupo de hijos con madre de riesgo disminuye a rachas, es decir, con perı́odos intermedios constantes; que el grupo de contagio por hemoderivados decrece muy significativamente ya desde niveles muy bajos, y que, por último, el grupo de transfusiones prácticamente (o mejor dicho, porcentualmente respecto al número total de casos) casi ha desaparecido. D 131 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 0′ 015 t Q Q 0′ 013 t QQ thh hhhh0′ 012 0′ 012 Q hthhh t ( ( Q ( ′ ( hhhh( 0 011 Qt t t (( Q 0′ 011 0′ 011Q thhh h Q ′ hhht 0 010 Q PP ′ Q 0 009 PP Q PP 0′ 007 QtP Ppt t 0′ 007 0′ 007PPP tH PP 0′ 006H Pt H HH 0′ 005 ′ 003 HH 0′ 003 0 t thh hhhh0′ 002 0′ 002 ht t 0′ 013 1993 1994 1995 1996 1997 Problema 5.2 En 1965 A.J. Lea recogió datos sobre la temperatura anual media en varias ciudades (de Gran Bretaña, Noruega y Suecia) y la tasa de mortalidad en un tipo de cáncer de pecho en mujeres. Los datos que obtuvo fueron los siguientes: Temperatura anual media (grados Fa.) 51′ 3 49′ 9 50′ 0 49′ 2 48′ 5 47′ 8 47′ 3 45′ 1 46′ 3 42′ 1 44′ 2 43′ 5 42′ 3 40′ 2 31′ 8 34′ 0 Índice de mortalidad 102′ 5 104′ 5 100′ 4 95′ 9 87′ 0 95′ 0 88′ 6 89′ 2 78′ 9 84′ 6 81′ 7 72′ 2 65′ 1 68′ 1 67′ 3 52′ 5 Determinar la recta de mı́nimos cuadrados ası́ como la precisión conseguida con el ajuste obtenido mediante dicho método. Aunque los datos del enunciado constituyen una distribución bidimensional de frecuencias, en donde la frecuencia absoluta de cada par es igual a 1, el principal interés sobre ellos suele ser el de determinar la ecuación D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 132 de una función, generalmente una recta, que permita explicar una de las variables —denominada dependiente— en función de la otra —denominada independiente—, con el habitual propósito de hacer predicciones sobre la variable dependiente en función de la independiente. En este ejercicio, el estudio de campo realizado tendrá interés si puede demostrarse una relación entre las variables temperatura medio-ambiental e ı́ndice de mortalidad. Si esto fuera ası́, se podrı́a predecir, mediante la función ajustada, el ı́ndice de mortalidad que cabrı́a esperar bajo una determinada temperatura medio-ambiental. En este caso, por tanto, parece razonable considerar como variable independiente, X, la temperatura y como variable dependiente, Y , el ı́ndice de mortalidad. No obstante todo lo que acabamos de decir, hacemos la observación de que, aunque con el coeficiente de determinación R2 , que calcularemos al final del problema, podemos calcular la bondad del ajuste que efectuemos, no será hasta que utilicemos las potentes técnicas de la Inferencia Estadı́stica (en concreto de la Regresión Lineal) que podamos decidir si existe o no una relación lineal significativa entre ambas variables. Aunque el ajuste por mı́nimos cuadrados (CB-sección 2.4.2) que se nos solicita es el de una recta, siempre es conveniente comenzar haciendo una representación gráfica de los pares de puntos dados, en lo que se denomina la nube de puntos, que no es más que la representación de los pares de puntos (xi , yi ), i = 1, ..., 16, en unos ejes de coordenadas cartesianas, de forma que se pueda aventurar la bondad del ajuste que se va a realizar. Es decir, si los datos aparecen alineados la recta de mı́nimos cuadrados explicará bien a la variable dependiente en función de la independiente, pero si los puntos muestran una gráfica en forma de parábola, es posible que un ajuste de tal función por mı́nimos cuadrados resulte más adecuado. Para los datos de nuestro enunciado la nube de puntos es la siguiente --+------------------+------------------+------------------+-104.5+ * + | * *| | | | * * | M | | o + * * + r | * | t | * * | a | * | l | | i + + d | * | a |* * | d | * | | | + + D 133 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos | | 52.5| * | --+------------------+------------------+------------------+-31.8 51.3 Temperatura La disposición lineal de los datos, hace razonable el ajuste por mı́nimos cuadrados. Como es sabido, la recta de mı́nimos cuadrados es la más próxima a la nube de puntos, la cual se determinó en CB que era la de ecuación b + βb x y=α b y βb eran los valores determinados por las ecuaciones en donde α n βb = y n X i=1 xi yi − n n X i=1 b= α n X i=1 n X i=1 x2i − yi − βb xi ! n X xi n X xi i=1 n X i=1 !2 yi ! i=1 . n Para calcularlos utilizaremos la siguiente tabla de cálculos xi yi xi yi x2i yi2 51′ 3 102′ 5 5258′ 25 2631′ 69 10506′ 25 49′ 9 104′ 5 5214′ 55 2490′ 01 10920′ 25 50′ 0 100′ 4 5020 2500 10080′ 16 49′ 2 95′ 9 4718′ 28 2420′ 64 9196′ 81 ′ ′ ′ ′ 87 0 4219 5 2352 25 7569 48 5 ′ ′ ′ 47 8 95 0 4541 2284 84 9025 47′ 3 88′ 6 4190′ 78 2237′ 29 7849′ 96 45′ 1 89′ 2 4022′ 92 2034′ 01 7956′ 64 46′ 3 78′ 9 3653′ 07 2143′ 69 6225′ 21 ′ ′ ′ ′ 84 6 3561 66 1772 41 7157′ 16 42 1 44′ 2 81′ 7 3611′ 14 1953′ 64 6674′ 89 ′ ′ ′ ′ 43 5 72 2 3140 7 1892 25 5212′ 84 ′ ′ ′ ′ 42 3 65 1 2753 73 1789 29 4238′ 01 40′ 2 68′ 1 2737′ 62 1616′ 04 4637′ 61 ′ ′ ′ ′ 31 8 67 3 2140 14 1011 24 4529′ 29 ′ ′ 34 0 52 5 1785 1156 2756′ 25 713′ 5 1333′ 5 60568′ 34 32285′ 29 114535′ 33 D 134 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud De ella obtenemos que es n βb = y n X i=1 n X x i yi − n n X i=1 n X i=1 xi ! n X x2i − xi i=1 yi − βb n X n X i=1 2 ! yi ! = 16 · 60568′ 34 − 713′ 5 · 1333′ 5 = 2′ 3577 16 · 32285′ 29 − 713′ 52 xi 1333′ 5 − 2′ 3577 · 713′ 5 = −21′ 795 n 16 con lo que la recta de mı́nimos cuadrados será b= α i=1 i=1 = y = −21′ 795 + 2′ 3577 x. Para analizar la bondad del ajuste de mı́nimos cuadrados (CB-sección 2.4.3) que acabamos de realizar, calcularemos el coeficiente de determinación R2 . Al ser el ajuste de una recta, podemos calcular R2 a través de la fórmula R2 = (r)2 = b2 (β) P n Pn 2 i=1 xi 2 i=1 yi − Pn 2 i=1 xi ) /n P ( ni=1 yi )2 /n −( 713′ 52 ′ 16 = 2′ 35772 · ′ 52 = 0 76537 1333 114535′ 33 − 16 32285′ 29 − o como cuadrado del coeficiente de correlación de Pearson n r = n X i=1 v u n u X tn x2 − i i=1 = siendo √ xi yi − n X i=1 xi n X i=1 !2 v u xi ! n X yi i=1 n u X tn y2 − i i=1 ! n X i=1 yi !2 16 · 60568′ 34 − 713′ 5 · 1333′ 5 √ = 0′ 87485 16 · 32285′ 29 − 713′ 52 16 · 114535′ 33 − 1333′ 52 D 135 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos R2 = r 2 = 0′ 874852 = 0′ 76536. Aunque dicho valor puede calificarse de aceptable, no será hasta que utilicemos el contraste de la regresión lineal simple, cuando podamos decidir si éste se califica de bueno o no. Problema 5.3 Supongamos que una prueba médica para diagnosticar la presencia de un determinado virus, da positivo en el 99 % de los casos que se aplica a personas que posean el virus, y que da negativo en el 97 % de los casos que se aplica a personas que no lo poseen. Si se cree que la probabilidad de que una persona elegida al azar tenga el virus es 0′ 05, ¿cuál es la probabilidad de que una persona tenga realmente el virus cuando la prueba le haya dado positiva? Si denominamos “P os” la suceso la prueba da positivo y “V ” al suceso la persona tiene el virus, el enunciado del problema nos dice que es P (P os/V ) = 0′ 99 P (P os∗ /V ∗ ) = 0′ 97 P (V ) = 0′ 05 solicitándonos la probabilidad P (V /P os). La probabilidad pedida, en función de las probabilidades dadas, se obtiene a través de la fórmula de Bayes (CB-sección 3.10) P (V /P os) = = P (P os/V ) · P (V ) P (P os/V ) · P (V ) + P (P os/V ∗ ) · P (V ∗ ) 0′ 99 · 0′ 05 = 0′ 6346. 0′ 99 · 0′ 05 + 0′ 03 · 0′ 95 Problema 5.4 El uno por ciento de los niños sufre efectos secundarios tras la administración de un determinado antibiótico. Si éste fue aplicado a seis niños, determinar la probabilidad de que a) Ninguno padezca efectos secundarios. b) Lo padezca más de un niño. c) Si se suministrase el antibiótico a 1000 niños, ¿cuál serı́a el número medio de niños con efectos secundarios?. d) Calcular la probabilidad de que, de esos mil niños, padezcan efectos secundarios más de 15. a) El problema se puede formalizar mediante un modelo binomial (CBsección 4.4.1) en donde cada prueba de Bernoulli sea el administrar el antibiótico en cuestión y el suceso éxito el que el niño padezca efectos secundarios. D 136 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud De esta forma, la variable número de niños, de entre los seis, que padecieron efectos secundarios, se puede modelizar mediante una variable X con distribución binomial B(6, 0′ 01), al ser p = 0′ 01 la probabilidad de que se dé el suceso éxito. La probabilidad pedida será ahora, utilizando la tabla 1 de la distribución binomial, P {X = 0} = 0′ 9415. b) En la misma situación que en el apartado anterior, la probabilidad pedida será P {X > 1} = 1 − P {X ≤ 1} = 1 − [P {X = 0} + P {X = 1}] = 1 − [0′ 9415 + 0′ 0571] = 0′ 0014. c) Ahora lo que ocurre es que se aumenta el número de pruebas de Bernoulli, modelizándose el problema con una variable X ; B(1000, 0′ 01). La media de esta distribución es el producto de los dos parámetros, es decir, E[X] = n · p = 1000 · 0′ 01 = 10. Por tanto, el número medio o número esperado de niños con efectos secundarios, de entre los mil, serı́a 10. d) El cálculo de probabilidades de distribuciones binomiales para un gran número de ensayos, como aquı́ ocurre, se realiza aproximando dicha distribución mediante el teorema central del lı́mite (CB-sección 4.7). En el caso de una distribución p binomial X ; B(n, p) , su aproximación mediante una normal Y ; N (np , np(1 − p) ) es válida (CB-sección 4.7.1) cuando supuesto sea p ≤ 0′ 5 (como aquı́ ocurre) entonces sea también np > 5 (como aquı́ ocurre). Por tanto, aproximaremos la X ; B(1000, 0′ 01), por una Y ; N 1000 · 0′ 01 , √ 1000 · 0′ 01 · 0′ 99 = N (10 , 3′ 146) quedando la probabilidad pedida igual a P {X > 15} = P X − 10 15 − 10 > ′ ′ 3 146 3 146 = P {Z > 1′ 59} = 0′ 0559 D 137 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos siendo Z una variable aleatoria N (0, 1) y en donde la última probabilidad la hemos calculado utilizando la tabla 3 de dicha distribución. Problema 5.5 La estatura de los individuos de una determinada población sigue una distribución normal de desviación tı́pica igual a 10 cm. Calcular el número mı́nimo de individuos que habrá que seleccionar de dicha población para que la probabilidad de que la estatura media de dicha muestra difiera de la poblacional en menos de 5 cm., sea 0′ 9. Comenzando por el enunciado de este problema, es conveniente aclarar que cuando nos referimos a que las estaturas de los individuos de una determinada población siguen una distribución normal, estamos expresando que suponemos que el histograma de estaturas de toda la población —el cual es desconocido— tiene una forma acampanada semejante a la densidad de la normal y que, por tal suposición, cuando elijamos al azar un individuo de esa población su estatura seguirá las reglas probabilı́sticas del modelo normal, como por ejemplo el que entre dicha estatura media menos tres veces la desviación tı́pica y la estatura media más tres veces la desviación tı́pica se encuentra el 99′ 74 % de la población, P {µ − 3σ < X < µ + 3σ} = P {−3 < Z < 3} = 1 − 2 · 0′ 0013 = 0′ 9974. Ahora, bajo este supuesto se pide (véase CB-sección 5.11) determinar el tamaño muestral necesario para que se verifique la condición expresada en el enunciado; en concreto, si la estatura en cm. de los individuos de la población, la representamos por la variable aleatoria X y admitimos, por tanto, que es X ; N (µ, 10), se pide determinar n de forma que sea P {|x − µ| < 5} = 0′ 9. En estas condiciones sabemos (CB-sección 5.4) que la media muestral se distri√ buye como x ; N (µ, 10/ n). Por tanto, tipificando en la condición anterior y si, como siempre, Z representa una variable N (0, 1), será P |x − µ| 5 √ 5 √ √ < n = P |Z| < n = 0′ 9. 10/ n 10 10 Ahora vamos a buscar en la tabla 3 de la normal N (0, 1) un valor z tal que sea P {|Z| < z} = 0′ 9 D 138 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud es decir, un valor tal que la N (0, 1) deje un área de probabilidad 0′ 9 entre −z y z, o lo que es lo mismo, por haber un área de probabilidad igual a 1 debajo de toda la curva, un valor z tal que fuera del intervalo (−z, z) haya un área de probabilidad igual a 0′ 1; y, por la simetrı́a de dicha curva, un valor z que deje a su derecha un área de probabilidad 0′ 05. La tabla 3 nos da (por interpolación inmediata puesto que es el valor buscado es el punto medio) como solución z = 1′ 645. Por tanto, deberá ser 5 √ n = 1′ 645 10 de donde se obtiene el valor n = 10′ 8241, aunque como habrá que elegir un tamaño de muestra entero y como a medida que aumenta n, aumenta la probabilidad del suceso puesto como condición (al aparecer n en el numerador) tomaremos n = 11 como n mı́nimo que mantenga la precisión exigida en el enunciado. Problema 5.6 El tiempo de vida en dı́as X de los individuos de una población afectados de una nueva enfermedad es una variable aleatoria continua con función de densidad fθ (x) = 2 θ2 x−3 si x > θ y fθ (x) = 0 si x ≤ θ , siendo θ > 0 un parámetro desconocido. Con objeto de estimar el parámetro θ, se extrajo una muestra aleatoria simple de dicha población, obteniéndose los siguientes tiempos de vida, en dı́as, de los 10 individuos seleccionados, todos los cuales fallecieron por la enfermedad en estudio 398, 356, 615, 265, 650, 325, 400, 223, 368, 680 Determinar la estimación de máxima verosimilitud de θ. La función de densidad de la variable aleatoria en estudio X, tiempo de vida de los individuos de la población afectados por la enfermedad en estudio, nos indica que dichos individuos contraen la enfermedad en un momento desconocido, θ, (puesto que en ese punto la función de distribución F (x) empieza a crecer desde cero, o lo que es lo mismo la función de supervivencia S(x) = 1 − F (x) vale 1, lo que quiere decir que todos los individuos están vivos), momento a partir del cual, y por la forma de dicha función de densidad, la probabilidad de sobrevivir va disminuyendo. Es precisamente el inicio de la enfermedad el objeto de la estimación. Para ello, utilizaremos el método de la máxima verosimilitud (CB-sección 5.2). La función de verosimilitud de la muestra será D 139 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos L(θ) = fθ (x1 , ..., xn ) = n Y i=1 n 2n fθ (xi ) = 2 θ n Y i=1 xi !−3 si x1 , ..., xn > θ. Como siempre, el método de la máxima verosimilitud se basa en asignar a θ el valor que maximice la función L(θ); el problema es que ahora θ aparece en el recorrido de la variable, es decir, que L(θ) toma un valor distinto de cero si θ < x1 , ..., xn y si algún xi es tal que xi ≤ θ será L(θ) = 0. En la estimación de θ habrá que tener también en cuenta, por tanto, el recorrido de L(θ). Q La función L(θ) = 2n θ 2 n ni=1 x−3 i crece al crecer θ, por lo que será tanto mayor cuanto mayor sea θ, y esto hasta que θ llegue al primer xi a partir de donde, por lo comentarios anteriores, L(θ) vale cero. Por tanto, el valor de θ que hace máxima L(θ) es el mı́nimo de los n valores {x1 , ...xn } el cual se suele denotar por x(1) . La estimación de máxima verosimilitud de θ será, a partir de los 10 datos de la muestra, x(1) = 223. Este problema es un ejemplo de que lo importante en la determinación del estimador de máxima verosimilitud es calcular el valor de θ que maximiza la función L(θ), máximo que en muchas ocasiones se podrá determinar derivando L(θ) respecto a θ e igualando a cero dicha derivada, pero que en otras ocasiones, como pasa en general al determinar el máximo de cualquier función, deberán utilizarse otras herramientas distintas de la derivada. Problema 5.7 Se quiere estimar, mediante un intervalo de confianza, el tiempo que transcurre desde la administración de la primera dosis de una nueva vacuna contra la hepatitis B, hasta que se produce en el individuo una drástica disminución del nivel de anticuerpos contra la mencionada enfermedad, requiriendo éste una nueva dosis de recuerdo. Para tal fin se eligió una muestra aleatoria simple de 40 individuos de la población en estudio en los que se observó el tiempo transcurrido desde la administración de la vacuna hasta la disminución de los anticuerpos, obteniéndose una media muestral de 35 dı́as. Determinar el mencionado intervalo de confianza para un coeficiente de confianza de 0′ 95, sabiendo que en las vacunas de tipo sintético, como la aquı́ utilizada, es admisible suponer una desviación tı́pica de 7 dı́as. Como es habitual, primero fijaremos el modelo matemático para el problema en cuestión. No se supone distribución para la variable aleatoria en estudio, X, dı́as transcurridos desde la administración de la vacuna hasta la disminución de anticuerpos. No obstante, el tamaño muestral, n, es suficientemente grande (mayor que 30) para la situación aquı́ considerada de suponerse conocida la varianza poblacional σ 2 . D 140 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud En estas condiciones, el intervalo de confianza para tiempo medio hasta que deja de ser eficaz la vacuna es (CB-sección 6.3) σ σ x − zα/2 √ , x + zα/2 √ . n n Como de la tabla 3 de la distribución normal N (0, 1) obtenemos que es zα/2 = z0′ 05/2 = z0′ 025 = 1′ 96, el intervalo de confianza buscado será, σ σ x − zα/2 √ , x + zα/2 √ n n = 7 7 35 − 1′ 96 √ , 35 + 1′ 96 √ 40 40 = [32′ 83 , 37′ 17]. Aunque el enunciado del problema pedı́a explı́citamente el intervalo de confianza de la media, no cabe duda de que, en este problema, resulta más interesante determinar una estimación de cuándo deja de ser eficaz la vacuna, es decir, una cota de confianza superior de la media, ya que es precisamente el final del perı́odo de validez lo que nos interesa. Surge ası́ el concepto de cota de confianza que, aunque no se aborda en CB, su definición, totalmente análoga a la de intervalo de confianza, no presenta ninguna dificultad. En el caso de la cota de confianza superior toda la probabilidad se traslada al extremo superior: T2 (x1 , ..., xn ) es una cota de confianza superior para θ, de coeficiente de confianza 1 − α, si P {θ ≤ T2 (X1 , ..., Xn )} = 1 − α. En la cota de confianza inferior, el coeficiente se traslada al extremo inferior: T1 (x1 , ..., xn ) es una cota de confianza inferior para θ, de coeficiente de confianza 1 − α, si P {T1 (X1 , ..., Xn ) ≤ θ} = 1 − α. Como sabemos que los intervalos de confianza son intervalos [T1 (x1 , ..., xn ) , T2 (x1 , ..., xn )] tales que P {T1 (X1 , ..., Xn ) ≤ θ ≤ T2 (X1 , ..., Xn )} = 1 − α la determinación, en cada caso, de la cota de confianza superior o inferior, se realizará eligiendo el intervalo de confianza para la situación considerada y dejando a un lado toda la probabilidad α en lugar de α/2 a cada lado, como hacı́amos en los intervalos de confianza. D 141 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Ası́, en la situación en la que estamos en este problema, la cota de confianza superior, de coeficiente de confianza 1 − α, para el tiempo medio hasta que deja de ser eficaz la vacuna será σ x + zα √ n es decir, el extremo superior del intervalo de confianza para la media en la situación considerada, cambiando zα/2 por zα al dejar a un lado toda la probabilidad α, ya que, al ser en este caso, x−µ √ σ/ n aproximadamente N (0, 1), será es decir, P x−µ √ > z1−α σ/ n =1−α P x−µ √ > −zα σ/ n =1−α y, por tanto, σ P µ ≤ x + zα √ n =1−α cumpliendo σ x + zα √ n la condición de cota de confianza superior, más arriba exigida. En definitiva, la cota de confianza superior, de coeficiente de confianza ′ 0 95, para el tiempo medio hasta que deja de ser eficaz la vacuna será σ 7 x + zα √ = 35 + 1′ 645 √ = 36′ 82 n 40 al ser zα = z0′ 05 = 1′ 645. Problema 5.8 Con objeto de informar a sus pacientes acerca de la duración del tratamiento de corrección de mordedura cruzada, un ortodoncista desea estimar, mediante sendos intervalos de confianza, el tiempo medio y la desviación tı́pica de la duración del tratamiento. Para ello seleccionó una muestra aleatoria simple de 10 fichas de pacientes con tratamiento finalizado, obteniendo los siguientes tiempos de tratamiento, en dı́as: D 142 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 290 , 275 , 290 , 325 , 285 , 365 , 375 , 310 , 290 , 300 . Suponiendo que la duración de dicho tratamiento sigue una distribución normal, determinar los intervalos de confianza para la media y la desviación tı́pica a un coeficiente de confianza del 95 %. Según el enunciado del problema, la variable en estudio X, duración, en dı́as, del tratamiento de mordedura cruzada, sigue una distribución normal N (µ, σ) de media y desviación tı́pica desconocidas. En esta situación, el intervalo de confianza para la media µ es (CB-sección 6.2) S S √ , x + tn−1;α/2 √ . n n x − tn−1;α/2 De los datos observados obtenemos que es x = 310′ 5 y S = 34′ 355; además, al ser el coeficiente de confianza 0′ 95, a partir de la tabla 5 de la distribución t de Student obtenemos que es tn−1;α/2 = t9;0′ 025 = 2′ 262. Por tanto, el intervalo de confianza para la media, de coeficiente de confianza 0′ 95, es h x − tn−1;α/2 = √S n h , x + tn−1;α/2 √S n i ′ ′ 355 310′ 5 − 2′ 262 34√355 , 310′ 5 + 2′ 262 34√10 10 i = [285′ 92 , 335′ 08]. El intervalo de confianza para la varianza en esta situación de ser la media poblacional desconocida es (CB-sección 6.4) " (n − 1)S 2 (n − 1)S 2 , 2 χ2n−1;α/2 χn−1;1−α/2 # y como, a partir de la tabla 4 de la distribución χ2 de Pearson, es χ2n−1;α/2 = χ29;0′ 025 = 19′ 02 y χ2n−1;1−α/2 = χ29;0′ 975 = 2′ 7, el intervalo pedido será " # (n − 1)S 2 (n − 1)S 2 9 · 1180′ 3 9 · 1180′ 3 , = , = [558′ 5 , 3934′ 3]. 19′ 02 2′ 7 χ2n−1;α/2 χ2n−1;1−α/2 Extrayendo la raı́z cuadrada a los extremos del intervalo anterior, obtendremos el intervalo de confianza, de coeficiente de confianza 0′ 95, para la desviación tı́pica: [23′ 63 , 62′ 72]. D 143 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos En este punto queremos reseñar un hecho a tener en cuenta. Un intervalo de confianza no es más que un subconjunto del conjunto de valores posibles del parámetro en estudio, elegido de forma que el estadı́stico a utilizar, en la situación en la que nos movamos, cubra al verdadero valor del parámetro con una probabilidad dada, 1 − α, denominada coeficiente de confianza. Si, como aquı́ ocurre, el parámetro es bidimensional, θ = (µ, σ), lo lógico serı́a elegir un subconjunto (de dos dimensiones) del conjunto de valores posibles del parámetro (bidimensional) θ tal que el estadı́stico (bidimensional) correspondiente, cubriese el verdadero valor de θ con probabilidad 1 − α. El elegir como tal subconjunto el proporcionado por la intersección de los dos intervalos de confianza correspondientes, (en nuestro problema el subconjunto {(µ, σ) : 285′ 92 ≤ µ ≤ 335′ 08, 23′ 63 ≤ σ ≤ 62′ 72}) presenta, en general, el inconveniente de que su verdadero coeficiente de confianza será menor que 1 − α ya que, en el mejor de los casos de que los estimadores a considerar fueran independientes y pudiéramos calcular fácilmente la probabilidad de la intersección de los dos sucesos (que el primer estadı́stico cubra a la primera componente del parámetro —en nuestro caso µ— y el segundo a la segunda —en nuestro caso σ—), ésta serı́a el producto de ambas probabilidades (1 − α) × (1 − α) < 1 − α por ser 0 < α < 1. Un estudio preciso de la determinación del subconjunto de valores posibles del parámetro, denominado región de confianza, que mantuviese el coeficiente de confianza 1 − α, se sale de los objetivos de CB. No obstante, una regla práctica a utilizar con los medios de que aquı́ disponemos, podrı́a ser la de aumentar el coeficiente de confianza de cada uno de los dos intervalos y admitir que la que se obtendrá para el conjunto intersección de ambos será algo menor a la fijada para la obtención de cada uno de los dos intervalos de confianza y, en muchos casos, igual al producto de ambos coeficientes de confianza. Problema 5.9 Se quiere estimar la eficacia de un tratamiento de fluoración del agua potable de una determinada ciudad. Para ello, antes de aplicar el tratamiento, se eligieron al azar 150 personas de la ciudad en cuestión y se observó que el 35 % de las mismas presentaba alguna caries dental. Pasado un año de tratamiento, se seleccionó otra muestra aleatoria simple de 150 habitantes de la misma ciudad, observándose un 30 % de personas con caries. En estas condiciones, determinar un intervalo de confianza, de coeficiente de confianza 0′ 95, para la diferencia de proporciones de personas con caries, antes y después de aplicar el tratamiento. Este problema pone de nuevo de manifiesto que lo importante a la hora de considerar un problema como de datos apareados o no, no es el que se seleccionen a las mismas personas (como ocurrı́a en el ejercicio anterior) o que se realice un tratamiento antes o después (como ocurre en este problema); D 144 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud lo caracterı́stico de un problema de datos apareados es que las variables que modelizan el problema no sean independientes. En el segundo apartado del ejercicio anterior, aunque las personas en las que se observaban las variables en estudio eran las mismas, éstas eran independientes. En este problema, aunque se observa la proporción de individuos con caries, antes y después de aplicar el tratamiento, los individuos se seleccionan independientemente en ambas ocasiones, por lo que se trata de variables independientes. En concreto, al ser éste un problema de presencia o ausencia de una caracterı́stica, o en nuestra terminologı́a de éxito o fracaso, se puede modelizar mediante una variable Bernoulli, que no es más que una binomial B(1, p) en donde p es la proporción de éxitos. Ası́, si X1 es una variable que toma el valor 1 si el individuo seleccionado al azar de la población, antes de aplicar el tratamiento, tiene caries y 0 si no tiene caries y p1 es la proporción de personas con caries antes de aplicar el tratamiento, es X1 ; B(1, p1 ), y si X2 es una variable que toma el valor 1 si el individuo seleccionado al azar de la población, después de aplicar el tratamiento, tiene caries y 0 si no tiene caries y p2 es la proporción de personas con caries después de aplicar el tratamiento, es X2 ; B(1, p2 ). Como las muestras antes y después de aplicar el tratamiento se toman de forma independiente, X1 y X2 serán variables independientes y, por tanto, no se tratará de un problema de datos apareados, sino de uno de determinación del intervalo de confianza para la diferencia de medias de dos poblaciones binomiales —la media de X1 es p1 y la de X2 es p2 —, siendo el tamaño muestral suficientemente grande (CB-sección 6.7). El intervalo de confianza para p1 − p2 será, por tanto, " p̂1 − p̂2 − zα/2 r p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + , p̂1 − p̂2 + zα/2 n1 n2 r p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + n1 n2 # De los datos del enunciado se obtiene que es p̂1 = 0′ 35, n1 = 150, p̂2 = 0′ 30, n2 = 150 y α/2 = 0′ 025, por lo que intervalo de confianza buscado será 0′ 35 − 0′ 3 − 1′ 96 = q 0′ 35·0′ 65 150 + 0′ 3·0′ 7 150 , 0′ 35 − 0′ 3 + 1′ 96 q 0′ 35·0′ 65 150 + 0′ 3·0′ 7 150 [−0′ 0558 , 0′ 1558] ya que es zα/2 = z0′ 025 = 1′ 96 a partir de la tabla 3 de la distribución normal. Problema 5.10 Se ha realizado un estudio sobre los niveles de radiación de un determinado modelo de pantalla, midiéndose la radiación en 10 pantallas de ese modelo elegidas al azar, de donde se obtuvo una cuasivarianza muestral de S 2 = 402. Suponiendo D 145 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos que la radiación de las pantallas sigue una distribución normal, ¿puede rechazarse, a nivel α = 0′ 05, la hipótesis de que la varianza poblacional es mayor o igual que 1000?. Llamando X a la variable aleatoria niveles de radiación del modelo de pantalla en estudio, del enunciado se deduce que es X ; N (µ, σ), con µ y σ desconocidas. Además, el contraste que se solicita es del tipo H0 : σ 2 ≥ σ02 frente a H1 : σ 2 < σ02 ; bajo las condiciones del primer párrafo del ser la población normal y la media poblacional desconocida, se rechaza H0 cuando y sólo cuando (CB-sección 7.4) sea (n − 1)S 2 < χ2n−1;1−α σ02 es decir, cuando y sólo cuando sea 9 · 402 = 3′ 618 < χ29;0′ 95 . 1000 Como, a partir de la tabla 4 de la χ2 , es χ29;0′ 95 = 3′ 325 no puede rechazarse H0 al nivel de significación propuesto. El p-valor —nivel de significación observado— es la probabilidad P {χ29 < ′ 3 618}. A partir de la tabla 4 obtenemos los valores P {χ29 < 3′ 325} = 0′ 05 y P {χ29 < 4′ 168} = 0′ 1; es decir, que a un aumento de abscisa de 4′ 168 − 3′ 325 = 0′ 843 le corresponde un aumento de probabilidad de 0′ 1 − 0′ 05 = 0′ 05. Por tanto, a un aumento de abscisa de 3′ 618 − 3′ 325 = 0′ 293 le corresponderá un aumento de probabilidad de 0′ 293 × 0′ 05/0′ 843 = 0′ 01738; es decir, será P {χ29 < 3′ 618} = 0′ 05 + 0′ 01738 = 0′ 06738. Problema 5.11 Se esté estudiando el tiempo de vida entre los pacientes a una determinada enfermedad. A tal fin se eligieron al azar 100 fichas de pacientes fallecidos por la enfermedad en estudio, obteniéndose una media muestral de 740 dı́as y una cuasidesviación tı́pica muestral de 32 dı́as. ¿Puede admitirse para los pacientes de la enfermedad en cuestión un tiempo medio de vida superior a 730 dı́as? Si representamos por X la variable aleatoria tiempo de vida de los pacientes con la enfermedad en estudio, y por µ su media, estamos interesados en analizar si puede admitirse la hipótesis µ > 730 la cual, como siempre, se plantea como hipótesis alternativa H1 , reservando la hipótesis nula al suceso complementario H0 : µ ≤ 730. En la situación que nos movemos de contrastes para la media, µ, de una población no necesariamente normal de varianza desconocida siendo el tamaño D 146 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud muestral suficientemente grande (CB-sección 7.3), se rechaza H0 : µ ≤ 730 cuando y sólo cuando sea x − 730 √ > zα S/ n siendo zα el valor de la abscisa de una normal N (0, 1) que deja a la derecha un área de probabilidad α, siendo α el nivel de significación del test. Si fijamos como nivel de significación α = 0′ 05, la tabla 3 de la normal N (0, 1) nos proporciona el punto crı́tico zα = z0′ 05 = 1′ 645, al obtenerse a partir de la mencionada tabla que es P {Z > 1′ 64} = 0′ 0505 y P {Z > 1′ 65} = 0′ 0495. Al ser la probabilidad cola requerida como nivel de significación la semisuma de las dos anteriores, el punto crı́tico también será la semisuma de las dos abscisas anteriores: (1′ 64 + 1′ 65)/2 = 1′ 645. Como es x − 730 740 − 730 √ √ = = 3′ 125 > 1′ 645 = z0′ 05 S/ n 32/ 100 rechazaremos la hipótesis nula de ser H0 : µ ≤ 730, aceptando la alternativa H1 : µ > 730, de ser el tiempo medio de supervivencia entre los pacientes con la enfermedad en estudio, significativamente mayor de 730 dı́as. El p-valor del test es P x − 730 √ > 3′ 125 = P {Z > 3′ 125} = 0′ 0009 S/ n obtenido, de nuevo a partir de la tabla 3, por interpolación de dos valores (en este caso iguales). Un p-valor tan pequeño confirma la conclusión adoptada. Problema 5.12 Un equipo de investigadores realizó un experimento en un hospital psiquiátrico para comparar cinco métodos de remotivación de pacientes, los cuales estaban clasificados de acuerdo a su nivel inicial de motivación. Los resultados obtenidos fueron los siguientes: NIVEL DE MOTIVACIÓN Ninguno Muy bajo Bajo Mediano A 58 62 67 70 MÉTODO B C D 68 60 68 70 65 80 78 68 81 81 70 89 E 64 69 70 74 ¿Suministran los datos suficiente evidencia como para poder concluir que existen diferencias entre los métodos? D 147 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Admitiremos como válidas las suposiciones habituales de homocedasticidad y normalidad que nos permiten hacer un Análisis de la Varianza. Al existir una fuente de variación no deseable en las unidades experimentales (el nivel inicial de motivación de los pacientes), realizaremos un Análisis de la Varianza por Bloques (CB-sección 8.3), siendo éstos precisamente, los cuatro niveles de motivación inicial de los pacientes. No obstante, el propósito sigue siendo el contrastar la igualdad de los efectos medios de los niveles del factor en estudio, en este caso, los métodos de remotivación, contrastando la hipótesis nula H0 : µA = µB = µC = µD = µE frente a la alternativa de no ser todos los efectos medios iguales. (Apuntamos aquı́ el que, en el enunciado del problema, los datos aparecen en una disposición distinta a la de la sección 8.3 de CB. Allı́, como siempre, los s bloques aparecen como columnas y los r tratamientos como filas. Por tanto, si el lector no quiere confundirse, quizá es preferible que cambie primero las filas por las columnas en la tabla del enunciado, con objeto de tener la misma disposición que en el texto base CB.) La tabla de Análisis de la Varianza correspondiente a tal diseño es F. de variación Suma de cuadrados g.l. c. medios Estadı́stico Tratamientos Bloques Residual SSTi = 632′ 8 SSBl = 471′ 2 SSE = 62′ 8 4 3 12 158′ 2 F = 30′ 23 Total SST = 1,166′ 8 19 5′ 2333 El punto crı́tico, para un nivel de significación α = 0′ 01, es F(4,12);0′ 01 = 5′ 4119 < F , lo que lleva a rechazar la hipótesis nula de igualdad entre los cinco métodos. De hecho el p-valor es menor que 0′ 005, lo que confirma la decisión adoptada de rechazo de la hipótesis nula. Problema 5.13 En el análisis de la posible influencia del peso, X1 y del nivel de ácido úrico, X2 , sobre el nivel de colesterol, Y , en los individuos de una población, se seleccionó al azar a 10 personas de la población en estudio, anotándose el valor, que en ellos tomaban, las tres variables antes mencionadas. Los resultados obtenidos fueron los siguientes: X1 X2 Y Se pide: 50 40 200 80 70 350 75 50 250 80 65 300 68 55 340 75 60 340 70 60 300 80 62 360 90 69 400 60 63 220 D 148 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud a) Determinar el hiperplano de regresión muestral de Y sobre X1 , X2 . b) Contrastar, a nivel α = 0′ 05, si el hiperplano determinado explica suficientemente bien a la variable Y en función de X1 y X2 . a) Para calcular el hiperplano (en este caso plano al haber sólo dos variable regresoras) de regresión de Y sobre X1 , X2 , yt = β̂0 + β̂1 x1 + β̂2 x2 debemos determinar y resolver, previamente, el sistema de ecuaciones normales             n β̂0 β̂0 n X x1j   j=1   n  X     β̂ x2j 0   j=1 + β̂1 + β̂1 + β̂1 n X j=1 n X j=1 n X x1j x21j x1j x2j + β̂2 + β̂2 + β̂2 j=1 n X j=1 n X j=1 n X x2j = x1j x2j = x22j j=1 = n X j=1 n X j=1 n X yj x1j yj x2j yj j=1 que para los datos del enunciado queda igual a    10 · β̂0 + 728 · β̂1 + 594 · β̂2 = 3060 728 · β̂0 + 54174 · β̂1 + 43940 · β̂2 = 228370   594 · β̂0 + 43940 · β̂1 + 36024 · β̂2 = 185380 sistema de tres ecuaciones con tres incógnitas, β̂0 , β̂1 , β̂2 , que tiene como soluciones los valores β̂0 = −55′ 58 β̂1 = 4′ 2301 β̂2 = 0′ 9029 El hiperplano buscado será, por tanto, yt = −55′ 58 + 4′ 2301 x1 + 0′ 9029 x2 mediante el cual, si el Análisis de la Regresión Lineal Múltiple, que haremos a continuación, permite aceptarlo como modelo, podrı́amos considerar como razonable que un individuo de la población en estudio con un peso de x1 = 85 kgr. y un nivel de ácido úrico de x2 = 66, tenga un nivel de colesterol de yt = −55′ 58 + 4′ 2301 · 85 + 0′ 9029 · 66 = 363′ 57. D 149 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos En la determinación de los coeficientes de regresión, β̂0 , β̂1 , β̂2 , hemos utilizado el sistema de ecuaciones normales. Equivalentemente, podrı́amos haber utilizado la notación matricial empleada en EII-sección 6.6, siendo    X=   1 x11 x12 · · · x1k 1 x21 x22 · · · x2k .. .. .. .. .. . . . . . 1 xn1 xn2 · · · xnk    Y =   200 350 .. . 220       =       1 50 40 1 80 70   .. .. ..   . . .  1 60 63      y siendo los coeficientes de regresión iguales a  es decir,  β̂0   ′ −1 ′  β̂1  = (X X) X Y β̂2   1 1 ··· 1   X ′ =  50 80 · · · 60  40 70 · · · 63 la matriz traspuesta de la matriz X, obtenida de esta última intercambiando las filas y las columnas, siendo (X ′ X)−1  −1   10 728 594 5′ 4148 −0′ 0325 −0′ 0496     =  728 54174 43940  =  −0′ 0325 0′ 0019 −0′ 0018  −0′ 0496 −0′ 0018 594 43940 36024 0′ 0031 la inversa del producto de las matrices X ′ X, y siendo  Por último, será    3060   X ′ Y =  228370  185380     β̂0 5′ 4148 −0′ 0325 −0′ 0496 3060       ′ −1 ′ 0′ 0019 −0′ 0018  ·  228370   β̂1  = (X X) X Y =  −0′ 0325 0′ 0031 −0′ 0496 −0′ 0018 185380 β̂2 D 150 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud   −55′ 58  ′  =  4 2301  0′ 9029 b) Una vez determinado el hiperplano de regresión muestral por uno u otro procedimiento, en este apartado vamos a analizar si éste explica suficientemente bien a la variable Y en función de X1 y X2 , contrastando la hipótesis nula H0 :ninguna de las variables independientes Xi tiene valor en la explicación de Y , o equivalentemente H0 : β1 = ... = βk = 0, frente a la alternativa de que alguna Xi sirve para explicar a la variable Y . Para ello utilizaremos la tabla de Análisis de la Varianza para la Regresión Lineal Múltiple F. variación Regresión múltiple Residual Total Suma de cuadrados SSEX = n X i=1 (yti − y)2 SSN EX = SST − SSEX SST = n X i=1 yi2 1 − n n X i=1 yi g.l. c. medios k SSEX k n−k−1 !2 SSN EX n−k−1 Estadı́stico SSEX k SSN EX n−k−1 n−1 Primero calcularemos la suma de cuadrados debida a la regresión lineal múltiple SSEX = n X i=1 (yti − y)2 en donde yti representa el valor teórico obtenido por el hiperplano de regresión muestral yt en el punto (x1i , x2i ), i = 1, ..., 10; es decir, por ejemplo yt1 = −55′ 58 + 4′ 2301 · 50 + 0′ 9029 · 40 = 192′ 041. Por otro lado, la media de las yi es y = obtenemos la siguiente tabla de cálculos: P10 i=1 yi /10 = 306, con lo que D 151 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos yti yti − y (yti − y)2 ′ 192 041 −113′ 959 12986′ 654 346′ 031 40′ 031 1602′ 481 ′ 306 822 0′ 822 0′ 677 ′ ′ 341 517 35 517 1261′ 422 281′ 726 −24′ 274 589′ 213 315′ 852 9′ 851 97′ 052 ′ ′ 294 701 −11 299 127′ 667 338′ 808 32′ 808 1076′ 352 ′ 387 429 81′ 429 6630′ 698 255′ 109 −50′ 891 2589′ 924 26962 Por tanto, será SSEX = n X i=1 (yti − y)2 = 26962 suma de cuadrados que tiene k = 2 grados de libertad al haber sólo dos variables regresoras. Por otro lado, la suma total de cuadrados es SST = n X i=1 2 (yi − y) = n X i=1 yi2 n 1 X − yi n i=1 !2 = 974200 − 30602 = 37840 10 la cual tiene n − 1 = 9 grados de libertad. Por último, la suma residual de cuadrados se calcula por diferencia de las otras dos, SSN EX = SST − SSEX = 37840 − 26962 = 10878 con grados de libertad igual a la diferencia de grados de libertad de las otras dos sumas de cuadrados, 9 − 2 = 7. Los cuadrados medios de la tabla de Análisis de la Varianza se calculan ahora como cociente entre las sumas de cuadrados y sus grados de libertad: Cuadrado medio correspondiente a la Regresión Lineal Múltiple: SSEX 26962 = = 13481 2 2 Cuadrado medio Residual: D 152 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud SSN EX 10878 = = 1554 7 7 siendo el estadı́stico del contraste el cociente de estos dos cuadrados medios: F = 13481 SSEX/2 = = 8′ 675. SSN EX/7 1554 Todos estos cálculos se resumen en la tabla de Análisis de la Varianza para la Regresión Lineal Múltiple F. variación Regresión lineal múltiple Suma de cuadrados g.l. c. medios Estadı́stico SSEX = 26962 2 13481 F = 8′ 675 Residual SSN EX = 10878 7 Total SST = 37840 9 1554 Como este estadı́stico, antes de obtener la muestra y, por tanto, tomar un valor concreto, se distribuye como una F de Snedecor con grados de libertad el par formado por los grados de libertad de las dos sumas de cuadrados que forman el cociente de F , es decir, en este caso (2, 7), el punto crı́tico para un nivel de significación α = 0′ 05, será F(2,7);0′ 05 = 4′ 7374 < 8′ 675 = F , por lo que rechazaremos la hipótesis nula H0 , concluyendo con la alternativa de que el hiperplano de regresión calculado en el apartado anterior es válido para explicar Y en función de X1 y X2 . El p-valor del test, no obstante, no es lo suficientemente contundente al estar acotado por los valores 0′ 01 < p-valor < 0′ 025. El coeficiente de correlación múltiple muestral Ry,12 = s SSEX = SST r 26962 √ ′ = 0 7125 = 0′ 8441 37840 está en lı́nea con las conclusiones anteriores: no está demasiado cerca de 1, pero es significativamente cercano a dicho valor; o mejor dicho, es significativamente grande como para que el estadı́stico F′ = 2 /2 Ry,12 2 )/(10 − 2 − 1) (1 − Ry,12 D 153 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos (igual, como vimos en CB-sección 10.4.1, al estadı́stico F antes determinado), rechace la hipótesis nula H0 : ρy,12 = 0 , de ser cero el coeficiente de correlación múltiple entre Y y el resto de las —en este caso dos— variables regresoras Xi . Problema 5.14 Se quiere investigar si existen diferencias significativas entre tres métodos de adelgazamiento. Para ello se seleccionaron al azar tres personas, las cuales utilizaron el Método1, otras cuatro que emplearon el Método2 y otras tres más que utilizaron el Método3. Las disminuciones en kilogramos, después de dos semanas de ejercicios con los tres métodos fueron las siguientes: Método1 Método2 Método3 1′ 3 3′ 2 0′ 9 2′ 5 3′ 5 1′ 5 0′ 9 2′ 0 2′ 0 1′ 9 Se anotó también el peso inicial de los individuos seleccionados ya que éste puede ser un factor que influya en el resultado del experimento. Los pesos iniciales de las personas seleccionadas, ocupando los mismos lugares de la tabla anterior, eran Pesos iniciales 75 85 74 79 85 79 80 75 77 80 (es decir, el individuo de 75 kgr. adelgazó 1′ 3 kgr., el de 85 kgr. adelgazó 2′ 5, etc). Con estos datos y a nivel de significación α = 0′ 05, se pide: a) ¿Puede afirmarse que existen diferencias significativas entre los tres métodos de adelgazamiento? b) ¿Influye significativamente en el experimento el peso inicial del individuo? Estamos antes un caso de un Análisis de la Covarianza para un factor y un diseño completamente aleatorizado, cuyo desarrollo teórico puede seguirse en CB-sección 11.2. Mediante este diseño podemos contrastar las dos hipótesis que nos requiere el enunciado. a) Existirán diferencias significativas entre los tres métodos de adelgazamiento cuando rechacemos la hipótesis nula de igualdad de los efectos medios de dichos métodos, H0 : µ1 = µ2 = µ3 , utilizando el mencionado Análisis de la Covarianza, cuya tabla correspondiente a dicho diseño es igual a --------------------------------------------------------------| F. variac. S. cuadr. g.l. cuad. medi. F | | ----------------------------------| | Métodos 0.87029 2 0.43514 1.89 | | Residual 1.38397 6 0.23066 | --------------------------------------------------------------- D 154 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud De ella se deduce que, antes de tomar los datos, el estadı́stico F del contraste sigue una distribución F de Snedecor con grados de libertad (r − 1, n − r − 1) = (3−1, 10−3−1) = (2, 6), por lo que, para el nivel de significación α = 0′ 05 requerido, el punto crı́tico es F(2,6);0′ 05 = 5′ 1433 > 1′ 89 = F , aceptándose la hipótesis nula. De dichas tablas se deduce también que el p-valor es mayor que 0′ 1, afianzándose la decisión tomada. b) El mencionado Análisis de la Covarianza permite también valorar si la variable concomitante, en este caso los pesos iniciales, influye o no en el experimento, contrastando la hipótesis nula H0′ : X e Y no están relacionadas linealmente, frente a la alternativa H1′ : X e Y sı́ están relacionadas linealmente. El estadı́stico de dicho contraste toma el valor F′ = 2′ 61936 SSr = ′ = 11′ 36. SSE/(n − r − 1) 0 23066 Como es F ′ = 11′ 36 > 5′ 9874 = F(1,6);0′ 05 = F(1,n−r−1);α se rechaza H0′ , concluyendo que sı́ que influye significativamente el peso inicial en el experimento. Problema 5.15 Se quiere analizar si pueden considerarse significativamente independientes o no el tener problemas respiratorios en la adolescencia y el tener un historial de bronquitis en la infancia. Para ello se seleccionaron al azar 1000 adolescentes y se les clasificó según tuvieran en la actualidad problemas respiratorios o no y según su historial clı́nico de bronquitis en la infancia. Los resultados obtenidos fueron los siguientes: Problemas respiratorios Sı́ No Total Historial de bronquitis Sı́ No 25 40 200 735 Total 1000 ¿Puede rechazarse la hipótesis nula de independencia entre ambas variables? Se trata de un contraste de independencia de caracteres (CB-sección 12.4) en donde la hipótesis nula es la independencia de ambas variables. Para realizar dicho contraste utilizaremos el estadı́stico λ de Pearson el cual mide las discrepancias entre las frecuencias observadas nij y las esperadas ni· n·j /n en D 155 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos cada casilla, siendo, respectivamente, ni· i = 1, ..., a y n·j j = 1, ..., b los totales por filas y columnas de la tabla de doble entrada que contiene los datos. Dicho estadı́stico tiene por expresión, λ= a X b X (nij − ni· n·j /n)2 i=1 j=1 ni· n·j /n el cual sigue, aproximadamente, una distribución χ2 con (a − 1)(b − 1) grados de libertad. La tabla de frecuencias esperadas es Problemas respiratorios Sı́ No Total Historial de bronquitis Sı́ No ′ 14 6 50′ 4 ′ 210 4 724′ 6 225 735 Total 65 935 1000 siendo cada uno de los sumandos del estadı́stico λ a utilizar en el contraste χ2 igual a Problemas respiratorios Sı́ No Total Historial de bronquitis Sı́ No 7′ 4 2′ 1 0′ 5 0′ 1 Total 10′ 2 A la vista de estos resultados, el estadı́stico λ de Pearson de distribución χ21 antes de tomar la muestra, toma el valor λ = 10′ 2. (Con más precisión λ = 10′ 157). Como no se especifica ningún nivel de significación en el enunciado se calcula el p-valor y si éste es muy pequeño se rechaza la hipótesis nula y si es relativamente grande se acepta. La hipótesis nula de independencia de ambos caracteres es rechazada al ser P {χ21 > 10′ 2} < 0′ 005. De hecho, este razonamiento, aunque habitual entre los usuarios de la Estadı́stica es algo informal. Lo correcto hubiera sido fijar un nivel de significación α —habitualmente 0′ 1, 0′ 05 ó 0′ 01— y para ese nivel determinar el punto crı́tico. Si ahora es λ mayor que ese punto crı́tico, rechazaremos la hipótesis nula; luego calcuları́amos el p-valor para valorar la decisión tomada de la forma antes mencionada. Lo que ocurre es que con el p-valor determinado en este ejemplo —menor que 0′ 005— si se hubiera tomado otra decisión que no fuera el rechazo de H0 , ésta serı́a muy poco fiable. Además, el cálculo del D 156 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud p-valor ya nos da para qué niveles de significación se rechaza H0 —los mayores que dicho p-valor— y para cuáles se acepta —los menores. En este caso, deberı́amos haber elegido un nivel de significación mucho menor que 0′ 005 para haber aceptado la hipótesis nula (elección absurda). Problema 5.16 Se realizó un estudio sobre fallecimiento por angina de pecho en una población de riesgo. Con este propósito, para cada individuo se anotó el tiempo, en años, que transcurrió desde que se inició el estudio hasta el fallecimiento por dicha causa. Los tiempos obtenidos sobre 1625 pacientes vienen dados en la siguiente distribución de frecuencias: Intervalo [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) [14,15) ≥ 15 no ¯ de individuos fallecidos 456 226 152 171 135 125 83 74 51 42 43 34 18 9 6 0 ¿Puede admitirse una distribución exponencial para dichos tiempos de fallo? Se trata de un contraste de bondad del ajuste de la χ2 (CB-sección 12.2) que plantea la novedad de que ahora la distribución teórica es una exponencial, no tabulada; no obstante, el procedimiento es el mismo, aunque las probabilidades teóricas que dicha distribución asigna a cada intervalo deberán calcularse directamente a partir de la función de distribución y no mediante las tablas del final del libro. Como sabemos, la distribución exponencial Exp(θ) tiene por función de densidad fθ (x) = θ e−θx con x > 0 y siendo θ > 0 un parámetro desconocido. Como siempre, dado que no conocemos el valor de dicho parámetro, lo estimaremos a partir de la muestra utilizando su estimador de máxima verosimilitud y restaremos a la χ2 un grado de libertad al final. D 157 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Vimos en el capı́tulo tercero que el estimador de máxima verosimilitud de θ es 1/x. A partir de los datos obtenemos que es x = 3′ 719 y, por tanto, θ̂ = 1/x = 0′ 269. La hipótesis nula a contrastar será entonces la de que los datos se ajustan a una distribución Exp(0′ 269). Como de costumbre en este tipo de contraste deberemos determinar las frecuencias esperadas para lo que debemos calcular previamente las probabilidades que una Exp(0′ 269) asigna a cada uno de los intervalos en los que viene dividida la distribución de frecuencias dada. Para ello será muy útil la función de distribución de la distribución modelo, es decir, la función Fθ (x) = P {X ≤ x} = Z x 0 ′ θ e−θy dy = 1 − e−0 269 x . Ası́, y de nuevo sin preocuparnos de los lı́mites de los intervalos al ser la distribución exponencial de tipo continuo, será, redondeando en la cuarta cifra decimal, P {0 < X < 1} = P {0 < X ≤ 1} = P {X ≤ 1} − P {X ≤ 0} = F (1) − F (0) ′ = 1 − e−0 269 − 0 = 1 − 0′ 7641 = 0′ 2359. Análogamente, P {1 < X < 2} = F (2) − F (1) ′ ′ ′ ′ = 1 − e−0 269·2 − 1 + e−0 269 = e−0 269 − e−0 538 = 0′ 7641 − 0′ 5839 = 0′ 1802. P {2 < X < 3} = F (3) − F (2) ′ ′ ′ ′ = 1 − e−0 269·3 − 1 + e−0 269·2 = e−0 538 − e−0 807 = 0′ 5839 − 0′ 4462 = 0′ 1377. P {3 < X < 4} = F (4) − F (3) D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 158 ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ = 1 − e−0 269·4 − 1 + e−0 269·3 = e−0 807 − e−1 076 = 0′ 4462 − 0′ 3410 = 0′ 1052. P {4 < X < 5} = F (5) − F (4) ′ ′ = 1 − e−0 269·5 − 1 + e−0 269·4 = e−1 076 − e−1 345 = 0′ 3410 − 0′ 2605 = 0′ 0805. P {5 < X < 6} = F (6) − F (5) ′ ′ = 1 − e−0 269·6 − 1 + e−0 269·5 = e−1 345 − e−1 614 = 0′ 2605 − 0′ 1991 = 0′ 0614. P {6 < X < 7} = F (7) − F (6) ′ ′ = 1 − e−0 269·7 − 1 + e−0 269·6 = e−1 614 − e−1 883 = 0′ 1991 − 0′ 1521 = 0′ 047. P {7 < X < 8} = F (8) − F (7) ′ ′ = 1 − e−0 269·8 − 1 + e−0 269·7 = e−1 883 − e−2 152 = 0′ 1521 − 0′ 1163 = 0′ 0358. P {8 < X < 9} = F (9) − F (8) ′ ′ = 1 − e−0 269·9 − 1 + e−0 269·8 = e−2 152 − e−2 421 = 0′ 1163 − 0′ 0888 = 0′ 0275. D 159 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos P {9 < X < 10} = F (10) − F (9) ′ ′ ′ ′ = 1 − e−0 269·10 − 1 + e−0 269·9 = e−2 421 − e−2 69 = 0′ 0888 − 0′ 0679 = 0′ 0209. P {10 < X < 11} = F (11) − F (10) ′ ′ ′ ′ = 1 − e−0 269·11 − 1 + e−0 269·10 = e−2 69 − e−2 959 = 0′ 0679 − 0′ 0519 = 0′ 016. P {11 < X < 12} = F (12) − F (11) ′ ′ ′ ′ ′ ′ ′ ′ = 1 − e−0 269·12 − 1 + e−0 269·11 = e−2 959 − e−3 228 = 0′ 0519 − 0′ 0396 = 0′ 0123. P {12 < X < 13} = F (13) − F (12) ′ ′ = 1 − e−0 269·13 − 1 + e−0 269·12 = e−3 228 − e−3 497 = 0′ 0396 − 0′ 0303 = 0′ 0093. P {13 < X < 14} = F (14) − F (13) ′ ′ = 1 − e−0 269·14 − 1 + e−0 269·13 = e−3 497 − e−3 766 = 0′ 0303 − 0′ 0231 = 0′ 0072. P {X > 14} = 1 − P {X ≤ 14} = 1 − F (14) ′ ′ = 1 − 1 + e−0 269·14 = e−3 766 = 0′ 0231. D 160 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud valores que proporcionan la siguiente tabla de frecuencias observadas y esperadas, a la cual hemos añadido los primeros sumandos del estadı́stico de Pearson y hemos extendido el último intervalo para que las probabilidades sumen 1, Intervalo [0,1) [1,2) [2,3) [3,4) [4,5) [5,6) [6,7) [7,8) [8,9) [9,10) [10,11) [11,12) [12,13) [13,14) ≥ 14 ni 456 226 152 171 135 125 83 74 51 42 43 34 18 9 6 1625 pi ′ 0 2359 0′ 1802 0′ 1377 0′ 1052 0′ 0805 0′ 0614 0′ 0470 0′ 0358 0′ 0275 0′ 0209 0′ 0160 0′ 0123 0′ 0093 0′ 0072 0′ 0231 1 n · pi n2i /(n · pi ) ′ 383 3375 542′ 4358 292′ 825 174′ 425 223′ 7625 103′ 2523 170′ 95 171′ 05 130′ 8125 139′ 3215 99′ 775 156′ 6024 ′ 76 375 90′ 1997 58′ 175 94′ 1298 ′ 44 6875 58′ 2042 ′ 33 9625 51′ 9396 26 71′ 1154 ′ 19 9875 57′ 8361 15′ 1125 21′ 4392 ′ 11 7 6′ 9231 ′ 37 5375 0′ 9590 1625 1739′ 8331 Utilizando los valores de la última columna de la tabla anterior el estadı́stico de Pearson tomará el valor λ= X i n2i npi ! − n = 1739′ 8331 − 1625 = 114′ 8331. Como hemos estimado un parámetro a partir de la muestra, reduciremos un grado más los de libertad de la χ2 . Como tenemos 15 clases, el estadı́stico λ de Pearson tendrá una distribución χ215−1−1 = χ213 . De la tabla 4 obtenemos que es χ213;0′ 005 = 29′ 82, lo que indica, al ser 114′ 8331 > 29′ 82 que el p-valor es incluso menor que 0′ 005, concluyéndose, en definitiva, que la distribución de frecuencias dada en el enunciado no se ajusta bien a una distribución exponencial, ya que la elegida, de parámetro 0′ 269 es la mejor de entre todas las exponenciales al haber estimado su parámetro mediante el método de la máxima verosimilitud. Existen además tres factores que pueden haber influido en la decisión final. El primero es el que los intervalos en los que venı́a clasificada la distribución de frecuencias, eran de igual longitud en lugar de igual probabilidad, condición siempre deseable en un contraste de bondad del ajuste; de hecho, se observa en la última columna de la tabla anterior que en el primer intervalo se tiene D 161 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos un discrepancia muy grande de valor 542′ 4358, que ya condiciona el valor final de λ. En segundo lugar, advertimos que para analizar la bondad del ajuste de unos datos a una distribución teórica de tipo continuo suele ser más indicado el contraste de Kolmogorov-Smirnov que el de la χ2 , más indicado, éste último, en contrastes de bondad del ajuste de tipo discreto en donde las clases en las que se dividen los datos ya vienen pre-establecidas por el problema de que se trate. Una última cuestión es la de que, al ser el tamaño muestral relativamente grande, se le exige mucho al test, de forma que, en esta situación, pequeñas discrepancias son magnificadas por el enorme tamaño muestral disponible, rechazándose con más facilidad, a menos que los datos se ajusten con mucha exactitud. En estas situaciones, suele hacerse depender el tamaño del intervalo, del tamaño muestral de forma que al aumentar éste disminuya la longitud de aquel. Problema 5.17 Una psicóloga ha dividido los estados de ánimo de sus pacientes en una escala que va de 0 a 10, correspondiendo una mayor puntuación a un mejor estado de ánimo, y en donde el 0 representa una “fuerte depresión”, el 5 un estado de ánimo denominado “normal” y el 10 una “euforia patológica”. Con objeto de estudiar el estado de ánimo durante las fiestas navideñas de los reclusos de un determinado centro penitenciario, se eligieron al azar diez de estos reclusos unas Navidades y, realizados varios tests psicológicos, la psicóloga asignó las siguientes puntuaciones a sus encuestados: 4 , 1 , 3 , 5 , 7 , 4 , 3 , 5′ 5 , 3′ 1 , 9 . A la vista de estos resultados, ¿puede admitirse, a nivel α = 0′ 05, un estado de ánimo significativamente menor del habitual en esas fiestas navideñas? Si representamos por X a la variable aleatoria estado de ánimo de un recluso elegido al azar de la población penitenciaria, podemos resumir la distribución de X, la cual es completamente desconocida, por una medida de posición como su mediana M . La razón de esta elección es la de que, al ser la distribución de X desconocida, debemos emplear alguno de los tests no paramétricos, los cuales se basan en utilizar este centro de simetrı́a en la formalización de sus hipótesis. Como la situación de “normalidad” se ha establecido en el valor 5 de la variable, la hipótesis que estamos interesados en validar es M < 5, por lo que contrastaremos la hipótesis nula H0 : M ≥ 5 frente a la alternativa H1 : M < 5. Además, como los estados de ánimo asignados por la psicóloga no representan, en realidad, una puntuación numérica sino más bien una ordenación D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 162 de los pacientes, el test a utilizar será el test de los signos (CB-sección 13.2.1) el cual presenta la ventaja de poder manejar ese tipo de datos aunque, por contra, dará el mismo valor al dato observado 5′ 5 que al dato 9 —ambos son mayores que 5— no teniendo en cuenta el tamaño de la diferencia. Si T representa el número de diferencias Xi − 5 positivas, el test de los signos indica rechazar H0 cuando sea T ≤ n − tα siendo tα el menor entero tal que P {W ≥ tα } ≤ α, en donde W es una variable aleatoria con distribución binomial B(n, 0′ 5). Al observar los datos vemos que uno de ellos es igual a 5, por lo que, siguiendo las sugerencias habituales sobre tratamiento del problema de los empates, lo descartaremos, reduciendo el tamaño de la muestra. Las nueve diferencias Xi − 5 serán −1 , −4 , −2 , 2 , −1 , −2 , 0′ 5 , −1′ 9 , 4 con lo que el número T de diferencias positivas será T = 3. El nivel de significación indicado es α = 0′ 05. Buscando en la tabla 1 de la distribución binomial B(9, 0′ 5), obtenemos que es P {W = 9} = 0′ 002 con W ; B(9, 0′ 5), por lo que el valor 9 cumple, en principio, la desigualdad pedida P {W ≥ 9} = P {W = 9} = 0′ 002 ≤ 0′ 05. (Recordemos que si un número es menor que otro, entonces es menor o igual.) Veamos, no obstante, si es el menor número entero que la verifica. De la mencionada tabla obtenemos que es P {W = 8} = 0′ 0176, por lo que será P {W ≥ 8} = P {W = 8} + P {W = 9} = 0′ 0176 + 0′ 002 = 0′ 0196 ≤ 0′ 05 verificando también la desigualdad requerida y siendo 8 un número entero menor que 9. Probando ahora a reducir un poco más el valor, tenemos que es P {W = 7} = 0′ 0703, por lo que será P {W ≥ 7} = P {W = 7} + P {W = 8} + P {W = 9} = 0′ 0703 + 0′ 0176 + 0′ 002 = 0′ 0899 > 0′ 05 con lo que ya no se verifica la desigualdad requerida. Por tanto, el menor número entero que la verifica, el cual es por definición tα , será tα = 8. Al ser D 163 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos n − tα = 9 − 8 = 1 y T = 3, es T > n − tα , aceptándose en consecuencia H0 y concluyéndose, en definitiva que, en base a ese estudio, no se produce una disminución significativa del estado mediano “normal” de ánimo en los reclusos. El p-valor del test es, a partir de la tabla 1, P {W ≤ 3} = 0′ 002 + 0′ 0176 + 0′ 0703 + 0′ 1641 = 0′ 254 suficientemente grande como para confirmar la aceptación de la hipótesis nula. Problema 5.18 Los siguientes datos corresponden a las alturas en cm de 200 mujeres elegidas al azar de una determinada población en la que se está realizando un estudio de osteoporosis: 156 183 151 157 150 156 155 164 155 181 149 149 160 156 153 145 183 170 148 162 151 162 149 179 153 158 164 158 148 158 157 155 154 171 166 149 153 168 180 148 157 145 152 149 160 153 148 162 154 158 168 164 160 166 150 156 159 156 146 166 159 151 157 164 156 146 164 162 154 146 152 155 146 153 150 166 161 156 170 180 173 162 166 160 162 166 159 160 146 185 158 157 162 156 150 161 158 159 159 159 158 153 172 160 157 156 182 153 154 145 145 149 152 152 155 182 147 164 156 174 147 158 174 164 181 153 161 154 161 154 164 159 162 160 150 162 155 150 148 175 153 155 145 176 148 155 158 148 160 184 156 162 153 157 152 161 145 156 175 158 152 146 150 159 151 159 176 150 156 150 166 168 146 173 160 164 155 164 177 158 152 154 156 150 155 159 146 178 150 156 177 170 150 154 146 153 145 172 158 158 Se pide: a) Analizar su simetrı́a gráficamente y mediante un contraste de hipótesis. b) Analizar su normalidad gráficamente y mediante un contraste de hipótesis. c) Si falla alguna de los dos, o las dos, determinar una transformación de Box-Cox mediante la cual se consiga el supuesto o supuestos que falten. a) Primero analizaremos gráficamente la simetrı́a de los n = 200 datos del enunciado. El diagrama de hojas y ramas (CB-sección 14.2) de dichos datos es de la siguiente forma DEPTH STEM * * 0 14 * 31 E 73 15 Q + 55 M 72 16 Q LEAVES 5555555666666666778888888999999 000000000000111122222223333333333344444444 5555555555666666666666666777777788888888888889999999999 0000000001111122222222224444444444 D 164 Al f on so Ga rcı́ aP ére z. UN E 38 28 18 10 1 Cuadernos de Estadı́stica Aplicada: Área de la Salud * 17 E * 18 * * * DEPTH STEM * 6666666888 0001223344 55667789 001122334 5 LEAVES el cual muestra un cierta asimetrı́a a la derecha al descender más lentamente la rama de la derecha que la de la izquierda. No obstante, para este tipo de análisis, es más adecuado el gráfico de simetrı́a (CB-sección 14.3.1), el cual consiste en la representación del conjunto de puntos x(n−i+1) − x(i) , x(n−i+1) + x(i) 2 , i = 1, ..., n en donde x(1) , ..., x(n) son los n = 200 datos muestrales, ordenados de menor a mayor (en nuestro ejercicio, x(1) = 145, x(n) = 185), resultando una nube de puntos alrededor de una lı́nea recta horizontal (la y = Md ) en el caso de datos simétricos, correspondiendo a distribuciones asimétricas a la izquierda nubes de puntos alrededor de una recta con pendiente negativa, y resultando una nube de puntos alrededor de una recta con pendiente positiva en el caso de datos con asimetrı́a a la derecha. Para los datos del enunciado obtenemos el siguiente gráfico de simetrı́a --+------------------+------------------+------------------+-165+ *+ | * | | * | | * * | | * * | + * + | * | | * | | * * * | | * | + * + | * * | | | | * | | * * | + * * + |* * * * * * * | 156.5| * * * * | --+------------------+------------------+------------------+-0 40 A pesar de que las representaciones gráficas son muy agradables, es más objetivo utilizar el coeficiente de asimetrı́a de Fisher, definido en CB-sección 2.3.4 y, especialmente, en CB-sección 14.3, por D 165 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos g1 = n X i=1 (xi − x)3 /(nS 3 ) en donde x es la media muestral y S la cuasidesviación tı́pica muestral. Para los datos del ejercicio es x = 158′ 465 y S = 9′ 398, siendo g1 = n X i=1 (xi − x)3 /(nS 3 ) = 0′ 91 el cual, al ser positivo, confirma la asimetrı́a a la derecha de los datos. No obstante, desde el punto de vista de las inferencias basadas en datos procedentes de distribuciones simétricas, interesa saber si los datos son significativamente asimétricos, para lo que se plantea el contraste de la hipótesis nula H0 :los datos son simétricos, frente a la alternativa H1 :los datos no son simétricos, es decir, lo que interesa saber es si puede admitirse la simetrı́a de los datos, no estando habitualmente interesados en, supuesto que se rechace H0 , averiguar si puede admitirse que los datos son asimétricos a la derecha o a la izquierda. Como es sabido (CB-sección 14.3.2), se rechaza H0 cuando sea g 1 p ≥ zα/2 . 6/n Fijado como nivel de significación α = 0′ 05, es zα/2 = z0′ 025 = 1′ 96, por lo p que (para tamaños muestrales mayores de n = 50 datos) cocientes g1 / 6/n menores que 1′ 96 indican que puede admitirse la hipótesis de simetrı́a (al menos a nivel 0′ 05). En nuestro caso es g 1 p = 5′ 246 6/n lo que indica que no puede admitirse la simetrı́a de los datos. b) Del apartado anterior se desprende que tampoco puede admitirse su normalidad, ya que los tests que la analizan suponen que los datos son simétricos. Dicha normalidad se calculará, fundamentalmente, con el coeficiente de curtosis (CB-sección 14.4.3), k= n X i=1 (xi − x)4 /(nS 4 ) − 3 en donde, como antes, x es la media muestral y S la cuasidesviación tı́pica muestral. D 166 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud En distribuciones normales es k = 0, por lo que se contrastará la hipótesis nula de normalidad de los datos, analizando si dicho coeficiente de curtosis se aleja significativamente de cero, p para lo que deberemos tipificarlo, dividiéndolo por su desviación tı́pica, 24/n, pudiendo admitirse, para n ≥ 200, una p distribución normal para el estadı́stico k/ 24/n. Por tanto, rechazaremos la hipótesis nula H0 :los datos proceden de una normal, frente a la alternativa H1 :los datos no proceden de una normal, cuando y sólo cuando sea k p ≥ zα/2 . 24/n De nuevo, cuando dicho cociente sea menor que 1′ 96 puede admitirse la normalidad de unos datos simétricos (al menos para un nivel de significación α = 0′ 05). Obsérvese que hemos dicho que se puede admitir la normalidad de unos datos simétricos; es decir, debemos primero analizar la simetrı́a de los datos y luego, si éstos son simétricos, su normalidad (siempre con las precauciones habituales de la posible disminución del nivel de significación verdadero al utilizar los mismos datos en dos tests consecutivos). Por tanto, no es raro que se obtengan resultados extraños al utilizar este test en datos no normales. Ası́, para los datos de este ejercicio, el estadı́stico p de contraste tipificado toma el valor |k/ 24/n| = 1′ 013 < 1′ 96 , a pesar de que el diagrama de hojas y ramas anterior muestra una clara asimetrı́a y, por tanto, una falta de normalidad. El gráfico de normalidad (CB-sección 14.4.1), el cual es una representación del conjunto de puntos Φ −1 3i − 1 3n + 1 , x(i) , i = 1, ..., n siendo Φ−1 la inversa de la función de distribución de la N (0, 1), tiene la interpretación siguiente: Si los puntos aparecen aproximadamente sobre una recta de pendiente positiva, se puede admitir la normalidad de los datos. Para los datos de nuestro ejercicio, es --+------------------+------------------+------------------+-185+ * *+ | **** | | *** | | *** | | ** | + ** + | ** | | * | | *** | | ** | D 167 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos + *** + | ****** | | **** | | **** | | **** | + ***** + | *** | 145|* * ********** | --+------------------+------------------+------------------+--2.713604 2.713604 en el cual se observa una evidente falta de normalidad al tener una forma sinuosa y no rectilı́nea. c) Para conseguir simetrı́a y normalidad en un conjunto unimodal de datos, suele resultar útil transformarlos mediante las denominadas transformaciones Box-Cox (CB-sección 14.4.2), las cuales, a partir de los datos xi , obtienen los datos yi =  (xi + c)α − 1       α α 6= 0 , (x > −c) log(x + c) α = 0 , (c > 0) en donde α se determina a partir de los datos y c se elige para que sea xi + c > 0 , ∀ i = 1, ..., n. Puesto que aquı́ todos los xi son positivos, eliminamos la constante c y, de hecho, simplificamos la expresión hasta dejar la transformación de la forma yi = xαi . Si ası́ conseguimos simetrı́a y normalidad en los datos yi , no necesitamos complicar innecesariamente la transformación. Valores α > 1 comprimen la escala para los datos pequeños y la expanden para los grandes, por lo que resultan útiles en distribuciones asimétricas a la izquierda. Para las distribuciones asimétricas a la derecha, se eligen valores α < 1 que producen el efecto contrario, expandiendo los datos pequeños y comprimiendo los grandes. Por tanto, en nuestro ejercicio probaremos con varios α < 1 hasta conseguir que nuestros nuevos datos yi = xαi sean tales que los cocientes primero y g 1 p 6/n k p 24/n D 168 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud después, sean menores que 1′ 96. A esos datos yi resultantes ya se les podrá aplicar, por ejemplo, un test de hipótesis o cualquier otra prueba estadı́stica que requiera ambas suposiciones, o al menos una de ellas. Si tomamos α = −1, es g1 = −3′ 724 6/n p y (aunque no nos interesa, por no haberse conseguido simetrı́a con la transformación yi = x−1 i = 1/xi ) es k = −0′ 256. 24/n p Análogamente, si tomamos α = −2, es g1 = −2′ 975 6/n y p k = −0′ 741. 24/n p El camino es acertado porque vamos arreglando la simetrı́a, aunque debemos aumentar (en términos absolutos) el tamaño de la potencia α. Si tomamos α = −3, es g1 = −2′ 238 6/n y p k = −1′ 127. 24/n p Como todavı́a no es (en valor absoluto) menor que 1′ 96, seguimos, eligiendo ahora α = −4, en cuyo caso es g1 = −1′ 517 6/n p y k = −1′ 419 24/n p habiendo conseguido ası́, tanto la simetrı́a como la normalidad, al haber obtenido que los valores de ambos estadı́sticos sean (en valor absoluto) menores que 1′ 96. En principio, esa transformación yi = 1/x4i es suficiente para nuestros propósitos, no obstante, se obtiene una mejor transformación eligiendo α = −4′ 8, ya que, para esa transformación, es D 169 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos g1 = −0′ 953 6/n p y k = −1′ 443 24/n p consiguiendo ası́ una mayor seguridad en ambos tests. Por tanto, los datos que utilizarı́amos en nuestra ulterior inferencia estadı́stica serı́an los datos ′ yi = 1/x4i 8 siguientes: 1 1 ′ 8 , ... , 4 156 1764′ 8 es decir, los datos, 2′ 9717 · 10−11 , ... , 1′ 6655 · 10−11 . Como resulta muy desagradable la potencia 10−11 , se multiplican los datos anteriores por 1011 para obtener valores más manejables, resultando, en defi′ nitiva como transformación a emplear yi = 1011 /x4i 8 y como datos a utilizar en nuestras inferencias los siguientes: 2′ 9717 , ... , 1′ 6655 los cuales muestran un diagrama de hojas y ramas que cumple ambos requisitos de simetrı́a y normalidad, DEPTH 0 4 12 20 28 31 48 63 95 + 22 83 65 47 31 25 16 7 DEPTH STEM * * 1 * * * * E 2 * * Q * M 3 * Q * * E 4 * * * STEM * LEAVES 3333 44444455 66667777 88889999 000 22222223333333333 444444444455555 66666666677777777777777777777777 8888888999999999999999 000000000011111111 222222222223333333 4444555555555555 777777 888888899 000000000 2222222 LEAVES Advertimos que es conveniente, una vez determinada la transformación final y antes de utilizar nuestros datos transformados, volver a calcular los D 170 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud coeficientes de asimetrı́a y curtosis normalizados, puesto que este último puede alterarse al no ser invariante a determinadas transformaciones. Los valores de ambos coeficientes de los datos yi a utilizar 2′ 9717, ..., 1′ 6655 son iguales a g1 = −0′ 953 6/n y p k = −1′ 588 24/n p ambos (en valor absoluto) menores que 1′ 96, por lo que se cumplen ambos supuestos. Los gráficos de simetrı́a --+------------------+------------------+------------------+-2.962368+ * + | * | | * | | * * * | | | + * * + | * * * * | |* * | | * * * | | | + * * * + | * * * * | | * | | * * | | * | + * * + | * | 2.766045| * *| --+------------------+------------------+------------------+-0 2.910255 y normalidad, --+------------------+------------------+------------------+-4.221172+ ***** * *+ | ***** | | *** | | ** | | **** | + *** + | **** | | **** | | **** | | **** | + *** + D 171 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos | ** | | *** | | ** | | ** | + *** + | ***** | 1.310917|* * ** | --+------------------+------------------+------------------+--2.713604 2.713604 confirman estos cálculos. Obsérvese que, una vez realizada la inferencia en cuestión con los datos yi , es posible que se pueda realizar la transformación inversa xi = 1011 yi !1/4′ 8 en la correspondiente inferencia de los datos xi . Por ejemplo, si se pretendı́a construir un intervalo de confianza para las xi y se requerı́a normalidad (y, por tanto, simetrı́a) en nuestros datos, se determina el intervalo para los datos yi y, si resultó como intervalo de confianza, por ejemplo, el intervalo [1′ 62 , 2′ 10], es posible que se pueda aplicar la transformación inversa a los extremos del intervalo anterior, obteniendo que el intervalo de confianza buscado para las estaturas xi es el [167′ 688 , 177′ 003]. No obstante, esto requiere analizar cada inferencia particular porque, salvo en contadas excepciones, no se cumplen relaciones del tipo E[X α ] 6= E[X]α . Apuntamos por último, que como lo que se requiere es la simetrı́a y normalidad para, después de hacer las inferencias en cuestión, volver a los datos originales, es más conveniente, en general, elegir como valor de α un número entero, lo cual facilitará los cálculos. De nuevo hay que analizar cada caso en particular, porque pueden resultar intervalos de confianza distintos, al utilizar transformaciones distintas, pero puede que esto no sea ningún problema si ambos intervalos de confianza tienen el coeficiente de confianza requerido. Problema 5.19 Se quieren estimar las estaturas medias de dos poblaciones humanas independientes, determinando un intervalo de confianza, de coeficiente de confianza 0′ 95, para la diferencia de dichas estaturas medias. Para ello se eligieron al azar n = 4 individuos de la primera población, obteniéndose las estaturas X1 = 1′ 70, X2 = 2′ 00, X3 = 1′ 65 y X4 = 1′ 85, y m = 4 individuos de la segunda, obteniéndose las estaturas Y1 = 1′ 75, Y2 = 1′ 75, Y3 = 1′ 90 e Y4 = 1′ 80. a) Determinar dicho intervalo de confianza suponiendo que las estaturas X e Y de cada población siguen distribuciones normales de varianzas desconocidas pero iguales. D 172 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud b) Bajo las condiciones anteriores, ¿puede aceptarse la hipótesis nula de igualdad de las estaturas medias de ambas poblaciones, a nivel de significación α = 0′ 05? c) Utilizando el contraste de Wilcoxon-Mann-Whitney, contrastar a nivel α = 0′ 05 la hipótesis nula de igualdad de las estaturas medianas de ambas poblaciones. a) Se trata de determinar un intervalo de confianza para la diferencia de medias de dos poblaciones normales independientes de varianzas desconocidas pero iguales, siendo los tamaños muestrales pequeños (CB-sección 6.6)  I = x − y ∓ tn+m−2;α/2  = 1′ 8 − 1′ 8 ∓ 2′ 447 s s (n − 1)Sx2 + (m − 1)Sy2 n+m−2 3 · 0′ 025 + 3 · 0′ 005 6 = [−0′ 2119 , 0′ 2119]. r r  1 1 +  n m  1 1 + 4 4 al obtenerse, a partir de los datos del enunciado, que es x = y = 1′ 8, Sx2 = 0′ 025, Sy2 = 0′ 005 y, a partir de la tabla 5 de la t de Student, tn+m−2;α/2 = t4+4−2;0′ 05/2 = t6;0′ 025 = 2′ 447. b) La región de aceptación del test de hipótesis, de nivel α, para la hipótesis nula H0 : µX = µY frente a la alternativa H0 : µX 6= µY coincide (CB-sección 7.6) con el intervalo de confianza, de coeficiente de confianza 1−α, para la diferencia de medias poblacionales µX − µY . Por tanto, la región de aceptación del test considerado, para un nivel de significación 0′ 05, coincidirá con el intervalo de confianza determinado en el apartado anterior. La aceptación o rechazo de H0 dependerá de si el 0 pertenece o no a dicho intervalo. Como pertenece, se acepta la hipótesis nula de igualdad de las medias de ambas poblaciones. c) Si las poblaciones son simétricas, la media µ y la mediana M en cada una de ellas coincidirá, por lo que parece razonable utilizar un test no paramétrico como alternativa al contraste realizado en el apartado anterior. Ası́ pues, contrastaremos la hipótesis nula H0 : MX = MY frente a la alternativa H1 : MX 6= MY mediante el test de Wilcoxon-Mann-Whitney propuesto en el enunciado (CB-sección 13.4.1). El estadı́stico del test es U= 4 X 4 X Dij i=1 j=1 es decir, el número de Yj que preceden a cada Xi . Las ocho observaciones ordenadas forman la secuencia D 173 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 1′ 65 , 1′ 70 , 1′ 75 , 1′ 75 , 1′ 80 , 1′ 85 , 1′ 90 , 2′ 00 en la que aparecen subrayadas las observaciones Yj de la segunda muestra. Por tanto, el número de Yj que preceden a cada Xi será U = 0+0+3+4 = 7 ya que a 1′ 65 (primer Xi ) no le precede ningún Yj , apareciendo el primer 0 de la suma anterior, a 1′ 70 tampoco le precede ningún Yj (segundo cero de U ), a 1′ 85 le preceden tres Yj (los subrayados 1′ 75, 1′ 75 y 1′ 80) lo que suministra el 3 del tercer sumando de U , precediendo al 2′ 00 los cuatro Yj de la muestra. U puede tomar valores entre 0 y m · n = 4 · 4 = 16. Fijado el nivel de significación α = 0′ 05, para n = m = 4, la tabla 16 de Wilcoxon-Mann-Whitney proporciona el punto crı́tico u4,4;α/2 = u4,4;0′ 025 = 16 siendo, por tanto, la región crı́tica del test igual a C = {U ≤ n · m − um,n;α/2 } ∪ {U ≥ um,n;α/2 } = {U ≤ 0} ∪ {U ≥ 16} = {0} ∪ {16}. El valor de U obtenido (U = 7) no permite rechazar la hipótesis nula. El cálculo del p-valor se hará de nuevo por separado según los textos de teorı́a que utilice el lector. Como el valor central, respecto del cual la distribución de U es simétrica es m · n/2 = 4 · 4/2 = 8 y U ha tomado el valor 7, se llega antes a dicho valor subiendo el lı́mite izquierdo de la región crı́tica, 0, que bajando el lı́mite superior de la misma, 16. Ası́ pues, el p-valor será, 2 × P {U4,4 ≤ 7}. (En la probabilidad anterior se ha puesto U4,4 ≤ 7 porque si la región crı́tica quedase U4,4 ≤ 6 no se rechazarı́a, al ser U = 7 6≤ 6, y si la región crı́tica fuese U4,4 ≤ 8 no proporcionarı́a el 8 la mı́nima región crı́tica para la que se rechaza H0 . El 2 viene de que, una vez que se determina la mı́nima región crı́tica para cual se rechaza H0 , al ser el contraste de dos colas, el mı́nimo nivel para el que se rechaza es la probabilidad calculada, multiplicada por 2). Al ser la distribución de U simétrica respecto a su centro de simetrı́a U = 8, la probabilidad a calcular será 2 × P {U4,4 ≤ 7} = 2 × P {U4,4 ≥ 7}, ya que la tabla 16 sólo me da probabilidades cola de la derecha. De dicha tabla se obtiene que es 13 el mı́nimo valor de U4,4 para el que se tiene la acotación P {U4,4 ≥ 13} ≤ 0′ 1, por lo que será P {U4,4 ≥ 12} > 0′ 1. Además, por las propiedades de la probabilidad, a medida que nos desplacemos hacia la izquierda en el valor de U (lo reduzcamos), la probabilidad que deja a su D 174 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud derecha U será mayor, por lo que será P {U4,4 ≥ 7} > P {U4,4 ≥ 12}. El p-valor será, en definitiva, 2 × P {U4,4 ≤ 7} = 2 × P {U4,4 ≥ 7} > 2 × P {U4,4 ≥ 12} > 2 · 0′ 1 = 0′ 2 suficientemente grande como para confirmar la decisión tomada. Problema 5.20 Por razones aún desconocidas, el porcentaje, p, de esquizofrénicos en todos los paı́ses es, de forma invariable, del 1 %. Determinar el tamaño de muestra necesario para que el porcentaje de esa muestra difiera en términos absolutos de p en menos de 0′ 003 con probabilidad 0′ 9, suponiendo que dicho tamaño muestral va a resultar grande. Nos piden el tamaño de muestra necesario (Véase el ejemplo 5.8 de CB, pág. 105, y la pág. 115) para que se verifique la igualdad P {|p̂ − p| < 0′ 003} = 0′ 9 [5.1] suponiendo que es p̂ ≈ N p , q p(1 − p)/n ≡ N 0′ 01 , q 0′ 01 · 0′ 99/n al ser el tamaño muestral suficientemente grande. Tipificando en [5.1] se obtiene que es √ n ′ } = 0′ 9. P {|Z| < 0 003 p p(1 − p) con Z ; N (0, 1). Como por otro lado es P {|Z| < 1′ 645} = 0′ 9 será ′ 0 003 p √ n = 1′ 645 p(1 − p) obteniéndose de ahı́ el valor n = 2976′ 6; es decir, son necesarios n = 2977 individuos para alcanzar la precisión deseada. Problema 5.21 Elegidas al azar 10 personas de una determinada población se anotó, para cada una de las 10 personas, su peso en kgr. y su talla en cm. obteniéndose los siguientes resultados: D 175 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Peso 67 98 77 89 95 55 80 70 58 78 Talla 170 200 167 190 180 170 190 185 171 180 Suponiendo que ambas variables observadas siguen distribuciones normales no independientes N (µ1 , σ1 ) y N (µ2 , σ2 ) respectivamente, determinar un intervalo de confianza, de coeficiente de confianza 0′ 95, para la diferencia de medias µ2 − µ1 . Al no ser las variables X1 =Peso y X2 =Talla independientes por realizarse las observaciones sobre los mismos individuos (ya nos lo dice el enunciado del problema), debemos de considerar un esquema de datos apareados definiendo la variable diferencia D = X2 − X1 , convirtiéndose el objetivo de la determinación del intervalo de confianza para µ2 − µ1 en el de la determinación del intervalo de confianza para la media, µd , de la variable D, en la situación que nos movemos de ser D una variable normal de varianza desconocida (CB-sección 6.2), el cual es d − tn−1;α/2 S S √d , d + tn−1;α/2 √d . n n De los datos del enunciado obtenemos que es d = 103′ 6 la media de las n = 10 diferencias X2 − X1 y Sd = 10′ 178 la cuasidesviación tı́pica de tales diferencias. Como el coeficiente de confianza requerido es 1 − α = 0′ 95, a partir de la tabla 5 de la distribución t de Student obtenemos que es tn−1;α/2 = t9;0′ 025 = 2′ 262 siendo, por tanto, el intervalo de confianza buscado igual a h d − tn−1;α/2 = Sd √ n h , d + tn−1;α/2 Sd √ n ′ i ′ 178 103′ 6 − 2′ 262 10√178 , 103′ 6 + 2′ 262 10√10 10 i = [96′ 32 , 110′ 88]. Problema 5.22 Muchas teorı́as sobre la esquizofrenia sugieren alteraciones en la actividad de una sustancia del sistema nervioso central denominada dopamina. Con objeto de analizar esta hipótesis se trató a 10 pacientes esquizofrénicos hospitalizados, con una medicación antipsicótica y se les clasificó, después del tratamiento, en dos grupos: el de psicóticos (es decir, el de los que seguı́an padeciendo la enfermedad después del tratamiento) y el de no psicóticos. Se les extrajo una muestra de fluido cerebro-espinal a cada paciente y se anotó la actividad de la enzima dopamina bhidroxilasa (DBH) obteniéndose los siguientes datos en donde las unidades vienen expresadas en nmol/(ml)(h)/(mg) de proteı́na: No psicóticos Psicóticos 0′ 0105 0′ 0222 0′ 0145 0′ 0245 0′ 0160 0′ 0320 0′ 0130 0′ 0150 0′ 0156 0′ 0104 D 176 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Suponiendo que los datos anteriores proceden de dos distribuciones normales independientes, una para cada uno de los dos grupos de pacientes, ¿difiere la actividad DBH entre estos dos grupos, a nivel α = 0′ 05? Si llamamos X1 a la variable aleatoria actividad DBH de los individuos del primer grupo —no psicóticos— y X2 a la actividad DBH de los individuos del segundo grupo —psicóticos—, el enunciado del problema nos indica que podemos suponer X1 ; N (µ1 , σ1 ) y X2 ; N (µ2 , σ2 ), siendo el objetivo que se persigue el contrastar H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 . En esta situación, de contraste para la diferencia de medias de dos poblaciones normales independientes y muestras pequeñas (CB-sección 7.6), al ser las varianzas σ12 y σ22 desconocidas, es necesario primero poder concluir si éstas pueden suponerse iguales o no. Para ello contrastaremos primero, a nivel α = 0′ 05 como nos dice el enunciado, la hipótesis nula H0 : σ12 = σ22 frente a H1 : σ12 6= σ22 (CB-sección 7.5), hipótesis nula que se acepta cuando y sólo cuando sea i S12 h ∈ F , F n1 −1,n2 −1;1−α/2 n1 −1,n2 −1;α/2 . S22 A partir de nuestros datos obtenemos que es x1 = 0′ 0133 x2 = 0′ 0234 S12 = 0′ 0000061 S22 = 0′ 0000491 n1 = 6 n2 = 4 Como es Fn1 −1,n2 −1;1−α/2 = F5,3;0′ 975 = 1 F3,5;0′ 025 = 1 7′ 7636 = 0′ 1288 utilizando las propiedades de la distribución F de Snedecor, la tabla 6 de esta distribución, y además Fn1 −1,n2 −1;α/2 = F5,3;0′ 025 = 14′ 885 la región de aceptación será el intervalo [0′ 1288 , 14′ 885]. Al ser el estadı́stico de contraste igual a S12 0′ 0000061 = ′ = 0′ 1242 6∈ [0′ 1288 , 14′ 885] 2 S2 0 0000491 no aceptaremos la hipótesis nula, concluyendo con que es razonable admitir como distintas las varianzas de las poblaciones normales. Supuestas distintas las varianzas poblaciones, la hipótesis nula de igualdad de la actividad DBH en los dos grupos, H0 : µ1 = µ2 se aceptará cuando y sólo cuando sea D 177 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos |x1 − x2 | s S12 S22 + n1 n2 ≤ tf ;α/2 en donde los grados de libertad f de la t de Student se determinan mediante la aproximación de Welch, siendo éste el entero más próximo a S12 S22 + n1 n2 !2 0′ 0000061 0′ 0000491 2 + 6 4 !2 !2 − 2 = ′ 2 ′ 2 − 2 2 2 0 0000061 0 0000491 S1 S2 6 4 n1 n2 + + 7 5 n1 + 1 n2 + 1 61 491 2 + 6 4 ′ ′ = 2 − 2 = 5 83 − 2 = 3 83 61 491 2 6 4 + 7 5 con lo que tomaremos f = 4, siendo, por la tabla 5 de la t de Student, el punto crı́tico igual a tf ;α/2 = t4;0′ 025 = 2′ 776. Como el estadı́stico es igual a |x1 − x2 | s S12 S22 + n1 n2 =s |0′ 0133 − 0′ 0234| 0′ 0000061 6 + 0′ 0000491 = 2′ 770 < 2′ 776 = tf ;α/2 4 se aceptará (con muchas reservas) la hipótesis nula de igualdad (en promedio) de la actividad DBH en los dos grupos, no pudiendo confirmar, con estos datos, las teorı́as a las que se hizo referencia en el enunciado del problema. Problema 5.23 Se quiere investigar si existen o no diferencias significativas entre los consumidores habituales de carne roja y los consumidores habituales de frutas y verduras, respecto a padecer o no cáncer de estómago, contrastando la hipótesis nula de igualdad de los porcentajes de individuos que padecen o han padecido la mencionada enfermedad en ambos colectivos. Para ello se eligieron al azar 1000 consumidores habituales de carne roja y se les preguntó si padecı́an o habı́an padecido la mencionada enfermedad, obteniéndose una respuesta afirmativa de 11 de ellos. Una muestra aleatoria de 1000 consumidores habituales de frutas y verduras, obtenida independientemente de la anterior, suministró 6 personas que tenı́an o habı́an tenido la enfermedad en cuestión. D 178 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud A la vista de los resultados observados, ¿puede inferirse que existen diferencias significativas entre ambos grupos de personas? Suponiendo una variable de Bernoulli B(1, p1 ) para la primera población de consumidores habituales de carne roja, y una variable de Bernoulli B(1, p2 ) para los consumidores habituales de frutas y verduras, se trata de contrastar las hipótesis H0 : p1 = p2 frente a H1 : p1 6= p2 . (Véase CB-sección 7.7 ası́ como PREB-problema 5.10.) La hipótesis nula se rechaza cuando y sólo cuando sea s |pc1 − pc2 | p(1 − p) p(1 − p) + n1 n2 > zα/2 No obstante, en lugar de fijar un nivel de significación y luego analizar si se da o no la desigualdad anterior, es mejor determinar el p-valor del test. De los datos del enunciado obtenemos que es n1 = n2 = 1000, pc1 = 11/1000 = 0′ 011, pc2 = 6/1000 = 0′ 006 y p = (11 + 6)/2000 = 0′ 0085, con lo que será s |pc1 − pc2 | p(1 − p) p(1 − p) + n1 n2 =s 0′ 0085 |0′ 011 − 0′ 006| · 0′ 9915 1000 + 0′ 0085 · 0′ 9915 = 1′ 2177 ≈ 1′ 22 1000 con lo que el p-valor del test será (si Z es una variable con distribución normal estándar) 2 · P {Z > 1′ 22} = 2 · 0′ 1112 = 0′ 2224 a partir de la tabla 3 de la distribución normal, valor suficientemente grande como para aceptar la hipótesis nula de igualdad de los porcentajes de ambas poblaciones, pudiendo concluir, con gran seguridad, que no existen diferencias significativas entre ambos colectivos. Problema 5.24 Se quiere averiguar si el porcentaje de fallecidos entre los enfermos de una determinada enfermedad asiática es significativamente mayor del 10 %. Para ello se seleccionaron al azar 200 pacientes de dicha enfermedad, obteniéndose un porcentaje observado de fallecimiento del 11′ 5 %. ¿Qué conclusiones obtendrı́a? Calcular el p-valor. D 179 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Estamos ante un caso de contraste de hipótesis sobre el parámetro p de una binomial, siendo el tamaño muestral n = 200 suficientemente grande (CBsección 7.3). Al estar interesados en saber si puede aceptarse la hipótesis p > 0′ 1, ésta se pone como hipótesis alternativa, estableciéndose como hipótesis nula la complementaria. Por tanto, contrastaremos la hipótesis nula H0 : p ≤ 0′ 1 frente a la alternativa H1 : p > 0′ 1. En estas condiciones se rechaza la hipótesis nula cuando y sólo cuando sea s p̂ − p0 p0 (1 − p0 ) n > zα Como también nos piden el p-valor, en lugar de fijar un nivel de significación α, determinar zα y comprobar si se cumple o no la desigualdad anterior, el cálculo de aquel nos permitirá decidir sobre las dos hipótesis a contrastar. Al ser s 0′ 115 − 0′ 1 = s = 0′ 7071 ′ ′ p0 (1 − p0 ) 01·09 n 200 p̂ − p0 el p-valor será, a partir de la tabla 3 de la N (0, 1), P {Z > 0′ 7071} ≈ P {Z > 0′ 71} = 0′ 2389 valor suficientemente grande (mayor que 0′ 2) como para aceptar la hipótesis nula y concluir que el porcentaje de fallecimiento no es significativamente mayor del 10 %. Problema 5.25 Se admite que el porcentaje de diferencias genéticas entre dos personas de distintas familias es mayor del 1 %. Si dicha diferencia es menor o igual se admite que ambas personas tiene antepasados comunes. Examinadas 200 muestras elegidas al azar en dos individuos se obtuvo una diferencia genética muestral del 1′ 05 %. ¿Cabe considerar esta diferencia como significativa, o puede concluirse que ambas personas son de la misma familia? Se trata de un contraste de H0 : p ≤ p0 frente a H1 : p > p0 , en poblaciones binomiales con tamaños muestrales grandes, en donde se rechaza la hipótesis nula cuando sea (véase, por ejemplo CB-pág. 155) s p̂ − p0 p0 (1 − p0 ) n > zα D 180 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud En nuestro caso es p0 = 0′ 01, p̂ = 0′ 0105 y n = 200, con lo que será s p̂ − p0 p0 (1 − p0 ) n = 0′ 07 Como el p-valor del test es (ADD-pág. 33) P {Z > 0′ 07} = 0′ 4721 suficientemente grande, se puede aceptar la hipótesis nula de que no existen diferencias significativas entre ambos individuos, considerándose, por tanto, de la misma familia. Problema 5.26 Se quiere averiguar si puede admitirse una distribución exponencial de densidad fθ (x) = θ e−θx para el tiempo en dı́as que tardan en fallecer los individuos con una enfermedad asiática desconocida. Para ello se observaron 100 tiempos de individuos que habı́an fallecido de la enfermedad en estudio obteniéndose los siguientes valores Intervalos de tiempo Número de fallecidos (0,3) 48 [3,6) 29 [6,9) 16 [9,12) 4 ≥ 12 3 con los que se obtuvo una media muestral x = 4. ¿Qué conclusiones obtendrı́a? Estamos ante un caso de contraste de bondad del ajuste de unos datos a una distribución teórica (véase CB-sección 12.2). Como nos dicen que de la muestra se ha obtenido una media muestral igual a x = 4 y el estimador de máxima verosimilitud de θ es θb = 1/x, contrastaremos si puede aceptarse la hipótesis nula de proceder los datos de una distribución Exp(0′ 25). Para ello deberemos determinar las probabilidades que ese modelo teórico asigna a cada uno de los cinco intervalos en los que aparecen divididos los datos. La función de distribución a utilizar será, si es x > 0 y θ = 0′ 25, Fθ (x) = Z 0 x ′ θ e−θy dy = 1 − e−0 25x con lo que, prescindiendo de los lı́mites de los intervalos, al ser la distribución exponencial de tipo continuo, será ′ P {0 < X < 3} = F (3) − F (0) = 1 − e−0 25·3 − 0 = 0′ 5276 D 181 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos ′ P {3 < X < 6} = F (6)−F (3) = 1−e−0 25·6 −0′ 5276 = 0′ 7769−0′ 5276 = 0′ 2493 ′ P {6 < X < 9} = F (9)−F (6) = 1−e−0 25·9 −0′ 7769 = 0′ 8946−0′ 7769 = 0′ 1177 ′ P {9 < X < 12} = F (12)−F (9) = 1−e−0 25·12 −0′ 8946 = 0′ 9502−0′ 8946 = 0′ 0556 P {X > 12} = 1 − F (12) = 1 − 0′ 9502 = 0′ 0498 con lo que obtenemos la tabla de frecuencias observadas y esperadas Intervalos (0, 3) [3, 6) [6, 9) [9, 12) ≥ 12 ni 48 29 16 4 3 100 pi ′ 0 5276 0′ 2493 0′ 1177 0′ 0556 0′ 0498 1 npi 52′ 76 24′ 93 11′ 77 5′ 56 4′ 98 100 n2i /(npi ) 43′ 67 33′ 73 21′ 75 2′ 88 1′ 81 103′ 84 Como se obtiene una frecuencia esperada para la última clase menor que 5 se puede considerar el agrupar las dos últimas clases. No obstante, dado que está muy próximo a 5, no lo haremos ya que además las conclusiones que sacaremos están muy claras. El valor del estadı́stico de Pearson es λ= X i n2i npi ! − n = 103′ 84 − 100 = 3′ 84. Como hemos estimado el parámetro θ a partir de la muestra, reduciremos en un grado más la distribución χ2 . Como estamos considerando 5 clases, quedará como distribución para λ (antes de tomar los datos lógicamente) una χ25−1−1 = χ23 . Al estar el p-valor del test P {χ23 > 3′ 84} acotado por (ADD, pág. 34) 0′ 1 3′ 84} < 0′ 3 y ser muy próximo a 0′ 3, se puede aceptar con gran seguridad que los datos proceden de la distribución exponencial Exp(0′ 25). D 182 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Problema 5.27 Los siguientes datos proceden de un ensayo clı́nico llevado a cabo por Ezdinli y otros (1976) para comparar dos tratamientos en el linfoma de linfocitos. Un tratamiento, denominado CP, consistı́a en cytoxan + prednisone, y otro tratamiento, denominado BP, estaba compuesto por carmustina (BCNU) + prednisone. La variable observada fue la respuesta del tumor en cada paciente, medida en una escala cualitativa desde “Respuesta Completa” (lo mejor que puede ocurrir) a “Progresa” (lo peor que puede ocurrir). Los datos obtenidos fueron los dados en la siguiente tabla: BP CP Respuesta Completa 26 31 Respuesta Parcial 51 59 Sin Cambios 21 11 Progresa 40 34 ¿Difieren los tratamientos en su eficacia? Como los datos aportados son recuentos de observaciones clasificados por clases, comparar ambas poblaciones debe hacerse mediante un test de la χ2 de homogeneidad de varias muestras (CB-sección 12.3), en donde la hipótesis nula que se establece es que ambos tratamientos pueden considerase homogéneos. Esta hipótesis nula se rechazará cuando y sólo cuando sea λ ≥ χ2(r−1)(s−1);α siendo λ= r X s X (nij − ni mj /n)2 i=1 j=1 ni mj /n el estadı́stico de Pearson. En nuestro caso, toma el valor λ = 4′ 5995. De la Tabla 4 de la χ2 de Pearson vemos que el p-valor es P {χ2(r−1)(s−1) > 3′ 9978} = P {χ23 > 4′ 5995} > 0′ 1 suficientemente grande como para aceptar la hipótesis nula de homogeneidad con bastante seguridad. Si queremos resolverlo con R (EAR-sección 7.3), ejecutarı́amos la siguiente secuencia de instrucciones. Con (1) incluimos los datos, que tienen que venir en forma de matriz. Recordemos que, por defecto, los incorpora por columnas. Las sentencias (2) y (3) son opcionales y sirven para poner nombre a las filas y a las columnas de la tabla. Con (4) comprobamos que hemos incorporado bien los datos a R. Ejecutando (5) es como le pedimos que haga el test χ2 . > linfoma<-matrix(c(26,31,51,59,21,11,40,34),ncol=4) > colnames(linfoma)<-c("R. Completa","R. Parcial","Sin Cambios","Progresa") (1) (2) D 183 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos > rownames(linfoma)<-c("BP","CP") > linfoma R. Completa R. Parcial Sin Cambios Progresa BP 26 51 21 40 CP 31 59 11 34 (3) (4) > chisq.test(linfoma) (5) Pearson’s Chi-squared test data: linfoma X-squared = 4.5995, df = 3, p-value = 0.2036 (6) En (6) vemos el valor del estadı́stico de Pearson, λ = 4′ 5995 y el pvalor del test, 0′ 2036, suficientemente grande como para concluir que puede aceptarse la hipótesis nula de homogeneidad de ambas poblaciones. Es decir, puede concluirse que no existen diferencias entre ambos tratamientos. Problema 5.28 Los datos de la siguiente tabla son niveles de colesterol (en mg/100ml) de hombres de más de 90 kilos de peso, elegidos al azar y clasificados en dos grupos: Grupo I, formado por personas muy pendientes del reloj, que pasan muchas horas conduciendo vehı́culos, y Grupo II, compuesto por individuos más relajados y menos competitivos. Grupo I Grupo II 233 344 295 186 310 260 249 245 245 222 199 210 270 188 220 240 240 145 240 165 Comparar ambas poblaciones mediante, a) El test de la t de Student. b) El test de Wilcoxon-Mann-Whitney. c) Analizar las suposiciones necesarias para poder aplicar uno u otro test. Se trata de realizar dos tests de comparación de dos poblaciones, el primero paramétrico y el segundo no paramétrico. En el tercer apartado analizaremos las condiciones en las que se realiza uno y otro y, en consecuencia, su validez. a) A partir del enunciado se obtiene que es x1 = 250′ 1 , S12 = 1115′ 656 , x2 = 220′ 5 , S22 = 3214′ 722 . Estamos ante una situación del contraste de la media de dos poblaciones normales independientes, muestras pequeñas, con varianzas desconocidas, (CB-sección 7.6), por lo que debemos valorar primero si las varianzas, aunque desconocidas, pueden considerarse iguales o no. Para ello contrastaremos la hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo cuando sea, D 184 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud S12 ∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ]. S22 Como es S12 /S22 = 0′ 347, si consideramos un nivel de significación α = 0′ 1, será, a partir de la Tabla 6 de la F de Snedecor, F9,9;1−0′ 05 = 1/F9,9;0′ 05 = 1/3′ 1789 = 0′ 3146 , con lo que la región de aceptación, a nivel α = 0′ 1, es [0′ 3136 , 3′ 1789] , contendrá al valor del estadı́stico y se aceptará la hipótesis nula de ser iguales ambas varianzas poblacionales, a ese nivel suficientemente alto. Si queremos resolver este apartado con R, con las siguientes sentencias obtenemos las medias y cuasivarianzas muestrales, ası́ como el valor del estadı́stico del contraste S12 /S22 , > x1<-c(233,295,310,249,245,199,270,220,240,240) > x2<-c(344,186,260,245,222,210,188,240,145,165) > mean(x1) [1] 250.1 > mean(x2) [1] 220.5 > var(x1) [1] 1115.656 > var(x2) [1] 3214.722 > var(x1)/var(x2) [1] 0.3470457 De hecho, con R podemos obtener el p-valor ejecutando (1) > 2*pf(0.347,9,9) [1] 0.1307151 (1) Este p-valor 0′ 1307 es lo suficientemente alto como para confirmar la aceptación de la igualdad de las varianzas poblacionales. Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar (2), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de aceptación, " S12 /S22 Fn1 −1,n2 −1; α2 , S12 /S22 Fn1 −1,n2 −1;1− α2 # 0′ 347 0′ 347 = ′ , ′ = [0′ 109 , 1′ 103] 3 1789 0 3146 cociente contiene o no al 1. La región de aceptación se observa en (3) y el p-valor de este test, igual lógicamente al anterior, aparece en (4). > var.test(x1,x2,conf.level=0.9) F test to compare two variances (2) D 185 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos data: x1 and x2 F = 0.347, num df = 9, denom df = 9, p-value = 0.1308 alternative hypothesis: true ratio of variances is not equal to 1 90 percent confidence interval: 0.1091719 1.1032212 sample estimates: ratio of variances 0.3470457 (4) (3) Apuntamos que, intercambiando los papeles de ambas poblaciones (que es lo que nos dice la ortodoxia, CB-sección 7.5), hubiéramos obtenido las mismas conclusiones. Por tanto, el test para contrastar la igualdad de las medias poblacionales; es decir, para contrastar la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 será el que acepte H0 cuando y sólo cuando sea s (n1 − Como es r |x1 − x2 | |x1 − x2 | 1)S12 + (n2 − 1)S22 n1 + n2 − 2 (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 r 1 1 + n1 n2 = r s 1 1 + n1 n2 ≤ tn1 +n2 −2;α/2 |250′ 1 − 220′ 5| 9 · 1115′ 656 + 9 · 3214′ 722 18 r = 1′ 4224 1 1 + 10 10 y, a partir de la Tabla 5 de la t de Student, vemos que es 0′ 05 1′ 4224} < 0′ 1, podemos aceptar la hipótesis nula de igualdad en los niveles de colesterol de ambas poblaciones, con un p-valor entre 0′ 1 y 0′ 2, es decir, con suficiente confianza. Este test de igualdad de medias se puede resolver con R ejecutando (5) (véase EAR-sección 4.2.4), en donde indicamos que consideramos las varianzas poblacionales como iguales. Como el 0 está incluido en la región de aceptación dada en (6), aceptamos la hipótesis nula de igualdad de los niveles medios de ambas poblaciones. El p-valor 0′ 172 aparece en (7) (está entre 0′ 1 y 0′ 2 como habı́amos dicho) e indica la aceptación de H0 . > t.test(x1,x2,var.equal=T) (5) Two Sample t-test data: x1 and x2 t = 1.4224, df = 18, p-value = 0.172 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -14.11926 73.31926 (7) (6) D 186 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud sample estimates: mean of x mean of y 250.1 220.5 b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2 y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0 cuando y sólo cuando sea m · n − um,n;α/2 < U < um,n;α/2 siendo U el número de valores de la segunda muestra que preceden estrictamente a cada valor fijo de la primera muestra. Si subrayamos los valores de la segunda muestra en la siguiente unión de ambas muestras ordenadas, en donde los de la segunda muestra que son iguales a los de la primera los hemos situado detrás para hacer más simple el recuento, 145, 165, 186, 188, 199, 210, 220, 222, 233, 240 240, 240, 245, 245, 249, 260, 270, 295, 310, 344. Ahora, para calcular el valor de U nos fijamos en cada valor de la primera muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la segunda muestra (es decir, cuántos valores subrayados) le preceden. Es decir, miramos el 199 (primer valor no subrayado) y vemos que hay 4 valores subrayados que lo preceden, por lo que el primer sumando de U es 4. El segundo valor no subrayado es 220, al que le preceden 5 valores subrayados, lo que hace que el segundo valor de U sea 5, y ası́ sucesivamente; vemos que U toma el valor, U = 4 + 5 + 6 + 6 + 6 + 7 + 8 + 9 + 9 + 9 = 69. En la determinación del punto crı́tico y el p-valor utilizaremos la aproximación normal ya que los tamaños muestrales son mayores que 5. En concreto, si el nivel de significación es α = 0′ 1, será um,n;α/2 = u10,10;0′ 05 10 · 10 = + 1′ 645 2 s 10 · 10 · (10 + 10 + 1) = 71′ 76 12 y la región de aceptación, (m · n − um,n;α/2 , um,n;α/2 ) = (10 · 10 − 71′ 76 , 71′ 76) = (28′ 24 , 71′ 76). D 187 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Como U = 69 pertenece a ella, deberemos aceptar la hipótesis nula de igualdad de ambas poblaciones, con un p-valor mayor que el nivel de significación 0′ 1. En concreto, el p-valor (aproximado por utilizar la aproximación normal) será, utilizando la cola superior, al ser el p-valor el menor nivel de significación para el que se rechaza la hipótesis nula, 2 × P {U > 69} ≈ 2 × P ( 69 − 10 · 10/2 Z> p 10 · 10(10 + 10 + 1)/12 ) = 2 × P {Z > 1′ 47} = 0′ 1416 que indica aceptar con confianza la hipótesis nula de igualdad. Para resolver este ejercicio con R, deberı́amos ejecutar (8) (EAR-sección 8.4.1) si queremos utilizar las mismas opciones que las que acabamos de emplear. Los resultados son un poco distintos porque R promedia entre los valores iguales en el cálculo de U . No obstante, el p-valor también es indicativo de la aceptación de la hipótesis nula de igualdad de ambas poblaciones. > wilcox.test(x1,x2,exact=F,correct=F) (8) Wilcoxon rank sum test data: x1 and x2 W = 70.5, p-value = 0.1205 alternative hypothesis: true location shift is not equal to 0 c) Para utilizar tanto el test de t de Student como el de Wilcoxon-MannWhitney hay que admitir que ambas muestras son aleatorias simples y que son independientes la una de la otra. Eso es razonable y lo admitiremos. La segunda condición es que los datos procedan de distribuciones de tipo continuo. También esto es admisible puesto que los niveles de colesterol pueden ser cualesquiera en un intervalo. La última condición, habitualmente la más restrictiva para el test de la t de Student es que los datos deben proceder de poblaciones normales. Como son pocos datos no parece razonable utilizar un test de Kolmogorov-Smirnov para analizarlo, sino métodos gráficos. Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase EAR-sección 5.2.1) > par(mfrow=c(1,2)) > qqnorm(x1) > qqnorm(x2) obtenemos la Figura 5.1. Si queremos obtener dos diagramas de hojas y ramas ejecutarı́amos los siguientes comandos > stem(x1) D 188 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Normal Q−Q Plot 300 250 200 150 Sample Quantiles 260 240 200 220 Sample Quantiles 280 300 350 Normal Q−Q Plot −1.5 −0.5 0.5 1.0 1.5 Theoretical Quantiles −1.5 −0.5 0.5 1.0 1.5 Theoretical Quantiles Figura 5.1 Gráficos de normalidad de ambas muestras The decimal point is 2 digit(s) to the right of the | 1 2 2 3 | | 02344 | 557 | 01 > stem(x2) The decimal point is 2 digit(s) to the right of the | 1 1 2 2 3 | | | | | 5799 124 56 4 Ambos tipos de gráficos sugieren asimetrı́a y, por tanto, no normalidad de los datos. Lo razonable serı́a utilizar el segundo test no paramétrico puesto que no requiere su normalidad. Pero observemos que si queremos que nos haga un diagrama de cajas de ambos conjuntos de datos para detectar datos anómalos, la homocedasticidad contrastada al comienzo del ejercicio y la asimetrı́a, ejecutarı́amos la siguiente D 189 Al f on so Ga rcı́ aP ére z. UN E 150 200 250 300 350 Capı́tulo 5. Problemas Básicos Resueltos 1 2 Figura 5.2 Gráficos de cajas de ambas muestras secuencia, en donde primero juntamos ambos conjuntos de datos y luego creamos unos ı́ndices para hacer la representación por grupos. Obsérvese como no replicamos el 1 diez veces sino que ejecutamos rep(1,10). > muestra<-c(x1,x2) > poblaciones<-c(rep(1,10),rep(2,10)) > boxplot(muestra~poblaciones) La Figura 5.2 ası́ obtenida, confirma la homocedasticidad ya que ambas cajas son semejantes y la simetrı́a, pero vemos como en el segundo conjunto de datos aparece un dato anómalo que puede distorsionar el resultado lo que sugiere utilizar tests robustos de comparación de poblaciones puesto que los Métodos no paramétricos pueden verse muy afectados al no detectar esas anomalı́as. Problema 5.29 La warfarina es un medicamento anticoagulante oral que alarga el tiempo que la sangre tarda en coagular evitando, de forma preventiva, que se produzcan trombosis y embolias. No obstante, demasiada warfarina puede causar hemorragias graves, por lo que esta sustancia tiene un estrecho margen terapéutico y la calibración de la dosis a administrar es un problema importante. D 190 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Además, se piensa que la pertenencia a uno u otro grupo étnico influye en el tiempo de coagulación de este medicamento. Para analizar esta hipótesis se eligieron al azar 18 individuos Caucásicos y 18 Asio-Americanos en los que se obtuvieron los siguientes tiempos (en horas) de calibración de la dosis de warfarina: Caucásicos: 2 , 4 , 6 , 7 , 8 , 9 , 10 , 10 , 12 , 14 , 16 , 19 , 21 , 24 , 26 , 30 , 35 , 44 Asio-Americanos: 2 , 2 , 3 , 3 , 4 , 5 , 5 , 6 , 6 , 6 , 7 , 7 , 8 , 9 , 10 , 12 , 19 , 32 Analizar si hay diferencias significativas entre los dos grupos étnicos en cuanto al tiempo de calibración, mediante a) El test de la t de Student analizando la suposición de normalidad y de homocedasticidad. b) El test de Wilcoxon-Mann-Whitney. a) Para ejecutar el test de la t de Student de comparación de dos poblaciones necesitamos que ambas sean de tipo normal y luego comprobar si puede aceptarse o no que las varianzas de ambas poblaciones puedan considerarse iguales (CB-sección 7.6). No obstante, al ser n1 ≃ n2 y n1 + n2 = 36 > 30, no necesitamos estos requisitos para comparar las poblaciones (CB-sección 7.7) aunque los analizaremos porque lo solicita el enunciado. 30 Normal Q−Q Plot 20 15 5 10 10 Sample Quantiles 30 20 Sample Quantiles 25 40 Normal Q−Q Plot −2 −1 0 1 Theoretical Quantiles 2 −2 −1 0 1 2 Theoretical Quantiles Figura 5.3 Gráficos de normalidad de ambas muestras Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase D 191 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos EAR-sección 5.2.1) > > > > > Cauca<-c(2,4,6,7,8,9,10,10,12,14,16,19,21,24,26,30,35,44) Asiame<-c(2,2,3,3,4,5,5,6,6,6,7,7,8,9,10,12,19,32) par(mfrow=c(1,2)) qqnorm(Cauca) qqnorm(Asiame) obtenemos la Figura 5.3. Ambos gráficos sugieren simetrı́a y normalidad de los datos. De hecho, podemos ejecutar un test de Kolmogorov-Smirnov para contrastar la hipótesis nula de que los datos de ambas poblaciones siguen distribuciones normales. Como las medias y desviaciones tı́picas suministradas por los datos son, ejecutando las siguientes instrucciones, > mean(Cauca) [1] 16.5 > sd(Cauca) [1] 11.53129 > mean(Asiame) [1] 8.111111 > sd(Asiame) [1] 7.226494 es razonable contrastar si los datos de los Caucásicos se ajusta a una normal N (16′ 5, 11′ 53) y los de los individuos Asio-Americanos a una N (8′ 11, 7′ 23). Para ello (EAR-sección 8.3) ejecutamos las siguientes sentencias, > ks.test(Cauca,"pnorm",16.5,11.53) One-sample Kolmogorov-Smirnov test data: Cauca D = 0.158, p-value = 0.76 alternative hypothesis: two-sided (1) Warning message: In ks.test(Cauca, "pnorm", 16.5, 11.53) : cannot compute correct p-values with ties > ks.test(Asiame,"pnorm",8.11,7.23) One-sample Kolmogorov-Smirnov test data: Asiame D = 0.2302, p-value = 0.2958 alternative hypothesis: two-sided Warning message: In ks.test(Asiame, "pnorm", 8.11, 7.23) : cannot compute correct p-values with ties (2) D 192 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud obteniéndose unos p-valores en (1) y (2) que conducen a aceptar la normalidad de ambas muestras. Sobre la homocedasticidad, contrastaremos la hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo cuando sea, S12 ∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ]. S22 Habı́amos obtenido más arriba que es x1 = 16′ 5 , S12 = (11′ 53)2 , x2 = 8′ 11 , S22 = (7′ 23)2 , por lo que es S12 /S22 = 132′ 94/52′ 27 = 2′ 54. Si consideramos un nivel de significación α = 0′ 02, será, a partir de la Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3), qf(0.01,17,17) = 0′ 3084582 y qf(0.99,17,17) = 3′ 24193 , con lo que la región de aceptación, a nivel α = 0′ 02, es [0′ 31 , 3′ 24] , que contendrá al valor del estadı́stico por lo que se aceptará la hipótesis nula de ser iguales ambas varianzas poblacionales, a ese nivel de significación. De hecho, con R podemos obtener el p-valor ejecutando > 2*(1-pf(2.54,17,17)) [1] 0.06267927 valor, aunque no contundente, lo suficientemente grande como para confirmar la igualdad de las varianzas poblacionales. Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar (3), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de aceptación " S12 /S22 Fn1 −1,n2 −1; α2 , S12 /S22 Fn1 −1,n2 −1;1− α2 # 2′ 54 2′ 54 = ′ , ′ = [0′ 78 , 8′ 19] 3 24 0 31 cociente, contiene o no al 1. La región de aceptación se observa en (4) y el p-valor de este test, igual lógicamente al anterior, aparece en (5). > var.test(Cauca,Asiame,conf.level=0.98) (3) F test to compare two variances data: Cauca and Asiame F = 2.5462, num df = 17, denom df = 17, p-value = 0.06201 alternative hypothesis: true ratio of variances is not equal to 1 98 percent confidence interval: 0.7854103 8.2547491 (5) (4) D 193 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos sample estimates: ratio of variances 2.546245 Como dijimos al comienzo, dado que los tamaños muestrales son grandes, el test para contrastar la igualdad de las medias poblacionales; es decir, para contrastar la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 será el que acepte H0 cuando y sólo cuando sea |x1 − x2 | s S12 S22 + n1 n2 ≤ zα/2 . Como es |x1 − x2 | s S12 S22 + n1 n2 =s |16′ 5 − 8′ 11| 132′ 94 52′ 27 + 18 18 = 2′ 6153 y, a partir de la Tabla 3 de la Normal, vemos que es P {Z > 2′ 6153} < 0′ 0045, con lo que podemos rechazar la hipótesis nula de igualdad de las medias, con un p-valor menor que 0′ 009, es decir, con suficiente confianza. Este test de igualdad de medias se puede resolver con R ejecutando (6) (véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales como iguales. Como el 0 no está incluido en la región de aceptación dada en (7), rechazaremos la hipótesis nula de igualdad de los tiempos de calibración en ambas razas. El p-valor 0′ 0132 aparece en (8) (aunque está calculado con una t de Student; de ahı́ la pequeña diferencia con el calculado más arriba utilizando la normal) y sugiere el rechazo de H0 . > t.test(Cauca,Asiame,var.equal=T) (6) Two Sample t-test data: Cauca and Asiame t = 2.6153, df = 34, p-value = 0.01320 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.870327 14.907450 sample estimates: mean of x mean of y 16.500000 8.111111 (8) (7) b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2 y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0 cuando y sólo cuando sea D 194 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud m · n − um,n;α/2 < U < um,n;α/2 siendo U el número de valores de la segunda muestra que preceden estrictamente a cada valor fijo de la primera muestra. Si subrayamos los valores de la segunda muestra en la siguiente unión de ambas muestras ordenadas, en donde los de la segunda muestra que son iguales a los de la primera los hemos situado detrás para hacer más simple el recuento, 2, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8, 8, 9, 9, 10, 10, 10 12, 12, 14, 16, 19, 19, 21, 24, 26, 30, 32, 35, 44. Ahora, para calcular el valor de U nos fijamos en cada valor de la primera muestra (es decir, cada valor no subrayado) y vemos cuantos valores de la segunda muestra (es decir, cuántos valores subrayados) le preceden. Es decir, miramos el 2 (primer valor no subrayado) vemos que no hay ningún valor subrayado que lo preceda, por lo que el primer sumando de U es 0. El segundo valor no subrayado es 4, al que le preceden 4 valores subrayados, lo que hace que el segundo valor de U sea 4, y ası́ sucesivamente; vemos que U toma el valor, U = 0+4+7+10+12+13+14+14+15+16+16+16+17+17+17+17+18+18 = 241. En la determinación del punto crı́tico y el p-valor utilizaremos la aproximación normal ya que los tamaños muestrales son mayores que 5. En concreto, si el nivel de significación es α = 0′ 02, será um,n;α/2 = u18,18;0′ 01 18 · 18 = + 2′ 325 2 s 18 · 18 · (18 + 18 + 1) = 235′ 49 12 y la región de aceptación, (m · n − um,n;α/2 , um,n;α/2 ) = (18 · 18 − 235′ 49 , 235′ 49) = (88′ 51 , 235′ 49). Como U = 241 no pertenece a ella, deberemos rechazar la hipótesis nula de igualdad de ambas poblaciones, con un p-valor menor que el nivel de significación 0′ 02. En concreto, el p-valor (aproximado por utilizar la aproximación normal) será, utilizando la cola superior, al ser el p-valor el menor nivel de significación para el que se rechaza la hipótesis nula, D 195 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 2 × P {U > 241} ≈ 2 × P ( 241 − 18 · 18/2 Z> p 18 · 18(18 + 18 + 1)/12 ) = 2 × P {Z > 2′ 5} = 0′ 0124 que indica rechazar con confianza la hipótesis nula de igualdad. Para resolver este ejercicio con R, deberı́amos ejecutar (9) (EAR-sección 8.4.1) si queremos utilizar las mismas opciones que las que acabamos de emplear. Los resultados son un poco distintos porque R promedia entre los valores iguales en el cálculo de U . No obstante, el p-valor, dado en (10), también es indicativo del rechazo de la hipótesis nula de igualdad de ambas poblaciones. > wilcox.test(Cauca,Asiame,exac=F,correct=F) (9) Wilcoxon rank sum test data: Cauca and Asiame W = 248, p-value = 0.00641 alternative hypothesis: true location shift is not equal to 0 (10) Problema 5.30 El Western Collaborative Group Study fue un estudio epidemiológico de gran tamaño (véase Rosenman et al., 1964) diseñado para investigar la asociación del denominado en el estudio “tipo A” de comportamiento y las enfermedades coronarias. Una parte de ese estudio aparece en el fichero WCGS2.txt en el que se recogen los valores observados en 3154 personas de las variables Peso Corporal en libras (Peso) y Presión Sanguı́nea Sistólica en mmHg (PSS). Se pide, a) Determinar la recta de mı́nimos cuadrados en donde figure como variable dependiente PSS. ¿Qué presión sistólica cabrı́a esperar en una persona de 73 kilos? b) Contrastar si la recta determinada en el apartado anterior es significativa para explicar la regresión lineal entre ambas variables y analizar la normalidad de los residuos. Resolveremos el problema con R. Para ello, primero deberemos incorporar los datos ejecutando (1). > WCGS2<-read.table("a:\\WCGS2.txt",header=T) (1) a) La recta de mı́nimos cuadrados la obtenemos ejecutado (4). Antes hemos extraı́do de los datos las dos variables de la regresión ejecutando (2) y (3) de una manera equivalente a utilizar el número de la columna. > > > > x<-WCGS2[,c("Peso")] y<-WCGS2[,c("PSS")] resultado<-lm(y~x) resultado (2) (3) (4) D 196 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Call: lm(formula = y ~ x) Coefficients: (Intercept) 97.7888 x 0.1815 La recta buscada será, por tanto, y 100 120 140 160 180 200 220 PSS = 97′ 789 + 0′ 1815 Peso 100 150 200 250 300 x Figura 5.4 Nube de puntos y recta ajustada Como 73 kilos son 160′ 937 libras, la presión sistólica esperada en una persona de 73 kilos serı́a PSS—73 = 97′ 789 + 0′ 1815 · 160′ 937 = 127 es decir, la que solemos medir como 12′ 7. b) Para contrastar si la recta de regresión obtenida es significativa para explicar y predecir la variable dependiente en función de la independiente, es decir, si por ejemplo la predicción 11′ 1 es fiable, contrastaremos la hipótesis nula H0 :las variables Peso y PSS no están relacionadas linealmente, frente D 197 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos a la alternativa H1 de que sı́ lo están, deberemos formar la tabla de Análisis de la Varianza para la Regresión, CB-sección 9.3.1. Con R la obtenemos inmediatamente ejecutando (5), o ejecutando >anova(resultado). 1000 Histogram of resid(resultado) 600 400 0 200 Frequency 40 20 −20 0 Sample Quantiles 60 800 80 100 Normal Q−Q Plot −2 0 2 −20 Theoretical Quantiles 0 20 40 60 80 100 resid(resultado) Figura 5.5 Gráfico de normalidad e Histograma de los residuos > summary(resultado) (5) Call: lm(formula = y ~ x) Residuals: Min 1Q -29.549 -10.097 Median -2.456 3Q 7.724 Max 99.544 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 97.78884 2.11473 46.24 <2e-16 *** x 0.18148 0.01235 14.70 <2e-16 *** --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Residual standard error: 14.63 on 3152 degrees of freedom (6) D 198 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Multiple R-squared: 0.06414, Adjusted R-squared: 0.06384 F-statistic: 216 on 1 and 3152 DF, p-value: < 2.2e-16 0.000 0.005 0.010 0.015 Histogram of x Density 0.015 0.000 0.005 0.010 Density 0.020 0.025 Histogram of y 100 140 180 y 220 50 100 150 200 250 300 x Figura 5.6 Histogramas de PSS y Peso El p-valor observado en (6) indica que se rechace la hipótesis nula planteada y que se concluya con que la recta de regresión determinada es válida para explicar la regresión lineal. No obstante, el gráfico de la nube de puntos y la recta ajustada, dados por la Figura 5.4 y obtenidos ejecutando los comandos > plot(x,y,pch=16,col=2) > abline(resultado,col=4) parece indicarnos que hay demasiados puntos como para que la regresión sea válida. Hay que tomarla con mucho cuidado. De hecho, el coeficiente de correlación lineal de Pearson es bajı́simo, r = 0′ 253, lo que de nuevo manifiesta precauciones en las conclusiones. > cor(x,y) [1] 0.2532496 Por último, la normalidad de los residuos la podemos analizar ejecutando los siguientes comandos que proporcionan la Figura 5.5 D 199 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos > par(mfrow=c(1,2)) > qqnorm(resid(resultado)) > hist(resid(resultado)) los cuales indican una asimetrı́a a la derecha y, en consecuencia, una no normalidad de los datos. De hecho, si representamos los histogramas de ambas variables, vemos en la Figura 5.6 que la variable PSS es muy asimétrica a la derecha. El Peso sı́ parece de tipo normal. Problema 5.31 Los datos del fichero pesos.txt son parte de un estudio realizado en el Baystate Medical Center, Springfield, Mass (Estados Unidos) durante 1986, sobre el peso y raza de 189 recién nacidos, (Hosmer y Lemeshow, 1989). Las dos variables consideradas en la matriz de datos son Raza y Peso en gramos del recién nacido. La Raza toma los valores 1 en el caso de raza blanca, 2 en el caso de raza negra y 3 en el caso de otra raza. Analizar si hay diferencias significativas en el peso de los recién nacidos de raza blanca y de raza negra, mediante a) El test de la t de Student, analizando la suposición de normalidad y de homocedasticidad. b) El test de Wilcoxon-Mann-Whitney. c) Contrastar si hay diferencias significativas entre las tres razas con respecto al peso de los recién nacidos, analizando las suposiciones requeridas por el test utilizado. Si las hubiera, considerar la posibilidad de no existencia de diferencias significativas entre pares de grupos de razas. Resolveremos el problema con R. Para ello, primero deberemos incorporar los datos ejecutando (1), > Pesos<-read.table("a:\\pesos.txt",header=T) (1) Ahora extraemos los datos de las tres variables en consideración mediante (2) > > > > attach(Pesos) Negros<- Pesos[raza >= 2 & raza <3,] Blancos<- Pesos[raza <= 1,] Otros<- Pesos[raza >= 3,] (2) (2) (2) y luego los convertimos en vectores mediante (3) > Negros<- Negros[,2] > Blancos<- Blancos[,2] > Otros<- Otros[,2] (3) (3) (3) a) Para ejecutar el test de la t de Student de comparación de dos poblaciones necesitamos que ambas sean de tipo normal y luego comprobar si puede D 200 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud aceptarse o no que las varianzas de ambas poblaciones puedan considerarse iguales (CB-sección 7.6) ya que, aunque n1 + n2 = 96 + 26 = 122 > 30, no es n1 ≃ n2 y no se pueden utilizar las fórmulas para muestras grandes de CB-sección 7.7. Normal Q−Q Plot 1000 3000 2500 2000 1500 Sample Quantiles 3000 2000 Sample Quantiles 4000 3500 5000 Normal Q−Q Plot −2 −1 0 1 Theoretical Quantiles 2 −2 −1 0 1 2 Theoretical Quantiles Figura 5.7 Gráficos de normalidad de ambas muestras Si hacemos un gráfico de normalidad de ambas muestras ejecutando (véase EAR-sección 5.2.1) > par(mfrow=c(1,2)) > qqnorm(Blancos) > qqnorm(Negros) obtenemos la Figura 5.7. Ambos gráficos sugieren simetrı́a y normalidad de los datos. De hecho, podemos ejecutar un test de Kolmogorov-Smirnov para contrastar la hipótesis nula de que los datos de ambas poblaciones siguen distribuciones normales. Como las medias y desviaciones tı́picas suministradas por los datos son, ejecutando las siguientes instrucciones, > mean(Blancos) [1] 3102.719 > sd(Blancos) [1] 727.8861 D 201 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos > mean(Negros) [1] 2719.692 > sd(Negros) [1] 638.6839 es razonable contrastar si los datos de los Blancos se ajusta a una normal N (3102′ 72, 727′ 89) y los Negros a una N (2719′ 69, 638′ 68). Para ello (EARsección 8.3) ejecutamos las siguientes sentencias, > ks.test(Blancos,"pnorm",3102.72,727.89) One-sample Kolmogorov-Smirnov test data: Blancos D = 0.0904, p-value = 0.4129 (4) alternative hypothesis: two-sided Warning message: In ks.test(Blancos, "pnorm", 3102.72, 727.89) : cannot compute correct p-values with ties > ks.test(Negros,"pnorm",2719.69,638.68) One-sample Kolmogorov-Smirnov test data: Negros D = 0.1231, p-value = 0.8256 (4) alternative hypothesis: two-sided Warning message: In ks.test(Negros, "pnorm", 2719.69, 638.68) : cannot compute correct p-values with ties obteniéndose dos p-valores en (4) que conducen a aceptar la normalidad de ambas muestras. Sobre la homocedasticidad, contrastaremos la hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo cuando sea, S12 ∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ]. S22 Habı́amos obtenido más arriba que es S12 = (727′ 89)2 y S22 = (638′ 68)2 , por lo que es S12 /S22 = 1′ 29887. D 202 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Si consideramos un nivel de significación α = 0′ 2, será, a partir de la Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3), qf(0.1,96,26) = 0′ 69 y qf(0.9,96,26) = 1′ 553 , con lo que la región de aceptación, a nivel α = 0′ 2, es [0′ 69 , 1′ 553] , que contendrá al valor del estadı́stico por lo que se aceptará la hipótesis nula de ser iguales ambas varianzas poblacionales, a ese nivel de significación, por lo que el p-valor es mayor que él, es decir, mayor que 0′ 2, suficientemente grande como para confirmar la homocedasticidad. De hecho, con R podemos obtener el p-valor ejecutando > 2*(1-pf(1.29887,96,26)) [1] 0.452511 Si quisiéramos ejecutar este test directamente con R deberı́amos ejecutar (5), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de aceptación " S12 /S22 Fn1 −1,n2 −1; α2 , S12 /S22 Fn1 −1,n2 −1;1− α2 # 2′ 54 2′ 54 = ′ , ′ = [0′ 78 , 8′ 19] 3 24 0 31 contiene o no al 1. La región de aceptación se observa en (7) y el p-valor de este test, igual lógicamente al anterior, aparece en (6). > var.test(Blancos,Negros,conf.level=0.8) (5) F test to compare two variances data: Blancos and Negros F = 1.2988, num df = 95, denom df = 25, p-value = 0.4621 alternative hypothesis: true ratio of variances is not equal to 1 80 percent confidence interval: 0.8289426 1.8921445 sample estimates: ratio of variances 1.298838 (6) (7) Una vez verificadas las suposiciones necesarias para poder ejecutar el test de la t de Student en el caso que nos ocupa de muestras pequeñas, (CB-sección 7.6), al poder considerar las varianzas poblacionales como iguales, se acepta la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 cuando y sólo cuando sea D 203 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos • Se acepta H0 si s • Se rechaza H0 si s (n1 − 1)S12 (n1 − 1)S12 |x1 − x2 | + (n2 − 1)S22 n1 + n2 − 2 |x1 − x2 | + (n2 − 1)S22 n1 + n2 − 2 s 1 1 + n1 n2 s 1 1 + n1 n2 ≤ tn1 +n2 −2;α/2 > tn1 +n2 −2;α/2 Como es s |x1 − x2 | (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 s 1 1 + n1 n2 =s |3102′ 72 − 2719′ 69| 95 · 727′ 892 + 25 · 120 638′ 682 r 1 1 + 96 26 el p-valor será p-valor = 2 · P {t120 > 2′ 439364} y, a partir de la Tabla 5 de la t de Student, es P {t120 > 2′ 617} 2′ 439364} 2′ 358} es decir, 0′ 005 2′ 439364} < 0′ 01. Con lo que el p-valor será 0′ 01 < p-valor < 0′ 02 suficientemente pequeño como para concluir que existen diferencias significativas entre el peso de los bebés blancos y el de los bebés negros. Este test de igualdad de medias se puede resolver con R ejecutando (8) (véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales como iguales. Como el 0 no está incluido en la región de aceptación dada en (9), rechazaremos la hipótesis nula de igualdad de los pesos medios de los recién nacidos de ambas razas. El p-valor 0′ 01618 aparece en (10) y sugiere el rechazo de H0 . = 2′ 439364 D 204 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud > t.test(Blancos,Negros,var.equal=T) (8) Two Sample t-test data: Blancos and Negros t = 2.4393, df = 120, p-value = 0.01618 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 72.13796 693.91493 sample estimates: mean of x mean of y 3102.719 2719.692 (10) (9) b) Para utilizar el test de Wilcoxon-Mann-Whitney, CB-sección 13.4.1, las hipótesis a contrastar harán referencia a las medianas poblacionales M1 y M2 y serán H0 : M1 = M2 frente a la alternativa H1 : M1 6= M2 , aceptándose H0 cuando y sólo cuando sea m · n − um,n;α/2 < U < um,n;α/2 siendo U el número de valores de la segunda muestra que preceden estrictamente a cada valor fijo de la primera muestra. Dado que los tamaños muestrales son muy grandes, el subrayar los valores de la segunda muestra que preceden a los de la primera para determinar manualmente el valor de U resulta muy complejo. Por ello utilizaremos R en la resolución. Para ello ejecutamos (11) (EAR-sección 8.4.1). El p-valor, dado en (12), es muy parecido al obtenido en el caso paramétrico, sugiriendo también el rechazo de la hipótesis nula de igualdad de ambas poblaciones. > wilcox.test(Blancos,Negros,exac=F,correct=F) Wilcoxon rank sum test data: Blancos and Negros W = 1632, p-value = 0.01635 alternative hypothesis: true location shift is not equal to 0 (11) (12) c) Para analizar si hay o no diferencias significativas en los pesos de las tres razas, contrastaremos la hipótesis nula H0 : µBlancos = µN egros = µOtros frente a la alternativa de no ser todas iguales mediante un Análisis de la Varianza para un factor y un diseño completamente aleatorizado (CB-sección 8.2). Para obtener la tabla de Análisis de la Varianza necesitaremos un objeto del tipo Factor que creamos en (13). La tabla ANOVA la obtenemos a continuación. > Npesos<-c(Blancos,Negros,Otros) > Razas<-factor(rep(LETTERS[1:3],c(96,26,67))) (13) (13) D 205 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos > Datos<-data.frame(Razas,Npesos) (13) > tabla<-aov(Npesos~Razas) > summary(tabla) Df Sum Sq Mean Sq F value Pr(>F) Razas 2 5015725 2507863 4.9125 0.008336 ** Residuals 186 94953931 510505 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (14) El p-valor del test, que aparece en (14), indicando claramente el rechazo de la hipótesis nula de igualdad de los pesos medios de las tres razas. Para poder realizar un ANOVA, las poblaciones a comparar deben seguir un modelo normal y además debe verificarse la suposición de homocedasticidad, es decir, que todas ellas deben tener la misma varianza. El análisis teórico de estas cuestiones se analizó en CB-capı́tulo 14. Normal Q−Q Plot 4000 Normal Q−Q Plot 1000 3500 3000 2500 Sample Quantiles 2000 2500 Sample Quantiles 1500 −2 −1 0 1 Theoretical Quantiles 2 1000 1500 2000 2000 3000 Sample Quantiles 3000 4000 3500 5000 Normal Q−Q Plot −2 −1 0 1 2 −2 Theoretical Quantiles −1 0 1 2 Theoretical Quantiles Figura 5.8 : Gráficos de normalidad El Análisis de la Normalidad de unos datos (CB-sección 14.4) se puede efectuar gráficamente con ayuda del Gráfico de normalidad (CB-sección 14.4.1), el cual se pueden obtener fácilmente con R gracias a la función qqnorm, y con la ayuda del Diagrama de hojas y ramas (CB-sección 14.2) obtenido con la función stem. D 206 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Ası́, después de abrir una ventana de tres gráficos en (15), hacemos los gráficos de normalidad para las tres variables, cuya representación obtenemos en la Figura 5.8. Se ve que los datos se sitúan aproximadamente en la diagonal del gráfico, lo que sugiere que se puede admitir para ellos una distribución normal. Los gráficos de hojas y ramas, obtenidos tras ejecutar (16), lo confirman. > > > > par(mfrow=c(1,3)) qqnorm(Blancos,pch=16) qqnorm(Negros,pch=16) qqnorm(Otros,pch=16) > stem(Blancos) (15) (16) The decimal point is 3 digit(s) to the right of the | 1 1 2 2 3 3 4 4 5 | | | | | | | | | 0 889999 1111223444444 55566667788888899999 00000111111111233444 55566666667777778888999999 00112222 6 0 > stem(Negros) (16) The decimal point is 3 digit(s) to the right of the | 1 1 2 2 3 3 | | | | | | 1 79 1234444 5589999 0013444 89 > stem(Otros) (16) The decimal point is 3 digit(s) to the right of the | 0 1 1 2 2 3 3 4 | | | | | | | | 7 3 566799 0111222333444 555566677888899 111222222222333333 5556668899 001 El Análisis de la homocedasticidad se puede hacer gráficamente mediante D 207 1000 2000 3000 4000 5000 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos A B C Figura 5.9 : Gráfico de cajas un Gráfico de cajas (CB-sección 14.5.1), obtenido con la función boxplot, obtenido ejecutando ejecutando (17) y que aparece en la Figura 5.9. En él se ve que las cajas son bastante semejantes, es decir, que puede considerarse razonable admitir una varianza común. También se puede analizar la homocedasticidad mediante el test de Bartlett (CB-sección 14.5.2) de la hipótesis nula de igualdad de las varianzas, ejecutado con la función de R, bartlett.test, como hacemos en (18). El p-valor de dicho test, dado en (19), es bastante concluyente en la aceptación de la hipótesis nula de igualdad de las varianzas. > boxplot(Npesos~Razas) > bartlett.test(Npesos~Razas) (17) (18) Bartlett test of homogeneity of variances data: Npesos by Razas Bartlett’s K-squared = 0.6595, df = 2, p-value = 0.7191 (19) Como estudiamos en CB-sección 8.2.1, una vez rechazada la hipótesis nula de igualdad de las medias de las poblaciones a comparar, parece razonable analizar si existen grupos de tratamientos sin diferencias significativas. Para resolver este problema con R ejecutaremos el Contraste de Tukey HSD allı́ analizado, utilizando la función TukeyHSD, (EAR-sección 5.2.2). Para ello, ejecutamos (20) D 208 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud > TukeyHSD(tabla) (20) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = Npesos ~ Razas) $Razas diff lwr upr p adj B-A -383.02644 -756.2363 -9.816581 0.0428037 C-A -297.43517 -566.1652 -28.705095 0.0260124 C-B 85.59127 -304.4521 475.634630 0.8624372 Los intervalos (regiones de aceptación) obtenidos, cuyo extremo inferior está encabezado con lwr y el superior con upr, que contengan al cero implicarán la igualdad de los efectos medios cuyas letras aparecen al comienzo de la lı́nea. Esto sólo le ocurre el tercer intervalo [−304′ 45 , 475′ 63] el cual, al contener al cero, implica la igualdad de los efectos medios de los tratamiento C-B. De esta manera vemos que podemos considerar dos clases de tratamientos equivalentes: el {A} y el {B, C}. La última columna nos da los p-valores de los tests, los cuales confirman la clasificación anterior. Obsérvese que el p-valor de comparar la raza blanca con la negra es distinto del obtenido en el apartado (a) debido a que los tests son distintos. Problema 5.32 En un artı́culo del 27 de Mayo de 2001 del diario “The Arizona Republic”, aparecen los datos de las concentraciones de arsénico en partes por billón (americano) en el agua potable de 10 barrios de Phoenix, capital del estado norteamericano de Arizona (columna izquierda de la tabla), y de 10 zonas rurales de dicho estado (columna derecha de la tabla). Los datos fueron los siguientes: Phoenix Centro Chandler Gilbert Glendale Mesa Paradise Valley Peoria Scottsdale Sun City Tempe 3 7 25 10 15 6 12 25 7 15 Rimrock Goodyear New River Apache Junction Buckeye Nogales Black Canyon City Sedona Casa Grande Payson 48 44 40 38 33 21 20 12 18 1 Se pide: a) Analizar la igualdad de las varianzas poblacionales. b) Supuesto que las varianzas poblacionales pueden considerarse iguales, analizar si existen diferencias significativas entre ambos grupos mediante un test de la t de Student. D 209 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos Como resolveremos también el ejercicio con R, comencemos incluyendo los datos y obteniendo las medias y cuasivarianzas muestrales, ciudad<-c(3,7,25,10,15,6,12,25,7,15) campo<-c(48,44,40,38,33,21,20,12,18,1) > mean(ciudad) [1] 12.5 > var(ciudad) [1] 58.27778 > mean(campo) [1] 27.5 > var(campo) [1] 235.6111 Con lo que será x1 = 12′ 5, S12 = 58′ 3 y x2 = 27′ 5, S22 = 235′ 6. a) Para ejecutar el test de la t de Student de comparación de dos poblaciones necesitamos comprobar antes si puede aceptarse o no que las varianzas de ambas poblaciones puedan considerarse iguales (CB-sección 7.6) ya que los tamaños muestrales son pequeños. Es decir, debemos contrastar antes la hipótesis nula H0 : σ12 = σ22 frente a la alternativa de ser distintas (CB-sección 7.5), contraste basado en el estadı́stico S12 /S22 . De hecho, aceptaremos esta hipótesis nula cuando y sólo cuando sea, S12 ∈ [ Fn1 −1,n2 −1;1− α2 , Fn1 −1,n2 −1; α2 ]. S22 El estadı́stico toma el valor S12 /S22 = 0′ 247. Si consideramos un nivel de significación α = 0′ 05, será, a partir de la Tabla 6 de la F de Snedecor, o directamente utilizando R (EAR-sección 3.5.3), Fn1 −1,n2 −1;1− α2 = F9,9;0′ 975 = 1/F9,9;0′ 025 = 1/4′ 026 = 0′ 248 = qf(0.025,9,9) y Fn1 −1,n2 −1; α2 = F9,9;0′ 025 = 4′ 026 = qf(0.975,9,9), con lo que la región de aceptación, a nivel α = 0′ 05, es [0′ 248 , 4′ 026] , que no contiene el valor del estadı́stico pero por muy poco y con este nivel de significación que no es definitivo. Utilizando R podemos ejecutar este test con (1), (EAR-sección 4.2.3), observando que aquı́ se analiza si la región de aceptación " S12 /S22 Fn1 −1,n2 −1; α2 , S12 /S22 Fn1 −1,n2 −1;1− α2 # = 0′ 247 0′ 247 , = [0′ 061 , 0′ 996] 4′ 026 0′ 248 contiene o no al 1. La región de aceptación se observa en (2) y el p-valor de este test aparece en (3). > var.test(ciudad,campo) (1) D 210 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud F test to compare two variances data: ciudad and campo F = 0.2473, num df = 9, denom df = 9, p-value = 0.04936 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.06143758 0.99581888 sample estimates: ratio of variances 0.2473473 (3) (2) Como dijimos antes, este test no es nada concluyente. b) Suponiendo que puede aceptarse que ambas varianzas poblacionales son iguales, se acepta la hipótesis nula H0 : µ1 = µ2 frente a la alternativa H1 : µ1 6= µ2 cuando y sólo cuando sea • Se acepta H0 si s • Se rechaza H0 si s |x1 − x2 | (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 (n1 − 1)S12 |x1 − x2 | + (n2 − 1)S22 n1 + n2 − 2 s 1 1 + n1 n2 s 1 1 + n1 n2 ≤ tn1 +n2 −2;α/2 > tn1 +n2 −2;α/2 Como es s (n1 − 1)S12 |x1 − x2 | + (n2 − n1 + n2 − 2 1)S22 s 1 1 + n1 n2 =s |12′ 5 − 27′ 5| 9· 58′ 3 + 9 18 · 235′ 6 r el p-valor será p-valor = 2 · P {t18 > 2′ 7669} y, a partir de la Tabla 5 de la t de Student, es P {t18 > 2′ 878} 2′ 7669} 2′ 552} es decir, = 2′ 7669 1 1 + 10 10 D 211 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 5. Problemas Básicos Resueltos 0′ 005 2′ 7669} < 0′ 01. Con lo que el p-valor será 0′ 01 < p-valor < 0′ 02 suficientemente pequeño como para concluir que existen diferencias significativas en la contaminación de los dos grupos. Este test de igualdad de medias se puede resolver con R ejecutando (4) (véase EAR-sección 4.2.4), en donde consideramos las varianzas poblacionales como iguales. Como el 0 no está incluido en la región de aceptación dada en (5), rechazaremos la hipótesis nula de igualdad de los dos grupos. El p-valor 0′ 0127 aparece en (6) y sugiere el rechazo de H0 . Por tanto, existe suficiente evidencia para concluir que la concentración media de arsénico en el agua potable en las zonas rurales de Arizona es distinta (y mayor) que en su capital Phoenix. > t.test(ciudad,campo,var.equal=T) (4) Two Sample t-test data: ciudad and campo t = -2.7669, df = 18, p-value = 0.01270 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -26.389418 -3.610582 sample estimates: mean of x mean of y 12.5 27.5 (6) (5) D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 212 D Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6 Problemas Avanzados Resueltos Problema 6.1 Con objeto de analizar la posible relación de dependencia que pudiera existir entre tres variables, Edad, Sexo y Consumo de Fármacos Psicóticos, se realizó una encuesta a 5833 londinenses (Murray et al., 1981) clasificándose a los encuestados según la siguiente tabla, Entre 16 y 29 años Sı́ toma medicamentos No toma medicamentos Hombre 21 683 Mujer 46 738 Hombre 32 596 Mujer 89 700 Hombre 70 705 Mujer 169 847 Hombre 43 295 Mujer 98 336 Hombre 19 99 Mujer 51 196 Entre 30 y 44 años Sı́ toma medicamentos No toma medicamentos Entre 45 y 64 años Sı́ toma medicamentos No toma medicamentos Entre 65 y 74 años Sı́ toma medicamentos No toma medicamentos Más de 74 años Sı́ toma medicamentos No toma medicamentos 213 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 214 Analizar dicha posible relación mediante un modelo log-lineal. Primero vamos a incorporar los datos (que están en el fichero psico) en formato estructura de datos (data frame). Para ello utilizaremos en (1), la función read.table que lee los datos y crea dicho formato. En (2) comprobamos que lo ha ejecutado bien, > psico<-read.table("a:\\psico",header=T) > psico Toma1 Toma2 Edad1 Edad2 Edad3 Edad4 Edad5 Sexo1 Sexo2 Frecu 1 1 0 1 0 0 0 0 1 0 21 2 1 0 1 0 0 0 0 0 1 46 3 0 1 1 0 0 0 0 1 0 683 4 0 1 1 0 0 0 0 0 1 738 5 1 0 0 1 0 0 0 1 0 32 6 1 0 0 1 0 0 0 0 1 89 7 0 1 0 1 0 0 0 1 0 596 8 0 1 0 1 0 0 0 0 1 700 9 1 0 0 0 1 0 0 1 0 70 10 1 0 0 0 1 0 0 0 1 169 11 0 1 0 0 1 0 0 1 0 705 12 0 1 0 0 1 0 0 0 1 847 13 1 0 0 0 0 1 0 1 0 43 14 1 0 0 0 0 1 0 0 1 98 15 0 1 0 0 0 1 0 1 0 295 16 0 1 0 0 0 1 0 0 1 336 17 1 0 0 0 0 0 1 1 0 19 18 1 0 0 0 0 0 1 0 1 51 19 0 1 0 0 0 0 1 1 0 99 20 0 1 0 0 0 0 1 0 1 196 (1) (2) Ahora vamos a analizar cuántos modelos log-lineales puede ser aceptados, en principio, antes de utilizar los tests condicionales para modelos anidados con los determinaremos, de entre éstos, el modelo con el que finalemente nos quedaremos. Como sabemos, al tratar con variable de tipo cualitativo, debemos expresar nuestro modelo con variables indicadoras, tantas como clases presente la variable indicadora menos una. Ası́, expresaremos la variable dicotómica de la Toma o no de medicamentos psicóticos con una de las dos indicadoras Toma1 o Toma2; hemos elegido la segunda. Expresaremos también el modelo para Edad con cuatro de las cinco variables indicadoras que genera (en este caso las cuatro últimas), y finalmente Sexo con Sexo2. Como sabemos por el texto TA-Sección 8.6, utilizaremos en el análisis de los modelos log-lineales la función de Rmo glm. Comencemos al análisis con el modelo que no tiene interacciones entre las variables (3 Independencias Condicionadas) ejecutando (3), obteniendo en D 215 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos (4) los grados de libertad de la χ2 (13 grados) y en (5) el valor del estadı́stico deviance G2 = 245′ 7 > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2,family=poisson,data=psico) (3) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2, family = poisson, data = psico) Coefficients: (Interc) Toma2 4.26989 2.09711 Edad2 -0.04889 Edad3 0.18534 Edad4 -0.65620 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 245.7 (5) Edad5 -1.40529 Sexo2 0.24361 (6) (4) 13 Residual AIC: 396.7 Las estimaciones de los coeficientes de regresión, dadas en (6), no tienen aquı́ ningún interés; de hecho, se suele denominar a dichos coeficientes parámetros de ruido. Por último, el p-valor del test se obtiene ejecutando (7) (probabilidad cola de una χ2 , utilizando la función 1-pchisq, con 13 grados de libertad, su segundo argumento, a la derecha del valor del estadı́stico de contraste, 245,7, su primer argumento), observando en (8) que debemos rechazar el modelo con solamente los efectos simples de las tres variables Edad, Toma/No Toma y Sexo, al ser el p-valor cero. > 1-pchisq(245.7,13) [1] 0 (7) (8) Los otros modelos que incluyen las interacciones por pares y la interacción de las tres variables, se contrastan a continuación. (Obsérvese que hay que ejecutar dos instrucciones para cada modelo.) Hemos subrayado, para cada modelo, los grados de libertad de la χ2 , el valor del estadı́stico de contraste y el p-valor. Por último, apuntemos que para incluir los efectos de la interacción entre variables, es necesario cruzar todas (menos una) las variables auxiliares de las variables respecto de las cuales queramos incluir su interacción. 2 Independencias condicionadas s,t,e,st > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Sexo2, + family=poisson,data=psico) D 216 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Toma2 * Sexo2, family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 3.85426 2.55366 -0.04889 Toma2.Sexo2 -0.72612 Edad3 Edad4 Edad5 0.18534 -0.65620 -1.40529 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 178.3 ------- Sexo2 0.89554 12 Residual ---- AIC: 331.3 > 1-pchisq(178.3,12) [1] 0 --- Por tanto, este modelo se rechaza. s,t,e,te > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+ + Toma2*Edad3+Toma2*Edad4+Toma2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 + Toma2 * Edad5, family = poisson, data = psico) Coefficients: (Interc) Toma2 Edad2 3.3823 3.0544 0.5911 Toma2.Edad2 Toma2.Edad3 -0.6832 -1.1836 Edad3 Edad4 Edad5 Sexo2 1.2718 0.7441 0.0438 0.2436 Toma2.Edad4 Toma2.Edad5 -1.5559 -1.6159 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 89.74 ------ 9 Residual --- AIC: 248.7 > 1-pchisq(89.74,9) [1] 1.887379e-15 -------------- Por tanto, este modelo se rechaza. s,t,e,se > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Sexo2*Edad2+ + Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico) D 217 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Sexo2 * Edad2 + Sexo2 * Edad3 + Sexo2 * Edad4 + Sexo2 * Edad5, family = poisson, data = psico) Coefficients: (Interc) Toma2§§§ Edad2§ Edad3 Edad4 Edad5 4.34383 2.09711 -0.11424 0.09608 -0.73373 -1.78609 Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 0.12060 0.16313 0.14237 0.63107 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 217.9 ------- Sexo2 0.10763 9 Residual --- AIC: 376.8 > 1-pchisq(217.9,9) [1] 0 --- Por tanto, este modelo se rechaza. 1 Independencia condicionada s,t,e,st,te > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Sexo2*Toma2+Toma2*Edad2+ + Toma2*Edad3+Toma2*Edad4+Toma2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Sexo2 * Toma2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 + Toma2 * Edad5, family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 2.9667 3.5110 0.5911 1.2718 0.7441 0.0438 0.8955 Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 Toma2.Sexo2 -0.6832 -1.1836 -1.5559 -1.6159 -0.7261 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 22.36 ------- AIC: 183.3 > 1-pchisq(22.36,8) [1] 0.004290856 ---------------- Por tanto, este modelo se rechaza. 8 Residual --- D 218 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud s,t,e,st,se > glm(Frecu ~Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Sexo2*Toma2+Sexo2*Edad2+ + Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Sexo2 * Toma2 + Sexo2 * Edad2 + Sexo2 * Edad3 + Sexo2 * Edad4 + Sexo2 * Edad5, family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 3.92820 2.55366 -0.11424 0.09608 -0.73373 -1.78609 0.75956 Toma2.Sexo2 Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 -0.72612 0.12060 0.16313 0.14237 0.63107 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 150.5 ------- 8 Residual -- AIC: 311.5 > 1-pchisq(150.5,8) [1] 0 --- Por tanto, este modelo se rechaza. s,t,e,te,se > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+ + Toma2*Edad3+Toma2*Edad4+Toma2*Edad5+Sexo2*Edad2+Sexo2*Edad3+ + Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad5 + Sexo2 + Toma2 * Edad2 + Toma2 Toma2 * Edad5 + Sexo2 * Edad2 + Sexo2 Sexo2 * Edad5, family = poisson, data Edad2 + Edad3 + Edad4 + * Edad3 + Toma2 * Edad4 + * Edad3 + Sexo2 * Edad4 + = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 3.4563 3.0544 0.5258 1.1825 0.6665 -0.3370 0.1076 Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 -0.6832 -1.1836 -1.5559 -1.6159 Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 0.1206 0.1631 0.1424 0.6311 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: 61.92 ------- AIC: 228.9 5 Residual --- D 219 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos > 1-pchisq(61.92,5) [1] 4.871659e-12 -------------- Por tanto, este modelo se rechaza. 0 Independencias condicionadas s,t,e,se,st,te > glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+ + Toma2*Edad3+ Toma2*Edad4+Toma2*Edad5+Toma2*Sexo2+Sexo2*Edad2+ + Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5,family=poisson,data=psico) Call: glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + Edad5 + Sexo2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 + Toma2 * Edad5 + Toma2 * Sexo2 + Sexo2 * Edad2 + Sexo2 * Edad3 + Sexo2 * Edad4 + Sexo2 * Edad5, family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 3.05302 3.47321 0.52535 1.19807 0.70810 -0.35652 0.77172 Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 Toma2.Sexo2 -0.66776 -1.16636 -1.54735 -1.53331 -0.69376 Edad2.Sexo2 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 0.05216 0.54224 0.09474 0.10602 Degrees of Freedom: 19 Total (i.e. Null); 4 Residual --- Null Deviance: 5716 Residual Deviance: 2.3 AIC: 171.3 ---> 1-pchisq(2.3,4) [1] 0.680769 ---------- Por tanto, este modelo se acepta. s,t,e,se,st,te,ste (Modelo saturado) > + + + glm(Frecu ~ Toma2+Edad2+Edad3+Edad4+Edad5+Sexo2+Toma2*Edad2+ Toma2*Edad3+Toma2*Edad4+Toma2*Edad5+Toma2*Sexo2+Sexo2*Edad2+ Sexo2*Edad3+Sexo2*Edad4+Sexo2*Edad5+Sexo2*Toma2*Edad2+Sexo2*Toma2*Edad3+ Sexo2*Toma2*Edad4+Sexo2*Toma2*Edad5,family=poisson,data=psico) Call: Edad5 Toma2 Sexo2 Toma2 glm(formula = Frecu ~ Toma2 + Edad2 + Edad3 + Edad4 + + Sexo2 + Toma2 * Edad2 + Toma2 * Edad3 + Toma2 * Edad4 + * Edad5 + Toma2 * Sexo2 + Sexo2 * Edad2 + Sexo2 * Edad3 + * Edad4 + Sexo2 * Edad5 + Sexo2 * Toma2 * Edad2 + Sexo2 * * Edad3 + Sexo2 * Toma2 * Edad4 + Sexo2 * Toma2 * Edad5, D 220 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud family = poisson, data = psico) Coefficients: (Inter) Toma2 Edad2 Edad3 Edad4 Edad5 Sexo2 3.04452 3.48197 0.42121 1.20397 0.71668 -0.10008 0.78412 Toma2.Edad2 Toma2.Edad3 Toma2.Edad4 Toma2.Edad5 Toma2.Sexo2 Edad2.Sexo2 -0.55747 -1.17227 -1.55620 -1.83129 -0.70667 0.23878 Edad3.Sexo2 Edad4.Sexo2 Edad5.Sexo2 Toma2.Edad2.Sexo2 Toma2.Edad3.Sexo2 0.09728 0.03965 0.20327 -0.15539 0.00877 Toma2.Edad4.Sexo2 Toma2.Edad5.Sexo2 0.01304 0.40228 Degrees of Freedom: 19 Total (i.e. Null); Null Deviance: 5716 Residual Deviance: -3.422e-13 ----------- 0 Residual --- AIC: 177 modelo, este último, que se rechaza y al que corresponde un deviance cero (en realidad nos sale -3.422e-13 que significa que corramos la coma de 3′ 422 trece lugares a la izquierda). En resumen, se ha aceptado un solo modelo. Si se hubieran aceptado más modelos deberı́amos haber utilizado los tests condicionales para modelos anidados (como se indica en la la Sección 8.4.1 del texto TA) para quedarnos finalmente con un modelo. El quedarnos finalmente con el modelo de 0 Independencias condicionadas, es decir, con el modelo s,t,e,se,st,te significa, según la Tabla 8.3 de TA, que no se puede colapsar ninguna de las tres variables y que el estudio debe hacerse por separado para hombre y para mujeres, para cada uno de los tres grupos de edad y también por separado para los que toman medicamentos y para los que no los toman. Problema 6.2 En el estudio de Rosenman et al. (1964), se observó también la Edad de los pacientes que habı́an padecido una determinada enfermedad coronaria, codificados éstos con chd = 1. Los datos ası́ obtenidos aparecen en el ficheros de datos wgcs. Se desea efectuar un Análisis de Regresión Logı́stica de dichos datos. Primero vamos a incorporar los datos (que están en el fichero wcgs) en formato estructura de datos (data frame). Para ello utilizaremos en (1), la función read.table que lee los datos y crea dicho formato. En (2) comprobamos que lo ha ejecutado bien, D 221 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos > wcgs<-read.table("a:\\wgcs",header=T) > wcgs > wcgs Edad chd 1 50 0 2 51 0 3 59 0 ............. 3152 53 0 3153 54 0 3154 48 0 (1) (2) Ahora ejecutamos (3) y (4) para ajustar el modelo de regresión logı́stica solicitado. > resultado<-glm(chd ~ Edad,family=binomial,data=wcgs) > summary(resultado) (3) (4) Call: glm(formula = chd ~ Edad, family = binomial, data = wcgs) Deviance Residuals: Min 1Q Median -0.6208 -0.4545 -0.3669 3Q -0.3292 Max 2.4835 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -5.93938 0.54814 -10.835 < 2e-16 *** Edad 0.07442 0.01128 6.596 4.23e-11 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 (5) ‘.’ 0.1 ‘’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1781.2 Residual deviance: 1738.4 AIC: 1742.4 on 3153 on 3152 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 4 Vemos en (5) que la Edad es efectivamente significativa para explicar el padecimiento de la enfermedad coronaria en estudio, obteniendo, en consecuencia, como modelo ajustado el siguiente: p = −5′ 94 + 0′ 0744 Edad 1−p De hecho, se podrı́a contrastar el modelo global como habitualmente hacemos, ejecutando log > 1-pchisq(1738.4,3152) [1] 1 D 222 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 0.0 0.2 0.4 p 0.6 0.8 1.0 que indica un ajuste estadı́sticamente perfecto. Por tanto, el modelo ası́ ajustado será 0 50 100 150 Edad Figura 6.1 : Función logı́stica p= siendo exp(−5′ 94 + 0′ 0744 Edad) 1 + exp(−5′ 94 + 0′ 0744 Edad) [6.1] p = P {éxito} = P {Y = 1} = P {chd = 1} Por ejemplo, la probabilidad de que un individuo de 65 años (de la población de donde se extrajo la muestra o, en general, de una población de la que la muestra sea representativa) padezca la enfermedad coronaria en estudio será p= exp(−5′ 94 + 0′ 0744 · 65) = 0′ 249 1 + exp(−5′ 94 + 0′ 0744 · 65) y la probabilidad de uno de 25 años, D 223 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos p= exp(−5′ 94 + 0′ 0744 · 25) = 0′ 0166. 1 + exp(−5′ 94 + 0′ 0744 · 25) De hecho, si representamos la función (6.1) ası́ ajustada, su representación gráfica es la Figura (6.1) que es claramente una función logı́stica Respecto a la interpretación de los coeficientes ajustados, como tenemos una regresión lineal para el logaritmo de la odds ratio log p/(1 − p), la interpretación de la pendiente de esta recta ajustada, β̂1 = 0′ 0744 , es clara como vimos en el capı́tulo anterior: β̂1 = 0′ 0744 es una estimación del cambio en el logaritmo de la OR del riesgo a infarto chd por el incremento de un año de Edad; es decir, exp(0′ 0744) = 1′ 077 (= 0′ 077 · 100/1 = 7′ 7 %) es una estimación del incremento en la odds ratio del riesgo de infarto por el incremento en cada año de Edad. Una estimación clı́nicamente más relevante es el incremento en la odds ratio del riesgo a infarto por el incremento de 10 años en la Edad. Ésta será: exp(0′ 0744 · 10) = 2′ 096; y en tanto por ciento, = 1′ 096 · 100/1 = 109′ 6 %, es decir, de más del 100 %, es decir, de más del doble. Problema 6.3 Los datos de la siguiente tabla corresponden a la Edad, la Tasa de Filtrado Glomerular (gfr) y la Creatinina en suero (cr), de 30 pacientes de los 180 del estudio de las funciones renales de Brochner-Mortensen et al. (1977). La gfr es el volumen de lı́quido filtrado desde los capilares glomerulares renales al interior de la cápsula Bowman, por unidad de tiempo (habitualmente, milı́metros por minuto) y clı́nicamente es muy importante porque se usa para analizar funciones renales. No obstante, en lugar de medir la gfr, es más simple estimarla a partir del ritmo de evacuación de la creatinina, cr, una molécula endógena, sintetizada en el cuerpo y que aparece como producto de la degradación de la creatina (un compuesto de alta energı́a) en los músculos, y que posee una tasa de excreción notablemente constante a lo largo del dı́a para cada paciente. La ventaja de esta técnica es que al ser la creatinina un producto endógeno, no requiere introducir en el organismo del paciente una sustancia extraña. La creatinina es libremente filtrada a nivel glomerular, aunque a diferencia de la insulina, también es excretada en pequeñas cantidades por los túbulos renales. Estas caracterı́sticas hacen que, aunque no exacta, la medida empleando el ı́ndice de evacuación de creatinina sea una buena aproximación del gfr aunque un simple gráfico prueba que esa relación no es de tipo lineal. D 224 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud Edad 25 25 28 21 30 32 38 44 49 42 41 47 44 43 43 57 56 51 51 52 56 54 66 64 62 64 65 61 69 67 CR 0.71 0.45 1.2 1.1 0.99 0.8 4.35 0.98 0.85 1.31 1.11 1.77 8.21 4.5 2.47 0.64 0.75 1.02 1 5.43 9.75 9.15 1.48 0.81 1.5 1.65 2 10.75 6.84 3.8 GFR 167 103 95 80 133 89 19 92 102 88 68 29 6.2 7.7 27 111 116 113 68 10 10 7.5 68 88 63 56 36 6.3 9.6 12 El objeto de este ejercicio es analizar, para este conjunto de datos, a) Una relación del tipo log(gf r) = β0 + β1 x siendo x = 1/cr . b) Una relación del tipo log(gf r) = β0 + β1 log(cr) + β2 log(Edad) Los datos del enunciado están en el fichero GFR por lo que primero los incorporaremos a R. Lo haremos con estructura data frame porque es la más general. A partir de ella podemos obtener los vectores de datos para la regresión. > GFR<-read.table("a:\\GFR",header=T) D 225 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos 4.0 2.5 2.0 0.5 3.0 1.0 3.5 1.5 4.5 2.0 5.0 > GFR Edad CR GFR 1 25 0.71 167.0 2 25 0.45 103.0 3 28 1.20 95.0 ................... 28 61 10.75 6.3 29 69 6.84 9.6 30 67 3.80 12.0 x y Figura 6.2 : Gráficos de Cajas de ambas variables a) Denominaremos x e y a los dos variables de regresión de la forma > y<-log(GFR[,3]) > x<-1/GFR[,2] Si analizamos separadamente ambas variables, Figura 6.2, mediante dos gráficos de cajas (box-plots) (CB-sección 14.5.1) vemos en el de la variable x un dato más allá del mayor bigote (whisker), que recordemos es una lı́nea que se traza en la mayor observación, si es que ésta es menor que 1′ 5 veces el recorrido intercuartı́lico (diferencia entre el tercer cuartil y el primer cuartil), y, si no es menor, el bigote se traza en ese 1′ 5 veces el recorrido intercuartı́lico. (Análogamente con el menor bigote). De esa forma se destacan los outliers, es D 226 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 2 0.5 1.0 1.5 2.0 Figura 6.3 : Valores x ordenados decir, aquellos datos más allá del grupo general de observaciones (más allá de 1′ 5 veces el recorrido intercuartı́lico). Esta Figura 6.2 se obtuvo ejecutando > par(mfrow=c(1,2)) > boxplot(x,xlab="x") > boxplot(y,xlab="y") El gráfico unidimensional de x, Figura 6.3, obtenido ejecutando > stripchart(x,pch=16,col=4) > text(2.2,1.04,2,col=2) confirma que la segunda observación es un dato anómalo. Si representamos los datos bidimensionales, Figura 6.4, ejecutando > plot(x,y,pch=16) > text(x,y,1:30,adj=2,cex=0.8,col=2) vemos que el dato 2 está, como antes, fuera de la nube de puntos del resto de los otros datos. Pero si calculamos la recta de mı́nimos cuadrados ejecutando > recta1<-lm(y~x) > recta1 Call: lm(formula = y ~ x) D 227 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos 5.0 1 5 17 4.5 18 26 23 25 3 8 4 9 24 6 16 2 11 19 27 3.5 y 4.0 10 12 3.0 15 2.5 7 30 2.0 212920 22 14 28 13 0.5 1.0 1.5 2.0 x Figura 6.4 : Nube de puntos Coefficients: (Intercept) 2.387 x 1.771 y obtenemos y = 2′ 387 + 1′ 771 la gráfica de los residuos de esta recta (Figura 6.5), obtenidos ejecutando > plot(resid(recta1)) no da una muestra clara de que ese valor es un outlier. Si calculamos la recta de regresión de Huber ejecutando > recta2<-rlm(y~x) > recta2 Call: rlm(formula = y ~ x) Converged in 7 iterations Coefficients: (Intercept) 2.218666 x 2.070785 Degrees of freedom: 30 total; 28 residual Scale estimate: 0.457 D 228 −0.5 −1.5 −1.0 resid(recta1) 0.0 0.5 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 0 5 10 15 20 25 30 Index Figura 6.5 : Residuos de la recta de mı́nimos cuadrados es decir, y = 2′ 1867 + 2′ 071 esta sı́ que proporciona unos residuos claros, (Figura 6.6). Es decir, la regresión robusta no sólo sirve para determinar rectas o hiperplanos menos sensibles a datos anómalos, sino que, a través de los residuos de las rectas de regresión robustas podemos detectar outliers, Método que se denomina Regression Diagnostics. > plot(resid(recta2)) En la Figura 6.7 aparecen ambas rectas en la nube de puntos, la de mı́nimos cuadrados en negro y trazo continuo y la de Huber en azul y trazo discontinuo. Este figura se obtuvo ejecutando > plot(x,y,pch=16,col=2) > abline(recta1) > abline(recta2,col=4,lty=4) b) Si incluimos ahora la primera variable, Edad y calculamos la Regresión Lineal Múltiple clásica ejecutando (1) y la Robusta, ejecutando (2), > x1<-log(GFR[,1]) > x2<-log(GFR[,2]) D 229 −0.5 −1.0 −2.0 −1.5 resid(recta2) 0.0 0.5 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos 0 5 10 15 20 25 30 Index Figura 6.6 : Residuos de la recta de regresión robusta de Huber > r1<-lm(y~x1+x2) > r1 (1) Call: lm(formula = y ~ x1 + x2) Coefficients: (Intercept) 4.56983 x1 -0.04318 x2 -1.11616 > r2<-rlm(y~x1+x2) (2) > r2 Call: rlm(formula = y ~ x1 + x2) Converged in 6 iterations Coefficients: (Intercept) x1 4.8867925 -0.1201561 x2 -1.1173761 Degrees of freedom: 30 total; 27 residual Scale estimate: 0.299 el gráfico dado por la Figura 6.8 pone de manifiesto una vez más, que tanto el dato 2 como el 14 son caracterizados como anómalos más claramente con la regresión robusta. > par(mfrow=c(1,2)) D 230 y 2.0 2.5 3.0 3.5 4.0 4.5 5.0 Al f on so Ga rcı́ aP ére z. UN E Cuadernos de Estadı́stica Aplicada: Área de la Salud 0.5 1.0 1.5 2.0 x Figura 6.7 : Nube de puntos y rectas de regresión > plot(resid(r1)) > plot(resid(r2)) D 231 −0.2 −0.8 −0.6 −0.4 resid(r2) 0.0 0.2 0.4 Al f on so Ga rcı́ aP ére z. UN E 0.0 −0.2 −0.4 −0.6 resid(r1) 0.2 0.4 Capı́tulo 6. Problemas Avanzados Resueltos 0 5 10 15 Index 20 25 30 0 5 10 15 20 25 Index Figura 6.8 : Residuos de las regresiones clásica y robusta 30 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 232 D Al f on so Ga rcı́ aP ére z. UN E Bibliografı́a Appelman, Y.E.A., Piek, J.J., Strikwerda, S., Tijssen, J.G.P., de Feyter, P.J., David, G.K., Serruys, P.W., Margolis, J.R., Koelemay, M.J., Montauban van Swijndregt, E.W.J. y Koolen, J.J. (1996). Randomised trial of excimer laser angioplasty versus balloon angioplasty for treatment of obstructive coronary artery disease. The Lancet, 347, 79-84. Azorı́n, F. y Sánchez-Crespo, J.L. (1986). Métodos y Aplicaciones del Muestreo. Alianza Universidad Textos. Brandjes, D.P.M., Buller, H.R., Heijboer, H., Huisman, M.V., de Rijk, M., Jagt, H. y ten Cate, J.W. (1997). Randomised trial of effect of compression stockings in patients with symptomatic proximal-vein thrombosis. The Lancet, 349, 759-762. Breiman, L. (2001). Random forest. Machine Learning, 45, 5-32. Breiman, L., Friedman, J., Olshen, R., y Stone, C. (1993). Classification and Regression Trees. Chapman and Hall/CRC. Brochner-Mortensen, J., Jensen, S. y Rodbro, P. (1977). Assessment of renal function from plasma creatinine in adult patients. Scandinavian Journal of Urology and Nephrology, 11, 263-270. Clayton, D. y Hills, M. (1993). Statistical Models in Epidemiology. Oxford University Press, Oxford. Cockburn, F., Belton, N.R., Purvis, R.J., Giles, M.M., Brown, J.K, Turner, T.L., Wilkinson, E.M., Forfar, J.O., Barrie, W.J., Mckay, G.S. y Pocock, S.J. (1980). Maternal vitamin D intake and mineral matabolism in mothers and their newborn infants. British Medical Journal, 281, 11-14. Cox, D.R. (1972). Regression models and life tables (with discussion). Journal of the Royal Statistical Society, B, 34, 187-220. Crowley, P., Chalmers, I. y Keirse, M.J.N.C. (1990). The effects of corticosteroid administration before preterm delivery: an overview of the evidence from controlled trials. British Journal of Obstetrics and Gynaecology, 97, 11-25. Ezdinli, E., Pocock, S., Berard, C.W., Aungst, C.W., Silverstein, M., Horton, J., Bennett, J., Bakemeier, R., Stolbach, L., Perlia, C., Brunk, S.F., Lenhard, R.E., Klaassen, D.J., Richter, P. y Carbone, P. (1976). Comparison of intensive versus moderate chemotherapy of lymphocytic lymphomas: a progress report. Cancer, 38, 1060-1068. Feigl, P. y Zelen, M. (1965). Estimation of exponential survival probabilities with concomitant information. Biometrics, 21, 826-838. Friedman, J. (1991). Multivariate adaptive regression splines (with discussion). Annals of Statistics, 19, 1-141. 233 D Cuadernos de Estadı́stica Aplicada: Área de la Salud Al f on so Ga rcı́ aP ére z. UN E 234 Garcı́a Pérez, A. (1993). Estadı́stica Aplicada con BMDP. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (1993). Estadı́stica Aplicada con SAS. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (1998). Problemas Resueltos de Estadı́stica Básica. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (2005). Métodos Avanzados de Estadı́stica Aplicada. Técnicas Avanzadas. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (2005). Métodos Avanzados de Estadı́stica Aplicada. Métodos Robustos y de Remuestreo. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (2008). Estadı́stica Aplicada: Conceptos Básicos. Segunda edición. UNED. Colección: Educación Permanente. Garcı́a Pérez, A. (2008). Ejercicios de Estadı́stica Básica. UNED. Colección: Cuadernos de la UNED. Garcı́a Pérez, A. (2008). Estadı́stica Aplicada con R. Editorial UNED. Colección Varia. Hackett, A.F., Court, S., Matthews, J.N.S., McCowen, C. y Parkin, J.M. (1989). Do education groups help diabetics and their parents? Archives of Disease in Childhood, 64, 997-1003. Hommel, E., Parving, H.H, Mathiesen, E., Edsberg, B., Damkjaer, Nielsen, M. y Giese, J. (1986). Effect of Captopril on kidney function in insulin-dependent diabetic patients with nephropathy. British Medical Journal, 293, 467-470. Hosmer, D.W. y Lemeshow, S. (1989). Applied Logistic Regression. Ed. Wiley. Kalbfleisch, J.D. y Prentice, R.L. (1980). The statistical analysis of failure time data. Ed. Wiley. Krall, J.M., Uthoff, V.A. y Harley, J.B. (1975). A step-up procedure for selecting variables associated with survival. Biometrics, 31, 49-57. Lee, E.T. (1980). Statistical methods for survival data analysis. Belmont, CA:Life-time learning publications. Lind, J. (1753). A Treatise of the Scurvy. Sand Murray Cochran, Edinburgh. Matthews, J.N.S. (2000). An Introduction to Randomized Controlled Clinical Trials. Arnold, London. MIST Study Group (1998). Randomized trial of efficacy and safety of inhaled zanamivir in treatment of influenza A and B virus infections. The Lancet, 352, 1877-1881. Murray, J.D., Dunn, G., Williams, P. y Tarnopolsky, A. (1981). Factors influencing the consumption of psychotropic drugs. Psychological Medicine, 12, 371-378. Nelson, W.B. y Hahn, G.J. (1972). Linear estimation of a regression relationships from censored data, part 1. Technometrics, 14, 247-276. Packard, F.R. (1921). The Life and Times of Ambroise Paré. Hoeber, New York. Pike, M.C. (1966). A method of analysis of certain class of experiments in carcinogenesis. Biometrics, 22, 142-161. Rosenman, R.H., Friedman, M., Straus, R., Wurm, M., Kositchek, R., Hahn, W. y Werthessen, N.T. (1964). A predictive study of coronary heart disease: the western collaborative group study. Journal of the American Medical Association, 189, 113-120. D 235 Al f on so Ga rcı́ aP ére z. UN E Capı́tulo 6. Problemas Avanzados Resueltos Ruczinski, I., Kooperberg, C. y LeBlanc, M. (2003). Logic regression. Journal of Computational and Graphical Statistics, 12, 475-511. Ruczinski, I., Kooperberg, C. y LeBlanc, M. (2004). Exploring interactions in high dimensional genomic data: an overview of logic regression. Journal of Multivariate Analysis, 90, 178-195. Senn, S.J. y Auclair, P. (1990). The graphical representation of clinical trials with particular reference to measurements over time. Statictics in Medicine, 9, 1287-1302. Smith, A.C., Dowsett, J.F., Russell, R.C.G., Hatfield, A.R.W. y Cotton, P.B. (1994). Randomised trial of endoscopic stenting versus surgical bypass in malignant low bileduct obstruction. The Lancet, 344, 1655-1660. Tobin, J. (1958). Estimation of relationships for limited dependent variables, Econometrica, 26, 24-36. Vittinghoff, E., Glidden, D.V., Shiboski, S.C. y McCulloch, C.E. (2005). Regression Methods in Biostatistics. Linear, Logistic, Survival, and Repeated Measures Models. Springer, New York. Winston, D.J., Wirin, D., Shaked, A. y Busuttil, R.W. (1995). Randomised comparison of gancislovir and high-dose acylovir for long-term cytomegalovirus prophylaxis in livertransplant recipients. The Lancet, 346, 69-74.

A lfonso G arc´ıa P érez.U N ED

Documentos relacionados

Productos

Apoyo

A lfonso G arc´ıa P érez.U N ED

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib