Métodos de Regresión Ciencias y Técnicas Estadísticas Práctica 1. Curso 2007 / 2008 “t-Student y Anova 1F” 1. 1.1. t-Student Excel 1. Se tienen datos experimentales correspondientes a 17 individuos de los que se ha recogido el valor que presentan en dos variables, una de ellas cuantitativa (respuesta=Rta) y otra dicotómica (explicativa=Exp). Se supone que la variable respuesta para cada grupo que forma la variable explicativa es Normal. Los datos se encuentran en "datos_introduccion[dos_grupos].xls". Dichos datos se muestran, además, en la tabla siguiente: Rta 15 15 25 25 25 33 43 Exp 1 1 1 1 1 1 1 Rta 15 16 16 25 28 28 28 28 35 43 Exp 2 2 2 2 2 2 2 2 2 2 Los cálculos hay que realizarlos con Excel y/o calculadora indicando en cada apartado qué funciones de Excel se han utilizado. (Cuando sea necesario Herramientas / Análisis de datos, activar previamente Herramientas / Complementos / Herramientas para análisis). a) b) Calcular los estadísticos descriptivos básicos x1 ; x2 ; sb1 y sb2 : ¿Cuál es la medida del efecto en este caso? c) Calcular un IC90 % para la diferencia de medias poblacional de varianzas. d) Calcular un IC90 % para la diferencia de medias poblacional igualdad de varianzas. e) Realizar el test t-Student para contrastar H0 : 1 = 2 vs. Ha : 1 6= 2 suponiendo igualdad de varianzas con un nivel de signi…cación del 0; 10. Calcular el p-valor asociado. f) Realizar el test t-Student (Satterthwaite) para contrastar H0 : 1 = 2 vs. Ha : 1 6= 2 suponiendo no igualdad de varianzas con un nivel de signi…cación del 0; 10. Calcular el p-valor asociado. 1 1 2 1 suponiendo igualdad 2 suponiendo no g) Realizar el test F-Fisher-Snedecor para contrastar H0 : 21 = nivel de signi…cación del 0; 10: Calcular el p-valor asociado. 2 2 vs. Ha : 2 1 6= 2 2 con un h) A la vista del resultado obtenido en el apartado anterior, ¿que test hay que utilizar para contrastar H0 : 1 = 2 vs. Ha : 1 = 6 2 : t-Student o t-Student (Satterthwaite)? SOLUCION: 1. a) Las medias y las cuasi-desviaciones típicas de la variable cuantitativa (respuesta=Rta) para cada uno de los grupos de la variable dicotómica (explicativa=Exp) son n1 1 X x1 = xi1 = ______ n1 i1=1 x2 = v u u sb1 = t v u u sb2 = t n2 1 X xi2 = ______ n2 i2=1 1 n1 n1 X (xi1 x1 ) = ______ n2 X (xi2 x2 ) = ______ 1 i1=1 1 n2 1 i2=1 2 2 siendo n1 el tamaño muestral del grupo 1, n2 el tamaño muestral del grupo 2, xi1 los valores de la variable Rta para el grupo 1 y xi2 los valores de la variable Rta para el grupo 2. Las funciones utilizadas en Excel son ________________. b) La medida del efecto en este caso es ________ que se estima por ________: c) Para calcular el IC90 % para la diferencia de medias poblacional se necesita calcular en primer lugar el error estándar de la diferencia de medias que, en el supuesto de igualdad de varianzas, es s EE X 1 que se estima por d X1 EE 2 X2 = X2 = s sb2 1 1 + n1 n2 1 1 + n1 n2 siendo sb2 la varianza conjunta ("pooled variance") que tiene por expresión con lo que sb2 = d X1 EE (n1 1) sb21 + (n2 (n1 1) + (n2 X2 = s sb2 1) sb22 = ______ 1) 1 1 + n1 n2 = ______ En segundo lugar para calcular el IC deseado se necesita el valor de la t-Student t =2;gl para = ______ (con…anza del 90 %) y con grados de libertad gl = (n1 1) + (n2 1) = n1 + n2 2 = ______, que resulta ser t =2;gl = ______, con lo que el intervalo de con…anza buscado es IC90 % ( 1 2) = X1 2 X2 t d X1 =2;gl EE X2 = _______________ Observar que el intervalo anterior cubre al cero para la diferencia de medias poblacionales de los dos grupos. El valor t d) =2;gl = ______ se consigue en Excel con la función __________. Para calcular el IC90 % para la diferencia de medias poblacional se necesita calcular en primer lugar el error estándar de la diferencia de medias que, en el supuesto de no igualdad de varianzas, es s EE X 1 X2 = 2 1 n1 + 2 2 n2 que se estima por d X1 EE con lo que s q 2 2 2 2 d X 2 = sb1 + sb2 d X 1 + EE = EE n1 n2 X2 d X1 EE X2 = s sb21 sb2 + 2 = ______ n1 n2 En segundo lugar para calcular el IC deseado se necesita el valor de la t-Student t =2;gl para = 0; 10 (con…anza del 90 %) y con grados de libertad gl dados por la siguiente expresión 4 d X1 X2 EE = ______ gl = 4 4 1 d 1 d X EE X + EE 2 1 n1 1 n2 1 que resulta ser t =2;gl = ______, con lo que el intervalo de con…anza buscado es IC90 % ( 1 2) = X1 X2 t d X1 =2;gl EE X2 = _______________: Observar que el intervalo anterior cubre al cero para la diferencia de medias poblacionales de los dos grupos. El valor t e) =2;gl = _____ se consigue en Excel con la función _____________. Para llevar a cabo el contraste requerido se construye el estadístico de contraste experimental t dado por t= X1 X2 x1 x2 =r d X1 X2 EE sb2 n11 + n12 = ______ que bajo la hipótesis nula sigue una distribución t-Student con grados de libertad gl = n1 + n2 2 = ______, que tiene asociado un p valor = ______, que al ser mayor que 0,10 nos lleva a ______ la hipótesis nula. Observar la concordancia con el hecho de que el IC90 % para la diferencia de medias cubriese al valor _____. El p valor = ______ asociado a t = ______ se consigue en Excel con la función __________. Este contraste se puede realizar en Excel con _______________. 3 f) Para llevar a cabo el contraste requerido se construye el estadístico de contraste experimental t dado por t= X1 X2 x1 x2 =q 2 = ______ d s b1 s b22 EE X 1 X 2 + n1 n2 que bajo la hipótesis nula sigue una distribución t-Student con grados de libertad gl = 1 n1 d EE d 1 EE 4 4 X1 X1 + X2 1 n2 d 1 EE 4 = ______ X2 que tiene asociado un p valor = ______, que al ser mayor que 0,10 nos lleva a ______ la hipótesis nula. Observar la concordancia con el hecho de que el IC90 % para la diferencia de medias cubriese al valor ______. El p valor = ______ asociado a t = ______ se consigue en Excel con la función ________________. Este contraste se puede realizar en Excel con ________________. g) Para llevar a cabo el contraste requerido se construye el estadístico de contraste experimental F dado por max sb21 ; sb22 F = = ______ m n fb s21 ; sb22 g que bajo la hipótesis nula sigue una distribución F-Fisher-Snedecor con gln= n1 1 = ______ los grados de libertad del numerador y gld = n2 1 = ______ los grados de libertad del denominador, que tiene asociado un p valor = ______, que al ser mayor que 0,10 nos lleva a ______ la hipótesis nula. El p valor = ______ asociado a F = ______ se consigue en Excel con la función ________________. Este contraste se puede realizar en Excel con _________________, aunque el p-valor que da es unilateral. h) 1.2. Dado que en el apartado anterior _________________, se tendría que utilizar el test _______________. SPSS 2. Recuperar con SPSS los datos del …chero “datos_introduccion[dos_grupos].xls”. a) Indicar los menús y submenús que se han utilizado. b) Guardar la sintaxis que se genera, al realizar el apartado anterior, en un …chero con nombre “student.sps”. En este …chero se irá añadiendo la sintaxis que se genere en este ejercicio. c) Indicar los menús y submenús que hay que utilizar para calcular un IC90 % para la diferencia de medias poblacional 1 2 suponiendo igualdad de varianzas y sin suponer igualdad de varianzas. Guardar la sintaxis en el mismo …chero “.sps” e ir añadiendo comentarios en él. d) ¿Se puede realizar el test t-Student para contrastar H0 : 1 = 2 vs. Ha : 1 6= 2 suponiendo igualdad de varianzas con un nivel de signi…cación del 0; 10 y calcular el p-valor asociado? 4 2. 2.1. e) ¿Se puede realizar el test t-Student (Satterthwaite) para contrastar H0 : 1 = 2 vs. Ha : 1 6= 2 suponiendo no igualdad de varianzas con un nivel de signi…cación del 0; 10 y calcular el p-valor asociado? f) ¿Qué test utiliza SPSS para contrastar H0 : 21 = signi…cación del 0; 05? Calcular el p-valor asociado. g) ¿Concuerdan todos los resultados que da SPSS con los obtenidos con Excel? ¿Qué diferencias hay? 2 2 vs. Ha : 2 1 6= 2 2 con un nivel de Anova 1 Factor Excel 3. En el …chero "datos_introduccion[frecardiaca].xls" se encuentra información relativa a 40 individuos a los que se les realizó una prueba de esfuerzo. En este ejercicio sólo se considera la variable explicativa Status (tipo de entrenamiento) como nominal y la variable respuesta FC2 (frecuencia cardiaca tras el ejercicio) como cuantitativa. Los datos necesarios se muestran en la siguiente tabla: FC2 Status FC2 Status FC2 Status 155 1 165 2 126 3 154 1 148 2 128 3 148 1 128 2 120 3 132 1 126 2 126 3 126 1 160 2 116 3 132 1 136 2 142 3 156 1 158 2 144 3 138 1 142 2 112 3 158 1 134 2 116 3 144 1 148 2 120 3 144 1 146 2 122 3 136 1 132 3 134 1 142 1 138 1 140 1 136 1 Asumir que la variable respuesta para cada grupo que forma la variable explicativa es Normal. Los cálculos hay que realizarlos con Excel y/o calculadora indicando en cada apartado qué funciones de Excel se han utilizado. a) ¿Por qué se llama Análisis de la Varianza si se están comparando medias? b) Realizar el test Anova 1 Factor para contrastar H0 : es distinta. Calcular el p-valor asociado. c) Disponer la información del test Anova 1 Factor de la forma habitual mediante una Tabla de Anova. 5 1 = 2 = 3 vs. Ha : alguna media d) ¿Qué se concluye con el test anterior? e) ¿Qué condiciones de aplicabilidad se tienen que veri…car para poder aplicar el Anova 1 factor? ¿Cómo se veri…can? f) Calcular el coe…ciente de determinación. SOLUCIÓN: 3. a) _________________________________________ _________________________________________. b) Las sumas de cuadrados son un paso previo para el cálculo del Anova. Si se denotan por r al número de grupos de la variable explicativa, por nm al número de individuos en cada grupo m = 1; :::; r, x:m la media de cada grupo y x::la media global, se tiene que la suma de cuadrados entre los grupos SCE ("between"), la suma de cuadrados dentro de los grupos SCD ("within") y la suma de cuadrados total SCT se calculan del siguiente modo r X 2 SCE = nm (x:m x:: ) m=1 SCD = nm r X X 2 (xim x:m ) = m=1 i=1 SCT = nm r X X x2im m=1 i=1 nm r X X (xim r X nm x2:m m=1 2 x:: ) = SCE + SCD m=1 i=1 Para los datos del ejemplo SCE = _______________ SCD = ______________ SCT = _____ A continuación se calculan los grados de libertad entre grupos GLE, dentro de los grupos GLD y total GLT según las expresiones GLE = r 1 = _____ GLD = n r = _____ GLT = GLE + GLD = n 1 = _____ El cuadrado medio entre los grupos CM E y el cuadrado medio dentro de los grupos CMD se calculan como SCE CM E = = _____ GLE SCD CM D = = _____ GLD El estadístico de contraste F del Anova 1 factor se construye como F = CM E = _____ CM D que se distribuye según una F-Fisher-Snedecor con GLE = _____ grados de libertad del numerador y GLD = _____ grados de libertad del denominador, que tiene asociado un p-valor _____. Este contraste se puede realizar en Excel con Herramientas / Análisis de Datos / Análisis de la varianza de un factor. 6 c) La Tabla Anova con la información obtenida en el apartado anterior es Entre Dentro Total d) Suma Cuadrados SCE=_____ SCD=_____ SCT=_____ GL GLE=__ GLD=__ GLT=__ Cuadrado Medio CME=_____ CMD=_____ F F=_____ p-valor ____ _________________________________________ _________________________________________. e) _________________________________________ _________________________________________. f ) Una medida relativa de la variabilidad explicada por los grupos es el cociente R2 = SCE = ______ SCT con lo que se tendría que la variabilidad de la variable respuesta es explicada por la variable que forma los grupos en un ______ %. 2.2. SPSS 4. Recuperar con SPSS los datos del …chero “datos_introduccion[frecardiaca].xls”. a) Indicar los menús y submenús que se han utilizado. b) Guardar la sintaxis que se genera, al realizar el apartado anterior, en un …chero con nombre “anova.sps”. En este …chero se irá añadiendo la sintaxis que se genere en este ejercicio. c) Indicar los menús y submenús que hay que utilizar para realizar el test Anova 1 Factor para contrastar H0 : 1 = 2 = 3 vs. Ha : alguna media es distinta. (de FC2 por STATUS). Calcular el p-valor asociado. Guardar la sintaxis en el mismo …chero “.sps” e ir añadiendo comentarios en él. d) Indicar los menús y submenús que hay que utilizar para veri…car las hipótesis necesarias para utilizar Anova 1 factor. Guardar sintaxis con comentarios. e) ¿Concuerdan todos los resultados que da SPSS con los obtenidos con Excel? ¿Qué diferencias hay? f) Se puede aplicar el test de Anova 1 factor a dos grupos? ¿Cuál es el test resultante? 7