Capítulo 5 Inferencia Paramétrica I __________________________________________ 11 Objetivos _________________________________________________________________________ 11 Introducción __________________________________________________________________ 12 Contenido ________________________________________________________________________ 12 Notación _______________________________________________________________________ 13 Métodos de inferencia ________________________________________________________________ 14 Inferencia estadística _________________________________________________________________ 15 Pasos en una inferencia ___________________________________________________________ 15 Paso 1 Problema _____________________________________________________________________ 15 Paso 2 Modelado ____________________________________________________________________ 15 P2a Supuestos _____________________________________________________________________ 15 P2b Modelo ______________________________________________________________________ 16 Paso 3 Diseño del experimento _________________________________________________________ 16 P3a Variables _____________________________________________________________________ 16 P3b Datos ________________________________________________________________________ 16 Paso 4 Análisis inferencial _____________________________________________________________ 16 P4a Inferencia _____________________________________________________________________ 16 P4b Decisión ______________________________________________________________________ 17 P4a Inferencia por IC _______________________________________________________________ 17 Estimación________________________________________________________________________ 17 Estimación puntual _______________________________________________________________ 17 1. Insesgado __________________________________________________________________ 18 2. Convergente o consistente _____________________________________________________ 18 3. Eficiente ___________________________________________________________________ 19 4. Suficiente __________________________________________________________________ 19 Verosimilitud ___________________________________________________________________ 19 MLE de una binomial ___________________________________________________________ 20 Análisis por IC ___________________________________________________________________ 20 1 Elección del IC _________________________________________________________________ 20 2 Construcción del IC _____________________________________________________________ 21 IC bilateral ____________________________________________________________________ 21 Margen de error _______________________________________________________________ 22 Dos formas distintas de expresar el IC ______________________________________________ 23 IC unilaterales _________________________________________________________________ 23 P4b Decisión por IC _________________________________________________________________ 23 P4a Inferencia por PH _______________________________________________________________ 24 Análisis por PH ___________________________________________ Error! Bookmark not defined. 1 Elección de la PH _______________________________________________________________ 24 Prueba Bilateral o de 2 colas _____________________________________________________ 24 Prueba Unilateral o de 1 cola _____________________________________________________ 26 2 Comparación __________________________________________________________________ 27 Alternativas de comparación _____________________________________________________ 27 Conclusión fuerte y débil ________________________________________________________ 28 P4b Decisión por PH ________________________________________________________________ 30 Evidencia y significación _________________________________________________________ 30 Redacción ____________________________________________________________________ 30 Igualdad _____________________________________________________________________ 31 Múltiples negaciones ___________________________________________________________ 31 Sentido común ________________________________________________________________ 31 Tres errores para tener en cuenta ___________________________________________________ 31 Paso 5 Verificación y validación _________________________________________________________ 32 P5a Verificación de supuestos ________________________________________________________ 32 P5b Validación ____________________________________________________________________ 32 I Diseño ______________________________________________________________________ 33 1 Capítulo 5 Inferencia Paramétrica I a Tipos de muestreos probabilísticos ___________________________________________________ 33 Error de muestreo _____________________________________________________________ 34 Error de no muestreo ___________________________________________________________ 34 b. Potencia P y errores alfa y beta _____________________________________________________ 35 Error α _________________________________________________________________________ 35 Error β y potencia P ______________________________________________________________ 35 Tener en cuenta _______________________________________________________________ 37 Juicios _______________________________________________________________________ 37 Pruebas Diagnóstico ____________________________________________________________ 37 Potencia estadística P _____________________________________________________________ 38 Factores que afectan a P ________________________________________________________ 38 Tamaño del Efecto de la población __________________________________________________ 39 Curvas de Potencia _____________________________________________________________ 40 Cálculo de P (o de β) ______________________________________________________________ 40 1 A mano _____________________________________________________________________ 40 2 Curvas estandarizadas _________________________________________________________ 43 3 SPSS _______________________________________________________________________ 43 4 GPower ____________________________________________________________________ 43 Riesgos del comprador y del vendedor _______________________________________________ 45 Estima de la desviación estándar ____________________________________________________ 45 Problema resuelto 5.1 Nuevo programa federal de educación _________________________ 45 Problema resuelto 5.2 Cantidad de cajas de cereales ________________________________ 48 Problema resuelto 5.3 Libro de texto _____________________________________________ 51 c. Tamaño de la muestra ____________________________________________________________ 51 1. Controlando el B de un IC ________________________________________________________ 52 θ =μ Problema (variables cuantitativas contínuas) ____________________________________ 52 Población infinita ______________________________________________________________ 52 Factores que afectan a n ________________________________________________________ 53 Población finita ________________________________________________________________ 53 Criterios _____________________________________________________________________ 54 θ=p Problema (variables cuantitativas discretas) ____________________________________ 54 Criterios _____________________________________________________________________ 54 Regla práctica _________________________________________________________________ 55 θ = Δμ (variables cuantitativas contínuas) __________________________________ 55 θ = Δp (variables cuantitativas discretas) ___________________________________ 56 Problema Problema Problema resuelto 5.4 Peso de los pollitos ________________________________________ 57 Problema resuelto 5.5 Encuesta de estudiantes ____________________________________ 58 2. Controlando la P de una PH ______________________________________________________ 59 θ =μ Problema (variables cuantitativas contínuas) ____________________________________ 59 Potencia, P ___________________________________________________________________ 59 Tamaño de la muestra, n ________________________________________________________ 59 Factores que afectan a n ________________________________________________________ 60 Prueba de 2 colas ______________________________________________________________ 60 Distribución no normal __________________________________________________________ 60 θ=p Problema (variables cuantitativas discretas) ____________________________________ 61 Potencia, P ___________________________________________________________________ 61 Tamaño de la muestra, n ________________________________________________________ 61 Problema θ = σ (variables cuantitativas contínuas) ___________________________________ 61 Potencia, P ___________________________________________________________________ 62 Tamaño de la muestra, n ________________________________________________________ 62 Problema θ = Δμ = Δ (variables cuantitativas contínuas) ______________________________ 62 2 2 Jorge Carlos Carrá Introducción Objetivos Potencia, P ___________________________________________________________________ 62 Tamaño de la muestra, n ________________________________________________________ 62 Problema θ = Δp = Δ (variables cuantitativas discretas) _______________________________ 63 Potencia, P ___________________________________________________________________ 64 Tamaño de la muestra, n ________________________________________________________ 64 Problema θ = σ 12 σ 22 (variables cuantitativas contínuas) _________________________________ 65 Potencia, P ___________________________________________________________________ 65 Tamaño de la muestra, n ________________________________________________________ 66 Problema θ = r (variables cuantitativas contínuas) ____________________________________ 66 Potencia, P ___________________________________________________________________ 66 Tamaño de la muestra, n ________________________________________________________ 66 Problema θ = Δr (variables cuantitativas contínuas) ___________________________________ 66 Potencia, P ___________________________________________________________________ 66 Tamaño de la muestra, n ________________________________________________________ 66 3. Control por PH vs control por IC _____________________________________________________ 67 Problema resuelto 5.6 H0 versus H1 ______________________________________________ 67 Problema resuelto 5.7 Proporción de votantes _____________________________________ 70 Problema resuelto 5.8 Tamaño muestral de varias variables __________________________ 74 Paso 5a: Verificar supuestos: Potencia retrospectiva ______________________________________ 77 El dm indica una prueba no significativa _____________________________________________ 79 El dm indica una prueba significativa _______________________________________________ 80 II Análisis de una variable ________________________________________________________ 82 Problema a: media de una variable cuantitativa contínua __________________________________ 82 Modelado ______________________________________________________________________ 82 Normal o t de Student (asintótica o exacta) ___________________________________________ 82 Supuestos ____________________________________________________________________ 82 Análisis por IC _________________________________________________________________ 83 Análisis por PH ________________________________________________________________ 85 Interrelación entre IC y PH _______________________________________________________ 85 Barras de error __________________________________________________________________ 86 SPSS ___________________________________________________________________________ 87 Barras de error ________________________________________________________________ 88 Tamaño del efecto y ecuación de diseño ______________________________________________ 88 Potencia y tamaño de la muestra ____________________________________________________ 89 Problema resuelto 5.9 Deuda de la cooperadora ___________________________________ 89 Caso particular __________________________________________________________________ 95 Problema resuelto 5.10 Tareas triviales ___________________________________________ 95 Problema b: proporción de una variable cuantitativa discreta _______________________________ 98 Modelado ______________________________________________________________________ 98 Supuestos ____________________________________________________________________ 99 1 Binomial (exacta) _______________________________________________________________ 98 Análisis por PH ________________________________________________________________ 99 2 Normal (asintótica) _____________________________________________________________ 99 Análisis por IC ________________________________________________________________ 100 Análisis por PH _______________________________________________________________ 100 Normal con transformación arcsen (asintótica) _______________________________________ 101 3 Chi‐cuadrado (asintótica) _______________________________________________________ 101 Bondad del Ajuste _____________________________________________________________ 102 Supuestos ___________________________________________________________________ 103 Análisis por IC ________________________________________________________________ 103 Análisis por PH _______________________________________________________________ 103 SPSS __________________________________________________________________________ 104 3 Capítulo 5 Inferencia Paramétrica I 1 Binomial ___________________________________________________________________ 104 2 t de Student ________________________________________________________________ 104 3 Chi‐cuadrado _______________________________________________________________ 105 Tamaño del efecto y ecuación de diseño _____________________________________________ 105 1 Normal ____________________________________________________________________ 105 2 Normal con transformación arcsen ______________________________________________ 106 3 Chi‐cuadrado _______________________________________________________________ 106 Potencia y tamaño de la muestra ___________________________________________________ 107 1 Normal usando las proporciones _______________________________________________ 107 2 Normal usando el tamaño del efecto h ___________________________________________ 107 3 Chi–cuadrado _______________________________________________________________ 108 Problema resuelto 5.11 Entrada a la universidad __________________________________ 108 Problema resuelto 5.12 Chocolate preferido ______________________________________ 116 Problema resuelto 5.13 Bondad del ajuste _______________________________________ 122 Problema c: varianza de una variable cuantitativa contínua ________________________________ 125 Modelado _____________________________________________________________________ 125 Diagramas de caja _______________________________________________________________ 125 Chi‐cuadrado (exacta) ___________________________________________________________ 125 Supuestos ___________________________________________________________________ 126 Análisis por IC ________________________________________________________________ 127 Análisis por PH _______________________________________________________________ 127 Interrelación entre IC y PH ______________________________________________________ 127 SPSS __________________________________________________________________________ 128 Tamaño del efecto y ecuación de diseño _____________________________________________ 128 Potencia y Tamaño de la muestra __________________________________________________ 129 Problema resuelto 5.14 Peso de los sobres de café ________________________________ 129 III Análisis de dos variables: Comparación entre grupos ______________________________ 137 Problema a: comparación de medias de variables cuantitativas contínuas ____________________ 137 Diferencia de medias θ = Δμ ____________________________________________________ 137 Modelado _____________________________________________________________________ 138 Normal o t de Student (exacta o asintótica) __________________________________________ 138 Supuestos ___________________________________________________________________ 138 Dos muestras de poblaciones independientes ________________________________________ 138 Análisis por IC ________________________________________________________________ 138 Casos _______________________________________________________________________ 139 1 y 2 Se conocen las σ de ambas poblaciones _______________________________________ 139 3 y 4 Ambas σ se desconocen ___________________________________________________ 139 Análisis por PH _______________________________________________________________ 140 Dos muestras apareadas _________________________________________________________ 140 Normal o t de Student (exacta o asintótica) __________________________________________ 140 Análisis por IC ________________________________________________________________ 140 Análisis por PH _______________________________________________________________ 142 Barras de error _________________________________________________________________ 142 SPSS __________________________________________________________________________ 143 3 GLM ______________________________________________________________________ 144 Razón de medias independientes θ = Rμ __________________________________________ 144 Tamaño del efecto y ecuación de diseño _____________________________________________ 144 Dos muestras independientes ___________________________________________________ 145 Dos muestras apareadas _______________________________________________________ 146 Potencia y tamaño de la muestra ___________________________________________________ 147 Dos muestras independientes ___________________________________________________ 147 Dos muestras apareadas _______________________________________________________ 148 Problema resuelto 5.15 Toma de apuntes en clase _________________________________ 148 Problema resuelto 5.16 Toma de apuntes en clase _________________________________ 154 4 Jorge Carlos Carrá Introducción Objetivos Caso particular _________________________________________________________________ 159 Problema resuelto 5.17 Construcción de centro comercial __________________________ 160 Problema b: comparación de proporciones de variables cuantitativas discretas ________________ 164 Diferencia de proporciones θ = Δp _______________________________________________ 164 Modelado _____________________________________________________________________ 164 Dos muestras independientes _____________________________________________________ 164 Supuestos ___________________________________________________________________ 165 1 Normal (asintótica) ____________________________________________________________ 166 Análisis por IC ________________________________________________________________ 166 Análisis por PH _______________________________________________________________ 167 2 Normal con transformación arcsen (asintótica) ______________________________________ 167 3 Chi‐cuadrado (asintótica) _______________________________________________________ 168 Análisis por PH _______________________________________________________________ 169 Supuestos ___________________________________________________________________ 170 Variables multicotómicas _________________________________________________________ 171 4 Prueba exacta de Fisher (condicional) _____________________________________________ 171 La dama inglesa ______________________________________________________________ 171 Dos muestras apareadas _________________________________________________________ 173 Supuestos ___________________________________________________________________ 174 1 Binomial (exacta) ______________________________________________________________ 174 Análisis por PH _______________________________________________________________ 174 2 Normal (asintótica) ____________________________________________________________ 175 Análisis por PH _______________________________________________________________ 175 3 Chi‐cuadrado (asintótica) _______________________________________________________ 175 Análisis por PH _______________________________________________________________ 175 Formatos muestras independientes vs muestras apareadas ___________________________ 176 SPSS __________________________________________________________________________ 176 Muestras independientes _______________________________________________________ 176 Muestras apareadas ___________________________________________________________ 176 Razón de proporciones θ = Rp __________________________________________________ 176 1 Normal Risk Ratio, RR (asintótica) _________________________________________________ 176 2 Normal, Odd Ratio, OR (asintótica) ________________________________________________ 177 Tamaño del efecto y ecuación de diseño _____________________________________________ 178 Dos muestras independientes ___________________________________________________ 178 1 Normal ____________________________________________________________________ 178 2 Normal con transformación arcsen ______________________________________________ 178 3 Chi‐cuadrado _______________________________________________________________ 179 4 Normal con razones de proporciones ____________________________________________ 179 Dos muestras apareadas _______________________________________________________ 180 1 Normal ____________________________________________________________________ 180 2 Chi cuadrado _______________________________________________________________ 180 Potencia y tamaño de la muestra ___________________________________________________ 180 Dos muestras independientes y H0: Δ0=0 __________________________________________ 180 1 Normal ____________________________________________________________________ 180 2 Normal con transformación arcsen ______________________________________________ 181 3 Chi–cuadrado _______________________________________________________________ 182 4 Normal con razones de proporciones ____________________________________________ 182 Dos muestras apareadas _______________________________________________________ 182 1 Normal ____________________________________________________________________ 182 2 Chi–cuadrado _______________________________________________________________ 182 Problema resuelto 5.18 Tratamiento para dejar de fumar ___________________________ 183 Problema resuelto 5.19 Tratamiento para dejar de fumar ___________________________ 189 Problema c: comparación de varianzas de variables cuantitativas contínuas __________________ 193 5 Capítulo 5 Inferencia Paramétrica I σ 12 Razón de varianzas θ = 2 σ2 ______________________________________________________ 193 Modelado _____________________________________________________________________ 194 Prueba F (exacta) _______________________________________________________________ 194 Supuestos ___________________________________________________________________ 194 Análisis por IC ________________________________________________________________ 195 Análisis por PH _______________________________________________________________ 195 Interrelación entre IC y PH ________________________________________________________ 196 Diferencia de desviaciones θ = Δd ________________________________________________ 197 Prueba de Levene (normal o asintótica) _____________________________________________ 197 Análisis por IC y PH ____________________________________________________________ 197 Diagramas de caja _______________________________________________________________ 197 SPSS __________________________________________________________________________ 197 Prueba de Levene _____________________________________________________________ 197 Prueba F ____________________________________________________________________ 197 Tamaño del efecto y ecuación de diseño _____________________________________________ 198 Potencia y tamaño de la muestra ___________________________________________________ 199 Problema resuelto 5.20 Toma de apuntes en clase _________________________________ 199 IV Análisis de dos variables: Asociación entre variables _______________________________ 206 Problema a: Correlación ______________________________________________________________ 206 1. Escala por escala (por lo menos) ___________________________________________________ 206 θ =ρ __________________________________________________________________________ 206 Supuestos _____________________________________________________________________ 206 a t de Student __________________________________________________________________ 207 Modelado _____________________________________________________________________ 207 Análisis _______________________________________________________________________ 207 Análisis por IC ________________________________________________________________ 207 Análisis por PH _______________________________________________________________ 207 b Normal con transformación arcth _________________________________________________ 208 Modelado _____________________________________________________________________ 208 Análisis _______________________________________________________________________ 209 Análisis por IC ________________________________________________________________ 209 Análisis por PH _______________________________________________________________ 209 θ = Δρ ________________________________________________________________________ 209 2. Nominal por nominal (por lo menos) ________________________________________________ 210 Supuestos _____________________________________________________________________ 210 Modelado _____________________________________________________________________ 210 Análisis _______________________________________________________________________ 210 3 Ordinal por ordinal (por lo menos) __________________________________________________ 210 Supuestos _____________________________________________________________________ 211 Modelado _____________________________________________________________________ 211 Valores críticos _______________________________________________________________ 211 Tabla de contingencias _________________________________________________________ 211 Análisis _______________________________________________________________________ 212 SPSS ____________________________________________________________________________ 212 Coeficientes de correlación _____________________________________________________ 212 Tabla de contingencias _________________________________________________________ 212 Tamaños del efecto y ecuación de diseño ______________________________________________ 212 ρ ____________________________________________________________________________ 212 t de Student _________________________________________________________________ 212 normal con transformación arcth ________________________________________________ 213 w ____________________________________________________________________________ 213 Δρ ___________________________________________________________________________ 213 Potencia y tamaño de la muestra _____________________________________________________ 215 6 Jorge Carlos Carrá Introducción Objetivos ρ ____________________________________________________________________________ 215 t de Student _________________________________________________________________ 215 Normal con transformación arcth ________________________________________________ 215 w ____________________________________________________________________________ 215 Chi‐cuadrado ________________________________________________________________ 215 Δρ ___________________________________________________________________________ 215 Problema resuelto 5.21 Relación entre ingreso y gastos _____________________________ 216 Problema resuelto 5.22 Relación entre ingreso y gastos _____________________________ 221 Problema resuelto 5.23 Mejora de los ingresos públicos ____________________________ 223 Problema resuelto 5.24 Cuerpo y mente _________________________________________ 225 Problema b: Regresión simple _________________________________________________________ 230 1 Escala por escala ________________________________________________________________ 230 Utilización _____________________________________________________________________ 230 Supuestos _______________________________________________________________________ 230 Error estándar de la estimación ______________________________________________________ 232 Cadena de Normalidad _____________________________________________________________ 233 Estima puntual. Teorema de Gauss–Markov __________________________________________ 234 a. Inferencia sobre los coeficientes de la recta __________________________________________ 234 Modelado _____________________________________________________________________ 234 θ = B1 (pendiente) _______________________________________________________________ 234 Distribución t ________________________________________________________________ 234 θ = B0 (Ordenada al origen) _______________________________________________________ 235 1 Demostración del valor del error estándar de la estimación __________________________ 236 2 Demostración del estadístico de rP ______________________________________________ 238 Covarianzas ____________________________________________________________________ 239 a Covarianza entre Y y B̂1 _____________________________________________________ 239 b Covarianza entre B̂0 y B̂1 ____________________________________________________ 239 c Covarianza entre Y y Ŷ _____________________________________________________ 239 Análisis _______________________________________________________________________ 240 ANOVA _____________________________________________________________________ 240 b. Inferencia sobre los valores de y ___________________________________________________ 241 θ = E(Y) _______________________________________________________________________ 241 Modelado _____________________________________________________________________ 241 Análisis _______________________________________________________________________ 243 IC __________________________________________________________________________ 243 PH _________________________________________________________________________ 243 θ = Y _________________________________________________________________________ 243 Modelado ___________________________________________________________________ 244 Media del residuo e ___________________________________________________________ 244 Varianza del residuo e _________________________________________________________ 244 a) y predicho yP _______________________________________________________________ 244 Análisis: IP ___________________________________________________________________ 245 b) y muestral ym ______________________________________________________________ 245 Casos Influyentes _________________________________________________________________ 246 Extremos en y, outliers ___________________________________________________________ 246 Extremos en x, outliers ___________________________________________________________ 246 Distancia de Mahalanobis, MAH _________________________________________________ 247 Leverage, LEV (brazo de palanca) _________________________________________________ 247 Leverage y Residuo ____________________________________________________________ 248 Diferencias en los coeficientes _____________________________________________________ 248 DfBETA(s), DFB _______________________________________________________________ 248 SDfBETA, SDB ________________________________________________________________ 248 Diferencias en los valores predichos ________________________________________________ 248 DfFIT, DFF ___________________________________________________________________ 249 7 Capítulo 5 Inferencia Paramétrica I SDfFIT, SDFF _________________________________________________________________ 249 Distancia de Cook, COO ________________________________________________________ 249 Razón de covarianzas, COV _____________________________________________________ 249 SPSS ____________________________________________________________________________ 250 GLM ________________________________________________________________________ 251 Tamaño del efecto y ecuación de diseño _______________________________________________ 251 Potencia y tamaño de la muestra _____________________________________________________ 252 Problema resuelto 5.25 Relación entre ingreso y gastos _____________________________ 252 Problema resuelto 5.26 Relación entre ingreso y gastos _____________________________ 262 Paso 5 Verificación ______________________________________________________________ 265 Problema resuelto 5.27 Relación entre ingreso y gastos _____________________________ 265 Mínimos Cuadrados Ponderados ___________________________________________________ 268 2 Escala por categórica _____________________________________________________________ 269 VI dicotómica __________________________________________________________________ 270 VI multicotómica ________________________________________________________________ 270 3 Categórica por escala_____________________________________________________________ 270 Verosimilitud __________________________________________________________________ 270 Modelo lineal __________________________________________________________________ 270 Modelo Logit ___________________________________________________________________ 271 Modelo Probit __________________________________________________________________ 271 SPSS __________________________________________________________________________ 271 Introducción al Meta‐Análisis, MA ____________________________________________________ 271 1 Cálculo de los tamaños del efecto individuales ______________________________________ 271 a Comparación de medias ________________________________________________________ 271 1 Diferencia de medias, d de Cohen _______________________________________________ 272 2 Cociente de medias, Response Ratio, R __________________________________________ 272 b Comparación de proporciones ___________________________________________________ 272 1 Diferencia de proporciones, Risk Difference, RD ___________________________________ 272 2 Cociente de proporciones, Risk Ratio, RR _________________________________________ 273 3 Cociente de posibilidades, Odd Ratio, OR _________________________________________ 273 c Correlación ___________________________________________________________________ 274 2 Combinación de resultados ______________________________________________________ 274 a Prueba de homogeneidad _____________________________________________________ 275 b Cálculo de un estimador del tamaño del efecto global ______________________________ 275 Inferencia ___________________________________________________________________ 275 Software ______________________________________________________________________ 276 Problema resuelto 5.28 La aspirina en la prevención primaria. _______________________ 276 V Pruebas de Control de Calidad, SQC _____________________________________________ 283 1 Calidad durante la producción (online) ___________________________________________ 283 2 Calidad del producto terminado ________________________________________________ 284 1 Calidad durante la producción _______________________________________________________ 284 a. Variables de escala ______________________________________________________________ 284 Control de x‐barra, A y s ____________________________________________________________ 284 Control de θˆ = x ____________________________________________________________ 284 Diseño del Muestreo __________________________________________________________ 286 Control de θˆ = s _____________________________________________________________ 286 Control de θˆ = R ____________________________________________________________ 287 SPSS __________________________________________________________________________ 287 Control de θˆ = X θˆ = R y θˆ = s ______________________________________________ 288 Problema resuelto 5.29 Tiempos de terminación de auditorías _______________________ 290 b. Variables categóricas ____________________________________________________________ 293 Control de proporción y n° de éxitos __________________________________________________ 293 8 Jorge Carlos Carrá Introducción Objetivos Control de θˆ = np ___________________________________________________________ 293 Control de θˆ = p̂ ____________________________________________________________ 294 SPSS ____________________________________________________________________________ 295 Control de θˆ = npˆ y θˆ = p̂ ____________________________________________________ 295 Problema resuelto 5.30 Quejas sobre desempeño de funcionarios ____________________ 296 Control de número de casos por unidad _______________________________________________ 298 Control de θˆ = c _____________________________________________________________ 298 Control de θˆ = u ____________________________________________________________ 299 SPSS ____________________________________________________________________________ 300 Control de θˆ = c y θˆ = u _____________________________________________________ 300 Problema resuelto 5.31 Defectos en solicitudes de crédito __________________________ 301 Diagramas de diagnóstico __________________________________________________________ 303 SPSS __________________________________________________________________________ 304 Problema resuelto 5.32 Quejas sobre desempeño de funcionarios ____________________ 306 2. Calidad del producto terminado _____________________________________________________ 307 Muestreo de Aceptación _________________________________________________________ 307 Problema resuelto 5.33 Muestreo de aceptación __________________________________ 307 Simulaciones _________________________________________________________________ 311 1 Estadística paramétrica ___________________________________________________________ 311 a Con NAN _____________________________________________________________________ 311 b Con NAU ____________________________________________________________________ 311 Simulación Montecarlo de los NAN _______________________________________________ 312 c Inferencia ____________________________________________________________________ 312 Estimación por IC _____________________________________________________________ 313 Prueba de Hipótesis ___________________________________________________________ 313 Ejercicio _____________________________________________________________________ 314 2 Estadística no paramétrica: Distribuciones exactas _____________________________________ 314 Distribuciones de aleatorización, de permutación o exactas _____________________________ 314 IC __________________________________________________________________________ 314 PH _________________________________________________________________________ 315 Una proporción _______________________________________________________________ 315 Comparación de proporciones ___________________________________________________ 315 Un parámetro de escala (media, mediana, varianza, etc) ______________________________ 315 Comparación de 2 parámetros de escala ___________________________________________ 316 Asociación de variables ________________________________________________________ 316 Remuestreo ___________________________________________________________________ 317 IC __________________________________________________________________________ 317 PH _________________________________________________________________________ 318 SPSS __________________________________________________________________________ 318 Ejemplo: bootstrap para una media _________________________________________________ 320 Inferencia: IC _________________________________________________________________ 322 Ensayo: Radio Profesor‐Clase por tipo de escuelas ___________________________________ 323 Introducción _____________________________________________________________________ 323 Radio Profesor‐Clase ______________________________________________________________ 323 Ensayo: Segregación en Argentina ________________________________________________ 327 Introducción _____________________________________________________________________ 327 Escuelas públicas y privadas _________________________________________________________ 327 Problemas ___________________________________________________________________ 333 I Diseño _________________________________________________________________________ 333 II Análisis de una variable ___________________________________________________________ 334 9 Capítulo 5 Inferencia Paramétrica I III Análisis 1vi–1vd: Comparación entre grupos __________________________________________ 342 IV Análisis 1vi–1vd: Asociación entre variables __________________________________________ 350 V Análisis de Control de Calidad ______________________________________________________ 351 Problemas con base de datos ________________________________________________________ 353 10 Jorge Carlos Carrá Introducción Objetivos Capítulo 5 Inferencia Paramétrica I Objetivos • • • • • • • • • Aprender a realizar el diseño de un experimento. Comprender los 2 tipos de errores que se producen en las pruebas de hipótesis. Calcular el tamaño de la muestra dada la precisión de la estimación y la potencia de la prueba. Aprender a hacer estimaciones a partir de muestras. Aprender la diferencia entre estimaciones puntuales y de intervalo. Calcular la precisión de las estimaciones. Aprender el proceso de cálculode una prueba de hipótesis, en general de 3 formas distintas. Aprender que distribución usar según los supuestos del problema. Aprender a redactar correctamente la decisión final finalizada la inferencia por Intervalos de Confianza o por Prueba de Hipótesis. 11 Capítulo 5 Inferencia Paramétrica I Introducción Teniendo ya en el cerebro las 3 herramientas incorporadas en los capítulos 1, 2 y 3 y conociendo las implicancias del TCL y de la LGN, estudiadas en el capítulo 4, podemos, ¡al fin!, construir nuestro edificio llamado estadística inferencial. El nombre de paramétrica que se encuentra en el título del capítulo indica que trataremos en particular variables cualitativas (discretas y contínuas). En el capítulo 6 se continuará con el estudio de la inferencia (ANOVA, regresiones múltiples y regresiones con variables cualitativas), el cual finalizará en el capítulo 7 con la inferencia no paramétrica, aplicable a variables cuantitativas, las cuales tienen como ventaja el no requerir los supuestos de los métodos paramétricos (en particular la normalidad de la población). La contrapartida es que son menos eficaces pues trabajan con variables categóricas en lugar de hacerlo con variables cuantitativas. No obstante lo anterior, en este capítulo veremos 3 técnicas no paramétricas que ampliarán el espectro de ciertos temas. En las secciones II y III, en el análisis de proporciones, veremos la técnica no paramétrica llamada Prueba Exacta de Fisher. En la sección IV analizaremos el coeficiente de correlación de Spearman y al final del capítulo, en la sección Simulación, trataremos un método no paramétrico que simula una población (pseudo población), cuando solo se conocen los datos de la muestra. Tal como ha sucedido en los capítulos anteriores, el objetivo principal es que al final del capítulo el alumno se encuentre habilitado para pensar en la lógica de los procedimientos de inferencia, Sin embargo, para aquellos alumnos que desean saber de donde salen las fórmulas que se utilizarán, se incluye la mayoría de las demostraciones, especialmente las de aquellas que no requieren la utilización de herramientas matemáticas avanzadas. Contenido En el capítulo presentación, he comentado que los problemas básicos que resuelve la estadística (inferencial) se pueden agrupar en alguno de los 6 siguientes: 1. 2. 3. 4. 5. 6. Comparar grupos distintos. Asociar variables. Comparar formas de las distribuciones. Predecir la pertenencia a un grupo. Análisis temporal. Análisis de la estructura de los datos. He puntualizado además que la inferencia estadística consiste esencialmente en formular y contrastar hipótesis acerca de la población. Esto se realiza a partir de una muestra de la misma, sea por razones de: • costos (población numerosa) • población inexistente (población futura) • tiempos • estudio destructivo (por ejemplo, ensayos de resistencia). 12 Jorge Carlos Carrá Introducción Contenido Uno de los 2 métodos para realizar este estudio se denomina “prueba de hipótesis”. El tratamiento de la lógica de una prueba de hipótesis se analizará luego en profundidad, pero se menciona aquí un ejemplo para observar como finalmente se integra una distribución de probabilidades al proceso de inferencia. Supongamos que luego de haber elegido al azar a 52 estudiantes del total de los estudiantes, se los divide aleatoriamente en 2 grupos para asignarle a cada uno un método de estudio. Al final de varias semanas se les toma un examen. Supongamos que las medias de las calificaciones de ambos grupos resultaron distintas. ¿Cómo decidir si las diferencias fueron debidas solo al azar o si son realmente significativas (evento poco común)? El método consiste en partir de la hipótesis de que los dos métodos de estudio son equivalentes y determinar la probabilidad de que se presente una diferencia como la muestreada o mayor. Para analizar esta probabilidad se necesita conocer la distribución de probabilidades de la variable analizada o de alguna variable vinculada (por ejemplo la distribución muestral de medias). • Si dada esa hipótesis, el resultado experimental obtenido tiene por ejemplo solo una oportunidad entre mil de haber surgido de ella, podríamos considerar que el evento es tan poco común que es verosímil concluir que la diferencia entre las medias es significativa y que nuestra hipótesis de igualdad de medias es en realidad falsa, no aceptándola. • Si dada esa hipótesis, el resultado experimental tiene alta probabilidad de producirse, lo consideraríamos como esperable, concluyendo que la diferencia observada en la muestra fue efecto del azar y que en realidad parece no existir diferencia entre los dos métodos de estudio. En otras palabras aceptamos (luego veremos que debemos decir: "no rechazamos") la hipótesis. Las distribuciones muestrales y las inferencias se encuentran presentes en toda la estadística inferencial, estudio que se inicia en este capítulo. Lo único que cambia de un experimento a otro es el estadístico utilizado y la distribución muestral correspondiente. Por esta causa, una vez que se comprendan los mecanismos de la inferencia, se conocerá gran parte de los temas de un curso de estadística básica. Los métodos de análisis inferencial buscan, en síntesis, establecer conclusiones sobre un parámetro poblacional θ a partir de un estadístico 1muestral al que llamaremos θˆ , estimador puntual de θ . Es un razonamiento de tipo inductivo pues va de lo específico a lo general, en contraposición al razonamiento matemático deductivo que va de lo general a lo específico. En este capítulo veremos la resolución de los dos primeros problemas de la estadística: comparar grupos y asociar variables, aunque solo hasta 2 variables. Este proceso continúa en el capítulo 6, permitiendo la comparación y asociación de más de 2 variables. En el capítulo 7 se verán otras técnicas llamadas no paramétricas para resolver ambos problemas, incluyendo además el tercer problema: la comparación de formas. Notación θ θ0 Es cualquier parámetro poblacional de interés: μ, σ, Q2, Max, Min. etc Valor hipotético de θ. θˆ Es un estimador puntual de θ. Existen muchos estimadores posibles, entre los cuales se eligen aquellos que resulten más representativos. θˆm Valor de θˆ que resulta de una muestra. e =| θ − θˆ | B=e ´ Error al estimar θ por θˆ . Error de estimación máximo deseado. ma x BS = 1 B B estandarizado. σ Se llama estadístico a un solo valor que resume los datos de una muestra. 13 Capítulo 5 Inferencia Paramétrica I Métodos de inferencia Son esencialmente 2: • Estimación por intervalos de confianza, IC • Prueba de hipótesis, PH La secuencia de construcción de cada uno es la siguiente. IC Se parte del estadístico θˆm que ha resultado de la muestra y a partir de este valor se construye un intervalo (IC) dentro del cual, se espera encontrar al parámetro θ con una cierta confianza o probabilidad. Este procedimiento se realiza exclusivamente en forma analítica, a partir de una ecuación que llamaremos de probabilidad, la cual debe tener 2 características: • Deber contener al parámetro desconocido θ y a su estimador • Debe tener una distribución de probabilidades conocida que no dependa de θ. P (θ ,θˆ) = prob (5.1) Conocidos todos los valores menos θ, se despeja este parámetro de la ecuación, creándose el IC. PH Se parte de un valor hipotético de θ, al que llamaremos θ0 y a partir del mismo se construye un intervalo dentro del cual se espera encontrar a θˆm con una cierta probabilidad. Finalmente se observa donde "cae" θˆm , no rechazando o rechazando la hipótesis. Este proceso puede realizarse con una ecuación de probabilidad o solo con la PDF. Si se cuenta con una ecuación, se conoce ahora todo menos θˆm . Al despejar este estadístico de la ecuación, se crea el intervalo. En la figura 5-1, se resumen estos conceptos. Métodos IC Punto de partida θˆ PH θ0 m Procedimientos P(θ ,θˆ) = prob P(θ ,θˆ) = prob PDF Figura 5-1 Métodos de Inferencia Ambos procedimientos son equivalentes, de tal forma que si a partir de un valor muestral θˆm se obtiene un parámetro poblacional θ 0 dentro de un intervalo de confianza, IC, entonces a partir de ese θ 0 , el valor muestral θˆm se encontrará dentro del intervalo de la PH y viceversa. En la sección final del capítulo se estudiará el Control de Calidad, técnica emparentada con la PH. Una de sus diferencias es que parte de un valor real de θ, en lugar de uno hipotético. En este caso la Prueba se llama de Aceptación, PA. 14 Jorge Carlos Carrá Introducción P2a Supuestos Inferencia estadística Pasos en una inferencia Para sistematizar el procedimiento, se aconseja seguir 5 pasos, similares a los de cualquier investigación. Estos pasos se comentaron en el capítulo presentación y se resumen nuevamente en la figura 5-2. P1.Problema P2.Modelado P2a Supuestos P2b Modelo P3.Diseño P3a Variables P3b Datos P4.Análisis P4a Inferencia P4b Decisión P5.Verificación y validación P5a Verificar supuestos P5b Validación Figura 5-2 A continuación presento una descripción simplificada de cada uno de los pasos. Paso 1 Problema En este primer paso se debe definir cuál es el valor a estimar y cuál es el estadístico que se utilizará. En símbolos, deberá responderse a las siguientes incógnitas: θ =? θˆ = ? Paso 2 Modelado Se puede dividir este paso en 2 subpasos. P2a Supuestos La validez del modelo a utilizar requiere en general de supuestos que deben ser cumplidos por la población y por la muestra. 15 Capítulo 5 Inferencia Paramétrica I • • Población los supuestos necesarios dependerán de cuál es la distribución muestral a utilizar (capítulo 4). Muestra debe ser representativa (aleatoria). P2b Modelo Es la distribución muestral adecuada al problema definido en el paso 1. Paso 3 Diseño del experimento Este paso condensa las características del experimento que deben definirse antes de tomar la muestra y comprende la elección de las técnicas adecuadas al problema en estudio. P3a Variables Se definen el tipo y número de variables a estudiar. P3b Datos Resolverá en particular: a. Tipo de muestreo. b. Errores α, β y Potencia P. c. Tamaño de la muestra, n. Dado que se requieren algunos conceptos previos que se introducirán en el paso 4, se tratará con mayor profundidad en la sección I de este capítulo. Paso 4 Análisis inferencial En este paso se realiza el análisis inferencial, es decir el pasaje de la muestra (conocida) a la población (desconocida), proceso también llamado generalización inductiva. Se divide en 2 partes: P4a Inferencia Aplicación de la técnica de inferencia para obtener resultados. Existen 2 métodos básicos: a. Estimación de un parámetro poblacional, el cual conduce a los Intervalos de Confianza, IC. b. Prueba de Hipótesis, PH, de un valor particular de ese parámetro. 16 Jorge Carlos Carrá Introducción P4b Decisión P4b Decisión En base a los resultados del punto anterior, el investigador podrá tomar decisionesy realizar predicciones (siempre sobre aspectos contenidos en la información original). El proceso de decisión se incluirá al final de cada uno de los 2 métodos anteriores. Se presentará a continuación el tema, en general, para luego, en las secciones II y III de este capítulo, realizar las distintas aplicaciones en particular. Se apreciará que en todos los casos se requiere la utilización de una distribución de probabilidades conocida2 y que, para poder aplicar la misma se debe realizar previamente una transformación de la variable en estudio a la variable cuya distribución de probabilidades se conoce. Las transformaciones que se utilizarán en este capítulo son: z, t, p̂ , χ2, F y rF. El proceso general es realizar el estudio con la variable transformada y luego, en caso de ser necesario, antitransformar los resultados a la variable original. Es por esta razón que resulta imprescindible aprender la técnica con una de ellas, en nuestro caso, con la variable media muestral, pues luego solo bastará recorrer ese modelo, realizando las adaptaciones pertinentes. Para comodidad del estudiante, estas adaptaciones y particularidades se encuentran resumidas en las tablas de fórmulas del apéndice C, el cual, junto con el apéndice B, Tablas, debería estar a la vista en el momento de recorrer cada uno de los problemas. Comencemos por analizar los 2 subpasos a y b para la inferencia por Intervalos de Confianza. P4a Inferencia por IC Estimación Existen 2 tipos de estimación: • Estima puntual El resultado es un solo valor. Luego veremos cuáles son las propiedades deseables. θˆ → θ • Estima por intervalo (IC) El resultado es un intervalo en el cual existe la probabilidad de que contenga el valor con una cierta probabilidad. Agrega a la estima puntual una medida de la precisión del estimador y una cota del error. Para esto requiere del conocimiento de la distribución de probabilidades, requisito que no es necesario en una estimación puntual. θˆ → θ ε IC Estimación puntual Las propiedades deseables que debe tener un estimador puntual son las siguientes: 1. Insesgado 2. Convergente o consistente 3. Eficiente 4. Suficiente Las 2 primeras ya fueron anticipadas en el capítulo 4. 2 Por su ecuación, tabla o software. 17 Capítulo 5 Inferencia Paramétrica I 1. Insesgado Esta propiedad se relaciona con la E (θˆ) . Dentro de este contexto, se define al sesgo como: Sesgo = E (θˆ) − θ Por lo tanto un estimador insesgado (sesgo cero) será aquel cuya media coincide con el parámetro a estimar. Ejemplo Sea por ejemplo: θ =μ Sabemos del capítulo 4 que la distribución muestral de: θˆ = x presenta la característica: E( x ) = μ Por consiguiente la media muestral es un estimador insesgado de la media poblacional. Si utilizamos el carácter circunflejo como "estima de", se puede apreciar que si: E (a) = b entonces: a = bˆ En otras palabras los operadores E y circunflejo, son inversos. Algunos estimadores insesgados: • media y la media recortada a los valores dentro del P90 y el P10. Cuando se tienen varios estimadores insesgados, será necesario algún otro criterio para elegir entre ellos. • proporción muestral. • Varianza Algunos estimadores sesgados: • Mediana • Amplitud • Desviación estándar 2. Convergente o consistente Todas las propiedades siguientes incluyen la propiedad insesgada. Esta propiedad se relaciona con E (θˆ) y V (θˆ) . Un estimador es convergente si: θˆ → θ n→∞ Recordando que MSE (Mean Square Error, página MSE1, capítulo1): MSE = E (θˆ − θ ) 2 esta propiedad significa que el estimador tiene un MSE tendiente a cero, por lo cual se la llama de mínimo MSE. Se puede demostrar rápidamente que: MSE = Sesgo 2 (θˆ) + V (θˆ) En efecto: 18 Jorge Carlos Carrá Introducción Estimación ( MSE = E (θˆ − θ )2 = E (θˆ − θˆ ) + (θˆ − θ ) ) 2 MSE = E (θˆ − θ ) 2 + E (θˆ − θˆ ) 2 + 2(θˆ − θ ) E (θˆ − θˆ ) Como la esperanza de una constante (en este caso la media), es la misma constante, desarrollando el ( primer término resulta igual a E (θˆ) − θ ) 2 (utilizando la notación θˆ = E (θˆ) ). Además como θˆ = E (θˆ) el último término es 0. De esta forma queda demostrada la propiedad. Por lo tanto, un estimador consistente es equivalente a la combinación de: ⎧ ˆ → 0 ⎪V (θ ) n→∞ ⎨ ⎪θˆ insesgado ⎩ Si observamos la tabla de inferencias del apéndice C, vemos que todos los θˆ que contiene son consistentes pues son insesgados y tienen n en el denominador de la varianza. De aquí que la media sea una buena elección pues es un estimador convergente (y por lo tanto insesgado). 3. Eficiente Es una propiedad relativa. Sean 2 estimadores insesgados, θˆ1 y θˆ2 (implica MSE = V (θˆ) . Se define: Var (θˆ1 ) Eficiencia de θˆ2 respecto de θˆ1 = Var (θˆ2 ) Por ejemplo la eficiencia de la media respecto de la mediana es: Eficiencia = Var (Q2 ) π = = 1.57 Var ( x ) 2 Por lo tanto, la media es 57% más eficiente que la mediana. A los estimadores insesgados y de mínimo MSE relativo a todos los otros que son combinaciones lineales de los datos, se los llama EIMV, Estimador Insesgado de Mínima Varianza (en inglés MVUE, Minimum Variance Unbiased Estimator o BLUE, Best Linear Unbiased Estimator). Son EIMV: la media si x es normal, la proporción muestral y la varianza si x es normal y se conoce μ. 4. Suficiente Son los estimadores que resumen toda la información de la muestra respecto del parámetro a estimar. Se puede demostrar que si un estimador es insesgado y suficiente es un EIMV. Verosimilitud Para obtener el mejor estimador de un parámetro poblacional a partir de los valores de las muestras, se define la función verosimilitud, L (Liability). Se extrae una muestra de una población con función densidad f(X) dependiente del parámetro θ a estimar. Se la simboliza como f(X|θ) para destacar que será considerada como función de θ. La verosimilitud se define como la distribución de probabilidad conjunta de la muestra de n valores 19 Capítulo 5 Inferencia Paramétrica I X. Considerando a las X como independientes (muestreo con reemplazo o población infinita), la distribución de probabilidad conjunta será el producto de las distribuciones, es decir: L = ∏ f (X |θ ) El MLE (Maximun Liability Estimator), es el valor de θ que maximiza a esta función. MLE = θ ( Lmax ) = θˆ Se encuentra que este estimador tiene varias de las propiedades deseables de un estimador: • Consistencia • Eficiencia • Normalmente distribuido Resolviendo matemáticamente el proceso anterior, se obtienen, por ejemplo: f(X|θ) binomial ⇒ θˆ = estima de p = pˆ f(X|θ) normal ⇒ θˆ = estima de μ = x f(X|θ) normal ⇒ θˆ = estima de B0 = Bˆ0 f(X|θ) normal ⇒ θˆ = estima de B1 = Bˆ1 A modo de ejemplo veamos la demostración para la proporción poblacional, lacual por ser una distribución discreta, no requiere del cálculo infinitesimal. MLE de una binomial L( p) = Cns p s q n− s Derivando respecto de p. d ( L( p )) = Cns ( sp s −1q n − s − p s (n − s )q n − s −1 ) = 0 dp Es decir: Cns p s −1q n − s −1 ( sq − p(n − s) ) = 0 s s −1 n − s −1 dividiendo por Cn p q , resulta: s (1 − p ) − p (n − s ) = 0 s − pn = 0 Por lo tanto: p= s = pˆ n Para este valor de p, L(p) es máximo. El lector puede verificar la validez de esta afirmación en los casos particulares p = 0 ( s = 0) y p = 1 ( s = n) , para los cuales L( p ) = 1 . Análisis por IC La inferencia por IC puede subdividirse en 2 pasos: 1. Elección del IC 2. Cálculo del IC 1 Elección del IC El método de IC, requiere la construcción de una ecuación probabilística, para desde ella, con todos los valores conocidos menos θ, despejar este valor. Naturalmente se requerirá luego el conocimiento 20 Jorge Carlos Carrá Introducción Estimación de la distribución de probabilidades (que no dependa de θ), requisito no necesario en una estimación puntual. En símbolos: P (θ ,θˆ) = prob → θ La ecuación de probabilidades proviene de la estandarización de la variable en estudio. En virtud de las distribuciones muestrales estudiadas en el capítulo 4, podrá ser alguna de las siguientes: z, t, χ2 o F. En el capítulo 3 aprendimos como delimitar intervalos en estas distribuciones estandarizadas. Existen 2 tipos de IC: 1. Bilateral 2. Unilateral: Inferior o Superior 2 Cálculo del IC Si bien calcularemos los IC para distintos casos a partir de la sección II, desarrollaremos aquí las expresiones de los IC para la media, pues oficiará como modelo para las demás. Por otra parte, en la sección I, Diseño, se requiere conocer el concepto del margen de error B que definiremos aquí. IC Inferior IC bilateral IC superior Figura 5-2 Intervalos de Confianza Inferior, Bilateral y Superior IC bilateral En el panel superior de la figura 5-2 se expresan en forma gráfica las siguientes definiciones: Nivel de confianza: c (un valor habitual es 95%) Nivel de significación: α = 1-c (un valor habitual es 5%) Estadístico de prueba: es el valor estandarizado (z, t, χ2, F) del estadístico muestral ( θˆ ) a través de un cambio de variable, del cual se conoce la distribución (independiente de θ) y sirve, por lo tanto, para realizar la inferencia. Se recorrerán 2 pasos: 21 Capítulo 5 Inferencia Paramétrica I 1 Planteo del IC en la variable estandarizada (z en este ejemplo) Observando nuevamente el panel superior de la figura 5-2 se puede definir la siguiente ecuación probabilística: P( z I < z < zS ) = c 2 Conversión a θ (μ en este ejemplo) Para convertir las desigualdades en z en desigualdades en θ = μ , se debe utilizar la expresión de z, también llamada aquí ecuación pivote, z = X −μ σx : P( zI < z < zS ) = P( zI < X −μ σx < zS ) = c Despejando μ, y reemplazando las z por las correspondientes zα /2 (colocando en forma explícita el signo positivo o negativo) se obtiene la expresión del IC de μ: P ( X − zα /2σ x < μ < X + zα /2σ x ) = c P ( LCI < μ < LCS ) = c donde: LCI es el Límite de Confianza Inferior y LCS es el Límite de Confianza Superior. En general: P ( LCI < θ < LCS ) = c (5.2) Observar que c se llama nivel de confianza pues la ecuación indica que existe un c% de confianza de que el intervalo IC contenga al valor constante θ. Análogamente α será por lo tanto, la probabilidad de que el IC no contenga al valor fijo θ. Es importante destacar que, tal como se observa en el panel inferior de la figura 5-2, el IC está centrado en el resultado muestral del estimador, en este ejemplo la variable x . Como este valor es variable, su ubicación en el eje de la distribución en estudio dependerá de la muestra. En cambio la constante μ se encontrará en algún lugar desconocido pero fijo del eje, tal que el intervalo lo comprenderá con una probabilidad c (es muy conveniente retener mentalmente los diagramas inferiores de la figura 5-2). De aquí que se debe tener cuidado al leer la ecuación anterior pues una probabilidad se aplica a una variable aleatoria (IC) y no a una constante (θ). Volveré sobre este punto en el paso 4b, Decisión. Naturalmente, cuanto más corto es el IC, la estimación es más precisa pero, si el error estándar σ x , se mantiene constante, esto solo puede lograrse a expensas de menor confianza (menor valor de zα /2 ). Es importante destacar que nunca conoceremos con certeza (a menos que se examine toda la población), si nuestro IC es uno de los, por ejemplo 95% que contiene a μ o uno de los 5% que no lo contiene, pero las chances (95:1) están a favor que lo contenga. Margen de error Se define el error de estimación o margen de error B, como la diferencia máxima entre el valor observado y el valor real: B = ( x − μ )max = zα /2σ x Se expresa en las unidades de la variable x. Observar que el error de estimación B es proporcional al error estándar σ x . Si x es una proporción, es usual utilizar la expresión: punto porcentual en lugar de %. 22 Jorge Carlos Carrá Introducción P4b Decisión por IC Dos formas distintas de expresar el IC Conteniendo los LCI y LCS: P ( X − B < μ < X + B) = c Conteniendo explícitamente el valor B: P( μ = X ± B) = c En la práctica puede omitirse y sobreentenderse el valor de c y colocar solo la expresión dentro del paréntesis. El margen de error es el precio que se debe pagar por la incertidumbre de tomar una parte (muestra) por el todo (población). Por otra parte, su aparición solo es posible si se puede aplicar la teoría de las probabilidades, la cual, a su vez requiere necesariamente, que el muestreo sea realizado en forma aleatoria. IC unilaterales También llamados de un solo extremo, ver figura 5-2 y se obtienen reemplazando z I = −∞ o zS = ∞ en las ecuaciones de partida. Un IC inferior tiene un límite inferior infinito y un límite superior a una distancia B del valor muestral. De manera similar un IC superior tiene un límite superior infinito y un límite inferior a una distancia B del valor muestral. Se utilizan cuando solo un sentido es de interés. IC Inferior (con límite superior) μ< X +B IC Superior (con límite inferior) μ> X −B En ambos casos las expresiones de B contienen zα en lugar de zα/2. B = zασ x P4b Decisión por IC Consiste en leer adecuadamente la ecuación probabilística: P( LCI < θ < LCS ) = c , en donde hemos llamado θ al valor poblacional desconocido. Ya he puntualizado que, dado que θ es una constante y no una variable aleatoria, se debe tener cuidado al leer esta ecuación. La probabilidad se refiere al IC (aleatorio pues contiene a la variable aleatoria θˆ ) y no al valor θ (pues es una constante). De aquí que es un error leerlo como la probabilidad de que el valor θ (fijo) pertenezca a un IC (aleatorio). Una vez calculado el IC, la constante θ pertenece (con probabilidad 1) o no pertenece (con probabilidad 0) a él (ver nuevamente los diagramas de la figura 5-2). Esto no lo sabrá el investigador, todo lo que puede decir es que acertará con un porcentaje del c% de éxito. La regla para evitar este error, es vincular la palabra probabilidad (o el porcentaje) al IC y no al valor poblacional θ, es decir: "se tiene una probabilidad del c% de que el IC (aleatorio) contenga a θ". Otra alternativa es directamente reeemplazar la ecuación probabilística por: LCI < θ < LCS con c % Las siguientes lecturas son correctas: • P( LCI < θ < LCS ) = c : " existe un c% de probabilidad o confianza de que el IC contenga a θ". 23 Capítulo 5 Inferencia Paramétrica I • • P (θ = θˆ ± B ) = c : "se tiene una probabilidad o confianza del c% de que el margen de error B, a partir del valor θˆ muestral, contenga a el valor poblacional θ ". P (θ < θˆ + B ) = c : "se tiene una probabilidad o confianza del c% de que el límite superior: LCS= θˆ + B sea mayor que el valor poblacional θ ". Complementariamente, suelen utilizarse expresiones del tipo: "Las variaciones dentro del IC no son significativas al nivel α%". Veamos ahora los mismos 2 subpasos para la inferencia por Prueba de Hipótesis. P4a Inferencia por PH En un IC, se parte del resultado de la muestra y se basa en él un IC del parámetro poblacional. En una Prueba de Hipótesis, PH, se parte de un valor hipotético o creencia acerca del parámetro poblacional y se basa en él un intervalo de Rechazo–No Rechazo del resultado muestral. En cierta forma se corresponde con los problemas del capítulo 4, pues parte de la población (en este caso hipotética) hacia la muestra. Podría interesarnos probar, por ejemplo: • Si el peso de los dulces de la marca M es en efecto 950 g • Si la proporción de clientes mujeres con vehículo, es la misma que la de hombres con vehículo • Si la proporción de alumnos no residentes es menor a 25% • Si la variabilidad en las puntuaciones de una calificación de crédito es mayor a 75 • Si la desviación estándar de los tiempos de espera en una cola son mayores o iguales a 1.5 minutos Casi cualquier investigación contiene una prueba de hipótesis pues provee un método consistente para que cualquiera de nosotros pueda tomar decisiones en forma objetiva, con independencia de nuestro pensamiento subjetivo. Se procede con la siguiente secuencia de 2 pasos: 1. Elección de la PH 2. Comparación 1 Elección de la PH Existen 2 tipos de pruebas: 1. Bilateral o de 2 colas 2. Unilateral o de 1 cola Prueba Bilateral o de 2 colas Partiendo de la ecuación probabilística (aunque no es imprescindible en este método), se conoce ahora el valor del parámetro a estimar θ, pues se formula una hipótesis acerca del mismo que llamaremos θ0. Ahora la incógnita es el valor muestral llamado crítico, el cual se despeja. Los intervalos que se crean están ahora basados en θ0, y las regiones se llaman Región de Rechazo, RR y Región de No Rechazo RNR, complementarias entre sí. La RR se llama región crítica. En la figura 5-3, se muestran estos conceptos, en donde, para ejemplificar, puede suponerse que se trata de la prueba sobre la media de la población (θ = μ), por lo cual las medias muestrales se encontrarían en el eje de abscisas y la distribución sería simétrica. 24 Jorge Carlos Carrá Introducción P4a Inferencia por PH Figura 5-3 Distribución muestral de θˆ , bajo la hipótesis nula: H0: θ = θ0 Quedan definidas 2 hipótesis complementarias entre sí: H 0 : θ = θ0 H A : θ > θ0 y θ < θ0 La hipótesis que contiene el valor hipotético se llama hipótesis nula H0 y se llama así pues como veremos luego, no contiene el efecto que se desea probar, es decir se presenta por la negativa. La hipótesis con todos los valores θΑ alternativos a la hipótesis nula, se la llama hipótesis alternativa HA, en donde θΑ es la negación de θ0. La hipótesis nula siempre contiene la igualdad, pues es la que define la distribución. Por consiguiente la hipótesis alternativa siempre contendrá desigualdades. Se han graficado en la figura: 1. Los valores críticos que servirán para realizar la prueba θˆc y zc , los cuales definen una región llamada región crítica, en la figura llamada Rechazo (RR de H0). Observar que las desigualdades de HA apuntan en la dirección de la región crítica. 2. El valor que resulta de la muestra, θˆm y, en el caso de que exista, su expresión estandarizada, por ejemplo zm (en general podrá ser cualquier estadístico de prueba con distribución conocida, entre ellas las vistas en el capítulo 4: z, t, χ2 , F). 3. Las áreas de las colas correspondientes a los valores, crítico y muestral, las cuales se llaman alfa, α (error α o nivel de significación) y valor p (valor de probabilidad o valor de significación), respectivamente. Observar que p es el menor nivel de significación que conduce a rechazar H0. En otras palabras es la probabilidad de obtener por azar un estadístico de prueba al menos tan extremo como el que presentan los datos. Si este valor p es muy bajo, el evento es poco común y es poco probable que el resultado se haya debido al azar por lo cual es admisible rechazar la hipótesis. Las magnitudes de p y α se definen matemáticamente de la siguiente manera: • Si interesan las 2 colas, el valor α se divide por igual de tal forma que (usualmente) las colas sean de igual área., es decir: Cola superior: α / 2 = P (θˆ > θˆcs ) Cola inferior: α / 2 = P (θˆ < θˆci ) donde los subíndices significan, ci: crítico inferior y cs: crítico superior. Estas expresiones probabilísticas deberían escribirse en realidad, así: α / 2 = P (θˆ < θˆci | H 0 es verdadera ) En lo sucesivo y para simplificar la notación, se sobreentenderá la condicionalidad de la 25 Capítulo 5 Inferencia Paramétrica I • expresión, pero esto no debe conducir a cometer el error de interpretar α como la probabilidad de rechazar H0, sin agregar la expresión condicional: si H0 es cierta. Como el valor p se compara con α, deberá ser el doble del área de la cola respectiva (ver figura 5-3), es decir: p = 2 P (θˆ > θˆm ) si θˆm cae en la cola superior p = 2 P (θˆ < θˆm ) si θˆm cae en la cola inferior Si la distribución es simétrica, pueden utilizarse expresiones equivalentes, las cuales hacen uso de la notación de valor absoluto: p = P (| θˆ |> θˆm ) , si la media es cero. p = P (| θˆ − μ |> θˆm − μ ) , si la media no es cero. Veamos ahora la estructura del razonamiento de una prueba de hipótesis. Enfaticemos que nunca conoceremos con certeza la verdad o falsedad de una determinada hipótesis, a menos que se examine toda la población. Es por esta razón que se debe trabajar con probabilidades. Bajo el supuesto de que H0 es cierta, entonces: Se rechaza H0 Se rechazará H0 si el suceso es poco común (capítulo 3, página pococomun3)3. En otras palabras se rechazará H0 si el valor de la muestra cae dentro de la región crítica o sea en las colas definidas por α, lejos del valor hipotético θ0. En esta zona existirá como máximo una probabilidad dada por α (muy baja) de que ese resultado haya sucedido por azar. Ver en la figura que θˆm > θˆc o equivalentemente p < α. Observar que α es entonces la probabilidad de que los valores muestreados conduzcan a rechazar H0, si ésta es cierta. Es importante insistir en indicar que alfa no establece un valor respecto de H0, sino lo que sucederá en futuros experimentos sucesivos, si H0 es cierta. En el porcentaje dado por alfa, estos experimentos superarán el valor crítico, y por lo tanto en ellos, se rechazará H0. Las causas de rechazo podrán estar vinculadas o a la población o a la muestra: • Población la igualdad establecida en la hipótesis no es adecuada o la población no es la supuesta. • Muestra no ha sido representativa (el proceso de muestreo no ha sido aleatorio). Aquí se puede apreciar la importancia de la representatividad de la muestra. Si el muestreo no fuera aleatorio, no habría forma de saber si la causa de éste comportamiento se debe a deficiencias de la muestra o a factores relacionados con la población. No se rechaza H0 No se rechazará H0 si el valor de la muestra cae dentro de la región no crítica, o sea fuera de las colas definidas por α. En esta zona existirá una probabilidad dada por c (muy alta) de que ese resultado haya sucedido por azar. Ver en la figura que ahora θˆm < θˆc o equivalentemente p > α. Prueba Unilateral o de 1 cola Las PH unilaterales se utilizan cuando solo un solo sentido es de interés. No se genera un intervalo central sino uno inferior o uno superior y por lo tanto una sola región de rechazo. La HA contiene ahora una sola desigualdad. Estas pruebas proveen mayor información que las bilaterales pues se informa el sentido. Se reconocen estos casos pues el enunciado del problema contiene palabras del 3 Observar que, a diferencia del capítulo 3, aquí el evento no es un solo resultado muestral sino un parámetro resultante de n resultados muestrales. Jorge Carlos Carrá 26 Introducción P4a Inferencia por PH tipo: mayor que, menor que, superior, al menos, etc. Si ninguna dirección está implicada, usar una prueba de 2 colas. En estas pruebas se tienen 2 opciones: PH de cola inferior H 0 : θ ≥ θ0 H A : θ < θ0 PH de cola superior H 0 : θ ≤ θ0 H A : θ > θ0 Los valores de α y de p expresan el área de una sola de las colas. Una distribución requiere que el valor del θ hipotético esté definido, por lo cual el signo igual debe seguir perteneciendo a H0. Nota Los programas de software indican si el valor de p es de una cola o de 2 colas, pero si no lo establece, se sobreentiende que el valor p suministrado es de 2 colas. Si el programa entrega un valor de p de 2 colas y la prueba es bilateral se debe comparar α con el valor de p dado. Si es unilateral, se debe comparar α con la mitad del valor de p dado. 2 Comparación Luego de haber elegido las hipótesis y el valor de α, se compara el valor crítico con el que resulta de la muestra. Si ésta cae en la zona crítica se rechaza la hipótesis nula. Si cae fuera de esta zona, no se rechaza la hipótesis nula. Para realizar esta comparación se puede optar entre comparar valores de área o valores de eje (ya sea con el estadístico muestral o el de prueba estandarizado). Alternativas de comparación En la tabla de la figura 5-4a, se resumen las 3 alternativas de comparación para los casos en los que exista una variable estandarizada: z, t, χ2 o F (el renglón de la estandarización no es aplicable por ejemplo en las distribuciones binomial o hipergeométrica). En la figura se ejemplifica para una transformación z. Los valores sombreados son los datos de partida habituales ( α y θˆm ). La comparación para saber en que zona cae la muestra solo podrá realizarse dentro del mismo renglón. Por lo tanto si los valores de partida son los sombreados, será necesario recorrer las conversiones indicadas con las flechas. Si por ejemplo se deseara pasar de α a θˆC para comparar con los valores del eje estandarizado (primer renglón), se debera´convertir: α → zc , con la distribución (tabla o software) zc → θˆc , con la trnasformación matemática que vincula estas 2 variables. Observar que cualquiera sea la comparación elegida, se requiere recorrer 2 flechas para convertir, sea en forma ascendente, sea en forma descendente o sea en forma combinada. Por la forma de operar con este mecanismo, bien podría llamarse a esta tabla: "ascensor". En la figura 5-4b, se expresan las comparaciones en una forma más adecuada si se utiliza un lenguaje matemático en reemplazo de la interpretación gráfica (las desigualdades resultan así independientes de que sea una prueba unilateral o bilateral). A pesar de que cualquiera de las 3 comparaciones es válida, en el trabajo a mano es más conveniente comparar ejes (pues las tablas de distribuciones como las vistas en el capítulo 4 no son exhaustivas). Los paquetes de software comparan por áreas y por lo tanto entregan el valor p y de hecho han popularizado su uso, a partir de la utilización cada vez más intensiva de la computación. Con el valor p, el usuario cuenta con el dato preciso del error que se asocia con su decisión. De hecho, en las 27 Capítulo 5 Inferencia Paramétrica I conclusiones de las publicaciones académicas es usual colocar como mínimo los 3 valores de la columna derecha de la figura 5-4a. Crítico Muestra θˆ θˆ c m Transformación Ejes zc zm Distribución Áreas α p Figura 5-4a Crítico Muestra B | θˆm − θ | Transformación Ejes | zc | | zm | Distribución Áreas α p Figura 5-4b Ascensor Conclusión fuerte y débil El rechazo de H0 es una conclusión fuerte y el no rechazo es una conclusión débil. Estas particularidades pueden comprenderse si construimos el IC para cada situación. Ejemplificaré para una prueba bilateral: H 0 : θ = θ0 H A : θ ≠ θ0 Conclusión fuerte El IC para cualquier valor muestral θˆm que se localice en la RR no comprenderá al valor θ0 (tiene un semiancho de B y la distancia entre θ0 y el comienzo de la región crítica también es B). Por consiguiente, tenemos una confianza, por ejemplo de 95%, que no contenga a θ0. Si θˆm se localiza θ > θ0 (todos los valores del IC cumplen esta desigualdad). Análogamente si se localiza en la cola inferior, para afirmar que θ < θ0 en la cola superior, tenemos evidencia suficiente para afirmar que (ídem anterior). Esta conclusión es controlada por el analista al fijar libremente el valor de α, normalmente menor al 5%. Como profundizaremos en la siguiente sección, este valor nos informa acerca de la probabilidad de cometer el error de rechazar H0, cuando en realidad es cierta. Si el investigador desea mayor precisión (menor error), solo tiene que disminuir este valor, pudiendo tomar 1% o incluso menor, si las consecuencias de cometer este error son graves. En cualquier caso, al rechazar una prueba, se conoce en forma inmediata el error α cometido. Conclusión débil Si el valor muestral θˆm se localiza, en cambio, en la RNR, el IC comprenderá al valor θ0 pero también a otros infinitos valores. Por consiguiente, tenemos una confianza, por ejemplo de 95%, que 28 Jorge Carlos Carrá Introducción P4a Inferencia por PH contenga a θ0 y también a otros posibles valores. En este caso no tenemos evidencia suficiente para afirmar que θ = θ0 . Veremos en la sección Diseño, que en este caso se comete un error llamado β, de no rechazar H0 cuando en realidad es falsa, normalmente mayor al 20% (veremos además que ambos errores α y β están vinculados inversamente). Observamos entonces que los valores de referencia convencionales, citados anteriormente, conducen a pensar que el azar interviene con mayor influencia en los errores β. En resumen: • El rechazo de H0 es una conclusión fuerte. Solo restará saber cuál es la magnitud de la hipótesis alternativa que está provocando el rechazo y que permita cuantificar la existencia de un valor real en el sentido de la desigualdad de HA. Esto se estudiará luego, en la sección Diseño, con la potencia de la prueba. • La zona de no rechazo conduce a una conclusión débil y al decir: no se rechaza H0, estamos diciendo: no se tiene evidencia suficiente para rechazar H0. Una de las posibilidades es que H0 sea cierta, pero podría no serlo. Esta probabilidad es medida por β. Esta es la causa por la cual no hemos utilizado el término: se acepta H0 para definir esta región. En algunos textos se enfatiza esta cuestión estableciendo que la única forma de obtener una conclusión estadística, es rechazando H0 4. Dicho de otra forma, se formula H0 con la ilusión de que sea rechazada, pues de esta forma logramos sustentar con evidencias ese rechazo, cometiendo un error conocido y controlado por el investigador. Por todo esto, resulta importante que la conclusión de interés se asocie a la hipótesis alternativa HA (llamada por esto, hipótesis de investigación). De esta forma, si se rechaza H0, se logra la conclusión deseada. Observar que la hipótesis alternativa HA es lo que se busca, pero no contiene la igualdad, la cual se encuentra en H0. De aquí la necesidad de H0, como hipótesis de referencia, pues es la que provee la distribución que permite realizar el análisis de probabilidades. Prueba unilateral En el caso de una prueba unilateral, ¿cuál de las 2 pruebas de 1 cola utilizar? La respuesta depende de la actitud ante los riesgos. Ésta cuestión se relaciona aquí con el hecho de que la región de rechazo de H0 es la conclusión de fuerte evidencia y la de no rechazo, de débil evidencia. Consideremos por ejemplo la compra de un producto cuando un determinado indicador poblacional θ (por ejemplo: dureza, calidad, cantidad, etc) supera un determinado valor θ0 (valor que pudo haber surgido de experiencias previas, de la teoría o de especificaciones contractuales). Se puede seguir una secuencia de 2 pasos: 1. Relación entre las desigualdades y las acciones. Es una forma compacta de expresar el enunciado. 2. Relación entre las desigualdades y las hipótesis. Estas deben ser definidas por el analista. La primera relación es en este caso: Desigualdad: θ > θ0 => Acción: comprar La segunda relación presenta las siguientes opciones. Opción 1 H 0 : θ ≥ θ0 H A : θ < θ0 En este caso, la compra está asociada a la conclusión débil o en otras palabras compramos con débil evidencia. Esta opción puede ser la adecuada cuando confiamos en el vendedor y tomamos el riesgo de aceptar que pueda presentarse un valor moderado en el sentido contrario al deseado. 4 Si se decide utilizar la expresión "se acepta H0", se debería incluir también: "provisionalmente, hasta estudiar el error β que se comete". 29 Capítulo 5 Inferencia Paramétrica I Opción 2 H 0 : θ ≤ θ0 H A : θ > θ0 En este caso, la compra está asociada a la conclusión fuerte o en otras palabras compramos con fuerte evidencia, es decir obligamos al vendedor a demostrar que su producto cumple las especificaciones. Esto puede ser apropiado cuando estamos en presencia de un vendedor no confiable. En la consigna de los problemas que se presentan en este capítulo, el investigador ya ha realizado el análisis anterior y ha planteado una aseveración, la cual debemos respetar. Por lo tanto: Si la aseveración contiene un signo igual se asociará a la H0, de lo contrario a la HA. Ejemplos: 1) la proporción de tenistas es menor a 0.5 => ⎧ H 0 : p ≥ 0.5 ⎨ ⎩ H A : p < 0.5 Aseveración 2) la media de alturas es al menos 1.65 m => ⎧ H 0 : μ ≥ 1.65 Aseveración ⎨ ⎩ H A : pμ < 1.65 3) la varianza de pesos difiere de 700 g => ⎧⎪ H 0 : σ 2 = 700 ⎨ 2 ⎪⎩ H A : σ ≠ 700 Aseveración P4b Decisión por PH Observar que la clave las expresiones siguientes es que la decisión fuerte se debe encontrar siempre en la región de rechazo y por lo tanto es la que se debe asociar con la existencia o no de la evidencia. En publicaciones científicas es usual complementar el resultado de la PH con el valor p y el IC. Se resumen a continuación 5 aspectos de interés. Evidencia y significación La expresión utilizada para expresar los resultados de una PH: "Existe evidencia...." o "No existe evidencia...", es una frase constructiva pues ayuda a reflexionar acerca de cuál es la decisión que presenta o no la evidencia. Esta frase siempre debe estar asociada con la decisión fuerte y por lo tanto con la región de rechazo. Utilizar el siguiente lenguaje en PH: • Cuando el valor muestral cae en la región de Rechazo: "Existe evidencia suficiente para rechazar H0 (sustentar HA)". "Las diferencias con la hipótesis son significativas al nivel α%".y se rechaza la hipótesis nula". • Cuando el valor muestral cae en la región de No Rechazo, se utilizan las mismas expresiones anteriores, agregándoles la palabra: "no". "No existe evidencia suficiente para rechazar H0 (sustentar HA)". "Las diferencias con la hipótesis no son significativas al nivel α%" y no se rechaza la hipótesis nula". En cualquier caso agregar la información numérica correspondiente al cálculo del valor p, tal como t(5) = 2.23, p = 0.038. Redacción La redacción de la conclusión final debe contener la aseveración inicial planteada por el investigador, para lo cual se utilizan expresiones del tipo: "rechazar H0" y sustentar HA", con H0 y HA 30 Jorge Carlos Carrá Introducción P4b Decisión por PH reemplazadas por la aseveración original. Se sugiere que la conclusión se formule en 2 partes autónomas entre sí: Primera parte: Significación • • Si el resultado es significativo => "Existe evidencia suficiente…". Si el resultado es no significativo => "No existe evidencia suficiente…". Segunda parte: Aseveración En cualquier caso la evidencia se debe asociar con la HA, por lo tanto la oración sigue así: • Si la aseveración se encuentra en H0 => "…para rechazar la aseveración" • Si la aseveración se encuentra en H1 => "…para sustentar la aseveración" Luego de estudiar los riesgos α y β, veremos en la página 45 un criterio con el cual el investigador podrá definir cual de las dos opciones posibles de una prueba unilateral (por ejemplo θ > θ 0 o θ < θ 0 ), elige como H0 (a la cual le asignará por lo tanto el signo igual). Redacción para los 3 ejemplos anteriores: 1) Si el resultado es significativo (no significativo) => (no) existe evidencia suficiente para sustentar la aseveración original de que p < 0.5. 2) Si el resultado es significativo (no significativo)=> (no) existe evidencia suficiente para rechazar la aseveración original de que μ ≥ 1.65. 3) Si el resultado es significativo (no significativo)=> (no) existe evidencia suficiente para sustentar la aseveración original de que HA: σ2 ≠ 700. Igualdad En forma paralela, dado que la aseveración de igualdad forma parte de la H0, una PH nunca puede sustentar una aseveración de igualdad. Es un error decir: "Como resultado de la prueba, podemos concluir que la proporción de votantes es del 50%." "Existe evidencia suficiente para aceptar la hipótesis H0 de que..." Múltiples negaciones La utilización de la frase "No existe evidencia..." puede originar múltiples negativos como por ejemplo: "No existe evidencia para rechazar la hipótesis de que no existen diferencias entre la media poblacional y el valor 143" Esta frase, si bien correcta, podría resultar confusa para un interlocutor no entrenado. Es preferible, por ejemplo: "No existe evidencia para rechazar la hipótesis de que la media poblacional tiene el valor 143" Sentido común Antes de aplicar un procedimiento de PH unilateral, controlar que los datos muestrales no contradigan la HA para lo cual deben encontrarse en el sentido de la desigualdad contenida en la misma. Si esto no sucede, no existe ninguna posibilidad de que los datos puedan sustentar la HA. En este caso no realizar ninguna prueba y concluir que no se rechaza la H0. Tres errores para tener en cuenta Si bien fueron ya expuestos, es conveniente finalizar esta introducción, resumiendo los 3 errores más habituales. 1. IC Se debe decir: "existe un c% de confianza de que el IC contenga al valor θ", o "se tiene una confianza del c% de que el valor muestral θˆ , se encuentre a menos de B, del valor θ poblacional". 31 Capítulo 5 Inferencia Paramétrica I No decir: " existe un c% de confianza de que θ pertenezca al IC", o "se tiene una confianza del c% de que el valor poblacional θ , se encuentre a menos de B, del valor θˆ muestral" El valor θ es una constante y no una variable aleatoria. Una vez fijado el IC, θ pertenece o no pertenece a él. 2. PH. Se debe decir: "no se rechaza H0", lo cual significa que no se tiene evidencia suficiente para rechazar H0. No decir: "se acepta H0". Esta afirmación solo puede ser expresada si se ha realizado un estudio de la potencia (ver más adelante) y ésta ha resultado elevada para tamaños del efecto grandes. 3. Valor α No interpretar α como la probabilidad de rechazar la hipótesis nula H0, sin agregar la expresión condicional: si H0 es cierta. Lo mismo se aplica al valor p. Paso 5 Verificación y validación P5a Verificación de supuestos Consiste en la verificación de las especificaciones de diseño. En particular se realizará un estudio de la potencia retrospectiva, técnica que se estudiará al final de la sección diseño. P5b Validación El resultado de la inferencia se valida con una nueva muestra o con una subdivisión de la que procesó. Por razones didácticas dividiré el resto del capítulo en 5 partes: • I Diseño • II Una variable: Comparación de grupos (IC y PH) • III Dos variables: Comparación de grupos (IC y PH) • IV Dos variables: Asociación de variables (IC y PH) • V Pruebas de Control de Calidad, SQC 32 Jorge Carlos Carrá I Diseño a Tipos de muestreos probabilísticos I Diseño He comentado anteriormente 3 aspectos a tener en cuenta en la etapa de diseño, antes de realizar la toma datos. a. Tipo de muestreo. b. Errores α, β y Potencia P c. Tamaño de la muestra, n. En esta sección presentaremos cada uno de estos temas. Incidentalmente es oportuno observar que en los 3 últimos pasos del proceso, se requieren 2 distribuciones: P3 Diseño Esta etapa es previa al muestreo y por lo tanto no se requiere la distribución de la muestra. 1. Distribución poblacional hipotética (H0) 2. Distribución poblacional alternativa (H1) P4 Análisis Este paso es el único que requiere el análisis de la muestra. 1. Distribución poblacional hipotética (H0) 2. Distribución de una muestra P5 Verificación de supuestos Este paso es en realidad un ajuste del diseño luego del análisis, por lo cual se requieren nuevamente 2 distribuciones poblacionales. 1. Distribución poblacional hipotética (H0) 2. Distribución poblacional alternativa (H1) a Tipos de muestreos probabilísticos En un censo, a diferencia de un muestreo, se toman todos los elementos de todos los niveles. 1 Muestreo aleatorio simple, MAS El es el tipo de diseño más simple y consiste en tomar toda la población en conjunto y extraer de ella una muestra con elementos al azar. Cualquier elemento tiene la misma chance de ser elegido. Ejemplos: rating de televisión, encuestas. No siempre conviene muestrear aleatoriamente a toda la población. Algunos de los siguientes diseños aprovechan la distribución de la población en niveles y subniveles, para bajar los costos o la variabilidad. Un ejemplo con distintos niveles anidados es: País(Escuela(Clase(Alumno))) 2 Muestreo Estratificado, Stratified Los estratos son niveles con elementos homogéneos. Se toman todos los estratos y se hace un muestreo aleatorio de los elementos de cada estrato. En un caso extremo, con todos los elementos iguales, la media es igual a la de cualquier elemento y la varianza es cero. 33 Capítulo 5 Inferencia Paramétrica I Dado que los estratos presentan menos dispersión interna que dentro de la población sin estratificar, mejora la variabilidad y por lo tanto la representatividad. Ejemplo: Partidos Políticos(Afiliados). Se toman todos los partidos políticos y se muestrea a los afiliados. 3 Muestreo por Conglomerados, Cluster Los conglomerados son poblaciones en pequeña escala. • Una etapa Single stage Muestreo aleatorio de los conglomerados y tomar todos los elementos de cada conglomerado. Presenta la ventaja de que no se necesita una lista de los elementos. Además, si los elementos están muy distribuidos, baja los costos. Ejemplo: urnas electorales (personas). Se muestrea a algunas urnas y se toman todas las personas. • Bietápico, Bi–stage Muestrear aleatoriamente a los conglomerados y también muestrear a los elementos de cada uno de ellos. Se llama Multietápico (Multi–stage) cuando se repite el proceso, muestreando en todos los niveles. Otros ejemplos: hospitales(enfermos), pinos(hojas), Municipalidad(Manzanas(Personas)), Escuela(Alumno), etc. 4 Muestreo sistemático Algunas veces llamado quinteo. El primer elemento se elige al azar. Los restantes a intervalos uniformes (uno cada cierta cantidad de elementos). Ejemplo: encuestas. Error de muestreo Aparece como consecuencia de utilizar una parte de la población para estimar características de toda la población. Error de no muestreo Son errores que no tienen que ver con el hecho de seleccionar una muestra. Puede ser consecuencia de la naturaleza del diseño del estudio y/o de las imperfecciones en su ejecución. Se presentan tres tipos de errores de no muestreo: 1. Error de selección. 2. Error por falta de respuesta. 3. Error de medición. Hasta el capítulo 9 se considera que el muestreo es MAS (aleatorio simple). 34 Jorge Carlos Carrá I Diseño b. Potencia P y errores alfa y beta b. Potencia P y errores alfa y beta Error α Al definir la hipótesis H0, el analista está definiendo: • α: probabilidad de rechazar H0 si es verdadera, P(RH0|H0). • c = 1-α, probabilidad de no rechazar H0 si es verdadera, P(R'H0|H0). Obervar que ambas expresiones, como todas las que se derivan de una prueba de hipótesis, se deben interpretar dentro de una expresión condicional del tipo: si la hipótesis nula es verdadera, entonces … Error β y potencia P Plantearemos ahora una H1 perteneciente al complemento de H0 que sea de particular interés en la investigación. ¿Qué sucede si H0 es falsa y por lo tanto resulta verdadera una hipótesis H1 perteneciente a HA? En la figura 5-5 se esquematiza la situación para la distribución muestral de la media. Figura 5-5 Aunque las curvas se pueden dibujar con un eje θˆ común, por razones de claridad se han dibujado separadas en esta figura. H0: μ=μ0 origina la curva superior, si H0 es verdadera. H1: μ=μ1 origina la curva inferior si una hipótesis específica con media μ1 es verdadera. Sus divisiones se corresponden con los mismos sectores (colas) de la distribución H0. Se agregan entonces ahora otras 2 probabilidades condicionales del tipo: si la hipótesis nula es falsa, entonces …: • β: probabilidad de no rechazar H0 si es falsa, P(R'H0|H1). Expresada como una función de θ, β = β(θ), se llama CO, Característica de Operación. 35 Capítulo 5 Inferencia Paramétrica I • 1-β: probabilidad de rechazar H0 si es falsa, P(RH0|H1), también llamada Potencia estadística de H1, P. Expresada como función de θ, resulta P = P(θ). Si por ejemplo H1 es cierta y P = 66%, en 2 de cada 3 veces, el resultado de una muestra será significativo. El caso típico es probar una H0 contra un conjunto de valores de H1, por lo cual estas definiciones se expresan como función de θ para así poder comparar las potencias P (o CO) para todos los valores posibles de θ, extendiéndolas incluso para el valor de θ perteneciente a H0. Por lo tanto: ⎧α P(θ ) = ⎨ ⎩1-β si θ = θ 0 si θ ≠ θ 0 ⎧1 − α si θ = θ 0 ⎩β si θ ≠ θ 0 β (θ ) = ⎨ P (θ ) = 1 − β (θ ) Curvas de potencia Las curvas de potencia para cada problema resuelto, se obtendrán más adelante con un software llamado GPower, pero podemos apreciar que para una prueba de 2 colas tendrá la forma de la figura 5-6, con el valor mínimo cuando θ = θ0 y tendiendo al máximo a medida que nos alejamos de este valor, pues será más fácil para el test discriminar entre H0 y H1. Figura 5-6 Los valores de potencia ideales serían entonces, 0 para θ = θ0 y 1 para θ ≠ θ0 . Este ideal nunca se podrá alcanzar, pero un buen test será aquel para el cual la potencia se encuentre cerca de 0 para H0 y cerca de 1 para H1. En resumen se tienen en total 4 alternativas, para 2 eventos posibles: H0 es correcta o H0 es falsa y 2 acciones posibles: no rechazar o rechazar H0. En el cuadro de doble entrada de la figura 5-7a, se resumen las 4 probabilidades, con el formato de una toma de decisiones (capítulo 3). Es importante apreciar que los 4 casos son excluyentes, es decir que ninguna de ellos puede ocurrir en presencia de otro. Suelen llamarse a: RH0|H0.= error de tipo I R'H0|HA = error de tipo II. De esta forma: 36 Jorge Carlos Carrá I Diseño b. Potencia P y errores alfa y beta • α: probabilidad (error de tipo I) • β: probabilidad (error de tipo II). Tener en cuenta que un investigador nunca sabrá con certeza si la hipótesis H0 o H1 es verdadera, a menos que conozca la población, en cuyo caso la estadística inferencial sería inútil. Por lo tanto tampoco sabrá si está cometiendo un error α o β, pero podrá calcular y reducir las probabilidades de cometerlos. H0 Situación H 1ε H A Test R'H0 RH0 Correcto Error c = 1-α α Error Correcto β P = 1-β Test N P (H0) (HA) N (H0) Situación P (HA) VN FP FN VP a b Figura 5-7 Tener en cuenta Los valores de α (o β) se refieren a la probabilidad de cometer un error dado que H0 (o H1) ha ocurrido. En la tabla anterior estos valores se corresponden con los perfiles fila. Muy distintos pueden ser los valores de cometer un error, dado que por ejemplo se ha rechazado H0. Este valor se corresponde con el perfil de la columna RH0 y se asocia con la definición general de posibilidad contra la chance (en inglés: odds against chance), vista en el capítulo 1, página posibilidad1. La tabla siguiente ejemplifica esta diferencia para una población de 1000 individuos (con una incidencia del 10%). En este caso la probabilidad de que H0 sea verdad dado que se ha rechazado H0 (perfil columna RH0) es de 45 1 45 = ≈ 33% , (equivale a un Odds = = 50% ). 45 + 90 3 90 En cambio la probabilidad de rechazar H0 dado que H0 es verdad (perfil fila H0) es de α = 5% Situación H0 H 1ε H A Test Incidencia R'H0 RH0 900 855 45 (α=5%) 100 10 (β=10%) 90 Figurra 5-8 Juicios Suele utilizarse el procedimiento que se utiliza en un juicio como metáfora. En este caso se parte de la presunción de inocencia: H0: inocente H1: culpable Por lo tanto, resulta: Error α: Es inocente y se lo considera culpable. Error β: Es culpable y se lo considera inocente. Pruebas Diagnóstico Si consideramos convencionalmente como una prueba positiva a HA = P, se obtiene entonces la tabla de la figura 5-7b, con las 4 interpretaciones, de acuerdo a la codificación médica de las Pruebas Diagnóstico del capítulo 1, página codMedica1. Con esta codificación las 2 letras siguientes se refieren al resultado del test, en este caso rechazar o no H0: VP (Verdadero Positivo), VN (Verdadero 37 Capítulo 5 Inferencia Paramétrica I Negativo), FP (Falso Positivo) y FN (Falso Negativo). Naturalmente se busca que los valores falsos (FP y FN) sean los menores posibles y que los verdaderos (VP y VN) sean los mayores posibles. Observar que en el contexto del ejemplo médico del capítulo 1, la distribución H0 es la de los pacientes sanos, la de H1 es la de los pacientes enfermos, la potencia P es la sensibilidad, el coeficiente de confianza c es la especificidad y la curva ROC es la Potencia versus alfa. Se ha ordenado la tabla de contingencias para que se corresponda espacialmente con los 4 sectores de las distribuciones de la figura 5-5, pero se debe notar que las distribuciones del estado real en las pruebas de diagnóstico, se verifican simultáneamente. Aquí en cambio, las distribuciones de H0 y H1 son excluyentes. La fila de H1 perteneciente a HA se analiza para saber que sucede cuando un evento específico H1 (en este caso cuando un valor específico μ1), sucede. En forma concreta, esta fila se estudia para conocer el error de no rechazar H0 o la probabilidad de rechazar H0, si en realidad un valor H1, perteneciente a HA, sucede (ver figura 5-5). Como alguna de las 4 alternativas debe suceder, pero uno nunca está seguro si el estado es H0 o H1, en todo estudio deberían incluirse los valores de α y de P (o β = 1–P). El valor de α se adopta convencionalmente en 5% (riesgo de 1 en 20) o en 1%. Nota Si consideramos como prueba positiva a la H0 (no es lo que se considera convencionalmente), se deberían cambiar las P por las N. Potencia estadística P De acuerdo a lo ya comentado, es una indicación de la sensibilidad de la prueba, entendida como la habilidad para detectar diferencias que superen un determinado valor. P en porcentaje indica que si H1 es cierta, se rechazará H0, en un P% de las veces, detectando la diferencia entre los valores de H0 y H1.Por su parte β mide el error de no detectar una diferencia que está en la población. Como veremos a continuación, depende de varios factores, pero el valor mínimo aceptable de potencia que los investigadores utilizan para que tenga sentido el estudio, es de 80% (lo cual equivale a un máximo de β = 20%). Factores que afectan a P Observando la figura 5-5, pueden extraerse los 3 factores que afectan a P (y por lo tanto al error β = 1 − P ): 1. El error α Los valores de α y P están interrelacionados. Cuando uno crece, el otro decrece y viceversa, en tanto las distribuciones no varíen. El valor de α se vincula estrechamente con el tipo de prueba: unilateral o bilateral. Una prueba de una cola tiene mayor P que una prueba de 2 colas. Esto sucede porque la prueba bilateral disminuye las colas (o sea α) en la mitad y por la conclusión anterior, disminuye P. Esta conclusión es intuitiva pues una prueba unilateral agrega más información (la dirección) y por lo tanto es lógico que aumente la potencia. Observar que cuando las hipótesis coinciden, la potencia es el valor α. 2. El tamaño del efecto d Ver apartado siguiente. 3. El tamaño de la muestra n Este factor es el que usualmente regula el investigador para controlar la potencia (y β). Si el tamaño de la muestra crece, decrece el error estándar y las curvas se hacen más leptocúrticas (capítulo 1). Para igual punto crítico, α decrece y P crece. Esta particularidad se observará matemáticamente en el punto siguiente. 38 Jorge Carlos Carrá I Diseño b. Potencia P y errores alfa y beta Tamaño del Efecto de la población En el capítulo 1, página ESBondad1, se introdujo por primera vez el concepto de tamaño del efecto, al tratar el análisis de la Bondad del Ajuste de una variable. En forma má genérica, se define al Tamaño del Efecto como cualquier medida estadística que evidencia el grado con el que un evento dado esta presente en una poblacion (Cohen J. 1988, página 10). El tipo de medida se llama efecto, y su magnitud es el tamaño del efecto. Es razonable definir la diferencia o distancia entre el valor de H0 y el valor de H1, ambos poblacionales, como tamaño del efecto, E. En su forma más simple, para el caso de la distribución muestral de la media, se define como: E = μ1 − μ0 Se estandariza este valor, definiendo el tamaño del efecto estandarizado, simbolizado con la letra d. Es el cociente entre E y la desviación estándar. μ1 − μ0 direccional σ μ − μ0 d= 1 no direccional σ d= (5.3) Observar que d (semejante a la variable z de la población con desviación estándar σ) depende de E y de σ. d aumenta si E aumenta o σ disminuye y viceversa. Sin embargo notemos que el tamaño del efecto de la media se divide por el σ de la población y no por la desviación estándar de la distribución muestral de medias. Esto debe ser así pues un tamaño del efecto debe ser un descriptor de la población y no depender de la muestra ni de su tamaño. Respecto de la variabilidad de la población, naturalmente se debe procurar controlar aquellos factores que la incrementan, relacionados con los errores y la confiabilidad de las mediciones. Si d se achica, por ejemplo al modificar E acercando el valor de H1 a H0 (implica correr μ1 hacia la izquierda en la figura 5-5), la superposición de las distribuciones aumenta, P disminuye y viceversa. Así por ejemplo, si μ1 coincide con el valor crítico, la potencia es 0.50. En relación con d, β mide la probabilidad de no detectar el tamaño del efecto, cuando existe. Es difícil de saber de antemano el tamaño del efecto existente en el estudio, pues la mayoría de los investigadores analiza un tema por primera vez y solo tienen una vaga idea del efecto a esperar. Una ayuda útil para convertir esa vaga idea en un número son las reglas de Cohen, J. 1988 (pag. 38). Este investigador define valores convencionales para los tamaños del efecto, los cuales se recomiendan cuando se carece de otra información aplicable. Los valores para algunas pruebas que estudiaremos en este capítulo, se resumen en la tabla de la figura 5-8. Verbal Pequeño Mediano Grande g d, h 0.20 0.05 0.50 0.15 0.80 0.25 ρ, q, w 0.10 0.30 0.50 Figura 5-8 Por ejemplo para la prueba de la media μ, se tiene: • d chico = 0.20 (es decir 20% de la desviación estándar σ) • d mediano = 0.50 (es decir 50% de la desviación estándar σ) • d grande = 0.80 (es decir 80% de la desviación estándar σ). Observar que el efecto sobre P de los factores α, d y n, es directamente proporcional. Como consecuencia, si el tamaño del efecto que se desea detectar es grande, no se necesitarán muchos 39 Capítulo 5 Inferencia Paramétrica I casos para tener una buena probabilidad de detectarlo. En cambio si es pequeño, el tamaño de la muestra deberá ser grande. Sabiendo que P y β están interrelacionadas en forma contraria, las 3 conclusiones mencionadas para P también son aplicables a β, pero en sentido contrario. La debilidad de la zona de no rechazo de H0, anteriormente comentada, se basaba en la posibilidad de que esta región pueda incluir un valor moderado en el sentido de la desigualdad de HA. Ahora podemos ver que la posibilidad de que esto suceda (medida por β) crece a medida que disminuye el tamaño del efecto. Si β es grande, será grande la debilidad de esta región. Los investigadores son cuidadosos en limitar un error α (FP), pero mucha atención debe ser dada a los errores β (FN). Esta situación es de suma importancia por ejemplo en medicina. Si se parte de que H0 asume que la población está sana, un error de diagnóstico β considera que no hay enfermedad cuando en realidad la hay (Falso Negativo) y por lo tanto se perdería un tiempo precioso para iniciar un tratamiento efectivo. De aquí la importancia de elegir una muestra lo más grande que se pueda para minimizar el valor de β (aunque controlando el riesgo de n grande que se verá más adelante). Finalmente, es conveniente puntualizar que, aún para valores determinados del tamaño de la prueba, de la desviación estándar de la población y de α, una prueba de hipótesis tiene infinitos valores de Potencia P (o del error β), pues este depende del tamaño del efecto. De aquí que carece de sentido la expresión: "la potencia de esta prueba es 0.80", si no se complementa con la información correspondiente del tamaño del efecto para el cual es válida. En la bibliografía se encuentra el enlace para correr el applet Prueba de Hipótesis. Curvas de Potencia Es posible obtener en forma gráfica o tabular la relación de un parámetro (α, P, n o d) en función de otro cualquiera, para los 2 restantes constantes, o para distintos valores de dos de los restantes, manteniendo el otro constante. En particular son de interés las curvas de la potencia P en función del tamaño del efecto y de la potencia P en función de n. Cálculo de P (o de β) 1 A mano Solución centralizada Es una cálculo de la potencia aproximado, pero directo. El grado de aproximación es bueno si el tamaño de la muestra es grande. Figura 5-9 40 Jorge Carlos Carrá I Diseño b. Potencia P y errores alfa y beta En la gráfica de la figura 5-9 se muestran para una prueba de θ = μ, las distribuciones para H0 = μ0 y H1 = μ1, en un solo eje x común. El valor del x crítico, común para ambas distribuciones, tiene por expresiones: xc = μ 0 + zα xc = μ1 + z β σ n σ n Observar que a diferencia de los valores de x , cada valor de z se mide en un eje separado con centro en su respectiva distribución. Los valores zα y zβ son las coordenadas del xc en los ejes z de cada distribución. Para obtener los signos correctos de los valores del eje, zα y zβ, es recomendable realizar siempre un dibujo de análisis similar al de la figura anterior para los datos del problema. Habitualmente los signos de zα y zβ son contrarios entre sí. Se conforma así un sistema de 2 ecuaciones con el cual se podrán resolver 2 incógnitas. Existen en principio dos formas de operar. • Calculando el valor crítico xc El camino habitual (ver problemas resueltos a continuación), es: zα → xc → zβ • Este procedimiento es completamente general, válido para todas las distribuciones. Ecuación de diseño Implica obtener una expresión matemática que nos dé directamente el valor de zβ, sin utilizar el valor crítico xc . Este procedimiento solo es posible cuando exista una ecuación pivote. No será aplicable, por ejemplo, para la distribución binomial o la chi-cuadrado si proviene de la ecuación de la bondad del ajuste. Ecuación de diseño (para control por PH) Si eliminamos el xc de ambas ecuaciones, se obtiene: zβ σ x = zα σ x − ( μ1 − μ0 ) Se presenta esta ecuación intermedia para luego poder observar las similitudes con otros problemas similares (proporciones y diferencia de medias). Si dividimos por el error estándar y llamamos descentralidad (noncentral parameter), nc, al término: nc = nd (5.4) llegamos a la siguiente ecuación de diseño para control por PH (luego se verá otra para control por IC), para distribuciones normales: z β = zα − nc (5.5) Observar que todos los términos son adimensionales y que el resultado de la muestra es irrelevante, lo cual confirma que los aspectos de diseño (potencia, tamaño de la muestra o tamaño del efecto), deben ser realizados antes de la recolección de datos. El parámetro nc marca la distancia estandarizada entre ambas distribuciones. Su signo estará definido por el de d, según sea una prueba direccional o no direccional. Observar además, que nc es proporcional al tamaño del efecto estandarizado y al tamaño de la muestra. Puede verse con esta ecuación, que podrá obtenerse una potencia tan grande como se desee, con tal de tomar n o d suficientemente grandes. Esta característica podría derivar en un riesgo por n grande, es decir que produzca significación para casi cualquier tamaño del efecto, lo cual daría como 41 Capítulo 5 Inferencia Paramétrica I resultado una prueba no útil. Volveremos sobre este punto en el último apartado de esta sección Diseño. En la figura 5-9 se puede observar en forma vectorial, la interrelación entre zα, zβ y nc. Si se divide la ecuación 5.5 por n se obtiene la ecuación en dimensiones del tamaño del efecto d. Lo mismo puede hacerse con el eje z de la figura 5-9, de donde surge el eje inferior, en el que se han colocado los tamaños del efecto d, contados a partir del origen de la distribución H0. Este eje contiene los centros de la distribución H1 y en la figura se destacan: • dP: tamaño del efecto d definido por el centro de la distribución H1. Es el tamaño del efecto poblacional definido anteriormente con d, solo que se agrega el subíndice p en esta ocasión para diferenciarlo nítidamente de otros valores, pero debe enfatizarse que el tamaño del efecto es siempre poblacional. Cuando no sea necesaria esta distinción, seguiremos usando una notación sin subíndice. dP = • nc n dC: tamaño del efecto d cuando la distribución H1 se centra en el valor zα de la región crítica. Su valor resulta de la ecuación anterior (ver figura 5-9), con zβ = 0, lo cual implica una potencia de 0.5 (valor que también se obtiene en forma intuitiva al colocar la distribución de H1 sobre la región crítica) dC = zα n De la expresión de nc y de la figura 5-9, puede extraerse que si n crece indefinidamente, también lo hace nc, la potencia se acerca a 1 tanto como se quiera y por lo tanto se rechazará H0 no importa cuán chico sea el tamaño del efecto o cuán grande sea σ. Esto se conoce como el riesgo de un tamaño de muestra grande. Si la distribución es la t de Student, la ecuación de diseño será la siguiente: tβ = tα − nc En este caso, dada la limitación de las tablas de t, se deberá recurrir al SPSS (funciones CDF e IDF) para hallar el valor deseado. Podría elegirse cualquier incógnita de las 4 contenidas en la ecuación de diseño ( zα , z β , n y d ), pero hay 2 aplicaciones típicas, para un tamaño del efecto conocido: 1. Análisis a posteriori o post hoc: => P . Para calcular la potencia se deberá despejar zβ. Si la prueba es de 2 colas reemplazar zα por zα/2 y calcular la potencia con las 2 colas (habitualmente una de ellas aporta un valor despreciable). 2. Análisis a priori: => n. Para calcular el tamaño de la muestra se deberá despejar n (que se encuentra dentro de nc). Si la prueba es de 2 colas, reemplazar zα por zα/2. El desarrollo de este tema será analizado más adelante. Solución descentralizada Si cambiamos la variable t (o z) de la distribución de H1, para expresarla en el mismo eje estandarizado t de H0, es decir con el cero en el centro de la distribución H0, el centro se encontrará desplazado del 0 de H0 en el valor nc (positivo hacia la derecha y viceversa). Esta es la verdadera y precisa distribución de H1 y se llama descentralizada (en general sesgada), la cual no consiste simplemente en una traslación de la función centralizada, pero la diferencia con la distribución aproximada (centralizada) solo se aprecia para n muy pequeños. En el siguiente problema resuelto se entregará un gráfico con la distribución descentralizada que aclarará estos conceptos. El parámetro nc es a veces llamado δ en las distribuciones t y λ en las distribuciones χ2 y F. 42 Jorge Carlos Carrá I Diseño b. Potencia P y errores alfa y beta 2 Curvas estandarizadas Para evaluar con rapidez el cálculo de los errores β (o de la potencia P), se pueden utilizar curvas preestablecidas o programas informáticos. Existen curvas de β estandarizadas, en función del tamaño del efecto estandarizado d, para pruebas de distintos estadísticos (z, t, χ2 y F), de 1 y de 2 colas, para varios valores de n y para varios de α (Montgomery, D. 2003, apéndice A, VI). Estas curvas reciben el nombre de Característica de Operación, CO y serán tratadas nuevamente al final de este capítulo, en la sección de Control de Calidad. 3 SPSS Se resuelven las incógnitas de cada distribución (H0 o H1), con las funciones CDF o IDF. En el caso que se requiera la solución descentralizada, se necesitará la CDF descentralizada. El SPSS cuenta con estas funciones para las distribuciones t, χ2 y F. Por ejemplo la correspondiente a la t de Student se ejecuta con: Transform > Compute variable > CDF & Noncentral CDF > Ncdf.T > NCDF.T(tc,ν,nc). El valor tc es el valor t critico para el α considerado y ν son los grados de libertad. Como esta función NCDF.T es la de H1, entregará el valor de β. En el archivo power.sps, se encuentra la sintaxis completa del procedimiento, para la prueba de 1 cola de la media de una variable. 4 GPower Se aconseja recurrir a paquetes de software especialmente diseñados para resolver la ecuación de diseño. En este libro utilizaré el software libre: GPower, desarrollado por el profesor Franz Faul (GPower 3.1, 2009). Descargar este programa de la página institucional de la Universidad Heinrich Heine (HHU) de Dusseldorf, Alemania, cuya dirección electrónica se encuentra en la Bibliografía (GPower 3.1, 2009). Instalar el software presionando setup.exe. Luego de instalado, ejecutarlo con el acceso directo que se coloca en el escritorio. Se presenta la ventana de la figura 5-10. En ella solo basta elegir: • Test family familia del test. Por ejemplo elegir: t test • Statistical test test específico dentro de la familia anteriormente seleccionada. Por ejemplo elegir: Means: Difference from constant (one sample case) (Media: Diferencia con una constante (caso de una muestra)). • Type of power analysis se resuelve la ecuación de diseño de acuerdo a la incógnita que se plantee. Se presentan 5 tipos de análisis para calcular por ejemplo la potencia (Post hoc), el tamaño de la muestra (A priori) o el tamaño del efecto (sensitivity), dados las restantes datos de la ecuación. Los más utilizados serán: A priori para calcular el tamaño n dada la potencia, antes de realizar el muestreo y Post hoc, para calcular la potencia retrospectiva dado el tamaño de la muestra n, luego de realizada la experiencia (página 77). Luego se entran en las cajas de texto los parámetros correspondientes al test. El valor a entrar en Effect size d es el valor d antes definido (la ventana tiene un botón que puede calcularlo a partir de las medias y sigma). Si se coloca el mouse sobre esta caja de texto se muestran la codificación de los valores del efecto en las categorías: chico, mediano o grande según Cohen, J. 1988. Observar que si la prueba es de 1 cola, no se coloca de cuál de ellas se trata. Si se coloca un tamaño 43 Capítulo 5 Inferencia Paramétrica I del efecto positivo, GPower asume cola derecha. Si se coloca un tamaño del efecto negativo, asume cola izquierda. Presionar Calculate. En el panel Output Parameters, se presentan los resultados y en el panel superior Central and noncentral distributions (hasta ahora en blanco), se presentan las distribuciones de H0 y de H1 adaptadas a los valores de la prueba. El diagrama es similar al de la figura 5-5, pero en un solo eje estandarizado. Curvas de Potencia Con el botón X-Y plot for a range of values, se obtiene en forma gráfica o tabular la relación de un parámetro (α, P, n o d) en función de otro cualquiera, para los 2 restantes constantes, o para distintos valores de dos de los restantes, manteniendo el otro constante. De esta forma crearemos las curvas de Potencia en los problemas resueltos. Figura 5-10 Distribuciones descentralizadas Si se requiere un valor (y la gráfica) de la distribución descentralizada, se elegirá la opción Generic test presente al final del cuadro desplegable Statistical test, para las pruebas z, t, χ2 o F. Nota Si se resuelve el cálculo de una potencia con la distribución normal (asumiendo que se cumplen los requisitos adecuados) en lugar de la t de Student usada por GPower, se observará alguna discrepancia. Como la t de Student es platicúrtica y por lo tanto sus colas tienen mayor área que las de la normal, sus valores de corte serán algo más grandes y por consiguiente la potencia devuelta por el GPower será algo menor que la calculada con la distribución normal. Estas diferencias se harán imperceptibles en tanto el tamaño de la muestra sea suficientemente grande. 44 Jorge Carlos Carrá I Diseño b. Potencia P y errores alfa y beta Riesgos del comprador y del vendedor En una prueban unilateral, el analista debe decidir que desigualdad asociará a H0. Supongamos una situación resumida con la siguiente regla de decisión: Evento: θ > θ0 => Acción: comprar a) si define H0: θ ≤ θ0 (no comprar) => H1: θ > θ0 (comprar), resulta: α = Comprar cuando no debió, riesgo del comprador β = Νο comprar cuando debió, riesgo del vendedor b) si define H0: θ ≥ θ0 (comprar) => H1: θ < θ0 (no comprar), resulta: α = No comprar cuando debió, riesgo del vendedor β = Comprar cuando no debió, riesgo del comprador Identificado el error para cada riesgo, podrá especificar cuál será el valor numérico de la probabilidad (α o β) que está dispuesto a tolerar. Como habitualmente α menor que β, un comprador elegirá la opción a) y un vendedor la opción b). Estima de la desviación estándar En muchos problemas se requiere conocer la desviación estándar de la población. Se proponen a continuación, 4 diferentes formas de estimarla, cuando ésta no se conoce. 1. Amplitud Si se conoce la amplitud, dividirla por un coeficiente adecuado. Dado que la mayoría de los datos se encuentran entre ± 3 desviaciones estándares de la media, se debería elegir el valor 6. Sin embargo si la población no es normal, este coeficiente tenderá a disminuir el valor de s. De aquí que es más recomendado tomar 5 o 4. A menos que se indique lo contrario, elegiremos 4. 2. Percentiles Si se conocen 2 percentiles simétricos (por ejemplo P10 y P90 o P25 y P75), dividir la amplitud entre los percentiles por la diferencia entre los valores z, suponiendo una distribución normal. Observemos que si la distribución es efectivamente normal, este cociente da exactamente σ. 3. Coeficiente de variación Si se conoce el CV, multiplicarlo por la media. 4. Estudio previo Tomar el valor de la desviación estándar de una muestra anterior. En la sección de inferencia de una varianza se verá cómo se pueden generar fácilmente los IC de la varianza (asumiendo que la población sigue una distribución normal). En este caso, es más apropiado, además de un valor puntual de la desviación estándar, considerar también los límites del IC para obtener así un intervalo de posibles resultados y los mejores y peores escenarios. Problema resuelto 5.1 Nuevo programa federal de educación El Consejo de Educación de la provincia desea considerar un nuevo programa federal de educación. Para acceder al mismo, el ingreso medio por familia no debe ser mayor que 2300$ mensuales. Una empresa consultora indica que se estudiaron 80 familias y determinó que la desviación estándar era de 500$. a) Hallar α si H0: μ ≥ 2300 y se define la región crítica se define como x < 2200 . b) El Consejo de Educación desea saber si el estudio tiene la potencia suficiente para detectar la presencia de un salario medio es 2050$. c) Se desea una potencia de por lo menos 0.80 ¿Cuál será el tamaño del efecto d que detecta? 45 Capítulo 5 Inferencia Paramétrica I Paso 1 Problema Comparar grupos: θ =μ Paso 2 Modelo Distribución normal de la distribución muestral de medias por TCL. Paso 3 Diseño a) H 0 : μ ≥ 2300 H A : μ < 2300 Ver figura 5-11. α = P(rechazar H0 si es verdadera) ⇒ α = P( X < 2200 si μ = 2300) ⇒ α = P( X − 2300 2200 − 2300 < ) 500 / 80 500 / 80 ⇒ α = P( z < −1.788) = 0.0375 La probabilidad de rechazar la H0 cuando es verdadera es 0.0375. b) H 0 : μ ≥ 2300 H1 : μ < 2300 Solución centralizada 1 Método 1: Calculando el valor crítico β = P(aceptar H0 si μ = 2050) ⇒ β = P( X > 2200 si μ = 2050) ⇒ β = P( X x − 2050 2200 − 2050 > ) 500 / 80 500 / 80 ⇒ β = P( z > 2.68) = 0.0037 La probabilidad de no rechazar H0 cuando es falsa es 0.0037. La potencia P resulta entonces: P = 1 − 0.0037 = 0.9963 Existe un 99.6% de probabilidad de detectar una diferencia en la media de 250, si existe. En otras palabras, si H1 es cierta, el 99.6% de las veces la prueba será significativa. Esta diferencia equivale a un tamaño del efecto de: d= 2050 − 2300 = −0.5 500 En otras palabras, la prueba detectará un tamaño del efecto mayor a 0.50 (mediano), con un probabilidad del 99%. Si este tamaño existe en la población, se rechazará H0 (resultado significativo) con una probabilidad de 99%. 2 Método 2: Ecuación de diseño El valor de zβ, podría calcularse directamente a partir de la ecuación de diseño que utiliza el tamaño del efecto en lugar del valor de H1: z β = zα − nc 46 Jorge Carlos Carrá I Diseño b. Potencia P y errores alfa y beta nc = nd = 80 −250 = −4.47 500 Por lo tanto: z β = −1.788 − ( −4.47) = 2.68 Solución descentralizada Requiere indefectiblemente de un programa que proporcione los valores de la t de Student no centralizada (por ejemplo SPSS o GPower). Con SPSS: tcrit = IDF .T (0.0375,79) = −1.804 Nota Por considerarla una notación eficaz, utilizaré la simbología del SPSS (CDF, NCDF; IDF o SIG), resumida en el Apéndice B, incluso para las secciones no correspondientes a procedimientos del SPSS. P = NCDF .T (−1.804, 79, −4.47) = 0.996 c) zβ = z0.20 = 0.84 0.84 = −1.788 − 80d d = 0.29 GPower b) Se obtienen las distribuciones de H0 y H1 y cualquier plot de una variable en función de las otras. t test, Means: Difference from constant (one sample case) Post hoc 1 cola, α = 0.0375, d = 250/500 y n =80. El resultado de las distribuciones se muestra en la figura 5-11. Observar que la distribución de H1 (en líneas punteadas) es la distribución descentralizada y se encuentra desplazada del origen de H0 (línea continua) en el valor: nc = –0.5 √80 = –4.47. El valor de P que devuelve es: 0.996. Observar además que el valor crítico se ha obtenido con una distribución t en lugar de la distribución z usada en este ejemplo. Dado que la muestra es grande, ambos valores son similares. c) Para responder a la pregunta c), se debe elegir "Sensitivity" en el tipo de análisis. Figura 5-11 47 Capítulo 5 Inferencia Paramétrica I Gráfica descentralizada Si solo se requiere la gráfica descentralizada a partir del parámetro nc: t test, Generic t test Post hoc 1 cola, α = 0.0375, non centrality (nc): -4.47, Df (Degree of freedom, Grados de libertad): 79. Entrega una P de 0.996 y la gráfica anterior. Curvas de Potencia En la figura 5-12 se incluye el plot de la Potencia en función de tamaños del efecto, negativos y positivos, para varios valores de n (si la prueba fuera de proporciones, debe cuidarse que las mismas no sean negativas). Estos gráficos son de interés para el investigador, pues muestra la sensibilidad de la prueba para detectar distintos tamaños de efecto, si existen. El valor de la potencia, para un d = 0, es igual a α como es de esperar. He comentado que un valor mínimo de potencia que los investigadores utilizan para que tenga sentido el estudio es 80%. Si tomamos este valor de potencia, se aprecia que la prueba detectará con un 80% de probabilidad, un d de alrededor de 0.37 (para el cual corresponde un tamaño del efecto E = 185) para n = 50, pero podrá detectar un d de alrededor de 0.225 (para el cual, E = 112.5) si aumentamos n a 140 (los valores exactos se pueden obtener presionando el botón Table). La elección adecuada dependerá del E mínimo que se desee detectar y de los costos. Figura 5-12 En la bibliografía se encuentra el enlace para correr el applet Potencia. Problema resuelto 5.2 Cantidad de cajas de cereales Una máquina que llena cajas de cereales pone una cantidad en cada caja distribuida normalmente. La media es de 100 g y la desviación estándar de 3g. Se desea probar H0 = 100 versus H0 ≠ 100 con una muestra de tamaño 10. a) Encontrar α si la región de no rechazo es: 98 ≤ x ≤ 102 b) Se desea conocer la potencia P para detectar la presencia de un verdadero valor medio de 103. 48 Jorge Carlos Carrá I Diseño b. Potencia P y errores alfa y beta c) Encontrar β y la potencia P cuando el verdadero valor medio es 104. ¿Por qué este valor es mayor que el encontrado en b)? Paso 1 Problema Comparar grupos: θ =μ. Paso 2 Modelo Distribución normal de la distribución muestral de medias por propiedad de las distribuciones normales. Paso 3 Diseño a) Ver figura 5-13. α = P( X < 98 si μ = 100) + P( X > 102 si μ = 100) ⇒ α = P( X − 100 98 − 100 X − 100 102 − 100 < ) + P( > ) 3 / 10 3 / 10 3 / 10 3 / 10 ⇒ α = P( z < −2.108) + P( z > 2.108) ⇒ α = 0.0174 + 0.0174 = 0.0348 La probabilidad de rechazar la H0 cuando es verdadera es 0.0348. Si se usara la distribución t, el resultado será: α = P(t < −2.108) + P(t > 2.108) α = 0.0321 + 0.0321 = 0.0642 La probabilidad de rechazar la H0 cuando es verdadera es 0.0642. b) Solución centralizada 1 Método 1: Calculando el valor crítico β = P(98 ≤ X ≤ 102, si μ = 103) ⇒ β = P ( 98 − 103 ≤ X − 103 ≤ 102 − 103 ) 3 / 10 3 / 10 3 / 10 ⇒ β = P(−5.27 ≤ z ≤ −1.054) ⇒ β = 0.1469 La probabilidad de no rechazar H0 cuando es falsa es 0.1469. Con una distribución t resulta β = 0.1596. La potencia P resulta entonces: P = 1 − 0.1469 = 0.8531 Existe un 85.3% de probabilidad de detectar una diferencia en la media de 3, si existe en la población. 2 Método 2: Ecuación de diseño Los valores de zβ, podrían calcularse directamente a partir de la ecuación de diseño que utiliza el tamaño del efecto en lugar del valor de H1: z β = zα − nc nc = nd = 10 3 = 3.16 3 Por lo tanto: z β s = 2.108 − 3.16 = −1.054 z β i = −2.108 − 3.16 = −5.27 49 Capítulo 5 Inferencia Paramétrica I Solución descentralizada Requiere indefectiblemente a un software como el SPSS. tα = 2.108 NCDF .T (−2.108,9,3.16) = 0 1 − NCDF .T (2.108,9,3.16) = 0.841 P = 0 + 0.841 = 0.841 GPower Entrega la solución precisa. t test Means: Difference from constant (one sample case) Post hoc 2 colas, α = 0.0642, d = 3/3 y n =10, Las distribuciones de H0 y H1, se muestran en la figura 5-13. Observar nuevamente la correspondencia entre el valor crítico de t con nuestro cálculo. Entrega una potencia de 0.84. Figura 5-13 c) β = P(98 ≤ X ≤ 102, si μ = 104) ⇒ β = P( 98 − 104 X − 104 102 − 104 ≤ ≤ ) 3 / 10 3 / 10 3 / 10 ⇒ β = P(−6.324 ≤ z ≤ −2.108) ⇒ β = 0.0174 La potencia P resulta entonces: P = 1 − 0.0174 = 0.983 La probabilidad de rechazar H0 cuando es falsa es 0.983. Este valor es mayor que el del punto b) pues el tamaño del efecto E es mayor. Existe un 98.3% de probabilidad de detectar una diferencia en la media de 4, si existe. Las distribuciones de H0 y H1, obtenidas con GPower, se muestran en la figura 5-14. 50 Jorge Carlos Carrá I Diseño c. Tamaño de la muestra Figura 5-14 Problema resuelto 5.3 Libro de texto Un editor editará un libro de texto de un autor, si hay pruebas de que más del 10% de las instituciones educativas lo adoptará. a) Expresar el enunciado como relación entre un evento y una acción. b) ¿Es un problema de 1 cola o de 2 colas? c) ¿Cuál es el error más importante para el editor? ¿Cuál es el error más importante para el autor? Definir distintas H0, y en base a ella asociar los errores α y β a los riesgos. a) Evento: p > 10% => Acción: editar b) Es un problema de 1 cola pues el enunciado contiene las palabras "más del". c) si H0: p ≥ p0 (editar) => H1: p<p0 (no editar) • o α = No editar debiendo hacerlo. Riesgo del autor o β = Editar no debiendo hacerlo. Riesgo del editor si H0: p ≤ p0 (no editar) => H1: p>p0 (editar) • o α = Editar no debiendo hacerlo. Riesgo del editor o β = No editar debiendo hacerlo. Riesgo del autor c. Tamaño de la muestra El objeto es encontrar el valor del tamaño de la muestra n, adecuada al proceso de inferencia y por lo tanto al diseño que se haya realizado. En este sentido, hemos visto 2 formas equivalentes de realizar la inferencia: por IC y por PH. El valor de n se encuentra en el error estándar de las inferencias de posición. Este cálculo se puede realizar, entonces, desde 2 distintas perspectivas, en función de cual haya sido el objetivo principal del estudio: un IC o una PH: • Control del ancho B del IC • Control de la potencia P de la PH Luego de calcular el tamaño de la muestra por un enfoque, se podrá verificar el control que ese tamaño de muestra realiza en el otro. 51 Capítulo 5 Inferencia Paramétrica I 1. Controlando el B de un IC Cuando el objetivo del estudio es un IC, es natural encontrar el tamaño de la muestra que controle el margen de error B del IC. Veamos el cálculo para 4 problemas distintos: estimación de μ, estimación de p, estimación de Δμ y estimación de Δp. En todos ellos el valor de n se encuentra en el error estándar. Se obtendrán distintas ecuaciones de cálculo, pero se aconseja al estudiante no memorizar ninguna de ellas y proceder en forma constructiva, a partir de la ecuación del error estándar o del error de estimación, según corresponda. Se incluyen en este estudio las expresiones aplicables cuando la población es finita. Problema θ = μ (variables cuantitativas contínuas) El valor de n se encuentra en el error estándar: σ θˆ = σ n . Población infinita Se desea estimar el tamaño de la muestra dado el margen de error B, al que se desea que se encuentre como máximo la media muestral θ de la media poblacional real θˆ , con un dado nivel de confianza c% (ver IC). Esta relación se visualiza en la figura 5-15. El valor de B, al igual que el tamaño del efecto, debe ser establecido en la fase de diseño, antes de realizar el muestreo. Figura 5-15 Ecuación de diseño (para control por IC) Dado: B =| θˆm − θ | ´ ma x =| θˆc − θ | se obtiene otra ecuación de diseño (ésta para control por IC): B = zα /2σ θˆ = zα /2 σ n Si despejamos n, resulta: ⎛z σ⎞ n = ⎜ α /2 ⎟ ⎝ B ⎠ 2 Suele definirse un error de estimación estandarizado, BS como: 52 Jorge Carlos Carrá (5.6) I Diseño c. Tamaño de la muestra BS = B σ Reemplazando, resulta: ⎛z ⎞ n = ⎜ α /2 ⎟ ⎝ BS ⎠ 2 (5.7) Como interviene z, se requiere que la distribución muestral sea la normal, por lo cual los valores mínimos deberán luego llevarse a n > 30 si la distribución de la población no es normal. Si se desconoce σ, estimarla, como ya se ha dicho, con un valor muestral de desviación estándar anterior o con la cuarta parte de la amplitud, si ésta se conoce. Se observa que si se disminuye a la mitad el margen de error, el tamaño de la muestra se multiplica por 4. Si el dato se expresa directamente en función del error estándar, despejando n, resulta: ⎛σ ⎞ n=⎜ ⎟ ⎝σx ⎠ 2 (5.8) Factores que afectan a n De la expresión (5.7) se desprende que son 2 los factores que afectan al tamaño de la muestra. Recordemos antes que si el tamaño de la muestra crece, decrece el error estándar (capítulo 4) y la curva se hace más leptocúrtica (capítulo 1). 1. El nivel de confianza c = 1 – α Cuando c crece, para BS constante, n crece y viceversa. Gráficamente conviene imaginar dos distribuciones f1 ( x ) y f 2 ( x ) , antes y después del cambio, junto con 3 ejes x , z1 y z2 . Si n crece, la curva f 2 ( x ) se hace más leptocúrtica (menos variabilidad) y por lo tanto el área dentro de la región de c para un determinado valor de x (por ejemplo la CDF si el IC es inferior), debe crecer. Observar que el nivel de confianza se encuentra asociado con el porcentaje del número de repeticiones NR que conducen a un valor del error de estimación menor o igual a B. 2. El error de estimación BS Cuando BS decrece, para z constante, n crece y viceversa. Gráficamente conviene imaginar dos distribuciones f1 ( x ) y f 2 ( x ) , antes y después del cambio, junto con 3 ejes x1 , x2 y z . Si n crece, la curva se hace más leptocúrtica. Como z es constante, las áreas deben permanecer constantes, por lo cual, el crecimiento de la altura debe compensarse con el decrecimiento de la base ( x2 < x1 ) y por consiguiente debe decrecer BS. Población finita Llamemos n∞ al valor de la expresión anterior para una población infinita. Este valor debe compararse con algunos de los siguientes criterios para decidir si es aceptable. El primer criterio ya fue utilizado en la aproximación hipergeométrica a la binomial. n∞ < 0.05 N o equivalentemente: N > 20n∞ Otro criterio menos estricto es: N > n∞ (n∞ − 1) Si el criterio adoptado no se cumple, se debe aplicar otra expresión que parte de la inclusión de la cpf en el error estándar. σx = σ n N −n N −1 Recorriendo la misma secuencia que para población infinita, resultan: En función del error estándar: 53 Capítulo 5 Inferencia Paramétrica I n= N ( N − 1) A + 1 donde: A= V (x ) σ2 En función del error de estimación: n= n∞ N n∞ + N − 1 (5.9) Puede observarse que esta expresión de ajuste puede aproximase a un producto sobre la suma. En este caso, es fácil ver por ejemplo, que: si n∞ = 0.5N => n = 1/3N. si n∞ = N => n = 1/2N. si n∞ = 2N => n = 2/3N. Criterios Error de estimación Se suele adoptar: B ≤ 10%μ , (requiere el conocimiento de μ). Si z = 2, equivale a σ x ≤ 5% μ . Problema θ = p (variables cuantitativas discretas) En este caso: B pˆ = zα /2σ pˆ = zα /2 σB n Como la distribución poblacional es ahora la distribución de Bernoulli (capítulo 4, página proporcion4), resultan válidas las expresiones anteriores reemplazando la desviación estándar por (capítulo 3, página proporcion3). σ 2 = σ B 2 = pq Por lo tanto: ⎛z n = ⎜ α /2 ⎝ B ⎞ pq ⎟ ⎠ 2 Se aprecia entonces que se presenta un problema adicional pues la varianza depende del valor p a estimar. Deberá entonces adoptarse un valor provisional para p. Criterios Tamaños mínimos de n y N En estas ecuaciones se utiliza la aproximación de la distribución binomial a la normal. El criterio establecido en el capítulo 3 era que np y nq deben ser mayores o iguales a 5, sin embargo cuando la proporción poblacional se desconoce, como en este capítulo, los especialistas sugieren además que el valor de n sea > 100. Por lo tanto, si el tamaño n resulta menor que 100, deberá aumentarse hasta 100. De aquí se desprende que si la población es finita, es decir si el tamaño de la muestra n es inferior al de la población N, en un 5%, además de usar el cpf, la población debería ser de por lo menos 54 Jorge Carlos Carrá I Diseño c. Tamaño de la muestra N = 2000. Algunos autores flexibilizan este criterio a un 10%, por el cual resulta entonces: N ≥ 1000. Varianza Como la ecuación de la varianza incluye al valor p que debemos estimar, se puede: • usar un valor muestral anterior p̂ • adoptar el valor más desfavorable para el que resulta el valor máximo del producto: pq. Este valor es p = 0.5, para el cual: pq = 0.25. Esta conclusión se obtiene rápidamente analizando el máximo de la expresión cuadrática: pq = p (1 − p ) = p − p 2 Error de estimación En consonancia con el tratamiento de θ = μ , se recomienda que el valor del error de estimación no supere el 10% de la media p, Bpˆ ≤ 10% p . Si p es 0.5, esto equivale a adoptar como máximo el siguiente valor, usual en las investigaciones de mercado: Bpˆ ≤ 5% , es decir menor a 5 puntos porcentuales. Regla práctica Se puede formular una regla simple para estimar rápidamente el tamaño de la muestra para estimar la proporción de una población para: • Un nivel de confianza del 95% y 2 colas ( z = 1.96 ≈ 2 ). • Un valor de p = 0.5 (condición más desfavorable cuando no se conoce la proporción poblacional). Por lo tanto, para estos datos: ⎛z σˆ n = ⎜ α /2 p ⎜ B pˆ ⎝ 2 ⎞ ⎛ 2(0.5) ⎞ ⎟⎟ = ⎜⎜ ⎟⎟ B ˆ p ⎠ ⎝ ⎠ 2 En definitiva: n= 1 B pˆ 2 Si por ejemplo se deseara detectar por lo menos un error B pˆ = 3% , se necesita una muestra de 1120 casos. Nota Existen procedimientos para estimar el tamaño de una muestra controlando por B para un problema de θ = σ 2 , pero son más complejos que los anteriores. Si se encuentra en esta situación se recomienda utilizar tablas preparadas a tal efecto o controlar por Potencia con un software como por ejemplo GPower (página 128). Problema θ = Δμ (variables cuantitativas contínuas) Se impone que las variables sean independientes. Para poder despejar un solo valor de n, debe darse una relación entre n1 y n2: n1 = k n2 55 Capítulo 5 Inferencia Paramétrica I Sin perdida de generalidad podemos adoptar k ≥ 1 . El valor de k se llama radio de asignación (allocation ratio). El caso más simple es considerar k = 1, el cual además minimiza el tamaño muestral. En consecuencia: n1 = n2 = n Partiendo de: σ 2 Δx = σ x21 + σ x22 Si llamamos: σ Δ 2 = σ 12 + σ 22 Resulta: σ 2 Δx = σ 12 + σ 22 n = σ Δ2 n Por lo tanto: B = zα σ Δx ⎛z σ ⎞ n=⎜ α Δ ⎟ ⎝ B ⎠ 2 En síntesis, se trata en forma similar al caso de una variable, utilizando σΔ. Si k fuera distinto de 1 y si σ 1 = σ 2 = σ , se obtienen: k + 1 ⎛ zα / 2σ ⎞ n2 = ⎜ ⎟ k ⎝ B ⎠ 2 2 ⎛z σ⎞ n1 = k*n2 = ( k + 1) ⎜ α / 2 ⎟ ⎝ B ⎠ 2 ( k + 1) ⎛ zα / 2σ ⎞ 2 n1 + n2 = ⎜ ⎟ k ⎝ B ⎠ Problema θ = Δp (variables cuantitativas discretas) Se impone que las variables sean independientes. Análoga extensión a la expresada para θ = p , considerando que cada una de las varianzas poblacionales, es ahora: σ 12 = p1q1 σ 2 2 = p2 q2 Para el caso n1 = n2 = n: σΔ = p1q1 + p2 q2 Finalmente: B = zα σ Δp̂ ⎛ z p q + p2 q2 n=⎜ α 1 1 ⎜ B ⎝ ⎞ ⎟⎟ ⎠ 2 Para calcular las desviaciones estándar de cada población, se pueden tomar los valores muestrales o considerar la situación más desfavorable adoptando p = 0.5. 56 Jorge Carlos Carrá I Diseño c. Tamaño de la muestra Problema resuelto 5.4 Peso de los pollitos Un empresario desea estimar la ganancia en peso en 4 semanas de N = 1000 pollitos. Se desea determinar el número de pollitos que deben seleccionarse para que se tenga una confianza del 95% de que la media muestral del total de pollitos, se encuentre dentro de un Bτ = 1000 g, de la media poblacional. En estudios anteriores se encontró que la varianza poblacional es de aproximadamente de 36 g. Utilizar α = 5%. Paso 1 Problema Comparar grupos: θ =μ. Paso 2 Modelo Distribución normal de la distribución muestral de medias en forma tentativa hasta obtener el tamaño de la muestra. Paso 3 Diseño Para no trabajar con los valores totales, previamente convirtamos el valor de Bτ : Bx = Bτ =1 N Es decir se desea conocer el tamaño de la muestra necesario para que la media muestral no se separe en más de 1g de la media poblacional, con una confianza del 95%. Despejando n de la ecuación: B = zα /2 σ n N −n N −1 resulta: n= n∞ N n∞ + N − 1 con: ⎛z ⎞ n∞ = ⎜ α /2 ⎟ ⎝ BS ⎠ 2 Reemplazando resulta: n∞ = 144 Finalmente: n = 125.9 Es decir, se debe adoptar un tamaño de muestra n = 126. Como n es mayor que 30 se valida la elección del modelo normal para la distribución muestral de medias. GPower Esta forma de resolución se explicará luego en el análisis por control de la potencia, página 67. t test Means: Difference from constant (one sample case) A priori 2 colas, α = 0.046, d = 1/6 = 0.166667 y P =0.50. Equivalentemente: 2 colas, α = 0.046, d = 1/6(1.43) = 0.238 y P =0.80. Se obtiene un valor de n = 144 (o 145), concordantes con el valor obtenido. Observar que se entró el valor de α 57 Capítulo 5 Inferencia Paramétrica I necesario para obtener t = 2. Problema resuelto 5.5 Encuesta de estudiantes El centro de estudiantes desea realizar una encuesta para determinar la proporción de estudiantes que está a favor de renovar la biblioteca. La población de estudiantes es N = 2000 y se desea que el límite del error estándar sea el 5% de p. No existe información previa para estimar p. Tomar zα/2 = 2. Paso 1 Problema Comparar grupos: θ = p. Paso 2 Modelo Distribución normal de la distribución muestral de proporciones en forma tentativa hasta obtener el tamaño de la muestra. Paso 3 Diseño Despejando n de la ecuación: B = zα /2 pq n N −n N −1 resulta: n= n∞ N n∞ + N − 1 Donde: n∞ = Adoptando: Resulta: zα2 /2 pq B2 p = 0.5 B = zα /2σ pˆ = 2(0.05)0.5 = 0.05 Por lo tanto: n∞ = 400 Observar que podría haberse aplicado la regla de la inversa de la raíz de n. Finalmente: n = 333.4 Es decir, se debe adoptar un tamaño de muestra n = 334. Como n es mayor que 100 se valida la elección del modelo normal para la distribución muestral de proporciones. GPower Esta forma de resolución se explicará luego en el análisis por control de la potencia, página 67. t test Means: Difference from constant (one sample case) A priori 2 colas, α = 0.046, d = 0.05/0.5 = 0.1 y P =0.50. Devuelve un tamaño n = 401. Observar que se entró el valor de α necesario para obtener t = 2. 58 Jorge Carlos Carrá I Diseño c. Tamaño de la muestra 2. Controlando la P de una PH Es un método alternativo al del control del error de estimación B (IC), controlando en este caso la potencia P (PH). Como ya se ha mencionado, la ecuación de diseño contiene 4 incógnitas de las cuales 2 son de particular interés: • Cálculo de n • Cálculo de P El cálculo del tamaño de la muestra implica hallar un valor que sea lo suficientemente grande para tener una buena probabilidad de rechazar H0 cuando en realidad una H1 de interés, sucede. Si existen buenas chances (potencia) de detectar valores superiores a un deseado tamaño del efecto, el investigador llevará adelante el muestreo. Si esta probabilidad es baja, será preferible no llevar adelante el estudio. El problema de obtener n dado P es algo más complejo que el inverso pues a menudo se requiere realizar el cálculo con distribuciones (t de Student, chi-cuadrado o F), que contienen parámetros dependientes de n (grados de libertad). El problema requiere entonces un proceso de aproximaciones sucesivas (ver problema resuelto en la página 93). Se presentan las ecuaciones de cálculo de n para población infinita. Las correspondientes a población finita se resuelven con la expresión (5.9) ya estudiada anteriormente. Problema θ = μ (variables cuantitativas contínuas) Hemos ya deducido la ecuación de diseño para control por PH, distribuciones normales: z β = zα − nc Potencia, P La potencia se calcula obteniendo zβ. Tamaño de la muestra, n Para calcular el tamaño de la muestra, se reemplaza el parámetro de descentralidad, nc y se despeja n. En función del tamaño del efecto ⎛ z − zβ ⎞ n=⎜ α ⎟ ⎝ d ⎠ 2 (5.10) En función de las medias Reemplazando el tamaño del efecto estandarizado, d: d= μ1 − μ0 σ resulta finalmente: ⎛ z − zβ ⎞ σ⎟ n=⎜ α ⎝ μ1 − μ0 ⎠ 2 (5.11) Dado que se está utilizando una distribución muestral normal, los valores mínimos deberán llevarse a n > 30. 59 Capítulo 5 Inferencia Paramétrica I Factores que afectan a n De la expresión (5.10), se desprende que son 3 los factores que afectan al tamaño de la muestra. Recordemos antes que si el tamaño de la muestra crece, decrece el error estándar y la curva de f ( x ) se hace más leptocúrtica (capítulo 1). 1. El error α Cuando α decrece, zα crece y n crece. Gráficamente, si n crece, la curva de f ( x ) se hace más leptocúrtica y por lo tanto el área dentro de la región de α, debe decrecer. 2. La potencia P Cuando P crece, zβ crece (negativamente) y n crece. Gráficamente, si n crece, la curva de f ( x ) se hace más leptocúrtica y por lo tanto el área dentro de la región de P, debe crecer 3. El tamaño d Cuando d decrece, n crece y viceversa. Gráficamente, si n crece, la curva de f ( x ) se hace más leptocúrtica. Como las z son constantes, las áreas deben permanecer constantes, por lo cual debe decrecer d. Prueba de 2 colas El desarrollo anterior puede utilizarse para obtener expresiones adecuadas para cualquier otro problema de prueba de hipótesis, con distribución normal o t de Student, sea unilateral o bilateral. En el caso bilateral, cualquiera de los 2 puntos críticos conduce al mismo sistema de ecuaciones. • Para calcular la potencia, reemplazar zα por zα/2 y calcular la potencia con las 2 colas (habitualmente una de ellas aporta un valor despreciable). Ver el próximo problema resuelto. • Para calcular el tamaño de la muestra, reemplazar zα por zα/2. Sin embargo, se presenta un inconveniente con el valor de zβ a reemplazar, pues corresponde ahora a una cola que es menor que la potencia dato, pues ésta surge de sumar las 2 colas. En la práctica basta considerar la cola en la dirección del signo del tamaño del efecto, pues la otra es habitualmente despreciable (a menos que el tamaño del efecto sea muy pequeño). Si se desea comprobarlo, calcular el valor del área de la cola inferior (con el otro signo de zα/2) y eventualmente ajustar y proceder iterativamente por prueba y error. Distribución no normal Si la distribución exacta es una distribución t, la expresión de cálculo es la misma, cambiando z por t. Sin embargo, si se desea calcular el tamaño de la muestra se encontraría el inconveniente de que se requiere el valor de n para introducir los grados de libertad. El problema se resuelve pre-calculando un valor de n con una distribución z y realizando algunas iteraciones hasta lograr la potencia deseada Estos casos los dejaremos para la siguiente sección (ver problema resuelto en la página 93) y en los cálculos manuales solo trabajaremos con la aproximación a la distribución normal. El software GPower, ya introducido anteriormente, es una herramienta simple y extraordinaria para aquel investigador que requiera calcular tamaños de muestras que tengan una adecuada potencia, ante cambios en otros parámetros, como la media, desviación estándar, alfa, tipo de prueba, etc. A continuación se enuncian sin demostración, hasta las secciones II, III y IV, las ecuaciones de potencia y tamaño de la muestra para otros tipos de problemas (ver resumen en las fórmulas del apéndice C). En la figura siguiente se repite la tabla de tamaños de efectos convencionales. Verbal Pequeño Mediano Grande g d, h 0.20 0.05 0.50 0.15 0.80 0.25 ρ, w 0.10 0.30 0.50 Figura 5-16 60 Jorge Carlos Carrá I Diseño c. Tamaño de la muestra Si se tratara de hallar el tamaño de la muestra para una encuesta conteniendo varios de estos problemas, se deberá realizar un análisis para cada uno de ellos y tomar el tamaño mayor. Problema θ = p (variables cuantitativas discretas) Ecuación de diseño (página 105): z β σ pˆ1 = zα σ pˆ 0 − ( p1 − p0 ) (5.12) Si la distribución binomial no puede aproximarse a la normal, el cálculo con la proximación puede ser demasiado conservador y por lo tanto costoso, por lo cual se recomienda usar la binomial o al menos controlar con un software que resuelva el cálculo exacto. Potencia, P La potencia se calcula obteniendo zβ. Tamaño de la muestra, n Tamaño de la muestra en función de las proporciones ⎛z p q −z pq n=⎜ α 0 0 β 1 1 ⎜ p1 − p0 ⎝ ⎞ ⎟ ⎟ ⎠ 2 (5.13) Tamaño de la muestra en función del tamaño del efecto g g = p1 − p0 direccional g = p1 − p0 no direccional Las expresiones son más complejas que las de la media pues las varianzas de H0 y H1 son distintas, al depender de p. Además los tamaños del efecto convencionales son solo válidos para p0 = 0.5. ⎛z p q −z pq n=⎜ α 0 0 β 1 1 ⎜ g ⎝ ⎞ ⎟ ⎟ ⎠ 2 Si se desearan utilizar tamaños del efecto convencionales para otros valores de p0, se debe usar una transformación arcseno (ver Δp, más adelante). Nota El tamaño n para control por B se puede obtener de las expresiones anteriores de control por P, con z β = 0 , el error muestral estandarizado en lugar del tamaño del efecto y la desviación estándar para p = 0.5 , pues no se asume una H0. 2 ⎛ z pq ⎞ ⎛ zα 0.5 ⎞2 = n=⎜ α ⎜ B ⎟⎟ ⎜⎝ B ⎟⎠ ⎝ ⎠ Problema θ = σ 2 (variables cuantitativas contínuas) Ecuación de diseño (página 128). χα2σ 02 = χ β2σ12 61 Capítulo 5 Inferencia Paramétrica I Potencia, P La potencia se calcula obteniendo χ2β con la distribución central de χ2 escalada dividiendo por el tamaño del efecto E = σ12 . σ 02 Tamaño de la muestra, n La variable n se encuentra dentro de los grados de libertad por lo cual el proceso de obtener n debe hacerse por prueba y error (n = > P) o recurrir a un software que lo resuelva, tal como GPower. Problema θ = Δμ = Δ (variables cuantitativas contínuas) Se utilizará la simbología Δ para indicar Δμ y se complementará con un subíndice 0 para indicar que corresponde a la H0 o 1 para indicar que corresponde a la H1. Solo resumiremos aquí el caso de muestras independientes. El caso de muestras apareadas se tratará en la página 145. Tamaño de la muestra en función de las medias Ecuación de diseño: zβ σ Δx = zασ Δx − ( Δ1 − Δ 0 ) (5.14) Ya indicamos que los subíndices de las deltas indican la hipótesis nula o la alternativa. Si se asume independencia: σ Δx = σ 12 σ 22 n1 + n2 Si las varianzas poblacionales se desconocen, se define (ver página 145) una varianza única llamada varianza combinada s 2C : sC 2 = s12 + s22 2 Se demostrará en la página anteriormente citada que este reemplazo debe armonizarse con un tamaño muestral equivalente nE : nE = n 2 Por lo tanto: σ 2 Δx = s 2c n/2 Potencia, P La potencia se calcula obteniendo zβ. Tamaño de la muestra, n Veamos solo el caso en el que σ 12 = σ 22 . Para poder despejar un solo valor de n, debe darse una relación entre n1 y n2, llamada k, radio de asignación (allocation ratio). n1 = k n2 62 k ≥1 Jorge Carlos Carrá I Diseño c. Tamaño de la muestra k=1 En este caso n1 = n2 = n . Se obtiene: ⎡ ( z − z )s ⎤ n = 2⎢ α β C ⎥ ⎣ Δ1 − Δ 0 ⎦ 2 (5.15) El tamaño de efecto para una diferencia de medias se define para H0: Δ0=0. Por lo tanto: d= Δ1 sC De esta forma resulta: n ⎡ ( z − zβ ) ⎤ nE = = ⎢ α ⎥ 2 ⎣ d ⎦ 2 (5.16) En síntesis, se trata en forma similar al caso de una variable, utilizando sC y nE. k>1 En este caso n1 ≠ n2. Reemplazando n1 = k n2 en nE , resulta: nE = ⎛ z − zβ ⎞ kn2 2 =⎜ α ⎟ (k + 1)n2 ⎝ d ⎠ 2 resolviendo para n2, y luego para n1, se obtienen: n2 = k + 1 ⎛ zα − zβ ⎞ ⎜ ⎟ k ⎝ d ⎠ 2 ⎛ z − zβ ⎞ n1 = (k + 1) ⎜ α ⎟ ⎝ d ⎠ 2 Problema θ = Δp = Δ (variables cuantitativas discretas) Solo resumiremos aquí el caso de muestras independientes. El caso de muestras apareadas se tratará en la página 178. Tamaño de la muestra en función de las proporciones si H0: Δ0=0 Si se asume independencia y normalidad, la ecuación de diseño es: zβ σ Δ = zασ Δ − (Δ1 − Δ 0 ) 1 0 (5.17) Si Δ0 = 0, entonces: Δ1 − Δ 0 = Δ1 = p1 − p2 correspondientes a H1. Para el sigma de zα se utiliza p1 = p2 = pC y q1 = q2 = qC , en tanto que en el de zβ se utiliza donde: p̂ , 63 Capítulo 5 Inferencia Paramétrica I n1 p1 + n2 p2 , n1 + n2 nq +n q qC = 1 1 2 2 , n1 + n2 pC = Por lo tanto: σΔ = pC qC pC qC + , n1 n2 σΔ = p1q1 p2 q2 + n1 n2 0 1 Si no se tienen los valores de H0, todas las expresiones se calculan con los valores de H1. Potencia, P La potencia se calcula obteniendo zβ. Tamaño de la muestra, n Veamos el caso más común: n1 = n2 = n . ⎛ z 2 pC qC − zβ p1q1 + p2 q2 n=⎜ α ⎜ Δ1 ⎝ ⎞ ⎟ ⎟ ⎠ 2 Reemplazando los valores de las proporciones combinadas pC y qC : ⎛ z ( p1 + p2 )(q1 + q2 ) / 2 − zβ p1q1 + p2 q2 n=⎜ α ⎜ Δ1 ⎝ ⎞ ⎟ ⎟ ⎠ 2 (5.18) Tamaño de la muestra en función del tamaño del efecto h si H0: Δ0=0 El tamaño de efecto para una diferencia de proporciones se define siempre para H0: Δ0=0. Un problema con la distribución muestral de proporciones es que la varianza depende del valor de la misma. Se verá en la página 101, que con un cambio de variable arcseno, se consigue que las proporciones se distribuyan en forma aproximadamente normal y además con una varianza que es esencialmente independiente del valor de la proporción p. Con esta transformación se puede definir entonces un tamaño de efecto h que no depende del valor de las proporciones. La transformación utilizada es, concretamente: j = 2arcsen p Tamaños del efecto h h = Δ1 j = j1 − j2 direccional h = Δ1 j = j1 − j2 no direccional Los valores de tamaño convencionales para h son: • Chico, h = 0.20 • Mediano, h = 0.50 • Grande, h = 0.80 Esta transformación es válida también para probar ρ = ρ 0 para todo ρ 0 . La ecuación de diseño resulta: 64 Jorge Carlos Carrá I Diseño c. Tamaño de la muestra z β = zα − nc La descentralidad nc resulta: nc = h V ( j) proporcional al tamaño del efecto e inversamente proporcional a la desviación estándar de la distribución muestral. Para H 0 : ρ = ρ0 Se demuestra que V ( j ) = 1 , por lo tanto: n nc = n h Despejando n: ⎛ z − zβ ⎞ n=⎜ α ⎟ ⎝ h ⎠ Para 2 H 0 : Δ0 = 0 Si existe independencia se debe cumplir que: V ( j) = 1 1 2 + = n n n Por lo tanto: nc = n h 2 Despejando n: ⎛z −z ⎞ n = 2⎜ α β ⎟ ⎝ h ⎠ 2 Nota El tamaño n para control por B no se puede obtener de las expresiones de control por P, pues se debe calcular la desviación estándar con p1q1 + p2q2 y no con pC qC + pC qC , dado que en el control por B no se asume una H0. σ Problema θ = 1 2 (variables cuantitativas 2 σ2 contínuas) Ecuación de diseño (página 198). Fα 1 = Fβ R1 Potencia, P La potencia se calcula obteniendo Fβ con la distribución de F central escalada dividiendo por el tamaño del efecto R1 = σ 12 . σ 22 65 Capítulo 5 Inferencia Paramétrica I Tamaño de la muestra, n Al igual que en el problema de la varianza de una muestra, la variable n se encuentra dentro de los grados de libertad, por lo cual el proceso de obtener n debe hacerse por prueba y error (n = > P) o recurrir a un software, tal como GPower. Problema θ = r (variables cuantitativas contínuas) Ecuación de diseño (página 212): zβ = zα − nc Con: nc = ( ρ F 1 − ρ F 0 ) n − 3 Siendo ρ F = arcth( ρ ) Potencia, P La potencia se calcula obteniendo zβ. Tamaño de la muestra, n Despejando n, resulta: 2 ⎛ z − zβ ⎞ n=⎜ α ⎟ +3 ⎝ ρF1 − ρ F 0 ⎠ Problema θ = Δr (variables cuantitativas contínuas) Ecuación de diseño (página 212): z β = zα − nc Se define el tamaño del efecto q como: q = Δ1 = ρ F 1 − ρ F 2 Como la varianza es: V ( zF ) = 1 n−3 resulta: nc = n −3 q. 2 Potencia, P La potencia se calcula obteniendo zβ. Tamaño de la muestra, n Despejando n, resulta: 2 ⎛z −z ⎞ n = 2⎜ α β ⎟ + 3 ⎝ q ⎠ 66 Jorge Carlos Carrá I Diseño 3. Control por PH vs control por IC 3. Control por PH vs control por IC Si el cálculo del tamaño de la muestra se realizará controlando por la potencia, a partir de este valor de n, se podrá calcular el margen de error que ese tamaño controla y viceversa. Adicionalmente, podríamos preguntarnos cuales deberían ser las condiciones para que ambos resultados coincidan. Si se define BS en forma correspondiente a la definición del tamaño del efecto y se comparan las expresiones de n en ambos enfoques, se aprecian las siguientes particularidades, que permitirán usar GPower para un diseño por IC. Esta resolución se mostró en los problemas resueltos 5.4 y 5.5. Dato: BS = d BS puede hacerse igual a d si: • zα/2 la ecuación correspondiente al control por IC es de 2 colas, por lo tanto debe figurar zα/2 y no zα. • zβ = 0, es decir la potencia debe ser 0.5 (con lo cual d = dC). Dato: zα y zβ Solo para los casos en los que el valor de σ es común para ambas distribuciones H0 y H1, se puede obtener una relación entre el tamaño del efecto y el margen de error estandarizado BS. Si se tiene por ejemplo, una potencia de 0.80 (zβ ~ –0.84) y un error α =0.05 (zα/2 ~ 1.96), resulta: 2 ⎛ 1.96 + 0.84 ⎞ ⎛ 1.96 ⎞ n=⎜ ⎟ =⎜ d ⎝ ⎠ ⎝ BS ⎟⎠ 2 por lo tanto: 2*1.4 1.96 = d BS es decir: d = 1.43BS Siguiendo estos lineamientos, pueden obtenerse las correspondencias que sean adecuadas a los valores y ecuaciones en estudio. En el apéndice C se resumen las expresiones de cálculo del tamaño de una muestra, para las pruebas de medias y proporciones, en los casos de una variable y de dos variables. Problema resuelto 5.6 H0 versus H1 Se desea probar H0: μ = 24, frente a H1: μ = 25, con α = 0.05. a) Encontrar el tamaño de la muestra que garantice esta exactitud y el valor crítico en x–barra, si se fija un β = 0.05, es decir se desea que menos del 5% de las veces se cometa el error de no detectar una media μ = 25, si existe. b) Calcular el valor del margen de error que este tamaño controla y verificar si se encuentra dentro del criterio recomendado en la teoría. c) Calcular la potencia si se toman muestras de n = 50. Suponer que σ2 = 10. Paso 1 Problema Comparar grupos: θ =μ. 67 Capítulo 5 Inferencia Paramétrica I Paso 2 Modelo Distribución normal de la distribución muestral de medias en carácter provisorio hasta obtener el tamaño de la muestra. Paso 3 Diseño a) Es una prueba de 2 colas. Ver en la siguiente figura de análisis que el centro de la distribución de la hipótesis alternativa debe estar a la derecha del punto de corte de la hipótesis nula pues la potencia es 0.95, mayor de 0.50. Por lo tanto los valores de z y sus signos para estos valores de α y β son: zα /2 = 1.96 z β = −1.645 2 ⎛ 1.96 + 1.645 ⎞ n=⎜ ⎟ 10 = 129.9 ⎝ 25 − 24 ⎠ xk = μ0 + zα σ = 24 + 1.96 n ⇒ xk = 24.5 10 129.9 Por lo tanto se debería utilizar un tamaño de la muestra superior a 130, para garantizar no superar los errores definidos por α y β. Como n es mayor que 30 se valida la elección del modelo normal para la distribución muestral de medias. b) El margen de error es: B = 1.96 10 = 0.54 130 Este valor es menor que el 10% de la media. BS = 0.54 = 0.17 10 c) Solución centralizada Cola superior z β = zα /2 − nc 1 = 50 0.316 = 2.23 10 z β = 1.96 − 2.23 = −0.27 nc = nd = 50 β S = 0.39 Cola inferior zβ = − zα /2 − nc z β = −1.96 − 2.23 = −4.19 βI = 0 Por lo tanto: P = 0.61 Este valor indica que, para un tamaño muestral de 50, solo el 61% de las veces podrá ser detectado un tamaño del efecto d = 0.316, si existe. 68 Jorge Carlos Carrá I Diseño 3. Control por PH vs control por IC Solución descentralizada zα /2 = 1.96 NCDF .T (−1.96, 49,2.23) = 0 1 − NCDF .T (1.96, 49,2.23) = 0.608 P = 0 + 0.608 = 0.608 GPower t test Means: Difference from constant (one sample case) A priori 2 colas, α = 0.05, d = 1/√10 = 0.316 y P =0.95 Las distribuciones de H0 y H1, se muestran en la figura 5-17. El valor que devuelve el programa GPower (con distribuciones t) es 133, para el cual el coeficiente descentralizado nc = 3.65. Observar nuevamente que el centro de la distribución de H1 se encuentra a una distancia nc del 0 de la distribución H0 y que la distancia del valor crítico, medido desde el centro de H1, es, como corresponde, el zβ calculado por la ecuación de diseño: zβ = zα − nc Para responder a la pregunta b), se debe elegir "Sensitivity" en el tipo de análisis y entrar una potencia de 0.5. Figura 5-17 Curvas de Potencia En la figura 5.17, se muestra el plot de la Potencia en función del tamaño n para varios d. Si tomamos como un valor de potencia deseable a 0.8, se observa que la prueba detectará con un 80% de probabilidad, un d grande de 0.8 para n de aproximadamente 15, pero para detectar un d chico de 0.2, debemos aumentar n a aproximadamente 200 (los valores exactos se pueden obtener presionando el botón Table). 69 Capítulo 5 Inferencia Paramétrica I Figura 5-18 Problema resuelto 5.7 Proporción de votantes Un encuestador afirma que la proporción p1 de votantes del partido A a favor de una reforma política, es mayor que la proporción p2 de los votantes del partido B. a) El encuestador desea diseñar una prueba para detectar un tamaño del efecto de 0.1 (es decir cuando p1 excede a p2 en 0.1) con α = 0.05 y β ≤ 0.20. Por lo tanto se desea que el 80% de las veces se detecte ese tamaño del efecto, si existe. Hallar el tamaño n. b) Calcular el valor del margen de error que este tamaño controla y verificar si se encuentra dentro del criterio recomendado en la teoría c) Calcular la potencia si se toman muestras de n = 200 en cada partido. Paso 1 Problema Comparar grupos: θ = p. Paso 2 Modelo Distribución muestral de proporciones normal, en carácter tentativo. Paso 3 Diseño a) zα = 1.645 z β = −0.84 Resolución con las proporciones p1 y p2. Se debe utilizar la expresión: 70 Jorge Carlos Carrá I Diseño 3. Control por PH vs control por IC ⎛ z ( p1 + p2 )(q1 + q2 ) / 2 − zβ n=⎜ α ⎜ Δ1 ⎝ p1q1 + p2 q2 ⎞ ⎟ ⎟ ⎠ 2 con: Δ1 = p1 − p2 la cual requiere conocer p1 y p2. Nos situaremos en la condición con mayor varianza, esto es con p1 = 0.5 y por lo tanto p2 = 0.6. Reemplazando, resulta: 2 ⎛ 1.645 0.495 + 0.84 0.49 ⎞ n = ⎜⎜ ⎟⎟ = 304.6 0.1 ⎝ ⎠ (Para calcular el valor crítico en x–barra, se requeriría conocer con precisión p1 o p2). Por lo tanto, una muestra de tamaño común 305, garantizará los valores de α y β predeterminados. Como n es mayor que 30 se valida la elección del modelo normal para la distribución muestral de proporciones. En la resolución numérica anterior puede observarse que los valores de los radicandos son muy similares entre sí e iguales a 0.5. Esto ocurre cuando las probabilidades están lejos de los extremos (digamos de 0.05 y de 0.95) y permite aproximar la situación a la de una diferencia de medias, tomando las desviaciones estándares de σ1 y de σ2 en su valor máximo de 0.50. En este caso: 2 ⎛ z − zβ ⎞ 2 n = 2⎜ α ⎟ σC ⎝ Δ1 ⎠ σ 2 + σ 22 σ C2 = 1 2 2 ⎛ 1.64 + 0.84 ⎞ n=⎜ ⎟ (0.25 + 0.25) = 307.5 0.1 ⎝ ⎠ Resolución con el tamaño de efecto h j1 = 2arcsen p1 = 2arcsen 0.6 = 1.7722 j2 = 2arcsen p2 = 2arcsen 0.5 = 1.5702 h = j2 − j1 = 0.2018 Finalmente: 2 2 ⎛ z − zβ ⎞ ⎛ 1.64 − (0.84) ⎞ n = 2⎜ α 2 = ⎟ ⎜ ⎟ = 302 ⎝ h ⎠ ⎝ 0.2018 ⎠ GPower z tests Proportion: Difference between two independents proportions A priori 1 cola, α = 0.05, p2 = 0.6, p1 = 0.5, P = 0.8, Allocation ratio n2/n1 = 1 Para obtener la solución con h, se debe presionar el botón Options. Options > Use arcsin transform y Use Cohen's effect size index h. Las distribuciones de H0 y H1, se muestran en la figura 5-19. El valor de n obtenido con este software (solución descentralizada) es 305. 71 Capítulo 5 Inferencia Paramétrica I Figura 5-19 b) 308(0.5) + 308(0.6) = 0.55 308 + 308 = 2 pC qC = 2(0.55)(0.45) = 0.703 pC = σΔ 1 El margen de error es: B = 1.64 0.703 = 0.06 = 6% 308 Este valor es el 11% de p y por lo tanto el tamaño de la muestra es aceptable según el criterio del IC. c) Solución exacta como diferencia de proporciones La ecuación de diseño es (apéndice C): zβ σ Δ1 = zα σ Δ0 − Δ1 200(0.5) + 200(0.6) = 0.55 200 + 200 pC qC pC qC 0.55(0.45) 0.55(0.45) + = + = 0.0497 200 200 n1 n2 pC = σΔ = 0 σΔ = 1 p1q1 p2 q2 0.5(0.5) 0.6(0.4) + = + = 0.0495 n1 n2 200 200 z β = (1.64(0.0497) − 0.1) / 0.0465 = −0.397 β = 0.34 P = 0.65 El valor chico de P indica que muestras de n = 200 probablemente no detectan una diferencia de 0.1 (tamaño del efecto) entre los valores poblacionales de p. Solución aproximada como diferencia de medias Utilizando la aproximación indicada en la respuesta a), obtenemos: Solución centralizada zβ = zα − nc nc = nd p − p2 0.1 = = 0.141 d= 1 σ 0.5 72 Jorge Carlos Carrá I Diseño 3. Control por PH vs control por IC nc = 200(0.141) = 1.99 ⇒ zβ = 1.645 − 1.99 = −0.349 Por lo tanto: β = 0.36 P = 0.64 Solución descentralizada La implementación con el SPSS de esta solución, es la siguiente: IDF .T (0.05,199) = −1.65 tα i = −1.65 NCDF .T (−1.65,199,1.99) = 0 1 − NCDF .T (1.65,199,1.99) = 0.63 P = 0 + 0.63 = 0.63 Dado el alto tamaño de la muestra, ambas soluciones prácticamente coinciden. GPower Solución exacta como diferencia de proporciones z tests Proportion: Difference between two independents proportions Post hoc 1 cola, α = 0.05, p2 = 0.6, p1 = 0.5, n1 = 200 y n2 = 200. Entrega una P = 0.64. Para responder a la pregunta b), se debe elegir "Sensitivity" en el tipo de análisis y entrar una potencia de 0.5. Solución aproximada como diferencia de medias t test Means: Difference from constant (one sample case) Post hoc 1 cola, α = 0.05, d = 0.1/√0.50 = 0.141, y n =200 Las distribuciones de H0 y H1, se muestran en la figura 5-20. Entrega una P = 0.64. Figura 5-20 73 Capítulo 5 Inferencia Paramétrica I Problema resuelto 5.8 Tamaño muestral de varias variables Varios alumnos de la facultad desean realizar una investigación estadística, para lo cual han realizado el pedido de autorización pertinente a las autoridades. Para convalidar el pedido deben presentar el tamaño mínimo de la muestra, con su correspondiente justificación académica. Asumen que una potencia satisfactoria es del 80%, es decir si existe realmente un tamaño del efecto (a determinar), tendrá una chance del 80% de ser detectado. Eligen además el criterio tradicional de 5% para decidir la significación estadística. Una parte de la encuesta contiene preguntas con variables de escala. Una de ellas busca establecer si existen diferencias significativas entre el desempeño de alumnos proveniente de escuelas públicas o privadas (problema de comparación entre grupos) y postulan en principio que los tamaños de las muestras de cada grupo sean iguales y que la prueba de esta pregunta sea de 2 colas. Una segunda parte contiene preguntas categóricas. Una de ellas desea probar si la proporción de estudiantes que aprueban un cambio hacia normas de promoción más estrictas, supera el 50%, debido a lo cual es apropiada una prueba de 1 cola. Finalmente una tercera parte contiene variables de escala como la de estaturas de varones y mujeres y desean establecer la correlación entre diferentes variables. Establecer el tamaño de muestra adecuado para satisfacer los requisitos de todas las preguntas. Paso 1 Problema Comparar grupos: θ = μ , θ = p y establecer asociaciones θ = ρ . Paso 2 Modelo Distribución de las distribuciones muestrales de medias y proporciones normal en forma tentativa hasta determinar el tamaño de la muestra. Paso 3 Diseño 1 Pregunta cuantitativa Realizaremos el estudio del tamaño de la muestra con los tamaños del efecto convencionales de Cohen y por simplicidad usaremos la variable z en lugar de la t de Student. Más adelante, en la sección que trata el problema de la diferencia de medias, página 145, veremos que si se considera a ambas muestras de igual tamaño, el valor a entrar en las fórmulas es n/2. Por lo tanto: z − zβ 2 n =( α ) d 2 En este caso, considerando en principio que la distribución es normal, se tienen (ver figura 5-21): zα /2 = 1.96 z β = −0.85 Por consiguiente, utilizando los tamaños del efecto chico (0.20), mediano (0.50) y grande (0.80), se tienen los siguientes tamaños muestrales para cada grupo: 1.96 + 0.85 2 n = 2( ) = 394 0.2 1.96 + 0.85 2 n = 2( ) = 64 0.5 1.96 + 0.85 2 n = 2( ) = 25 0.8 74 Jorge Carlos Carrá I Diseño 3. Control por PH vs control por IC GPower t test Means Difference between two independents groups (two groups) A priori 2 colas, α = 0.05, P = 0.8, Allocation ratio N2/N1 = 1 (tamaños de muestras iguales). Figura 5-21 Obtenemos los siguientes tamaños de muestra para los distintos tamaños del efecto: Chico: 0.20 => n = 394 en cada grupo Mediano 0.50 => n = 64 en cada grupo Grande 0.80 => n = 26 en cada grupo Las distribuciones para un tamaño del efecto grande, se muestran en la figura 5-21. Se desconoce a priori cual es el tamaño del efecto entre los grupos, pero es adecuado, en principio, partir de un tamaño del efecto medio, por lo cual se propone encuestar en total 128 alumnos, 64 de cada grupo. 2 Pregunta cualitativa Realizaremos el estudio del tamaño de la muestra con los tamaños del efecto convencionales de Cohen y por simplicidad usaremos la variable z en lugar de la binomial, recordando que en este caso, el valor a obtener es más conservador. zα = 1.64 zβ = −0.85 Por consiguiente, utilizando los tamaños del efecto chico (0.05), mediano (0.15) y grande (0.25), se tienen los siguientes tamaños muestrales para cada grupo: 1.64 + 0.85 2 ) = 2480 0.05 1.64 + 0.85 2 n=( ) = 276 0.15 1.64 + 0.85 2 n=( ) = 100 0.25 n=( Observar que resulta un valor mínimo de 100, por lo cual se cumple el criterio establecido para θ = p. GPower t test Means Difference from constant (one sample case) A priori 1 cola, α = 0.05, P = 0.8. Obtenemos los siguientes tamaños de muestra para los distintos tamaños del efecto: Chico: 0.05 => n = 2474 75 Capítulo 5 Inferencia Paramétrica I Mediano 0.15 => n = 276 Grande 0.25 => n = 101 Las distribuciones para un tamaño del efecto medio, se muestran en la figura 5-22. Figura 5-22 2 Preguntas para Inferencia de correlación zα = 1.64 zβ = −0.85 Realizaremos el estudio del tamaño de la muestra considerando una H 0 : ρ0 = 0 y adoptando los tamaños del efecto convencionales de Cohen. Por consiguiente, utilizamos los tamaños del efecto chico (0.10), mediano (0.30) y grande (0.50). Los valores transformados por la función arcth (EXCEL), son: efecto chico (0.100335), mediano (0.30952) y grande (0.549306). Por lo tanto: 2 2 ⎛ zα − zβ ⎞ ⎛ 1.64 − ( −0.85) ⎞ n=⎜ ⎟ +3=⎜ ⎟ + 3 = 619 ⎝ 0.100335 ⎠ ⎝ ρF ⎠ 2 2 ⎛ z − zβ ⎞ ⎛ 1.64 − ( −0.85) ⎞ 3 n=⎜ α + = ⎟ ⎜ ⎟ + 3 = 68 ⎝ 0.30952 ⎠ ⎝ ρF ⎠ 2 2 ⎛ z − zβ ⎞ ⎛ 1.64 − ( −0.85) ⎞ 3 n=⎜ α + = ⎟ ⎜ ⎟ + 3 = 24 ⎝ 0.549306 ⎠ ⎝ ρF ⎠ GPower Exact Correlation. Bivariate normal model A priori 1 cola, α = 0.05, P = 0.8. Obtenemos los siguientes tamaños de muestra para los distintos tamaños del efecto: Chico: 0.107 => n = 616 Mediano 0.30 => n = 67 Grande 0.50 => n = 23 Las distribuciones para un tamaño del efecto medio, se muestran en la figura 5-23. 76 Jorge Carlos Carrá I Diseño Paso 5a: Verificar supuestos: Potencia retrospectiva Figura 5-23 Como se debe tomar el tamaño que resulte mayor para todas las variables consideradas, si queremos que la prueba detecte con una probabilidad de 80% un tamaño del efecto medio, el tamaño de muestra inicial debe ser mayor a 276. Como n es mayor que 30 se valida la elección del modelo normal para las distribuciones muestrales involucradas. Luego de realizar la prueba y de acuerdo a la significación de la misma, se analizará la potencia en forma retrospectiva. Si por ejemplo, la prueba resultara no significativa (no se detecta efecto), se analizará la potencia para tamaños del efecto grandes. Si la potencia resulta baja, significará que ese tamaño del efecto, si existe, no sería detectado y se debería aumentar el tamaño de la muestra. Si la potencia resultara alta, significará que ese tamaño del efecto no existe (pues habría sido detectado y la prueba fue no significativa) y por lo tanto el tamaño del efecto real debe ser igual o menor que el propuesto. Si como contrapartida, la prueba resultara significativa (se detecta efecto), se analizará la potencia para tamaños del efecto chicos. Si la potencia resulta baja, significará que un tamaño del efecto mayor que el propuesto debe existir, pues resultó significativa. Si la potencia resultara alta, significará que ese tamaño del efecto probablemente es detectado y se debería disminuir el tamaño de la muestra, para que no detecte efectos que no sean de utilidad. Este análisis posterior, se aplicará en la siguiente sección. Paso 5a: Verificar supuestos: Potencia retrospectiva Hasta ahora se ha descripto la importancia de incluir la potencia en el proceso de diseño, antes de obtener la muestra del estudio. ¿Pero que sucede cuando se desconoce si el diseño realizado fue el adecuado? En otras palabras, ¿qué papel cumple la potencia cuando se obtiene un resultado que es significativo o que no lo es? Este aspecto pertenece al último paso (paso 5) del proceso general delineado en la introducción inicial. Solo tiene sentido tratar los resultados de una prueba (no rechazando o rechazando la H0), si la potencia es lo suficientemente alta para el tamaño del efecto que interese al investigador, es decir con distribuciones de H0 y H1 que no se superpongan. En este caso, si el resultado es no significativo, no se rechazará H0, sabiendo que se comete un error β pequeño y si es significativo, se rechazará H0, con potencia P grande para un tamaño del efecto de interés, en ambos casos para un determinado tamaño del efecto de interés. El proceso que prosigue a la toma de una muestra corresponde a los pasos 4 y 5 del planteo general: 77 Capítulo 5 Inferencia Paramétrica I • P4 Análisis Obtención de la significación de la muestra (valor p). Este valor utiliza la muestra para indicar la existencia o no de un efecto poblacional, pero no establece si este efecto es importante (o grande) a pesar de que ésta es la interpretación de la palabra "significación" en el lenguaje ordinario. Por ejemplo, veremos luego (página 221), que un coeficiente de correlación muestral r de 0.1 es significativo con un tamaño muestral de 1000, pero el valor del tamaño del efecto poblacional ρ puede ser de escaso interés para el investigador (ver riesgo de n alto, más adelante). • P5 Verificación y validación Específicamente en lo atinente a la verificación de supuestos, estudiaremos aquí lo concerniente a la verificación del tamaño de la muestra, lo cual nos conduce a la obtención de la potencia retrospectiva versus el tamaño del efecto, luego de conocida la significación. Este paso es en realidad un ajuste del diseño luego del análisis, por lo cual no se utiliza la muestra, sino una segunda distribución poblacional alternativa. Recordemos que la potencia está asociada a los 4 factores ya mencionados (tipo de prueba, α, n y d). El software GPower llama a la potencia retrospectiva, análisis Post hoc (seleccionable dentro de la caja desplegable Type of power analysis). El análisis ya fue descripto en general y será profundizado luego en las restantes secciones de este capítulo. Con referencia a la verificación, existen 2 tipos de riesgos según sea el resultado de la prueba de significación. Para realizar este estudio, resultará de utilidad repetir el esquema que se muestra en la figura 5-24. Recordemos que si llamamos dP al tamaño del efecto poblacional, entonces: P = 0.5 ⇔ d P = d c (5.19) Resultado no significativo (No se detecta efecto) Llamamos dm al tamaño del efecto que resulta de la muestra (dividiendo el valor zm por n ) La potencia calculada con este tamaño del efecto muestral, dm, como si fuera el poblacional, se llama Potencia Observada. En el caso no significativo se cumple que: • dm < dc • Potencia observada < 0.50. Resultado significativo (Se detecta efecto) Se cumple ahora que: • dm > dc • 78 Potencia observada > 0.50. Jorge Carlos Carrá I Diseño Paso 5a: Verificar supuestos: Potencia retrospectiva Figura 5-24 Estas conclusiones son de utilidad cuestionable, pues dm es un estimador sesgado de dP y por lo tanto no podemos inferir sobre dP a partir del dm. Lo correcto es entonces evaluar la potencia con un tamaño del efecto poblacional que resulte importante para el investigador, fijado antes de la prueba. Para asignar el valor del tamaño del efecto, cada investigador debe decidir, en forma subjetiva, cuál es el tamaño adecuados a su estudio, basado en el entendimiento del problema que está estudiando. Sin embargo, como ya se ha dicho, si se carece de mayor información y a modo de guía, puede comenzarse con la división de los tamaños del efecto propuesta convencionalmente por Cohen (Cohen, J. 1988) en chicos, medianos y grandes. En cuanto a los valores de la potencia P, son razonables valores comprendidos entre 0.75 y 0.90. Por lo tanto se puede considerar, también convencionalmente, que una potencia grande es aquella superior a 0.8. Este valor es arbitrario pero razonable y equivale a la probabilidad de cometer un error β =0.2. Observar que esto implica estimar que la presencia de un error de tipo I es 4 veces más serio que la presencia de un error de tipo II. Remarquemos que un investigador inteligente examinará la potencia en la etapa de diseño, antes de tomar las muestras. El estudio retrospectivo de la potencia que contiene esta sección, se aplicará para constatar si un determinado análisis es concluyente, especialmente cuando se desconozca si fue realizado un diseño adecuado. Dado el resultado de la prueba (significativo o no), se pueden presentar en principio 4 combinaciones de tamaño del efecto (alto o bajo) y potencia (alta o baja). Sin embargo existen 2 casos extremos de interés que se muestran en la figura 5-25 y que se analizan a continuación. Partimos de la base que un investigador desea que los tamaños del efecto poblacionales altos sean detectados con alta probabilidad y que los tamaños del efecto poblacionales bajos, carentes de interés, no lo sean. a b d ↑⇒ P ↓ si prueba no sign ⇒ No concluyente d ↓⇒ P ↑ si prueba sign ⇒ No concluyente Figura 5-25 El dm indica una prueba no significativa Dado que en un resultado no significativo se comete un error β asociado con la potencia, parecería que solo resultaría de interés analizar la potencia retrospectiva en este caso. Sin embargo, veremos en esta sección que también cuando el resultado sea significativo se puede cometer un error asociado directamente con la potencia. La prueba no significativa indica que tiene una baja potencia observada (menor de 0.50) para el tamaño del efecto muestral. Interesa precisar si el tamaño del efecto poblacional es alto o bajo. El riesgo es que no sea detectado un tamaño del efecto alto, por lo cual probaremos un d . Se pueden presentar los siguientes 2 casos. d y P (figura 5-25a) Si la potencia resultara baja, la existencia de un efecto grande d tendría un bajo porcentaje de ser detectado. Esta situación se ha sombreado en la figura para una mejor comprensión. El estudio es no concluyente, NC, pues la figura indica que es compatible la existencia de un tamaño del efecto 79 Capítulo 5 Inferencia Paramétrica I poblacional chico, mediano o alto. En particular, si existe un tamaño del efecto grande no detectado, se estaría realizando todo un trabajo para nada. Esta situación puede ser originada por un tamaño de la muestra demasiado bajo, llamado: Riesgo de n bajo: algo grande está sucediendo y se obtiene un resultado no significativo. La solución sería entonces, aumentar el tamaño n de la muestra. d yP Si la potencia resultara grande (en la figura 5-25a, la curva de H1 estaría bien separada de H0), un efecto igual o superior al supuesto no está presente pues en este caso probablemente hubiera sido detectado y la prueba no fue significativa. En otras palabras, si este efecto grande existiera en la población, probablemente sería detectado en el estudio. Como no lo fue, es probable que el d no exista y por lo tanto el estudio es concluyente. La hipótesis de investigación (para este d ) HA, es falsa. Para precisar la situación se podría partir de P (por ejemplo 0.80) y con este dato calcular entonces los tamaños del efecto que la prueba puede detectar. Si se procede con un programa informático (GPower), es relevante solicitar curvas de potencia en función del tamaño del efecto. Estas curvas permiten extraer los tamaños del efecto que la prueba puede detectar, en el caso de que existan (convencionalmente los que implican P > 0.80), para distintos tamaños muestrales. Luego se podrá analizar si son grandes o chicos de acuerdo al interés del investigador. El dm indica una prueba significativa La prueba significativa indica que tiene una alta potencia observada (mayor de 0.50) para el tamaño del efecto muestral. Interesa precisar si el tamaño del efecto poblacional es alto o bajo. Ahora el riesgo es que sea detectado un tamaño del efecto bajo, sin interés para el investigador, por lo cual probaremos un d . Se pueden presentar los siguientes 2 casos. d y P (figura 5-25b) Si la potencia resultara alta, la existencia de un efecto chico d tendría un alto porcentaje de ser detectado (significativo). Esta situación se ha sombreado en la figura para una mejor comprensión. El estudio es no concluyente, NC, pues podría existir un tamaño del efecto chico, mediano o alto. En particular, la detección de un tamaño del efecto chico, podría carecer de significación práctica. Esta situación puede ser originada por un tamaño de la muestra demasiado alto, llamado: Riesgo de n alto: nada está sucediendo y se obtiene un resultado significativo. El riesgo de n alto parece una paradoja, pues se tiene la idea de que cuanto más grande es el tamaño de la muestra, mejor. En este caso observamos que un estudio significativo con gran cantidad de participantes, rechazará H0 sin importar el tamaño del efecto. Este comentario marca la diferencia entre significación e importancia. Un resultado puede ser estadísticamente significativo pero el tamaño del efecto que detecta puede no ser importante (grande). Supongamos que se prueba, por ejemplo, un medicamento antifebril aplicado a un grupo de investigación respecto de un grupo de control. La H0 establece que no existe diferencia en la temperatura media de ambos grupos. Supongamos que el medicamento provoca una disminución de 0.01°C. Este tamaño del efecto probablemente no sea clínicamente importante (o científicamente significativo) pero puede hacerse estadísticamente significativo con tal de elegir un n suficientemente grande. d yP Si en cambio, para este efecto chico, la potencia resultara también chica (en la figura 5-25b, la curva de H1 estaría más superpuesta con la de H0), indicaría que un efecto inferior al propuesto no está presente pues la prueba fue significativa. En otras palabras, si este efecto chico existiera en la población, probablemente no sería detectado en el estudio. Como la prueba detectó un efecto, es probable que el d no exista y el estudio es concluyente. El resultado significativo para tamaños del efecto mayores al supuesto d , puede ser entonces también importante en la práctica. Nuevamente y para precisar la situación se podría partir de P (por ejemplo 0.80) y con este dato calcular entonces el tamaño del efecto a partir del cual, serían probablemente detectados, en el caso de que existan. 80 Jorge Carlos Carrá I Diseño Paso 5a: Verificar supuestos: Potencia retrospectiva Especialmente cuando no se tenga una clara idea de cuál es el tamaño del efecto que es relevante para la investigación, es conveniente detectar al menos, las situaciones no concluyentes de la figura 5-25, que se resumen en forma de cuadro en la figura 5-26. No Concluyente Resultado Verificar No Significativo P d Significativo P d Figura 5-26 Si el resultado es no concluyente en alguno de los 2 casos, rediseñar el tamaño n de la muestra. En el caso del riesgo de n alto, podría también disminuirse el valor de α, para hacer más difícil el rechazo de H0. Este es un proceso iterativo que finaliza cuando se consigue limitar los riesgos de un tamaño n inadecuado. Notas • Una alternativa de análisis complementaria para el caso de comparación de medias, es calcular el dC • (dividiendo el valor zc por n ), pues a partir del mismo y de la significación de la prueba, se tiene información acerca de los valores de los tamaños del efecto que la prueba detecta (o no), en el caso de que existan. En la metáfora de un juicio, los riesgos del tamaño muestral n deben asociarse con el tamaño del estudio. Estudios voluminosos pueden garantizar significación aunque lo que esté sucediendo sea de mínima importancia práctica. Por otro lado, estudios insuficientes pueden reflejar no significación estadística aunque estén ocurriendo cosas de importancia práctica. En cualquier caso es importante colocar en el informe final, información respecto del tamaño del efecto, pues será valiosa para otros investigadores. Éstos podrán eventualmente rediseñar el estudio de tal forma que el experimento no detecte un efecto chico si es significativo o que detecte un efecto grande si es no significativo. Por esta razón, en los problemas resueltos de las secciones II , III y IV, se realizará a posteriori de la significación, una verificación de los supuestos del diseño en lo concerniente al tamaño de la muestra, con un análisis retrospectivo de la potencia versus el tamaño del efecto (sin utilizar la muestra). 81 Capítulo 5 Inferencia Paramétrica I II Análisis de una variable En cada una de las secciones II, III y IV se plantearán para cada una de las estimaciones, el problema, el modelado, el análisis y la verificación. En la sección II trataremos los 3 problemas de grupos. En la sección III, los 3 problemas de comparación de grupos. Finalmente en la sección IV, veremos los 2 problemas de asociación de variables. En cada una de los casos se indicará si la distribución en estudio es asintótica (solo válida para muestras grandes) o exacta (válida para cualquier tamaño de la muestra) y en cada uno de los casos se incluirá al menos una prueba exacta. Como ya se ha comentado en la introducción de la página 16, dada la similitud de los procedimientos generales, luego de aprender la técnica con uno de los problemas, por ejemplo, con la variable media muestral, solo bastará recorrer ese modelo, realizando las adaptaciones pertinentes para el resto de los casos. Estas adaptaciones y particularidades se encuentran resumidas en las tablas de fórmulas del apéndice C. Comencemos entonces con los problemas de una muestra: a. θ = μ (variable de escala) b. θ = p (variable categórica) c. θ = σ 2 (variable de escala) Problema a: media de una variable cuantitativa contínua Modelado De acuerdo a lo estudiado en el capítulo 4, se tienen varios modelos de distribuciones muestrales. Los casos que se resuelven en forma paramétrica conducen a una distribución normal o t de Student. Normal o t de Student (asintótica o exacta) Supuestos En la tabla de la figura 5-27, se recuerdan las únicas alternativas posibles. 82 Jorge Carlos Carrá II Análisis de una variable Problema a: media de una variable cuantitativa contínua Desviación Estándar Casos 1y2 Casos 3y4 Caso 5 n>30 o x normal n > 30 o x normal n < 30 y x no normal Distribución Asintótica Exacta Asintótica => t de Student Exacta σ => s –– => Normal No paramétrica Figura 5-27 Resumen distribución muestral de la media En el caso 5 se aplican técnicas que no requieren el conocimiento de la distribución, llamadas no paramétricas. Si bien serán el objetivo del capítulo 7, entre ellas se encuentran: • La desigualdad de Tchebysheff ya estudiada en el capítulo 1. • La prueba exacta de Fisher, aplicable a comparación de proporciones (página 171). • La técnica llamada bootstrap (página 314). Se comentó en el capítulo 4 que en algunos textos se utiliza un método alternativo para el caso 3 si n > 30 (asintótica), resolviendo con una distribución normal (caso 1). Este método (no utilizado aquí), conduce a colas más chatas (pues la distribución t de Student es platicúrtica) y por lo tanto a un valor menor del punto crítico, haciendo más proclive el rechazo de la H0 (prueba menos conservadora y con más potencia). Es útil observar el formato con el cual se presentan los datos en este problema. Un ejemplo se muestra en la figura 5-28, con una variable x de escala que contiene el concepto a estudiar. x 1.23 2.45 3.26 6.45 8.23 … 6.78 1.56 3.21 4.13 2.56 Figura 5-28 Análisis por IC Del capítulo 4 sabemos que la media de la distribución muestral de medias es un buen estimador puntual de la media poblacional pues es un estimador insesgado y convergente, pero para agregar una medida de la precisión se realiza una estimación por intervalo. Recordemos que el procedimiento del análisis por IC consiste en: 1. Elección 2. Cálculo La ecuación de probabilidades para el cálculo del IC proviene, para estos modelos, de la estandarización de la variable en z o t. 83 Capítulo 5 Inferencia Paramétrica I Figura 5-29 Distribución muestral de la media Repetimos a modo de repaso, el proceso recorrido en la introducción. La transformación a realizar en este caso es a la variable z. Partiendo de la ecuación probabilística: P(− zα /2 < z < zα /2 ) = c Los z inferior y superior se llaman zα/2, pues c = 1-α. Reemplazando la expresión de z: P ( − zα /2 < X −μ σx < zα /2 ) = c Despejando μ: P (− zα /2σ x < X − μ < zα /2σ x ) = c P ( − X − zα /2σ x < − μ < − X + zα /2σ x ) = c P ( X + zα /2σ x > μ > X − zα /2σ x ) = c En definitiva: P ( X − zα /2σ x < μ < X + zα /2σ x ) = c Por la forma de operar se llama también a la ecuación de probabilidades, ecuación pivote. El valor estandarizado del estadístico muestral se llama estadístico de prueba. Esta ecuación indica que ese IC contendrá a la media poblacional, con una probabilidad c = 1-α: Expresado de otra forma: μ = X ± zα /2σ x Observar que el contenido del segundo sumando es el error de estimación, B: B = zα /2σ x Por lo tanto: μ = X ±B Si el IC fuera unilateral, se deberá reemplazar zα/2 por zα. Si en lugar de una distribución normal, la distribución es una t de Student, entonces el IC será: μ = X ± tα /2σˆ x Recordemos además del capítulo 4 que si la población no es infinita, se debe considerar el factor cpf, el cual disminuye la varianza y por lo tanto el error de estimación: 84 Jorge Carlos Carrá II Análisis de una variable Problema a: media de una variable cuantitativa contínua s2 ⎛ N − n ⎞ Vˆ ( X ) = ⎜ ⎟ n⎝ N ⎠ El problema resuelto 5.9 contiene un ejemplo que ilustra el proceso. Un nivel de confianza c del 95% nos indica que si se repitiera el proceso, en 95 de cada 100 veces, el intervalo comprenderá al valor estimado. Para que el estudiante pueda verificar esta importante enseñanza, se insta a que, luego de resolver el problema resuelto, realice la simulación guiada que se encuentra al final del capítulo (página 311). Debe remarcarse que por ejemplo un IC = (3; 5), indica que la media estimada es μˆ = 4 y no que la media real sea 4. Por otra parte un IC del 95% no significa que exista un 95% de probabilidades de que μ = 4, sino que la probabilidad de que los valores 3 y 5 comprendan a μ es del 95%. Reglas de redondeo Si se utiliza la base de datos original, redondear el IC a un decimal más que el usado en los datos. Si solo se utiliza el resumen numérico de los datos (tamaño, media y desviación estándar), redondear al mismo número de decimales usado en la media. Análisis por PH Recordemos que el procedimiento del análisis por PH consiste en: 1. Elección 2. Comparación Elección Sea μ0 un valor de referencia y desea investigarse si la población en estudio, quizá por efecto de algún tratamiento, mantiene o no esa media. Las hipótesis toman la siguiente forma: Bilateral H 0 : μ = μ0 H A : μ ≠ μ0 Unilaterales Cola izquierda H 0 : μ ≥ μ0 H A : μ < μ0 Cola derecha H 0 : μ ≤ μ0 H A : μ > μ0 Comparación Se elige alguno de los 3 métodos alternativos descriptos en la página 27. Interrelación entre IC y PH Fijadas las regiones de una PH, las conclusiones acerca del resultado de la muestra son totalmente equivalentes a las de un IC. En la figura 5-30 se muestra la situación por ejemplo, cuando el valor muestral "cae" justo en el límite de la región crítica de una prueba unilateral (a modo de ejemplo). 85 Capítulo 5 Inferencia Paramétrica I Figura 5-30 El segmento correspondiente al error de estimación B es el mismo en ambas técnicas: B = zcσ x Por otra parte, de la figura se observa que: • para la PH: xC = B + μ • y para el IC: LCI = xm − B Si xm = xc , se verifica: LCI = μ A partir de esta conclusión, es fácil observar que si el valor muestral "cae" dentro de la zona crítica, el IC no comprenderá a μ, como es de esperar para resultados significativos, lo cual sucederá α% de las veces. Lo opuesto ocurre si el valor muestral cae fuera de la zona crítica, lo cual sucederá (1–α)% de las veces. Barras de error Complementariamente al estudio analítico, es posible realizar un análisis gráfico de tipo exploratorio con los diagramas llamados: barras de error. Estas barras expresan gráficamente la relación: μ = x ± zα /2σ x O de otra forma: μ = x±B En donde B es el error de estimación, el cual da origen al nombre de estas graficas. 86 Jorge Carlos Carrá II Análisis de una variable Problema a: media de una variable cuantitativa contínua Figura 5-31 Barras de error SPSS Los procedimientos SPSS son en realidad de Prueba de Hipótesis, PH, pero dentro de las salidas, entrega los Intervalos de Confianza, IC. Analyze > Compare Means > One-Sample T Test > seleccionar la variable, el valor de µ0 y el intervalo de confianza (Options) El procedimiento es aplicable tanto para muestras grandes como para muestras pequeñas pues el SPSS emplea la t de Student en todos los casos. Es necesario advertir que el SPSS no utiliza la cpf y como utiliza la t de Student, emplea la desviación estándar de la muestra en todos los casos. Si la desviación estándar de la población fuera conocida, se debe utilizar la distribución normal (la cual no utiliza la desviación estándar de la muestra) y seguir los pasos del cálculo manual sin computadora, aunque asistido con la distribución normal del procedimiento Compute. En las tablas que aparecen en el visor con los resultados de la prueba (ver siguiente problema resuelto), observamos que: • La desviación estándar del estimador se caratula por su otro nombre equivalente: Standard Error o SE. Esta notación será la utilizada en todas las pruebas. • La tabla expresa el valor del tm (t muestral) y no el tc (t crítico). • El IC se basa en la diferencia μ−μ0 (incluye el μ0 de la PH en la expresión del IC). Por lo tanto se deberá sumar μο para obtener el IC de μ (o alternativamente pidiendo un test para μ0 = 0). El intervalo de confianza de la media μ también podría obtenerse con el procedimiento explorar (capítulo 1). La mayoría de los paquetes estadísticos de computación dan valores p de dos colas (en el SPSS se indica con la palabra bilateral). Por lo tanto si se desea una prueba de una cola, al ser una distribución simétrica, se deberá dividir por dos el valor de p. Por la misma razón, si se desea el IC superior de 1-α, se deberá pedir el IC de 1-2α y tomar solo el límite inferior. Si se está estudiando el total poblacional, entonces basta multiplicar la variable en estudio por N y aplicar los pasos anteriores a la nueva variable de totales τ. Para obtener tablas con las medias de las variables, ver el Apéndice A, tablas: procedimiento medias: Analyze > Compare Means > Means. Es interesante observar la diferencia entre el procedimiento Means y el de Crosstabs. El 87 Capítulo 5 Inferencia Paramétrica I procediemiento Means, devuelve el resumen que proviene de alguna medida de posición o de dispersión (suma, mínimo, media, varianza, …) correspondiente a una tercera variable, en tanto que con Crosstabs cada celda contiene la cuenta o frecuencia de casos que corresponde a cada cruce Nota Las situaciones que se presentan con datos muestrales de los que solo se conozca el resumen dado por la media y la desviación estándar, solo se podrán resolver con el SPSS si se crea una variable ficticia con el mismo tamaño n, la misma media y la misma varianza. Ejemplo Sea una variable con un tamaño n = 20, una media de 3.5 y una varianza de 5. Primero se configurará una variable con 18 datos arbitrarios (18 grados de libertad), por ejemplo iguales a la media. Los 2 datos restantes y desconocidos a y b, resultarán de la resolución simultánea de 2 ecuaciones: media y varianza, igualadas a los valores dados, 3.5 y 5 (2 grados de restricción). Operando con la ecuación de la media, resulta: a + b = 2x = 7 Operando con la ecuación de la varianza (capítulo1, expresión de Steiner), resulta: a 2 + b2 = s 2 (n − 1) + 2 x 2 = 119.5 Resolviendo el sistema de las 2 ecuaciones (sugerencia: utilizar la relación: (a + b) = a + b + 2ab ), se obtienen: 2 2 2 a = −3.392 b = 10.392 Si ingresamos al SPSS una variable con 18 valores iguales a 3.5, uno de –3.392 y el restante de 10.392, podemos corroborar que tiene una media de 3.5 y una varianza de 5. Un procedimiento alternativo cuando el tamaño de la muestra es grande, es simular una distribución normal con esa media y desviación estándar. Habilitar la cantidad de casos en la vista de datos (capítulo 1, Simulaciones) y luego ir a: Transform > Compute > Random Numbers > Rv.Normal. Entrar la media y la desviación estándar. Barras de error Chart Builder > gráfico de barras, de líneas, de áreas o de dispersión (scatter plot). En Element Properties se habilita la opción Error Bar, eligiendo para el eje y, en la opción Statistic, la frecuencia (Count) o la media / mediana (Mean, Median). En el primer caso la variable a estudiar se coloca en el eje x y en el segundo caso en el eje y, colocando en el eje x una variable de grupos categórica, (con lo cual se obtiene un resumen del eje y para cada valor del eje x). Naturalmente, esta variable categórica puede contener un solo valor (ver también apéndice A, gráficos). Resultan particularmente útiles para comparar las medias de 2 o más grupos, situación que se comentará en la sección de dos variables. Tamaño del efecto y ecuación de diseño Para este caso, como hemos visto en la sección I Diseño, página 39, se define el tamaño del efecto d, como la diferencia entre el valor μ1 de la hipótesis alternativa H1 y μ0 de la H0, dividido la desviación estándar. d= μ1 − μ0 σ Los valores de tamaño convencionales, según Cohen (Cohen, J. 1988), son: • Chico, d = 0.20 • Mediano, d = 0.50 • Grande, d = 0.80 La ecuación de diseño es: 88 Jorge Carlos Carrá II Análisis de una variable Problema a: media de una variable cuantitativa contínua z β σ x = zα σ x − ( μ1 − μ0 ) o: z β = zα − nc con: nc = nd Potencia y tamaño de la muestra Las relaciones se encuentran en la sección I Diseño, páginas 40 y 59, pues se utilizó este problema de prueba de una media, para desarrollar los conceptos generales. Problema resuelto 5.9 Deuda de la cooperadora La muestra irrestricta aleatoria de la figura 5-32 contiene n = 9 registros de la cooperadora de una escuela es seleccionada para estimar el promedio de la deuda sobre N = 484 cuentas. IC a) Estimar μ, la cantidad promedio de la deuda, si se establece un valor de eje zα/2 = 2. Analizar la confianza si no se establece ninguna hipótesis adicional. b) Analizar la confianza si se sabe que la distribución poblacional es normal, con el valor de eje zα/2 = 2. PH Si se sabe que la distribución poblacional es normal, probar la aseveración de que la media es distinta de 40, con un 95 % de confianza. Interrelacionar gráficamente el IC con la PH. Solución con computadora Resolver con el SPSS. Verificación: potencia retrospectiva En este paso se pide realizar una verificación del supuesto que el tamaño de la muestra es adecuado. Se pide analizar la potencia para establecer si el tamaño del efecto es relevante y si corresponde a un caso no concluyente, rediseñar el problema calculando el tamaño de la muestra necesario para resolverlo. Previamente es conveniente realizar la simulación guiada que se encuentra al final del capítulo (página 311). 33.9 32.1 50.0 Dinero adeudado 43.0 40.0 43.5 45.0 42.5 39.6 Figura 5-32 Solución Paso 1 Problema Comparar grupos: θ =μ. Paso 2 Modelo Se incluye luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: 9. 89 Capítulo 5 Inferencia Paramétrica I Paso 4 Análisis No se conoce la media de la población (es lo que se desea estimar) pero se conoce un valor muestral y la desviación estándar. Como n < 5% N , no es necesario usar la cpf. x = 41.07$ s 2 = 30.25$ s2 sˆx = Vˆ ( x ) = = 1.83 n IC Modelado Distribución muestral de θˆ = x a) El tamaño es n < 30. Si no se establece ninguna hipótesis, deberá considerarse que la distribución de la población no es normal. Por lo tanto solo podrá usarse el teorema de Tchebyscheff (capítulo 1). Con un valor de eje zk = 2, resulta entonces c ≥ 75%. b) Si la distribución poblacional es normal, entonces la distribución muestral es una t de Student. Para obtener c deberá entonces calcularse α para un valor de eje t =2 con ν =8. Entrando al SPSS: CDF.T(2,8)=0.96 Por lo tanto: c=1-2(0.04)=0.92=92% Inferencia a) b) μ = 41.07 ± 3.66 IC = 37.4 a 44.7 P(μ = 41.07 ± 3.66) ≥ 0.75 μ = 41.07 ± 3.66 IC = 37.4 a 44.7 P(41.07 ± 3.66) = 0.92 Decisión Esta decisión se puede expresar de la siguiente forma: • Las diferencias entre los valores contenidos dentro del IC, no son significativas al nivel c = 92%. PH La aseveración no contiene el signo igual por lo cual pertenecerá a HA. Por lo tanto se definen: H 0 : μ = 40 H A : μ ≠ 40 Aseveración Modelado Si la distribución poblacional es normal, entonces la distribución muestral es una t de Student con ν =8. Inferencia Por ser el primer ejemplo resuelto de PH, lo resolveremos con las 3 comparaciones alternativas. 1 Comparando el eje t 90 Jorge Carlos Carrá II Análisis de una variable Problema a: media de una variable cuantitativa contínua tm = x −μ 41.07 − 40 = 0.585 σx 1.83 tc = t0.025 (8) = 2.306 = ⇒ | tm |<| tc |⇒ No se Rechaza H 0 2 Comparando el eje x xm = 41.07$ B = tα /2σˆ x = 2.306(1.83) = 4.22 xc = μ + B = 40 + 4.22 = 44.22 ⇒ | xm − μ |< B ⇒ No se Rechaza H0 3 Comparando las áreas α = 0.05 CDF .T (0.585,8) = 0.71 ⇒ colasup = 1 − 0.71 = 0.29 ⇒ p = 2 P(t > tm ) = 2 ∗ 0.29 = 0.58 ⇒ p > α ⇒ No se Rechaza H0 Decisión La decisión se puede expresar de distintas formas: • No existe evidencia suficiente para sustentar que la media es distinta de 40 (t(8) = 0.585, p = 0.58). Observar que la conclusión contiene a la aseveración inicial. • Es altamente probable que la diferencia entre el valor muestral obtenido (41.07) y el valor de la hipótesis (40), se deba exclusivamente al azar (t(8) = 0.585, p = 0.58). • La diferencia entre el valor muestral obtenido (41.07) y el valor de la hipótesis (40), no es significativa al nivel α = 5% (t(8) = 0.585, p = 0.58). En cualquier caso, expresar el valor p como parte de las conclusiones, pues su conocimiento es relevante para quien lea el informe. Los IC se utilizan primariamente para estimar el parámetro poblacional, pero también es usual acompañar la decisión de una PH con el IC. Interrelación gráfica del IC con la PH El no rechazo o rechazo de la hipótesis μ = 40, con α = 0.05, se puede visualizar con el IC del 95%. IDF.T(0.975,8)=2.31 Por lo tanto: μ = 41.07 ± 2.31(1.83) = 41.07 ± 4.23 P( IC = 36.8 a 45.3) = 0.95 Se puede observar que el IC obtenido comprende al valor μ = 40, por lo cual suele expresarse que: • Existe un 95% de confianza de que el intervalo contenga a μ = 40. • En 95 de cada 100 veces que se realice un muestreo, el intervalo contendrá a μ = 40. Figura 5-33 Como la PH no rechazó la H0: μ = 40, entonces el IC obtenido debe comprender al valor μ = 40 (lo cual sucederá 95% de las veces). 91 Capítulo 5 Inferencia Paramétrica I Vemos nuevamente que la decisión de no rechazo es una decisión débil pues el IC incluye al valor de la H0 pero también a muchos otros valores. Solución con computadora SPSS Procedimiento en la página 87 c = 92% Figura 5-34 c = 95% Figura 5-35 Recordemos que el IC presentado en las dos últimas columnas se basa en la diferencia μ−μ0, por lo tanto se deberá sumar μο (en este caso 40) para obtener el IC de μ. Confrontar los valores de tm = 0.582, el valor de p = 0.577 y los IC, con los obtenidos manualmente. El margen de error estandarizado para la pregunta b) puede obtenerse además con: GPower t test Means: Difference from constant (one sample case) Sensitivity, 2 colas, α = 0.05, Power: 0.5 y n =9. Se obtiene un tamaño del efecto de 0.74, el cual se corresponde con B σ = 4.23 = 0.77 . 5.5 Paso 5 Verificación: potencia retrospectiva El resultado es no significativo por lo cual, para detectar la eventual presencia de un estudio no concluyente, calculamos P para un d alto (0.80). Observemos además que: tm 0.585 = = 0.195 n 9 t 2.31 dc = α = = 0.77 n 9 dm = 92 Jorge Carlos Carrá II Análisis de una variable Problema a: media de una variable cuantitativa contínua Estos valores nos indican que el resultado no es significativo (dm < dc) y que los tamaños del efecto poblacionales grandes (0.80), superarán la potencia de 50% (correspondiente a dC). 1 SPSS tα = IDF .T (0.025,8) = 2.31 Solución centralizada tβ = tα − nd nc = nd = 90.8 = 2.4 tβ = 2.31 − 2.4 = −0.094 P = 1 − CDF .T (−0.094,8) = 0.54 Solución descentralizada NCDF .T (−2.31,8, 2.4) = 0 1 − NCDF .T (2.31,8, 2.4) = 0.56 P = 0 + 0.56 = 0.56 Entrega una P = 0.56. Si H1 es cierta, solo el 56% de las veces la prueba será significativa.La baja potencia o sensibilidad de la prueba para un tamaño del efecto alto (por un tamaño de muestra n demasiado bajo), indica un estudio no concluyente pues existe el riesgo de un efecto no detectado que sea lo suficientemente grande para ser útil. El error de tipo II (con β = 0.44) es alto para ese tamaño del efecto. Rediseño Se debe diseñar de nuevo el estudio partiendo de la potencia P => n. Observar el carácter iterativo de todo proceso en el cual estén involucrados diseño y análisis. d = 0.80 ⎛ t −t ⎞ n=⎜ α β ⎟ ⎝ d ⎠ 2 Para calcular los valores de t encontramos el inconveniente de que los grados de libertad no se conocen dado que dependen de n. Se observa entonces que el tamaño de la muestra no solo se encuentra a la izquierda, sino uqe también se encuentra a la derecha del signo igual, dentro de los grados de libertad. El ´problema es que no puede obtenerse un solo n pues los grados de libertad no pueden "salir" de las funciones del tipo: tα = IDF .T (CDF , n − 1) Por esta razón se debe utilizar un proceso por aproximaciones sucesivas. Comenzamos con el grado de libertad previo (ν = 8) para calcular un valor de n tentativo. tα = IDF .T (0.975,8) = 2.31 tβ = IDF .T (0.20,8) = −0.89 2 2 ⎛ tα − tβ ⎞ ⎛ 2.31 + 0.89 ⎞ n=⎜ ⎟ =⎜ ⎟ = 16 0.80 ⎠ ⎝ d ⎠ ⎝ Si este valor hubiera dado entre 8 y 9 (en teoría 9), el proceso hubiera finalizado. Con un resultado menor que 8 o mayor que 9 (como en este ejemplo), repetimos el cálculo con este valor de n, para el cual ν = 15: tα = IDF .T (0.975,15) = 2.13 tβ = IDF .T (0.20,15) = −0.87 2 2 ⎛ t − t ⎞ ⎛ 2.14 + 0.87 ⎞ n=⎜ α β ⎟ =⎜ ⎟ = 15 0.80 ⎝ d ⎠ ⎝ ⎠ Repitiendo el proceso: 93 Capítulo 5 Inferencia Paramétrica I tα = IDF .T (0.975,14) = 2.14 tβ = IDF .T (0.20,14) = −0.87 2 2 ⎛ t − t ⎞ ⎛ 2.14 + 0.87 ⎞ n=⎜ α β ⎟ =⎜ ⎟ = 15 0.80 ⎝ d ⎠ ⎝ ⎠ Como se ha obtenido una buena convergencia entre el valor de n y el grado de libertad utilizado en el cálculo, finalizamos el proceso. Si este problema fuera real, debería repetirse el análisis inferencial con un tamaño muestral de por lo menos 15 registros de la cooperadora. Naturalmente esta repetición del proceso puede evitarse si un buen diseño precede al análisis. Nota Si no se dispusiera de un programa de computación para obtener los valores de la t de Student, puede aceptarse utilizar la distribución normal como solución aproximada. 2 GPower Entrega la solución descentralizada. t test Means: Difference from constant (one sample case) Post hoc, 2 colas, α = 0.05, d = 0.8 y n =9. Rediseño Resolver el caso no concluyente con GPower es muy simple. Se obtiene el tamaño n que se requiere para una potencia, digamos de 0.80, con solo elegir el análisis a priori y colocar el valor deseado de la potencia. Observar que el mismo nombre a priori, indica un regreso hacia atrás, afirmando la recurrencia del proceso iterativo. A priori, 2 colas, α = 0.05, d = 0.8 y Potencia= 0.80. Se obtiene: n = 15. Gráficas En la figura 5-36 y en la figura 5-37 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto. Figura 5-36 94 Jorge Carlos Carrá II Análisis de una variable Problema a: media de una variable cuantitativa contínua Figura 5-37 Caso particular θ = τ θˆ = τˆ Si se está estudiando el total poblacional, entonces la ecuación del IC, será: μτˆ = τˆ ± zα /2σˆτˆ con las siguientes relaciones estudiadas en el capítulo 4. τˆ = Nx μτˆ = N μ x = N μ σ τˆ = Nσ x No es necesario un tratamiento especial dentro del SPSS pues podemos apreciar que: τˆ = Nx = E( Nx) y por lo tanto solo basta multiplicar por N a los valores de x y procesar a la variable resultante. Analizando las expresiones de la inferencia se observa además que en el caso de una variable, los resultados de los IC surgen de los de μ multiplicándolos por N y los valores z (o t) de las PH, son los mismos, pues las N finalmente se cancelan. Problema resuelto 5.10 Tareas triviales En una empresa se desea estimar el número total de horas hombre que se pierden por semana en tareas triviales. El control de una muestra de 50 empleados, sobre un total de 750 indica que la media es 10.31 horas/semana. Se sabe que la varianza poblacional es de 2.25. IC a) Calcular el IC de la media del total. Adoptar zα/2 = 2. ¿Puede asegurarse que el número total de horas hombre que se pierden por semana en tareas triviales es mayor a 8000 horas? b) Calcular el valor del coeficiente de confianza c: PH Probar la aseveración de que μτ = 7000 con un 95% de confianza. Interrelacionar gráficamente el IC con la PH. 95 Capítulo 5 Inferencia Paramétrica I SPSS Resolver con el SPSS. Paso 1 Problema Comparar grupos: θ =μ. Paso 2 Modelo Se incluye luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: 50 Paso 4 Análisis IC Modelado Distribución muestral de θˆ = τˆ Como n >30, es aplicable el TCL y como se conoce la desviación estándar poblacional la distribución muestral de τ es normal. Como z = 2, c debe ser 95%. No se conoce la media (es lo que se desea estimar) pero se conoce un valor y la desviación estándar. τˆ = Nx = 7732.5 σ τ2ˆ = N 2 Inferencia s2 N − n = 23656 n N −1 σ τˆ = 154 μτˆ = τˆ ± zα /2σˆτˆ ⇒ τ = 7732.5 ± 2 ∗154 ⇒ IC = 7424.5 a 8040.5 Decisión Las diferencias entre los valores contenidos dentro del IC, no son significativas al nivel c = 95%. No puede asegurarse que el número total de horas hombre que se pierden por semana en tareas triviales es mayor a 8000 horas, pues son posibles valores menores a este valor. PH H 0 : τ = 7000 Aseveración H A : τ ≠ 7000 Modelado Si la distribución poblacional es normal, entonces la distribución muestral es una t de Student con ν = 49. Inferencia 1 Comparando el eje 96 τˆ Jorge Carlos Carrá II Análisis de una variable Problema a: media de una variable cuantitativa contínua τˆm = 7732.5 tc = t0.025 (49) = 1.96 τˆc = τ + tcσ τˆ = 7000 + 1.96(154) = 7302 ⇒ | τˆm − τ |> B ⇒ Se rechaza H 0 2 Comparando el eje t 2 Comparando las áreas tc = t.025 (49) = 1.96 τˆ − τ 7732.5 − 7000 = = 4.75 tm = σ τˆ 154 ⇒ | tm |>| tc |⇒ Se rechaza H 0 α = 0.05 CDF .T (4.75, 49) = 1 ⇒ colasup = 1 − 1 = 0 p = 2 P(t > tm ) = 2 ∗ 0 = 0 ⇒ p < α ⇒ Se rechaza H 0 Decisión La diferencia entre el valor muestral obtenido (7732.5) y el valor de la hipótesis (7000), es significativa al nivel α = 5% (t(49) = 4.75, p =0.00). Existe evidencia suficiente para rechazar la aseveración de que el μτ = 7000 con un 95% de confianza. Observar que el valor τ = 7000, cae fuera del IC, en correspondencia con el resultado de la PH. Interrelación gráfica del IC con la PH Figura 5-38 Como la PH rechazó la H0: τ = 7000, entonces el IC obtenido no debe comprender a este valor (lo cual sucederá 5% de las veces, por lo cual es un evento poco común). Vemos nuevamente que la decisión de rechazo es una decisión fuerte pues el IC excluye específicamente al valor de la H0. SPSS Procedimiento en la página 87. La variable se generó en forma artificial con la técnica explicada en el apartado SPSS de esta sección. Figura 5-39 97 Capítulo 5 Inferencia Paramétrica I Figura 5-40 El SPSS no incluye la cpf (corrección por población finita) por lo cual el valor del error estándar es levemente distinto, diferencia que se expresa en las salidas relacionadas. Problema b: proporción de una variable cuantitativa discreta El estadístico θˆ = p̂ es la proporción de éxitos o proporción muestral (también llamada "p sombrero") de una variable x cuantitativa discreta dicotómica. Por lo tanto la distribución de la proporción muestral es binomial o hipergeométrica y la transformación a realizar en este caso es a la variable p̂ . En algunos libros puede encontrarse una notación que sigue al resto de las estimas: la letra p del alfabeto latino para la muestra y la letra π del alfabeto griego, para la población. El formato con el cual se presentan los datos, se muestra en la figura 5-41. Se tiene una variable x categórica (en principio dicotómica), que contiene las proporciones a estudiar. x 1 2 2 1 1 … 2 1 1 1 2 Figura 5-41 1 Binomial (exacta) Modelado Del capítulo 4 sabemos que la media de la distribución muestral de proporciones es un buen estimador puntual de la proporción poblacional pues es insesgado y convergente y que la distribución muestral de proporciones es una binomial o hipergeométrica, las cuales podrían ser aproximadas a una normal. Es importante apreciar que solo en este último caso existe una ecuación estandarizada z, que puede utilizarse como ecuación pivote. Por lo tanto, para muestras pequeñas, no podrá aplicarse el método de IC, quedando solo disponible la PH con distribución binomial o 98 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta hipergeométrica. El análisis de θˆ = p̂ presenta como hecho particular que el error estándar depende del parámetro poblacional que se está estimando. Esta situación exige pensar, entre otras cosas, cuál es el valor más adecuado para su cálculo, el cual, como veremos, será distinto para IC y para PH. Supuestos 1. Binomial, Hipergeométrica Como la distribución muestral de proporciones es una binomial o hipergeométrica, deben ser verificados los requisitos necesarios de ambas distribuciones. Si la muestra es pequeña, la binomial (o hipergeométrica) no puede aproximarse a una normal, debiendo ser tratada entonces como tal. Si se utilizan tablas de distribución binomial, las cuales están expresadas en términos del número de éxitos y no de la proporción de éxitos, resultará más directo realizar la comparación con el eje y. Además, como la distribución es discreta, el valor de corte de la zona crítica yC no se corresponderá, en general, exactamente con el valor de α predeterminado. Prueba de 1 cola Se define α como: P ( y > yC ) < α Por esta razón, las distribuciones discretas son conservadoras, lo cual significa que el valor de corte sea mayor, coincidente en este caso con un error tipo α más chico y se rechazará con menor frecuencia. Prueba de 2 colas Se tienen varias alternativas para computar α: 1. Asignar α/2 a ambas colas. 2. Asignar α/2 a la menor cola y la diferencia que subsista con α, a la otra cola. 3. Asignar α/2 a ambas colas y luego incrementar donde sea posible hasta que la suma no supere a α. Análisis por PH Bilateral H 0 : p = p0 H A : p ≠ p0 Unilateral Cola derecha H 0 : p ≤ p0 H A : p > p0 Cola izquierda: H 0 : p ≥ p0 H A : p < p0 2 Normal (asintótica) Modelado Si la muestra es grande, estas distribuciones pueden aproximarse a una normal (capítulos 3 y 4). El criterio establecido era que np y nq deben ser mayores o iguales a 5. Sin embargo si la proporción 99 Capítulo 5 Inferencia Paramétrica I poblacional se desconoce, como sucede en una estimación por IC, los especialistas sugieren además que el valor de n sea mayor que 100. Análisis por IC En forma similar al desarrollo del problema de prueba de medias, se obtiene la expresión que expresa el intervalo de confianza IC, que comprende a la proporción poblacional con una probabilidad c = 1-α. p = pˆ ± B P ( pˆ − B < p < pˆ + B ) = c Donde: B = zα /2σˆ pˆ Como se desconocen los valores poblacionales p, q , se deben tomar los muestrales pˆ , qˆ . Se demostrará luego en la sección SPSS, que en este caso corresponde colocar en el denoiminador n–1 en lugar de n. σˆ pˆ = ˆˆ pq n −1 Los valores que se toman para el cálculo son los de la proporción muestral p̂ (actual o anterior) o el ˆ ˆ ). valor más desfavorable: pˆ = 0.5 (para el cual resulta el valor máximo del producto pq Es posible mejorar esta expresión de varias formas distintas: IC mejorados Se aplica la cpc (capítulo 3) de 1/2n a ambos lados del IC, resultando: p = pˆ ± 1 ± zα /2σˆ pˆ 2n IC cuadráticos Se despeja p de la expresión: z= pˆ − p σ pˆ = pˆ − p pq / n IC de Wilson Cuando los valores de p son cercanos a 0 o a 1 (por ejemplo 0.001), se requiere un tamaño muestral muy grande para que la aproximación normal resulte satisfactoria. Si esto no se cumple, Wilson ha propuesto agregar 2 E y 2 F al número inicial, lo cual equivale a utilizar como valor de p sombrero al valor ajustado: pˆ = y+2 , n+4 el cual se corresponde con una desviación estándar ajustada de: σˆ pˆ = ˆˆ pq n+4 Análisis por PH Dado que el análisis por PH se realiza tomando como base a la hipótesis planteada, corresponde realizar los cálculos de la desviación estándar con p0 en lugar del p̂ usado en la construcción del IC. En este caso, a diferencia de un IC, se conoce la distribución poblacional, por lo cual el criterio de aproximación a una normal (capítulos 3 y 4), es que que np y nq deben ser mayores o iguales a 5. En este caso la expresión apropiada para el cálculo de la desviación estándar es distinto al del IC: 100 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta σ p̂ = p0 q0 n Por lo demás el esquema de cálculo no difiere del recorrido para la media. Si bien usualmente esta diferencia en el cálculo de las desviaciones estándar es pequeña, podría suceder que las conclusiones finales fueran distintas en ambos métodos. Normal con transformación arcsen (asintótica) Modelado Ya hemos puntualizado que un inconveniente de la distribución de p̂ es que su varianza depende del valor a estimar p . Una solución consiste en transformar la variable p̂ con la ecuación: j = 2arcsen pˆ Figura 5-42 La nueva distribución de j presenta la propiedad de que es aproximadamente normal y, como se observará a continuación, tiene una varianza que no depende de los valores individuales de p. Recordemos que el dominio del arcsen es: −1 < pˆ < 1 y que la imagen del arcsen es el campo de los reales. Sus parámetros son: E ( j ) = 2arcsen p 1 V ( j) = n Análisis Los análisis por IC y PH siguen los lineamientos de una distribución normal. Observar que la transformación no opera sobre los datos crudos originales. El procedimiento es calcular p̂ a partir de cada muestra y construir luego la distribución muestral de j. Esta técnica no está contenida en el SPSS. 3 Chi-cuadrado (asintótica) Si bien este capítulo se titula inferencia paramétrica (métodos aplicables a variables cuantitativas), en el caso de tratar técnicas de proporciones (tanto de una muestra como de dos muestras) se puede utilizar en forma equivalente una técnica perteneciente a la estadística inferencial no paramétrica (métodos aplicables a variables categóricas) llamada chi-cuadrado. La equivalencia surge de considerar que las pruebas de proporciones se originan en una variable cualitativa (E, F) a la que se le aplica el conteo de frecuencias originando una variable cuantitativa discreta. En este sentido, puede estructurarse el análisis dentro de las variables cualitativas (como en el capítulo 1 y en el capítulo 7, específico de técnicas no paramétricas) o dentro de las variables cuantitativas discretas como en este capítulo. Lo mismo sucederá con el concepto de independencia. 101 Capítulo 5 Inferencia Paramétrica I Bondad del Ajuste La prueba de proporciones (binomial), fue definida para una variable dicotómica. Sin embargo, la variable puede ser multicotómica con k niveles y en este caso la distribución exacta es la multinomial (capítulo 3, página multinomial3), siendo la binomial un caso particular para k = 2. En este caso la hipótesis a probar será del tipo: H 0 : p1 = a, p2 = b, ... pk = k La prueba chi-cuadrado consiste en la prueba de la Bondad del Ajuste, ya presentada en el capítulo 1, página bondad1. En esa oportunidad hemos definido la bondad del ajuste de una distribución de frecuencias de una variable categórica multicotómica, a una distribución fija hipotética que contenga valores esperados arbitrarios (teóricos o empíricos), como el valor chi-cuadrado dado por: χ2 = ∑ (no − ne )2 ne Si la variable es dicotómica, la Bondad del Ajuste equivale, en particular, a la PH: H 0 : p = p0 H1 : p ≠ p0 En este caso podemos considerar que los valores absolutos observados para la variable dicotómica con niveles E/F son npˆ y nqˆ (figura 5-43a) y los valores esperados según una hipótesis arbitraria H0 son np0 y nq0 (figura 5-43b), respectivamente. Observar que se trata de valores absolutos y por lo tanto se requiere multiplicar cada celda de las tablas por el tamaño de la muestra n. E npˆ F nqˆ n H0 E np0 a F nq0 n b Figura 5-43 En definitiva, al medir y probar el ajuste a la H0 estamos probando la validez de la misma. En el capítulo 1 quedaba pendiente el análisis de la significación de este valor. Manteniendo constante el valor marginal, podemos calcular las probabilidades binomiales, tomando todas las muestras como la de la tabla 5-43a, respecto de otra tabla fija como la de la figura 5-43b. Una aproximación para muestras grandes fue descubierta por Karl Pearson, quién demostró que si en lugar de calcular las probabilidades binomiales, calculamos el χ2 de cada una de esas tablas respecto de la tabla fija, entonces, la distribución de esos chi-cuadrados sigue una distribución χ2, que se aproxima a la binomial para muestras grandes. Los grados de libertad para una variable multicotómica están dados por: ν = c −1 siendo c = número de columnas (si la variable es dicotómica, c = 2). Este número es la cantidad de celdas que pueden llenarse libremente. Se resta una celda pues su contenido resulta por diferencia con el valor del total (marginal). Si para conocer algunos parámetros de la distribución hipotética (H0) se utiliza la muestra, se pierden más grados de libertad. Por ejemplo, si la distribución hipotética es la normal y se deben estimar la media y la desviación estándar por la muestra, se deben restar 2 grados de libertad, por lo cual, para este caso: ν = c −1 − 2 = c − 3 En la sección correspondiente a comparación de 2 variables veremos la prueba de diferencia de proporciones, la cual también puede aproximarse a una chi-cuadrado, vinculada en este caso al análisis de la independencia de las 2 variables. 102 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta Supuestos Esta prueba es relativamente libre de supuestos, pero como se basa en propiedades asintóticas es solo válida para grandes muestras. En este sentido requiere que el 100% de las celdas esperadas tengan una frecuencia absoluta mayor que 1 y que el 80% de las celdas esperadas tengan una frecuencia absoluta mayor o igual a 5. Observar que este supuesto es el mismo el de la alternativa 2 (np y nq mayores o iguales a 5) pues esta prueba equivale a la aproximación normal de la binomial. Análisis por IC Dado que no existe una ecuación pivote no se pueden construir IC. Análisis por PH Esta prueba es equivalente a la aproximación normal de la binomial. Esta equivalencia se puede apreciar observando que el número de columnas es c = 2, por lo tanto χ2 tiene un grado de libertad ν = 1 y entonces (capítulo 3, página chiz3): χα 2 (1) = zα / 2 2 Por consiguiente un valor χ2 de un grado de libertad de cola superior es equivalente a un valor z = χ 2 de 2 colas (el valor en la cola superior dela χ2 es igual ala suma de las 2 colas de la normal z = χ 2 ). χ 2 (1) > χ 2α (1) ⇒ |z |> z α ⇒ − zα / 2 > z > z α /2 /2 Como los valores de χ2 solo pueden ser positivos, cualquier hipótesis alternativa implicará que χ2 > 0 y por lo tanto una prueba la bondad del ajuste será siempre unilateral de cola superior. H 0 : Buen Ajuste χ 2 = 0 H A : Mal Ajuste χ 2 > 0 El buen ajuste implica que la distribución observada coincida con la distribución esperada. Pero aún en el caso de que esta coincidencia sea perfecta, es probable que una muestra aleatoria no tenga exactamente los mismos valores que la población, por lo cual la variable aleatoria χ2 (el estadístico de prueba) no será exactamente 0 en la muestra. ¿Cuánto se considera aproximadamente 0? La respuesta objetiva se basa en fijar el punto crítico a partir del cual se considera que χ2 está suficientemente alejado de 0 como para rechazar la hipótesis nula. En lo sucesivo, esta aclaración podrá sobrentenderse y podrá colocarse: H 0 : Buen Ajuste H A : Mal Ajuste PH normal de 2 Colas En este caso, como dada la equivalencia anterior, la chi-cuadrado considera la suma de las 2 colas de la normal, no deberá realizarse ninguna alteración. PH normal de una Cola Dada la equivalencia entre la normal y la chi-cuadrado antes vista, deberá tenerse precaución si el problema parte de una binomial (o normal aproximada) y la prueba es de una cola . En este caso, para equiparar ambas pruebas, debe multiplicarse por 2 a la cola de la normal (valor crítico), para obtener la cola (valor crítico) de la chi-cuadrado. Ejemplo Cola de la normal= 0.025, equivale a una cola superior de 0.05 de la chi-cuadrado. 103 Capítulo 5 Inferencia Paramétrica I Nota Si la prueba de la bondad del ajuste χ2 se extiende a un número de niveles mayor a 2, deja de ser válida la vinculación con la distribución normal. SPSS Se tienen entonces tres alternativas: 1 Binomial Analyze > Nonparametrics Tests > Legacy Dialogs > Binomial. Utiliza para el contraste la distribución teórica exacta para esta variable, es decir una binomial de parámetro p. No es necesaria una codificación, pues obtiene la dicotomía de los datos. Si no la presentan, se deben dicotomizar a partir de un punto de corte de forma tal que los inferiores o iguales se agrupan en la primera categoría y el resto en la otra. El valor p0 que se contrasta (casilla Test Proportion) debe corresponder al grupo de la dicotomía correspondiente a la primer celda. 2 t de Student Analyze > Compare Means > One-Sample T Test. Para poder tratar a una proporción como a una media es necesario que: • la distribución de p̂ sea aproximadamente normal, para lo cual el tamaño de la muestra n debe ser moderadamente grande (np y nq deben ser mayores o iguales a 5), • la variable a probar esté compuesta por una sucesión de 1 (Exitos) y 0 (Fracasos) para que la x coincida con p̂ . Si no lo está se deberá recodificar, sin incluir los valores missing, NSNC (No Sabe No Contesta), etc. El denominador de la varianza estimada (con p̂ y q̂ ) es n–1 y no n. σˆ pˆ = ˆˆ pq n −1 La demostración es la siguiente: SS xx n −1 SS xx = ∑ x 2 − nx 2 sx2 = Si se codifican con 1 a los E y con 0 a los F: x = pˆ ⇒ ∑ x =npˆ ∑x =∑x 2 por lo tanto: ˆˆ SS xx = npˆ − npˆ 2 = npq por lo tanto: ˆˆ SS xx npq = n −1 n −1 ˆˆ s2 pq Vˆ ( pˆ ) = x = n n −1 sx2 = Al utilizar la desviación estándar estimada con el valor muestral x = pˆ y no con el poblacional p0 , utilizar esta alternativa solo si: 1. p0 ≅ pˆ 2. n es grande. 104 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta Esta alternativa tiene la ventaja, respecto de la prueba chi-cuadrado, de proveer las prestaciones ya vistas en la estima de una media: • el intervalo de confianza, el cual también puede obtenerse con el procedimiento explorar. • la posibilidad de acompañar el estudio con un diagrama de barras de error pues x coincide con p̂ . En realidad se puede obtener el diagrama de barras de error en cualquiera de las alternativas si la variable es dicotómica y si se codifica a la variable con 1 (en los Éxitos) y 0 (en los Fracasos). Si los valores de p̂ y p0 son distintos, pero se desean presentar estas prestaciones, realizar primero una prueba chi-cuadrado y solo hacer uso de las mismas, en el caso de que los resultados coincidan con los de la prueba t de Student. 3 Chi-cuadrado Este procedimiento ya fue utilizado al describir la Bondad del Ajuste en el capítulo 1, página bondad1. Analyze > Nonparametrics Tests > Legacy Dialogs > Chi-Square. Compara la frecuencia absoluta observada en cada una de las 2 categorías (no es necesario recodificar) con los valores esperados que se definen en la sección Expected Values (Valores Esperados), en la parte inferior de la ventana. Expected Values All categories equal Se usa esta opción cuando todas las proporciones esperadas tienen el mismo valor. Si por ejemplo el número de categorías es 2, el valor será 0.5. Values En este caso, el cálculo del valor esperado parte del supuesto de que la proporción de éxitos; fracaso sea p; q. Los valores esperados por categoría son los de la hipótesis a probar (por ejemplo modelos teóricos, valores iguales, etc). Se entran en el mismo orden en el que se encuentran los números de las categorías. Estas proporciones pueden introducirse: • en tanto por uno, • en porcentajes, • en forma absoluta, En cualquier caso, el SPSS realiza el cálculo de la proporción de cada valor respecto de la suma de todos ellos, y luego los multiplica por el tamaño de la muestra. En esta explicación comparamos solo 2 categorías o niveles (binomial) pero aquí podemos ver lo que ya anticipamos en el procedimiento de la Bondad del Ajuste: el test χ 2 , a diferencia de las alternativas anteriores, puede utilizarse para más de 2 categorías (multinomial), por lo cual las cajas de diálogo están preparadas para ello. Los grados de libertad son en general: ν = c-1, siendo c el número de categorías de la variable. Se pueden elegir todas las categorías o las comprendidas dentro de un rango que se especifica en Use specified range. Se excluyen del análisis las categorías definidas como Missing en el editor de variables. Tamaño del efecto y ecuación de diseño 1 Normal El tamaño del efecto g, se define como la diferencia entre el valor p1 de la hipótesis alternativa H1, y H0: g = p1 − p0 La ecuación de diseño resulta ahora: z β σ pˆ1 = zα σ pˆ 0 − ( p1 − p0 ) 105 Capítulo 5 Inferencia Paramétrica I De la cual se deduce: ⎛ z p q − zβ n=⎜ α 0 0 ⎜ g ⎝ p1q1 ⎞ ⎟ ⎟ ⎠ 2 Las expresiones son ahora más complejas que las de la media, pues, como ya sabemos, las varianzas de H0 y H1 son distintas pues dependen de p. El tamaño del efecto (pequeño, mediano o grande) no solo depende de las diferencias sino que además depende del valor de las p de cada hipótesis. Por ello se definen valores de tamaño del efecto convencionales solo para p0 = 0.5: • Chico, g = 0.05 • Mediano, g = 0.15 • Grande, g = 0.25 2 Normal con transformación arcsen Para resolver el inconveniente anterior se utiliza la transformación no lineal arcseno de las proporciones ya tratada en la página 101 (Cohen, J. 1988, pag 180): j = 2arcsen p Se define entonces al tamaño del efecto h, el cual no depende del valor de las proporciones: h = j1 − j0 (direccional) h =| j1 − j0 | (no direccional) De esta forma se demuestra que se obtiene la siguiente ecuación de diseño (ahora sí similar a la de las medias): z β = zα − nc con: nc = n h Observar nuevamente que nc es proporcional al tamaño del efecto e inversamente proporcional a la desviación estándar de la distribución muestral ( σ j = 1 ). n De estas ecuaciones se deduce: ⎛z −z ⎞ n=⎜ α β ⎟ ⎝ h ⎠ 2 Los valores convencionales de Cohen son (Cohen, J. 1988, página 184): • Chico, h = 0.20 • Mediano, h = 0.50 • Grande, h = 0.80 Si inversamente se deseara convertir estos valores convencionales de h a los p del estudio, (dados p1 y h), se deberá resolver el sistema de 3 ecuaciones que definen j1, j2 y h. Esto implica transformar p1 a j1, con h hallar la transformada j2 y finalmente reconvertir este valor a p2. 3 Chi-cuadrado En este caso un tamaño del efecto adecuado es el equivalente poblacional del φ muestral estudiado en el capítulo 1, página fi1, al que se lo denomina w. w= 106 χ2 n = ( fo − fe )2 ∑ f e Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta De aquí que el parámetro de descentralidad resulta: χ 2 = w2 n = nc Los tamaños del efecto convencionales propuestos por Cohen, son: • Chico, w = 0.10 • Mediano, w = 0.30 • Grande, w = 0.50 Es oportuno remarcar nuevamente que el tamaño del efecto w no informa sobre la significación del ajuste de la muestra a la población de la H0 sino sobre la intensidad de la diferencia entre la población H1 respecto de la población H0 Luego de haber analizado la significación (paso 4 del procedimiento general, página 15), resta saber si los valores detectados (o no detectados) corresponden a tamaños del efecto poblacionales w chicos, medianos o grandes. Esto se realiza con la verificación (paso 5) de la potencia retrospectiva, incluida en todos los problemas resueltos, la cual podrá dar lugar a un rediseño del tamaño de la muestra (paso 3). Potencia y tamaño de la muestra 1 Normal usando las proporciones En la sección I Diseño, se establecieron, sin demostración, expresiones del cálculo de la potencia y del tamaño de una muestra para una prueba de proporciones. Ahora podemos demostrar esas relaciones. Se procede de manera análoga al desarrollo de una prueba de medias, reemplazando la media y la desviación estándar por las expresiones correspondientes a proporciones. zα = pˆ − p0 σ pˆ zβ = 0 pˆ − p1 σ pˆ 1 Los subíndices 0 y 1 corresponden a H0 y H1, respectivamente. De esta forma se obtiene la siguiente ecuación de diseño: z β σ pˆ1 = zασ pˆ 0 − ( p1 − p0 ) Potencia, P Despejando zβ se obtiene: zβ = zα σ pˆ 0 − ( p1 − p0 ) σ pˆ 1 Tamaño de la muestra, n Si consideramos n1 = n2 = n y operamos, se obtiene: ⎛z p q −z pq n=⎜ α 0 0 β 1 1 ⎜ p1 − p0 ⎝ ⎞ ⎟ ⎟ ⎠ 2 2 Normal usando el tamaño del efecto h Potencia, P Se despeja de la ecuación de diseño. z β = zα − nc Tamaño de la muestra, n Despejando n, se obtiene: 107 Capítulo 5 Inferencia Paramétrica I ⎛z −z ⎞ n=⎜ α β ⎟ ⎝ h ⎠ 2 3 Chi–cuadrado Potencia, P Se debe resolver con la CDF χ2 no centralizada, con un parámetro de descentralidad dado por: χ 2 = w2 n = nc Tamaño de la muestra, n Se despeja n de la ecuación anterior, pero debe conocerse el parámetro de descentralidad. Se debe entonces trabajar por prueba y error: nc => P y luego: n= nc w2 Problema resuelto 5.11 Entrada a la universidad Una muestra irrestricta aleatoria de n = 100 estudiantes de un colegio fue seleccionada para estimar la fracción de N = 3000 estudiantes del último año que asistirán a la universidad. Los resultados de la muestra se grafican en la tabla de la figura 5-44, en donde los 1 significan respuesta positiva. La sumatoria de los 1 es 15. Estudiante x 1 0 2 1 3 1 4 0 … 97 98 99 100 1 … 0 1 1 Figura 5-44 IC Hallar la proporción de estudiantes del último año que planea asistir a la universidad. Usar α = 5%. PH El colegio afirma que el 20% de los estudiantes asistirá a la universidad. ¿Existe evidencia suficiente para aceptar esta aseveración? Interrelacionar gráficamente el IC con la PH. Solución con computadora Resolver con el SPSS. Verificación: potencia retrospectiva En este paso se pide realizar una verificación del supuesto que el tamaño de la muestra es adecuado. Analizar la potencia para establecer si el tamaño del efecto es relevante y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Paso 1 Problema Comparar grupos: θ = p. Paso 2 Modelo Se incluye luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: 100. 108 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta Paso 4 Análisis IC Modelado Normal Distribución muestral de θˆ = p̂ ˆ = 15 > 5 y n ≥ 100 se puede utilizar una distribución normal. Como np El valor α = 5% implica un zα/2 = 1.96. No se conoce la media (es lo que se desea estimar) pero se conoce un valor y la desviación estándar. pˆ = 0.15 Como n < 5% N , no corresponde utilizar la cpf, por lo cual, resulta: ˆˆ pq σˆ pˆ = = 0.035887 n −1 Inferencia B = zα / 2σˆ pˆ = 1.96(0.035887) = 0.0703 p = pˆ ± B = 0.15 ± 0.0703 ⇒ IC = 0.0796 a 0.220 Decisión Las diferencias entre los valores contenidos en el IC, no son significativas al nivel c = 95%. El verdadero valor poblacional se encuentra dentro de un B = 6% (a ±6%) del valor 15%, con una confianza del 95%. PH Modelado Chi–cuadrado Recordemos que la prueba chi-cuadrado no permite construir un IC pues carece de una ecuación pivote. H 0 : Buen Ajuste Aseveración H A : Mal Ajuste E F 15 85 100 H0 E F 20 80 100 Figura 5-45 χ 2 (1) = Inferencia Modelado normal (15 − 20) 2 (85 − 80) 2 + = 1.563 20 80 CDF .Chisq(1.563,1) = 0.788 ⇒ p = P ( χ 2 > χ m 2 ) = 0.212 ⇒ p > α ⇒ No se rechaza H 0 H 0 : p = 0.20 Aseveración H A : p ≠ 0.20 Como npˆ = 15 > 5 , la distribución muestral se aproxima a una normal. 109 Capítulo 5 Inferencia Paramétrica I Inferencia 1 Comparando el eje p̂ Utilizando el valor de la hipótesis p0 zc = z.025 = −1.96 p0 q0 = 0.04 n B = zcσ pˆ = 1.96(0.04) = 0.0784 σ pˆ = pˆ c = p0 + zcσ pˆ = 0.20 − 0.0784 = 0.1216 pˆ m − p0 = 0.15 − 0.20 = −0.05 ⇒ | pˆ m − p0 |< B ⇒ No se rechaza H 0 2 Comparando el eje z zc = z0.025 = −1.96 Utilizando el valor de la hipótesis p0 p0 q0 = 0.04 n pˆ − p0 0.15 − 0.20 = = −1.25 zm = 0.04 σ pˆ σ pˆ = ⇒ | zm |<| zc |⇒ No se rechaza H 0 2 Comparando las áreas α = 0.05 CDF .T (−1.25,99) = 0.107 ⇒ colainf = 0.107 ⇒ p = 2 P( z > zm ) = 2(0.107) = 0.214 ⇒ p > α ⇒ No se rechaza H 0 Decisión La diferencia entre el valor muestral obtenido (0.15) y el valor de la hipótesis (0.20), no es significativa al nivel α = 5% (z = –1.25, p = 0.214). No existe evidencia suficiente para rechazar la aseveración planteada por el colegio de que el 20% de los estudiantes asistirá a la universidad. Observar que esta decisión es compatible con el IC obtenido, pues 0.20 pertenece al IC. Sin embargo podrían presentarse discrepancias, las cuales se deberían a que se utilizan distintas desviaciones estándar. Interrelación gráfica del IC con la PH Figura 5-46 Como la PH no rechazó la H0: p = 0.20, entonces el IC obtenido debe comprender a este valor (lo cual sucederá 95% de las veces). Se recuerda (página 100), que a diferencia de la prueba de una media, esta relación 110 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta puede ahora no cumplirse pues las desviaciones estándar utilizadas en los cálculos del IC y de la PH son distintos entre sí. Soluciones con computadora SPSS Procedimiento en la página 104 Chi-Cuadrado Figura 5-47 Figura 5-48 Por lo tanto no se rechaza la H0: p = 0.20 (valor p = 0.211). Observar que en la salida se brinda información para verificar el cumplimiento de los 2 aspectos que validan la prueba: • No más del 20% de las celdas de la tabla de contingencias deben tener un valor menor a 5. • Ninguna celda debe tener un valor menor que 1. En este ejemplo se cumplen ambas. t de Student Recordemos que el SPSS resuelve con el valor muestral x = pˆ y no con p0 . Además no utiliza la cpf en ningún caso. Por lo tanto las resoluciones manuales correspondientes, son: 1 Comparando el eje t tc = t0.025 (99) = −1.96 pˆ − p 0.15 − 0.20 tm = = = −1.393 0.03589 σ pˆ ⇒ | tm |<| tc |⇒ No se rechaza H 0 2 Comparando las áreas α = 0.05 CDF .T (−1.393,99) = 0.083 ⇒ colainf = 0.083 ⇒ p = 2 P(t < tm ) = 2(0.083) = 0.167 ⇒ p > α ⇒ No se rechaza H 0 111 Capítulo 5 Inferencia Paramétrica I Figura 5-49 Prueba de Ho: p = 0.20 Figura 5-50 El valor p =0.167 mayor que α = 0.05, por lo cual no se rechaza H0. Dado que esta conclusión es compatible con la de chi–cuadrado, se puede utilizar la misma. Observar que el IC se puede obtener directamente colocando p0 = 0: Figura 5-51 Estos valores se corresponden con la solución manual si se utiliza la distribución t de Student. GPower El margen de error B puede obtenerse con GPower (solución binomial en lugar de normal). Exact Proportion: Difference from constant (binomial test, one sample case) Sensitivity, 2 colas, α = 0.05, constant proportion (po) = 0.2 Power = 0.5 y n =100. Se obtiene un tamaño del efecto g = 0.08, en lugar de 0.07. Paso 5 Verificación: potencia retrospectiva El resultado es no significativo, por lo tanto calcularemos la potencia para un tamaño del efecto alto. 1 Solución manual 1 Normal Supongamos que el investigador no utiliza los valores convencionales pues estima que para su estudio un efecto alto es h = 0.56. zβ = zα − nc nc = n h = 100 0.56 = 5.6 zβ = 1.64 − 5.6 = −3.96 112 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta De donde resulta una potencia cercana a 1. Si H1 es cierta, casi el 100% de las veces la prueba será significativa. Como no resultó significativa, es probable que la hipótesis de investigación (para este h ) sea falsa y en la realidad no exista un tamaño del efecto grande, indicando un estudio concluyente. Calculemos ahora la potencia pero con las expresiones de p0 y p1 (a partir del tamaño del efecto h y con p0 = 0.2 ). Se debe primero calcular p1 con el sistema de 3 ecuaciones desarrollado en la teoría. j0 = 2arcsen p0 = 2arcsen 0.2 = 0.927 j1 = 0.56 + 0.927 = 1.43 2 ⎛ ⎛ 1.43 ⎞ ⎞ p1 = ⎜ sen ⎜ ⎟ ⎟ = 0.43 ⎝ 2 ⎠⎠ ⎝ g = p1 − p0 = 0.23 Ecuación de diseño: z β σ pˆ1 = zα σ pˆ 0 − ( p1 − p0 ) σ pˆ = p0 q0 = n 0.2(0.8) = 0.040 100 σ pˆ = p1q1 = n 0.23(0.77) = 0.042 100 0 1 Por lo tanto: z β σ pˆ1 = 1.64(0.040) − 0.23 = −0.164 Finalmente: z β = −3.91 ⇒ Potencia ∼ 1 2 Chi-cuadrado Solución descentralizada El parámetro descentralizado para la distribución χ2 es: nc = w2n Si consideramos, por ejemplo, un efecto grande de 0.50: nc = 0.52 (100) = 25 El cálculo de la potencia se realiza de la misma forma que en los problemas anteriores: IDF .CHISQ (0.95,1) = 3.84 1 − NCDF .CHISQ(3.84,1, 25) = 0.998 P = 0.998 Este valor indica que si este efecto alto existiera en la población, el estudio probablemente lo hubiera detectado. Como no lo detectó, el estudio es concluyente. Si consideramos ahora el tamaño del efecto muestral del φ de la prueba: χ2 1.563 = 0.125 n 100 nc = 0.1252 (100) = 1.563 1 − NCDF .CHISQ(3.84,1,1.563) = 0.239 P = 0.239 φ= = Es decir que si H1 es verdadera con un tamaño del efecto poblacional coincidente con el de la muestra, existe solo un 23.9% de probabilidades de que el estudio resulte significativo. 113 Capítulo 5 Inferencia Paramétrica I 2 SPSS Lo resolveremos con la distribución exacta binomial. Para esta distribución no existe una ecuación de diseño similar a la utilizada para una normal, por lo cual solo puede usarse el procedimiento general (ver página 40). Para determinar cuáles son los valores críticos de x–barra que, en la distribución binomial b(100, 0.2), producen colas de α/2 en ambos extremos, se debe trabajar por prueba y error o utilizar GPower. Utilizando este último (punto siguiente), se determina que los límites deben ser 12 y 29. Por lo tanto: ki = 12 CDF .BINOM (12,100, 0.2) = 0.0253 k S = 29 1 − CDF .BINOM (29,100, 0.2) = 0.011 De esta forma, la suma de ambas colas no supera α = 0.05. Solución Asignemos ahora el tamaño del efecto g = 0.23. CDF .BINOM (12,100,0.43) = 0 1 − CDF .BINOM (29,100,0.43) = 0.99 Por lo tanto: P = 0.99 3 GPower 1 Resolución binomial Exact Proportion: Difference from constant (binomial test, one sample case) Post hoc Options > Assign α/2 to both sides, then increase to minimize the difference of α1 + α2 to α. Esta opción comienza asignando α/2 en ambos extremos, calcula los valores críticos para que cada cola no supere α/2 y luego incrementa el valor de la cola más chica de tal forma que la suma no supere α. 2 colas, α = 0.05, g = 0.23, constant proportion (po) = 0.2 y n =100. Observar que para calcular el tamaño del efecto g por GPower (botón Determine), GPower ofrece 3 alternativas: por diferencia, por cociente y por el odds–ratio (OR) estudiado en el capítulo 1. Entrega una potencia de 0.998. En la figura 5-52 y en la figura 5-53 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto. Se pueden ver las altas potencias de esta prueba para detectar efectos mayores a 0.13. El investigador deberá determinar si son lo suficientemente grandes para ser útiles. Figura 5-52 114 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta Figura 5-53 2 Resolución chi-cuadrado χ2 tests Goodness of fit tests: Contingency tables Post hoc, effect size: 0.50 (grande), α = 0.05, n = 100, ν = 1. Observar que esta ventana no tiene una selección del tipo de cola pues la prueba de la bondad del ajuste χ = 0 es siempre de cola superior. Entrega una potencia de: 0.998. Este efecto probablemente no exista, pues si existiera, la prueba daría significativa (estudio concluyente). Para el tamaño del efecto φ muestral: effect size: 0.125, α = 0.05, n = 100, ν = 1. Entrega una potencia de: 0.239. En la figura 5-54 y en la figura 5-55 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto, para varios valores de n. Con el tamaño de la muestra (n = 100), se requeriría un tamaño del efecto de 0.28 para llegar a una potencia de 0.8. 2 Figura 5-54 115 Capítulo 5 Inferencia Paramétrica I Figura 5-55 Problema resuelto 5.12 Chocolate preferido Un fabricante afirma que las familias prefieren por igual al chocolate de la marca A y al de la marca B. Para probarlo se muestrean 10 familias y resulta que 2 prefieren la marca A. PH Usando α = 0.05, ¿puede rechazarse la aseveración del fabricante? IC Observar que por ser una muestra pequeña (np= 2 < 5), solo puede usarse la distribución binomial, por lo cual no existe ecuación pivote y por lo tanto no se pueden definir IC. SPSS Resolver con el SPSS. Verificación: potencia retrospectiva Analizar la potencia versus el tamaño del efecto de la prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Paso 1 Problema Comparar grupos: θ = p. Paso 2 Modelo Se incluye luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: 10. 116 Jorge Carlos Carrá II Anális sis de una varriable Problema b: proporción de una variable cuantitativ va discreta Paso o 4 Anális sis PH H 0 : p = 00.50 Aseverración H A : p ≠ 0.50 O en térrminos del núm mero de éxitos y: H 0 : y = 5 Aseveraación HA : y ≠ 5 Mode elado Binom mial Distrib bución muestra al de θˆ = p̂ Como np n ˆ = 2 < 5 , al a distribución solo s puede trattarse como binomial b(10,0.55). Infere encia 1 Comp parando el ejee y Como las l tablas de distribución binoomial están exppresadas en térrminos de y = nnúmero de éxittos y no en la proporcción de éxitos, es más directoo comenzar la ccomparación co on el eje y. F Figura 5-56 Se debeen adoptar valoores de corte qu ue no superen el e valor de α. En E este caso (taabla de distribu uciones binomiaales, b(10,0.5),, apéndice B), se determina qque los límites deben ser 1 y 99, los cuales coonfiguran un vaalor α = 0.022 (ver figura 5-56). Para yc = 1, se obtienee de la tabla, unna cola de 0.111. yc = 1 ym = 2 ⇒ ym > yc ⇒ No se reechaza H 0 2 Comp parando el ejee p̂ Como pˆ = y , el dessarrollo es trivial. n Capítulo 5 Inferencia Paramétrica I pˆ c = 0.1 pˆ m = 0.2 ⇒ pˆ m > pˆ c ⇒ No se rechaza H 0 3 Comparando las áreas α = 0.022 p = 2 P ( y < ym == 2(0.055) = 0.11 ⇒ p > α ⇒ No se rechaza H 0 Modelado Chi cuadrado H 0 : Buen Ajuste Aseveración H A : Mal Ajuste Usaremos el mismo valor α = 0.022 de la prueba binomial. Inferencia 1 Comparando el eje χ2 (5 − 2) 2 (5 − 8) 2 18 + = = 3.6 5 5 5 α = 0.022 χ c2 = IDF .chisq (1 − 0.011,1) = 6.47 χ m2 (1) = ⇒ χ m2 < χ c2 ⇒ No se rechaza H 0 2 Comparando las áreas sig.CHISQ(3.6,1) = 0.058 p = P ( χ 2 > χ m2 ) = 0.058 ⇒ p > α ⇒ No se rechaza H 0 Decisión La diferencia entre el valor muestral obtenido (2) y el valor de la hipótesis (5), no es significativa al nivel α = 0.022 (χ2(1) =3.6, p = 0.058). No existe evidencia suficiente para rechazar la aseveración de que las familias prefieren por igual al chocolate de la marca A y al de la marca B. SPSS Procedimiento en la página 104 1 Binomial Figura 5-57 Se aprecia que SPSS no entrega los valores de corte correspondientes al número de casos. Para obtenerlos por computadora, ver GPower, más adelante. 118 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta 2 t de Student Figura 5-58 Figura 5-59 Comprobación manual pˆ = 0.20 2 ˆˆ s yb = pq n 10 = 0.2(0.8) = 0.1777 n −1 9 ⇒ s yb = 0.4216 σˆ p2ˆ = 2 s yb n ⇒ σˆ pˆ = 0.1333 0.2 − 0.5 = −2.25 0.1333 CDF .T (−2.25,9) = 0.0255 p = 2 P(t < 0.0255) = 0.051 ⇒ p > α ⇒ No se rechaza H 0 t= 3 Chi cuadrado Figura 5-60 119 Capítulo 5 Inferencia Paramétrica I Figura 5-61 Observar que en la salida se brinda información para verificar el cumplimiento de los 2 aspectos que validan la prueba: • Más del 80% de las celdas esperadas deben tener un valor mayor a 5. • El 100% de las celdas esperadas deben tener un valor mayor que 1. En este ejemplo se cumplen ambas. Paso 5 Verificación: potencia retrospectiva El resultado es no significativo por lo cual deberíamos calcular P para un tamaño del efecto g =Δp grande Como p0 = 0.5, se pueden utilizar los tamaños del efecto g convencionales, los cuales indican que un g grande es 0.25. Además solicitaremos el gráfico de la potencia en función del tamaño del efecto. 1 SPSS Para determinar (sin una tabla) cuáles son los valores críticos de y que producen colas de α/2 en ambos extremos, se debe trabajar por prueba y error o utilizar GPower. Utilizando este último (punto siguiente) se determina que los límites deben ser 1 y 9. ki = 1 ⇒ CDF .BINOM (1,10,0.5) = 0.011 kS = 9 ⇒ 1 − CDF .BINOM (8,10,0.5) = 0.011 De esta forma, la suma de ambas colas no supera α = 0.022. Solución Asignemos ahora un tamaño del efecto grande g = 0.25. CDF .BINOM (1,10,0.75) = 0 1 − CDF .BINOM (8,10, 0.75) = 0.244 Por lo tanto: P = 0.244 El resultado es devastador. El estudio es no concluyente pues prácticamente no tiene potencia para detectar un tamaño del efecto alto. Existe el riesgo de un tamaño del efecto grande no detectado, lo cual puede ser originado por un tamaño de la muestra demasiado bajo. Riesgo de n bajo: algo grande está sucediendo y se obtiene un resultado no significativo. La solución sería entonces rediseñar el estudio calculando el tamaño de la muestra necesario para una potencia de al menos 0.80. Rediseño Se debe rediseñar el estudio inferencial partiendo de la potencia P => n. Usaremos la aproximación normal para el cálculo manual. 120 Jorge Carlos Carrá II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta ⎛z p q −z pq n=⎜ α 0 0 β 1 1 ⎜ p1 − p0 ⎝ zα = 2.24 ⎞ ⎟ ⎟ ⎠ 2 zβ = IDF .Normal (0.20) = 0.84 Por lo tanto: ⎛ z p q − zβ p1q1 n=⎜ α 0 0 ⎜ p1 − p0 ⎝ 2 2 ⎞ ⎛ 2.24 0.5(0.5) − 0.84 0.75(0.25) ⎞ ⎟ =⎜ ⎟ = 36 ⎟ ⎝ 0.25 ⎠ ⎠ La conclusión es que debería repetirse el análisis con un tamaño muestral de por lo menos 36 familias. 2 GPower Exact Proportion: Difference from constant (binomial test, one sample case) Post hoc, Options > Assign α/2 to both sides, then increase to minimize the difference of α1 + α2 to α 2 colas, α = 0.022, g = 0.25, constant proportion= 0.5 y n =10. Entrega una potencia de 0.244 y los puntos de corte: yc = 1, yc = 9. Rediseño A priori, 2 colas, α = 0.022, g = 0.25, constant proportion= 0.5 y P = 0.80. Entrega un tamaño n = 36. Gráficas Distribuciones Figura 5-62 Curvas de Potencia 121 Capítulo 5 Inferencia Paramétrica I Figura 5-63 En la figura 5-62 y en la figura 5-63 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto. Se puede ver que esta prueba no detecta (bajas potencias) tamaños del efecto grandes que pueden ser útiles. Problema resuelto 5.13 Bondad del ajuste En algunos procedimientos descriptos en este capítulo se requiere comprobar que la distribución poblacional es normal. Dado que poseemos ahora la herramienta de probar la bondad del ajuste de una distribución de frecuencias a cualquier distribución, consideremos que necesitamos probar la aseveración de que las siguientes puntuaciones de CI (Coeficiente de Inteligencia), provienen de una distribución normal con media μ = 100 y σ = 15 . Analizar luego la potencia retrospectiva. CI Frecuencia < 80 21 80-95 96-110 50 78 Figura 5-64 Paso 1 Problema Comparar formas de las distribuciones. Paso 2 Modelo Distribución chi–cuadrado. Paso 3 Diseño Tamaño de la muestra: 210. 122 Jorge Carlos Carrá 111-120 42 >120 19 II Análisis de una variable Problema b: proporción de una variable cuantitativa discreta Paso 4 Análisis PH H 0 : Buen Ajuste Aseveración H A : Mal Ajuste Las frecuencias esperadas se calculan a partir del cálculo de las probabilidades de la distribución normal correspondientes a cada clase, considerando los extremos reales de los intervalos, aplicando la corrección por continuidad y multiplicando por n = 210. Se deja al estudiante la verificación de los valores de la siguiente tabla. CI Frecuencia < 79.5 18.03 79.5-95.5 62.21 95.5-110.5 78.95 110.5-120.5 32.78 >120.5 18.03 Figura 5-65 χ2 = ∑ (no − ne ) (21 − 18.03)2 (19 − 18.03) 2 = + ... + = 5.303 ne 18.03 18.03 Sig.ChiSq(5.303, 4) = 0.258 ⇒ ⇒ p = P ( χ 2 > χ m 2 ) = 0.258 ⇒ p > α ⇒ No se rechaza H 0 2 Decisión La diferencia entre el valor muestral obtenido (5.303) y el valor de la hipótesis (0.0), no es significativa al nivel α = 5% (χ2(4) = 5.303, valor p = 0.258). No existe evidencia suficiente para rechazar la aseveración planteada de que los CI provienen de una distribución normal. Solución con computadora Chi-Cuadrado Colocar las marcas en una variable, las frecuencias en otra y utilizar Weight Cases. Figura 5-66 Paso 5 Verificación: potencia retrospectiva El resultado no es significativo por lo cual deberíamos calcular P para un tamaño del efecto grande. Chi-cuadrado (solución descentralizada) El parámetro descentralizado para la distribución χ2 es: nc = w2n 123 Capítulo 5 Inferencia Paramétrica I Si consideramos, por ejemplo, un efecto grande de 0.50: nc = 0.52 (210) = 52.5 Cálculo de la potencia. IDF .CHISQ (0.95, 4) = 9.49 1 − NCDF .CHISQ(9.49, 4,52.5) = 0.99 P = 0.99 Este valor indica que es altamente probable que si este efecto grande existiera en la población, sería detectado, por lo cual el estudio es concluyente. Si no lo fuera, se deberían probar varios valores de n y por lo tanto del parámetro descentralizado nc hasta obtener una potencia de por lo menos 0.80. Una forma práctica de hacerlo con el SPSS es crear una variable con una secuencia de valores posibles del parámetro de descentralización (a la que podemos llamar por ejemplo nc). Luego la colocaremos como parametro de la función 1–NCDF. En este ejemplo: 1 − NCDF .CHISQ (9.49, 4, nc ) El resultado más cercano a 0.80, nos dará el parámetro de descentralidad nc buscado, con el cual se calculará el tamaño muestral n. Este proceso tiene la ventaja de enseñar el proceso constructivo para resolver el problema: Un software como GPower lo podrá realizar en forma automática, pero con un procesamiento no evidente. GPower χ2 tests Goodness of fit tests: Contingency tables Post hoc, effect size: 0.50 (grande), α = 0.05, n = 210, ν = 4. Entrega una potencia de: 0.99. En la figura 5-67 y en la figura 5-68 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto, para varios valores de n. Con el tamaño de la muestra (n = 210), se requeriría un tamaño del efecto de 0.25 para obtener una potencia de 0.82. Figura 5-67 124 Jorge Carlos Carrá II Análisis de una variable Problema c: varianza de una variable cuantitativa contínua Figura 5.68 Problema c: varianza de una variable cuantitativa contínua Modelado Diagramas de caja Estos diagramas (ver capítulo 1) proveen la posibilidad de realizar en forma gráfica un análisis de comparación de varianzas exploratorio y preliminar. Al informar acerca de la AIC, Amplitud InterCuartílica y de la amplitud entre extremos, proveen alguna de las medidas de dispersión. Serán particularmente útiles cuando se estudie más adelante la comparación entre varianzas. Chi-cuadrado (exacta) El formato con el cual se presentan los datos, se muestra en la figura 5-69. Se tiene una variable x de escala, que contiene el concepto a estudiar. 125 Capítulo 5 Inferencia Paramétrica I x 1.23 2.45 3.26 6.45 8.23 … 6.78 1.56 3.21 4.13 2.56 Figura 5-69 De acuerdo a lo estudiado en el capítulo 4, si la distribución poblacional es normal, para cualquier tamaño de la muestra, la distribución: χν2 = (n − 1) s 2 σ2 ν = n −1 sigue una distribución chi-cuadrado exacta con ν grados de libertad. Por lo tanto la transformación a realizar en este caso es a la variable χ2. Para obtener las expresiones de la media y desviación estándar, basta convertir las relaciones vistas en el capítulo 3, con la ecuación anterior, resultando. E (s 2 ) = σ 2 V (s 2 ) = 2σ 4 n −1 La primera expresión nos indica que s2 es un estimador insesgado de σ2. Esta es la razón por la cual se define s2 con n–1, en lugar de hacerlo con n5. De la segunda observamos que el estimador es convergente. Existen otros estimadores de σ2 como por ejemplo el que resulta de dividir SSxx por n+1 en lugar de n-1. Este estimador de la varianza poblacional es sesgado pero tiene la propiedad deseable de minimizar el error cuadrático medio entre los valores de cada una de las posibles muestras y el valor poblacional. Supuestos 1. Normalidad A diferencia de una inferencia para la media o proporción, el requisito de normalidad es mucho más importante en este caso, a tal punto que desviaciones del mismo pueden originar errores serios. Por esta razón esta prueba es poco usada en la práctica. En el caso que sea necesario utilizarla es imprescindible explorar este supuesto con las herramientas gráficas comentadas en el capítulo 1, página transformacion1 (entre ellas el histograma o las gráficas Q-Q) y la prueba 5 Por otro lado, este procedimiento hace más grande la cantidad, con lo cual compensa el hecho de que una muestra tiende a tener menor variabilidad que la población, debido a la dificultad de que capture los valores extremos. Jorge Carlos Carrá 126 II Análisis de una variable Problema c: varianza de una variable cuantitativa contínua estadística χ2 de la bondad de ajuste vista en la sección anterior. Recordemos además del capítulo 3 que si ν >100, la distribución χ2 se puede aproximar a una normal, con la media y desviación estándar anteriores. Análisis por IC El estimador puntual s2 es insesgado y convergente pero desarrollaremos un estimador por intervalo para medir su precisión. Para ello partimos de la siguiente ecuación pivote: P ( χ I2 ≤ χ 2 ≤ χ S2 ) = c reemplazando la expresión de χ2 y despejando σ2, se obtiene: ⎛ s 2 (n − 1) s 2 (n − 1) ⎞ P⎜ 2 ≤σ2 ≤ 2 ⎟=c χ I (ν ) ⎠ ⎝ χ S (ν ) Observar que en este caso, el IC no puede expresarse con el formato σ = s ± B , puesto que el IC no está centrado en la varianza muestral. Estudiar el problema resuelto siguiente. 2 2 Análisis por PH Bilateral H 0 : σ 2 = σ 02 H A : σ 2 ≠ σ 02 Unilateral H 0 : σ 2 ≥ σ 02 H A : σ 2 < σ 02 o también: H 0 : σ 2 ≤ σ 02 H A : σ 2 > σ 02 Interrelación entre IC y PH Fijadas las regiones de una PH, las conclusiones acerca del resultado de la muestra son totalmente equivalentes a las de un IC. En la figura 5-70 se muestra la situación para, por ejemplo, cuando el valor muestral "cae" justo en el límite de la región crítica. En forma general, se puede plantear: • para la PH: sc2 = • σ 2 χ S2 n −1 y para el IC: LCI = sm2 (n − 1) χ S2 2 2 Si sc = sm , se tiene: LCI = σ 2 Se observa entonces que si el valor muestral "cae" dentro de la zona crítica, el IC no comprenderá a σ2, como es de esperar para resultados significativos. Lo opuesto ocurre si el valor muestral "cae fuera de la zona crítica. 127 Capítulo 5 Inferencia Paramétrica I Figura 5-70 SPSS El SPSS no incluye esta prueba, por lo cual he desarrollado la sintaxis de la figura 5-71, la cual reproduce los pasos que se deben realizar para resolver la inferencia a mano. La primer parte es la prueba de hipótesis y la segunda es el intervalo de confianza. Figura 5-71 Prueba de la varianza. Para que el código funcione se debe preparar en el editor de datos 4 variables con los nombres: ssq, sigmasq, df y alfa, donde ssq es la varianza muestral, sigmasq es el valor poblacional de la varianza a probar, df son los grados de libertad y alfa es el nivel de significación. Colocar los valores numéricos correspondientes al caso en estudio. Luego abrir una ventana de sintaxis y escribir el código de la figura 5-71 (o pegar el que se encuentra en el archivo sintaxis.txt). Ejecutar con Run > All. Tamaño del efecto y ecuación de diseño Para este caso, de define el tamaño del efecto como el cociente entre el valor σ21 de la hipótesis alternativa H1, y σ20, el valor de H0. E= 128 σ12 σ 02 Jorge Carlos Carrá II Análisis de una variable Problema c: varianza de una variable cuantitativa contínua Si procedemos en forma análoga a lo hecho para una distribución normal y despejamos s2 de las expresiones para H0 y H1 e igualamos, se obtiene la siguiente ecuación de diseño: χα2σ 02 = χ β2σ12 Esta relación indica que la distribución de H1, χ β , es la misma distribución central χ2 pero dividiendo los valores de χ2 por el tamaño del efecto. La distribución de H1 resultará entonces escalada con el tamaño del efecto. Potencia y Tamaño de la muestra Potencia,P Como la distribución de H1 es la misma distribución central χ2 dividiendo los valores de χ2 por el tamaño del efecto, para hallar la potencia solo bastará hallar las CDF (y/o 1–CDF) de esa chicuadrado para el valor crítico χ β2 (ver problema resuelto). Tamaño de la muestra, n Puede apreciarse que el tamaño de la muestra solo aparece en los grados de libertad. Si se conoce n, no existen inconvenientes en calcular P, (n => P), pero, a la inversa, si se deseara calcular P => n, debería operarse por prueba y error (n => P), obteniendo el valor de ν que verifique: α => χα2 (ν ) χα2 (ν ) y E => χ β2 (ν ) χ β2 (ν ) => P Naturalmente es un proceso iterativo por lo cual se utilizan tablas preparadas a tal efecto o un software como por ejemplo SPSS o GPower. Al final del siguiente problema resuelto se muestra el procedimiento. Problema resuelto 5.14 Peso de los sobres de café Un supervisor del proceso de empacado de café en sobres toma una muestra aleatoria de 12 sobres, construyendo la tabla de la figura 5-72. 15.7 15.8 15.9 16 16.1 16.2 g/sobre 2 2 3 3 1 N° sobres 1 Figura 5-72 IC a) Si el peso de cada sobre tiene una distribución normal, estimar el peso promedio de la población con un coeficiente de confianza del 95%. b) Estimar la desviación estándar de la población con un coeficiente de confianza del 90%. PH Probar la aseveración de que μ = 16 y σ = 0.04 (σ2 =0.0016). Interrelacionar gráficamente el IC con la PH de la varianza en forma gráfica. SPSS Resolver con el SPSS. Verificación: potencia retrospectiva Analizar la potencia versus el tamaño del efecto para la prueba de varianzas y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. 129 Capítulo 5 Inferencia Paramétrica I Paso 1 Problema Comparar grupos: θ = μ y θ = s2 Paso 2 Modelo Distribuciones normal., t de Student y chi–cuadrado. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: 12. Paso 4 Análisis IC Modelado Distribución muestral de θˆ = x El tamaño n es menor que 30, la distribución poblacional es normal y se desconoce la desviación estándar poblacional. Entonces la distribución muestral es una t de Student con ν =11. Distribución muestral de θˆ = s La distribución es chi-cuadrado. No se necesitan ni la media ni la desviación estándar. 2 Inferencia θˆ = x x = 15.937 s 2 = 0.0224 s2 sˆx = Vˆ ( x ) = = 0.0432 n IDF .T (0.95,11) = 1.796 B = 1.796(0.0432) = 0.077 ⇒ μ = 15.97 ± 0.077 ⇒ IC ( μ ) = 15.89 a 16.05 θˆ = s 2 P(4.57 ≤ χ 2 ≤ 19.68) = 0.90 ⇒ P( s 2 (n − 1) s 2 (n − 1) 2 ≤ ≤ ) = 0.90 σ χ S2 (ν ) χ I2 (ν ) ⇒ P(0.0125 ≤ σ 2 ≤ 0.054) = 0.90 ⇒ IC (σ 2 ) = 0.0125 a 0.054 Decisión Se espera que estos IC incluyan al valor poblacional μ o σ2 con una confianza del 95% o 90%, respectivamente. 130 Jorge Carlos Carrá II Análisis de una variable Problema c: varianza de una variable cuantitativa contínua PH θˆ = x H 0 : μ = μ0 Aseveración H A : μ ≠ μ0 θˆ = s 2 H 0 : σ 2 = σ 02 Aseveración H A : σ 2 ≠ σ 02 Modelado Ídem IC. Inferencia 1 Comparando el valor del eje estandarizado θˆ = x tc = t0.025 (11) = −2.201 x − μ 15.967 − 16 tm = = = −0.77 σx 0.0432 ⇒ | tm |<| tc |⇒ No se rechaza H 0 θˆ = s 2 χ m2 = (n − 1) s 2 σ 2 = 11(0.0224) = 154 0.042 A un valor c = 0.90, le corresponde una cola superior α/2 = 0.05, por lo tanto: χ c2 = 19.68 ⇒ χ m2 > χ c2 ⇒ Se rechaza H 0 2 Comparando el valor del eje sin estandarizar θˆ = x xm = 15.967 B = tα / 2σˆ x = 2.201(0.0432) = 0.0951 xc = μ − B = 16 − 0.0951 = 15.90 Como se analiza la cola inferior: θˆ = s ⇒ xm > xc ⇒ No se rechaza H 0 2 sm2 = 0.0224 s = 2 c Como se analiza la cola superior: χ c2σ 2 n −1 = 19.68(0.0016) = 0.00286 11 ⇒ sm2 > sc2 ⇒ Se rechaza H 0 3 Comparando las áreas θˆ = x α = 0.05 CDF .T (−0.77,11) = 0.23 131 Capítulo 5 Inferencia Paramétrica I ⇒ cola inf = 0.23 ⇒ p = 2 P(| t |>| tm |) = 2 ∗ 0.23 = 0.46 ⇒ p > α ⇒ No se rechaza H 0 θˆ = s 2 α = 0.10 CDF .CHISQ(154,11) = 1 Por lo tanto: p = P( χ 2 > χ 2m ) = 0 ⇒ p < α ⇒ Se rechaza H 0 Conclusiones θˆ = x La diferencia entre el valor muestral obtenido (15.97) y el valor de la hipótesis (16), no es significativa al nivel α = 5%, (t(11) = –0.77, p = 0.46). No existe evidencia suficiente para rechazar la aseveración de que el peso promedio de la población de café en sobres es de 16. Observar que esta decisión es compatible con el IC obtenido, pues 16 pertenece al IC. θˆ = s 2 La diferencia entre el valor muestral obtenido (0.0224) y el valor de la hipótesis (0.0016), es significativa al nivel α = 10% (χ2(11) = 154, p = 0.00). Existe evidencia suficiente para rechazar la aseveración de que la desviación estándar es 0.04. Interrelación gráfica del IC con la PH para s2 Figura 5-73 Como la PH rechazó la H0: σ2 = 0.0016, entonces el IC obtenido no debe comprender a este valor (lo cual sucederá en promedio el 10% de las veces). SPSS Procedimiento en la página 87 θˆ = x Figura 5-74 132 Jorge Carlos Carrá II Análisis de una variable Problema c: varianza de una variable cuantitativa contínua Figura 5-75 θˆ = s 2 Procedimiento en la página 128 Resultados de los comandos contenidos en la sintaxis. chi _ sq = 154.07 sign = 0.000 Decisión = Rechazar H 0 chi inf = 4.57 chi sup = 19.68 LCI = 0.0125 LCS = 0.053 Paso 5 Verificación: potencia retrospectiva El resultado es significativo por lo cual deberíamos calcular P para un tamaño del efecto E bajo. Supongamos que, a juicio del investigador, un tamaño del efecto bajo es E = σ 12 = 0.5 . σ 22 1 SPSS Para determinar cuáles son los valores de χ2 que producen colas de α/2 en ambos extremos, utilizamos la función del SPSS llamada Inverse DF (solo para distribuciones contínuas). IDF .CHISQ(0.05,11) = 4.57 χ i2 = 4.57 IDF .CHISQ(0.95,11) = 19.68 χ s2 = 19.68 De esta forma, la suma de ambas colas es α = 0.10. Solución Asignemos ahora el tamaño del efecto E. Vimos que la distribución de H1 es la misma distribución central χ2 dividiendo los valores de χ2 por el tamaño del efecto. σ 12 = 0.5 , resulta: σ 22 CDF .CHISQ(4.57 / 0.5,11) = 0.39 SIG.CHISQ(19.68 / 0.5,11) = 0.00004 Para un tamaño del efecto es E = En definitiva (ver la figura siguiente), la potencia será: P = 0.39 + 0 = 0.39 Si este tamaño del efecto estuviera presente en la población, probablemente no sería detectado. Como la prueba dio significativa, probablemente detectó un tamaño del efecto mediano o grande, lo cual es satisfactorio. 133 Capítulo 5 Inferencia Paramétrica I 2 GPower χ2 tests Variance: Difference from constant (one sample case) Post hoc, 2 colas, α = 0.10, E = 0.5 y n =12. Devuelve una potencia de 0.39. Figura 5-76 Observar que la distribución de H1 es la misma que la de H0 (no es la χ2 descentralizada), solo que escalada en el eje x. Así por ejemplo tomando los valores de la primer raya verde, el valor del eje y de H0 (curva contínua) para χ2 = 4.574, es el mismo que el correspondiente a H1 (curva a trazos) para χ2 = 4.574/0.5 = 9.15. Rediseño En este problema no ha sido necesario el rediseño del estudio inferencial. Pero, ¿cómo se hubiera procedido si la prueba hubiera dado no significativa. En este caso deberíamos calcular P para un tamaño del efecto E alto. Al solo efecto de ejemplificar el proceso de rediseño, supongamos que, a juicio del investigador, un tamaño del efecto alto es E = σ 12 = 1.5 . σ 22 Para este tamaño del efecto, resulta: CDF .CHISQ(4.57 /1.5,11) = 0.01 SIG.CHISQ(19.68 /1.5,11) = 0.28 En definitiva (ver la figura siguiente), la potencia será: P = 0.01 + 0.28 = 0.29 Como la potencia es baja, es probable que la pueba no significativa no haya detectado tamaños del efecto grandes y se debe por lo tanto rediseñar el experimento. Se debe rediseñar partiendo de la potencia P => n. Dado que el tamaño de la muestra se encuentra en los grados de libertad, se debe actuar por aproximaciones sucesivas probando varios valores de n. SPSS Una forma práctica de hacerlo con el SPSS es crear una variable llamada por ejemplo, gl, con una secuencia de valores posibles y colocarla como parametro de la función IDF.CHISQ, en este caso: CHIi = IDF .CHISQ (0.05, gl ) CHIs = IDF .CHISQ (0.95, gl ) Los resultados se colocan dentro de: CDF .CHISQ(CHIi /1.5, gl ) SIG.CHISQ(CHIs /1.5, gl ) Ambas ecuaciones se pueden combinar en una sola, obteniendo: SIG.CHISQ( IDF .CHISQ(0.95, gl ) /1.5, gl ) 134 Jorge Carlos Carrá II Análisis de una variable Problema c: varianza de una variable cuantitativa contínua La combinación que lleve al valor más cercano a 0.80, será el grado de libertad buscado, con el cual se calculará el tamaño muestral n. Este proceso tiene la ventaja de ser constructivo. Naturalmente que un software específico como GPower resuelve el problema en forma automática (pero encubierta). De esta forma se llega a: IDF .CHISQ(0.05,73) = 54.3 χ i2 = 54.3 IDF .CHISQ(0.95, 73) = 93.9 χ s2 = 93.9 CDF .CHISQ(54.3 /1.5, 73) = 0 SIG.CHISQ(93.9 /1.5, 73) = 0.80 P = 0 + 0.80 = 0.80 La conclusión es que debería repetirse el análisis con un tamaño muestral de por lo menos 74 sobres. GPower χ2 tests Variance: Difference from constant (one sample case) Post hoc, 2 colas, α = 0.10, E = 1.5 y n =12. Devuelve una potencia de 0.29. Rediseño A priori, Para una potencia de 0.80, entrega un tamaño de muestral de 74. Gráficas En la figura 5-76 y en la figura 5-77 se observan las distribuciones y la curvas de Potencia en función del tamaño del efecto, para varios valores de n. En las curvas de potencia se pueden ver las bajas potencias de esta prueba para tamaños del efecto menores que 3 (el investigador debe interpretar si son lo suficientemente grandes para ser útiles). Si se aumenta la potencia (aumentando n), la prueba podría dar significativa. Figura 5-76 135 Capítulo 5 Inferencia Paramétrica I Figura 5-77 136 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas III Análisis de dos variables: Comparación entre grupos Los procedimientos inferenciales de una variable vistos hasta ahora, no son los que se presentan habitualmente en las investigaciones. Sin embargo se requiere haber recorrido su estudio pues son un requisito previo para la resolución de los que siguen en esta sección y la siguiente. En las investigaciones reales la situación que se presenta con frecuencia es la necesidad de comparar 2 o más grupos de valores (muestras) sin ninguna información directa acerca de la población (o poblaciones) de la que son extraídos. Este es el objetivo de las secciones III y IV. En esta sección veremos la estimación los siguientes casos: a. Comparación de medias b. Comparación de proporciones c. Comparación de varianzas Las comparaciones pueden ser realizadas con la diferencia o con el cociente o razón. Para cualquier tamaño de la muestra, la diferencia es apropiada para las medias y proporciones, en tanto que la razón lo es para las varianzas. Veremos en cada apartado que si el tamaño de la muestra es grande, pueden ser utilizados además las razones o diferencias, respectivamente. En todos los casos se define la H0 por la negativa, pues recordar (introducción) que esta es la forma de poder rechazarla (Popper, K. 1980). Estos métodos son aplicables cuando los datos muestrales se miden en las mismas unidades. Si se analizan variables con distintas unidades, como peso y altura, se deberán utilizar los métodos de la sección IV. Problema a: comparación de medias de variables cuantitativas contínuas Diferencia de medias θ = Δμ En el capítulo 1 hemos visto las propiedades básicas de la esperanza y de la varianza. Dos de ellas, aplicadas a la distribución muestral de medias, conducen a: E ( X 1 ± X 2 ) = μ1 ± μ 2 V ( X 1 ± X 2 ) = V ( X 1 ) + V ( X 2 ) ± 2Cov( X 1 , X 2 ) En particular veremos aquí el tratamiento de la diferencia de las medias de 2 muestras ΔX = X 1 − X 2 . Éstas pueden haber sido obtenidas de una población (antes y después de algún tratamiento) o de 2 poblaciones distintas, de hecho, en algunos trabajos de investigación se utilizan los subíndices E por grupo Experimental y C por grupo de Control. 137 Capítulo 5 Inferencia Paramétrica I Modelado Normal o t de Student (exacta o asintótica) Análogamente al caso de una variable, la distribución de la diferencia de medias sigue una distribución normal o t de Student, en función de las condiciones de normalidad y del tamaño de la muestra. Supuestos 1. 5 Casos Los mismos que para el estudio de una sola muestra, aplicables ahora a ambas poblaciones. Sin embargo, en cada uno de los distintos casos se agregarán algunos requisitos adicionales. 2. Independencia o dependencia Se dividirá el tipo de análisis según sean o no distribuciones poblacionales independientes. Dos muestras de poblaciones independientes Análisis por IC El formato con el cual se presentan los datos, se muestra en la figura 5-78. Se tiene una variable de escala que define el concepto a estudiar, x y una variable categórica dicotómica y que define los 2 grupos, con niveles 1 y 2. Observar que los valores de la variable x no están apareados por casos, como lo será en la siguiente sección. x y 1.23 1 2.45 2 3.26 2 6.45 1 8.23 1 … … 6.78 2 1.56 1 3.21 1 4.13 1 2.56 2 Figura 5-78 Dado que tenemos distribuciones poblacionales separadas e independientes (no existe ninguna relación ni apareamiento entre ellas), sus medias muestrales también lo serán y entonces la covarianza entre ellas es cero. Por lo tanto la expresión general queda: V ( ΔX ) = V ( X 1 ) + V ( X 2 ) Cada término del segundo miembro deberá reemplazarse por la expresión correspondiente ya tratada en el estudio de una variable. Colocando la siguiente ecuación pivote, en la ecuación de probabilidades: z= ΔX − Δμ σ Δx se obtiene, reemplazando y despejando Δμ: Δμ = ΔX ± B 138 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas con B = tα /2σˆ Δx = tα /2 SEΔx . Casos 1 y 2 Se conocen las σ de ambas poblaciones Es el caso menos real pues difícilmente se conozcan las desviaciones estándar de las poblaciones. En este caso, si el tamaño de la muestra es grande o la distribución de la población es normal, la distribución aplicable es la normal. 3 y 4 Ambas σ se desconocen Si el tamaño de la muestra es grande o la distribución de la población es normal, la distribución aplicable es la t de Student. a σ1 ≠ σ2 (heterocedasticidad) Es el caso más razonable. En realidad en este caso el estadístico de prueba se desconoce pero la prueba t sigue siendo robusta aunque aproximada, en tanto: n1 = n2. Si esto no se cumple, se ha encontrado una aceptable aproximación si se reemplaza el valor de los grados de libertad por el que resulta de la siguiente ecuación (especie de valor combinado): ⎡ ⎤ ⎢ ⎥ 2 V ( X1) + V ( X 2 )) ( ⎢ νC = ⎢ − 2⎥ 2 2 ⎥ ⎥ ⎢ (V ( X 1 ) ) + (V ( X 2 ) ) n2 + 1 ⎥⎦ ⎢⎣ n1 + 1 El corchete significa: "parte entera" (equivale a una aproximación hacia abajo). Una alternativa más sencilla y además conservadora (produce un valor crítico mayor, con lo cual es más difícil rechazar), consiste en tomar el grado de libertad menor de n1 − 1 o n2 − 1 . b σ1 = σ2 (homocedasticidad) En este caso (la prueba estadística de homocedasticidad se verá luego al comparar varianzas), la distribución es una t de Student con ν = ν1+ν2, estimando la varianza poblacional por un valor ponderado o combinado sC2 de las varianzas muestrales. sC2 = ∑ (ni − 1)si2 = ∑ (ni − 1) ∑ SS ∑ (n − 1) i i Se aprecia que este promedio ponderado da mayor valor relativo a la muestra mayor. La lógica es que si una muestra es mayor que la otra, contiene mayor información y por lo tanto es razonable que tenga más peso relativo. Si las muestras son iguales, sC es la media de los valores. Este valor deberá reemplazarse en la expresión general de la V ( ΔX ) . Si por ejemplo se tratara de una población infinita, resultará: V (ΔX ) = sC2 sC2 + n1 n2 Sacando factor común y reagrupando, resulta: V (ΔX ) = sC2 nE En donde nE es la n equivalente de n1 y n2, dada por: nE = n1n2 n1 + n2 139 Capítulo 5 Inferencia Paramétrica I Si además: n1 = n2 = n , la n equivalente nE será la mitad de n. nE = n 2 Estudiar luego el problema resuelto siguiente. Análisis por PH La hipótesis a probar más común es la igualdad de las medias, lo cual implica Δμ = 0, llamada prueba de homogeneidad de medias. Los requisitos generales son los mismos del análisis por IC. Bilateral H 0 : Δμ = 0 H A : Δμ ≠ 0 Unilateral H 0 : Δμ ≥ 0 H A : Δμ < 0 o H 0 : Δμ ≤ 0 H A : Δμ > 0 Nota El esquema anterior no cambia si la hipótesis a probar fuera una diferencia constante c distinta de 0. Por ejemplo, para una prueba bilateral, el planteo será: H 0 : Δμ = c H A : Δμ ≠ c En este caso el estadístico de prueba será, naturalmente: z= Δ X − Δμ σ Δx = ΔX − c σ Δx y en el IC deberá analizarse si comprende o no al valor Δμ = c. Dos muestras apareadas Normal o t de Student (exacta o asintótica) Análisis por IC Es un caso particular con muestras apareadas uno a uno, es decir que el mismo caso relaciona a cada par de datos. El formato con el cual se presentan los datos, se muestra en la figura 5-79. Se tienen ahora 2 variables de escala que miden el mismo concepto a estudiar, x1 y x2, apareadas para los mismos casos (cada par de valores x1, x2 corresponden al mismo caso), lo cual, en general, se acompaña de una fuerte correlación, a diferencia de la prueba para poblaciones independientes. 140 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas x1 1.23 2.45 3.26 6.45 8.23 … 6.78 1.56 3.21 4.13 2.56 x2 6.32 3.56 2.45 7.89 8.63 … 5.65 2.35 1.56 3.46 2.45 Figura 5-79 Se observa que se cumple implícitamente: n1 = n2. Cuando las poblaciones tienen un grado de dependencia, su covarianza no es cero, la covarianza entre las medias tampoco es cero y no se puede aplicar el tratamiento anterior. El procedimiento consiste en definir previamente la diferencia D = X 1 − X 2 entre los valores de las variables X y analizar en cuál de los 5 casos nos encontramos. Para la obtención de la media y de la varianza de esta nueva variable, existen 2 procedimientos. Primer procedimiento Implica aplicar las propiedades de la media y la varianza al segundo miembro de la ecuación D = X 1 − X 2 , para expresarla en función de las varianzas de X1 y X2. Se obtiene así (capítulo 1): μ D = E (ΔX ) = E ( D ) = E ( X 1 ) − E ( X 2 ) = μ1 − μ2 σ D2 = σ Δ2x = σ 12 + σ 22 − 2Cov( X 1 , X 2 ) σ D2 = σ 12 + σ 22 − 2 ρσ 1σ 2 Si las varianzas son iguales, queda: σ D2 = σ 2 2(1 − ρ ) Si se realiza una estima por la muestra: sD2 = sC 2 2(1 − rP ) Si en lugar de X, realizamos el análisis para las X , resultan: μD = μ1 − μ2 sD2 = sC 2 2(1 − rP ) n Se observa que este método requiere conocer el coeficiente de correlación. Si este coeficiente fuera cero, la prueba coincide con la prueba de muestras independientes (muestras iguales). Este diseño tiene una ventaja cuando la covarianza es positiva, pues la varianza será menor que la de las medias sin aparear (al restársele el término de la covarianza). Otra forma de verlo es apreciar que al aparear los datos por cada caso, se disminuye la variabilidad dentro de cada caso y por lo tanto la variabilidad total. Como desventaja se observa que si la distribución es una t de Student se pierde 1 grados de libertad, respecto de la prueba sin aparear ( n1 + n2 − 2 versus n1 + n2 − 1 ), lo cual es importante si el tamaño de la muestra es bajo. Estas dos características influyen en la potencia, pero en sentidos contrarios. 141 Capítulo 5 Inferencia Paramétrica I Como regla general para decidir cuál de las dos pruebas utilizar, se puede decir que si la correlación es alta, el diseño apareado conduce en general a una mayor potencia que el de medias sin aparear. Segundo procedimiento Consiste en crear en la base de datos la nueva variable D y tratarla como un caso de una variable, obteniendo su media y su varianza. En cualquier caso y aplicando a la nueva variable D, el análisis de estimación de una variable estudiado en la sección I, se obtendrá la siguiente ecuación: Δμ = D ± B Con B = zα /2σ D . Análisis por PH Son validos los lineamientos generales del análisis por IC. Bilateral H0 : D = 0 HA : D ≠ 0 Unilateral H0 : D ≥ 0 HA : D < 0 o H0 : D ≤ 0 HA : D > 0 Barras de error Estas barras proveen la posibilidad de realizar en forma gráfica, aunque informal, un análisis de comparación de medias exploratorio y preliminar. Como hemos visto en el análisis de la media de una variable, las barras de error muestran con una barra vertical la longitud del IC, ver figura 5-80. Cualquiera de los valores que se encuentren dentro de la altura de dicha barra, indica una media estadísticamente posible (con una probabilidad dada por el coeficiente de confianza c). De aquí que, en principio, si la barra de una variable se traslapa con la de otra variable, puede interpretarse como que sus valores medios no tienen una diferencia estadísticamente significativa. Por contraposición, si los intervalos no se superponen, se puede expresar (aunque con cierto margen de error) que una de las variables tiene una media distinta a la de la otra. Sin embargo, no debe extraerse una conclusión final acerca del traslape y en cualquier caso es necesario realizar una rigurosa prueba estadística. Esto es debido a que las barras de error de los IC individuales se construyen con las desviaciones estándar de cada uno y el traslape implica sumar o restar estos márgenes de error. En cambio, en un IC de la diferencia, se suman las varianzas.. Esto se aprecia observando en la figura que, para que exista superposición, deben ser: LCI 2 < LCS1 LCS 2 > LCI1 Si reemplazamos por las expresiones de cada IC se obtiene luego de agrupar: −( B1 + B2 ) < x2 − x1 < B1 + B2 En cambio, la expresión que resulta del IC de Δμ, para traslape (Δμ = 0), es: Δx − B < 0 < Δx + B 142 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas y por lo tanto: − B < x2 − x1 < B Se observa entonces que el solapamiento de los IC individuales implica la suma de las desviaciones estándar de cada grupo, en tanto que en la prueba correcta de comparación de medias, se suman las varianzas. Por otra parte, si la distribución aplicable es la t de Student, son distintos los grados de libertad de los IC individuales respecto del IC de la diferencia. Figura 5-80 SPSS Comenzar explorando el comportamiento de ambas medias con un diagrama de barras de error (ver más adelante). Si las barras se solapan, se tendrá un indicio de que las muestras pueden provenir de poblaciones con igual media. Veamos el tratamiento de las dos situaciones: 1. Dos muestras independientes Analyze > Compare Means > Independent-Sample T Test > seleccionar las variables de escala cuyos valores van a ser comparados entre los 2 grupos de casos (puede ser más de una variable) > seleccionar la variable que contiene los niveles que definen los dos grupos > clic en Define Groups para indicar cuáles son esos dos niveles. Los 2 subgrupos se forman en base al criterio que se desee: eligiendo 2 niveles cualesquiera de la variable de agrupación (esto puede requerir una recodificación previa) o un punto de corte de una variable de escala. Con Options, seleccionar el coeficiente de confianza. Si la hipótesis a probar fuera una diferencia constante c distinta de 0, se procede igual, debiendo luego analizar si el IC comprende o no al valor Δμ = c. Sin embargo, dado que el SPSS no realiza una PH para este caso, si por ejemplo fuera μ1 − μ2 = c , bastará restar c a cada dato del grupo 1 y 2 sumarlo a cada dato del grupo 2. De esta forma se obtiene: tm = Δx − Δμ σ Δx = x1 − x2 − c − 0 σ Δx expresión que equivale a probar Δμ = c (las desviaciones no cambian). 143 Capítulo 5 Inferencia Paramétrica I 2. Dos muestras apareadas Analyze > Compare Means > Paired-Sample T Test > seleccionar una de las variables a ser probadas y con un clic en la flecha, moverla a la lista de variables apareadas. Repetir para la otra variable. Como puede observarse, se pueden elegir simultáneamente otros pares para correr varias pruebas en simultáneo. Si en algún caso falta un miembro del par, el SPSS no lo considera. Con Options, seleccionar el coeficiente de confianza. 3 GLM Las pruebas t de esta sección y las pruebas de regresión/correlación que veremos en la siguiente sección IV, están relacionadas entre sí, pues no son más que variaciones matemáticas equivalentes. Existe una lógica central que las unifica llamada Modelo Lineal General, GLM (General Lineal Model), el cual utiliza una distribución F. Este camino para resolver el problema en el SPSS, presenta el agregado de devolver el parámetro de descentralidad y la potencia observada para un tamaño del efecto poblacional coincidente con el tamaño del efecto de la muestra. 1 Dos muestras independientes Analyze > General Lineal Model > Univariate. Colocar las variables a estudiar en Dependent Variable y la variable que define los grupos en Fixed Factors > OK. 2 Dos muestras apareadas Analyze > General Lineal Model > Repeated Measures (no se encuentra en la versión estándar del SPSS). Number of levels: 2 > Add > Define. Colocar las 2 variables en Within Subjects Variables > OK. Razón de medias independientes θ = Rμ Si el tamaño de la muestra es grande, como ocurre con el Meta-análisis, página 271, puede utilizarse, para poblaciones independientes, el cociente de las medias como medida de comparación. R= x1 x2 Transformación ln Como es una razón y la distribución no es normal, se normaliza (aproximadamente) con la transformación del logaritmo natural. ⎛x ⎞ ln R = ln ⎜ 1 ⎟ ⎝ x2 ⎠ s2 s2 Vln R = 1 2 + 2 2 n1 x1 n2 x2 Distribución aproximada: normal. Tamaño del efecto y ecuación de diseño En los 3 problemas de dos variables, se presentan 2 particularidades respecto de los de una variable. 1. Puede existir un problema de notación en la designación de las poblaciones (1 y 2) y de las hipótesis (0 y 1). Seguiremos indicando con los subíndices de las medias, 1 y 2, a las dos poblaciones a estudiar, pero agregamos ahora una notación para identificar a las hipótesis nula y alternativa. Como utilizaremos Δμ para la diferencia de medias y Δp para la diferencia de proporciones, 144 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas convendremos que el subíndice de Δ designe, para cualquiera de estas pruebas, a las hipótesis, es decir Δ0 para H0 y Δ1 para H1. Observar que de esta forma, las medias de la distribución muestral de diferencias serán entonces Δ0 para H0 y Δ1 para H1. Si bien en el capítulo 1 hemos ya utilizado a Δ para identificar a las desviaciones, en general no existe posibilidad de confusión. 2. Los tamaños del efecto de 2 poblaciones, se definen para una H0 que contiene un valor definido (0 para las diferencias de medias y 1 para el cociente de varianzas), por lo cual estos tamaños del efecto, solo requieren el valor (o los valores) de la H1. Por lo tanto, cuando se utiliza un programa específico de potencia como GPower, los valores a entrar son directamente los correspondientes a la H1. Se presentan, como ya sabemos, 2 situaciones: Dos muestras independientes Caso σ1 = σ2 = σ d= Δ1 σ Recordar que en las expresiones del tamaño del efecto, los valores se refieren a la hipótesis alternativa H1 Δ1 = μ1 − μ2 Por otra parte la expresión general de la varianza muestral, queda: ⎛1 1 ⎞ + ⎟ ⎝ n1 n2 ⎠ σ Δ2x = σ x2 + σ x2 = σ 2 ⎜ 1 2 Para que las expresiones de la ecuación de diseño sean similares con el caso σ1 ≠ σ2, es conveniente definir un n equivalente, nE: 1 1 1 = + nE n1 n2 De esta forma: σ Δ2x = σ2 nE Si el valor común de la varianza poblacional se desconoce, podemos aproximarla por la varianza combinada de las muestras sC2 (página 139) Por lo tanto: d= Δ1 sC σ Δ2x == sC2 nE Caso σ1 ≠ σ2 Si las varianzas son distintas se requiere que los tamaños muestrales sean iguales: n1 = n2 = n. El no cumplimiento de esta limitación produce con frecuencia errores importantes. En este caso, la expresión general de la varianza muestral, queda: σ Δ2x = σ x2 + σ x2 = 1 2 1 2 (σ 1 + σ 22 ) n Utilizando la expresión del n equivalente nE: 145 Capítulo 5 Inferencia Paramétrica I nE = n1n2 n = n1 + n2 2 resulta: σ Δ2x = 1 ⎛ σ 12 + σ 22 ⎞ ⎜ ⎟ 2 nE ⎝ ⎠ La expresión entre paréntesis es similar a la de la varianza combinada, pero en este caso con las poblacionales. De todas formas, cuando no se conocen, se reemplazarán las varianzas poblacionales por las muestrales (Cohen, J. 1988, pag 44 y GPower). Finalmente resulta: σ Δ2x = σC2 nE Se observa que, de esta forma, la definición del tamaño del efecto es la misma, cualquiera sea el caso (varianzas distintas o varianzas iguales)6. Los valores de tamaño convencionales, según Cohen son los mismos que para una media: • Chico, d = 0.20 • Mediano, d = 0.50 • Grande, d = 0.80 Para obtener la ecuación de diseño, procedemos de manera análoga al desarrollo de una muestra (recordemos que por simplicidad se utiliza Δ para la diferencia de las medias poblacionales con subíndices indicando la hipótesis nula o la alternativa). xc = Δ 0 + zα σ Δx xc = Δ1 + zβ σ Δx Resolviendo el sistema: zβ = zα − Δ1 − Δ 0 σ Δx zβ σ Δx = zασ Δx − ( Δ1 − Δ 0 ) En estas expresiones, Δ0 (diferencia de medias de la H0) puede tomar cualquier valor, pero recordar que el tamaño del efecto se define solo para Δ0 = 0. Dos muestras apareadas El tamaño del efecto dz7, respecto de μ D = 0 , se define como: dz = μD σD Los valores de μD y σD fueron ya definidos. La ecuación de diseño es la misma que la de una muestra. 6 Observar que si se multiplica y divide por 2, es posible también la ecuación alternativa (ver pagina 40): σ Δ2x = 7 sΔ 2 n Cohen (Cohen, J. 1988, página 48), llama z a D. Jorge Carlos Carrá 146 III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas Potencia y tamaño de la muestra En la sección I Diseño, se establecieron, sin demostración, expresiones de cálculo para la potencia y el tamaño de una muestra de una prueba de diferencia de medias. Ahora podemos obtener esas relaciones. Dos muestras independientes Potencia, P De la ecuación de diseño solo resta calcular zβ y hallar la CDF y/o 1–CDF. Tamaño de la muestra, n σ 12 = σ 22 Para poder despejar un solo valor de n, debe darse una relación entre n1 y n2: n1 = k n2 Con k ≥ 1 . El valor de k se llama radio de asignación (allocation ratio). El caso más simple es considerar k = 1, el cual además minimiza el tamaño muestral. k>1 En este caso n1 ≠ n2. Reemplazando n1 = k n2 en nE , resulta: ⎛ z − zβ ⎞ kn2 2 nE = =⎜ α ⎟ (k + 1)n2 ⎝ d ⎠ 2 resolviendo para n2, y luego para n1, resultan: k + 1 ⎛ zα − zβ ⎞ n2 = ⎜ ⎟ k ⎝ d ⎠ 2 ⎛ z − zβ ⎞ n1 = (k + 1) ⎜ α ⎟ ⎝ d ⎠ 2 2 ⎡ ( zα − zβ ) sC ⎤ Idénticas relaciones se obtienen reemplazando la expresión al cuadrado por: ⎢ ⎥ . ⎣ Δ1 − Δ0 ⎦ k=1 El caso n1 = n2 es un caso particular del anterior: nE = n ⎛ zα − zβ ⎞ =⎜ ⎟ 2 ⎝ d ⎠ 2 σ 12 ≠ σ 22 En este caso se debe proceder en forma inversa: Partir de 2 valores tentativos de n1 y n2 y con ellos calcular un valor n ponderado con la ecuación siguiente. Luego, con este valor de n y el valor del tamaño del efecto requerido, calcular la potencia. Si no es la deseada, iterar el proceso. n= σ12 + σ 22 σ12 / n1 + σ 22 / n2 147 Capítulo 5 Inferencia Paramétrica I Dos muestras apareadas Son idénticas al caso de una sola muestra. Problema resuelto 5.15 Toma de apuntes en clase Un investigador desea probar que la toma de apuntes en clase produce mayor retención que el que no lo hace. Para ello toma una muestra de 5 alumnos de cada grupo, A: toma apuntes, B: no toma apuntes y compara sus notas finales. Estos datos se muestran en la tabla de la figura 5-81. Se asume una distribución poblacional normal. IC Obtener el IC de la diferencia entre las medias de ambos grupos, para un nivel de significación del 95%. PH Probar la aseveración de que existe influencia en la toma de apuntes con α = 5%. Interrelacionar gráficamente el IC con la PH. SPSS Resolver con el SPSS. Verificación: potencia retrospectiva Analizar la potencia versus el tamaño del efecto de la prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Puntaje A Puntaje B 10 8 9 6 6 6 6 2 5 6 Figura 5-81 Paso 1 Problema Comparar grupos: θ = Δμ . Paso 2 Modelo Distribuciones normal y t de Student. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: n1 = 5, n2 = 5. Paso 4 Análisis IC Modelado Distribución muestral de θˆ = Δx Los valores de las medias y desviaciones estándar son: x1 = 7.2 x2 = 5.6 148 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas s1 = 2.17 s2 = 2.19 Inferencia Como n < 30 pero la distribución poblacional se asume normal, corresponde una t de Student. Asumiendo por el momento que las desviaciones estándar poblacionales son iguales (se probará más adelante, en la sección de comparación de desviaciones estándar, página 199), debemos calcular la desviación estándar combinada. 4S12 + 4 S22 = 4.752 8 sC = 2.18 sC2 = Por lo tanto: 2 = 1.378 n Δμ = Δx ± B B = tα /2σ Δx = 2.306(1.378) = 3.178 ⇒ Δμ = (7.2 − 5.6) ± 3.178 = 1.6 ± 3.18 ⇒ IC (Δμ ) = −1.58 a 4.78 σ Δx = sC Decisión Las diferencias entre los valores contenidos dentro del IC, no son significativas al nivel c = 95%. Como 0 pertenece al IC, existe un 95% de probabilidad o confianza de que el IC contenga a θ = 0. PH H 0 : μ1 = μ2 H A : μ1 ≠ μ 2 Aseveración Modelado Distribución muestral de Ídem IC. θˆ = ΔX Inferencia Se busca probar la hipótesis Δμ = 0 1 Comparando el eje Δx Δxm = 1.6 tc = t0.025 (8) = 2.306 B = tα /2σ Δx = 2.306(1.378) = 3.178 Δxc = Δμ ± B = 0 ± 3.178 = ±3.178 ⇒ | Δxm − Δμ |< B ⇒ Δxm < Δxc ⇒ No se rechaza H 0 2 Comparando el eje t 2 Comparando las áreas tc = t0.025 (8) = 2.306 Δx − Δμ 1.6 − 0 tm = = = 1.16 σ Δx 1.378 ⇒ | tm |<| tc |⇒ No se rechaza H 0 α = 0.05 149 Capítulo 5 Inferencia Paramétrica I CDF .T (1.16,8) = 0.86 ⇒ colasup = 1 − 0.86 = 0.14 ⇒ p = 2 P(t > tm ) = 2 ∗ 0.14 = 0.28 ⇒ p > α ⇒ No se rechaza H 0 Decisión La diferencia entre el valor muestral obtenido (Δμ = 1.6) y el valor de la hipótesis (Δμ = 0), no es significativa al nivel α = 5% (t(8) = 1.16, p = 0.28). Por lo tanto no existe evidencia suficiente para sustentar que las medias poblacionales de los grupos A: toma apuntes y B: no toma apuntes, sean distintas, a este nivel de significación. Este resultado coincide con el análisis de IC, pues al contener el valor 0 indica que este valor es posible al nivel α = 5%. Interrelación gráfica del IC con la PH Figura 5-82 Como la PH no rechazó la H0: Δμ = 0, entonces el IC obtenido debe comprender a este valor (lo cual sucederá 95% de las veces). SPSS Procedimiento en la página 143 Se deben colocar los datos de ambos grupos en una sola columna (PR5_7 en la tabla siguiente) y las variables de segregación por grupos, en otra (PR5_7gr en la tabla siguiente). Los resultados de la prueba de Independent-Sample T Test, son: Figura 5-83 Figura 5-84 Nota Para obtener la varianza combinada con el SPSS ir a: Analyze > Compare Means > One-way ANOVA > colocar la variable de datos en Dependent List y la variable de de segregación por grupos en Factor. La varianza combinada aparece en la celda Within Groups-Mean Square (figura 5-85). 150 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas Figura 5-85 El margen de error estandarizado puede obtenerse además con: GPower t test Means: Difference from constant (one sample case) Sensitivity, 2 colas, α = 0.05, Power: 0.5 y n1 =5, n2 =5. Se obtiene un tamaño del efecto de 1.41, comparable con 3.18/2.18 = 1.45. Paso 5 Verificación: potencia retrospectiva El resultado es no significativo por lo cual calculamos P para un d alto (0.80). Observemos además que: dm = tm 1.16 = = 0.733 nE 2.5 dc = tα 2.31 = = 1.46 nE 2.5 Estos valores nos indican que el resultado no es significativo (dm < dc) y que los tamaños del efecto poblacionales grandes (0.80), tendrán una potencia inferior a 50% (correspondiente a dC). 1 SPSS Para determinar cuáles son los valores de t que producen colas de α/2 en ambos extremos, usamos la función Inverse DF (solo para distribuciones contínuas). IDF .T (0.025,8) = −2.31 ti = −2.31 IDF .T (0.975,8) = 2.31 ts = 2.31 Solución centralizada Asignemos ahora un tamaño del efecto d = 0.80 y calculemos la potencia. tβ = tα − nc nc = nE d n∗n n = = 2.5 n+n 2 nc = 2.5 *0.8 = 1.265 tβ s = 2.31 − 1.265 = 1.045 nE = 151 Capítulo 5 Inferencia Paramétrica I tβi = −2,31 − 1, 265 = −3.57 1 − CDF .T (1.045,8) = 0.164 CDF .T (−3.57,8) = 0.036 En definitiva (ver la figura siguiente), la potencia será: P = 0.164 + 0.036 = 0.2 Solución descentralizada Por lo tanto: NCDF .T (−2.31,8,1.265) = 0 1 − NCDF .T (2.31,8,1.265) = 0 P = 0.001 + 0.198 = 0.199 Entrega una P = 0.20. El resultado es demoledor. La baja potencia o sensibilidad de la prueba para un tamaño del efecto grande, indica que existe el riesgo de un efecto no detectado que sea lo suficientemente grande para ser útil, por lo cual el estudio es no concluyente. Riesgo de n bajo: algo grande está sucediendo y se obtiene un resultado no significativo. Rediseño Se debe rediseñar el estudio inferencial partiendo de la potencia P => n. Para calcular los valores de t encontramos el problema ya mencionado en la prueba de una media. Los grados de libertad no se conocen dado que dependen de n. Por esta razón se debe utilizar un proceso por aproximaciones sucesivas. Comenzamos con el grado de libertad previo (ν = 8) para calcular un valor de n tentativo. tα = IDF .T (0.975,8) = 2.31 tβ = IDF .T (0.20,8) = −0.89 2 2 ⎛ t −t ⎞ ⎛ 2.31 + 0.89 ⎞ n = 2⎜ α β ⎟ = 2⎜ ⎟ = 32 0.80 ⎝ d ⎠ ⎝ ⎠ Con este valor de n (el cual => ν = 31+31 = 62), repetimos el cálculo: tα = IDF .T (0.975, 62) = 2 tβ = IDF .T (0.20, 62) = −0.85 2 2 ⎛ t −t ⎞ ⎛ 2 + 0.85 ⎞ n = 2⎜ α β ⎟ = 2⎜ ⎟ = 26 ⎝ d ⎠ ⎝ 0.80 ⎠ Con este valor de n (el cual => ν = 25+25 = 50), repetimos el cálculo: tα = IDF .T (0.975,50) = 2.01 tβ = IDF .T (0.20,50) = −0.85 2 2 ⎛ tα − tβ ⎞ ⎛ 2.01 + 0.85 ⎞ n = 2⎜ ⎟ = 2⎜ ⎟ = 26 0.80 ⎠ ⎝ d ⎠ ⎝ Como se ha obtenido una buena convergencia entre el valor de n y el grado de libertad utilizado en el cálculo, finalizamos el proceso. La conclusión es que debería repetirse el análisis con un tamaño muestral de por lo menos 26 alumnos por grupo. Potencia observada Utilizar el GLM. Options > Descriptive statistics, Estimates of effect size, Observed power. 152 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas Figura 5-86 Se puede observar que los valores entregados son equivalentes a los ya obtenidos. En particular, los valores que se leen en las 2 últimas columnas corresponden a nc y potencia observada: 7.5 − 5.6 = 0.734 4.75 nc = nd = 2.5(0.734) = 1.16 P(obs) = 0.177 d= Controlar este valor de la potencia observada con GPower. 2 GPower Entrega la solución descentralizada. t test Means Difference between two independents groups (two groups) Post hoc, 2 colas, α = 0.05, d = 0.8 y n1 = 5, n2 = 5. Rediseño A priori, Para una potencia de 0.80, entrega un tamaño de muestral de 26 en cada grupo. Gráficas En la figura 5-87 y en la figura 5-88 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto. Figura 5-87 153 Capítulo 5 Inferencia Paramétrica I Figura 5-88 Problema resuelto 5.16 Toma de apuntes en clase Resolver el problema resuelto anterior, si los datos se encuentran apareados por una variable de igualación dada por el coeficiente de inteligencia de cada alumno, CI. Los datos son ahora los indicados en la figura 5-89. CI Puntaje A Puntaje B D=A-B 110 10 8 2 100 9 6 3 98 6 6 0 103 6 2 4 101 5 6 -1 Figura 5-89 IC Obtener el IC de la diferencia entre las medias de ambos grupos, para un nivel de significación del 95%. PH Probar la aseveración de que existe influencia en la toma de apuntes con α = 5%. Interrelacionar gráficamente el IC con la PH. SPSS Resolver con el SPSS. Verificación: potencia retrospectiva Analizar la potencia versus el tamaño del efecto de la prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Paso 1 Problema Comparar grupos: θ = Δμ . Paso 2 Modelo Distribuciones normal y t de Student. Se incluyen luego dentro de IC y PH. 154 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas Paso 3 Diseño Tamaño de la muestra: 5 Paso 4 Análisis IC Modelado Distribución muestral de θˆ = ΔX Calculamos previamente la diferencia entre los valores de las variables, como se muestra en la figura 5-89 (corroborar además que se obtiene el mismo valor con la expresión de cálculo a partir de las variables A y B originales): D = X1 − X 2 D = 1.6 s = 2.073 s2 = 0.927 sˆD = Vˆ ( D) = n Aplicamos a esta nueva variable el análisis de estimación de una variable, por medio de la siguiente ecuación: Δμ = D ± tα /2σˆ D Inferencia IDF .T (0.975, 4) = 2.78 B = 2.78(0.927) = 2.578 ⇒ Δμ = 1.6 ± 2.578 ⇒ IC (Δμ ) = −0.974 a 4.174 Decisión El valor Δμ = 0 es posible pues 0 pertenece al IC. Existe un 95% de probabilidad o confianza de que el IC contenga a θ = 0. PH H 0 : Δμ = 0 H A : Δμ ≠ 0 Aseveración Modelado Distribución muestral de Ídem IC. θˆ = Δx Inferencia 1 Comparando el eje t D − Δμ 1.6 − 0 = 1.725 σD 0.927 tc = t0.025 (4) = 2.78 ⇒ | tm |<| tc |⇒ No se rechaza H 0 tm = Comparando el eje = Δx 155 Capítulo 5 Inferencia Paramétrica I Dm = 1.60 B = tα /2σˆ D = 2.78(0.927) = 2.58 Dc = Δμ + B = 0 + 2.58 = 2.58 ⇒ Dm < Dc ⇒ No se Rechaza H0 2 Comparando las áreas α = 0.05 CDF .T (1.725, 4) = 0.92 ⇒ colasup = 1 − 0.92 = 0.08 ⇒ p = 2 P(t > tm ) = 2 ∗ 0.08 = 0.16 ⇒ p > α ⇒ No se rechaza H 0 Decisión La diferencia entre el valor muestral obtenido (1.6) y el valor de la hipótesis (0), no es significativa al nivel α = 5%. (t(4) = 1.725, p = 0.16). Por lo tanto no existe evidencia suficiente para sustentar que las medias poblacionales de los grupos A: toma apuntes y B: no toma apuntes, sean distintas, a este nivel de significación. Interrelación gráfica del IC con la PH Figura 5-90 Como la PH no rechazó la H0: Δμ = 0, entonces el IC obtenido debe comprender a este valor (lo cual sucederá 95% de las veces). SPSS Procedimiento en la página 143. Se debe n colocar los datos de ambos grupos en dos columnas (PR5_7A y PR5-7B en la tabla siguiente). Los resultados de la prueba de Paired-Sample T Test, son Figura 5-91 Figura 5-92 Paso 5 Verificación: potencia retrospectiva El resultado es no significativo por lo cual calculamos P para un dZ alto (0.80). 156 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas Observemos además que: tm 1.725 = = 0.77 n 5 t 2.78 dc = α = = 1.24 n 5 dm = Estos valores nos indican que el resultado no es significativo (dm < dc) y que los tamaños del efecto poblacionales grandes (0.80), tendrán una potencia inferior a 50% (correspondiente a dC). 1 SPSS Para determinar cuáles son los valores de t que producen colas de α/2 en ambos extremos, usamos la función Inverse DF. IDF .T (0.025, 4) = −2.78 tα i = −2.78 IDF .T (0.975, 4) = 2.78 tα s = 2.78 Solución centralizada Asignemos ahora un tamaño del efecto dZ = 0.80 y calculemos la potencia. tβ = tα − nc nc = nd = 5(0.8) = 1.78 Por lo tanto: tβ s = 2.78 − 1.78 = 1 tβi = −2.78 − 1.78 = −4.56 1 − CDF .T (1, 4) = 0.186 CDF .T (−4.56, 4) = 0.005 En definitiva (ver la figura siguiente de GPower), la potencia será: P = 0.186 + 0.005 = 0.191 Solución descentralizada La implementación con el SPSS de esta solución, es la siguiente: NCDF .T (−2.78, 4,1.78) = 0.0003 1 − NCDF .T (2.78, 4,178) = 0.28 Por lo tanto: P = 0 + 0.28 = 0.28 La diferencia entre ambas soluciones se reduce a medida que aumenta n. Por ejemplo para n = 11, la potencia con la solución no centralizada es 0.660, en tanto que con la no centralizada es: 0.667. Se advierte con esta solución un hecho ya comentado en la página 141. Si comparamos la potencia de la solución con apareamiento (0.28), con la solución sin apareamiento (grupos independientes), obtenida en el problema resuelto anterior (0.20), se observa que el apareamiento y la correlación entre los grupos, aumenta la potencia, en tanto este efecto no se vea neutralizado con la pérdida de grados de libertad. El estudio prácticamente no tiene potencia para detectar tamaños del efecto altos. Existe el riesgo de un efecto no detectado que sea lo suficientemente grande para ser útil, por lo cual el estudio es no concluyente. Rediseño Se debe rediseñar el estudio inferencial partiendo de la potencia P => n: 157 Capítulo 5 Inferencia Paramétrica I d = 0.80 tα = 2.78 tβ = IDF .T (0.20, 4) = −0.94 Se obtiene: 2 2 ⎛ t − t ⎞ ⎛ 2.78 + 0.94 ⎞ n=⎜ α β ⎟ =⎜ ⎟ = 22 0.80 ⎝ d ⎠ ⎝ ⎠ Con este valor de n (el cual => ν = 21), repetimos el cálculo: tα = IDF .T (0.975, 21) = 2.08 tβ = IDF .T (0.20, 21) = −0.86 2 2 ⎛ t − t ⎞ ⎛ 2.08 + 0.86 ⎞ n=⎜ α β ⎟ =⎜ ⎟ = 14 0.80 ⎝ d ⎠ ⎝ ⎠ Con este valor de n (el cual => ν = 13), repetimos el cálculo: tα = IDF .T (0.975,13) = 2.16 tβ = IDF .T (0.20,13) = −0.87 2 2 ⎛ t − t ⎞ ⎛ 2.16 + 0.87 ⎞ n=⎜ α β ⎟ =⎜ ⎟ = 15 0.80 ⎝ d ⎠ ⎝ ⎠ Dada la casi convergencia entre el valor de n y el grado de libertad utilizado en el cálculo, finalizamos el proceso. La conclusión es que debería repetirse el análisis con un tamaño muestral de por lo menos 15 registros de la cooperadora. Potencia observada Utilizar el GLM. Options > Descriptive statistics, Estimates of effect size, Observed power. Tests of Within-Subjects Contrasts Measure: MEASURE_1 Source factor1 Error(factor1) factor1 Linear Linear Type III Sum of Squares 6.400 8.600 df 1 4 Mean Square 6.400 2.150 F 2.977 Sig. .160 Partial Eta Squared .427 Noncent. Parameter 2.977 Observed a Power .265 a. Computed using alpha = .05 Figura 5-93 En los casos en los que hay solo 2 grupos, el valor de F es el cuadrado del valor de t (la significación es la misma). En particular, los valores que se leen en las 2 últimas columnas corresponden a: 1.6 − 0 = 0.772 2.073 nc = nd = 5(0.772) = 1.726 d= El valor del parámetro de descentralidad de la distribución F (2.977) es el cuadrado del que corresponde a la distribución t (1.726). P(obs) = 0.265 2 GPower Entrega la solución precisa. t test Means 158 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas Difference between two dependents means (matched pairs) Post hoc 2 colas, α = 0.05, d Z= 0.8 y n = 5. Observar que GPower ofrece con el botón Determine, una prestación para calcular el tamaño del efecto de 2 formas: directamente de las variables x e y, o a través de la variable D. Entrega una P = 0.28. Rediseño A priori, Para una potencia de 0.80, entrega un tamaño de muestral de 15. Gráficas En la figura 5-94 y en la figura 5-95 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto. Figura 5-94 Figura 5-95 Caso particular θ = Δτ θˆ = Δτˆ 159 Capítulo 5 Inferencia Paramétrica I Recordemos del caso de una variable que para estudiar los totales poblacionales, solo basta multiplicar las variables en estudio por N y repetir los pasos anteriores para estas nuevas variables. Sin embargo, a diferencia del caso de una variable, los resultados de la inferencia de Δμ, son distintos a los de Δτ, a menos que: N1 = N2. Solo en este caso particular, los resultados de los IC surgen de los de Δμ multiplicándolos por N. Los valores z (o t) de las PH, son los mismos, pues las N finalmente se cancelan. Problema resuelto 5.17 Construcción de centro comercial Una gran tienda multinacional está considerando dos lugares alternativos para construir su centro comercial. Una consideración importante es conocer si existe una diferencia importante entre los ingresos totales de las familias de estas dos comunidades. Los datos del último relevamiento se muestran en la figura 5-96. x s n N A 2500 125 30 4000 B 1980 99 40 5200 Figura 5-96 IC Obtener el IC de la diferencia entre las totales poblacionales de ambos grupos, para un nivel de significación del 95%. PH Probar la aseveración de que existe diferencia en los totales con α = 5%. SPSS Resolver con el SPSS. Verificación: potencia retrospectiva Analizar la potencia versus el tamaño del efecto de la prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Paso 1 Problema Comparar grupos: θ = Δτ . Paso 2 Modelo Distribuciones normal. y t de Student . Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: n1 = 30, n2 = 40. Paso 4 Análisis IC Modelado Distribución muestral de θˆ = Δτˆ Como no se dan los valores crudos que originan los estadísticos de la tabla, solo puede realizarse un análisis suponiendo que las muestras son independientes. Como además, ambos tamaños muestrales son mayores que 30, se verifica el TCL. τˆ1 = N1 x1 = 4000(2500) = 10000000 160 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas τˆ2 = N 2 x2 = 5200(1980) = 10296000 στ2ˆ = N12 1 σ τ2ˆ = N 22 1 s12 = 8.33 ∗109 n1 s22 = 6.625 ∗109 n2 Inferencia σ Δτˆ = σ τ2ˆ 1 n1 + σ τ2ˆ 2 n2 = 14.955 ∗109 = 122290 Δτ = Δτˆ ± zα /2σ Δτˆ B = 1.99(122290) = 243357 Δτ = −296000 ± 243357 IC (Δτ ) = −539357 a − 52643 Nota En lugar del valor z = 1.96 para una cola del 2.5%, se tomó el valor de t =1.99 con 68 grados de libertad, para comparar luego con la solución del SPSS. Decisión El valor 0 no está comprendido en el IC, por lo cual la diferencia entre ambos totales es significativa al nivel c = 95%. PH H 0 : Δτ = 0 H A : Δτ ≠ 0 Aseveración Modelado Distribución muestral de Ídem IC. θˆ = Δτˆ Inferencia 1 Comparando el eje z 2 Comparando las áreas zc = z.025 = 1.96 Δτˆ − Δτ 296000 − 0 = = 2.42 zm = σ Δτˆ 122290 | zm |>| zc |⇒ Se rechaza H 0 α = 0.05 p = 2(1 − CDF .T (2.42,68)) = 0.018 p < α ⇒ Se rechaza H 0 Decisión La diferencia entre el valor muestral obtenido (296000) y el valor de la hipótesis (0), es significativa al nivel α = 5% (z = 2.42, p = 0.018). Por lo tanto existe evidencia suficiente para sustentar que los ingresos totales de las familias de las dos comunidades son distintos. La empresa debería elegir la comunidad B. 161 Capítulo 5 Inferencia Paramétrica I SPSS Procedimiento en la página 143. La variable se generó en forma artificial con la técnica explicada en la página 88 de la sección dedicada al problema de la media poblacional (una variable) y se encuentra en el archivo PR5_16.sav de la base de datos. Independent Samples Test t-test for Equality of Means 95% Confidence Interval of the Difference Std. Error t df Sig. (2-tailed) Mean Difference Difference Lower Upper -2.410 68 .019 -2.96000E5 1.22824E5 -5.41092E5 -50907.79886 -2.420 63.566 .018 -2.96000E5 1.22306E5 -5.40367E5 -51633.16140 Figura 5-97 Paso 5 Verificación: potencia retrospectiva El resultado es significativo por lo cual calculamos P para un d bajo (0.20). Observemos además que: dm = tm 2.42 = = 0.58 nE 17.14 dc = tα 1.96 = = 0.47 nE 17.14 Estos valores nos indican que el resultado es significativo (dm > dc) y que los tamaños del efecto poblacionales chicos (0.20), tendrán una potencia inferior al 50% (correspondiente a dC). 1 SPSS Cálculo de los valores de t que producen colas de α/2 en ambos extremos. t I = IDF .T (0.025,68) = −1.99 t S = IDF .T (0.975,68) = 1.99 Solución centralizada Asignemos ahora un tamaño del efecto de 0.20 y calculemos la potencia. tβ = tα − nc nc = nE d nE = n1 ∗ n2 = 17.14 n1 + n2 nc = 17.14(0.2) = 0.828 tβ s = 1.99 − 0.828 = 1.162 tβi = −1.99 − 0.828 = −2.818 1 − CDF .T (1.162,68) = 0.003 CDF .T (−2.818,68) = 0.125 162 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema a: comparación de medias de variables cuantitativas contínuas En definitiva (ver la figura siguiente), la potencia será: P = 0.125 + 0.003 = 0.128 Solución descentralizada NCDF .T (−1.99,68,0.828) = 0.02 1 − NCDF .T (1.99,68,0.828) = 0.127 Por lo tanto: P = 0.002 + 0.127 = 0.129 La baja potencia o sensibilidad de la prueba para un tamaño del efecto chico, indica que los efectos significativos detectados son superiores a este valor bajo. Es probable entonces que si este efecto chico existiera en la población, probablemente no sería detectado en el estudio, por lo cual el estudio es concluyente. 2 GPower Entrega la solución precisa. t test Means Difference between two independents groups (two groups) Post hoc, 2 colas, α = 0.05, d = 0.2 y n1 = 30, n2 = 40. Entrega una P = 0.127. Gráficas En la figura 5-98 y en la figura 5-99 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto. Figura 5-98 163 Capítulo 5 Inferencia Paramétrica I Figura 5-99 Problema b: comparación de proporciones de variables cuantitativas discretas Diferencia de proporciones θ = Δp Modelado Dos muestras independientes Hemos visto en este capítulo que el problema θˆ = p̂ , se puede resolver con una distribución binomial, una t de Student o una Chi-cuadrado. Sin embargo, en el presente problema, la distribución binomial no es adecuada pues si bien se tienen dos distribuciones binomiales e independientes, la distribución de θˆ = Δp̂ no es binomial. El formato con el cual se presentan los datos, se muestra en la figura 5-100, tabla de la izquierda. Se tienen 2 variables cuantitativas discretas, en principio dicotómicas. Una que define el concepto a estudiar, x, con niveles que llamaremos E y F y la otra que llamaremos y, que define los 2 grupos, con niveles 1 y 2. 164 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas x y E 1 F 2 E 2 E 1 F 1 … … F 2 E 1 E 1 F 1 F 2 x y E 1 E 1 … … F 1 F 1 … … E 2 E 2 … … F 2 F 2 Figura 5-100 Visto como un diseño de tabla de contingencias (capítulo 3, página DiseñosTC3), se obtiene la tabla de la figura 5-101. El problema a estudiar es la comparación de las proporciones condicionales pE|1 y pE|2 pertenecientes a distribuciones binomiales separadas e independientes con totales marginales de Y fijos (lo cual equivale también a comparar pF|1 con pF|2). Esta selección se muestra en la tabla de la derecha de la figura anterior, ordenando la tabla de la izquierda, primero por x y luego por y. Un ejemplo podría ser comparar las proporciones de Varones (E) con estudios primarios (1) y la de Varones (E) con ausencia de estudios primarios (2). x T E F 1 2 y T Figura 5-101 La prueba de hipótesis: H 0 : pE|1 = pE|2 se llama homogeneidad de proporciones (capítulo 1, página homogeneidad1) entre las dos distribuciones binomiales y1 e y2, separadas e independientes. Se hace notar que suele simplificarse la notación, llamando: p1 = pE|1 p2 = pE|2 Utilizaremos cualquiera de ellas a menos que exista confusión con la simbología de las probabilidades marginales de fila: p1 y p2. Observar además que la diferencia de proporciones se corresponde con la medida Diferencia de Riesgos (RD) presentada en el capítulo 1, página Razones1. Si bien p1 y p2 son las medidas primarias en un muestreo, al realizar cálculos de diseño y por lo tanto de tamaño del efecto, suelen ser más útiles las medidas: RD (diferencia), RR (cociente) u OR (cociente de posibilidades). Cualquiera de estos 3 valores puede reemplazar a una de las proporciones, pues la proporción restante podrá siempre calcularse con la medida suministrada (compruebe el lector esta aseveración). Supuestos 1. Independencia Las distribuciones poblacionales y1, y2 no deben estar relacionadas ni apareadas. El formato de 165 Capítulo 5 Inferencia Paramétrica I la figura 5-100, con las muestras de las poblaciones 1 y 2 en una sola columna, es el adecuado pues no existe apareamiento. No podrían aplicarse las técnicas de esta sección si las poblaciones 1 y 2 estuvieran en 2 columnas distintas (con niveles de E y F en cada una), pues este formato implica un apareamiento por casos, dado que cada caso tiene resultados en la población 1 y en la 2. Este caso se estudiará luego. 1 Normal (asintótica) Para cada muestra se deben cumplir las condiciones de aproximación de una binomial a una normal. E ( pˆ1 ± pˆ 2 ) = p1 ± p2 V ( pˆ1 ± pˆ 2 ) = V ( pˆ1 ) + V ( pˆ 2 ) Si bien en los problemas que se resuelvan con la normal, no es necesaria la confección de una tabla de contingencias, se recomienda hacerla para interpretar más integralmente los datos. Además prepara el terreno para la resolución con la distribución chi–cuadrado. A modo de ejemplo, construir la tabla de contingencias adecuada a un problema con la consigna: "Una muestra de 100 hogares de una comunidad 1, indica que 70 se encuentran mirando un determinado programa de TV. En la comunidad 2, 50 de 120 hogares, estaba mirando el programa". Si llamamos M al evento "Mirar el programa", resulta la siguiente tabla de contingencias preliminar: x T M M' 100 1 70 y 120 2 50 T Figura 5-102 Análisis por IC En el caso de una estimación por IC en la que no se conoce el valor poblacional, se suele adoptar el criterio de que cada n debe ser mayor que 100, aunque es admisible aceptar un valor de n menor si las proporciones pE|1 y pE|2 son cercanas a 0.5 (página 54). La siguiente es la ecuación pivote. z= Δpˆ − Δp σ Δpˆ Si las poblaciones son independientes: σ Δpˆ = p1q1 p2 q2 + n1 n2 Despejando Δp, se obtiene la ecuación de IC: Δp = Δpˆ ± B B = zα /2σˆ Δpˆ Al igual que el análisis de θˆ = p̂ se presenta un hecho particular que consiste en que el error estándar depende del valor de la proporción muestral que se desea estimar. Esta situación exige pensar cuál es el valor más adecuado para su cálculo: o bien se adoptan las proporciones muestrales p̂ o bien se puede adoptar el valor más desfavorable: p = 0.5 (para el cual resulta el valor máximo del producto pq). 166 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas Análisis por PH Si se está probando la hipótesis de homogeneidad de proporciones, en consonancia con esta homogeneidad, se demuestra que el valor a utilizar para las proporciones de éxitos E, debe ser un valor combinado o ponderado. En el caso de las proporciones se debe ponderar con los tamaños muestrales en lugar de hacerlo con los grados de libertad que se utilizan en la varianza combinada del problema de diferencia de medias (página 139): pC = n1 pˆ1 + n2 pˆ 2 n1 + n2 qC = n1qˆ1 + n2 qˆ2 n1 + n2 Sin embargo esta prueba no se encuentra disponible en el SPSS. Si bien, al igual que una prueba θˆ = p̂ (página 104), puede correrse una prueba de comparación de medias, recodificando previamente a la variable x con 1 en el nivel deseado (por ejemplo E) y 0 en el restante, esta prueba no utiliza el valor ponderado, por lo cual no es fiable. Queda entonces solo la prueba chi-cuadrado que se verá en el punto 3, la cual además, es válida para variables multicotómicas. Bilateral H 0 : pE|1 = pE|2 H A : pE|1 ≠ pE|2 Unilateral H 0 : pE|1 ≥ pE|2 H A : pE|1 < pE|2 o H 0 : pE|1 ≤ pE|2 H A : pE|1 > pE|2 Nota El esquema anterior no cambia si la hipótesis a probar fuera una diferencia constante c distinta de 0. Por ejemplo, para una prueba bilateral, el planteo será: H 0 : Δp = c H A : Δp ≠ c En este caso el estadístico de prueba será, si resulta válida la aproximación normal: z= Δpˆ − Δp σ Δpˆ = Δpˆ − c σ Δpˆ pero en este caso la desviación estándar deberá utilizar los valores de las proporciones sin combinar: σ Δpˆ = pˆ1qˆ1 pˆ 2 qˆ2 + n1 n2 En el IC deberá analizarse si comprende o no al valor Δp = c. 2 Normal con transformación arcsen (asintótica) En forma análoga al caso de una muestra de proporciones (página 101) la transformación de cada variable p̂ con la ecuación: j = 2arcsen pˆ 167 Capítulo 5 Inferencia Paramétrica I Figura 5-103 presenta la propiedad de que cada distribución de j es aproximadamente normal y tiene una varianza que no depende de los valores individuales de p. Sus parámetros son: E ( Δj ) = j1 − j2 V ( Δj ) = 1 1 2 + = n n n El proceso de análisis continúa como de costumbre. 3 Chi-cuadrado (asintótica) En forma análoga a la situación vista en el análisis de proporciones de una muestra, página 101, en las proporciones de dos muestras se puede utilizar en forma equivalente la técnica no paramétrica chi-cuadrado. La prueba de homogeneidad entre todos los niveles de y (o de x), es equivalente a la de independencia entre las variables x e y (capítulo 1, página homogeneidad1). Para demostrarlo observemos que la hipótesis establece la igualdad de los perfiles fila. Si recordamos del capítulo 1 que cuando esto sucede, las 2 variables son independientes, queda establecida la vinculación. Veamos una demostración más formal. Si los perfiles fila son iguales, también lo son con la distribución marginal fila. Eso puede verse partiendo de: n1E n2 E = n1 n2 Aplicando la propiedad de las proporciones que establece que la igualdad de 2 proporciones es también igual a la proporción de las sumas de los numeradores y denominadores, se obtiene la siguiente relación: n1E n2 E n1E + n2 E nE = = = n1 n2 n1 + n2 n Esta relación es la conocida relación de independencia entre x e y: n1E = nE n1 n Totales Las relaciones de independencia de variables, planteadas para las celdas 1E y 2E, son: n1E = n1nE n n2 E = n2 nE n Estas relaciones pueden expresarse también: n1E = nE n1 = pE n1 n n2 E = nE n2 = pE n2 n Es decir: los valores totales de cada celda pueden obtenerse multiplicando una probabilidad marginal pE y el valor total del otro marginal. Si la hipótesis de homogeneidad es verdad, se espera que la mejor estima de ese porcentaje común sea el valor marginal pE. 168 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas Probabilidad conjunta Observar que la proporción marginal puede expresarse como: pE = n1E + n2 E pˆ E |1n1 + pˆ E|2 n2 = = pC n1 + n2 n1 + n2 De esta forma, si H0 es verdad, se espera que la mejor estima de las proporciones de éxitos E, sea un valor ponderado o combinado de las proporciones de la muestra. Como ya establecimos, este resultado es una consecuencia comprensible ya que si hay una distribución común, la mejor estimación debe ser la que surge del porcentaje conjunto de ambos grupos. Estas dos pruebas tienen una diferencia en cuanto a los datos predeterminados. La de homogeneidad parte del conocimiento de uno de los totales marginales de la tabla de contingencias, diseño equivalente a k distribuciones binomiales independientes (capítulo 3, página DiseñosTC3). En cambio en la de independencia, el único elemento predeterminado es el total general y en este sentido equivale a un diseño multinomial con r×c categorías. De todas formas no necesitamos preocuparnos por el tipo de diseño pues ambos se analizan en forma asintótica (para grandes muestras) en forma similar con una chi-cuadrado. Recordemos además que la independencia entre variables es una propiedad simétrica, por lo tanto comparar E|1 con E|2, resulta equivalente a comparar cualquiera de las otras combinaciones de cada nivel de x con y, o viceversa. Análisis por PH Dado que este procedimiento carece de una ecuación pivote, solo podrá aplicarse al método de prueba de hipótesis. Recordemos (capítulo 1), que la prueba de independencia se realiza con el valor chi-cuadrado de la bondad del ajuste, definido por: χ2 = ∑ (no − ne )2 ne La PH establece que (ver también página 101): H 0 : Buen Ajuste χ 2 = 0 H A : Mal Ajuste χ 2 > 0 ( χ 2 = 0 es equivalente en este caso a independencia). Se puede demostrar (Pearson) que si tomáramos todas las muestras (tablas de contingencias) de una población con las mismas probabilidades marginales y calculamos el χ2 de cada una de esas tablas respecto de la condición de independencia, entonces, la distribución de esos chi-cuadrados sigue una distribución χ2 con grados de libertad dados por: ν = (r − 1)(c − 1) siendo r = número de filas y c = número de columnas (demostrado por Karl Pearson). Esta relación encuentra su lógica en la figura 5-104. Sea una tabla de contingencias con r = 4 filas y c = 3 columnas. Si se conocen los valores de los totales marginales, de las rc = 3* 4 = 12 posibles celdas a llenar, solo 6 son libres, pues las restantes salen por diferencia con los totales. Una de ellas, digamos la indicada con c se obtiene por diferencia con el total general. Otras r − 1 = 3 , digamos las indicadas con a, por diferencia con los marginales de fila. Finalmente otras c − 1 = 2 , digamos las indicadas con b, por diferencia con los marginales de columna. Por lo tanto: ν = rc − 1 − (r − 1) − (c − 1) = (r − 1)(c − 1) 169 Capítulo 5 Inferencia Paramétrica I 1 A B y C D b T x 2 b 3 a a a c T Figura 5-104 Recordemos finalmente que una prueba de χ 2 = 0 (bondad del ajuste) solo puede tener como alternativa χ2 > 0 y por lo tanto una prueba la bondad del ajuste será siempre unilateral de cola superior. Pruebas equivalentes Para una tabla de 2×2, la prueba χ2 (1) conduce a iguales conclusiones que las que se obtendrían con una prueba z, en tanto se utilice el valor ponderado. Esto es así pues la distribución χ2 (1) es equivalente al cuadrado de la distribución z: P (| z |> zα / 2 ) = P ( z 2 > z 2α /2 ) = P ( χ 2 (1) > χα 2 (1)) Demostración Si en la tabla de contingencias 2 x 2se llaman a, b a las frecuencias de la primera fila y c, d a las de la segunda fila, se obtiene: χ2 = (a + b + c + d )(ad − bc) 2 (a + b)(c + d )(b + d )(a + c) Es decir: χ2 = n(ad − bc)2 ∏ m arg inales Por otra parte, el lector puede demostrar que este valor es exactamente el que se obtiene elevando al cuadrado el valor de z dado por: z= Δpˆ − 0 pc qc pc qc + n1 n2 Supuestos Esta prueba es relativamente libre de supuestos, pero como se basa en propiedades asintóticas es solo válida para grandes muestras. Una regla empírica utilizada es que el 100% de las celdas esperadas tengan una frecuencia absoluta mayor que 1 y que al menos el 80% de estas celdas esperadas tengan una frecuencia absoluta mayor o igual a 5. Si estas condiciones no se cumplen, se pueden agrupar celdas recodificando adecuadamente o utilizar la prueba exacta de Fisher delaparatado siguiente. Notas La equivalencia de la homogeneidad con la independencia, permite extender las siguientes conclusiones de la independencia. • En la exposición se analizó x para cada nivel de y, pero podría haberse analizado y para cada valor de x, en forma totalmente equivalente. 170 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas • • Como ya se ha comentado para la bondad del juste, puede estructurarse el concepto de independencia dentro de las variables categóricas (como en el capítulo 1) o dentro de las variables cuantitativas discretas como en este capítulo. No deben usarse las barras de error para la comparación visual y preliminar de proporciones pues no solo el traslape de las barras de error de los IC individuales implica sumar o restar desviaciones estándar (y en un IC de la diferencia, se suman varianzas), sino que, además, sabemos que existen diferencias entre los errores estándar utilizados en los IC y en la PH de proporciones. Variables multicotómicas Se desprende de la demostración anterior, que ambas variables pueden ser en general multicotómicas con k niveles, no estando limitadas en el número de niveles que contenga cada una (las variables dicotómicas x e y solo sirvieron para simplificar la demostración). En este caso la hipótesis de homogeneidad a probar será una generalización de la anterior para 2 variables: H 0 : p1 = p2 = ... = pk 4 Prueba exacta de Fisher (condicional) Dado que en el caso de comparación de proporciones no se cuenta con una distribución teórica exacta, se incluye este apartado una prueba exacta (pues el valor de significación p no depende del tamaño de la muestra). Como norma general, no es aconsejable informar un valor de p asintótico sin haber chequeado previamente su precisión con un valor p exacto u obtenido por muestreo aleatorio (página 314). Esta prueba desarrollada por Fisher dio origen a los llamados test de permutación o test exactos que se comentarán en la página 314. El procedimiento ya fue comentado en el capítulo 3 al interpretar la distribución hipergeométrica como una tabla de contingencias con marginales constantes, página FisherExact3. Para obtener el valor p exacto se consideran todas las posibles frecuencias en las 4 celdas que originen resultados más extremos que el observado y luego se suman estas probabilidades. Esta prueba se realiza bajo la condicionalidad de mantener constantes los valores marginales y bajo la hipótesis de homogeneidad (o independencia). Esta última condición refleja la circunstancia observada en el capítulo 3 de que la media de la distribución hipergeométrica es justamente la tabla en la que se manifiesta la condición de independencia entre las variables. El resultado de esta prueba se puede apreciar en las tablas 2×2 que entrega el SPSS (ver problema resuelto), aunque no está restringido a variables dicotómicas. La dama inglesa En el capítulo 3, página damaBristol3, se presentó este problema histórico en el cual una dama (la bióloga Muriel Bristol), aseguraba que era capaz de detectar si en una taza de té con leche se había colocado primero la leche o primero el té. Fisher propuso una prueba con 8 tazas de té con leche. En 4 de ellas se había colocado primero la leche y en las 4 restantes, primero el té. Esta información fue provista a la dama pero el orden en el que se le presentaron las tazas fue aleatorio. Quedaba por establecer si el resultado de la prueba se debe a la habilidad de la dama o al producto del azar. Por conveniencia en las figuras siguientes se repite la tabla de contingencias y la distribución de probabilidades. Recordemos que consideramos a la fila de totales como una "urna" con 8 esferas, de las cuales en 4 la dama dice que se colocó primero el te y en 4 dice que se colocó primero la leche. Se extraen simultáneamente 4 "esferas", de las cuales en 3 la dama dice te y en 1 dice leche. Se trata entonces de una distribución hipergeométrica definida por: h(3,8, 4, 4) 171 Capítulo 5 Inferencia Paramétrica I Dama dice te leche Total realidad 3 te leche 1 Total 4 1 3 4 4 4 8 Figura 5-105 Figura 5-106 Las hipótesis son: H 0 : la dama no tiene la habilidad (independencia) H1 : la dama tiene la habilidad La prueba que interesa es de 1 cola y por lo tanto el valor p será (ver la distribución pdf .hiper ( y,8, 4, 4) en la figura 5-106): p = 0.229 + 0.014 = 0.243 Por lo tanto, para un α = 0.05 no existe evidencia suficiente para rechazar la H0 y aceptar que la dama tiene razón, a pesar que acertó 6 veces de las 8 (ver tabla de contingencias). Puede apreciarse además que con un α ≤ 0.014 , la hipótesis de independencia no se rechazaría nunca. Esto es debido al aspecto conservador de una prueba con distribución discreta (página 99), especialmente cuando tiene pocos valores como en este ejemplo. SPSS Naturalmente la prueba puede obtenerse en forma automática con el SPSS y para un número de filas y columnas mayor de 2×2. Luego de introducir la tabla de contingencias anterior: Analyze > Descriptive Statistics > Crosstabs > Statistics > Chi-square. Presionar además el botón Exact > Exact. Se obtiene la siguiente tabla, con el valor p = 0.243. Observar la diferencia con el valor p asintótico obtenido con la distribución chi-cuadrado: 0.157 = 0.0785 . Eso es debido a que no se cumple el 2 supuesto para la utilización de esta distribución de que las celdas tengan un valor mayor que 5 172 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas (advertencia inidicada con a. al pie de la tabla). El valor llamado Point Probability es la probabilidad puntual correspondiente al valor de la muestra, en este ejemplo h(3,10, 4, 4) = 0.229 . Dado el carácter conservativo de la prueba, algunos estadísticos proponen sustraer la mitad de este número al valor p y lo llaman valor p medio (mid p value). Figura 5-107 Dos muestras apareadas Se llama también prueba de McNemar. A cada caso se le aplican 2 tratamientos x e y y se desea probar si existe diferencia entre antes y después. El formato con el cual se presentan los datos, se muestra en la figura 5-108a. Se tienen 2 variables cuantitativas discretas dicotómicas, que llamamos x1 y x2 como si fueran 2 tratamientos distintos aplicados al mismo caso. Ambas variables tienen los mismos niveles 1 y 2. En la figura 5-108b se presentan los datos en el formato de una tabla de contingencias 2×2 (donde, por simplicidad en la notación de los totales de cada celda, hemos llamado 1 al F y 2 a E). x1 x2 E E F E E F E F F F … … F E E E E F F F F E x1 F E F n11 n12 E n21 n22 x2 T T n b a Figura 5-108 Los casos comprendidos en las celdas 11 y 22 no varían antes y después por lo tanto no aportan nada a la evidencia. Por consiguiente, este test se centra en la comparación de los valores de las celdas 12 y 21. 173 Capítulo 5 Inferencia Paramétrica I Supuestos • • Ambas variables deben ser dicotómicas con los mismos niveles. n12 + n21 ≥ 10 Definiciones • Proporciones n12 n n p21 = 21 n p12 = • Número de pares discordantes: nD = n12 + n21 • Probabilidad de pares discordantes: pD = p12 + p21 = • nD n Diferencia de pares discordantes: Δ D = n12 − n21 • Cociente de pares discordantes o Razón de Chances OR (Odd Ratio): OR = n12 p12 = n21 p21 Observar que conocer p12 y p21 es equivalente a conocer la suma pD y el cociente OR. 1 Binomial (exacta) Nos interesa en particular el espacio muestral reducido de los pares discordantes, es decir la probabilidad condicional de 12|D (o 21|D) con un tamaño muestral fijo nD. Esto es equivalente a analizar la variable: pˆ = p12|D = n12 p12 OR . = = nD pD 1 + OR La distribución de esta variable es una binomial (condicional a que nD sea constante8) B(nD, p0) con p0 = 0.5 , pues dado que la H0 es n12 = n21 , será: p = q = 0.50 . Análisis por PH 1 H 0 : p = p0 = 2 1 HA : p ≠ 2 Observar que esta prueba es equivalente a: H 0 : n12 = n21 H A : n12 ≠ n21 y también a: 8 El procedimiento exacto consiste en considerar a nD como un resultado P(n = nD) de la binomial no condicional B(n, pD). La aproximación es adecuada para muestras grandes. Jorge Carlos Carrá 174 III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas H0 : OR = 1 H A : OR ≠ 1 El valor p es la probabilidad de que en n ensayos se presenten valores por lo menos tan extremos como n12 E (o n21 F). Valor p = 2( sigbinomial (n12 , nD , 0.50)) siendo sig (significación) la notación para la cola de la distribución. 2 Normal (asintótica) Análisis por PH Dado que se conoce p = q = 0.50 puede utilizarse el criterio de aproximación a una distribución normal dado por nD p ≥ 5 . Si se cumple, entonces: z= pˆ = pˆ − 0.5 σ pˆ n12 OR = nD 1 + OR σ pˆ = OR OR 0.5 = = 2 (1 + OR ) nD (1 + OR ) nD nD Reemplazando y operando, resulta: n12 − n21 Δ = D n12 + n21 nD z= 3 Chi-cuadrado (asintótica) Análisis por PH Si la prueba es de 2 colas, como ν = 1, χα 2 (ν = 1) = z 2α / 2 , se cumple que: χ 2 >χ 2α ⇒ |z|>z α ⇒ − zα / 2 > z > z α /2 /2 Por lo tanto, en lugar de la normal puede utilizarse en forma equivalente el siguiente estadístico χ2 que mide la bondad del ajuste (será también una distribución aproximada pues la normal lo es): (n − n ) χ = 12 21 2 2 n12 + n21 Si se incluye la corrección por continuidad, cpc: χ2 = (| n12 − n21 | −1) 2 n12 + n21 La PH es ahora: H 0 : Buen Ajuste χ 2 = 0 H A : Mal Ajuste χ 2 > 0 La prueba χ2 de la bondad del ajuste solo puede tener como hipótesis alternativa χ2 > 0 (χ2 es siempre positiva) y por lo tanto es siempre de cola superior. Como el grado de libertad de χ2 es 1, 175 Capítulo 5 Inferencia Paramétrica I esta prueba es además equivalente a una prueba z de 2 colas, por lo cual si la prueba z es unilateral solo puede utilizarse el estadístico z. Observar que no es posible un análisis por IC en ningún caso pues no existe una ecuación pivote. Formatos muestras independientes vs muestras apareadas Bajo determinadas condiciones, un formato puede convertirse en el otro, pero cada uno corresponde a 2 tipos de muestras distintas. El formato de muestras apareadas puede convertirse al de muestras independientes creando una variable x con niveles x1 y x2, en una sola columna. Luego se creará una variable E/F, encolumnando apropiadamente estos valores en correspondencia con x1 y x2. Naturalmente, los distintos cruces deben tener sentido, lo cual no siempre ocurre. Por su parte, el formato de muestras independientes puede convertirse al de muestras apareadas solo si los tamaños muestrales de los niveles que se van a aparear son iguales. Naturalmente existe una gran cantidad de posibilidades de apareamiento, por lo cual ahora no existe una sola alternativa. Desde el punto de vista de la tabla de contingencias, los valores de las celdas interiores del formato sin aparear se convierten en los marginales del formato apareado, teniendo la libertad de elegir entonces los valores de los cruces de esta tabla (ver el siguiente problema resuelto). De igual forma que para la prueba de diferencia de medias, ambos formatos conducen a resultados distintos, pues uno supone la independencia entre niveles y el otro un apareamiento entre ellos. SPSS Muestras independientes Chi-cuadrado (no paramétrica) Analyze > Descriptive Statistics > Crosstabs. Esta prueba se realiza siempre entre 2 variables. Si fueran por ejemplo 3 o más variables, hemos visto en el capítulo 1, página crosstabs1, que se podrá realizar la prueba de 2 variables para cada nivel de las restantes colocando estas variables en layer (capa) o con una segmentación previa del archivo (con Split File). Muestras apareadas McNemar (no paramétrica) Analyze > Nonparametric Tests > Legacy Dialogs > 2 Related Samples. Colocar ambas variables dicotómicas en la primera fila. Seleccionar otro par en el caso de que se desee. Tildar McNemar (Wilcoxon es una prueba apta para variables ordinales, ver capítulo 7). También está disponible en el procedimiento Crosstabs, tildando McNemar en Statistics. Razón de proporciones θ = Rp Cuando los tamaños muestrales de muestras independientes son grandes, lo cual ocurre en la técnica Meta-análisis (página 271), se utilizan otras 2 medidas (entre otras), basadas en el cociente o razón de proporciones: RR y OR. 1 Normal Risk Ratio, RR (asintótica) Es el cociente de las proporciones. RR = 176 pˆ1 pˆ 2 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas Transformación ln Como RR es una razón, la distribución se normaliza (aproximadamente) con la transformación por el logaritmo natural. pˆ1 pˆ 2 qˆ qˆ qˆ qˆ = 1+ 2 = 1 + 2 a b pˆ1n1 pˆ 2 n2 ln RR = ln Vln RR Distribución: aproximadamente normal. Intervalos de Confianza Se obtienen como de costumbre pero como el tamaño del efecto está transformado, el resultado final deberá antitransformarse. Prueba de hipótesis Hipótesis nula: homogeneidad de proporciones, lo cual implica RR = 1 y logaritmo 0 Bajo esta hipótesis la varianza debe calcularse con los valores combinados pc y qc. Para calcular el valor muestral puede utilizarse la expresión de chi-cuadrado vista anteriormente. 2 Normal, Odd Ratio, OR (asintótica) Si se tratara de una sola población, el tamaño del efecto sería el cociente entre p y q llamado posibilidades (Odd en inglés): O= p q Como esta medida no está distribuida normalmente, se la transforma con el logaritmo natural. Cuando esta tranformación se aplica a un odd, se llama logit. ⎛ p⎞ ln O = ln ⎜ ⎟ = log it (O) ⎝q⎠ En el caso de 2 poblaciones, se define en forma análoga el cociente de posibilidades, OR (Odd Ratio): OR = O1 pˆ / qˆ pˆ qˆ ad = 1 1 = 1 2 = O2 pˆ 2 / qˆ2 qˆ1 pˆ 2 bc donde a, b, c y d son los valores (por filas) de las 4 celdas de la tabla de contingencias . Transformación ln Como OR es una razón la distribución se normaliza (aproximadamente) con la transformación del logaritmo natural. pˆ1qˆ2 ad = ln qˆ1 pˆ 2 bc 1 1 1 1 = + + + a b c d ln OR = ln Vln OR Distribución: aproximadamente normal. Intervalos de Confianza Como el tamaño del efecto está transformado, el resultado final deberá antitransformarse. Prueba de hipótesis Hipótesis nula: homogeneidad de proporciones, lo cual implica OR = 1 y logaritmo 0. Bajo esta hipótesis la varianza debe calcularse con los valores combinados pc y qc. Para calcular el valor muestral puede utilizarse la expresión de chi-cuadrado vista anteriormente. 177 Capítulo 5 Inferencia Paramétrica I Tamaño del efecto y ecuación de diseño En la sección I Diseño, página 63, se establecieron, sin demostración, las expresiones de cálculo de la potencia y del tamaño de una muestra, para una prueba de proporciones. Ahora podemos ver esas relaciones. Dos muestras independientes 1 Normal Si procedemos como en la deducción de la ecuación de diseño de la media (página 40), la ecuación de diseño de este caso resulta: zβ σ Δ = zασ Δ − (Δ1 − Δ 0 ) 1 0 Si Δ0 = 0, entonces: Δ1 − Δ 0 = Δ1 = p1 − p2 correspondientes a H1. Para el sigma de zα se utiliza p1 = p2 = pC y q1 = q2 = qC , en tanto que en el de zβ se utiliza donde: p̂ , n1 p1 + n2 p2 , n1 + n2 nq +n q qC = 1 1 2 2 , n1 + n2 pC = Por lo tanto: σΔ = pC qC pC qC + , n1 n2 σΔ = p1q1 p2 q2 + n1 n2 0 1 Si no se tienen los valores de H0, todas las expresiones se calculan con los valores de H1. 2 Normal con transformación arcsen Sabemos que la diferencia de proporciones presenta la dificultad de que la desviación estándar depende de los valores poblacionales desconocidos. De aquí que un mismo tamaño del efecto producido por diferentes valores de p, tiene distintas potencias. En forma similar al caso de una variable, se puede resolver este inconveniente, realizando la transformación arcsen (página 101) y utilizando el tamaño del efecto h (el tamaño del efecto se define para Δ 0 = 0 ): h = j2 − j1 j = 2arcsen p De esta forma se demuestra que se obtiene una ecuación similar a la ecuación de diseño del problema de las medias: z β = zα − nc con: nc = n h 2 Los valores de tamaño convencionales son: 178 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas • • • Chico, h = 0.20 Mediano, h = 0.50 Grande, h = 0.80 Utilización de software o tabla de h para una muestra con p = p0 Si se utiliza un software o tabla pensados para Δp para calcular un problema de una muestra, los valores convencionales dados deben adaptarse. En el caso de una muestra la varianza total es la mitad y la desviación estándar, la raíz cuadrada de la mitad (Cohen, J. 1988, página 202). La ecuación de diseño es: z β = zα − nc con nc = n h ' . 2 , para eliminar este factor del denominador. h' = h 2 El valor de h´ surge de multiplicar al valor h por Deben utilizarse los valores de h que resultan de resolver el sistema de 3 ecuaciones que definen p0, p1 y h. Naturalmente, si p0 =0.5, los resultados obtenidos coincidirán con los correspondientes al tamaño del efecto g (página 105). En este caso, luego de resolver el sistema, se obtienen: • Chico, h' = 0.14 • Mediano, h' = 0.43 • Grande, h' = 0.74 Esto se puede comprobar con el GPower comparando entre sí los procedimientos: z tests. Difference between two independent proportions Exact. Difference from constant (binomial test, one sample case) 3 Chi-cuadrado Como ya hemos visto, este problema puede expresarse como una tabla de contingencias, para la cual es válida la prueba de independencia χ2. En este caso un tamaño del efecto adecuado es el valor poblacional del coeficiente φ muestral estudiado en el capítulo 1, al que llamaremos w. χ2 w= n = ∑ ( fo − fe )2 fe De aquí que el parámetro de descentralidad resulta: χ 2 = w2 n = nc Los valores convencionales de tamaños del efecto propuestos por Cohen, son: • Chico, w = 0.10 • Mediano, w = 0.30 • Grande, w = 0.50 4 Normal con razones de proporciones Los tamaños del efecto son las mismas razones, RR y OR. Dado que la distribución aplicable es la normal, se utiliza la misma ecuación de diseño de medias, adaptándola a estos casos: zβ σ θˆ = zασ θˆ − (θ1 − θ 0 ) 1 0 En ambos casos θ es el logaritmo natural del tamaño delefecto y θ0 = 0 pues la hipótesis de equivalencia implica que la razón es 1 y entonces el logaritmo es 0. 179 Capítulo 5 Inferencia Paramétrica I Dos muestras apareadas 1 Normal El tamaño del efecto es la razón de chances OR: OR = p12 p21 El tamaño del efecto se define para OR0 = 1 ( pˆ 0 = 0.5 ) correspondiente a H0. La distribución binomial condicional origina la siguiente ecuación de diseño para aproximación normal: zα σ pˆ 0 + p0 = z β σ pˆ1 + p1 Donde: pˆ = n12 OR = nD 1 + OR σ pˆ = ˆˆ pq OR = nD (1 + OR ) nD Como H0: OR = 1, resulta: zα 0.5 + 0.5 = zβ nD pˆ1qˆ1 + pˆ1 nD 2 Chi cuadrado Si en lugar de una normal, se utiliza chi-cuadrado, es aplicable, como en el caso de muestras independientes, la siguiente ecuación que toma el lugar de una ecuación de diseño, pero que requiere el cálculo del valor crítico: χ 2 = w2 n = nc (n − n ) χ = 12 21 2 n12 + n21 2 = n 2 ( p12 − p21 ) 2 nD Con: nD n pD p12 = OR + 1 p21 = pD − p12 pD = Potencia y tamaño de la muestra Dos muestras independientes y H0: Δ0=0 1 Normal Las expresiones de cálculo usando las 2 proporciones, son algo más complejas pues las varianzas dependen de cuál es la hipótesis bajo la cual se utilizan. H 0 : p1 = p2 • En este caso se adopta en correspondencia: 180 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas σΔ = 0 pC qC pC qC + n1 n2 Si no se tienen los valores de H0, calcular con los valores de H1. zα = ( Δpˆ − 0) / σ Δ0 H1 : p1 ≠ p2 • σΔ = 1 p1q1 p2 q2 + n1 n2 zβ = (Δpˆ − Δ1 ) / σ Δ1 donde Δ1 = p1 − p2 Si despejamos Δp̂ de las relaciones anteriores, se obtiene la siguiente ecuación de diseño para proporciones. zα σ Δ0 = zβ σ Δ1 + Δ1 Potencia, P Despejando zβ: zβ = ( zα σ Δ0 − Δ1 ) / σ Δ1 Tamaño de la muestra, n Si consideramos n1 = n2 se obtiene: ⎛ z 2 pC qC − zβ p1q1 + p2 q2 n=⎜ α ⎜ Δ1 ⎝ ⎞ ⎟ ⎟ ⎠ 2 Reemplazando los valores combinados, resulta: ⎛ z ( p1 + p2 )(q1 + q2 ) / 2 − zβ n=⎜ α ⎜ Δ1 ⎝ Nota Como p1q1 + p2 q2 ⎞ ⎟ ⎟ ⎠ 2 σ 12 ≠ σ 22 , si n1 ≠ n2 , se debe proceder en forma inversa: Partir de 2 valores tentativos y con ellos calcular un valor n ponderado con la ecuación siguiente. Luego, con este valor de n y el valor del tamaño del efecto requerido, calcular la potencia. Si no es la deseada, iterar el proceso. n= σ12 + σ 22 σ12 / n1 + σ 22 / n2 2 Normal con transformación arcsen Potencia, P De la ecuación de diseño: z β = zα − nc con: 181 Capítulo 5 Inferencia Paramétrica I nc = n h 2 Tamaño de la muestra, n Despejando n: ⎛ z − zβ ⎞ n = 2⎜ α ⎟ ⎝ h ⎠ 2 3 Chi–cuadrado Potencia, P Aplicando el método general (página 40), se debe obtener el valor crítico y resolver con la CDF χ2 no centralizada siendo nc = w2 n . Tamaño de la muestra, n Se despeja n de la ecuación del parámetro de descentralidad, pero para conocerlo se debe trabajar por prueba y error: nc => P y luego: n= nc w2 4 Normal con razones de proporciones Potencia, P Se despeja z β como de costumbre. Tamaño de la muestra, n Dado que n no se encuentra en forma explícita en la ecuación de diseño, se podría trabajar por prueba y error: n => P, hasta obtener el P deseado. Dos muestras apareadas 1 Normal Potencia, P Se despeja z β de la ecuación de diseño. Tamaño de la muestra, n Se despeja nD de la ecuación de diseño: ⎛ z 0.5 − zβ pˆ1qˆ1 nD = ⎜ α ⎜ pˆ1 − 0.5 ⎝ ⎞ ⎟ ⎟ ⎠ 2 Se debe dar la probabilidad de pares discordantes pD para calcular n con: pD = 2 Chi–cuadrado Ídem muestras independientes. 182 Jorge Carlos Carrá nD . n III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas Problema resuelto 5.18 Tratamiento para dejar de fumar Se utilizan 2 tratamientos para tratar la adicción a fumar, para lo cual se clasifica a las personas en Fumadores F y No Fumadores, N. Se desea probar si la proporción de Fumadores luego del tratamiento, T1, es igual a la de Fumadores luego del tratamiento, T2. Se toma una muestra de 114 personas y resulta la siguiente tabla de contingencias. nO x F T1 33 y T2 21 54 T T N 42 75 18 39 60 114 Figura 5-109 El número observado de éxitos en las 2 poblaciones es 33 y 21. El tamaño de cada muestra es 75 y 39 y el tamaño total del muestreo es 114. La proporción de éxitos en cada población es: p1 = pF |1 = 33 / 75 = 0.44 = 0.44 y p2 = pF |2 = 21 / 39 = 0.538 . IC Obtener el IC de la diferencia entre las proporciones de ambos grupos, para un nivel de significación del 95%. PH Probar la aseveración de que existe diferencia entre la proporción de Fumadores luego de ambos tratamientos, con α = 5%. Interrelacionar gráficamente el IC con la PH. SPSS Resolver con el SPSS. Verificación: potencia retrospectiva Analizar la potencia versus el tamaño del efecto de la prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Paso 1 Problema Comparar grupos: θ = Δp . Paso 2 Modelo Distribuciones normal y chi–cuadrado. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: n1 = 75, n2 = 39. Paso 4 Análisis IC Modelado Distribución muestral de θˆ = Δp̂ Inferencia Calculemos previamente las proporciones muestrales: Perfiles fila y columna. 183 Capítulo 5 Inferencia Paramétrica I x|y x F T1 44 y T2 53.8 47.4 T T N 56 100 46.2 100 52.6 100 y|x F T1 61.1 y T2 38.9 100 T x T N 70 65.8 30 34.2 100 100 Figura 5-110 Si bien los valores de n son menores que 100, dado que las pE|1 y pE|2 no son lejanas a 0.5, la distribución muestral se puede aproximar a una Normal y por lo tanto puede utilizarse esta distribución. Normal σˆ Δpˆ = pˆ1qˆ1 pˆ 2 qˆ2 + n1 n2 0.44(0.56) 0.538(0.462) + = 0.0982 75 39 Δp = Δpˆ ± B ν = 74 + 38 = 112 B = zα / 2σˆ Δpˆ = 1.96(0.0982) = 0.1924 σˆ Δpˆ = ⇒ Δp = (0.44 − 0.538) ± 0.1924 = −0.098 ± 0.1924 ⇒ IC = −0.2904 a 0.944 Decisión Las diferencias entre los valores contenidos dentro del IC, no son significativas al nivel c = 95%. Como 0 pertenece al IC, no se rechaza que no existe diferencia significativa entre las proporciones de ambos grupos. PH H 0 : Δp = 0 H A : Δp ≠ 0 Aseveración Modelado Normal Distribución muestral de θˆ = Δp̂ Se debe adoptar el valor ponderado o combinado en lugar de las proporciones muestrales, debido a lo cual los resultados de IC y de PH no resultan equivalentes. 54 = 0.474 114 pC qC pC qC = + n1 n2 pC = σˆ Δpˆ ⇒ σˆ Δpˆ = Inferencia 1 Comparando el eje t 184 0.474(0.526) 0.474(0.526) + = 0.0985 75 39 zc = z0.025 = 1.96 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas zm = Δpˆ − 0 −0.098 − 0 = = −0.994 0.0985 σˆ Δpˆ ⇒ | zm |<| zc |⇒ No se rechaza H 0 Comparando el eje Δp̂ Δpˆ m = −0.098 B = zα / 2σˆ Δpˆ = 1.96(0.0985) = 0.193 Δpˆ c = Δp ± B = 0 ± 0.193 = ±0.193 ⇒ | Δpˆ m − Δp |< B ⇒ No se rechaza H 0 2 Comparando las áreas α = 0.05 p = 2 ∗ CDF .normal (−0.994) = 0.322 ⇒ p > α ⇒ No se rechaza H 0 Modelado Chi-cuadrado H 0 : Buen Ajuste H A : Mal Ajuste Aseveración Tabla de valores esperados, en caso de independencia: nE x F T1 35.5 y T2 18.5 54 T T N 39.5 75 20.5 39 60 114 Figura 5-111 Se cumple el supuesto ne >5 en al menos el 80% de las celdas, por lo cual es posible aplicar la distribución χ2 con ν = 1. χ 2 (1) = (33 − 35.5) 2 2.52 2.52 2.52 + + + = 0.977 35.5 39.5 18.5 20.5 Este valor coincide con la expresión alternativa ya vista para una tabla de 2×2 (las diferencias se deben a los redondeos): χ2 = [33(18) − 42(21)]2114 = 0.998 (75)(39)(54)(60) Para utilizarlo en el cálculo de la potencia, calculemos el coeficiente φ. φ= Inferencia 1 Comparando el eje χ2 χ2 n = 0.0926 IDF .CHISQ(0.95,1) = 3.84 2 ⇒ χ c2 = χ 0.05 (1) = 3.84 χ m2 = 0.977 ⇒ χ m2 < χ c2 ⇒ No se rechaza H 0 2 Comparando las áreas α = 0.05 SIG.CHISQ(0.977,1) = 0.32 185 Capítulo 5 Inferencia Paramétrica I ⇒ p = P( χ 2 > χ m2 ) = 0.32 ⇒ p > α ⇒ No se rechaza H 0 Observar que la CDF de la prueba z es similar a la de la prueba chi cuadrado (0.32), pues para esta última, ν = 1 (página 170). Decisión La diferencia entre el valor muestral obtenido, 9.8% (44%-53.8%) y el valor de la hipótesis (0), no es significativa al nivel α = 5%. (χ2(1) = 0.977, p = 0.64). Por lo tanto no existe evidencia suficiente para sustentar que ambos tratamientos son distintos, α = 5% Interrelación gráfica del IC con la PH Figura 5-112 Como la PH no rechazó la H0: Δp = 0, entonces el IC obtenido debe comprender a este valor (lo cual sucederá 95% de las veces). SPSS Procedimiento en la página 176 Chi-cuadrado Figura 5-113 La diferencia entre 0.998 y el valor del cálculo manual 0.977, se debe al redondeo de las frecuencias esperadas. Con el procedimiento Crosstabs se obtiene: 186 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas Figura 5-114 Paso 5 Verificación: potencia retrospectiva El resultado es no significativo por lo cual deberíamos calcular P para un tamaño del efecto alto. Resolveremos el problema con una distribución chi-cuadrado. Chi-cuadrado (solución descentralizada) El parámetro descentralizado para la distribución χ2 es: nc = w2n Si consideramos, por ejemplo, un efecto grande de 0.50: nc = 0.52 (114) = 28.5 El cálculo de la potencia se realiza de la misma forma que en los problemas anteriores: IDF .CHISQ (0.95,1) = 3.84 1 − NCDF .CHISQ(3.84,1, 28.5) = 0.999 P = 0.999 Este valor indica que es probable que si este efecto grande existiera en la población, probablemente sería detectado en el estudio, por lo cual el estudio es concluyente. Si consideramos ahora el tamaño del efecto muestral del φ de la prueba, calculemos la potencia observada: nc = 0.09262 (114) = 0.977 1 − NCDF .CHISQ(3.84,1,0.977) = 0.167 P = 0.167 Es decir que si H1 es verdadera con un tamaño del efecto poblacional coincidente con el de la muestra, existe solo un 16.7% de probabilidades de que el estudio resulte significativo. GPower z tests Si se desea utilizar la distribución normal o el tamaño del efecto h de Cohen, ir a: z tests Proportion: Difference between two independents proportions Options > Use Cohen's effect size index h. χ2 tests Si se desea utilizar la distribución chi-cuadrado, ir a: χ2 tests Goodness of fit tests: Contingency tables 187 Capítulo 5 Inferencia Paramétrica I Post hoc, effect size: 0.50 (grande), α = 0.05, n = 114, ν = 1. Entrega una potencia de: 0.99 (corroborar que resulta coincidente con el cálculo por el índice h de Cohen). Para el tamaño del efecto φ muestral: effect size: 0.0926, α = 0.05, n = 114, ν = 1. Entrega una potencia de: 0.167. Gráficas En la figura 5-115 y en al figura 5-116 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto, para varios valores de n. Con el tamaño de la muestra (n = 114), se requeriría un tamaño del efecto de 0.27 para llegar a una potencia de 0.8. Figura 5-115 Figura 5-116 188 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas Problema resuelto 5.19 Tratamiento para dejar de fumar Considerar que el problema anterior proviene en realidad de muestras apareadas, antes (T1) y después (T2) de un solo tratamiento, con un tamaño muestral de 75 para cada una, de acuerdo a la siguiente tabla. Utilizar un nivel de significación de 0.05 para probar si las proporciones de pares discordantes (F antes y N después versus F después y N antes), son iguales. Analizar luego la potencia retrospectiva. nO T1 F N F 15 8 33 T2 N 6 46 42 21 54 75 Figura 5-117 Paso 1 Problema Comparar grupos: θ = Δp . Paso 2 Modelo Distribuciones binomial, normal y chi–cuadrado. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: ver figura 5-117. Paso 4 Análisis Modelado Binomial H 0 : p = p0 = HA : p ≠ 1 Aseveración 2 1 2 α = 0.05 1 − CDF .BINOM (5,14,0.50) = 0.789 ⇒ p = P( y > ym ) = 0.789 ⇒ p > α ⇒ No se rechaza H 0 Modelado Normal H 0 : n12 = n21 Aseveración H A : n12 ≠ n21 Como np ≥ 5 se puede aplicar la aproximación a una normal con: z= n12 − n21 Δ 2 = D = = 0.534 14 n12 + n21 nD zc = z.025 = 1.96 189 Capítulo 5 Inferencia Paramétrica I Inferencia ⇒ | zm |<| zc |⇒ No se rechaza H 0 Modelado Chi-cuadrado H 0 : Buen Ajuste Aseveración H A : Mal Ajuste Se cumple el supuesto n12 + n21 ≥ 10 , por lo cual es posible aplicar la distribución χ2 con ν = 1. χ 2 (1) = Inferencia 1 Comparando el eje χ2 (| 8 − 6 | −1) 2 = 0.0714 8+6 IDF .CHISQ(0.95,1) = 3.84 2 χ c2 = χ 0.05 (1) = 3.84 χ m2 = 0.286 ⇒ χ m2 < χ c2 ⇒ No se rechaza H 0 2 Comparando las áreas α = 0.05 SIG.CHISQ(0.0714,1) = 0.789 ⇒ p = P ( χ 2 > χ m2 ) = 0.789 ⇒ p > α ⇒ No se rechaza H 0 Por lo tanto no existe evidencia suficiente para rechazar que las proporciones de pares discordantes sean iguales. SPSS Procedimiento en la página 176. Figura 5-118 Paso 5 Verificación: potencia retrospectiva El resultado es no significativo por lo cual deberíamos calcular P para un tamaño del efecto alto. Supongamos que el investigador entiende que un tamaño del efecto OR grande es por lo menos 1.3. Normal Ecuación de diseño para la aproximación normal: zα Como: 190 0.52 + 0.5 = zβ nD pˆ1qˆ1 + pˆ1 nD Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema b: comparación de proporciones de variables cuantitativas discretas nD = 14 p OR = 12 = 1.3 p21 resulta: pˆ1 = n12 OR = = 0.565 nD 1 + OR σ pˆ = 0 σ pˆ = 1 0.52 = 0.134 14 pˆ1qˆ1 0.565*0.435 = = 0.132 14 nD Por lo tanto: zα 0.134 + 0.5 = z β 0.132 + 0.565 reemplazando zα = 1.96 , se obtiene: z β = 1.497 Finalmente: P = 0.068 Chi-cuadrado χ2 = ( n12 − n21 ) 2 n12 + n21 = n 2 ( p12 − p21 ) 2 nD nD 14 = = 0.186 n 75 pD 0.186 p12 = = = 0.0808 2.3 OR + 1 p21 = pD − p12 = 0.1052 pD = Por lo tanto: χ = 2 w= n 2 ( p12 − p21 ) nD χ2 n = 2 752 ( 0.0808 − 0.1052 ) = = 0.239 14 2 0.239 = 0.0564 75 El parámetro descentralizado para la distribución χ2 es: nc = w2n nc = 0.05642 (75) = 0.238 El cálculo de la potencia se realiza de la misma forma que en los problemas anteriores: IDF .CHISQ (0.95,1) = 3.84 1 − NCDF .CHISQ(3.84,1,0.238) = 0.077 P = 0.077 En definitiva existe el riesgo de un tamaño del efecto grande no detectado y se podría estar realizando todo un trabajo para nada. Se está en presencia de un riesgo de n bajo: algo grande está sucediendo y se obtiene un resultado no significativo, por lo cual el estudio es no concluyente. Rediseño Se debe rediseñar el estudio inferencial partiendo de la potencia P => n: 191 Capítulo 5 Inferencia Paramétrica I ⎛ z 0.5 − zβ pˆ1qˆ1 nD = ⎜ α ⎜ pˆ1 − 0.5 ⎝ ⎞ ⎟ ⎟ ⎠ 2 zα = 1.96 zβ = −0.84 ( P = 0.80, β = 0.20) pˆ1 = 0.565 2 ⎛ 1.96(0.5) + 0.84 0.565(0.435) ⎞ nD = ⎜ ⎟⎟ = 461 ⎜ 0.565 − 0.5 ⎝ ⎠ n n 461 pD = D => n = D = = 2478 n pD 0.186 La conclusión es que debería repetirse el análisis con un tamaño muestral de por lo menos 2478 personas (cálculo con la aproximación normal). GPower Binomial Exact Proportions: Inequality, two dependence groups (McNemar) Post hoc, 2 colas, OR = 1.3, α = 0.05, n = 75, pD = 14/75 = 0.186 (con pD y n, GPower obtiene nD). Options: faster aproximation Entrega una potencia de: 0.023 (calculada en forma exacta como binomial). Rediseño A priori, Para una potencia de 0.80, entrega un tamaño de muestral de 2468 (cálculo como binomial). Gráficas En la figura 5-119 y en la figura 5-120 se observan las distribuciones binomiales y las curvas de Potencia en función del tamaño del efecto, para varios valores de n. Con el tamaño de la muestra es decir el número de pares (n = 75), se requeriría un tamaño del efecto altísimo de cerca de 7 para llegar a una potencia cercana a 0.80 o con un tamaño del efecto de 1.3 se requeriría una muestra de alrededor de 2475. Figura 5-119 192 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema c: comparación de varianzas de variables cuantitativas contínuas Figura 5-120 Chi-cuadrado (solución descentralizada) χ2 tests Goodness-of-fit tests: Contingency tables Post hoc, Effect size: 0.0564, α = 0.05, n = 75, Df: 1. Entrega una potencia de: 0.077. Figura 5-121 Problema c: comparación de varianzas de variables cuantitativas contínuas σ Razón de varianzas θ = 12 2 σ2 Esta sección permitirá analizar la igualdad o no entre las varianzas poblacionales de 2 distribuciones. 193 Capítulo 5 Inferencia Paramétrica I El formato con el cual se presentan los datos, se muestra en la figura 5-122. Se tiene una variable de escala que define el concepto a estudiar, x y una variable categórica dicotómica que define los 2 grupos, con niveles 1 y 2. x y 1.23 1 2.45 2 3.26 2 6.45 1 8.23 1 … … 6.78 2 1.56 1 3.21 1 4.13 1 2.56 2 Figura 5-122 Modelado Se puede realizar esta prueba con 2 técnicas distintas: 1. Prueba F 2. Prueba de Levene Prueba F (exacta) Se demuestra que si las distribuciones poblacionales son normales e independientes, para cualquier tamaño de la muestra, la distribución: ⎛ s /s ⎞ F (ν 1 ,ν 2 ) = ⎜ 1 2 ⎟ ⎝ σ1 / σ 2 ⎠ 2 con: ν 1 = n1 − 1 ν 2 = n2 − 1 sigue una distribución F con ν1 y ν2 grados de libertad. Por lo tanto la transformación a realizar en este caso es a la variable F. En la comparación de medias y proporciones resultó conveniente asignar una letra a la diferencia, Δ. Por la misma razón, en el caso de resultar conveniente (por ejemplo al tratar la potencia), asignaremos en este caso la letra R a la razón o cociente. Por lo tanto, la expresión anterior podría expresarse como: ⎛R ⎞ F (ν 1 ,ν 2 ) = ⎜ S ⎟ ⎝ Rσ ⎠ 2 Supuestos 1. Normalidad Este requisito, de igual forma que para el caso del análisis de una varianza, no es robusto, por lo cual deberá estudiarse con cierto detalle. 194 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema c: comparación de varianzas de variables cuantitativas contínuas 2. Independencia Este requisito implica, como ya sabemos, que las muestras no estén apareadas o asociadas. Análisis por IC Si en la ecuación general de probabilidades, P( FI ≤ F ≤ FS ) = c se reemplaza la ecuación anterior, se obtiene una ecuación pivote en la cual se puede despejar el cociente de las varianzas poblacionales σ12/ σ12, para obtener así la ecuación del IC: ⎛ s2 ⎞ 1 σ 2 s2 1 P ⎜ 12 ≤ 12 ≤ 12 ⎟=c ⎝ s2 FS (ν 1,ν 2 ) σ 2 s2 FI (ν1,ν 2 ) ⎠ Notar que por la propiedad recíproca (capítulo3), esta expresión es equivalente a: ⎛ s2 ⎞ σ 2 s2 P ⎜ 12 FI (ν 2 ,ν 1 ) ≤ 12 ≤ 12 FS (ν 2 ,ν 1 ) ⎟ = c σ 2 s2 ⎝ s2 ⎠ Si el 1 está comprendido en el IC, entonces la igualdad entre las varianzas poblacionales es admisible, con un nivel de confianza dado por c. Este problema se llama homogeneidad de varianzas o también homocedasticidad. Observar que en este caso, al igual que en la estima de la desviación estándar, el IC no puede expresarse con el formato σ 12 s12 = ± B , puesto que el IC no está centrado en el cociente de σ 2 2 s2 2 varianzas muestrales. Estudiar el problema resuelto 5.20. Análisis por PH Bilateral H 0 : σ 12 = σ 22 H A : σ 12 ≠ σ 22 Unilateral H 0 : σ 12 ≥ σ 22 H A : σ 12 < σ 22 o H 0 : σ 12 ≤ σ 22 H A : σ 12 > σ 22 Notas Cola superior En el capítulo 3 hemos visto la propiedad recíproca para obtener las colas inferiores de las distribuciones F. Sin embargo, dada la hipótesis de igualdad, la ecuación de F resulta: s F (ν 1 ,ν 2 ) = 12 s2 2 Como se tiene libertad para elegir quién es 1 y quién 2, puede hacerse de tal forma que el cociente sea siempre mayor que 1 (es decir con la varianza muestral mayor en el numerador). Esta elección, si bien no es obligatoria, conduce a necesitar solo la cola superior en el proceso de una PH (en la construcción de un IC bilateral se requieren ambos valores). Esto es así pues el valor muestral no debe contradecir a la HA 195 Capítulo 5 Inferencia Paramétrica I (página 31), por lo cual solo se necesitará verificar la cola superior, se trate de una prueba unilateral o bilateral. Valores críticos Si se usa una tabla como la del apéndice B, puede suceder que los grados de libertad no se encuentren en ella. La solución es interpolar linealmente pero como solo deseamos conocer el valor crítico para situar, respecto de él, al valor muestral, en la mayoría de los casos esto no es necesario. Sea por ejemplo la búsqueda del valor F crítico para α = 0.05 y ν1 = 10, ν2 = 45. Sin interpolar se obtienen 2 valores: F (10, 40) = 2.08 F (10,50) = 2.03 El valor crítico real estará entre ambos valores, pero si el valor muestral es mayor que 2.08, se situará en la región de rechazo y si es menor que 2.03, se situará en la región de no rechazo. Solo habrá que realizar la interpolación lineal si el valor muestral se sitúa entre ambos valores críticos. Interrelación entre IC y PH Fijadas las regiones de una PH, las conclusiones acerca del resultado de la muestra son totalmente equivalentes a las de un IC. En la figura 5-123 se muestra la situación por ejemplo, cuando el valor muestral "cae" justo en el límite de la región crítica. Se plantean 2 ecuaciones generales: • para la PH: ⎛ s12 ⎞ σ 12 ⎜ 2 ⎟ = 2 FS ⎝ s2 ⎠c σ 2 • y para el IC: ⎛ s12 ⎞ ⎜ 2⎟ ⎝ s2 ⎠ m LCI = Fs ⎛ s12 ⎞ ⎛ s12 ⎞ = ⎜ 2 ⎟ , se tiene: 2 ⎟ ⎝ s2 ⎠c ⎝ s2 ⎠m Si ⎜ LCI = σ12 σ 22 Figura 5-123 A partir de esta conclusión, es fácil observar que si el valor muestral "cae" dentro de la zona crítica, el IC no comprenderá a σ12 / σ22, como es de esperar para resultados significativos. Lo propio ocurre si el valor muestral "cae fuera de la zona crítica. 196 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema c: comparación de varianzas de variables cuantitativas contínuas Diferencia de desviaciones θ = Δd Prueba de Levene (normal o asintótica) La prueba F es muy sensible a la falta de normalidad de las poblaciones por lo cual la versión para esta prueba utilizada en el SPSS es la prueba de Levene, mucho más robusta y además no está limitada a solo 2 poblaciones. Procedimiento 1. Desviaciones medianas absolutas Calcular la mediana de cada muestra. Con ella obtener las desviaciones medianas absolutas para cada valor de x de ambas muestras: d =| x − Q2 | (puede reemplazarse la mediana con la media) 2. Prueba t de muestras independientes Realizar una prueba t de Δμ para muestras independientes para estas nuevas variables d. Puesto que el contenido da las mismas son ahora desviaciones, se está en realidad efectuando una prueba de variaciones. Análisis por IC y PH Se aplican las correspondientes a una prueba t de muestras independientes. Diagramas de caja Es conveniente comenzar explorando los datos con un diagrama de cajas. Estos diagramas (ver también el análisis del comportamiento de la varianza de una variable) proveen la posibilidad de realizar en forma gráfica un análisis de comparación de varianzas exploratorio y preliminar. A diferencia de las barras de error para la comparación de medias (página 142), aquí miramos la altura de las cajas. Si la altura de las cajas (AIC) y la longitud de los bigotes de cada una de las muestras son aproximadamente iguales y no existen valores extremos que distorsionen los diagramas, tenemos un indicio de que las muestras probablemente proceden de poblaciones con igual varianza. Nota No pueden compararse las barras de error de las varianzas individuales pues la superposición equivale a realizar la diferencia de valores muestrales, en tanto que la prueba F se basa en un cociente. En cambio sí podrían ser utilizados las variables d de la prueba de Levene. SPSS Prueba de Levene La prueba de Levene se presenta en 2 lugares: 1. Prueba de θ = Δμ para muestras independientes 2. Procedimiento explorar: Analyze > Descriptive Statistics > Explore > colocar la variable en estudio en Dependientes y la que define los grupos en Factores (puede ser más de uno). En Plots activar la opción Untransformed (datos sin transformar). Prueba F Si bien esta prueba no está contenida en el SPSS, se puede obtener con la sintaxis que se muestra en la figura 5-124. La misma reproduce los pasos que se deben realizar para resolver a mano la inferencia entre 2 poblaciones, la primer parte es la prueba de hipótesis y la segunda es el intervalo de confianza. 197 Capítulo 5 Inferencia Paramétrica I Figura 5-124 Para que el código funcione preparar en el editor de datos 5 variables con los nombres: s1sq_s2sq, sigma1sq_sigma2sq, df1, df2 y alfaF, donde s1sq_s2sq es el cociente de las varianzas muestrales, sigma1sq_sigma2sq es el cociente de las varianzas poblacionales a probar, df1 y df2 son los grados de libertad y alfaF es el nivel de significación. Colocar los valores numéricos correspondientes al caso en estudio. Luego abrir una ventana de sintaxis y escribir el código de la figura 5-124 (o pegar el que se encuentra en el archivo sintaxis.txt) y ejecutar con Run > All. Tamaño del efecto y ecuación de diseño Para este caso, se define el tamaño del efecto, como R1 = σ 12 perteneciente a H1, pues este cociente σ 22 es 1, si la hipótesis nula es cierta, R0 = 1 . ⎛σ 2 ⎞ E = ⎜ 12 ⎟ = R1 ⎝ σ 2 ⎠1 Procedemos en forma análoga al de una distribución normal, partiendo de H 0 : σ 12 = σ 22 , despejando s1/2 s22 de las expresiones para H0 y H1. Obtenemos así la siguiente ecuación de diseño: Fα 1 = Fβ R1 Es decir que la distribución de H1, Fβ , es la misma distribución central F, dividiendo los valores de F por el tamaño del efecto. La distribución de H1 resultará entonces escalada con el tamaño del efecto. 198 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema c: comparación de varianzas de variables cuantitativas contínuas Potencia y tamaño de la muestra Potencia, P Vimos que la distribución de H1 es la misma distribución central F dividiendo los valores de F por el tamaño del efecto. Por lo tanto, para hallar la potencia solo bastará hallar las CDF (y/o 1–CDF) de esa distribución F para el valor crítico Fβ (ver problema resuelto). Tamaño de la muestra, n El tamaño n de la muestra solo aparece en los grados de libertad y se presenta un problema similar al comentado en el problema de una varianza (página 128), para el cálculo de P => n, debiendo aperar por prueba y error (grados de libertad => P), por lo cual, para acelerar el proceso, se utilizan tablas preparadas a tal efecto o un software como por ejemplo GPower. Problema resuelto 5.20 Toma de apuntes en clase En el problema resuelto de comparación de medias (página 148), había quedado pendiente el análisis de las varianzas. Un investigador desea probar que la toma de apuntes en clase produce mayor retención que el que no lo hace. Para ello toma una muestra de 5 alumnos de cada grupo, A: toma apuntes, B: no toma apuntes y compara sus notas finales. Estos datos se muestran en la tabla de la figura 5-125 Puntaje A Puntaje B 10 8 9 6 6 6 6 2 5 6 Figura 5-125 IC Obtener el IC del cociente entre las varianzas de ambos grupos, para un nivel de significación del 90%. PH Probar la aseveración de que no existe diferencia entre las varianzas con α = 10%. Interrelacionar gráficamente el IC con la PH. SPSS Resolver con el SPSS. Verificación: potencia retrospectiva Analizar la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Paso 1 Problema Comparar grupos: θ= σ1 σ2 . Paso 2 Modelo Distribuciones t de Student y F. Se incluyen luego dentro de IC y PH. 199 Capítulo 5 Inferencia Paramétrica I Paso 3 Diseño Tamaño de la muestra: n1 = 5, n2 = 5. Paso 4 Análisis IC Modelado Distribución muestral de θˆ = s12 s22 x1 = 7.2 x2 = 5.6 s12 = 4.7 s22 = 4.8 Inferencia s12 4.7 = = 0.979 s22 4.8 FS = IDF .F (0.95, 4, 4) = 6.39 FI = IDF .F (0.05, 4, 4) = 0.16 Si no se cuenta con el SPSS, FI se obtiene de: FI = 0.979 1 = 0.16 6.39 1 σ2 1 ≤ 12 ≤ 0.979 6.39 σ 2 0.16 ⇒ 0.153 ≤ σ12 ≤ 6.12 σ 22 ⎛ s12 ⎞ ⇒ IC ⎜ 2 ⎟ = 0.153 a 6.12 ⎝ s2 ⎠ Decisión Las diferencias entre los valores contenidos dentro del IC, no son significativas al nivel c = 95%. Como 1 (cociente de varianzas iguales) se encuentra comprendido en el IC, no existen diferencias significativas entre las varianzas. PH 200 H0 : σ 12 = 1 Aseveración σ 22 HA : σ 12 ≠1 σ 22 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema c: comparación de varianzas de variables cuantitativas contínuas Prueba F Modelado Distribución muestral de θˆ = Rs = 2 s12 s22 Ídem IC. Inferencia 1 Comparando con el eje estandarizado F Los F críticos son los FS y FI ya obtenidos en el IC. FS = IDF .F (0.95, 4, 4) = 6.39 FI = IDF .F (0.05, 4, 4) = 0.16 4.7 / 4.8 Fm (4, 4) = = 0.979 1 ⇒ Fm < Fc ⇒ No se rechaza H 0 2 Comparando con el eje sin estandarizar Rs2 ⎛ s2 ⎞ Rs2 = ⎜ 12 ⎟ = 0.979 m ⎝ s2 ⎠ m ( Rs 2 )ci = Fci Rσ 2 = 0.16(1) = 0.16 ( Rs2 )cs = Fcs Rσ 2 = 6.39(1) = 6.39 ⇒ ( Rs )ci < Rs < ( Rs )cs ⇒ No se rechaza H 0 2 3 Comparando con las áreas 2 m 2 α = 0.10 SIG.F (0.979, 4, 4) = 0.51 ⇒ p = 2 P( F > Fm ) = 1 ⇒ p > α ⇒ No se rechaza H 0 Decisión La diferencia entre el valor muestral obtenido (0.95) y el valor de la hipótesis (1), no es significativa al nivel α = 10%. (F(4,4) = 0.979, p = 1). Por lo tanto no existe evidencia suficiente para rechazar la aseveración de que las varianzas de los grupos, A: toma apuntes y B: no toma apuntes, son iguales. Interrelación gráfica del IC con la PH Figura 5-126 Como la PH no rechazó la H0: Rσ2 = 1, entonces el IC obtenido debe comprender a este valor (lo cual sucederá 90% de las veces). 201 Capítulo 5 Inferencia Paramétrica I Prueba de Levene Modelado t de Student 1 Desviaciones Medianas Absolutas Para cada muestra resulta Q2 = 6. Calculando las desviaciones absolutas respecto de la media se obtienen 2 nuevas columnas. 2 Prueba t de diferencia de muestras independientes Con estos valores se obtienen los valores de la tabla 5-127. Desviación A Desviación B Media Desviación Std 1.60 1.816 1.20 1.789 Figura 5-127 Inferencia Con estas 2 nuevas variables realizamos la prueba t de diferencia de medias independientes, la cual produce los siguientes valores: Comparando las áreas α = 0.10 CDF .T (0.351,8) = 0.633 ⇒ colasup = 1 − 0.633 = 0.367 ⇒ p = 2 P(t > tm ) = 2 ∗ 0.367 = 0.734 ⇒ p > α ⇒ No se rechaza H 0 SPSS Procedimiento en la página 197 Prueba F Ejecutando la sintaxis se obtiene: Fisher = 0.979 Finf = 0.16 Fsup = 6.39 LCIF=0.15 LCSF=6.25 SIGNF=0.51 no rechazar H0. Prueba de Levene Figura 5-128 202 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema c: comparación de varianzas de variables cuantitativas contínuas Los valores del cálculo manual son los mismos del cuadro SPSS de la figura 5-128. En la columna Levene Statistic se muestra el valor F, pero debe recordarse del capítulo 3, página Error! Bookmark not defined., que: Fα (1,8) = tα / 2 (8) = (0.351) = 0.123 . 2 2 Diagrama de caja Figura 5-129 Si bien la caja del grupo B es menor que la del A, en el grupo B hay 2 extremos que influyen en la construcción del diagrama de caja. En consecuencia esta aproximación gráfica no permite extraer conclusiones. Paso 5 Verificación: potencia retrospectiva El resultado es no significativo por lo cual deberíamos calcular P para un E alto. Consideremos que el investigador adopta al valor de 1.5 como un E alto. 1 SPSS Para determinar cuáles son los valores de F que producen colas de α/2 en ambos extremos, utilizamos la función del SPSS llamada Inverse DF (solo para distribuciones contínuas). IDF .F (0.05,4, 4) = 0.156 Fi = 0.156 IDF .F (0.95, 4, 4) = 6.39 Fs = 6.39 De esta forma, la suma de ambas colas es α = 0.10. Solución Asignemos ahora el tamaño del efecto E. Vimos que la distribución de H1 es la misma distribución central F, dividiendo los valores de F por el tamaño del efecto. Con un tamaño del efecto E = σ1/σ2 = 1.5, resulta: CDF .F (0.156 /1.5,4,4) = 0.026 SIG.F (6.39 /1.5, 4, 4) = 0.094 En definitiva (ver la figura siguiente), la potencia será: 203 Capítulo 5 Inferencia Paramétrica I P = 0.026 + 0.094 = 0.12 La baja potencia o sensibilidad de la prueba para un tamaño del efecto grande, indica que existe el riesgo de un efecto no detectado que sea lo suficientemente grande para ser útil, por lo cual el estudio es no concluyente. Rediseño Se debe rediseñar el estudio inferencial partiendo de la potencia P => n. Dado que el tamaño de la muestra se encuentra en los grados de libertad, se debe actuar por aproximaciones sucesivas probando varios valores de n, hasta llegar a una potencia de 0.80 (ver página 134). De esta forma se llega a: IDF .F (0.05,152.152) = 0.77 Fi = 0.77 IDF .F (0.95,152,152) = 1.31 Fs = 1.31 CDF .F (0.77 /1.5,152,152) = 0 SIG.F (1.31/1.5,152,152) = 0.80 P = 0 + 0.80 = 0.80 La conclusión es que debería repetirse el análisis con un tamaño muestral de por lo menos 153 alumnos en cada grupo. En el problema de comparación de medias se concluyó que era necesario un tamaño muestral de por lo menos 26 en cada grupo, pero para comparar las varianzas, vemos que se requieren por lo menos 153 alumnos. 2 GPower F tests Variance Test of equality (two sample case) Post hoc, 2 colas, α = 0.10, Ratio var1/var0 = 1.5 y n1 = n2 = 5, Allocation ratio = 1. Devuelve una potencia de 0.12. Rediseño A priori, Para una potencia de 0.80, entrega un tamaño de muestral de n1 = n2 = 153. Gráficas En la figura 5-130 y en la figura 5-131 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto, para varios valores de n (n=n1+ n2). Observar que la distribución de H1 es la misma que la de H0 (no es la F descentralizada), solo que escalada en el eje x. Para n = 10, se pueden ver las bajas potencias de esta prueba para tamaños del efecto que parecen ser suficientemente grandes. Se requeriría un tamaño del efecto de 16 para llegar a una potencia de 0.8. Si se aumenta n, aumenta la potencia considerablemente y la prueba podría dar significativa. GPower entrega además los límites de la región crítica: (0.156; 6.388). 204 Jorge Carlos Carrá III Análisis de dos variables: Comparación entre grupos Problema c: comparación de varianzas de variables cuantitativas contínuas Figura 5-130 Figura 5-131 205 Capítulo 5 Inferencia Paramétrica I IV Análisis de dos variables: Asociación entre variables En el capítulo 1 estudiamos las técnicas que permiten conocer el grado de asociación entre los datos muestrales de 2 variables. Dividimos aquel estudio en 2 técnicas separadas: Correlación y Regresión. La correlación se ocupa de la asociación y la regresión de la predicción. En esta sección realizaremos el segundo paso, es decir estudiaremos como inferir esos resultados a las poblaciones. Estimaremos los coeficientes de regresión, los coeficientes de la recta poblacionales y realizaremos predicción valores. Todo ello con la medida del error. Para realizar la inferencia se requiere encontrar, como ya sabemos, un estimador, en lo posible insesgado y convergente de los parámetros a estimar, con su distribución de probabilidades. Problema a: Correlación Trata de establecer la asociación entre 2 variables aleatorias X e Y. Para muchas aplicaciones, el investigador solo está interesado en la correlación lineal. 1. Escala por escala (por lo menos) θ =ρ La correlación líneal poblacional se simboliza con la letra griega ρ. Supuestos La correlación simple se basa en 4 suposiciones sobre la población: 1 Linealidad La relación entre ambas variables aleatorias es lineal. 2 Aleatoriedad Ambas variables son aleatorias. Esta suposición se diferencia de los supuestos de la regresión (sección siguiente), en donde se exige que la variable x sea constante. 3 Normalidad La distribución de una variable, condicionada a los distintos valores de la otra variable, es normal. Esta suposición equivale a decir que la distribución de las variables aleatorias (X, Y) es binormal. En general los datos suelen exhibir asimetría (negativa o positiva) y/o curtosis por lo cual esta condición no es fácil de verificar. Como mínimo se debe controlar por lo menos que no existan 206 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables 1. Escala por escala (por lo menos) extremos (capítulo 1, página Error! Bookmark not defined.). Si los hubiera, debe calcularse la correlación con y sin ellos. 4 Homocedasticidad Las varianzas de la distribución de una variable condicionada a la otra, son iguales. Existen en general 2 alternativas. a t de Student Modelado Demostraremos luego en la página 234 a partir de la ecuación de la varianza estimada de la pendiente de la recta de regresión que si se cumplen los los 3 supuestos anteriormente enunciados y la correlación poblacional ρ es cero, entonces el estadístico rP, al que llamaremos simplemente r, sigue una distribución t de Student con: ν = n−2 y parámetros: E (r ) = 0 1− r Vˆ ( r ) = n−2 2 Puede observarse que en este enfoque, la varianza depende del coeficiente de correlación, además del tamaño de la muestra. A mayor valor del coeficiente de correlación, menor varianza, lo cual es un problema pues las mayores correlaciones aparecen más precisas. Por esta razón es más conveniente utilizar la transformación de Fisher que se verá a continuación y luego de realizar el estudio antitransformar al coeficiente de correlación. Análisis Análisis por IC No puede construirse un IC con la expresión de la t de Student, pues las ecuaciones parten del supuesto: ρ = 0 y por lo tanto en la ecuación pivote no se puede despejar el parámetro poblacional (ρ ≠ 0 solo es posible si HA es cierta). El IC provendrá de la transformación de Fisher que se presentará en el punto siguiente. Análisis por PH Ho : ρ = 0 HA : ρ ≠ 0 Con esta prueba, el investigador solo puede probar si ρ tiene algún valor distinto de cero, cualquiera sea éste. t= r−ρ σr = r −0 σr Si se reemplaza la varianza del coeficiente de correlación por la varianza estimada y se opera con estas expresiones, se obtiene: t=r n−2 1− r2 El factor 1 − r 2 se llama coeficiente de no determinación. 207 Capítulo 5 Inferencia Paramétrica I Si ahora se despeja el valor crítico de r al que llamamos rc resulta: rc 2 = tc 2 tc 2 + n − 2 Método alternativo La tabla que se encuentra en el Apéndice B, contiene los valores críticos del coeficiente de correlación de Pearson, que resultan de la ecuación anterior. Esta tabla puede ser utilizada para simplificar el proceso, pues permite realizar la comparación directamente con los valores del eje r. Notas 1 Como puede suceder que rP fuera distinto de cero y que simultáneamente no pueda rechazarse que ρ sea cero, es necesaria no solo la inferencia, sino también un análisis de potencia para conocer que tamaños del efecto se están detectando. 2 Correlación biserial puntual Si consideramos las 2 variables de un problema de comparación de medias independientes (variable de datos y variable grupal), la correlación entre las mismas, llamada correlación biserial puntual, rpb. La relación entre rpb y t estará dada por la relación indicada en la fórmula anterior. b Normal con transformación arcth Modelado La distribución t de Student del coeficiente de correlación es sesgada a la derecha, su varianza depende del coeficiente de correlación y además es solo válida para H0: ρ = 0. Estos inconvenientes pueden resolverse con el cambio de variable, llamado transformación de Fisher: Z = arcth x = 1 1+ x ln 2 1− x Para que el logaritmo tenga sentido, el dominio debe ser (como lo es la th(x)): −1 < x < 1 En nuestro caso, resulta: zF = 1 1+ r ln 2 1− r Se ha usado el subíndice F para que no se confunda con la variable z, con la cual no existe ningúna relación. Figura 5-132 Por su parte, la imagen de esta función es el campo de los reales. Se demuestra que los parámetros de esta nueva distribución son: E ( zF ) = ρ F 1 V ( zF ) = n−3 208 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables 1. Escala por escala (por lo menos) Observamos que la transformación de Fisher, además de normalizar, produce una varianza independiente del valor de ρ. Se resuelve así un problema similar al estudiado en las proporciones, página 101, en donde se utilizó la transformación arcseno. El estadístico de prueba es entonces: z= zF − ρ F σz F Se destaca que la transformación, al igual que la arcsen de las proporciones, tampoco opera sobre los datos crudos originales. El procedimiento es calcular r a partir de cada muestra y construir la distribución muestral de zF. Esta técnica no está contenida en el SPSS, por lo tanto se deben realizar 2 transformaciones: a la variable zF y luego a la variable z. Análisis Análisis por IC A partir del modelo anterior, resulta: ρ F = zF ± B B = zα / 2σ zF Si el IC fuera unilateral, se deberá reemplazar zα/2 por zα. Los valores de r o ρ (para por ejemplo los límites del IC) se obtienen despejando r de la transformación de Fisher: r = th( zF ) = exp(2 z F ) − 1 exp(2 zF ) + 1 Se construyen los IC y las PH, como en cualquier distribución normal. Los IC en z posteriormente se antitransforman para obtener los valores en la variable original. Esta transformación será además utilizada en la página 213, para construir un tamaño del efecto que no dependa de la varianza. Si se deseara obtener el error estándar del coeficiente de correlación, la antitransformación conduce a: SE r = (1 − r 2 ) * SE ZF Nota Las transformaciones de Fisher directa e inversa pueden obtenerse con una calculadora que tenga funciones hiperbólicas o con las funciones de EXCEL: Fisher(x) Fisherinv(z) Análisis por PH H o : ρ = ρ0 H A : ρ ≠ ρ0 Se compara de la forma habitual con el estadístico de prueba o con las áreas. θ = Δρ Se utiliza la transformación de Fisher que aproxima la distribución a una normal con: E ( Δz F ) = 0 V (Δz F ) = 1 1 2 + = n−3 n−3 n−3 209 Capítulo 5 Inferencia Paramétrica I A partir de estos parámetros se siguen los mismos lineamientos de una sola muestra. 2. Nominal por nominal (por lo menos) La prueba de asociación chi-cuadrado, llamada de la bondad del ajuste fue introducida en el capítulo 1, página Error! Bookmark not defined. y ya fue utilizada en este capítulo en la página 101. Requiere el formato de una tabla de contingencias Supuestos Es una prueba no paramétrica pues no necesita el conocimiento acerca de la distribución de la población de donde surge el conteo. Modelado χ2 = ∑ (no − ne ) 2 ne Esta ecuación tiene aplicación general en los siguientes casos: Una variable Bondad del ajuste a una distribución arbitraria. Tablas r×1 para todo r, vistas en θˆ = p̂ , página 101. Dos variables Bondad del ajuste a una distribución bivariable con independencia de esas variables. Tablas r×c, para todo r y c. Vistas en θˆ = Δ p̂ , página 168. Si n es grande (valor de la celda del total), la frecuencia esperada de cada celda es mayor o igual a 5 (lo cual implica que el tamaño mínimo de la muestra debe ser 5 por el número de celdas) y el 100% de las celdas eséradas tiene un valor mayor que 1, el estadístico χ2 sigue aproximadamente una distribución chi-cuadrado con grados de libertad dados por: ν = (r −1)(c −1) siendo r el número de filas (row) y c el número de columnas (column). Como la prueba chi-cuadrado de la bondad del ajuste es χ 2 = 0 y χ2 es siempre positiva (no toma en cuenta la dirección de las diferencias), la HA solo puede ser > 0 y por lo tanto es una prueba de cola superior. Análisis A partir de este modelo se pueden formular inferencias como PH (página 101). H 0 = Buen Ajuste χ 2 = 0 H A = Mal Ajuste χ 2 > 0 3 Ordinal por ordinal (por lo menos) Si las variables son ordinales o la variable de escala en estudio se transforma en una variable ordinal, creando los rangos o jerarquías para cada valor (ver capítulo 1, página Error! Bookmark not 210 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables 3 Ordinal por ordinal (por lo menos) defined.), entonces se puede aplicar la técnica no paramétrica llamada prueba de correlación de Spearman. Supuestos Solo exige que la muestra sea aleatoria. Una característica saliente de esta prueba es la de no necesitar los supuestos paramétricos acerca de la población, tales como la normalidad. Como ventaja adicional y a diferencia del coeficiente de Pearson, suele detectar algunas correlaciones no lineales. Modelado Valores críticos Si n < 30 Utilizar tablas especiales de valores críticos del coeficiente de correlación de Spearman que evitan cualquier supuesto de normalidad o de linealidad entre las variables (Apéndice B). Puede observarse en la tabla que para valores muy chicos de n, los valores críticos del coeficiente de correlación de Pearson (calculados con la t de Student), son menores o iguales a los del coeficiente de correlación de Spearman. En estadística, cuanto mayor sea el valor de corte, se dice que es más conservadora (o conservativa) pues se rechazará con menor frecuencia. Esto indica que, para esos valores de n, la utilización de la t de Student, produce un resultado menos conservador que con el valor correcto. Si n > 30 Utilizar como distribución de rS, al que llamaremos simplemente r, una aproximación a la normal, con parámetros: E (r ) = 0 1 Vˆ (r ) = n −1 Tabla de contingencias Hemos visto que una tabla de contingencias con datos nominales, puede analizarse con una chicuadrado. ¿Qué sucede si la tabla de contingencias contiene datos ordinales9? ¿Puede aprovecharse la mayor información que incluye esta métrica? Una prueba con el coeficiente de correlación de Spearman, incluye demasiada cantidad de empates, pero existen otras diversas formas, entre las cuales se encuentra la la chi- cuadrado ordinal. Esta prueba parte del supuesto de asociación lineal entre las variables. Una aproximación intuitiva sería obtener el coeficiente de correlación de Pearson y en realidad (Agresti A, página 34), esta asociación se puede medir por: M 2 = ( n − 1) r 2 ν = 1 Para n grande, esta variable tiene aproximadamente una distribución Chi-cuadrado con ν = 1. Como el grado de libertad es 1, sabemos que M sigue entonces una distribución normal, la cual es adecuada cuando se desea una prueba de una cola. 9 Si una de las variables es dicotómica, puede interpretarse como ordinal en cualquier caso. 211 Capítulo 5 Inferencia Paramétrica I Análisis Conocidos los valores críticos, el procedimiento no difiere de los ya conocidos y utilizados. SPSS Coeficientes de correlación Analyze > Correlate > Bivariate. Colocar las variables que se van a investigar, tildar el coeficiente de correlación deseado y el tipo de prueba (1 cola o 2 colas). Options Tildar: Means and standard deviations y Cross-product deviations and covariances. Tabla de contingencias Analyze > Descrptive Statistics > Crosstabs. Colocar en filas y columnas las variables que se van a investigar. Tildar Statistics y elegir los estadísticos que se requieran. SPSS entrega el resultado de la prueba chi-cuadrado ordinal en la tabla Chi Square Tests, como Linear by Linear Asociation. Tamaños del efecto y ecuación de diseño Definimos aquí los tamaños del efecto para luego integrarlos a la ecuación de diseño. ρ t de Student H0 : ρ = 0 HA : ρ ≠ 0 Para la prueba del coeficiente de correlación ρ0 = 0, se utiliza el valor poblacional ρ como tamaño del efecto. Apreciar que ρ − ρ 0 = ρ y que éste coeficiente es adimensional. Los valores de tamaño convencionales, según Cohen (Cohen, J. 1988), son: • Chico, ρ = 0.10 • Mediano, ρ = 0.30 • Grande, ρ = 0.50 Se realiza un comentario similar al realizado para el tamaño del efecto w correspondiente a la prueba de la bondad del ajuste (página 107) y a la prueba de homogeneidad de proporciones. El coeficiente de correlación ρ no informa sobre la significación de la asociación sino sobre la intensidad de la misma. Luego de haber analizado la significación, resta saber si los valores detectados (o no detectados) corresponden a tamaños del efecto poblacionales ρ chicos, medianos o grandes. Esto se realiza con el análisis de potencia retrospectiva, incluida en todos los problemas resueltos. Para obtener la ecuación de diseño razonamos en forma similar al caso inicial de prueba de la media (sección I Diseño, página 40) y partimos de la igualación del resultado muestral para H0 y H1: rm = z aσ r + ρ 0 = z β σ r + ρ1 212 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Tamaños del efecto y ecuación de diseño De aquí resulta que la descentralidad nc es proporcional al tamaño del efecto e inversamente proporcional a la desviación estándar de la distribución muestral. Si en para la hipótesis H o : ρ = 0 reemplazamos Vˆ ( r ) , por V (r ) para lo cual reemplazamos r por ρ, resulta: nc = ρ1 n−2 1 − ρ12 con lo cual se obtiene la ecuación de diseño: t β = tα − nc normal con transformación arcth H 0 : ρ = ρ0 H A : ρ ≠ ρ0 Si se tratara del caso H 0 : ρ = ρ 0 ≠ 0 , no podrá utilizarse el tamaño del efecto ρ, anteriormente expresado pues la varianza utilizada depende de ρ. De aquí que un mismo tamaño del efecto producido por diferentes valores de ρ0, tendrá distintas potencias. El problema se resuelve en forma similar al caso de Δp con una transformación, en este caso la transformación de Fisher, página 208 Operando y llamando: nc = ( ρ F 1 − ρ F 0 ) n − 3 se obtiene la ecuación de diseño: z β = zα − nc w Como ya hemos visto en las pruebas de la bondad del ajuste y de homogeneidad de proporciones, para estas pruebas chi- cuadrado se adopta como tamaño del efecto al equivalente poblacional del coeficiente φ muestral estudiado en el capítulo 1, página Error! Bookmark not defined., al cual se lo llama w. w= χ2 n = ( fo − fe )2 ∑ f e El parámetro descentralizado y la ecuación de diseño es: χ 2 = w2 n = nc Los valores de tamaño convencionales, según Cohen (Cohen, J. 1988), son: • Chico, w = 0.10 • Mediano, w = 0.30 • Grande, w = 0.50 Nuevamente es saludable diferenciar la intensidad de la relación informada por el tamaño del efecto poblacional w y la significación informada por el valor p (significación). Δρ H 0 : Δρ = 0 H A : Δρ ≠ 0 213 Capítulo 5 Inferencia Paramétrica I El tamaño de efecto para una diferencia se define siempre para H0: Δ0=0. Utilizando la transformación de Fisher, 1 2 ρ F = arcth ρ = ln 1+ ρ 1− ρ se define el tamaño del efecto q como: q = Δ1 = ρ F 1 − ρ F 2 direccional q =| Δ1 |= ρ F 1 − ρ F 2 no direccional Los valores de tamaño convencionales, se obtienen resolviendo el sistema de 3 ecuaciones que definen ρF1, ρF2 y q. Esto implica definir 2 valores distanciados un tamaño del efecto ρ, transformar ρ1 a ρF1, y ρ2 a ρF2 y finalmente obtener q, (Cohen, J. 1988, página 131). Se observará que prácticamente se tienen los mismos valores que para el tamaño del efecto ρ. • Chico, q = 0.10 • Mediano, q = 0.30 • Grande, q = 0.50 Si inversamente se deseara convertir estos valores convencionales de q a los ρ del estudio, se deberá transformar ρ1 a ρF1, con q hallar la transformada ρF2 de ρ2 y finalmente reconvertir este valor a ρ2. La transformación de Fisher puede también utilizarse para resolver el caso de una muestra con ρ0 ≠ 0 (página 213). Las relaciones son similares pero resultan de considerar la mitad de la varianza pues cada muestra contribuye con 1 a la varianza total. n−3 Ecuación de diseño: z β = zα − nc con nc = n−3 q. 2 Observar nuevamente que nc es proporcional al tamaño del efecto e inversamente proporcional a la desviación estándar de la distribución muestral. Utilización de software o tabla de q para una muestra con ρ = ρ0 Se presenta un problema similar al tratado para Δp (página 179). En el caso de utilizar un software o tabla pensados para Δρ, los valores convencionales dados deben adaptarse, pues en el caso de una muestra la varianza total resulta la mitad y la desviación estándar, la raíz cuadrada de la mitad (Cohen, J. 1988, página 132). La ecuación de diseño es: z β = zα − nc con nc = n − 3 q ' . El valor de q´ surge de multiplicar al valor q por 2 , para eliminar este factor del denominador. q'= q 2 Naturalmente, si ρ0 =0, los resultados obtenidos con el tamaño del efecto ρ, coincidirán con los obtenidos con q'. En este caso, luego de resolver el sistema de 3 ecuaciones que definen ρF1, ρF2 y q, se obtienen: • Chico, q' = 0.141 • Mediano, q' = 0.424 • Grande, q' = 0.707 Esto se puede comprobar con el GPower comparando entre sí los 2 procedimientos: 214 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Exact. Correlation: bivariate Normal Model, y z tests. Two independent Pearson r´s Potencia y tamaño de la muestra ρ t de Student Potencia, P Se calculará tβ. Tamaño de la muestra, n Resolviendo la ecuación de nc para n, resulta: 2 ⎛ nc ⎞ n = ⎜ ⎟ (1 − ρ12 ) + 2 ⎝ ρ1 ⎠ Nota GPower utiliza n en lugar de n–2 en la ecuación de la Vˆ ( r ) . Normal con transformación arcth Potencia, P Se calculará zβ Tamaño de la muestra, n Resolviendo la ecuación de nc para n, resulta: 2 ⎛ z − zβ ⎞ n=⎜ α ⎟ +3 ⎝ ρF1 − ρF 0 ⎠ w Chi-cuadrado A partir de la ecuación de diseño se podrán calcular: Potencia, P Se debe resolver con la CDF χ2 no centralizada, con un parámetro de descentralidad dado por: χ 2 = w2 n = nc Tamaño de la muestra, n Se despeja n de la ecuación anterior, pero debe conocerse el parámetro de descentralidad. Se debe entonces trabajar por prueba y error: nc => P y luego: n= nc w2 Δρ Potencia P De la ecuación de diseño se calculará zβ 215 Capítulo 5 Inferencia Paramétrica I Tamaño de la muestra n Resolviendo para n se obtiene un tamaño muestral dado por: 2 ⎛ z − zβ ⎞ n = 2⎜ α ⎟ +3 ⎝ q ⎠ Problema resuelto 5.21 Relación entre ingreso y gastos Continuación del problema resuelto del capítulo 1, página Error! Bookmark not defined.. John Keynes argumentó en 1936 que existe una relación teórica entre el ingreso de una persona (x) y sus gastos de consumo (y): a medida que el ingreso aumentaba, el consumo crecía en una cantidad menor. Posteriormente Milton Friedman, premio nobel de economía, recolectó los siguientes datos sobre ambas variables. Las unidades son miles de millones de dólares corrientes. x 284.00 328.00 345.00 364.00 364.00 398.00 419.00 441.00 447.00 483.00 y 191.00 206.00 216.00 230.00 236.00 254.00 266.00 281.00 290.00 311.00 ∑ x = 3873 ∑ x = 1533801 ∑ y = 2481 ∑ y = 629223 ∑ xy = 982266 2 2 Figura 5-133 a) Construir un IC con un nivel de confianza del 95%. b) Realizar una prueba de significación del coeficiente de correlación de Pearson para H 0 : ρ = 0 con un nivel de confianza del 95%, Interrelacionar gráficamente el IC con la PH. c) Analizar la potencia retrospectiva versus el tamaño del efecto de la prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Resolver con SPSS y con GPower. Paso 1 Problema Asociar variables. Paso 2 Modelo Distribuciones normal y t de Student. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: 10. 216 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Paso 4 Análisis a) IC En el capítulo 1 se calcularon los siguientes valores: rP = SS xx SS xx SS yy = 0.994 R2 = 0.988 Agregamos ahora: zF = 1 1 + r 1 1 + 0.994 ln = ln = 2.903 2 1 − r 2 1 − 0.994 1 1 V ( zF ) = = = 0.143 n−3 7 σ z = 0.143 = 0.378 F B = zα / 2σ zF = 1.96(0.378) = 0.74 ρ F = z F ± B = 2.903 ± 0.74 ⇒ IC = 2.163 a 3.643 Si el IC fuera unilateral, se deberá reemplazar zα/2 por zα. Los valores finales de ρ se obtienen antitransformando la ecuación de Fisher: exp(2(2.163) − 1) = 0.973 exp(2(2.163) + 1) exp(2(3.643) − 1) LCS = = 0.998 exp(2(3.643) + 1) LCI = ⇒ IC = 0.973 a 0.998 Las diferencias entre los valores contenidos dentro del IC, no son significativas al nivel c = 95%. Estos valores indican una muy fuerte asociación entre el ingreso de una persona (x) y sus gastos de consumo (y). El valor 0 no pertenece al IC por lo cual existe un 95% de confianza de que el intervalo no contenga a ρ = 0. b) PH z normal con transformación arcth H 0 : ρ = 0 Aseveración H A : p ≠ 0 ⇒ zF ≠ 0 1 Comparando el eje z 2.903 − 0 = 7.68 0.378 zc = z0.025 = 1.96 | zm |>| zc |⇒ Se rechaza H 0 zm = 2 Comparando el eje zF z Fm = 2.903 B = zα / 2σˆ zF = 1.96(0.378) = 0.740 z Fc = z F + B = 0 + 0.740 = 0.740 ⇒ zFm > z Fc ⇒ Se rechaza H 0 3 Comparando las áreas α = 0.05 217 Capítulo 5 Inferencia Paramétrica I CDF .norm(7.68) = 1 colasup = 1 − 1 = 0 p = 2 P (t > t m ) = 0 p < α ⇒ Se rechaza H 0 El coeficiente de correlación 0.994, es significativo al nivel del 5%. (z = 7.68, p = 0.00). Por lo tanto existe evidencia suficiente para rechazar la hipótesis de que la correlación entre el ingreso de una persona y sus gastos de consumo es cero. Interrelación gráfica del IC con la PH Figura 5-134 Como la PH rechazó la H 0 : z F = 0 , entonces el IC obtenido no debe comprender a este valor (lo cual sucederá 5% de las veces, por lo cual es un evento poco común). Modelado t de Student H 0 : ρ = 0 Aseveración HA : p ≠ 0 1− r2 = 0.00149 n−2 σ r = 0.0386 V (r ) = Inferencia 1 Comparando el eje r Se puede utilizar la expresión obtenida en la teoría: rc 2 = tc 2 tc 2 + n − 2 Pero en este caso, utilizaremos la tabla que resulta de esta ecuación con los valores críticos de r ya calculados (Apéndice B). Entrando con n = 10 para una cola de 0.025, se obtiene rc = 0.63. Como rm = 0.994, resulta: | rm |>| rc |⇒ Se rechaza H 0 2 Comparando el eje t tm = rP σ (rp ) = 25.7 tc = t0.025 (8) = 2.306 | tm |>| tc |⇒ Se rechaza H 0 3 Comparando las áreas α = 0.05 CDF .T (25.7,8) = 1 colasup = 1 − 1 = 0 p = 2 P (t > t m ) = 0 218 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra p < α ⇒ Se rechaza H 0 SPSS Procedimiento en la página 212 Figura 5-135 Paso 5 Verificación: potencia retrospectiva Este paso responde a la pregunta c. La prueba resultó significativa y podríamos analizar si está detectando (alta potencia) efectos chicos (0.10). Observemos además que (utilizando por ejemplo las expresiones con la t de Student): n−2 10 − 2 = = 2.84 2 1− r 1 − 0.12 tm 25.7 ρm = = = 0.993 n − 2 25.86 1− r2 tc 2.31 ρc = = = 0.81 n − 2 2.84 1− r2 Estos valores nos indican que el resultado es significativo (ρm > ρc) y que los tamaños del efecto poblacionales chicos (0.10), tendrán una potencia inferior a 50% (valor correspondiente a ρC). 1 SPSS tα = IDF .T (0.025,8) = 2.31 Solución centralizada n−2 = 0.284 1− r2 t β = tα − nc = 2.31 − 0.284 = 2.026 nc = ρ 1 − CDF .T (2.026,8) = 0.04 P = 0.04 Solución descentralizada P = 1 − NCDF .T (2.31,8,0.284) = 0.04 219 Capítulo 5 Inferencia Paramétrica I La potencia es muy baja por lo cual podemos concluir que si este efecto chico existiera en la población, probablemente no sería detectado en el estudio. Como la prueba detectó un efecto, es probable que el d no exista, por lo cual el estudio es concluyente. GPower Exact Bivariate normal model Post hoc, 2 colas, Correlation ρ H1 = 0.1. α = 0.05, n = 10, Correlation ρ H0 = 0. Entrega una P = 0.058. Notas a) GPower calcula los grados de libertad con otro algoritmo (Barabesi and Greco (2002)). b) Si se deseara utilizar la transformación arcth, presionar Options y elegir Use Fisher Z. Gráficas En la figura 5-136 y en lafigura 5-137 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto, para varios valores de n. Para n = 10, se pueden ver las bajas potencias de esta prueba para tamaños del efecto pequeños, lo cual indica que existen tamaños superiores, pues la prueba dio significativa. Figura 5-136 Figura 5-137 220 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Nota Si se coloca un valor de n grande, por ejemplo 1000, se obtiene una potencia de 0.88, lo cual indica que el estudio detectará un tamaño del efecto chico, aún cuando no sea de interés para el investigador (riesgo de n grande). Este es un ejemplo claro de la diferencia entre significación e importancia (página 78). Problema resuelto 5.22 Relación entre ingreso y gastos Si en el problema resuelto anterior, se crean 2 variables ordinales con los rangos de los valores de x e y, se obtienen los siguientes valores (por simplicidad en la notación las llamaremos también x e y): x 284.00 328.00 345.00 364.00 364.00 398.00 419.00 441.00 447.00 483.00 y 191.00 206.00 216.00 230.00 236.00 254.00 266.00 281.00 290.00 311.00 ∑ x = 55 ∑ y = 55 ∑ x = 384.5 ∑ y = 385 ∑ xy = 384.5 2 2 Figura 5-138 Realizar una prueba de significación del coeficiente de correlación de Spearman ρ = 0 con un nivel de confianza del 95%. Paso 1 Problema Asociar variables. Paso 2 Modelo Distribución t de Student. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: 10 Paso 4 Análisis Modelado H 0 : ρ = 0 Aseveración HA : p ≠ 0 En el capítulo 1 se obtuvo el valor: rS = SS xy ssxxSS yy = 0.997 Agregamos ahora: 221 Capítulo 5 Inferencia Paramétrica I 1 − rS2 = 0.00075 n−2 σ ( rS ) = 0.0273 V (rS ) = Inferencia 1 Comparando el eje rS rSm = 0.997 De la tabla del apéndice B: rSc = 0.649 ⇒ rSm > rSc ⇒ Se Rechaza H 0 Observar que el valor crítico que se extrae de la tabla del Apéndice B, es similar al que se obtiene para el coeficiente de correlación de Pearson. rS 2 = tc 2 (2.306)2 = = 0.399 tc 2 + n − 2 (2.306)2 + 8 rSc = 0.632 En caso de que no se cuente con la tabla del apéndice B, se puede realizar el cálculo como si fuera el coeficiente de Pearson, como primera aproximación. De esta forma: 2 Comparando el eje t tm = rS σ (rS ) = 36.5 tc = t0.025 (8) = 2.306 | tm |>| tc |⇒ Se rechaza H 0 3 Comparando las áreas α = 0.05 CDFT (36.5,8) = 0.9999 colasup = 1 − 1 = 0.000 p = 2 P (t > tm ) = 0.000 p < α ⇒ Se rechaza H 0 Decisión Se rechaza la correlación al nivel de significación α = 5% (t(8) = 36.5, p = 0.000). SPSS Procedimiento en la página 212 222 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Figura 5-139 Paso 5 Verificación: Potencia retrospectiva Es similar al problema resuelto anterior. Problema resuelto 5.23 Mejora de los ingresos públicos En la ciudad se ha generado un debate acerca de los mecanismos más adecuados para mejorar los ingresos públicos. Se ha clasificado a los integrantes de una muestra de acuerdo a su opinión y afiliación política y los resultados se muestran en la tabla de la figura 5-140. A Reducir impuestos 18 x Pedir un préstamo 17 Despedir personal 8 43 Total y B 12 9 10 31 C 20 12 24 56 Total 50 38 42 130 Figura 5-140 a) Para un nivel de significación del 95%, probar la aseveración de que existe relación entre las variables: Opinión, x, Afiliación y. Resolver con el SPSS. b) Analizar la potencia retrospectiva versus el tamaño del efecto de la prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Paso 1 Problema Comparar formas de las distribuciones. Paso 2 Modelo Distribución chi–cuadrado. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: ver figura 5-140 Paso 4 Análisis a) H 0 : x e y independientes H A : x e y dependientes Aseveración Modelado Distribución χ2 El tamaño n = 130 y cada celda tiene una frecuencia esperada mayor o igual a 5, entonces se puede utilizar una distribución muestral es chi-cuadrado con (3-1)(3-1) = 4 grados de libertad. Deberá entonces calcularse χ2 para α = 0.05 con ν =4. Entrando al SPSS o con una tabla: 223 Capítulo 5 Inferencia Paramétrica I IDF.chisq(0.95,4)=9.49. Inferencia 1 Comparando el eje χ m2 = ∑ (no − ne )2 = 7.396 ne χ C2 = 9.49 χ m2 < χ c2 ⇒ No se rechaza H 0 2 Comparando las áreas α = 0.05 p = 2 ∗ SIG.CHISQ(7.396, 4) = 0.232 ⇒ p > α ⇒ No se rechaza H 0 Decisión No existe evidencia suficiente para sustentar la existencia de dependencia al nivel de significación α = 5% (χ2(4) = 7.396, p = 0.232). SPSS Procedimiento en la página 212 Figura 5-141 Paso 5 Verificación: potencia retrospectiva Como el resultado no es significativo se debe analizar el riesgo de que no se estén detectando (con potencia baja) efectos grandes a juicio del investigador. Probaremos un efecto grande de 0.5 (convención de Cohen). 1 SPSS Solución descentralizada nc = nw2 = 130(0.50) 2 = 32.5 1 − NCDF.CHISQ(9.39,4,32.5) = 0.998 P = 0.998 La potencia es alta, por lo cual si este efecto grande existiera sería detectado, como no lo fue, es probable que no exista y por lo tanto el estudio es concluyente. GPower χ2 tests Goodness of fit tests Contingency tables 224 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Post hoc. α = 0.05, Effect size w = 0.5 Df (grados de libertad)= 4 y n = 130. Entrega una potencia de 0.99. Gráficas En la figura 5-142 yen la figura 5-143 se observan las distribuciones. Apreciar que ambas curvas tienen correspondencia con las hipótesis w = 0 y w =0.5 (lo cual equivale a nc = 32.5). Se presentan también las curvas de Potencia en función del tamaño del efecto, para varios valores de n. Para n = 10, se pueden ver las altas potencias de esta prueba para tamaños del efecto grandes, lo cual es una indicación de que estos tamaños no existen (pues hubiera dado significativa) y que existen tamaños menores. Figura 5-142 Figura 5-143 Problema resuelto 5.24 Cuerpo y mente Es posible encontrar en Internet estudios que vinculan la condición atlética de los estudiantes universitarios y el desempeño académico. La siguiente tabla presenta uno de estos estudios. 225 Capítulo 5 Inferencia Paramétrica I Calificación Debajo de la media Arriba de la media Total Ninguna 290 238 528 Participación Atlética 1-3 semestres 4 o más semestres 94 42 125 63 219 105 Total 426 426 852 Figura 5-144 a) ¿Presentan estos datos evidencia suficiente para establecer una dependencia entre la Participación Atlética y la Calificación? b) ¿La proporción de estudiantes con Calificaciones superior a la media es distinta de la Calificación debajo de la media, para los que tienen Participación Atlética de 4 o más semestres? Utilizar un α = 0.05. c) Analizar la potencia retrospectiva de la prueba a) y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Paso 1 Problema Comparar formas de las distribuciones. Paso 2 Modelo Distribuciones normal y chi–cuadrado. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: ver figura 5-144 Paso 4 Análisis PH a) Modelado Chi-cuadrado H 0 : Buen Ajuste H A : Mal Ajuste Aseveración Tabla de valores esperados, en caso de independencia: Participación Atlética Calificación Ninguna 1-3 semestres 4 o más semestres 264 109.5 52.5 Debajo de la media 264 109.5 52.5 Arriba de la media 528 219 105 Total Total 426 426 852 Figura 5-145 Se cumple el supuesto ne >5, por lo cual es posible aplicar la distribución χ2 con ν = 2*1=2. χ 2 (2) = Inferencia 226 (290 − 264) 2 (63 − 52.5) 2 + ... + = 13.71 264 52.5 α = 0.05 SIG.CHISQ(13.71, 2) = 0.001 ⇒ p = P ( χ 2 > χ m2 ) = 0.001 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra ⇒ p < α ⇒ Se rechaza H 0 Por lo tanto existe evidencia suficiente para rechazar la aseveración de que existe dependencia entre la Participación Atlética y la Calificación. b) Es un problema de p̂ que resolveremos con la t de Student. En este caso, en la distribución del perfil columna ˆ = 0.6 . 4 o más semestres, resultan qˆ = 0.4 y p Modelado Normal H 0 : p = 0.50 Aseveración H A : p ≠ 0.50 Como n = 42 > 5 , la distribución muestral se aproxima a una normal. Inferencia Comparando las áreas Utilizando el valor de la hipótesis p0 zc = z0.025 = −1.96 p0 q0 = 0.0487 n pˆ − p0 0.60 − 0.50 = = 2.08 zm = 0.048 σ pˆ σˆ pˆ = α = 0.05 1 − CDF.normal (2.08) = 0.021 ⇒ cola sup = 0.021 ⇒ p = 2 P ( z > zm ) = 2(0.021) = 0.042 ⇒ p < α ⇒ Se rechaza H 0 Decisión La diferencia entre el valor muestral obtenido, 0.6 y el valor de la hipótesis (0.5), es significativa al nivel α = 5%. (z = 2.08, p = 0.04). Por lo tanto existe evidencia suficiente para sustentar que la proporción de estudiantes con Calificaciones superior a la media es distinta de la Calificación debajo de la media, para los que tienen Participación Atlética de 4 o más semestres. SPSS a) Chi-cuadrado Figura 5-146 227 Capítulo 5 Inferencia Paramétrica I b) t de Student Figura 5-147 c) Paso 5 Verificación: potencia retrospectiva El resultado es significativo por lo cual deberíamos calcular P para un tamaño del efecto bajo. Resolveremos el problema con una distribución chi-cuadrado. Chi-cuadrado (solución descentralizada) El parámetro descentralizado para la distribución χ2 es: nc = w2n Si consideramos, por ejemplo, un efecto chico de 0.10: nc = 0.12 (852) = 8.52 El cálculo de la potencia se realiza de la misma forma que en los problemas anteriores: IDF .CHISQ(0.95, 2) = 5.99 1 − NCDF .CHISQ(5.99, 2,8.52) = 0.75 P = 0.75 Este valor indica que es probable que si este efecto chico existiera en la población, existe un 75% de probabilidades de que sea detectado en el estudio. Como la potencia es menor de 0.80, consideramos que no es detectado y por lo tanto que el estudio es concluyente. GPower χ2 tests Goodness of fit tests: Contingency tables Post hoc, effect size: 0.10 (chico), α = 0.05, n = 852, ν = 2. Entrega una potencia de: 0.75. Gráficas En la figura 5-148 y en la figura 5-149 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto, para varios valores de n. Con el tamaño de la muestra (n = 852), se requeriría un tamaño del efecto de 0.11 para llegar a una potencia de 0.82. 228 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Figura 5-148 Figura 5.149 229 Capítulo 5 Inferencia Paramétrica I Problema b: Regresión simple 1 Escala por escala Trata de establecer la predicción del valor de una variable aleatoria Y que es función lineal de una variable no aleatoria x. No debe confundirse la independencia estadística introducida en el capítulo 1 con la dependencia matemática que indica cual es la variable funcionalmente independiente. Para evitar esta doble utilización de la palabra independencia, cuando nos refiramos a la independencia funcional, se utilizará la simbología de VD para la variable dependiente y VI para la variable independiente. Otra alternativa es usar el término de variable regresora o predictora para x y variable respuesta para y. En el capítulo 1 vimos como obtener una ecuación de regresión que modela la relación entre las variables de la muestra. Esta herramienta sería intrascendente si no damos un paso decisivo para, a partir de esa ecuación, modelar la relación de esos datos en la población y responder acerca de cuál es la calidad de esta relación para poder finalmente usar este modelo como predictor. En esta sección comenzaremos con la construcción de IC y PH para realizar la inferencia para una sola VI de escala (y una sola VD de escala) y poder así predecir valores, conociendo el margen de error. Luego analizaremos si se viola alguno de los supuestos sobre los que basaremos el análisis. Al final de la sección consideraremos variables categóricas tanto en la VI como en la VD y en el capítulo 6 trataremos la regresión múltiple, con más de una VI. Utilización • • Si el análisis de correlación lineal resulta no significativamente distinto de 0, la mejor estimación de la variable es la media. Si el análisis de correlación lineal resulta significativamente distinto de 0, la mejor estimación de la variable es el valor que resulta de la recta de regresión. Tener en cuenta que podría presentarse el riesgo de un tamaño muestral grande (página 80) lo cual produciría un resultado significativo aún para un valor de r chico. En estos casos la predicción no sería tan buena, pudiendo minimizar este riesgo con un análisis de potencia retrospectiva. Supuestos El modelo matemático se basa en 4 supuestos. Los 3 primeros se encuentran simbolizados en la figura 5-150. 1 Linealidad La relación poblacional se modela por la siguiente relación lineal respecto de los parámetros de la recta, llamada LRP, Línea de Regresión Poblacional (desconocida): ⎧ Y = E (Y ) + ε ⎨ ⎩ E (Y ) = B0 + B1 x Tanto los valores de los coeficientes de la recta como del error ε, son desconocidos. Es importante destacar que la linealidad no se refiere a la relación entre las variables VI y VD (la cual puede ser no lineal como en este caso de regresión simple), sino a la linealidad en las Bi. 230 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Supuestos 2 Aleatoriedad Y es una variable aleatoria, pero en principio es conveniente suponer que x no es aleatoria sino constante (a diferencia del análisis de correlación), es decir o bien es determinista controlada por el investigador o bien es un valor observado de una variable aleatoria X (X = x). Ambos casos se tratan en forma idéntica, pero su interpretación es distinta. El hecho que x se asuma constante será la base de varias de las demostraciones y permite asignar la variabilidad de la ecuación, enteramente a Y. Llamamos a la componente determinista: E(Y) o μY, en tanto que a la componente aleatoria: ε (error). Para remarcar la condición de x no aleatoria, se suele usar también la notación: E (Y ) = E (Y | x) = μY | x Los valores poblacionales que interesa predecir son: 1. Coeficientes B de la recta de regresión poblacional. 2. E(Y) para varios valores coincidentes de x. 3. Valor específico de un nuevo Y para un solo valor de x. Los símbolos de estos valores son los mismos que se usaron en el capítulo 1, sin el agregado del carácter circunflejo. Observar que tanto E (Y ) como Y , son valores poblacionales desconocidos, pero en tanto Y es aleatorio (su valor es al azar), E (Y ) es fijo y determinado. En la figura 5-150, Y se encuenra en algún lugar desconocido y aleatorio de la vertical correspondiente al x estudiado, en tanto que E (Y ) , también desconocido, se encuentra sobre la LRP fija. 3 Error: Normalidad y Homocedasticidad Para cada valor de x, se generan distintos valores de y, debido a errores sistemáticos (equivocaciones) y aleatorios (provocados por variables omitidas en el modelo (regresión múltiple) y por limitaciones en la recolección / medición de los datos). La distribución del error ε y por lo tanto la distribución de los valores de Y (pues E(Y) es constante), se asume normal: N ( E (ε ),V (ε )) normal con: ⎧ E (ε ) = 0 ⎨ 2 ⎩V (ε ) = V (Y ) = σ constante Observar en la figura 5-150 que el modelo de la recta de regresión es entonces una verdadera recta que contiene los promedios o valores esperados sobre la cual se presentan las variabilidades (normales) del error aleatorio. Existen modelos con otras distribuciones de ε llamados GLM, General Lineal Models. En estos modelos se puede elegir la distribución dentro del grupo de las familias de las exponenciales (Poisson, Binomial, Gauss, Gamma, etc). La propiedad de que las varianzas σ2 de esas distribuciones normales sean iguales para cualquier valor de x, se llama homocedasticidad. Esta propiedad se viola si algunos puntos del diagrama de dispersión están más cerca de la recta de regresión que otros. Como este error poblacional se desconoce, se estima por el residuo e definido en el capítulo 1: e = Y − Yˆ Corolario 1 Una consecuencia de los supuestos 2 y 3 es que la variable x no está correlacionada con el error de Y (y por lo tanto con el residuo). E ( x, ε ) = xE (ε ) = 0 Esto es, se cumple la condición de independencia (capítulo 1): 231 Capítulo 5 Inferencia Paramétrica I E ( x, ε ) = E ( x) E (ε ) Corolario 2 Se refiere a los parámetros de ε . ⎧ E (ε ) = 0 ⎪ ⎨ σ2 ⎪V (ε ) = n ⎩ 4 Error: Independencia Los errores ε que se presentan en una sucesión de mediciones (variable tiempo), son independientes entre sí. Cov(ε i , ε j ) = 0 Si se expresara esta relación en forma de una matriz de covarianzas, la misma sería una matriz diagonal con todas las celdas de la diagonal igual a σ2 y ceros fuera de la misma. Para reflejar este supuesto se grafican los residuos e, en función de x sucesivas. La no independencia se llama autocorrelación. Si la mayoría de los residuos positivos es seguida de un residuo también positivo, se denomina autocorrelación positiva. Si es seguido por un residuo de sentido contrario, se denomina autocorrelación negativa. Figura 5-150 Línea de Regresión Poblacional, LRP Para sintetizar todas las propiedades de los errores se suele utilizar la notación NID, Normally and Independently Distributed, (Distribuidos Normal e Independientemente) y expresar que la distribución de los errores es: NID(0,σ ) Error estándar de la estimación Como la desviación estándar σ del error poblacional ε, se desconoce, se necesita una medida que contenga la variabilidad en torno a la recta de regresión. Su interpretación es análoga a la desviación estándar. Así como la desviación estándar mide la variabilidad en torno a la media aritmética, el error estándar de la estimación mide la variabilidad en torno a la recta de regresión. 232 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Cadena de Normalidad Demostraremos luego de obtener la varianza de la pendiente, que SSE/ν (ν son los grados delibertad que se explicitarán enseguida) es un estimador insesgado de σ2, por lo tanto: σˆ 2 = SSE ν ν = n - N ° Bi Como ya sabemos, el símbolo circunflejo significa "estima de" σ. El valor σ̂ se denomina error estándar de la estimación y la expresión indica que mide la variabilidad o dispersión de los valores observados de y alrededor de la recta de regresión. • SSE es la suma de los cuadrados de los residuos definida en el capítulo 1. De aquí que cualquier incumplimiento en los supuestos del modelo puede afectar la utilidad de este estimador de σ2. Se dice que es un estimador dependiente del modelo. • N° de Bi es el número de coeficientes de la recta. En la regresión simple este número es igual a 2. Los grados de libertad no son n − 1 como en el cálculo de la varianza muestral (en donde se estima la media poblacional), sino n − 2 pues para el cálculo de σ̂ 2 se debe usar la estima de 2 parámetros poblacionales (B0 y B1) en lugar de 1. Observar que este residuo no se mide perpendicularmente a la recta de regresión, sino a lo largo del eje y. Es de hacer notar, además, que el estimador de σ2 es SSE/ν y no la varianza de e. El valor σ2 solo contempla la varianza de y sin incluir la varianza de ŷ , por lo tanto su estima sigue los mismos lineamientos. Veremos más adelante cual es la expresión completa de la varianza del residuo e (página 244). • Relación entre el cuadrado del error estándar de la estimación y el coeficiente de correlación Recordando (capítulo 1): SST = SS yy = SSE + SSR Dividiendo por SSyy: 1= SSE + R2 SS yy Finalmente: 1 − R2 = SSE σˆ 2 (n − 2) = 2 SS yy s y (n − 1) Cadena de Normalidad En el capítulo 3 vimos que si Y1, ….,Yn son variables aleatorias distribuidas normalmente, entonces la combinación lineal de ellas, también es normal. Utilizando esta propiedad y partiendo del supuesto número 2 de que el error poblacional ε se asume normal, podemos descubrir una cadena de distribuciones normales. ε ⇒ Y ⇒ Bˆ ⇒ Yˆ ⇒ e Si la respectiva varianza es conocida, cualquiera de estas variables aleatorias es normal, pues se relaciona con las anteriores a través de una combinación lineal (las 3 últimas surgen de las ecuaciones de cálculo de cada una de ellas, estudiadas en el capítulo 1). En particular, las distribuciones de B̂ y de Ŷ , nos permitirán realizar la inferencia a la población. Como veremos 233 Capítulo 5 Inferencia Paramétrica I luego, todas las varianzas dependen de la varianza del error σ 2 , la cual es comúnmente desconocida. Pero si se reemplaza σ 2 por el estimador insesgado σ̂ 2 (cuadrado del error estándar de la estimación), entonces se demuestra que las distribuciones son ahora t de Student, con las cuales puede ser realizada la inferencia. Observar además que los valores numéricos de los coeficientes o de la VD, obtenidos en el capítulo 1, deben interpretarse como un valor puntual muestral de una variable aleatoria. Estima puntual. Teorema de Gauss–Markov Los estimadores puntuales de la ecuación de regresión, obtenidos por OLS (Ordinary Least Square), son estimadores de mínima varianza, EIMV, o eficientes, (también llamados BLUE, Best Linear Unbiased Estimator, página 19), aunque no necesariamente convergentes. Pueden existir mejores estimadores, pero serán sesgados o no lineales. Sabemos además que una estima puntual de valores no informan sobre la precisión. Para ello, al igual que para los IC, construiremos en lo que sigue, intervalos. a. Inferencia sobre los coeficientes de la recta Modelado Los coeficientes son función lineal de los valores de la variable y. Como se supone que la distribución de esta variable es normal, entonces serán normales las distribuciones de los coeficientes. Por lo tanto, las transformaciones a realizar son en este caso a la variable z o a la variable t, según se conozca o no la varianza del error, respectivamente. En el caso de que no se conozca esta varianza, se puede demostrar que la expresión: t= Bˆi − Bi σˆ ( Bi ) tiene una distribución t de Student con: ν = n − N ° Bi en nuestro caso será: ν = n–2. Para realizar la inferencia, solo resta obtener las ecuaciones de la media y la varianza. θ = B1 (pendiente) Distribución t Demostraremos que: E ( Bˆ1 ) = B1 V ( Bˆ1 ) = σ2 SS XX Dos bases para las demostraciones: • B̂1 = cY (combinación lineal de las observaciones Y, que se obtendrá a continuación) ∑ • 234 Y = B0 + B1 x + ε (LRP) Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables a. Inferencia sobre los coeficientes de la recta SS xy ∑ Δ x Δ y ∑ Δ x y − y ∑ Δ x Δ y Bˆ1 = = = = ∑ x = ∑ cY SS xx SS xx SS xx SS xx donde hemos llamado: c= Δx = SS xx Δx = ∑ Δxx − x∑ Δx Δx ∑ Δxx Por lo tanto, los coeficientes B1 son una combinación lineal de las observaciones Y. Observar que: ∑c = 0 ∑ cx = 1 1 ∑ c = SS 2 xx Si observamos que las x son fijas: Media E ( Bˆ1 ) = ∑ cE (Y ) = ∑ cE ( B0 + B1 x + ε ) = B0 ∑ c + B1 ∑ cx + ∑ cE (ε ) = B1 Por lo tanto B̂1 es un estimador insesgado de B1 . Varianza σ2 V ( Bˆ1 ) = ∑ c V (Y ) = σ 2 ∑ c 2 = SS xx donde hemos utilizado la independencia de los errores ε. Observar que no es un estimador convergente (página 18), pero por el teorema de Gauss-Markov es un estimador eficiente o de mínima varianza. Nota El estadístico t se obtiene de: t= Bˆ1 Bˆ1 SS xx Bˆ1sx n − 1 = = sB1 σˆ σˆ Esta prueba es en realidad idéntica a la del coeficiente de correlación. Esta característica puede visualizarse reemplazando en la ecuación de t, la pendiente y el error estándar de la estima y recordando las siguientes relaciones (capitulo 1): s Bˆ1 = r y sx 1− r2 = SSE σˆ 2 ( n − 2) = 2 SS yy s y (n − 1) Se obtiene así: t=r n−2 1− r2 ecuación ya presentada para el coeficiente de correlación (página 207). θ = B0 (Ordenada al origen) Es de menor interés que B1. Demostraremos que: E ( Bˆ0 ) = B0 235 Capítulo 5 Inferencia Paramétrica I σ σ V ( Bˆ0 ) = + x2 n SS xx 2 2 Dos bases para las demostraciones (en ninguna aparece Yˆ ): • Y = Bˆ0 + Bˆ1 x (LRM) • Y = B0 + B1 x + ε (LRP) Media E ( Bˆ0 ) = E (Y ) − E ( Bˆ1 ) x = B0 + B1 x − B1 x = B0 Por lo tanto: E ( Bˆ0 ) = B0 Es decir: B̂0 es un estimador insesgado de B0 . Varianza V ( Bˆ0 ) = V (Y ) + x 2V ( Bˆ1 ) − 2 xCov(Y , Bˆ1 ) Primer término Y = B0 + B1 x + ε V (Y ) = V (ε ) = 1 σ2 V ( ) ε = n2 n Segundo término σ2 x 2V ( Bˆ1 ) = x 2 SS xx Tercer término La covarianza ente Y y B̂1 es cero (ver demostración en la página 239). Reemplazando éstas relaciones y agrupando: V ( Bˆ0 ) = σ2 n + x2 σ2 ⎛ 1 x2 ⎞ =σ2⎜ + ⎟ SS xx ⎝ n SS xx ⎠ Observar nuevamente que no es un estimador convergente (página 18), pero por el teorema de Gauss-Markov es un estimador eficiente o de mínima varianza. Como se desconoce σ, se reemplaza por el error estándar de la estimación y en correspondencia se cambia el símbolo de la varianza por el de varianza estimada. Consecuencia • Para disminuir la varianza de la pendiente y de la ordenada al origen, es conveniente que los valores de x estén dispersos horizontalmente (gran SSxx). En el caso de la ordenada al origen es conveniente además que el tamaño n de la muestra sea grande. A partir de la varianza de la pendiente es posible demostrar 2 ecuaciones que habían quedado pendientes. 1 Demostración del valor del error estándar de la estimación σˆ = 236 SSE ν Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables a. Inferencia sobre los coeficientes de la recta Partimos de: E ( SSE ) = E[∑ (Y − Yˆ ) 2 ] = E[∑ (Y − Bˆ0 − Bˆ1 x) 2 ] Reemplazando: Bˆ0 = Y − Bˆ1 x E ( SSE ) = E[∑ (Y − Y + Bˆ1 x − Bˆ1 x) 2 ] Agrupando: E ( SSE ) = E[∑ [(Y − Y ) − Bˆ1 ( x − x )]2 ] Desarrollando el cuadrado: E ( SSE ) = E[∑ (Y − Y ) 2 + Bˆ12 ∑ ( x − x ) 2 − 2 Bˆ1 ∑ (Y − Y )( x − x )] De la ecuación de la estima de la pendiente (capítulo 1), obtenemos: ∑ (Y − Y )( x − x ) = ∑ ( x − x ) Bˆ 2 1 Por lo tanto, los 2 últimos términos se agrupan en: − Bˆ12 ∑ ( x − x) 2 Recordando además (Steiner, capítulo 1): ∑ (Y − Y ) = ∑ Y 2 2 − nY 2 E ( SSE ) = E[∑ Y 2 − nY 2 − Bˆ12 ∑ ( x − x ) 2 ] Distribuyendo la E: E ( SSE ) = ∑ E (Y ) − nE (Y 2 ) − E ( Bˆ12 )∑ ( x − x ) 2 2 Recordando nuevamente la expresión de Steiner: E (U 2 ) = V (U ) + [ E (U )]2 se obtiene: E ( SSE ) = ∑ [V (Y ) + [ E (Y )]2 ] − n[V (Y ) + [ E (Y )]2 ] − [V ( Bˆ1 ) + [ E ( Bˆ1 )]2 ]∑ ( x − x ) 2 ] Reemplazando las identidades siguientes: E (Y ) = B0 + B1 x V (Y ) = σ 2 E ( Bˆ ) = B 1 V ( Bˆ1 ) = 1 σ2 SS XX E (Y ) = B0 + B1 x se obtiene: E ( SSE ) = nσ + ∑ ( B0 + B1x) − n[ 2 Agrupando los términos en 2 Bo2, B12 σ2 n + ( B0 + B1 x ) ] − ∑ ( x − x ) [ 2 2 σ2 SS XX + B12 ] y 2 BoB1, se observa que todos ellos se anulan, por lo tanto: E ( SSE ) = ( n − 2)σ 2 Es decir: 237 Capítulo 5 Inferencia Paramétrica I ⎛ SSE ⎞ 2 E⎜ ⎟ =σ ⎝n−2⎠ Por lo tanto, un estimador insesgado de σ es: SSE n−2 σˆ 2 = Si se recorre la demostración, se podrá apreciar que el valor 2 que aparece en la expresión, coincide con el número de parámetros Bi de la ecuación de regresión. 2 Demostración del estadístico de rP La varianza estimada de la pendiente se define como: σˆ 2 Vˆ ( Bˆ1 ) = SS xx Si reemplazamos en esta expresión, la expresión del error estándar de la estimación y recordamos la expresión de SSE (capítulo 1): SSE = SS yy − SS xy 2 SS xx obtenemos: ⎛ SS yy ⎛ SS xy ⎞2 ⎞ 1 ⎜ −⎜ Vˆ ( Bˆ1 ) = ⎟ ⎟ n − 2 ⎜ SS xx ⎝ SS xx ⎠ ⎟ ⎝ ⎠ Recordando que (capítulo 1): SS yy Bˆ1 = rP SS xx resulta (llamando r a rP, por simplicidad): Vˆ ( Bˆ1 ) = 1 ⎛ Bˆ12 ˆ 2 ⎞ − B1 ⎟ ⎜ n − 2 ⎝ r2 ⎠ Bˆ 2 ⎛ 1 Bˆ 2 ⎛ 1 − r 2 ⎞ ⎞ Vˆ ( Bˆ1 ) = 1 ⎜ 2 − 1⎟ = 1 ⎜ 2 ⎟ n−2⎝ r ⎠ n−2⎝ r ⎠ La expresión del estadístico t de la pendiente, con H0: ρ = 0 (con lo cual B1 = 0), es: t= Bˆ1 − B1 Bˆ1 = σ ( Bˆ1 ) σ ( Bˆ1 ) Reemplazando la varianza de la pendiente por la expresión obtenida de la varianza estimada de la pendiente, queda finalmente: t=r n−2 1− r2 Esta expresión demuestra la relación planteada en la página 207. t= 238 r−ρ σr = r −0 σr Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables a. Inferencia sobre los coeficientes de la recta Covarianzas Veamos las covarianzas que son necesarias en las demostraciones. a Covarianza entre Y y B̂1 A partir de la independencia entre las Yi, demostraremos que la covarianza ente Y y B̂1 es cero, es decir no están correlacionados. De acuerdo a una de las propiedades de la covarianza (capítulo 1): Y c Cov(Y , Bˆ1 ) = Cov(∑ i , ∑ ciYi ) = ∑ i Cov(Yi , Y j ) n n Puede observarse que las variables dentro de la covarianza coinciden. Luego: • Cuando i ≠ j, el valor es 0, pues las variables son independientes, • Cuando i = j, el valor también es 0, pues la covarianza se convierte en la varianza V (Yi ) = σ 2 . Como este valor es constante por el supuesto inicial, sale fuera de la sumatoria, quedando solo ci , suma que es cero por demostración anterior. ∑ Cov(Y , Bˆ1 ) = 0 Otra demostración: Cov(Y , SS xy ) Cov(∑Y , ∑Y ( x − x ) ∑ ( x − x )σ Cov(Y , Bˆ1 ) = = = =0 SS xx nSS xx nSS xx 2 b Covarianza entre B̂0 y B̂1 Cov( Bˆ , Bˆ ) = Cov(Y − xBˆ , Bˆ ) = Cov(Y , Bˆ ) − xCov( Bˆ , Bˆ ) 0 1 1 1 1 1 1 Pero ya hemos visto que: Cov (Y , Bˆ1 ) = 0 Por otra parte: Cov( Bˆ1, Bˆ1 ) = V ( Bˆ1 ) = σ2 SS xx Por lo tanto: Cov( Bˆ0 , Bˆ1 ) = − xσ 2 SS xx A menos que x sea cero, B̂0 y B̂1 están altamente correlacionados. c Covarianza entre Y y Ŷ Cuando se predice un valor no utilizado en el cálculo del valor estimado, estas variables aleatorias son independientes y por lo tanto su covarianza es cero. Peor si el valor x pertenece a los datos, Y no es independiente de Ŷ . Se puede demostrar que en este caso la covarianza Cov (Y , Yˆ ) , coincide con la varianza de Ŷ , la cual se demostrará en la página 242. Por lo tanto: ⎛ 1 ( x − x )2 ⎞ Cov(Y , Yˆ ) = V (Yˆ ) = σ 2 ⎜ + a ⎟ SS xx ⎠ ⎝n 239 Capítulo 5 Inferencia Paramétrica I Análisis A partir de los modelos anteriores, con el estadístico de prueba t (pues σ se debe estimar con σ̂ ), se pueden formular inferencias como IC o PH. Un caso importante en la elección del valor del coeficiente de la pendiente B1 para una PH, es determinar si existe o no una relación significativa entre las variables. Para esto se prueba si la pendiente es o no igual a cero. Esta prueba es en esencia la significación del modelo. H 0 : B1 = 0 H A : B1 ≠ 0 Si no se puede rechazar la H0, el mejor estimador es la media ŷ = y o la verdadera relación entre las variables no es lineal. Dado que este coeficiente de la recta de regresión se relaciona directamente con el coeficiente de correlación rP (recordar que la pendiente de la recta estandarizada, coincide con rP), los valores de t (o z) de ambas PH coinciden. Esta coincidencia no se mantiene en la regresión múltiple. ANOVA Existe otra prueba estadística para probar la significación del modelo: H 0 : B1 = 0 H A : B1 ≠ 0 Si no se rechaza la hipótesis nula, puede admitirse (luego de una prueba de potencia) que no existe relación lineal entre las variables. Si se rechaza, el modelo lineal (o uno de grado superior, regresión múltiple) es adecuado. En el capítulo 1 se definieron las magnitudes: e2 = ( y − yˆ ) 2 Residuo no explicado por la regresión. • SSE = • ∑ ∑ SST = ∑ Δ y = ∑ ( y − y ) 2 2 Variabilidad total ( SS yy ) si no hay variables x (el mejor predictor es la media). • SSR = ∑ Δ yˆ 2 = ∑ ( yˆ − y ) 2 Variabilidad explicada por la regresión ( SS yyˆˆ ) respecto del predictor anterior (la media). Recordemos además las expresiones más simples para el cálculo: • • SST = SS yy SS xy2 = Bˆ12 SS xx = Bˆ1SS xy SS xx SST = SSE + SSR SSR = • Si dividimos las mismas por grados de libertad apropiados obtenemos expresiones de las varianzas: • • SSR . En general ν es igual al número de coeficientes B de la recta menos 1. 1 SSE 2 MSE = (equivale a σˆ , ya definido). En general ν es igual a n menos el número de n−2 MSR = coeficientes B de la recta. • MST = SST . ν es igual a n menos 1. n −1 La prueba estadística F de comparación de varianzas de la sección anterior (página 197), sugiere que también exista una prueba F para comparar las varianzas explicada M;SR y no explicada MSE de la regresión. El estadístico: 240 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables b. Inferencia sobre los valores de y F (1, n − 2) = MSR MSE pertenece a un conjunto poderoso de pruebas llamado ANOVA, ANalysis Of VAriance que se estudiaran en el capítulo 6, Inferencia paramétrica 2. El valor de F será 0 cuando MSR sea 0, es decir cuando la recta sea horizontal, su pendiente sea 0 y la relación sea no lineal. Para un valor alto de F, rechazaríamos la hipótesis de linealidad. Como la distribución de F es conocida, se podrán utilizar las regiones de rechazo y de no rechazo, ya familiares. En el capítulo 3, vimos que existe una relación entre la prueba F y la prueba t: Fα (1, n − 2) = tα2 / 2 ( n − 2) De esta forma, los valores obtenidos con la prueba t anterior, deben ser compatibles con la ecuación de F. De todas formas, observar que la prueba t permite probar 1 o 2 colas, en cambio la prueba F, solo puede probar 2 colas de t (F es el valor absoluto de t y por lo tanto equivale a una doble desigualdad). Las pruebas ANOVA se presentan siempre con el formato convencional de la figura 5-151. SS ANOVA MS ν F Sig Regresión Residuos Total Figura 5-151 b. Inferencia sobre los valores de y θ = E(Y) Modelado Se trata de inferir sobre el valor medio (determinista) de la variable aleatoria Y, E(Y) que se encuentra sobre la línea de regresión poblacional, LRP para varios valores iguales de xa (todos los que se encuentren en el escenario del problema). Se utilizará el valor estimado de Y para originar los IC o PH correspondientes. La distribución de la Yˆ en estudio será una de las graficadas verticalmente en la figura 5-150, para el valor de x deseado. Dado que la distribución de los coeficientes es normal, entonces será normal la distribución de la estima de la variable y, pues ésta es una relación lineal de aquellos. Por lo tanto, las transformaciones a realizar en este caso son a la variable z o a la variable t, según se conozca o no la varianza del error, respectivamente. En el caso de que no se conozca esta varianza, se puede demostrar que la expresión: t= Yˆ − μY | x σˆ yˆ tiene una distribución t de Student con: ν = n − N ° Bi En este caso ν = n − 2 . 241 Capítulo 5 Inferencia Paramétrica I El hecho de que se utilice la letra B para simbolizar al error de estimación no debe provocar confusiones pues los coeficientes de la recta siempre llevan subíndices. Si se desea, se puede utilizar la letra E como alternativa. B = E = tcσ Yˆ Para realizar la inferencia, solo resta obtener las ecuaciones de la media y la varianza de Yˆ . Dos bases para las demostraciones: • • Yˆ = Bˆ0 + Bˆ1 x (LRM) Y = Bˆ + Bˆ x (LRM) 0 1 Media E (Yˆ ) E (Yˆ ) = E ( Bˆ0 ) + E ( Bˆ1 ) x = B0 + B1 x = E (Y | x) = μY | x Por lo tanto: E (Yˆ ) = μY | x Varianza V (Yˆ ) V (Yˆ ) = V ( Bˆ0 + Bˆ1 x) = V (Y + Bˆ1 ( x − x )) ⎛ 1 ( x − x )2 ⎞ V (Yˆ ) = σ 2 ⎜ + ⎟ SS xx ⎠ ⎝n Esta deducción utiliza la propiedad ya demostrada de que la covarianza entre Y y B̂1 es 0. Otra alternativa de demostración, surge de utilizar la covarianza de B̂0 y B̂1 : V (Yˆ ) = V ( Bˆ0 ) + Bˆ1 x) = V ( Bˆ0 ) + x 2V ( Bˆ1 ) + xCov( Bˆ0 , Bˆ1 ) Reemplazando las respectivas varianzas y covarianzas y agrupando, se obtiene la ecuación anterior. En la figura 5-152 se muestra en línea punteada la Línea de Regresión Muestral. LRM, con las bandas de IC conteniendo los IC de μY para cada punto (medidos en dirección vertical pues es la dirección de Y). Consecuencias Puede observarse que la varianza V (Yˆ ) disminuye con: 1. La disminución del error estándar de estimación (dispersión de los datos originales sobre cada vertical). 2. El aumento de n. 3. El aumento de la dispersión horizontal SSxx. 4. El acercamiento del valor de xa a la media. Los IC presentan el valor mínimo en la media y se van ensanchando a medida que se aleja la VI de la media. Si el valor de n es grande y el punto se encuentra cerca de la media, la varianza tiende a cero y por lo tanto también el IC de ese punto. 242 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables b. Inferencia sobre los valores de y Figura 5-152 Línea de Regresión Muestral, LRM Bandas con trazo punteado: IC de E(Y) Bandas con trazo lleno: IP de Y Análisis A partir de los modelos anteriores y en forma totalmente análoga al resto del capítulo, se pueden formular inferencias como IP o PH, para E (Y ) . t= Yˆ − μY | xa σ Yˆ IC ⎧⎪ P ( μY | xa = yˆ a ± B ) = c ⎨ ⎪⎩ B = tα /2σ Yˆ PH Comparaciones: p ↔α t m ↔ tc yˆ m ↔ yˆ c θ= Y Es el valor Y para un solo valor de xa. Se trata de inferir sobre el valor específico de la variable aleatoria Y, en general fuera de la línea de regresión poblacional, LRP (ver nuevamente la figura 5150), por efecto de la variabilidad σ del error ε. Como Y es una variable aleatoria, es una situación diferente a la inferencia de un valor determinista, tal como los parámetros poblacionales estudiados hasta ahora. Cuando la estima se realiza sobre una variable y no sobre una constante, los intervalos se llaman de intervalos de predicción, IP, en lugar de intervalos de confianza. Por la misma razón y a diferencia de la precaución que debe tenerse en la lectura de un IC (página 23), ahora no existe ese riesgo. 243 Capítulo 5 Inferencia Paramétrica I Modelado Partimos del análisis del residuo e del cual, como veremos, se conoce la distribución y sus parámetros. Como ya sabemos: e = Y − Yˆ Como ambas variables de la derecha son aleatorias distribuidas normalmente y el residuo es una combinación lineal de ellas, también tendrá una distribución normal. Por lo tanto, las transformaciones a realizar en este caso son a la variable z o a la variable t, según se conozca o no la varianza del error ε, respectivamente. En el caso de que no se conozca esta varianza, se puede demostrar que la expresión: t= e − E (e) σe tiene una distribución t de Student con: ν = n − N ° Bi en nuestro caso será: ν = n–2. Media del residuo e E (e) = E (Y ) − E (Yˆ ) Pero hemos visto enel punto anterior que los 2 términos de la derecha son iguales. Por lo tanto: E (e) = 0 Varianza del residuo e Debemos diferenciar si el valor y pertenece a los datos ym (y muestral) o se extrapola de los mismos yP (y predicho). a) y predicho yP En este caso el punto de coordenadas x es un nuevo valor que no pertenece al cálculo de la recta (por eso se llama valor predicho e intervalo de predicción). V (e) = V (Y − Yˆ ) = V (Y ) + V (Yˆ ) − 2Cov (Y , Yˆ ) Como se predice un valor no utilizado en el cálculo del valor estimado, estas variables aleatorias son independientes y por lo tanto su covarianza es cero. Por lo tanto llamando eP al residuo predicho: V (eP ) = σ 2 + V (Yˆ ) Reemplazando las expresiones conocidas de los dos primeros términos, resulta: ⎛ 1 ( x − x )2 ⎞ V (eP ) = σ 2 + σ 2 ⎜ + a ⎟ SS xx ⎠ ⎝n En definitiva: ⎛ 1 ( x − x )2 ⎞ V (eP ) = σ 2 ⎜1 + + a ⎟ SS xx ⎠ ⎝ n Consecuencias • 244 Puede observarse que la estima de un solo valor de Y, es mayor que la correspondiente al valor medio E(Y) ( figura 5-152, trazo contínuo). Los IP de los valores específicos de Y son más amplios debido al 1 que aparece dentro del paréntesis. Esto es debido a que, en la estima de un Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables b. Inferencia sobre los valores de y • valor específico de Y distinto de la media E(Y), ubicada sobre la línea de regresión poblacional LRP (ver nuevamente la figura 5-150), interviene la varianza σ del error ε. Se puede observar además que si el punto se encuentra cerca de la media y el tamaño de la muestra es grande, se pueden despreciar los últimos sumandos del paréntesis y usar el error estándar de estimación como varianza del intervalo. Análisis: IP Puesto que E (e) = 0 , resulta: t= Y − Yˆ σe Se puede utilizar esta ecuación como ecuación pivote de Y, despejándo este valor de la misma para construir un IP. Apreciar que, a diferencia de los IC clásicos, el valor estimado se encuentra antecedido por un signo +. De todas formas, como la distribución es simétrica ( tα / 2 = −tα /2 ), no existen diferencias en la expresión final de los IP, respecto de los IC. Apreciar además que ambas variables Y e Yˆ son aleatorias, por lo cual el dibujo de la distribución en estudio es la de e y no la de cada una de ellas. Por otra parte, no podría construirse una PH pues el valor poblacional Y es una variable aleatoria y solo se puede realizar una hipótesis sobre un valor desconocido fijo. b) y muestral ym En este caso el punto de coordenadas x pertenece a los datos con los cuales se calculó la recta. Si el valor pertenece a los datos, y no es independiente de Ŷ . En este caso, hemos visto que la covarianza Cov (Y , Yˆ ) , coincide con la varianza de ŷ , es decir: ( xa − x )2 ⎞ 2⎛1 ˆ Cov(Y , Y ) = σ ⎜ + ⎟ = V (Yˆ ) n SS XX ⎝ ⎠ Por lo tanto: V (em ) = V (Y ) + V (Yˆ ) − 2V (Yˆ ) V (em ) = V (Y ) − V (Yˆ ) = σ 2 − V (Yˆ ) en definitiva: V (em ) = σ 2 − V (Yˆ ) Reemplazando valores: ⎛ 1 ( x − x )2 ⎞ V (em ) = σ 2 ⎜1 − − a ⎟ SS xx ⎠ ⎝ n Confrontar la diferencia de signos de esta ecuación con la obtenida para el e predicho. El valor t considerando la desviación estándar del error, variable con cada valor de x, σ em = V (em ) , se llama residuo estudientizado, el cual sigue una distribución t con (n–1)–(k+1), grados de libertad, siendo k el número de variables regresoras x. t= Y − Yˆ σ em 245 Capítulo 5 Inferencia Paramétrica I Si se considera la desviación estándar σ constante, se lo llama, residuo estandarizado, el cualsigue una distribución normal. z= Y − Yˆ σ Como σ se desconoce se utiliza σ̂ , lo cual conduce a una t de Student con n–(k+1) grados de libertad. De todas formas los IC y los IP de cualquier valor, pertenezca o no a los datos, se calculan con los valores predichos. Consecuencias • • Si x está cerca de la media y n es razonablemente grande, los residuos estudientizado y estandarizado, son aproximadamente iguales. Si x está lejos de la media, el valor de la varianza es pequeña (lo contrario de lo que sucede con la predicción). En consecuencia, los puntos alejados tienen mayor influencia sobre la recta de regresión pues al tener menos variabilidad están más cerca de la misma. Esta situación se llama heterocedasdticidad y contradice uno de los supuestos del modelo (homocedasticidad). Veremos luego una forma de encararlo (WLS). Casos Influyentes Es importante localizar aquellos puntos que tienen mayor efecto sobre el modelo, sea en los valores predichos o en los coeficientes, modificando la orientación o la traslación de la recta. Naturalmente sería deseable no tener este tipo de puntos. Para esto se estudia el efecto que en la regresión, provoca la presencia (o ausencia) de un determinado caso. En este sentido, existen 2 tipos de ecuaciones de regresión: la estudiada hasta ahora, a la que podemos llamar "completa" Ŷ y la "reducida" que puede crearse eliminado un determinado caso i, a la que llamaremos Yˆ . Si bien el SPSS entrega en forma automática las diferencias entre ambas rectas para cada punto de la regresión, éstas diferencias pueden construirse "a mano" seleccionando todos los casos menos el caso en cuestión (Select Cases), luego colocando ese valor de x como adicional para que el SPSS calcule el valor predicho y solicitando la regresión. Las diferencias entre los valores de esta ecuación reducida y los originales de la completa, deben coincidir con las entregas del SPSS. Estas diferencias pueden ser relevantes e influyentes por diversas razones. 1. Tener pocos casos 2. Presencia de puntos extremos (outliers) en la variable x o en la variable y 3. Errores en la transcripción de datos 4. Modelo no adecuado Antes de exponer las diferencias, veamos 2 índices referidos a los outliers. i Extremos en y, outliers Son aquellos cuyos residuos estandarizados (ZRE) están a más de 3 desviaciones estándar de la media. Extremos en x, outliers Los puntos extremos de la variable x pueden generar un efecto más grande sobre la regresión. Esto es particularmente cierto en la regresión lineal. Imaginar por ejemplo, una nube de puntos aproximadamente sobre una recta y un punto externo a la misma a gran distancia x. Obviamente la 246 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Casos Influyentes recta resultante será influenciada en forma importante por este punto, pero su residuo podría ser relativamente bajo. Es decir que un residuo bajo no resulta garantía de un buen ajuste. Además de poder estudiar si existen extremos en x (capítulo 1), se pueden obtener 2 indicadores que informan acerca de la distancia de cada valor x, respecto de su media. Distancia de Mahalanobis, MAH Una forma de medir esa distancia para una regresión simple, es con el cuadrado de z: ⎛x −x ⎞ MAH i = ⎜ i ⎟ ⎝ sx ⎠ 2 En una regresión múltiple es más compleja de calcular. Observar que no interesa conocer la VD, pero SPSS calcula esta distancia solo para los valores que tengan ambas coordenadas. Puntos de corte Se sugieren los siguientes puntos de corte para individualizar valores potencialmente influyentes, aunque es preferible usar el índice Leverage (punto siguiente): ⎧MAHi > 15, si n < 100 ⎨ ⎩MAHi > 25, si n > 100 Leverage, LEV (brazo de palanca) En una regresión múltiple, debemos recordar la matriz H, definida en el capítulo 1: ˆ = HY Y Yˆi = ∑ hijY j Se define al Leverage para cada caso como la diagonal de H. Como la matriz sombrero H, contiene los pesos que multiplican a cada Yij para obtener Yˆi , el valor hii es el peso (leverage) de la componente Yii . Su valor resulta dado por: hii = k ( xi − x ) 2 + n SS xx En particular para una regresión simple, k = 1: hii = 1 ( xi − x )2 + n SS xx Si se compara esta ecuación con la de la varianza del residuo e, se concluye que: V (e) = σ 2 (1 − hii ) Como el valor medio es k/N, se define el leverage centrado como: LEVi = ( xi − x ) 2 SS xx Se puede observar que: LEVi = MAH i n −1 247 Capítulo 5 Inferencia Paramétrica I Puntos de corte El valor de leverage se encuentra entre 0 y 1: 0 < hii < 1 Como el valor medio es k/n, se ha sugerido el siguiente punto de corte para individualizar valores potencialmente influyentes: hii > 2k n k = número de predictores x. También se utilizan 2(k+1) o 2(k–1) en lugar de 2(k). Leverage y Residuo Un leverage alto está asociado con un residuo bajo (atrae la recta hacia él, de aquí el nombre) y viceversa. Existen relaciones matemáticas que los vinculan: SRE = hii + RES σˆ 1 − hii ei 2 ≤1 SSE De aquí que un deseable residuo bajo puede no provenir de un buen ajuste, sino de un alto leverage. En otras palabras no es suficiente mirar solo a los residuos. Diferencias en los coeficientes Veamos ahora sí, a los índices de influencia, en este caso de los coeficientes. Todos ellos se pueden definir en forma no estandarizada y estandarizada. DfBETA(s), DFB Diferencia en el coeficiente B respectivo, para el caso omitido (el coeficiente es único para todos los casos). Se llaman Beta, pero se refieren a los coeficientes Bi y no βi. DFBi = Bˆ − Bˆ i SDfBETA, SDB Es el valor estandarizado que surge al dividirlo por la desviación estándar de B̂ Nuevamente, no se trata del valor beta del capítulo 1. En algunos textos se coloca la S al final. SDBi = Bˆ − Bˆ i σ Bˆ Puntos de corte Se adopta en general como punto de corte a 1 para muestras pequeñas y en general (SPSS): | SDB |> 2 n Diferencias en los valores predichos A diferencia de los anteriores, se manifiestan en cada uno de los casos, no solo en el caso omitido. Los 2 primeros, DfFIT y SDfFIT, son solo los valores de diferencia para el caso omitido. 248 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Casos Influyentes DfFIT, DFF Diferencia (Difference) en el ajuste Ŷ . DFFi = Yˆ − Yˆ i SDfFIT, SDFF El valor anterior se estandariza dividiéndolos por la desviación estándar. En algunos textos se coloca la S al final. SDFi = Yˆ − Yˆ i σ Yˆ Puntos de corte Algunos autores (SPSS) establecen el punto de corte como 1 para muestras pequeñas y en general: | SDF |> 2 k n Distancia de Cook, COO La diferencia anterior no contempla los cambios que la ausencia del caso i, provoca en el resto de los valores predichos y residuos. Una medida que considera a todos los casos es la distancia de Cook. ∑ ( DFF ) 2 i COOi = j (k + 1)σ 2 k = número de predictores x. Esta medida contempla el aporte sobre la influencia tanto de la VI como de la VD. Esto puede observarse por la relación matemática existente entre COO y las causales hii (provocadas por x) y SRE (provocadas por y): COOi = 1 h SREi 2 ii k +1 1 − hii COO aumenta tanto por el aumento de SRE como por el de hii. Puntos de corte Si un punto es influyente, su ausencia causa grandes cambios en la recta y su COO es alto. Un valor: COO > 1 es usualmente utilizado como punto de corte. Sin embargo, más que seguir una regla rígida es útil prestar atención a los puntos con COO relativos mayores que el resto. Razón de covarianzas, COV Es otra medida que incluye las diferencias en todos los casos e informa, no sobre la diferencia del modelo, sino sobre la diferencia de las variabilidades o varianzas. Es el cociente entre el determinante de la matriz SS con un caso particular excluido y la matriz con todos los casos. COV i = | SSi | | SS | Puntos de corte Si el radio es igual a 1, no existe influencia. 249 Capítulo 5 Inferencia Paramétrica I COV i > 1 ± 3 k n k = número de predictores x. La obtención manual de COO y COV sigue los mismos lineamientos anteriores. Los casos que a la vez sean influyentes y extremos deben ser estudiados para iniciar una acción correctiva. Entre ellas se podría decidir por: corrección de errores, transformación de los datos, cambio del modelo o aumento del tamaño de la muestra. SPSS Analyze > Regressión > Linear > colocar las dos variables que se desean procesar en las cajas de VD y VI. Statistics Se abre una caja de diálogo en donde se seleccionarán Estimates, Confidence Intervals (colocar el nivel), Model fit y Descriptives. Con ellos se generan tablas con los estadísticos básicos para el análisis. Casewise diagnostics Si se desea obtener un diagnóstico de residuos estandarizados (ZRE) para cada caso o solo para los que estén (por ejemplo) a más de 2 desviaciones estándar de la media, tildar Casewise diagnostics y elegir el número de desviaciones estándar. Durbin–Watson Es un test estadístico para probar la H0: correlación serial entre términos adyacentes bajo el supuesto: de independencia. Si bien se verá en el capítulo 6, será comentado en el Problema Resuelto de esta sección. Save Se agregan a la base de datos nuevas variables para cada uno de los casos de la vista de datos, entre las cuales se pueden elegir: Los valores predichos PRE_1: Unstandardized Predicted Value ZPR_1: Standardized Predicted Value Los residuos RES_: Unstandardized Residual ZRE_1: Standardized Residual. Es el valor z del residuo o en otras palabras es el residuo dividido la desviación estándar del error σ, constante para todos los datos. SRE_1: Studentized Residual. Es el valor t del residuo o en otras palabras es el residuo dividido la desviación estándar del residuo (y muestral), el cual varía con cada uno. El error estándar de la predicción SEP_1: Standard Error of Predicted Value. Es el valor σ ŷ Nota El σ e se calcula a mano con: V (e) = σ 2 − V (Yˆ ) o dividiendo RES_1/SRE_1. Intervalos para la Media e Individual (SPSS los llama a ambos IC) LMCI_1: 95% Lower Mean CI UMCI_1: 95% Upper Mean CI LICI_1: 95% Lower Individual CI UICI_1: 95% Upper Individual CI Influence Statistics DFB0_1: Cambio (Difference) en B0 250 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Tamaño del efecto y ecuación de diseño SDB0_1: Cambio en B0 estandarizado DFB1_1: Cambio en B1 SDB1_1: Cambio en B1 estandarizado DFF_1: Cambio en el valor predicho (Fit) o en el residuo (tienen el mismo valor). SDF_1: Cambio en el residuo estandarizado DRE_1: Residuo resultante en la ecuación reducida (Deleted). DRE_1 = RES_1+DFF_1 COO_1: Distancia de Cook COV_1: Radio de covarianzas MAH_1: Distancia de Mahalanovis LEV_1: Leverage Notas • Si se colocan nuevos casos con un valor de x arbitrario, sin el valor de y, se puede obtener para ellos: el valor predicho, el error estándar del valor predicho y los IP, todos ellos calculados con el resto de los valores (x; y). • En el visor se agrega además una tabla con estadísticas resumen de los residuos. Plots Se pueden pedir aquí gráficos de las variables predichas y residuos. Tildando Produce all partial plots, se generan gráficos de puntos de la VD con cada una de las VI (para 2 o más variables en la regresión múltiple). GLM Hemos visto que las pruebas t y las pruebas de regresión/correlación, están relacionadas por el modelo llamado Modelo Lineal General, GLM (General Lineal Model), el cual utiliza la distribución F. Este camino para resolver el problema tiene el agregado de que devuelve el parámetro de descentralidad y la potencia observada para un tamaño del efecto poblacional coincidente con el tamaño del efecto de la muestra. Analyze > General Lineal Model > Univariate. Colocar la variable y en Dependent Variable y la variable x en Covariate(s)> OK. Options > tildar Observed Power. Tamaño del efecto y ecuación de diseño Analizaremos el tamaño del efecto para la pendiente de la recta, para la cual se adopta como tamaño del efecto al coeficiente poblacional B1, para una H0: H 0 : B1 = 0 H A : B1 ≠ 0 Razonando en forma similar al caso de la prueba de la media, se obtiene la ecuación de diseño: t β = tα − nc con: SS xx nc = Bˆ1 = Bˆ1 σˆ 2 n −1 sx σˆ Nota GPower toma n en lugar de n–1. 251 Capítulo 5 Inferencia Paramétrica I Potencia y tamaño de la muestra Potencia, P De la ecuación de diseño se obtiene tβ. Tamaño de la muestra, n De la ecuación de nc se obtiene n, resultando: 2 ⎛ nc σˆ ⎞ n=⎜ +1 ˆ ⎟ ⎝ B1s x ⎠ Problema resuelto 5.25 Relación entre ingreso y gastos Continuación del problema resuelto del capítulo 1 acerca de la predicción de John Keynes, quién argumentó que existe una relación teórica entre el ingreso de una persona (x) y sus gastos de consumo (y): a medida que el ingreso aumentaba, el consumo crecía en una cantidad menor. x = I: Ingreso de una persona. y = C: Consumo. Los datos están en miles de millones de dólares corrientes. x 284.00 328.00 345.00 364.00 364.00 398.00 419.00 441.00 447.00 483.00 y 191.00 206.00 216.00 230.00 236.00 254.00 266.00 281.00 290.00 311.00 ∑ x = 3873 ∑ x = 1533801 ∑ y = 2481 ∑ y = 629223 ∑ xy = 982266 2 2 Figura 5-153 a) Realizar una prueba de significación de los coeficientes de la recta (prueba de que sus valores son 0), al nivel 98%. Interrelacionar gráficamente el IC con la PH. b) Utilizar el modelo de regresión para elaborar una predicción de los gastos de consumo promedio para todas las personas con un ingreso de 400, al nivel 95%. Probar la aseveración de que el gasto de consumo promedio es 265. Interrelacionar gráficamente el IC con la PH. c) Utilizar el modelo de regresión para elaborar una predicción del gasto de consumo individual para un ingreso de 400, al nivel 95%. Probar la aseveración de que el gasto de consumo puntual es 265. d) Analizar la potencia retrospectiva versus el tamaño del efecto de la prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Resolver con SPSS y con GPower. Paso 1 Problema Asociar variables. 252 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Paso 2 Modelo Distribuciones t de Student y F. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: 10 Paso 4 Análisis a) En el capítulo 1 se obtuvo la ecuación de regresión: Cˆ = 3.09 + 0.633 ∗ I (9.69) (0.025) En el segundo renglón se colocaron entre paréntesis los errores estándar de los coeficientes, valores que serán obtenidos a continuación. En todos los cálculos que siguen, se requiere conocer la estimación de la desviación estándar del error ε. SSE = SS yy − σˆ 2 = SSE SS xy2 SS xx = 165 = 20.6 ν σˆ = 4.54 Supuestos La regresión parte de varios supuestos. El análisis de los mismos se realizará luego en un problema resuelto con el SPSS. Significación de la Pendiente Modelado t de Student σˆ 2 Vˆ ( Bˆ1 ) = = 6.096 ∗10−4 SS XX σˆ ( Bˆ ) = 0.025 1 Inferencia IC tc = t0.01 (8) = 2.896 B = tσˆ ( Bˆ1 ) = 2.896(0.025) = 0.0724 B = Bˆ ± B 1 1 B1 = 0.633 ± 0.0724 IC ( B1 ) = 0.561 a 0.705 253 Capítulo 5 Inferencia Paramétrica I PH H 0 : B1 = 0 Aseveración H A : B1 ≠ 0 1 Comparando el eje t tc = t0.01 (8) = 2.896 Bˆ 0.633 tm = 1 = = 25.32 σ Bˆ 0.025 1 | tm |>| tc |⇒ Se rechaza H 0 2 Comparando el eje B̂1 tc = t0.01 (8) = 2.896 Bˆ = 0.633 1m Bˆ1c = 0 + 2.896(0.025) = 0.0724 | Bˆ1m |>| Bˆ1c |⇒ Se rechaza H 0 3 Comparando las áreas α = 0.02 p = 2 ∗ sigT (−25.32,8) = 0.000 ⇒ p < α ⇒ Se rechaza H 0 Interrelación gráfica del IC con la PH Figura 5-154 Como la PH rechazó la H0: B1 = 0, entonces el IC obtenido no debe comprender a este valor (lo cual sucederá 2% de las veces). Modelado Distribución F F (1, n − 2) = MSR MSE Del capítulo 1: SS xx = 33788 SS yy = 13686 SS xy = 21374 Por lo tanto: SS xy2 213742 = 13521 SS xx 33788 SST = SS yy = 13686 SST = SSE + SSR ⇒ SSE = SST − SSR SSR = 254 = Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra SSE = 13686 − 13521 = 165 MSR 13521 F (1, n − 2) = = = 655 MSE 165 / 8 Inferencia α = 0.02 p = 2 ∗ SIG.F (655,8) = 0.000 ⇒ p < α ⇒ Se rechaza H 0 Cuadro ANOVA ANOVA MS ν 1 13521 8 20.6 9 SS 13521 165 13686 Regresión Residuos Total F 655 Sig 0.000 Figura 5-155 Observar que Fα (1, n − 2) = tα /2 ( n − 2) = 25.4 2 = 645 2 655 . Las diferencias se deben al redondeo. Decisión Se rechaza H0 al nivel de significación α = 2% (t(8) = 25.32, p = 0.000). Por lo tanto existe evidencia suficiente para rechazar la aseveración de que la pendiente de la recta entre el ingreso de una persona (x) y sus gastos de consumo (y), es cero. Significación de la Ordenada al origen Modelado t de Student ⎛1 x2 ⎞ Vˆ ( Bˆ0 ) = σˆ 2 ⎜ + ⎟ = 94.028 ⎝ n SS XX ⎠ σˆ ( Bˆ0 ) = 9.69 Inferencia IC t0.01 (8) = 2.896 B = tσˆ ( Bˆ0 ) = 2.896(9.69) = 28.06 B = Bˆ ± B 0 0 B0 = 3.09 ± (28.06) IC ( B0 ) = −24.9 a 31.15 PH H 0 : B0 = 0 Aseveración H A : B0 ≠ 0 1 Comparando el eje t tm = Bˆ0 σ Bˆ 0 = 3.09 = 0.32 9.69 255 Capítulo 5 Inferencia Paramétrica I tc = t0.01 (8) = 2.896 | tm |<| tc |⇒ No se rechaza H 0 2 Comparando el eje B̂0 tc = t0.01 (8) = 2.896 Bˆ = 3.09 0m Bˆ 0 c = 0 + 2.896(9.69) = 28.06 | Bˆ0 m |<| Bˆ0c |⇒ No se rechaza H 0 3 Comparando las áreas α = 0.02 p = 2 ∗ sigT (0.32,8) = 2(0.378) = 0.756 ⇒ p > α ⇒ No se rechaza H 0 Interrelación gráfica del IC con la PH Figura 5-156 Como la PH no rechazó la H0: B0 = 0, entonces el IC obtenido debe comprender a este valor (lo cual sucederá 98% de las veces). Decisión No se rechaza H0 al nivel de significación α = 2% (t(8) = 0.32, p = 0.756). Por lo tanto no existe evidencia suficiente para rechazar la aseveración de que la ordenada al origen de la recta entre el ingreso de una persona (x) y sus gastos de consumo (y), es cero. b) Estima de E(Y) para xa = 400 ⎛ 1 ( x − x )2 ⎞ ⎛ 1 (400 − 387.3) 2 ⎞ = 20.6 V ( yˆ ) = σˆ 2 ⎜ + a ⎟ ⎜ + ⎟ = 2.158 33788 SS xx ⎠ ⎝ 10 ⎠ ⎝n σ ( yˆ ) = 1.469 yˆ = Cˆ = 256.3 a a Inferencia IC t0.025 (8) = 2.306 B = tσˆ ( yˆ ) = 2.306(1.469) = 3.387 Por simplicidad usaremos la notación μY como equivalente a μY | x . μY = yˆ a ± B 256 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra μY = 256.3 ± 3.387 IC ( μY ) = 252.9 a 259.7 PH H 0 : μY = 265 Aseveración H A : μY ≠ 265 1 Comparando el eje t tm = yˆ m − μY σ yˆ = 256.3 − 265 = −5.92 1.469 tc = t0.025 (8) = 2.306 | tm |>| tc |⇒ Se rechaza H 0 2 Comparando el eje Ŷ Yˆm = 256.3 tc = t0.025 (8) = 2.306 ˆ Yc = 265 − 2.306(1.469) = 261.6 | Yˆ − Y |>| Yˆ − Y |⇒ Se rechaza H m 3 Comparando las áreas 0 c 0 0 α = 0.05 p = 2 ∗ sigT (−5.92,8) = 0.000 ⇒ p < α ⇒ Se rechaza H 0 Interrelación gráfica del IC con la PH Figura 5-157 Como la PH rechazó la H 0 : μY = 265 , entonces el IC obtenido no debe comprender a este valor (lo cual sucederá 5% de las veces). Decisión Se rechaza H0 al nivel de significación α = 5% (t(8) = –5.92, p = 0.000). Por lo tanto existe evidencia suficiente para rechazar la aseveración de que el gasto de consumo promedio es 265. c) Estima de Ya para xa = 400 IP V (e) = σˆ 2 + V ( yˆ ) = 4.542 + 2.158 = 22.76 σ (e) = 4.77 B = tσ (e) = 2.306(4.77) = 11 257 Capítulo 5 Inferencia Paramétrica I Ya = yˆ a ± B Ya = 256.3 ± 11 IP (Ya ) = 245.3 a 267.3 SPSS Procedimiento en la página 250 Solicitar: Statistics > Casewise diagnostics (3 standard deviation) y Durbin–Watson Colocar un nuevo caso con x = 400 (pues este valor no está presente en los datos) y solicitar: Save > Predicted Values > Unstandardized PRE_1 Standardized ZRE_1 S.E. of mean predictions SEP_1 Residual > Unstandardized RES_1 Standardized ZRE_1 Studentized SRE_1 Deleted DRE_1 Predictions Intervals Mean (LMCI-1 y UMCI_1) Individual (LICI-1 y UICI_1) Prueba de Regresión La última fila corresponde al valor predicho xa = 400. Figura 5-158 Se hace notar que todos los valores de los IP de las últimas 2 columnas, se calculan con las expresiones: V (e p ) = σˆ 2 + V ( yˆ ) Y = Yˆ ± t0.025 (8)σ ep 258 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Figura 5-159 Observar que el SPSS no entrega los valores de residuos para datos predichos (la última fila para xa = 400, se encuentra en blanco), por lo cual el valor obtenido de σ (e p ) para el cálculo del IP correspondiente a xa = 400 (4.77 en este ejemplo), no es visible. Las últimas 3 columnas de la figura 5-159 fueron obtenidas con Compute para obtener las desviaciones estándar de la estimación del error ε, de los residuos medidos e y de la predicción Yˆ : RES _1 ZRE _1 RES _1 = SE _ resid medido = = σˆ 2 − V ( yˆ ) SRE _1 V ( yˆ ) = ( SEP _ calc) 2 = σˆ 2 − V (em ) σˆ = SE _ error = σ em Esta última columna coincide con la de SEP_1 entregada por el SPSS (ver la columna SEP_1 en la figura). Dado que los valores de x se encuentran ordenados en sentido creciente, se puede observar además que la varianza del residuo de cada punto disminuye hacia los extremos (SE_resid). Para datos más numerosos, es conveniente presentar un gráfico como el siguiente: SE_resid vs PRE Figura 5-160 Será útil en el análisis de los puntos influyentes apreciar que ninguno de los residuos estandarizados (o estudientizados) supera el punto de corte 3, por cuya razón, además, SPSS no entrega la tabla de Casewise diagnostics. 259 Capítulo 5 Inferencia Paramétrica I Figura 5-161 En la siguiente tabla proporcionada en el mismo conjunto de tablas, se pueden observar los valores de SSR, SSE, MSR, MSE, F y el valor p. Figura 5-162 El siguiente gráfico se obtiene con: Graphs > Chart Builider > Scatter Dot. Luegose hace un doble clic en el gráfico y se presiona el icono de la recta de regresión. Si se desean obtener las bandas de confianza de la estima de Y y de E(Y), se tilda la opción deseada, Mean o Individual, en el panel Confidence Intervals. Si se desean ambas en el mismo gráfico se tilda una y luego de obtenida se repite para la otra. Figura 5-163 El SPSS no procesa la PH para la estimación del E(Y) coirrespondiente a un valor específico de x, por lo cual la respuesta a unaPH debe realizarse con el IC. En este caso el valor 265 no está contenido en el IC cuyos valores se encuentran en la figura 5-158: IC = [ LMIC ;UMIC ] = [252.7; 259.5] Por lo tanto existe evidencia suficiente para rechazar la aseveración de que el gasto de consumo promedio es 265. d) Paso 5 Verificación: potencia retrospectiva La verificación que se ha incluido en todos los problemas resueltos ha sido la correspodiente al tamaño de la muestra derivada del paso 3, Diseño. En este caso incluiremos además las verificaciones concernientes al paso 2, modelo, las cuales se realizarán luego en el problema resuelto contenido en la página 265. La prueba resultó significativa y podríamos considerar si está detectando efectos chicos (con alta potencia). Esto ya se realizó con la prueba equivalente del coeficiente de correlación (problema resuelto, página 216), 260 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra habiendo concluido que el estudio era concluyente pues si un efecto chico existiera en la población, probablemente no sería detectado en el estudio. En su lugar calculemos ahora la Potencia Observada, es decir la potencia para una hipótesis alternativa que configurara una población con un tamaño del efecto igual al valor de la muestra. Observemos que: s 61.3 = 25.6 nc = n − 1Bˆ1 x = 9(0.633) σˆ 4.54 2.306 B1c = = 0.057 61.3 9 4.54 B1m = 0.633 Estos valores nos indican que el resultado es significativo (B1m > B1c) y que el tamaño del efecto muestral, superará la potencia de 50% (correspondiente a B1c). 1 SPSS tα = IDF .T (0.025,8) = 2.31 Solución centralizada t β = tα /2 − nc t β = 2.306 − (25.6) = −23.3 1 − CDF.T (−23.3,8) = 1 P =1 Solución descentralizada P = 1 − NCDF .T (2.306,8, 25.6) = 1 Potencia observada Utilizar el GLM. Options > Descriptive statistics, Estimates of effect size, Observed power. Figura 5-164 Se observa la coincidencia con la técnica anterior. Aquí aparecen además, los valores del parámetro de descentralidad y la potencia observada para un tamaño del efecto poblacional igual al de la muestra. GPower t tests Linear bivariate regression: One group, size of slope Post hoc. 2 colas, α = 0.02, Slope H0: B1 = 0 Slope H1: B1 = 0.633 (solo para obtener la curva de potencia), sX= 61.3, sY= 39 y n = 10. Observar la existencia de la siguiente restricción realtiva al coeficiente estandarizado (capítulo1): −1 < rP = B1 sX <1 sY 261 Capítulo 5 Inferencia Paramétrica I Para evitar colocar valores incompatibles con esta restricción que puedan detener el programa, es conveniente usar la calculadora del tamaño del efecto (Determine). Recordar que GPower utiliza n en lugar de n–1. Gráficas En la figura 5-165 y en la figura 5-166 se observan las distribuciones y las curvas de Potencia en función del tamaño del efecto, para varios valores de n. Como el resultado es significativo se debe evitar el riesgo de que no se estén detectando (potencia alta) efectos chicos a juicio del investigador, lo cual no ocurre en este caso, de acuerdo al resultado de la prueba del coeficiente de correlación. Figura 5-165 Figura 5-166 Problema resuelto 5.26 Relación entre ingreso y gastos Analizar con el SPSS la existencia de casos influyentes en el problema resuelto anterior. 262 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Casos influyentes Solicitar: Save > Mahalanovis Leverage Ratio DfBeta(s) Cambios en los coeficientes Standardized DfBetas DfFit Cambio en el valor predicho (Fit) o en el residuo. Standardized DfFit Covariance Ratio Cook's En la figura 5-167 y en la figura 5-168, se muestran las variables generadas. Es instructivo para comprender las mismas, realizar al menos una vez la obtención de algunos de los valores en forma separada (obtener la ecuación de regresión reducida eliminando un caso de la regresión con el procedimiento Select Cases y comparar con la regresión completa sin reducir). Comprobar además el cumplimiento de las interrelaciones: V (e) = σ 2 (1 − hii ) 1 h COOi = SREi 2 ii k +1 1 − hii Figura 5-167 Figura 5-168 Se puede observar que el caso 1 (primera fila) presenta valores de influencia de COO_1 mayor que 1, lo cual indica que el caso es influyente. Su Leverage, hii = LEV_1+1/n, tiene un valor superior al punto de corte (es un extremo en x), pero su residuo estandarizado ZRE_1, si bien es el mayor no supera a 3 (1.816). 263 Capítulo 5 Inferencia Paramétrica I hii = 0.41582 > 2k 2(1) = = 0.2 n 10 Debe decidirse el criterio a seguir para el tratamiento de los casos influyentes, como el que se ha detectado en este ejemplo. Para datos más numerosos, es conveniente presentar la información en forma gráfica, por ejemplo como los diagramas de puntos siguientes. LEV vs PRE Informa acerca de outliers en x. Presenta el comportamiento esperado que el índice crece a partir del centro de los valores. Figura 5-169 LEV vs SE_resid Informa sobre la vinculación entre los extremos de x (leverage) y la dispersión de los extremos de y (error estándar del residuo). A mayor leverage, menor error estándar del residuo y viceversa. Figura 5-170 COO vs PRE Informa acerca de casos anómalos. Se observa el alto valor de COO para el caso 1. 264 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Figura 5-171 Paso 5 Verificación En el paso 5 se deben verificar 2 aspectos concernientes a los pasos 2, modelo (supuestos) y paso 5, diseño (tamaño de la muestra). La verificación del tamaño de la muestra ya se ha realizado como potencia retrospectiva (página 260). En esta sección resta analizar que tan bien se cumplen los 4 supuestos del modelo sobre los cuales se basó el análisis, antes de adoptar el modelo como predictor. Si no se verifican estos supuestos, el modelo no es razonable y se deberá modificar, iniciando un procedimiento iterativo en la búsqueda del mejor ajuste del modelo a los datos. De aquí la importancia de dominar algún programa de computo con el cual complementar el juicio inteligente del investigador. Recorremos esta investigación utilizando el problema resuelto anterior. Problema resuelto 5.27 Relación entre ingreso y gastos Paso 5 Verificación: supuestos del modelo Analizar el cumplimiento de los 4 supuestos en el problema que estudia la relación entre el ingreso y los gastos. 1 Linealidad Además del coeficiente de correlación, se puede evaluar la linealidad con un gráfico de los residuos studentizados SRE_1 versus los valores predichos, PRE_1, figura 5-172. La gráfica debe ser más o menos lineal. 265 Capítulo 5 Inferencia Paramétrica I Figura 5-172 2 Aleatoriedad El supuesto de que x no es aleatoria, se encuentra implícito en la toma de los datos. 3a Error: Normalidad Se puede comprobar con Analyze > Descriptive Statistics > Explore > Colocar la variable RES_1 en Dependent List> Plots > Stem and Leaf Histogram y Normality Plots with Tests. El diagrama de tallo y hojas o el histograma (figura 5-173) no sugieren que haya motivos para rechazar la normalidad. Muestras pequeñas no necesariamente lucen como normales, pero no hay valores extremos y la distribución tiene un solo modo, más o menos en el medio. En el capítulo 1, página normalidad1 vimos que existe un plot especial llamado Q–Q, (Cuantil–Cuantil), el cual grafica el ze esperado si los datos provinieran de una determinada distribución Normal versus el valor observado. Este valor esperado se obtiene hallando la CDF para cada dato y luego el percentil correspondiente a la distribución teórica de comparación (Normal en este caso). Si los datos se ajustan a la distribución normal, la gráfica debe ser una recta, figura 5-174. El gráfico Detrended (trend es tendencia, por lo tanto significa la remoción de la tendencia lineal), figura 5-175, coloca en el eje y las desviaciones entre los valores esperados y observados. Con este grafico se detectan patrones y desviaciones con más facilidad, los cuales no parecen existir en este caso. Figura 5-173 266 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Potencia y tamaño de la muestra Figura 5-174 Figura 5-175 Las pruebas estadísticas formales existentes en este procedimiento del SPSS, que prueban la hipótesis estadística de la normalidad, son: Kolmogorov-Smirnov y Shapiro-Wilk. Los resultados de las mismas se observan en el visor, figura 5-176. Si bien estas pruebas se tratarán en el capítulo 7 (estadística no paramétrica), se puede ver que el valor p (0.20 y 0.653), indica que no se rechaza la normalidad para cualquier α menor, por ejemplo α =0.05. Debe decirse también que como la muestra es pequeña, la potencia es baja (error β alto) y por lo tanto la probabilidad de no rechazar la hipótesis, incorrectamente, puede ser alta. Figura 5-176 Nota El lector podría, en forma alternativa, usar el procedimiento de la Bondad del Ajuste, en este caso a una distribución normal, tratado en la página 102, aunque en este caso debe calcular separadamente e introducir los valores hipotéticos de la distribución normal. 3b Error: Homocedasticidad Esta propiedad se puede chequear con un gráfico de puntos, entre los residuos y el valor predicho. Graphs > Chart Builder > Scatter/dot > colocar las variables RES_1 en el eje y y PRE_1 en el eje x. Se obtiene el gráfico de la figura 5-177. 267 Capítulo 5 Inferencia Paramétrica I Figura 5-177 Los residuos aparecen aleatoriamente dispuestos alrededor de una línea horizontal que pasa por 0. Parece existir un extremo en el primer valor, que habrá que investigar, pero no borrar. En el peor de los casos, entregar una regresión separada, con y sin el extremo (se puede individualizar a quién pertenece, seleccionando el botón Data Label Mode de la barra de herramientas y haciendo un clic con el mouse sobre el punto). Si las dispersiones aparecen como no constantes, ensayar algún cambio de variables (capítulo 1) y realizar de nuevo el análisis de regresión. Si la varianza parece crecer con x, considerar la raíz cuadrada de x o el logaritmo natural de x. 4 Error: Independencia Este supuesto se puede evaluar con un gráfico de los residuos studentizados SRE_1 versus una variable que represente la secuencia de toma de los datos (tiempo). Si se supone que estos datos fueron tomados en el orden en el cual se presentan, se obtiene la gráfica de la figura 5-178. La gráfica no debe mostrar ningún patrón. Un test estadístico para probar la H0: correlación serial entre términos adyacentes (capitulo 7), es el de Durbin– Watson. El estadístico de prueba es: d= ∑ (e − e ) ∑e 2 i −1 2 i i 0 < d < 4 . Valores cercanos a 2 indican que no están correlacionados. Menor a 2 indica una auto–correlación positiva y mayor a 2 una auto–correlación negativa. Figura 5-178 Mínimos Cuadrados Ponderados En la técnica vista hasta ahora, OLS (Ordinary Least Square), todos los casos contribuyen de igual modo. Esto significa que el método es insensible a los datos en el sentido que asume la variabilidad de los valores de la VD para cada valor de la VI (homocedasticidad). Para observar gráficamente 268 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables 2 Escala por categórica este comportamiento se puede graficar la nube de puntos de y en función de x, en la medida que haya suficiente cantidad de repeticiones. Es esperable que no se presente ningún patrón. Por otra parte hemos visto que los residuos no son constantes con la VI, incluso bajo la hipótesis de homocedasticidad de los verdaderos errores. El método WLS (Weighted Least Square), o regresión robusta, pondera a cada punto por medio de la variable que se desee. Naturalmente se busca que las observaciones de mayor variabilidad o de mayor influencia tengan menos ponderación (el caso extremo de descartar un valor equivale a una ponderación de 0). Recordemos que en la parte inferior de la ventana del método de Regresión del SPSS, existe una caja de texto llamada WLS Weight, en la cual se puede colocar una variable de ponderación. Esta variable se puede generar a mano o por el SPSS. Generación a mano Se calcula la varianza de la VD desagregada por grupos de similar valor a la VI. El reciproco de esta varianza puede servir como variable de ponderación. Generación por el SPSS Solo disponible si se cuenta con el menú Regresión > Weight Estimation, el cual conduce a la ventana de la figura 5-179. Figura 5-179 Este procedimiento asume que la varianza de la VD se incrementa con una determinada potencia de la VI. Por lo tanto los pesos tendrán la forma de la inversa de esta expresión. Si se coloca como variable de ponderación a la VI, el SPSS averiguará cual es la potencia a la que se debe elevar esta variable para maximizar la función de verosimilitud de la VD, llamada LL (Log Likelihood). Con Options > Save best weight as new variable, se agregará al archivo esta nueva variable (WGT_1), la cual podrá ser usada luego como variable de ponderación. 2 Escala por categórica Para completar los casos de regresión, quedan por estudiar las inferencias cuando existen variables categóricas (VD y/o VI). Si existen VI categóricas, 269 Capítulo 5 Inferencia Paramétrica I VI dicotómica VI multicotómica 3 Categórica por escala Para completar la teoría para la regresión, resta considera el caso en el cual la VD es categórica. Este caso se llama regresión logística. Verosimilitud Dado que Y y e siguen una distribución normal, Y = n ( B0 + B1 x, σ ) e = n(0,σ ) si se define: zi = B0 + B1 xi se tiene que la función densidad de z es: f = 1 − zi 2 1 e 2 2πσ Se define la función verosimilitud L (Likelihood) como: L = f1 × f 2 × ... × f n LL = ∑ Y ln( pˆ ) +(1 − Y )ln(qˆ ) Se demostró en el capítulo 1 que los coeficientes de la recta de regresión se obtienen minimizando la función SSE (OLS). Se puede demostrar que estos coeficientes son los mismos que maximizan a la función L. Estadístico de prueba H0 : Bj = 0 H A : Bj ≠ 0 El estadístico se llama Wald: Wj = Bj sB j Este estadístico sigue una distribución normal. Modelo lineal 270 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Introducción al Meta-Análisis, MA Modelo Logit Modelo Probit SPSS Introducción al Meta-Análisis, MA Estando familiarizados con el concepto de tamaños del efecto (poblacionales), resulta pertinente dar un pequeño paso e introducir un moderna técnica estadística llamada Meta-Análisis, en adelante, MA, la cual es una aplicación importante de los tamaños del efecto muestrales. Veremos además que para su comprensión no se requiere recorrer una empinada curva de aprendizaje. El MA es un procedimiento sistemático cuantitativo que combina información proveniente de un gran número de estudios independientes para proveer una mayor potencia estadística. La aparición explosiva de enorme cantidad de estudios sobre un mismo tema con resultados redundantes e incluso no pocas veces contradictorios, ha tornado difícil el establecimiento de conclusiones. Es entonces que una técnica como el MA resulta de gran importancia. Sin embargo debe aclararse que, dado que el MA implica la actualización permanente con nuevas informaciones, no es, por definición, concluyente. El resto de esta sección se estructura de la siguiente forma: 1. Cálculo de los tamaños de efecto. 2. Combinación de resultados. 1 Cálculo de los tamaños del efecto individuales En la sección diseño se definieron tamaños del efecto poblacionales necesarios para cuantificar a los valores de la hipótesis alternativa. El MA moderno utiliza los tamaños de efectos muestrales de estudios individuales para producir una estima del tamaño del efecto poblacional global, con su correspondiente IC y PH. Se utiliza como medida un tamaño del efecto pues tiene la gran ventaja de no depender del tamaño de la muestra utilizado, por lo cual pueden combinarse resultados correspondientes a distintos tamaños muestrales. En general, los datos originales caen en una de las siguientes tres categorías: • Comparación de medias de los grupos control y experimental. • Comparación de proporciones de los grupos control y experimental (tablas de contingencias 2x2). • Coeficientes de correlación. A continuación se resumen las medidas más usuales de tamaños del efecto y sus varianzas. Con estos valores y conociendo la distribución del tamaño del efecto global, se pueden calcular los IC y la significación para cada caso. Notación En lugar de diferenciar a las poblaciones como 1 y 2, resultará más apropiado llamarlas E (Experimental) y C (Control). a Comparación de medias La comparación puede ser realizada con la diferencia o con el cociente. 271 Capítulo 5 Inferencia Paramétrica I 1 Diferencia de medias, d de Cohen x −x d= E C σ ( nC − 1)( sC ) + ( nE − 1)( sE ) 2 σ= 2 nC + nE − 2 ⎛ n + nE ⎞ ⎛ nC + nE ⎞ d2 + Vd = ⎜⎜ C ⎟⎟ ⎜ ⎟ 2 ( nC + nE − 2 ) ⎠ ⎝ nC + nE − 2 ⎠ ⎝ nC nE Distribución: t de Student. Presenta el inconveniente de ser sesgada para tamaños muestrales pequeños. 2 Cociente de medias, Response Ratio, R x R= E xC Transformación ln Como es una razón y la distribución no es normal, se normaliza (aproximadamente) con la transformación del logaritmo natural. ⎛x ⎞ ln R = ln ⎜ E ⎟ ⎝ xC ⎠ s2 s2 Vln R = E 2 + C 2 nE xE nC xC Distribución aproximada: normal. b Comparación de proporciones P N Total Experimental Control Total a b nP c d nN nE nC n Figura 5-180 Las 3 medidas que se describirán a continuación, ya fueron vistas al tratar la comparación de proporciones Δp , (página 164), pero se repiten aquí cambiando la notación 1 y 2 por E y C. 1 Diferencia de proporciones, Risk Difference, RD Se calcula la tasa de respuesta de ambos grupos: pˆ E = a nE pˆ C = b nC Luego se definen: RD = Δpˆ = pˆ E − pˆ C pˆ qˆ pˆ qˆ VRD = E E + C C nE nC Inconveniente: 272 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Introducción al Meta-Análisis, MA Com ya sabemos, el rango de variación de RD está fuertemente limitado por las magnitudes de pˆ E y pˆ C . Los valores de RD aumentan cuando ambas tasas son cercanas a 0 o 1, lo cual genera una aparente heterogeneidad entre estudios. Distribución: aproximadamente normal. Intervalos de Confianza Como de costumbre. Prueba de hipótesis Hipótesis nula: homogeneidad de proporciones, lo cual implica RD = 0. Sabemos que bajo esta hipótesis la varianza debe calcularse con los valores combinados pc y qc. Un método más directo para calcular el valor muestral es utilizar la expresión de chi-cuadrado vista también en la sección del análisis de la diferencia de proporciones, página 170: χ2 = n(ad − bc)2 ∏ m arg inales Naturalmente este valor deberá compararse con el punto de corte también medido en chi-cuadrado. 2 Cociente de proporciones, Risk Ratio, RR pˆ RR = E pˆ C Transformación ln Como RR es una razón la distribución se normaliza (aproximadamente) con la transformación por el logaritmo natural. pˆ E pˆ C qˆ qˆ qˆ qˆ = E+ C = E + C a b pˆ E nE pˆ C nC ln RR = ln Vln RR Distribución: aproximadamente normal. Intervalos de Confianza Como de costumbre pero como el tamaño del efecto está transformado, el resultado final deberá antitransformarse. Prueba de hipótesis Hipótesis nula: homogeneidad de proporciones, lo cual implica RR = 1 y logaritmo 0 Bajo esta hipótesis la varianza debe calcularse con los valores combinados pc y qc. Para calcular el valor muestral puede utilizarse la expresión de chi-cuadrado vista anteriormente. 3 Cociente de posibilidades, Odd Ratio, OR Si se tratara de una sola población, el tamaño del efecto sería el cociente entre p y q llamado posibilidades (Odd en inglés): O= p q Como esta medida no está distribuida normalmente, se la transforma con el logaritmo natural. Cuando esta tranformación se aplica a un odd, se llama logit. ⎛ p⎞ ln O = ln ⎜ ⎟ = log it (O) ⎝q⎠ 273 Capítulo 5 Inferencia Paramétrica I En el caso de 2 poblaciones, se define en forma análoga el cociente de posibilidades, OR (Odd Ratio): OR = OE pˆ E / qˆ E pˆ E qˆC ad = = = OC pˆ C / qˆC qˆ E pˆ C bc Transformación ln Como OR es una razón la distribución se normaliza (aproximadamente) con la transformación del logaritmo natural. pˆ E qˆC ad = ln ˆqE pˆ C bc 1 1 1 1 = + + + a b c d ln OR = ln Vln OR Distribución: aproximadamente normal. Intervalos de Confianza Como el tamaño del efecto está transformado, el resultado final deberá antitransformarse. Prueba de hipótesis Hipótesis nula: homogeneidad de proporciones, lo cual implica OR = 1 y logaritmo 0. Bajo esta hipótesis la varianza debe calcularse con los valores combinados pc y qc. Para calcular el valor muestral puede utilizarse la expresión de chi-cuadrado vista anteriormente. c Correlación Transformación de z de Fisher El amaño del efecto es el coeficiente de correlación de Pearson. Como su distribución no es normal, se normaliza aproximadamente con la transformación z de Fisher. 1 ⎛1+ r ⎞ ln ⎜ ⎟ 2 ⎝ 1− r ⎠ 1 VzF = n−3 zF = Distribución: aproximadamente normal. Inconvenientes: 1. Está sesgado ligeramente cuando el tamaño muestral es bajo. 2. Hay que tener cuidado con no incluir estudios demasiado heterogéneos. Intervalos de Confianza Como el tamaño del efecto está transformado, el resultado final deberá antitransformarse. Prueba de hipótesis Hipótesis nula: Incorrelación. 2 Combinación de resultados Para poder combinar resultados en un MA los estudios deben ser susceptibles de ser comparados estadísticamente y deben contener todos los valores inferenciales estadísticos esenciales, esto es, como mínimo los 3 resultados de la columna de valores muestrales de la tabla de página 28 (valor p incluso cuando es no significativo), los grados de libertad y los tamaños de las muestras. Se siguen 2 pasos: a. Prueba de homogeneidad. b. Cálculo de un estimador del tamaño del efecto global y su significación. 274 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Introducción al Meta-Análisis, MA a Prueba de homogeneidad Los modelos pueden ser: 1 De efectos fijos (homogeneidad entre estudios) Se asume que hay un solo tamaño de efecto poblacional compartido por todos los estudios y por lo tanto realiza el cálculo basado en el supuesto de que la única variación en el tamaño del efecto se debe al error del muestreo. 2 De efectos aleatorios (heterogeneidad entre estudios) Se asume que existe además una componente de variación aleatoria entre poblaciones (varianza interestudios), la cual se calcula y se introduce en la expresión de la varianza. El modelo de efectos fijos es un caso particular del de efectos aleatorios, si esta componente es cero. Por lo tanto el primer paso es comprobar la homogeneidad o heterogeneidad entre estudios, lo cual se hace con un estadistico Q definido por Cochran ( Ê es el estimador del tamaño del efecto y se define en el apartado siguiente): ( n QT = ∑ wi Ei − Eˆ i =1 ) 2 Distribución χ2 con n–1 grados de libertad. H 0 : Homogeneidad H A : Heterogeneidad Si QT es significativa y rechazamos la hipotesis nula de homogeneidad entre los estudios, aplicamos el modelo de efectos aleatorios. De lo contrario aplicamos el modelo de efectos fijos. Asumimos en esta introducción que tratamos un modelo de efectos fijos. b Cálculo de un estimador del tamaño del efecto global El estimador al que llamaremos Ê , sintetiza el tamaño del efecto global de los tratamientos. Este estimador es una media ponderada de los tamaños del efecto individuales. Se pondera con la inversa de la varianza del tamaño del efecto E de cada estudio, con lo cual se pondera la diferencia en los tamaños muestrales y potencia de cada estudio individual. Las expresiones de cálculo son, por lo tanto: n Eˆ = ∑w E i i =1 n ∑w i =1 w= i i 1 Varianza Si la varianza se presenta como ln, los tamaños del efecto E, deberán también estar expresados como ln. Inferencia Se demuestra que la varianza del estimador Ê es: sE2ˆ = 1 n ∑w i =1 i 275 Capítulo 5 Inferencia Paramétrica I Distribución Se asume que la distribución de Ê es una normal. IC Los IC se forman de la manera habitual: IC = Eˆ ± B = Eˆ ± zα /2 sEˆ Si el tamaño del efecto está transformado, el resultado final deberá antitransformarse. Si por ejemplo se tratara de una transformación ln, se antitransforma con una exponencial: IC = eln IC PH Las hipótesis son: H0 : E = 0 HA : E ≠ 0 Observar que los tamaños del efecto de cocientes también se incluyen en estas hipótesis pues se transforman con logaritmos y por lo tanto la igualdad implica un cociente igual a 1 y en definitiva un logaritmo igual a 0. Se calcula el valor muestral estandarizado y a partir del mismo, el valor p. Software Existen varios programas específicos para realizar Meta-Análisis, cuyas direcciones electrónicas se encuentran en la bibliografía, entre ellos: • Comprehensive Meta-Analysis, CMA (ver problema resuelto). • Mix (Addin para EXCEL). • Review Manager (Cochrane) Para finalizar incluyo un problema resuelto, correspondiente a comparación de proporciones. Problema resuelto 5.28 La aspirina en la prevención primaria. Se han realizado diversos MA que combinan estudios relacionados con el efecto de la aspirina en la prevención primaria de la enfermedad cardiovascular. La prevención primaria se diferencia de la secundaria en que reúne a pacientes sin historia previa de eventos cardiovasculares mayores. El estudiante puede consultar la profusa información que sobre este tema se encuentra en Internet. Este problema solo tiene la pretensión de presentar el proceso de cálculo para 5 estudios experimentales, los cuales se resumen en las tablas de contingencia que se presentan a continuación. El Positivo indica que el individuo desarrolla un evento cardiovascular. El grupo Experimental fue tratado con aspirina y el de Control con un placebo. a) Utilizando el tamaño del efecto OR, obtener el IC del tamaño del efecto global y probar que la aspirina tiene efectos significativos en la prevención primaria de esta enfermedad ( α = 5% ). Interrelacionar gráficamente el IC con la PH. b) Analizar la potencia retrospectiva versus el tamaño del efecto de la prueba. 1 Experimental Control Total P 67 87 154 N 69 86 155 Total 136 173 309 276 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Introducción al Meta-Análisis, MA 2 Experimental Control Total P 49 97 146 N 48 94 142 Total 97 191 288 3 Experimental Control Total P 166 8 174 N 83 4 87 Total 249 12 261 4 Experimental Control Total P 9 4 13 N 10 6 16 Total 19 9 29 5 Experimental Control Total P 117 12 129 N 56 3 59 Total 173 15 188 Figura 5-181 Paso 1 Problema Comparar grupos (metaanálisis). Paso 2 Modelo Distribuciones normal y chi–cuadrado. Se incluyen luego dentro de IC y PH. Paso 3 Diseño Tamaño de la muestra: ver figura 5-181 Paso 4 Análisis 1 Cálculo de los tamaños de efectos OR El OR se calcula colocando en los numeradores de los Odds al grupo experimental. Por lo tanto: • Un OR igual a 1 equivale a igualdad entre los resultados de los grupos experimental y control. • Un OR menor que 1 indica que el grupo experimental tiene menos cantidad de P, por lo cual la aspirina ha tenido efecto. Denominaremos a este tratamiento: Protector. • Un OR mayor a 1 indica que el grupo experimental tiene mayor cantidad de P, por lo cual la aspirina no ha tenido efecto. Denominaremos a este tratamiento: Riesgo. Las expresiones de cálculo son: OR = Vln OR pˆ E qˆC ad = qˆ E pˆ C bc 1 1 1 1 = + + + a b c d 277 Capítulo 5 Inferencia Paramétrica I w= 1 Var Inferencia IC ln E = ln Eˆ ± zc sln Eˆ IC = eln E PH H 0 : OR ≥ 1 H A : OR < 1 Aseveración zm = ln Eˆ − 0 sln Eˆ Con ellas se obtienen los siguientes valores. Se incluye la inferencia para cada grupo. Como se desea probar que la aspirina tiene efectos significativos, esto es OR < 1, es una prueba de 1 cola con α = 5% pE pC OR ln(OR) Tipo de tratamiento V (lnOR) s(lnOR) w w relativo ln(IC)-LCI ln(IC)-LCS IC-LCI IC-LCS zm p (sign) 1 0.435 0.445 2 0.335 0.338 3 0.954 0.954 4 0.692 0.625 5 0.906 0.949 0.960 ‐0.041 0.989 ‐0.011 1.000 0.000 1.350 0.300 0.522 ‐0.649 Protector Protector Riesgo Riesgo Protector 0.0525 0.229 19.03 0.458 –∞ 0.408 0 1.399 ‐0.179 0.858 0.0621 0.393 0.627 0.249 0.627 0.792 16.08 2.54 1.59 0.387 0.0612 0.0383 –∞ –∞ –∞ 0.478 1.229 1.853 0 0 0 1.491 2.805 4.970 ‐0.043 0.000 0.379 0.965 1 0.705 0.443 0.666 2.25 0.0544 –∞ 0.655 0 1.561 ‐0.976 0.329 Figura 5-182 Los efectos de los estudios 3 y 4 son iguales o mayores a1, lo cual indica que el grupo de tratamiento se comportó peor que el de control (efecto Riesgo). Los grupos más precisos son los 1 y 2 por lo cual tienen los mayores pesos w. Nota Dada la equivalencia entre la normal y la chi-cuadrado con ν = 1, si la prueba es bilateral se podría usar la expresión siguiente y usar la distribución χ2 para calcular el valor p. χm2 = (Total )(ad − bc)2 ∏ m arg inales 2 Combinación de resultados Con los valores contenidos en la tabla anterior, se obtiene: Jorge Carlos Carrá 278 IV Análisis de dos variables: Asociación entre variables Introducción al Meta-Análisis, MA n ln Eˆ = ∑ w ln E i i =1 i n ∑w = −0.047 i i =1 La varianza de este estimador es: sln2 Eˆ = 1 n ∑w i =1 = 0.024 i sEˆ = 0.155 IC La distribución es una normal El intervalo de confianza del 95% será: ln IC = ln Eˆ ± zc sln Eˆ = −0.047 + 1.64(0.155) ln IC =(−∞;0.2072) Finalmente: IC = e ln IC = (0;1.23) PH H 0 : OR ≥ 1 H A : OR < 1 Aseveración El valor muestral estandarizado es: zm = Por lo tanto el valor p es: ln OR − 0 = −0.303 sln OR Valor p = sign(0.303) = 0.38 ⇒ p > α ⇒ No se rechaza H 0 Interrelación gráfica del IC con la PH Figura 5-183 Como la PH no rechazó la H 0 : OR ≥ 1 , entonces el IC obtenido debe comprender a este valor (lo cual sucederá 95% de las veces). Conclusión No existe evidencia suficiente para sustentar la aseveración de que la aspirina tiene efecto en la prevención primaria de la enfermedad cardiovascular. 279 Capítulo 5 Inferencia Paramétrica I Paso 5 Verificación: potencia retrospectiva El resultado es no significativo por lo cual deberíamos calcular P para un tamaño del efecto alto. Supongamos que el investigador considera alto un OR = 1.5. zβσ θˆ = zασ θˆ − (θ1 − θ 0 ) 1 0 zα = 1.96 θ 0 = ln(1) = 0 θ1 = ln(1.5) = 0.405 Adoptando: σ 2θˆ = σ 2θˆ = 0.024 0 se obtiene: zβ = zα - 1 θ1 0.405 = 1.96 = -0.654 σ θˆ 0.1549 1 Por lo tanto: P = 0.5 + CDF .normal ( −0.654, 0,1) = 0.5 + 0.26 = 0.76 La potencia es cercana a 0.80 (alta), por lo cual podemos concluir que si este efecto grande existiera en la población, probablemente sería detectado en el estudio. Como la prueba no detectó un efecto, es probable que el d no exista, por lo cual el estudio es concluyente. GPower Exact tests Proportion: Inequality, two independent groups (unconditional) Options > Odds ratio. Post hoc, 2 colas, OR: 1.5, α = 0.05, proporcion p2 = 266/459 = 0.58 n1 = 616, n2 = 459. Entrega una potencia de: 0.88. Gráficas En la figura 5-184 se observa la curva de Potencia en función del tamaño del efecto. Con el tamaño de la muestra, a partir de un OR = 1.45, se obtiene una potencia mayor a 0.8. 280 Jorge Carlos Carrá IV Análisis de dos variables: Asociación entre variables Introducción al Meta-Análisis, MA Figura 1-184 CEM Veamos la solución con este software. Ejecutar el programa y abrir una página nueva. Luego se crearán las columnas necesarias con: Insert > Column for > Study names Insert > Column for > Effect size data Seleccionar: Comparison of two groups, time-points, or exposures (includes correlations) Seleccionar: Dichotomous (number of events) > Unmatched groups, prospective (e.g. controlled trials, cohort studies) > Events and sample size in each group En la caja de diálogo que se presenta colocar los nombres de los grupos (en este ejemplo: Experimental y Control) y los nombres del evento dicotómico (en este ejemplo: P (se presenta la enfermedad) y N (no se presenta la enfermedad). Entrar el nombre de cada estudio (en este ejemplo 1, 2, 3, 4 y 5) y los datos. Si están en EXCEL o SPSS, copiar y pegar cada columna. Al entrar el último dato CMA calcula los efectos y los muestra en columnas sombreadas de amarillo. Si se hace doble clic en un valor calculado, CMA muestra en una ventana emergente las fórmulas y el proceso de cálculo. Figura 5-185 Si se desea agregar otros índices, hacer clic derecho sobre cualquiera de las columnas amarillas > Customize computed effect size display. Tildar los índices deseados. Antes de iniciar el análisis, elegir el nivel de confianza en: Computational options. En este caso, como la prueba es de 1 cola con α = 5%, se debe elegir CI = 90%. Iniciar el análisis presionando el botón: Run analysis. Se presenta la siguiente información con todos los datos relevantes. El tamaño del efecto predeterminado es OR y el modelo por defecto es Fixed Effect. Si se desea cambiarlos presionar el botón. Effect Measure: Odds ratio. 281 Capítulo 5 Inferencia Paramétrica I Figura 5-86 Observar que CMA presenta la relación gráfica de los IC con la PH, gráfica que se llama Forest Plot en MA, nombre que proviene de una deformación del apellido Forrest, en honor a Pat Forrest quién lo utilizo en una revisión de cancer de mama. Si se presiona el botón Next Table, se presenta, entre otros datos, el análisis de homogeneidad (prueba Q). Se aprecia en lafigura siguiente que el valor p es no significativo por lo cual no existe evidencia suficiente para rechazar la hipótesis de homogeneidad y entonces es correcto el modelo de efectos simples. Figura 5-187 Para volver a la tabla de datos, presionar el botón Data entry. 282 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Introducción al Meta-Análisis, MA V Pruebas de Control de Calidad, SQC En tiempos en los que la competencia adquiere una importancia capital, resulta imprescindible la presencia de medidas que ayuden a mantener la calidad de los productos. Las técnicas acerca de la calidad pueden dividirse en • Técnicas aplicables durante el proceso de producción (online). • Técnicas aplicables a la aceptación del producto terminado 1 Calidad durante la producción (online) Las variaciones inherentes a la fabricación de productos se clasifican en aleatorias y sistemáticas. • Aleatorias o naturales Se producen al azar y son por ejemplo provocadas por las condiciones atmosféricas, variaciones de los materiales, vibraciones en las máquinas, etc. Están siempre presente y no pueden eliminarse por completo. Estas provocan que no haya 2 productos que sean exactamente iguales. • Sistemáticas o asignables Son todas las restantes y pueden eliminarse una vez que se detectan las causas, sean éstas materiales o humanas. El Control Estadístico de Calidad, más conocido por sus siglas en inglés SQC, Statistic Quality Control, busca advertir las variaciones sistemáticas que se producen en un proceso, en el momento que ocurren, de tal forma que puedan identificarse las causas y corregirlas a tiempo. Es de la familia de las PH, pero presenta las siguientes diferencias relevantes con las mismas: 1. Parámetro poblacional Εl parámetro poblacional θ = θ0 no es un valor hipotético sino un valor dato conocido y preestablecido. 2. Ecuación pivote EL SQC centra el análisis en el intervalo de aceptación de la prueba. lo cual se expresa formalmente en el Intervalo de Aceptación. Este intervalo se construye despejando de la ecuación pivote el valor estimado (a diferencia de un IC, en donde se despeja el parámetro poblacional). 3. Diagramas de Control Como se realizan varias muestras, es más operativo utilizar los llamados Diagramas de Control, Quality Charts, que presentaremos más adelante. Los parámetros que se controlan habitualmente en un proceso se pueden dividir en: Variables de escala • • De posición Media o x–barra en una distribución normal. De dispersión Amplitud R (Range) en una distribución normal. Desviación estándar s en una distribución chi-cuadrado. 283 Capítulo 5 Inferencia Paramétrica I Variables categóricas Número de éxitos np o proporción muestral p, o en una distribución binomial Número de casos c o proporción de casos u, en una distribución de Poisson 2 Calidad del producto terminado Se realiza habitualmente tomando 1 muestra (en algunos caso 2 muestras) de n elementos, llamada muestreo de aceptación y se fija el número de aceptación, llamado Nivel de Calidad Aceptable, NCA. Si el número de elementos defectuosos no supera el NCA, se acepta el lote. En caso contrario, se rechaza. Puede observarse que es un proceso hipergeométrico, pero en la práctica, por sencillez, se estudia como binomial. 1 Calidad durante la producción a. Variables de escala Ejemplificaré los conceptos esenciales de los llamados diagramas de control con el primer caso (media muestral). Control de x-barra, A y s Control de θˆ = x Si se despeja la media muestral de la ecuación pivote: zα /2 = X −μ σx Se obtiene: X = μ ± zα /2σ x Este intervalo se llama de aceptación, IA. Si la media poblacional se desconoce, se adopta la media de las medias muestrales, llamada gran media, x . Si la desviación estándar poblacional se desconoce, se adopta la media de las desviaciones estándar muestrales, la cual, como vimos en el capítulo 4, estará afectada por un factor c4 (tabla SQC del apéndice B). σˆ = s c4 σx = s c4 n El valor de z que se adopta normalmente es z = 3. Los límites de este intervalo se denominan: LCS, Límite de Control Superior o en inglés UCL Upper Control Limit y LCI, Límite de Control Inferior o LCL, Lower Control Limit. La expresión gráfica de este intervalo, se llama Diagrama de Control, el cual se aprecia en la figura 5-188, obtenida con el SPSS. En el eje x se colocan las muestras sucesivas y el intervalo para cada muestra se coloca en el eje y. En la figura se presentan 16 muestras. La línea que contiene al valor medio se llama Línea Central, LC. 284 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Control de x-barra, A y s Debe remarcarse que la proyección de todos los puntos del diagrama sobre un eje vertical es en realidad la distribución muestral del estadístico en estudio, con su media y los valores de z =3 y z = –3. Si esta distribución fuera normal, esto significaría que debe esperarse que alrededor del 97% de los puntos de varias muestras, se encuentre dentro de esos límites. En este caso se dice que el proceso se encuentra Bajo Control. Si esto no se verificara, se dice que el proceso está Fuera de Control. Incluso en el caso de que se cumplan los porcentajes anteriores, debe sospecharse de proceso fuera de control si los puntos se comportan de forma no aleatoria, como por ejemplo si las 3 muestras de 100 son consecutivas. Figura 5-188 Diagrama de Control de la media Para detectar comportamientos no aleatorios, son útiles las siguientes 4 reglas obtenidas del Western Electric Handbook, 1956 (muestras de 4, 5 o 6 elementos): 1. 1 punto fuera de z = 3 2. 2 de3 puntos consecutivos fuera de z = 2 y del mismo lado. 3. 4 de 5 puntos fuera de z = 1 y del mismo lado 4. Una corrida de más de 8 puntos. Se define una corrida como una secuencia de observaciones del mismo tipo, ascendentes o descendentes. Si el proceso está fuera de control, deberán investigarse las causas de esta anormalidad (ver diagrama Pareto, más adelante) Se acostumbra a usar la amplitud R (diferencia entre el valor más alto y el valor más bajo) en lugar de la desviación estándar. Esto se debe a que el tamaño de la muestra es pequeño por lo cual no es mucha la pérdida en la precisión y también a razones históricas previas al uso intensivo de las computadoras. En este caso, el IA se conforma por: X = μ ± A2 R Donde: • R es el promedio de las amplitudes de cada muestra. • A2 es un factor que depende del tamaño de la muestra y se obtiene de la tabla de Factores para SQC, que se reproduce en el apéndice B. 285 Capítulo 5 Inferencia Paramétrica I Diseño del Muestreo En el lenguaje de SCQ, las muestras se denominan subgrupos. Es necesario especificar el tamaño de la muestra y la frecuencia de muestreo. Cuanto mayor es el tamaño y mayor es la frecuencia de muestreo posible, mayor es la probabilidad de que se detecten pequeños corrimientos pero es antieconómico. En general se debe optar por un tamaño grande con una frecuencia pequeña o por un tamaño pequeño con una alta frecuencia. En la industria se tiende a priorizar pequeñas y frecuentes muestras y se asume en general que el número de muestras debería ser mayor que 20 y el tamaño de cada una debe estar entre 5 y 15, usualmente 4, 5 o 6. Subgrupos racionales Esto significa que las muestras (subgrupos) deben seleccionarse de tal forma que las causas sistemáticas que tiendan a producir puntos que queden fuera del Intervalo de Aceptación, IA, ocurran entre las muestras y no dentro de las muestras. Si por ejemplo se desea estudiar el desempeño de un empleado, seleccionar muestras que se encuentren dentro de su turno de trabajo. De esta forma las diferencias sistemáticas por distintos trabajadores quedarán entre las muestras y no influirán en el análisis. Control de θˆ = s En este caso el intervalo de aceptación es: s = s ± 3σ s Se demuestra que (Montgomery, D. 2003. pag 609): σs = s 1 − c42 c4 c4 se encuentra en la tabla SQC del apéndice B. El proceso sigue los lineamientos anteriores. Si el valor del límite inferior da negativo es común tomarlo como 0. Un proceso puede estar bajo control en la media pero fuera de control en las desviaciones, lo cual indica que existen unidades demasiado grandes y demasiado cortas. Es más, como el control de la media depende de las desviaciones (por la incidencia en el error estándar), se sugiere comenzar con el control de s. Si el proceso estuviera fuera de control en s, los límites de control de la media, tienen poco significado. 286 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Control de x-barra, A y s Figura 5-189 Diagrama de Control de la desviación estándar Control de θˆ = R La amplitud es más fácil de calcular y la entienden rápidamente quienes carecen de formación estadística. El IA resulta de: LCR = R ± 3sR Sin embargo, por simplicidad se utilizan: LCI R = D3 R LCS R = D4 R Donde D3 y D4 se obtienen de la tabla de Factores para SQC, en el apéndice B. Son válidas las mismas consideraciones vertidas en el control de s, en particular la importancia de analizar los controles de la media y de las amplitudes en forma conjunta. Figura 5-190 Diagrama de Control de la amplitud SPSS Analyze > Quality Control > Control Charts. 287 Capítulo 5 Inferencia Paramétrica I Figura 5-191 El SPSS tiene la opción Individuals, Moving Range, para obtener diagramas de control en los casos que solo se dispone de muestras de tamaño 1. Este caso no será estudiado en este capítulo (Montgomery, D. 2003, pag 616) Control de θˆ = X θˆ = R y θˆ = s Casos son unidades Elegir la variable que contiene los valores sin procesar (desagregados por muestra) y colocarla en Process Measurement. Los casos que conforman cada muestra se deben definir en otra variable, la cual se colocará en Subgroups Defined by. SPSS realizará el análisis por columnas, dentro de cada muestra definida por la segunda variable. Figura 5-192 288 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Control de x-barra, A y s En el sector Charts, elegir si se desea estimar la media con la desviación estándar o con la desviación promedio. En correspondencia con esta elección, se puede elegir el gráfico de control de R o de s, respectivamente. Presionando el botón Control Rules, se pueden elegir algunas reglas de control para designar puntos que estén fuera de control. Las 4 reglas del Western Electric Handbook, antes enunciadas, son parte de las que se presentan. SPSS muestra un punto rojo en los resultados en que se produce una violación a las reglas de control. Casos son subgrupos Elegir las variables (más de una) que contienen los valores a procesar por cada muestra (fila) y colocarlas en Samples. SPSS realizará el análisis por filas. El resto es similar al caso anterior. Titles Permite incluir en los gráficos: títulos, subtítulos y pies de página. Options Permite fijar el número de sigmas del intervalo. Por defecto es 3 sigmas. Control Rules Permite elegir reglas cuya función es detectar comportamientos no aleatorios. Son una extensión de las 4 reglas obtenidas del Western Electric Handbook, 1956, mencionadas anteriormente. En la salida se muestran con diferentes colores los puntos que cumplen y que no cumplen las reglas. En este último caso, se indica además, cuál de las reglas no cumple. Statistics Permite incluir límites fijos en los gráficos de control de las variables de escala. Esto puede ser útil si se desea determinar si el proceso cae dentro de límites prefijados. Se incluyen además varios índices que miden la capacidad y performance del proceso. Figura 5-193 289 Capítulo 5 Inferencia Paramétrica I Problema resuelto 5.29 Tiempos de terminación de auditorías Usted trabaja para una empresa que realiza auditorías contables. El gerente desea establecer si los tiempos de terminación están bajo control, para los cual se muestrearon 6 auditorías para cada una de las 5 oficinas de la empresa y se midieron los tiempos de terminación de cada una. Los resultados se muestran en la tabla de la figura 5-194. 1 6.0 4.6 4.5 4.5 6.6 4.6 2 6.90 7.10 6.20 6.90 5.30 5.20 3 7.10 6.90 7.10 6.20 6.90 6.90 4 6.80 6.20 6.50 7.10 5.20 6.80 5 6.00 4.60 4.50 4.50 5.20 6.80 Figura 5-194 Construya diagramas de control para investigar si los tiempos de auditoría están bajo control. En principio construimos la siguiente tabla: 1 2 3 4 5 M1 6.00 6.90 7.10 6.80 6.00 M2 4.60 7.10 6.90 6.20 4.60 M3 4.50 6.20 7.10 6.50 4.50 M4 4.50 6.90 6.20 7.10 4.50 M5 6.60 5.30 6.90 5.20 5.20 M6 Media Amplitud Desv Std 6.00 5.13 2.10 0.92 5.20 6.27 1.90 0.85 6.90 6.85 0.90 0.33 6.80 6.43 1.90 0.68 6.80 5.27 2.30 0.95 Figura 5-195 x = 5.99 R = 1.82 s = 0.746 Diagrama de control de R LCI R = D3 R = 0 LCS R = D4 R = 2.004(1.82) = 3.647 Diagrama de control de s s = 0.746 ± 3σ s 0.746 σs = 1 − 0.95152 = 0.241 0.9515 ⇒ s = 0.746 ± 3(0.241) ⇒ LCI s = 0.023 ⇒ LCSs = 1.469 Observando la tabla de la figura 5-195, (los diagramas de control equivalentes se presentarán en la sección de resolución con el SPSS), se ve que las dispersiones están bajo control, pues todas se encuentran dentro del intervalo de aceptación. Se pueden construir, por lo tanto, los diagramas de control de la media. Diagrama de control de la media usando la amplitud X = μ ± A2 R A2 = 0.483 290 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Control de x-barra, A y s x = 5.99 ± 0.483(1.82) = 5.99 ± 0.879 ⇒ LCI x = 5.111 ⇒ LCS x = 6.869 Diagrama de control de la media usando la desviación estándar X = μ ± 3σ x s 0.746 σx = = = 0.32 c4 n 0.9515 6 ⇒ x = 5.99 ± 3(0.32) ⇒ LCI x = 5.029 ⇒ LCS x = 6.95 Observando nuevamente la tabla de la figura 5-195, se concluye que el proceso está bajo control. Todas las medias se encuentran dentro del intervalo de aceptación. SPSS Procedimiento en la página 287 Si se colocan los datos en una sola columna, se debe incluir una variable para desagregar por los 5 grupos de tamaño 6: Analyze > Quality Control > Control Charts > Variables Charts > X-bar, R, s > Cases are Units. Si se colocan los datos en filas, se deben conformar 6 variables, una por cada muestra: Analyze > Quality Control > Control Charts > Variables Charts > X-bar, R, s > Cases are Subgroups. En ambos casos, el resultado es el mismo. Ir a Control Rules y seleccionar todos los controles. Range Figura 5-196 291 Capítulo 5 Inferencia Paramétrica I Standard deviation Figura 5-197 X-bar using range Figura 5-198 292 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC b. Variables categóricas X-bar using standard deviation Figura 5-199 Observar las similitudes de los gráficos de control, ya sea usando las amplitudes o bien las desviaciones estándar. b. Variables categóricas Se aplica cuando los datos son resultados de un conteo y no de una medición. Control de proporción y n° de éxitos Este control es aplicable a variables dicotómicas que siguen una distribución binomial. Se realiza un muestreo de tamaño n y se clasifica a los resultados como defectuosos y no defectuosos, de acuerdo a una comparación con un estándar. Puede interesar medir el número total de defectos, D = np, o la proporción de defectos, p. Control de θˆ = np Aproximando la distribución binomial a la normal, la expresión de cálculo resulta: npˆ = np ± 3snpˆ snpˆ = npq Si el valor poblacional se desconoce, se adopta el promedio de las proporciones muestrales: npˆ = np ± 3snp snp = npq Si el límite inferior da negativo, utilizar el 0 como límite inferior. Si la aproximación a la normal no es adecuada, se deben construir los límites del IA de la tabla de distribuciones binomiales. 293 Capítulo 5 Inferencia Paramétrica I Figura 5-200 Diagrama de Control del número de éxitos Control de θˆ = p̂ pˆ = p ± 3s pˆ Si la proporción poblacional es desconocida, se adopta la media de las proporciones muestrales: pˆ = p ± 3s p sp = pq n Figura 5-201 Diagrama de Control de la proporción muestral 294 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC SPSS SPSS Analyze > Quality Control > Control Charts > Attribute Charts Control de θˆ = npˆ y θˆ = p̂ Casos son unidades Cada fila es una unidad de una muestra con Éxitos o Fracasos. Esta variable se coloca en Characteristic. Las unidades que conforman cada muestra se deben definir en otra variable, la cual se colocará en Subgroups Defined by. Si el tamaño de las muestras es distinto, elegir el gráfico p. Figura 5-202 La palabra inglesa Nonconforming significa defectuosos. Casos son subgrupos Cada fila es el resultado del número de éxitos por muestra. Se debe introducir el tamaño de esa muestra en Sample Size. 295 Capítulo 5 Inferencia Paramétrica I Figura 5-203 Problema resuelto 5.30 Quejas sobre desempeño de funcionarios Debido a las frecuentes quejas de los clientes, en un banco se ha realizado un control acerca de la disparidad en el desempeño de los funcionarios. Se seleccionaron 6 créditos otorgados por cada uno de 5 funcionarios y se registró el número de incumplimientos. En la tabla de la figura 5-204, se presenta el detalle (los incumplimientos se codifican con el número 1). Funcionario Cr1 Cr2 Cr3 Cr4 Cr5 Cr6 Total p 0 0 0 0 0 1 1 1 0.1667 0 0 1 0 1 0 2 2 0.3333 1 0 0 0 0 0 3 1 0.1667 1 1 1 1 1 1 4 6 1 0 0 1 0 0 0 5 1 0.1667 Figura 5-204 np = 2.2 p = 0.3667 Diagrama de control de np snpˆ = npq = 6(0.3667)(0.6333) = 1.18 npˆ = np ± 3snp ⇒ LCI np = −1.34 = 0 ⇒ LCSnp = 5.74 296 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC SPSS Diagrama de control de p sp = pq 0.3667(0.6333) = = 0.1967 n 6 pˆ = p ± 3s p = 0.3667 ± 3(0.204) ⇒ LCI p = −0.223 = 0 ⇒ LCS p = 0.957 Observando la tabla de la figura 5-204, se aprecia que el funcionario 4 está claramente fuera de control (ver además los diagramas de control con el SPSS, en el siguiente punto). La gerencia debería determinar cuál es la razón que produce el elevado número de incumplimientos. SPSS Procedimiento en la página 295 Si se toman los datos detallados con 1 y 0, se debe incluir una variable para desagregar por los 6 grupos: Analyze > Quality Control > Control Charts > Attribute charts > p, np > Cases are Units. Si se toman los datos totales con el número de defectos por cada grupo, solo se debe conformar una variable: Analyze > Quality Control > Control Charts > > Attribute charts > p, np > Cases are Subgroups. En este caso, se debe informar el tamaño n de la muestra. En ambos casos, el resultado es el mismo. Ir a Control Rules y seleccionar todos los controles. np Figura 5-205 Figura 5-206 297 Capítulo 5 Inferencia Paramétrica I p Figura 5-207 Figura 5-208 Control de número de casos por unidad Este control es aplicable a la variable categórica c, número de casos por unidad. Observar que en una variable binomial, cada muestra de tamaño n contiene unidades defectuosas o normales, cuyo número, de 0 a n, está relacionado con n. En cambio en una variable de Poisson, cada muestra de tamaño n contiene unidades con un número de defectos no relacionados con el tamaño n. Control de θˆ = c Aproximando la distribución de Poisson a la normal, la expresión de cálculo resulta c = c ± 3sc donde, recordemos del capítulo 2: sc = c Si la aproximación a la normal no es adecuada, se deben construir los límites del IA de la tabla de la distribución de Poisson. Si el límite inferior da negativo, utilizar el 0 como límite inferior. 298 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Control de número de casos por unidad Figura 5-209 Diagrama de Control del número de casos Control de θˆ = u El valor de u se define como el cociente entre c y el tamaño de la muestra n. u= c n Figura 5-210 Diagrama de Control de la proporción de casos Los valores del diagrama de u son el cociente por n = 6, de los valores de c. 299 Capítulo 5 Inferencia Paramétrica I SPSS Analyze > Quality Control > Control Charts > Attribute Charts Control de θˆ = c y θˆ = u Casos son unidades Las unidades se agrupan en subgrupos o muestras. Cada celda contiene la cantidad de casos por unidad. Esta variable se coloca en Characteristic. Las unidades que conforman cada muestra se deben definir en otra variable, la cual se colocará en Subgroups Defined by. El número total de casos c por muestra, es la suma de todos los valores de la variable Characteristic que están comprendidos en cada muestra. En el gráfico c, no interviene el tamaño de las muestras, por lo cual es apto cuando este tamaño es distinto para las distintas muestras. Figura 5-211 Casos son subgrupos Cada celda contiene ahora el resultado del número de casos c por muestra. Se debe introducir el tamaño n de la muestra en Sample Size. 300 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC SPSS Figura 5-212 Problema resuelto 5.31 Defectos en solicitudes de crédito Se desea controlar el número de defectos (violaciones) cometidos en cada solicitud de crédito. Se seleccionan 6 solicitudes (muestras de tamaño n = 6) y se cuenta el número de defectos. Se repite el proceso 5 veces. El resultado se resume en la tabla de la figura 5-213. Construir gráficos de control para analizar el número de violaciones por solicitud. Muestra S1 S2 S3 S4 S5 S6 Total 2 3 1 1 0 2 1 9 2 0 0 1 0 3 2 6 0 2 1 2 0 1 3 6 4 2 5 6 2 0 4 19 1 2 0 3 1 0 5 7 Figura 5-213 c = 9.4 sc = 9.4 = 3.066 c u = = 1.566 6 sc 3.066 su = = = 0.511 6 6 Diagrama de control de c c = c ± 3sc ⇒ LCI c = 0.202 301 Capítulo 5 Inferencia Paramétrica I ⇒ LCSc = 18.598 Diagrama de control de u u = u ± 3su ⇒ LCIu = 0.033 ⇒ LCSu = 3.099 Los valores del control de c son un múltiplo de n = 6 de los valores de u. La muestra número 4 sugiere un problema. La gerencia debería analizar las causas para reducir el número de incumplimientos. SPSS Procedimiento en la página 300 Si se toman los datos detallados, se debe incluir una variable para desagregar por grupos de tamaño 6: Analyze > Quality Control > Control Charts > Attribute charts > c,u > Cases are Units. Si se toman los datos totales, se conforma solo una variable con el número de defectos por cada grupo: Analyze > Quality Control > Control Charts > > Attribute charts > c,u > Cases are Subgroups. En este caso, se debe informar el tamaño de la muestra. En ambos casos, el resultado es el mismo. Ir a Control Rules y seleccionar todos los controles. c Figura 5-214 Figura 5-215 302 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Diagramas de diagnóstico u Figura 5-216 Figura 5-217 Diagramas de diagnóstico Son un complemento de los diagramas de control y se usan para investigar las causas de las variaciones que se observan en el proceso. Diagramas de causa-efecto Es un diagrama que relaciona los resultados (efectos) con un conjunto de causas posibles. Estas causas surgen en general por propuestas de un grupo grande de personas, por ejemplo dejando el diagrama en una cartelera a la vista de los empleados de una fábrica. Se invita así a que cada persona que lo desee, pegue (post it) su idea u opinión sobre la posible causa del problema. En general adquiere una forma parecida a la espina de pescado, nombre con el cual suele ser denominado. Figura 5-218 303 Capítulo 5 Inferencia Paramétrica I En cada una de las ramas o áreas (espinas principales) que en principio se hayan detectado, pueden ir agregándose subramas o subcausas como lluvia de ideas de las causas o porque del problema. No existen reglas acerca de cuáles deben ser las causas principales, pero las más comunes son las asociadas con los métodos, los materiales, el equipo y el personal. Diagramas Pareto El diagrama de Causa y Efecto no ofrece una respuesta numérica al problema, pero es un vehículo para la construcción de un diagrama Pareto. Su nombre se debe al científico italiano del siglo XIX Vilfredo Pareto, quien observó que la mayor parte de la actividad en un proceso es causada por una cantidad relativamente pequeña de factores. Luego de cuantificar el número de veces o frecuencia que se presenta cada una de las causas, se puede construir un diagrama de barras con las causas en abscisas y el número de defectos en ordenadas. La particularidad de un diagrama Pareto es que las barras se ordenan de mayor frecuencia a menor frecuencia y que se presenta además un diagrama de líneas con la frecuencia acumulada. Figura 5-219 SPSS Analyze > Quality Control > Pareto Charts Figura 5-220 304 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Diagramas de diagnóstico Las opciones que se presentan en este cuadro de diálogo, ya fueron analizadas en el capítulo 1, SPSS > Gráficos: Legacy Dialogs. A modo de ejemplo, veamos las ventanas para un par de selecciones. Simple + Group of Cases Figura 5-221 305 Capítulo 5 Inferencia Paramétrica I Stacked + Group of Cases Figura 5-222 Problema resuelto 5.32 Quejas sobre desempeño de funcionarios En el problema resuelto de página 296 se construyó un gráfico de control para realizar un control acerca de la disparidad en el desempeño de los funcionarios de un banco. Para realizar una investigación, el gerente les pide a los clientes que se quejan que llenen un formulario. En la siguiente tabla se presenta el resumen de las causa de quejas recibidos en los últimos 12 meses. Queja Frecuencia Atención deficiente 71 Errores involuntarios 23 Falta de preparación 2 Tiempo de espera excesivo 10 Figura 5-223 Construir un diagrama Pareto. ¿Qué quejas resolvería primero? SPSS Procedimiento en la página 304 Analyze > Quality Control > Pareto Charts Utilizar la vista de variables para rotular cada nivel y la función Weight Cases para procesar la columna de frecuencias. 306 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Diagramas de diagnóstico Figura 5-224 2. Calidad del producto terminado Muestreo de Aceptación Para evaluar con rapidez las probabilidades de los diversos niveles de calidad que puede presentar un lote, el comprador usualmente utiliza las curvas llamadas Característica de Operación, CO, las cuales, recordemos de la sección diseño al comienzo del capítulo, son gráficas de β para cada uno de los valores de θ, si H0 es falsa y de c = 1-α, si H0 es cierta. En control de calidad es más común llamarlas CO(θ) en lugar de β(θ). Las gráficas de la potencia serán entonces P = 1–CO. Como ejemplo de su construcción, analizar el problema resuelto 5.27, aplicable a un muestreo por atributos de una cola. Este muestreo consiste en aceptar o rechazar un elemento que se clasifica en forma dicotómica: defectuoso o no defectuoso. En este caso la distribución apropiada es la binomial. Problema resuelto 5.33 Muestreo de aceptación Una empresa deber evaluar la aceptación de un elemento a partir de la siguiente hipótesis. H0: el lote es bueno si p ≤ 0.10 ΗΑ: el lote es malo si p > 0.10 Se predetermina una Regla de decisión, la cual consiste en fijar un número crítico llamado NA, Número de Aceptación. Supongamos que se determina que NA = 2. Este valor crítico define el sector α. Si llamamos y al número de elementos defectuosos, se tiene entonces: 307 Capítulo 5 Inferencia Paramétrica I P(rechazar )=P( y ≥ 3) = α Construir las curvas CO y P, si el tamaño de la muestra es n = 25. Diagrama CO Se trata de un problema de distribución binomial, para la cual: p = variable (para p ≤ 0.10, el lote es bueno, de lo contrario es malo) n = 25 Se trata de calcular las probabilidades CO en función del tamaño del efecto g = p1 − p0 : CO = P ( y = 2 | p1 ) = P ( pˆ = 2 | p1 ) = P ( pˆ = 0.08 | p1 ) 25 Utilizamos la tabla de probabilidades binomiales para n = 25 (Apéndice B). En la fila de y = 2, (figura 5-225), se tienen todas las CDF para distintos valores de p (son los valores de H1 y por lo tanto corresponden a p1). Como estos valores son las probabilidades de aceptar el lote, tolerando hasta 2 elementos defectuosos (punto de corte), son en definitiva, los valores de CO. Figura 5-225 Expresando esos valores en forma de diagrama, se obtiene la curva de CO de la figura 5-226, para: n =25 e y = 2. Figura 5-226 Para este plan de muestreo, se observa por ejemplo que la probabilidad de aceptar un lote que tiene un 10% de defectuosos es de 53.7% (CO = 1-α), y por lo tanto α = 46.3%. Si en realidad tiene un 30% de defectuosos, es CO = 0.9% (CO = β para esta HA). 308 Jorge Carlos Carrá V Pruebas de Control de Calidad, SQC Diagramas de diagnóstico Diagrama de Potencia Como P = 1 – β, la curva de la Potencia se construye en forma directa a partir de la CO: Figura 5-227 Para esta prueba de cola superior, cuanto mayor es la diferencia positiva entre el valor verdadero con el hipotético (p0 = 0.1), mayor es la potencia para detectar esta disparidad. Cuando ambos valores coinciden, la potencia resulta igual a α pues la hipótesis nula sería cierta. GPower Exact Proportion: Difference from constant (binomial test, one sample case) Post hoc 1 cola, α = 0.463, g = arbitrario (solo para obtener la curva de potencia), constant proportion (po) = 0.1 y n =25. Dado que este programa requiere α y no el valor NA, se lo debe calcular previamente (valor complementario de la tabla anterior para y = 2 y p = 0.1, es decir 0.463). Las distribuciones para un tamaño del efecto g = 0.2 (p1 = 0.3), se muestran en la figura 5-228. Se muestra el valor crítico N = 3. La curva de potencia en función del tamaño del efecto (g = p2-p1), se muestra en la figura 5-229. La discrepancia para la parte izquierda de g = 0, se debe a que GPower cambia de cola de la prueba con el signo del tamaño del efecto. Cuando el tamaño del efecto es negativo, la cola de la prueba pasa de la derecha a la izquierda con un punto de corte (para igual α), distinto del de la derecha (figura 5-230). 309 Capítulo 5 Inferencia Paramétrica I Figura 5-228 Figura 5-229 Figura 5-230 310 Jorge Carlos Carrá Simulaciones 1 Estadística paramétrica Simulaciones En esta última sección del capítulo 5, aprenderemos a construir simulaciones para simular el proceso de una inferencia. En la primera parte con los métodos de la estadística paramétrica de este capítulo y en la segunda parte con un método no paramétrico que no requiere conocer la distribución de probabilidades de la población, ni de alguna variable relacionada. 1 Estadística paramétrica Problema Se desea probar la aseveración de que la media de las presiones arteriales (en cm Hg) es μ > 12.5 Se sabe que la distribución de la población es normal con σ =2.5 cmHg. Se decide adoptar α = 0.05. Por lo tanto las hipótesis quedan así: H 0 : μ ≤ 12.5 H A : μ > 12.5 El procedimiento habitual es tomar una muestra y realizar la inferencia, pero en lugar de utilizar el cálculo, usaremos una simulación de la distribución de H0. Partiremos de una población de N = 1000 elementos de la variable de escala presión distribuida normalmente con μ =12.5 cmHg y σ =2.5 cmHg, de la cual se muestrean 30 elementos. Esta simulación se puede realizar directamente con NAN (Números Aleatorios Normales) generados con un software como SPSS o EXCEL o mediante una simulación Montecarlo con NAU (Números Aleatorios Uniformes), generados con una calculadora. a Con NAN Para realizar la simulación utilizar la función RV.NORMAL del SPSS, introduciendo μ = 12.5 y σ = 2.5 . Relea la sección Simulación (TCL) del capítulo 4 para obtener 100 muestras de tamaño 30 con la interpretación: muestra = fila. Luego generar una nueva variable Media que sea el promedio de cada una de las 100 muestras, utilizando la función Mean del comando Compute, colocando como argumentos var1 to var30. Esta variable es la distribución muestral de medias, con 100 replicas. Calcular la media y la varianza de esta variable Media. Continuar con el paso c. b Con NAU Si no se cuenta con un generador de NAN, puede utilizarse la simulación Montecarlo con NAU aprendida en el capítulo 2. Utilizaremos aquí una binomial b(25; 0.5) que se aproxima a una normal, con parámetros: μ =12.5 cmHg, y σ =2.5 cmHg. Los resultados se observan en las columnas 1 y 2 de la tabla de la figura 5-231. 311 Capítulo 5 Inferencia Paramétrica I Simulación Montecarlo de los NAN a) Numeración de los elementos de la FDP normal Se realizará un muestreo irrestricto aleatorio de elementos de la población para lo cual se numeran cada uno de los 1000 elementos. El número asignado a cada uno se llama número de orden. Esta asignación se muestra en la columna 3 de la figura 5-231, la cual, como ya sabemos, contiene las frecuencias acumuladas de la distribución normal. b) Muestreo de cada elemento En la generación de los NAN con el SPSS, todo el proceso que hace el software se debe ahora realizar en forma manual, por lo cual el lector puede disminuir los siguientes tamaños en aras de facilitar el trabajo de cómputo. Generar 30 NAU con la calculadora (tecla Random). Entrando con este número en la columna 3 de la figura 5-231, extraer de la columna 1 el NAN que le corresponde. Colocar estos números NAN en una fila. Repetir para generar 100 filas. x(NAN) f 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 5 15 32 61 97 133 155 155 133 97 61 32 15 56 2 F(x) (N° de órden) 1-2 3-7 8-22 23-54 55-115 116-212 213-345 346-500 501-655 656-788 789-885 886-946 947-978 979-993 994-998 999-1000 Figura 5-231 c) Generación de la distribución muestral Hallar la media de cada fila. Se genera entonces una columna de 100 valores de la distribución muestral de medias. c Inferencia Usaremos ahora la simulación para construir manualmente un IC y una PH para cada una de las 100 medias obtenidas, las cuales pueden colocarse en la primera columna de la tabla de la figura 5-232. 312 Jorge Carlos Carrá Simulaciones 1 Estadística paramétrica x LCI LCS IC 2 7 12.5 17 22 PH p R/R' Figura 5-232 Estimación por IC a) Construcción de los IC Construir un IC para cada una de las x generadas con la simulación. Colocar los LCI y LCS en las columnas 2 y 3. Se obtienen así 100 IC. Graficar una barra horizontal en las columnas 4 y 5 desde el valor LCI hasta el valor LCS (guiarse con las ubicación de los valores de x colocados en el encabezamiento: 2, 7, 12.5, 17 y 22). b) Decisión Contar las barras que comprenden al valor de μ0 = 12.5 y llenar los siguientes espacios en blanco. Se observa que_______ de las 100 muestras incluyen a μ0, esto es un _______ %, lo cual está si/no de acuerdo con el valor nominal del ______ %. Se observará mayor convergencia si se aumenta la cantidad de muestras. Prueba de Hipótesis a) Comparación Dado que ya se cuenta con el cálculo del IC, los valores incluidos en el IC conducirán a la zona de No Rechazo y viceversa. Sin embargo es instructivo actuar como si el IC se desconociera, realizando la comparación, por ejemplo con áreas. Hallar el valor de zm que le corresponde a cada x generado en la simulación. Calcular el valor de p para este zm y colocarlo en la penúltima columna de la tabla de la figura 5-232. Comparando p con α=0.05, llenar la última columna con R (Rechazo) o R' (No rechazo). c) Decisión En la experiencia se observa que_______ % de las 100 muestras fueron rechazadas siendo ciertas. Esto es el _______ % y si/no está de acuerdo con la predicción teórica. 313 Capítulo 5 Inferencia Paramétrica I Ejercicio De forma similar al desarrollo anterior, construir los IC de 68 % y las pruebas de hipótesis con α = 32% para el mismo ejemplo. 2 Estadística no paramétrica: Distribuciones exactas Las distribuciones asintóticas parten de supuestos como el de normalidad de las poblaciones, bajo los cuales los parámetros a estudiar siguen una determinada distribución (normal, t de student, chicuadrado, F, etc). Esto es muchas veces incorrecto, lo cual ya fue mencionado al estudiar la media de una población con distribución poblacional no normal y muestra chica (caso 5 del cuadro de la página 82) y también en las pruebas de varianzas, muy sensibles al supuesto de normalidad de las poblaciones. Un método paramétrico para resolver estas situaciones es transformar los datos, procedimiento que ya fue utilizado en varias ocasiones en este capítulo (recordar la transformación arcsen para proporciones (página 106), las transformaciones logaritmo para los cocientes (página 176) y la transformación arcth para correlaciones (página 213). Los restantes procedimientos se engloban en los llamados métodos no paramétricos que estudiaremos en el capítulo 7, cuyo nombre se refiere a que no se asume que el parámetro a estudiar verifique una determinada distribución teórica. Estos métodos se dividen en 2 tipos: 1. Distribuciones de permutación y métodos de remuestreo 2. Transformación de los datos en variables ordinales Estos métodos permiten además analizar parámetros que carecen de una distribución muestral, siquiera aproximada, como es el caso de la mediana. Describiremos aquí las distribuciones de de permutación. Distribuciones de aleatorización, de permutación o exactas Es crucial que los cálculos de inferencia (LCI, LCS y valor p), sean realizados en forma precisa, pues de ellos depende la decisión. Las distribuciones exactas son una alternativa al cálculo de IC y PH en forma asintótica. La idea básica (iniciada por Fisher y Pitman en la década de 1930 con el ahora conocido Test Exacto de Fisher), es responder a la pregunta: ¿dados estos datos, cuales son los posibles caminos de que hayan provenido de la población? Para responderla se simula la población original formando todas las permutaciones (o combinaciones) posibles de la misma muestra y se construye con ellas la distribución muestral del estadístico muestral que se desee (media, mediana, varianza, etc), llamada distribución de aleatorización, de permutación o exacta. Los procedimientos de inferencia, IC y PH, no cambian, solo difieren en la forma de realizar el muestreo. Recordar además que si se tiene el IC, se puede realizar la PH, observando si el valor de la hipótesis nula pertenece o no al IC. IC En el caso de un IC, los muestreos son con reemplazo y se crea una distribución exacta centrada en el valor muestral del estadístico a estudiar. Luego de obtener la distribución exacta se procede con el mismo esquema de cualquier distribución muestral, calculando los percentiles para establecer los límites del IC: P0.025 < θ < P0.975 314 Jorge Carlos Carrá Simulaciones 2 Estadística no paramétrica: Distribuciones exactas PH En el caso de una PH, se deberá realizar el muestreo de forma tal que sea consistente con H0 (por ejemplo su media deberá converger al valor fijado por H0). Luego de obtener la distribución exacta consistente con H0 (ver ejemplos a continuación), se calcula el valor p correspondiente al valor muestral original, buscando la posición de este valor en la distribución exacta ordenada y calculando la frecuencia relativa de la cola de este valor. Si se trata de una prueba de 2 colas, se multiplicará por 2 y luego se comparará con α para establecer las conclusiones. La efectividad de las distribuciones exactas es tan grande, que estos métodos se están convirtiendo en las alternativas preferidas para realizar una inferencia, debido a lo cual las nuevas versiones del SPSS (y del resto de los paquetes de software) los incluyen. Veamos a continuación algunos casos. Una proporción IC Supongamos que el tamaño muestral sea n = 10. El número total de muestras posibles es equivalente al de tablas como la de la figura 5-233a partiendo de (E, F) = (0, 10), hasta (10, 0). Cada una de esas tablas sintetiza todas las situaciones. La correspondiente a por ejemplo 1 Éxito, pˆ = 1 9 y 9 Fracasos, qˆ = , engloba a todas las 10 10 combinaciones de casos que contienen 1 E y 9 F, por lo cual se debe multiplicar la probabilidad de que ocurra uno de estos eventos por la permutación de 10 elementos con 1 E y 9 F. Una breve reflexión conduce a que el número total de tablas distintas es n + 1 , pues se comienza a contar desde 0. PH Se deben dar los valores de la H0 en otra tabla como por ejemplo la de la figura 5-233b, la cual implica en este ejemplo, para E una probabilidad p = 4 6 y para F una probabilidad q = . 10 10 Al multiplicar la probabilidad de que ocurra uno de estos eventos por, por ejemplo la permutación de 10 elementos con 1 E y 9 F, cada una de estas tablas tiene una probabilidad dada por la distribución binomial. E 1 F 9 n 10 H0 E 4 a F 6 10 b Figura 5-233 Comparación de proporciones PH Este caso conduce al test exacto de Fisher (padre de las pruebas exactas) tratado en la página 171 y en la página FisherExact3 del capítulo 3. En ese capítulo se observó que el número de muestras (tablas) posibles es el valor del marginal menor más 1 pues se empieza desde 0. En los ejemplos anteriores el número de muestras puede ser manejable, incluso para un cálculo manual, pero este no es el caso de los siguientes ejemplos. Un parámetro de escala (media, mediana, varianza, etc) IC Supongamos que el tamaño muestral sea n = 10. Se deben formar todas las muestras de igual tamaño que la original, con reemplazo y luego calcular el estadístico. El muestreo debe ser con reemplazo 315 Capítulo 5 Inferencia Paramétrica I pues un muestreo sin reemplazo obtendría siempre la misma distribución. Aunque este tamaño es muy pequeño, existen 92378 muestras con repetición10, que pueden formarse con los 10 datos. Si la muestra fuera por ejemplo de tamaño 100, la cantidad de combinaciones posible sería inmanejable, incluso para las computadoras más modernas. PH No se ha establecido por ahora un procedimiento para obtener una prueba exacta. Comparación de 2 parámetros de escala IC Si por ejemplo se tratara de estudiar la comparación (de medias, varianzas, etc) de 2 poblaciones independientes, A y B con 3 y 4 elementos respectivamente, se se deberían formar todas las muestras con reemplazo separadamente de cada uno de los 2 grupos y luego formar el estadístico, en este caso la diferencia. Nuevamente, como se consideran juntos todos los datos de cada grupo, el muestreo debe ser con reemplazo pues un muestreo sin reemplazo obtendría siempre la misma distribución. El número de muestras es de 14411. Si los valores fueran 5 y 5 la cantidad sería 9765625 muestras. Si la comparación A–B fuera apareada, no deben mezclarse los resultados de diferentes casos, pues están apareados. Se procede con los pares en forma similar al caso de una variable. PH Para muestrear en forma consistente con la H0: Δ = 0, no se debe remuestrear a cada muestra por separado como se hace para el IC, sino a ambas muestras juntas pues se supone que proceden de la misma población. Se crean todos los reordenamientos posibles sin reemplazo y luego se separarán en 2 grupos A y B del mismo tamaño que los originales, lo cual provocará que aleatoriamente algunos de los valores originales de un grupo se contabilicen en el otro. Si por ejemplo las muestras tuvieran 3 y 4 elementos respectivamente, se se deberían formar 35 muestras12. Se calculan el estadíostico de cada grupo y se realiza la diferencia. El estadístico de esta distribución de diferencias estará cercana a 0, como corresponde a H0: Δ = 0, Si la comparación A–B fuera apareada: • No deben mezclarse los resultados de diferentes casos, pues están apareados. • Un muestreo consistente con la H0: Δ = 0, supone que la permutación de cualquier par es tan probable como la inversa. Por lo tanto el muestreo de cada par tiene 2 posibles resultados que se diferencian solo en el signo. Si por ejemplo se tienen 10 pares, el número de muestras posibles es 102413. Con 20 pares el número sería 1048576. Asociación de variables Esta situación se corresponde con los análisis de correlación y regresión. IC Si por ejemplo se tratara de estudiar la correlación entre 2 poblaciones, A y B con una muestra de 5 pares, se se deberían formar todas las muestras de pares de tamaño 5, con reemplazo, es decir 12614. 19! . 10!9! 3 4 11 Permutaciones con repetición tomadas de a n: 3 4 = 144 10 Combinaciones con repetición de 10, tomadas de a 10 = 7! . 3!4! 10 13 Permutaciones co repetición de 2 elementos tomados de a 10: 2 = 1024 12 Permutaciones con repetición de 7 elementos, con 3 y 4 repetidos: 316 Jorge Carlos Carrá Simulaciones 2 Estadística no paramétrica: Distribuciones exactas Si la muestra tuviera 10 pares, el número de muestras posibles sería 92378. Para obtener los coeficientes de la recta de regresión, se realiza el muestreo en forma similar, pero ahora el estadístico se obtiene con las fórmulas de los coeficientes de la recta. PH Nuevamente ejemplifiquemos para un análisis de correlación. Para realizar un muestreo consistente con H0: ρ = 0, debe suponerse que no existe correlación entre ambos grupos y por lo que tanto todos los apareamientos posibles de un grupo A con el otro B tienen la misma probabilidad. Si por ejemplo el estudio consistiera en 2 muestras A y B de tamaño 5 cada una, se deberían formar las 120 permutaciones de 5 elementos 15 de cualquiera de los 2 grupos, por ejemplo B y asociarlas una a una con el mismo ordenamiento del otro grupo A. Si la muestra fuera de 15 elementos, el número de muestras sería alrededor de 1 millón de millones. Para obtener los coeficientes de la recta de regresión, se realiza el muestreo en forma similar, pero ahora el estadístico se obtiene con las fórmulas de los coeficientes de la recta. Remuestreo Para obtener la distribución exacta cuando el número de muestras elevado, se extrae aleatoriamente un alto número de muestras de los datos originales, pero manejable (llamado a veces muestreo MonteCarlo). Con estas muestras se obtiene entonces la distribución del estadístico de interés, del mismo modo con el que se obtiene una distribución muestral. Los resultados que se obtengan se consideran representativos de los que se obtendrían si se consideraran todas las muestras posibles. Por consiguiente, este procedimiento estará sujeto a 2 fuentes de variabilidad: 1. Muestra original extraida aleatoriamente de la población. 2. Remuestreo extraido aleatoriamente de la muestra. De todas formas un concepto sigue vigente: cuanto mayor es el tamaño de la muestra original (fuente 1), más confiables serán los resultados. La segunda fuente de variación es en general pequeña en muestras grandes, pero puede ser importante si el tamaño muestral original es pequeño. Para la mayoría de los estudios, un remuestreo mínimo es de 1000 muestras, lo cual requiere de una computadora con programas específicos. Los nombres que recibe el remuestreo diferencian si se trata de un remuestreo para IC o para PH: • IC: Bootstrap o Jackknife • PH: prueba de permutación con remuestreo (a veces se omite la palabra remuestreo, en cuyo caso el contexto indicará si se realiza o no) IC Bootstrap El nombre bootstrap alude al cordón (strap) de los zapatos (boot), recordando la imagen de alguien intentando salir del barro sin ayuda, tirando del cordón de sus propios zapatos (pull oneself up by one's bootstraps). Se extraen aleatoriamente muestras de igual tamaño que la muestra original. Se calcula el valor del estadístico en estudio y se crea la distribución muestral del mismo a la que se llama distribución bootstrap. Jackknife Consiste en formar submuestras de los datos dejando sistemáticamente afuera una observación a la vez. Por lo tanto cada muestra tiene un tamaño muestral de n–1 y difieren entre sí solo en el único caso omitido. 14 Combinaciones con repetición de 5, tomadas de a 5 = 15 Permutaciones de 5 elementos: 9! . 5!4! 5! 317 Capítulo 5 Inferencia Paramétrica I Se calcula el valor del estadístico en estudio y se crea la distribución muestral del mismo a la que se llama distribución jacknife. PH Prueba de permutación con remuestreo La distribución de aleatorización con remuestreo debe contemplar, como ya se ha dicho, que el muestreo sea consistente con H0 y se obtiene en general con un muestreo sin reemplazo. SPSS IC (Bootstrap) El SPSS 18 incluye un módulo opcional Bootstrap para la obtención de IC. Si se encuentra disponible, un botón Bootstrap se incorpora a muchos procedimientos: frecuencias, descriptivos, explorar, tablas de contingencias (para las medidas simétricas: nominal por nominal, ordinal por ordinal y escala por escala), medias, correlación, regresión, etc. La ventana que se abre se muestra en la figura 5-234. Sin embargo, las muestras seleccionadas no aparecen en forma explícita en la vista de datos. La opción BCa, Bias Corrected accelerated, es una modificación del cálculo de los percentiles y debe usarse si la distribución bootstrap es sesgada (respecto del valor muestral) y asimétrica, pero se debe tener precaución si el tamaño de la muestra es muy pequeño, pues no habría suficientes datos para determinar las correcciones necesarias. Nota Oservar que con bootstrapping se pueden obtener los IC para parámetros que no tienen procedimientos en el SPSS, como la varianza o la desviación estándar. Si se desea obtener los IC de una proporción, codificar la variable dicotómica con 0 (F) y 1 (E) y luego correr el procedimiento Frequencies, solicitando la media (mean) y tildando el botón Bootstrap. 318 Jorge Carlos Carrá Simulaciones 2 Estadística no paramétrica: Distribuciones exactas Figura 5-234 PH (Exact) Si la versión del SPSS contiene el módulo Exact Tests, se incluye para todos los procedimientos no paramétricos y para la tabla de contingencias (crosstabs) la opción de realizar un análisis por PH sea con la distribución exacta o con remuestreo16. Esto puede verse por ejemplo con el ya utilizado procedimiento de una prueba Binomial: Analyze > Nonparametric tests > Legacy Dialogs > Binomial > Exact. Se presenta la siguiente ventana: 16 Observar que el procedimiento Crosstabs incluye a Bootstrap (IC para las medidas simétricas) y Exact (valores p de los test chi-cuadrado y de estas medidas bajo el supuesto de H0: valor = 0). 319 Capítulo 5 Inferencia Paramétrica I Figura 5-235 La opción por defecto es la distribución normal como aproximación asintótica de la binomial (Asymptotic only). La opción Monte Carlo es el remuestreo y la opción Exact es la distribución de permutación o exacta. Ejemplo: bootstrap para una media Sea por ejemplo la siguiente muestra de n = 10 extraída de una población no normal (observar el caso 465.3, muy extremo): 3.6 465.3 2.8 56.6 2.6 89.1 12.1 19 6.2 1.3 Figura 5-236 Para que el alumno pueda comprender el proceso paso a paso, usaré un software que muestre las muestras seleccionadas. He elegido en este caso a Minitab, dado que la versión completa por 30 días puede descargarse del sitio que se encuentra en la bibliografía. Instalar Minitab, abrir una página nueva y seguir el siguiente proceso. 1. Colocar los datos de la tabla anterior en la columna C1. 2. Crear en la columna C2, 10 probabilidades iguales a 0.1 (muestreo aleatorio con igual probabilidad para cada caso). 3. Calc > Random Data > Discrete. Colocar los valores que se encuentran en la figura 5-237. Se generan de esta forma 500 muestras (filas) de 10 elementos cada una (columnas), con los mismos elementos de la población original (con repetición). 320 Jorge Carlos Carrá Simulaciones 2 Estadística no paramétrica: Distribuciones exactas Figura 5-237 4. A partir de ahora seguimos el mismo esquema de cualquier distribución muestral. Si se desea obtener la distribución bootstrap de la media (varianza), calcularemos las medias (varianzas) de cada muestra. Si se crea luego el histograma de esta distribución y se calculan sus parámetros, se apreciará que se acerca a la forma que predice la teoría, por ejemplo, normal para la distribución de medias, de acuerdo al TCL. A pesar que elremuestreo puede calcular todo lo que se necesita a partir de las muestras, si por ejemplo la distribución bootstrap del remuestreo es razonablemente normal, podrían usarse las fórmulas que se basan en esta distribución. Para seguir trabajando en el SPSS, copiar las celdas y pegarlas en la vista de datos del SPSS. Si se desea seguir dentro de Minitab: Calc > Row Statistics. Ingresar las variables C3-C12, elegir el estadístico (Mean o Standard deviation) y guardar los resultados en otra columna (C13). Figura 5-238 321 Capítulo 5 Inferencia Paramétrica I Inferencia: IC El método general para obtener los IC supone que la distribución bootstrap no se puede aproximar a alguna de las tabuladas y por lo tanto todo lo que se requiera deberá partir de la misma distribución. Para calcular el IC del 95% de esta distribución (C13), se deben hallar los percentiles P0.025 y P0.975. En Minitab, se debe proceder manualmente ordenando la columna con Data > Sort y buscando los valores de la posición correspondiente (capítulo 1). Se abre la ventana de la figura 5-239. Completar los datos de la figura, con lo cual se genera la columna C14, con los datos de la C13 ordenados de menor a mayor. Figura 5-239 En la columna (C14 en este ejemplo), buscar los valores de las posiciones siguientes: P0.025 = P0.025(501) = P12 P0.975 = P0.975(501) = P488 Alternativamente tomar como percentiles, a las medias de los valores en las posiciones 12 y 13 (488 y 489), respectivamente. El intervalo de confianza será entonces: P0.025 < μ < P0.975 Este intervalo, no simétrico si la distribución bootstrap es asimétrica, deberá contener con un 95% de confianza, al valor μ de la población (65.9). 322 Jorge Carlos Carrá Ensayo: Radio Profesor-Clase por tipo de escuelas Introducción Ensayo: Radio ProfesorClase por tipo de escuelas Introducción El programa PISA, Programme for International Student Assessment (Programa para la Evaluación Internacional de los Alumnos), perteneciente a la OCDE (Organización para la Cooperación y el Desarrollo Económico) con sede en Paris, realiza cada 3 años en varios países del mundo, una prueba sobre los alumnos de 15 años (entre 15 años y 3 meses y 16 años y 2 meses. El objetivo es conocer las habilidades y conocimientos de los alumnos en la educación obligatoria. Es relevante comentar que el conjunto de países que participó en PISA 2006 representa el 90% del PBI (Producto Bruto Interno) mundial. La prueba PISA no es una prueba tradicional pues no apunta a examinar que bien los estudiantes han aprendido las materias curriculares, sino a como se encuentran preparados para el transcurso de sus vidas fuera de la escuela. En palabras sencillas mide lo que el alumno "sabe hacer "y no lo que "sabe". Los resultados de las pruebas de PISA 2006 se presentaron a nivel mundial el pasado 5 de diciembre de 2007 Argentina participó en PISA 2000 y PISA 2006. El país resolvió no participar en PISA 2003, alegando razones relacionadas con limitaciones presupuestarias. Es probable sin embargo, que esta deserción haya sido consecuencia de los magros resultados que arrojaron las pruebas de PISA 2000. (De Vedia M. 2005 y Rodrigo L. 2005). El archivo ARG_Sch06_SPSS_Dec07b.sav, de la Base de Datos, contiene algunas de las variables que han resultado de PISA 2006. Radio Profesor-Clase Un índice que se mide en los estudios de la calidad educativa, es aquel que mide la relación entre el número total de alumnos full-time en un determinado nivel y el número de profesores full-time de ese mismo nivel (si un profesor no es full-time se convierte en equivalente full-time). Este número se lama Radio Alumno-Profesor. Como parte de los cuestionarios PISA, los directores de cada escuela respondieron a dos preguntas que originan las variables: Tamaño de la clase (clsize) y Radio Alumno-Profesor (strratio). Los valores promedio, para Argentina, son: para la variable clsize, Tamaño de Clase, 31 alumnos y para la variable strratio, Radio Alumno-Profesor, 12 alumnos por profesor. Realizando una simple regla de tres se obtiene el Radio Profesor- Clase, es decir la cantidad de profesores que existen, en promedio, por cada clase. Este valor resulta de 2.6 profesores por clase (31/12). De aquí concluimos que: en la Argentina por lo menos un profesor cobra por no dar clase, por cada uno que da clase. En la variable str_c, contenida en el archivo, se ha realizado en forma digital el cálculo anterior, desagregado para cada tipo de escuela. Los valores del Radio Profesor- Clase se muestran en el 323 Capítulo 5 Inferencia Paramétrica I diagrama de barras de la figura 5E-1. Se observa en mismo que estos valores van desde 2.21 para las escuelas privadas hasta 3.09 para las escuelas públicas. La situación de Argentina es patética y vergonzosa pues las escuelas públicas exhiben alrededor de 3 profesores por clase, es decir que, según los datos directos de la encuesta, en Argentina dos profesores no dan clase por cada uno que da clase. Solo 3 países de los 57 evaluados en las pruebas PISA, ostentan más de 3 profesores por clase: Azerbaijan, Grecia y Argentina. Figura5E-1 Radio Profesor-Clase por escuelas Las diferencias entre estos valores es estadísticamente significativa, tal como se desprende de las pruebas t realizadas para cada par y que se muestran en las figuras 5E-2, 5E-3 y 5E-4. Figura5E-2 Prueba t para el Radio Profesor-Clase entre las escuelas Privada y Pública 324 Jorge Carlos Carrá Ensayo: Radio Profesor-Clase por tipo de escuelas Radio Profesor-Clase Figura5E-2 Prueba t para el Radio Profesor-Clase entre las escuelas Pública y Pública de gestión privada Figura5E-2 Prueba t para el Radio Profesor-Clase entre las escuelas Privada y Pública de gestión privada En el gráfico de la figura 5E-5, se muestran los valores del Radio Profesor- Clase, para los 6 países latinoamericanos evaluados en PISA 2006. Se puede observar que si Argentina tuviera valores de Profesor-Clase comparables a los de Brasil o Colombia (con quienes comparte la cola de la escala de rendimientos latinoamericana), los docentes argentinos cobrarían alrededor del doble del salario que actualmente perciben (a Insumos constantes). Figura 5E-5 Radio Profesor–Clase para varios países No es poco frecuente leer y escuchar en los medios informativos, referencias persistentes acerca de una aparentemente excesiva cantidad de docentes con licencia en la escuela pública, producto de la utilización abusiva de "conquistas" contenidas en los distintos Estatutos del Docente provinciales. Estas inquietudes reciben, por otra parte, respuestas poco claras y poco cuantitativas por parte de los dirigentes responsables. Los datos anteriores, extraídos directamente de los directores de las escuelas, resultan altamente reveladores acerca de la consistencia de estas sospechas. Esta situación 325 Capítulo 5 Inferencia Paramétrica I refuerza el principio de que cualquier gasto público no implica una mejora en el desempeño de los alumnos. 326 Jorge Carlos Carrá Ensayo: Segregación en Argentina Introducción Ensayo: Segregación en Argentina Introducción Retornamos a los resultados de la evaluación PISA 2006 descripta en el ensayo "Radio ProfesorClase". PISA utiliza el acrónimo ESEC para identificar a un índice estadístico desarrollado por sus científicos, cuya función es medir el Estado Socio-Económico y Cultural de los alumnos. Este factor es uno de los caballitos de batalla para quienes buscan una excusa para la inacción. No hay duda que un bajo entorno socioeconómico afecta a los rendimientos de los alumnos y que el aprendizaje es más dificultoso para estos estudiantes, pero una cosa muy distinta es utilizarlo como pretexto para evitar mirar otros factores que surgirían nítidamente, al hacer una introspección hacia adentro de la escuela. El ESEC del alumno es generado en PISA a través de un análisis factorial sobre diversas variables que se le preguntan a los alumnos, las cuales tienen el objeto de medir el grado de riqueza material, cultural y educativa alcanzado por los padres. Esencialmente se deriva de tres componentes: 1. Estudios alcanzados por el padre y la madre 2. Ocupación del padre o madre 3. Recursos domésticos, a saber: educativos: escritorio para estudiar, su propia habitación, un lugar tranquilo para estudiar, libros para estudiar, diccionario, computadora, calculadora, etc. culturales: literatura clásica, libros de poesía, pinturas, etc. materiales: software educativo, Internet, celulares, etc. El ESEC de cada escuela es la media aritmética de los valores del ESEC de cada uno de los alumnos escolarizados en dicha escuela (luego de obtenido el ESEC de todas las escuelas, se tipifica estadísticamente de tal forma que su media sea 0 y la desviación estándar 1). Escuelas públicas y privadas En las figuras 5E-6 y 5E-7 presento la regresión lineal del ESEC de cada alumno y de cada escuela con el rendimiento de sus alumnos en Ciencias, para Argentina, pero su patrón de comportamiento se presenta en los 6 países latinoamericanos. 327 Capítulo 5 Inferencia Paramétrica I Figura 5E-6 Regresión lineal de Rendimientos de alumnos en Ciencias según el ESEC Figura 5E-7 Regresión lineal de Rendimientos de escuelas en Ciencias según el ESEC 328 Jorge Carlos Carrá Ensayo: Segregación en Argentina Escuelas públicas y privadas El objetivo de un sistema educativo debería tender simultáneamente a: ubicar al alumno en el cuadrante I, desplazar la línea hacia arriba (es decir mejorar el rendimiento de todos los alumnos), disminuir su pendiente (es decir aumentar la equidad) y reducir la diferencia entre el ESEC mayor y el menor. Por la disposición general de los puntos de la figura E7-1, observamos una cierta correlación visual: a mayor ESEC crece la posibilidad de obtener un buen resultado en Ciencias. Al interpretar el valor R cuadrado es lícito decir que el ESEC explica el 19.5% de la variabilidad de esos rendimientos (PISA, 2006, Volumen 2, pag 123). Esto también se puede expresar en otras palabras diciendo que: resta un margen del 80.5% para aplicar políticas educativas. En la figura E7-2 se muestra la regresión lineal por escuelas desagregando por el tipo de escuela en Argentina, en la cual puede apreciarse que las escuelas privadas y las públicas de gestión privada (círculos oscuros), se posicionan en general en el deseado Cuadrante I. Este indicador explicita dos aspectos: los alumnos de las escuelas privadas tienen en general mejores rendimientos que los de las escuelas públicas y además concurren mayoritariamente a las escuelas privadas, los jóvenes favorecidos por su entorno sociocultural. Si comparamos los valores de R2 observamos que el ESEC tiene una mayor influencia en los resultados cuando aparece aglomerado por escuelas, que cuando se considera como un atributo individual de los alumnos. Nuestra intuición nos indica que los alumnos se ven altamente influenciados por el grupo al que pertenecen, pero no siempre conocemos el sentido de dicha influencia. De acuerdo con estos datos, resulta más importante que el alumno asista a una escuela en donde la mayoría de los alumnos provengan de entornos con alto ESEC, que el hecho de que él mismo alumno provenga de un entorno familiar con un elevado ESEC. Se trata de un proceso de asimilación cultural mediante el cual los individuos adoptan peculiaridades culturales pertenecientes a un sector que actúa como referente (Tiramonti G. 2008, pag 165). En otras palabras, es esperable que dos estudiantes con similares características familiares, pero que asisten a escuelas con distinto ESEC, se diferencien más en sus rendimientos que otros dos estudiantes con distinto ESEC, pero que asistan a la misma escuela. Esto valida la siguiente hipótesis y subraya el efecto negativo que tiene la discriminación de los estudiantes en escuelas de características distintas. "Alumnos con situación socioeconómica favorecida, nivelarán hacia arriba a los alumnos con carencias, en tanto todos ellos puedan elegir la escuela de su preferencia" Si trazamos una recta vertical por sobre cualquier ESEC negativo, se observará la presencia de escuelas públicas que hacen bien su trabajo, logrando un rendimiento superior a su valor esperado (por encima de la recta de regresión), a pesar de su desfavorable ESEC. Esto ilustra claramente que los bajos resultados de estos alumnos no son inevitables. El argumento de que las escuelas pueden hacer poco ante alumnos con problemas sociales no se encuentra apoyado por esta evidencia y las escuelas que se esfuerzan por mejorar los resultados de los alumnos de extracción social más modesta, lo consiguen (Hanushek E, Rivkin S, 2005c Teachers, schools, and academic achievement). El archivo ARG_Sch06_SPSS_Dec07b.sav, contiene alguna de las variables que han resultado de PISA 2006. Entre ellas, los resultados por escuelas de las evaluaciones de Lectura (LE_Media), Ciencias (SC_Media) y Matemáticas (MA_Media). Por otro lado, la variable schltype contiene el tipo de escuela (Privada, Pública de gestión privada y Pública) y la variable schltype2, agrupa a las escuelas públicas en una sola categoría. Vimos en las figuras anteriores E7-1 y E7-2, que los alumnos de escuelas privadas se posicionan mayoritariamente en el primer cuadrante, presentando en general un mayor rendimiento que los de escuelas públicas (círculos claros). Esta realidad se puede apreciar con más nitidez en las figura E73, en donde se han calculado los promedios por escuela, desagregados además por Género. El comportamiento para las otras 2 disciplinas es similar como puede comprobar el estudiante que obtenga estos gráficos. Se observa que los alumnos de escuelas privadas presentan un mayor 329 Capítulo 5 Inferencia Paramétrica I rendimiento que los de escuelas públicas. La diferencia global de los rendimientos entre escuelas públicas y privadas, resultan estadísticamente significativas, como puede apreciarse de las pruebas t realizadas para cada para cada par y que se presentan en las figuras 5E-8, 5E-9, 5E-10 y 5E-11. Figura 5E-8 Rendimientos por escuelas Figura 5E-9 Prueba t para el Rendimiento de Ciencias entre las escuelas Privada y Pública de Gestión Privada Figura 5E-10 Prueba t para el Rendimiento de Ciencias entre las escuelas Privada y Pública 330 Jorge Carlos Carrá Ensayo: Segregación en Argentina Escuelas públicas y privadas Figura 5E-11 Prueba t para el Rendimiento de Ciencias entre las escuelas Pública y Pública de Gestión Privada Como corolario de lo expuesto en estos dos últimos apartados, llegamos a una conclusión que debe expresarse con gran irritación: las escuelas públicas son en general de peor calidad que las privadas por lo cual, para obtener buenos resultados en nuestros sistemas educativos, es importante elegir una escuela privada, la cual funciona en la práctica como un filtro de carácter económico en la selección de alumnos. Esta segregación conformada por alumnos que dejan la escuela pública y concurren a escuelas privadas, provoca además la pérdida de la posibilidad de que los alumnos aventajados puedan configurar un modelo para alumnos menos adelantados, lo cual se conoce en la bibliografía especializada como efecto descreme y efecto compañero (Aedo C, et al. 2001, pag 52), conformando finalmente el círculo vicioso diagramado en la figura 5E-12. Cuanto menor es la calidad educativa de la escuela pública, aumentan las probabilidades para que las familias que puedan, opten por una escuela privada. Estos alumnos abandonan la escuela pública y dado que su perfil es de mayor rendimiento académico, presionan hacia abajo la calidad de la escuela pública, repitiéndose el ciclo. Calidad Educativa - R Efecto Descreme + Elección Escuela Privada Figura 5E-12 Modelo de lazos causales de Efecto Descreme Un comentario para los estudiantes argentinos que estén leyendo estas líneas. Esta realidad que pueda parecerte lógica por ser la única que resulta de tu experiencia, era muy distinta en la Argentina previa a tu nacimiento. En esas épocas existía un sistema educativo en el que las escuelas públicas tenían mayor prestigio que las privadas, producto de su superior nivel académico. ¿Habrá influido en este cambio de proporciones, el Factor Humano conformado por los adultos de cada sistema? Los dirigentes de los países con mejores estudiantes, en particular Finlandia, han tratado de dar a todos los estudiantes, con independencia de su lugar de residencia, las mismas oportunidades para recibir una educación de alta calidad. Una red comprensiva de escuelas y la contratación de profesores altamente calificados en todas ellas, han sido disposiciones importantes para garantizar la igualdad en educación en todas las regiones del país. Como contrapartida, los países con mayor 331 Capítulo 5 Inferencia Paramétrica I estratificación en la educación, como los latinoamericanos, tienden a un rendimiento más bajo que los países con una estructura más integrada. 332 Jorge Carlos Carrá Problemas I Diseño Problemas I Diseño Entrenamiento de empleados Se entrena a los empleados de una compañía con 2 métodos distintos para comparar la efectividad de cada uno. Para esto se mide el tiempo de duración del trabajo. Se los divide en 2 grupos de igual tamaño y se espera que la amplitud del tiempo de operación para ambos grupos sea de aproximadamente 8 minutos. Si el error máximo de estimación debe ser de 1 minuto (se desea que el valor muestral θˆ , se encuentre a menos de 1 minuto, del valor θ poblacional desconocido), con probabilidad 0.95, ¿cuántos empleados se debe incluir en cada grupo? R: 32. 1. Cadena de expendio de comida rápida Una cadena de expendio de comida rápida, construirá una nueva sucursal en una ruta si por lo menos 150 automóviles por hora pasan por esa ruta. Estipula que el error de tipo I no debe ser mayor a 0.01 y que la desviación estándar de la población no es superior a 50. a) Si desea que la prueba tenga una potencia de 0.99 para detectar un número de autos mayor a 160 ¿Qué tamaño debe tener la muestra para cumplir con sus pretensiones? b) ¿Cuál es la potencia para detectar un número de autos mayor a 160, si el tamaño n es de 100? c) ¿Cuál es el error de estimación para la situación a)? R: GPower. c) 5. 2. Temperatura de las mujeres Una investigación prueba la hipótesis (α = 0.05) de que el promedio de la temperatura de las mujeres es de 37°C con una desviación estándar de 0.268°C. Aceptar que la distribución muestral de medias es normal si correspondiera una t de Student. a) ¿Qué tamaño de muestra se requiere para detectar una media alternativa en el promedio de la temperatura de las mujeres tan baja como 36.77°C, si se desea que la potencia del test sea de al menos 0.90? b) ¿Cuál es la potencia para detectar una temperatura de 36.9°C, si el tamaño n es de 20? c) Cuál es el error de estimación para la situación a). R: GPower. c) 0.127. 3. Cambio en la reglamentación El centro de estudiantes de una facultad desea probar que al menos el 60% de los estudiantes está a favor de un cambio en la reglamentación utilizando el 5% de significancia. Una discrepancia importante respecto de su hipótesis es de que menos del 50% estuvieran a favor del cambio. a) Si desea diseñar una prueba que detecte esta diferencia (si existe), con un potencia del 0.99. ¿Qué tamaño debe tener la muestra? b) ¿Cuál es la potencia para detectar esa diferencia, si el tamaño n que le autorizan no puede superar los 200? c) Calcular el margen de error para la situación a). R: GPower. c) 4.2 puntos porcentuales. 4. Reacción frente a un estímulo La reacción de un individuo frente a un estímulo puede ser R o T. Un experimentador quiere estimar la probabilidad de que una persona reaccione de manera T. a) ¿cuántas personas debe incluir en el experimento? Suponer B = 0.04 con probabilidad 0.90 y que espera que p sea 333 Capítulo 5 Inferencia Paramétrica I alrededor de 0.60. b) Repetir la pregunta anterior si no conoce p. R: a) 406, b) 423. 5. Afirmación de un periodista Usted lee en el diario: "en una encuesta de 1000 casos como esta, 19 de 20 casos no deben diferir en más de dos puntos porcentuales en cualquier dirección, del valor que se obtendría entrevistando a todas las personas". Verifique el tamaño de la muestra implicado en esta afirmación del periodista. R: 9604. 6. Promedios de ventas Una cadena de tiendas prueba la hipótesis de que la diferencia entre los promedios de ventas de 2 productos es mayor o igual a cero, con α =0.05. En la prueba desea detectar, en el caso de que exista, una diferencia entre los promedios de ventas de los 2 productos de menos de 10U$S, con una probabilidad de al menos 0.90. Por experiencia previa se sabe que la desviación estándar de ambos productos es de 8U$S. a) ¿Cuál es el tamaño de cada muestra, si se asumen iguales? b) ¿Cuál es la potencia para detectar esa diferencia, si el tamaño de la muestra de un producto es de 10 y la del otro es de 14? c) ¿Cuál es el error de estimación para la situación a)? R: GPower, c) 5.6. 7. Fabricación de envases Dos diferentes tipos de maquinas se usan en la fabricación de envases de metal para una chocolatería. Una lata es considerada defectuosa si presenta descoloración o alguna abolladura. Suponer que p1 =0.06 y p2 = 0.0 y usar α = 0.05 (prueba de 2 colas). a) Determinar el tamaño de la muestra necesaria para detectar esta diferencia con una probabilidad de al menos 0.8. b) Si se realiza un muestreo de 200 elementos en cada máquina, ¿cuál es la potencia para este tamaño del efecto? c) Calcular el margen de error para la situación a). R: GPower. c) 2.8 puntos porcentuales. II Análisis de una variable 8. Redacción correcta En las situaciones siguientes, plantee correctamente las H0 y HA y finalmente redacte la conclusión utilizando las palabras "rechazo" o "sustentan", según corresponda (página 30), tanto si se rechaza H0 como si no se rechaza. Aseveración: La media de las precipitaciones es menor a 2.3 mm. Aseveración: La proporción de mujeres en la universidad es al menos 50%. Aseveración: La varianza de pesos al nacer difiere de 450 g Aseveración: La diferencia de temperaturas es 2°C Aseveración: El cociente de varianzas de las puntuaciones de CI supera a 1.6. 9. Decisión con una simulación Se desea probar la hipótesis de que el CI (Coeficiente de Inteligencia) de los alumnos es mayor que 100, utilizando un α = 5%. Se toma una muestra de 30 alumnos y se obtiene x = 105 s = 15 . Utilizando alguno de los procedimientos de la sección Simulaciones, página 311, genere 100 muestras de n = 30 de una población con μ = 100 y σ = 15 y obtenga una conclusión respecto del valor 105 obtenido. 10. Hipertensión La hipertensión se define como un nivel de presión arterial igual o mayor a 140 mmHg. Usted desea realizar una prueba para saber si es hipertenso y se toma la presión en diferentes momentos, obteniendo los resultados de la tabla siguiente. a) Use un α = 0.05 para probar la aseveración de que su presión es menor a 140 mmHg. Establezca los supuestos que sean imprescindibles para realizar los cálculos y relacionar gráficamente el IC con la PH. Resolver manualmente y con el SPSS. b) Repetir si sabe que la desviación estándar poblacional es de 10 mmHg. c) Realizar un estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para 334 Jorge Carlos Carrá Problemas II Análisis de una variable resolverlo. Presión 131 132 140 126 128 144 136 143 140 131 R: SPSS. 11. Nueva pasta dental Un dentista desea estudiar la efectividad de una nueva pasta dental. Un grupo de N = 1000 niños participa del estudio. Después de 3 meses de iniciado el estudio hace un muestreo a 10 niños construyendo la tabla adjunta. a) Estimar el número medio de caries para todo el grupo y establecer un límite para el error de estimación. Usar B = 2σ θˆ . b) Establecer el coeficiente de confianza si, 1) no se tiene información poblacional, 2) se sabe que la distribución de la población es normal, 3) se sabe además que σ = 1.49. c) ¿Es aceptable establecer que μ = 2.1 con una confianza del 95 %? Responder con una prueba de hipótesis si se sabe que la distribución poblacional es normal. d) Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower y con el SPSS. 1 2 3 4 5 6 7 8 9 10 Niño N° de caries 0 4 2 3 2 0 3 4 1 1 12. 13. 14. 15. 20. R: a) µ = 2, B = 0.938. b-1) P(µ = 2±0.938) ≥ 75%, b-2) P(µ = 2±0.938) = 92.4%, b-3) P(µ = 2±0.938) = 95%. d) Un riesgo de n bajo, requiere un rediseño del cual surge: n = 16 (para P = 0.80 y d = 0.80). Nueva pasta dental Usando los datos del problema anterior, estimar el número total de caries, τ para todo el grupo durante 3 meses. Establecer B. R: τ = 2000, B = 938. Nueva pasta dental Usando los datos del problema del dentista, determinar el tamaño de la muestra para estimar µ con un límite para el error de estimación de 0.20. (Usar zc = 2). Si luego se usa esta n y se muestrea, resulta una media de 3 y una desviación estándar de 0.1, hallar: a) la P (µ > 2), b) los intervalos de confianza del 99%, bilateral, superior e inferior. R: n = 182 (con cpf). a) 100%, b) IC =2.981 a 3.0185, IC > 2.983, IC < 3.0173. Producción diaria de un producto Se desea estimar la producción diaria de un producto en una fábrica. Se registra la producción diaria durante 50 días obteniéndose una media de 871 ton y una desviación estándar de 21 ton. a) Probar la hipótesis de que µ = 880 ton con α= 0.05. b) Obtener un intervalo de confianza del 95 %. ¿Puede asegurarse que la producción diaria es mayor a 870 ton? Relacionar gráficamente el IC con la PH. c) calcular la probabilidad ß de no rechazar H0 si en realidad µ = 870 ton, d) analizar la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: a) zm = -3.03, p = 0.00122, 1 cola, se rechaza, b) IC = 865.19 a 876.82. No pues son posibles valores menores a 870 ton, c) 0.0793. Muertes en accidentes de tránsito Un estudio de 200 personas muertas en accidentes indica que la edad media es de 31.5 años con una desviación estándar σ de 12 años. Construir un IC de 95% de la media poblacional. Los límites no incluyen a las edades menores de 20 años. ¿Esto significa que las personas menores de esta edad rara vez mueren en accidentes? R: IC = (29.8; 33.2). Problemas psicosomáticos Un psiquiatra cree que el 80% de la gente que va al médico tiene problemas de naturaleza psicosomática. Para probar su teoría selecciona 25 pacientes al azar. a) Suponiendo que la teoría es cierta, ¿cuál es el valor esperado de pacientes que tienen problemas psicosomáticos?, b) calcular la probabilidad de que menos de 15 pacientes tengan problemas psicosomáticos, c) si en la muestra hay 10 pacientes con problemas psicosomáticos, ¿qué se puede afirmar de la teoría 335 Capítulo 5 Inferencia Paramétrica I 21. 22. 23. 24. 25. 26. 336 del psiquiatra? Usar α = 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: a) 20, b) 0.006 c) yc (GPower: Exact > binomial test > Post hoc), se rechaza. Renovación del centro de estudiantes En la próxima votación para renovar el centro de estudiantes, se supone que el 40% de los alumnos votará por el candidato Alexis. Se realiza una encuesta al azar de 20 estudiantes de los cuales 5 dicen que votarán por Alexis. Probar la suposición utilizando un nivel de significación del 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: yc (GPower: Exact > binomial test > Post hoc), no se rechaza. Empleo recién recibido En un instituto de estudios terciarios se afirma que al menos el 50% de los egresados consiguen empleo al recibirse. ¿En cuál de las siguientes situaciones puede rechazarse la afirmación del instituto con un nivel de significación del 5%? a) Se entrevista a 10 egresados tomados al azar de los cuales solo 2 afirman haber conseguido empleo. b) Se entrevista a 20 egresados de los cuales 4 afirman haber conseguido empleo (la misma proporción muestral de la entrevista anterior). c) Se entrevista a 30 egresados de los cuales 10 afirman haber conseguido empleo. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: a) yc (GPower: Exact > binomial test > Post hoc), no. b) yc (GPower: Exact > binomial test > Post hoc), sí. c) zm=-1.88, si. Vacuna contra la gripe Se sabe que cuando no se usa ninguna vacuna contra la gripe, la probabilidad de pasar el invierno sin resfriarse es del 50%. Una nueva vacuna es sometida a prueba para determinar su eficacia contra el resfrío. Cuarenta personas son vacunadas y observadas por un año. Veintiocho pasaron el invierno sin resfriarse. ¿Presentan los datos muestrales evidencia suficiente de que la vacuna es efectiva (es decir que aumenta el porcentaje de personas sin resfriarse)? a) Usar α=5%. b) Usar α=1%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: a) zm=2.53, efectiva, b) efectiva. Vacuna contra la gripe Para el problema anterior, hallar la cantidad mínima de personas de las 40, que deben pasar el invierno sin resfriarse para que el nivel de significación sea 5%. R: 26. Déficit fiscal El gobierno afirma que el 50% de los habitantes está de acuerdo en las medidas tomadas para bajar el déficit fiscal. Para verificarlo se tomó una muestra de 64 personas de las cuales 27 indicaron que están de acuerdo con las medidas. a) ¿Hay evidencia suficiente para rechazar la afirmación del gobierno? Usar α=5% y probar con por lo menos 2 distribuciones distintas. Relacionar gráficamente el IC con la PH. b) ¿Con el mismo nivel de significación cuántas personas deberían haber estado de acuerdo para rechazar la afirmación del gobierno? Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: a) zm=-1.25, no. b) 39. Color de heladeras Un fabricante de heladeras produce un modelo en tres diferentes colores, A, B y C. Dice que más de 1/3 de todos los clientes prefieren el color A pues de las primeras 1000 heladeras vendidas, Jorge Carlos Carrá Problemas II Análisis de una variable 27. 16. 17. 18. 400 fueron del color A. Usando α=1%, ¿es correcta la afirmación del fabricante? Probar con por lo menos 2 distribuciones distintas y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower. R: zm=4.47, sí. Rating Es conocido que las empresas pagan los anuncios en televisión de acuerdo al “rating” del programa. Un productor de TV afirma que su noticiero es visto por el 50% del público televidente. Una empresa desea publicitar en dicho espacio. a) ¿De qué tamaño debe ser la muestra para no cometer un error B de estimación mayor a 5 puntos porcentuales? b) Si toma una muestra de 100 televidentes y 38 indican que ven ese noticiero, ¿es evidencia suficiente de que la afirmación del productor del noticiero es falsa? Usar α=1%. Probar con por lo menos 2 distribuciones distintas y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: a) 400, b) zm = –2.4, sí. Gen recesivo Un análisis de 400 nacimientos de ciertas parejas con un gen recesivo determinó que 105 de ellos, presentaron el gen. a) Construir un IC del 95% para la proporción poblacional de hijos de parejas que presentan el gen recesivo. b) Un investigador postuló que esas parejas tienen una probabilidad de 0.20 de que sus hijos tengan el gen. Determine si la hipótesis del investigador parece correcta con al menos 2 distribuciones distintas. Relacionar gráficamente el IC con la PH. R: a) IC = (0.219; 0.306), b) No, existe evidencia suficiente para rechazar la hipótesis de que esas parejas tienen una probabilidad de 0.20 de que sus hijos tengan el gen. Marca de cigarrillos Se sabe que 1 de cada 10 fumadores prefiere la marca de cigarrillos A. Luego de una campaña publicitaria se toma una muestra de 200 fumadores de los cuales 26 dijeron preferir la marca A. a) ¿Presentan estos datos suficiente evidencia para indicar un aumento en la preferencia por la marca A? Tomar α = 0.05. Relacionar gráficamente el IC con la PH. b) Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: a) zm = 1.41, p = 0.079, 1 cola, IC > 0.0952, no. Personas que acampan Las autoridades del parque nacional están interesadas en la proporción de personas que acampan y que consideran que los espacios disponibles son adecuados. Toman una muestra irrestricta aleatoria de 30 personas de los primeros 300 grupos acampados de la temporada. Utilizando la tabla adjunta, donde xi = 1 si la respuesta es sí, (espacios adecuados), estimar p, la proporción de acampantes que consideran adecuados los lugares y establecer B con α = 5 %. ¿Es aceptable establecer que p = 0.90 con una confianza del 95 %? Responder con una prueba de hipótesis con al menos 2 distribuciones distintas, relacionando gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower y con el SPSS. Persona 1 2 3 … 29 30 muestreada Respuesta x 1 0 0 … 1 1 337 Capítulo 5 Inferencia Paramétrica I R: p = 5/6, B = 0.1324. 28. Personas que acampan Usando los datos del problema anterior, a) determinar n para estimar p con B igual a 5 puntos porcentuales, b) estimar el número total de respuestas si y establecer Bx con α = 5 %. R: a) n = 128, b) τ = 250, Bx = 39.4. 29. Formularios de impuestos muy complicados Una encuesta sobre 520 residentes establece que el 54 % de los entrevistados considera que los formularios de impuestos son muy complicados. ¿Está justificado un artículo periodístico que afirma: “la mayoría encuentran complicados los formularios de impuestos”? Usar α = 5 % y probar con al menos 2 distribuciones distintas. Relacionar gráficamente el IC con la PH. Verificar con SPSS. Nota: Si se realiza una prueba chi-cuadrado, recordar que como es una prueba unilateral, un valor de α = 5 % en la normal, equivale a un α = 10 % en la chi-cuadrado (página 103). R: zm = 1.82, p = 0.035, 1 cola, IC > 0.504, sí. 30. Protección al consumidor Una etiqueta de dulces de una empresa local indica que el peso neto es de 397 g. La municipalidad lo contrata para verificar esta afirmación y para ello realiza un muestreo aleatorio de 20 frascos, obteniendo una media de 395.73 g y una desviación estándar de 24.08 g. a) Si se selecciona al azar un frasco y verifica que los pesos se distribuyen en forma normal, calcular la probabilidad de que su peso sea menor a 395.73 g, b) si se seleccionan al azar a 20 frascos, calcular la probabilidad de que su peso medio sea menor a 395.73 g, c) en base a estos resultados, ¿Cuál es su conclusión? De todas formas, el presidente de la empresa le argumenta que la muestra es demasiado pequeña. ¿Qué le contesta? Elabore su respuesta con el cálculo de la potencia retrospectiva. R. a) p = 0.4801, b) p = 0.408, c) el resultado importante es el b) e indica que la muestra es consistente con la etiqueta pues no se puede rechazar que el peso sea mayor a 397 g. 31. Nuevo tipo de pólvora Un fabricante de pólvora ha diseñado un nuevo tipo de pólvora que produce una velocidad inicial del proyectil de 3000 m/s. Se hace una prueba con 8 proyectiles obteniéndose las velocidades de la tabla adjunta. Suponer que las velocidades iniciales tienen una distribución normal. ¿Muestran estos datos evidencia suficiente para indicar que la velocidad promedio es diferente de 3000 m/s? Usar un nivel de significación α = 0.05 y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower y con el SPSS. Velocidades (m/s) 3005 2995 2925 3005 2935 2935 2965 2905 R: tm(7) = -2.97, p = 0.0208, IC = 2925.92 a 2991.58, sí. 32. Falla de vigas de hormigón Se estudia el número de ciclos hasta que se produce una falla de vigas de hormigón obteniéndose (en miles de ciclos) los siguientes datos: Número de ciclos 774 633 477 268 407 576 659 963 193 a) estimar el intervalo de confianza del 90 % del número promedio de ciclos. b) Estimar el intervalo de confianza del 90 % para la varianza del número de ciclos. c) ¿Es aceptable 338 Jorge Carlos Carrá Problemas II Análisis de una variable establecer que μ = 800 con una confianza del 90 %? Responder con una prueba de medias y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower y con el SPSS. R: a) IC = 399.25 a 700.75, b) IC = 30498 a 173071. 33. Comprensión de textos Un profesor afirma que al menos el 20% de los alumnos tiene dificultades para comprender textos. Se evalúa a 100 alumnos de los cuales 16 tienen dificultades de comprensión de textos. a) ¿Es suficiente evidencia para refutar la afirmación del profesor? Usar α=5%. b) ¿Con α=5%, que porcentaje como máximo debe haber en la muestra para poder refutar la afirmación de manera correcta? Probar con por lo menos 2 distribuciones distintas y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: a) zm=-1, no, b) 13%. 34. Conciencia ecológica Una encuesta sobre 520 residentes establece que el 54% de los entrevistados considera que no existe una adecuada conciencia ecológica en la población. ¿Es justificado un artículo periodístico que afirma: “la mayoría de los habitantes no tiene conciencia por la ecología”? Usar α=1%. Probar con por lo menos 2 distribuciones distintas y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: zm=1.82, no. 35. Accidentes en los fines desemana Para probar que los sábados y domingos se produce el doble de accidentes que los restantes días de la semana, se elige una muestra de 90 accidentes independientes entre sí, tal como se muestra enla tabla siguiente. ¿Es válida la suposición a un nivel de significacióndel 5%? Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. D L M M J V S Día N° de accidentes 30 6 8 11 7 10 18 R: SPSS y GPower. 36. Número de llamadas El número de llamadas que se reciben en una central telefónica desde las 9:00 horas hasta las 9:05 horas durante un período de 100 días es la siguiente: Número de llamadas 0 1 2 3 4 5 6 7 3 10 25 30 15 12 5 0 Frecuencias A un nivel del 5% constrastar la hipótesis de que la frecuencia observada sigue una distribución de Poisson. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. 37. Número de hijos varones La tabla siguiente reúne los datos de una encuesta realizada a 100 familias con 3 hijos. Probar al 1% si los datos se ajustan a una binomial con igual probabilidad de nacimiento de varones y mujeres. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. 339 Capítulo 5 Inferencia Paramétrica I Número de hijos varones 0 1 16 39 Frecuencias 2 3 33 12 R: SPSS y GPower. 38. Preferencias de los consumidores Este problema se inició en el capítulo 1. Usted trabaja en una dependencia que estudia las preferencias de los consumidores de una empresa y desea saber si las preferencias acerca de 4 diferentes presentaciones del mismo producto, A, B, C y D, se distribuye por igual. Los resultados de una muestra de 100 consumidores se muestran en la siguiente tabla. A 0.375 B 0.2083 C 0.2083 D 0.2083 Probar la hipótesis nula de que el patrón de frecuencias de la población se distribuye en forma uniforme. Utilizar α = 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. 39. Libros prestados en la biblioteca Este problema se inició en el capítulo 1. La bibliotecaria de una universidad realizó una agrupación de los libros por tema. Luego tomó una muestra aleatoria de 4217 libros entre los prestados el último trimestre. Ambos resultados se muestran en la siguiente tabla. % en biblioteca Prestados Negocios 33 1211 Humanidades 28 954 Ciencias 22 941 Sociales 10 810 Otros 7 301 Probar la hipótesis nula de que el patrón de frecuencias de la población de los libros prestados no difiere de la distribución de los libros existentes. Utilizar α = 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. 40. Operaciones a plazo fijo Este problema se inició en el capítulo 1. Los siguientes datos representan la cantidad de operaciones a plazo fijo realizadas diariamente en un banco, durante 42 días. ¿Contradicen estos datos que la cantidad de operaciones se distribuye normalmente? Utilizar α = 5%. Agrupar los datos en 9 clases comenzando con las marcas 15 y 20 (ajustar el primer y último intervalo para que comprendan las colas de la distribución). Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. 29 13 19 34 24 29 45 41 23 22 38 32 50 46 56 26 14 25 39 33 49 35 28 25 26 21 27 34 30 36 18 24 34 31 41 33 23 34 26 21 40 48 R: SPSS y GPower. 41. Leyes de Mendel de los garbanzos Este problema se inició en el capítulo 1. Las leyes de Mendel establecen que el número de garbanzos que caen en las clasificaciones redondos y amarillos, rugosos y amarillos, redondos y verdes y rugosos y verdes se encuentran en la relación 9:3:3:1. De una muestra de 100 garbanzos, 55, 18, 17 y 10 cayeron en las respectivas clases. ¡Son estos datos congruentes con el modelo mendeliano? Utilizar α = 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS. 340 Jorge Carlos Carrá Problemas II Análisis de una variable 42. Máquina de empacar jabón en polvo Un fabricante de una máquina de empacar jabón en polvo afirma que su máquina puede llenar las cajas con el peso requerido con un rango de no más de 0.40 onzas. Se realiza una muestra de 8 cajas de 48 onzas y resultó una media de 49.6 onzas y una varianza de 0.018 onzas2. a) ¿contradicen estos resultados la afirmación del fabricante?, usar α =5%. b) hallar un intervalo del 90% de confianza para la varianza y otro para la amplitud y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower. R: a) χ2m (7) =12.6, p = 0.1648, no, b) IC = 0.00896 a 0.05814, IC = 0.3786 a 0.9645. 43. Máquina de rayos X de un dentista Un inspector examina la máquina de rayos X de un dentista. Las regulaciones especifican un promedio de 60 mRad con una σ = 12 mRad. Para ello realiza una muestra de 30 emisiones resultando una media de 60 mRad y una desviación estándar de 15 mRad. ¿Soportan estos valores la hipótesis de que la máquina necesita una revisión? Usar α =1%. Relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower. R: χ2m (29) = 45.3, p = 0.0275, IC >11.47, no 44. Validez de un examen Un factor para determinar la validez de un examen es la aptitud para discriminar entre los mejores y peores estudiantes. En otras palabras se requiere que la dispersión sea moderadamente grande. Se diseña un examen de 500 preguntas y por la historia de pasados exámenes se sabe que una σ =75 puntos es deseable. Para probar la validez del examen se toma uno preliminar a una muestra de 24 estudiantes resultando una desviación estándar s =72 puntos. a) Usando un nivel de significación de 0.01 probar si el examen resulta válido, relacionando gráficamente el IC con la PH. Obtener además el IC para la desviación estándar poblacional. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower. R: a) χ2m = (23)=21.19, p = 0.861, IC =2697.7 a 12876,02, IC = 51.94 a 113.47, si. 45. Equipo de medición Un investigador está convencido que su equipo de medición posee una variabilidad medida por σ = 2. Al realizar un experimento registró las observaciones: 4.1, 5.2 y 10.2. a) ¿Muestran estos datos evidencia suficiente para indicar un desacuerdo con su posición? Relacionar gráficamente el IC con la PH. Usar un nivel de significación α = 0.10. R: a) χm2 (2) = 5.29, p = 0.142, IC = 3.53 a 206.1, no. 46. Resistencia del cemento Un fabricante asegura que su cemento posee una resistencia relativamente estable y que tiene una amplitud de 40 kg/cm2. Supongamos que lo que quiere decir es que las observaciones caen en esa amplitud el 95 % de las veces y por lo tanto la amplitud es aproximadamente 4 σ. De 10 observaciones obtiene s2=135. a) ¿Muestran estos datos evidencia suficiente para indicar que la dispersión es mayor a la indicada por el fabricante? Usar un nivel de significación α = 0.05 y relacionar gráficamente el IC con la PH. R: a) χ2m (9) = 17.55, p = 0.0408, IC > 103.73, sí. 47. Datos de ejecutivos de 20 empresas La tabla siguiente contiene los datos proporcionados por veinte ejecutivos de 20 empresas. Ingresar la tabla al SPSS y responder las siguientes preguntas. a) Probar la hipótesis de que la edad promedio de los ejecutivos es mayor de 50 años (α = 5%). Expresar el IC. b) La mediana del número de niños en toda la población de EEUU es 2. ¿La proporción de ejecutivos con más de 2 niños es significativamente diferente de la población general? (α = 10%). Realizar la prueba de 3 formas distintas. Relacionar gráficamente el IC con la PH. 341 Capítulo 5 Inferencia Paramétrica I c) El 65% de todos los adultos de EEUU son casados. ¿La proporción de ejecutivos casados es significativamente mayor que la población general? (α = 2%). Realizar la prueba de 3 formas distintas. Relacionar gráficamente el IC con la PH. Recordar la función Automatic Recode. R: a) t(19)=2.693, sign < 0.05, se rechaza p≤0.50, la población de ejecutivos es significativamente mayor de 50 años. IC de 51.3371 a 60.6629 b) 1) b(0.4, 20,0.4), p>0.10, no se rechaza p=0.50, la proporción de niños en los ejecutivos no es significativamente distinta de la población general. 2) t(19)=1.371, sign≥0.10, no se rechaza p=0.5. IC de 0.421 a 0.83790. 3) χ2(1)=1.80, p>0.10, no se rechaza p=0.5 c) 1) b(0.65,20,0.9), sign < 0.02, se rechaza p≤0.65, la proporción de ejecutivos casados es significativamente mayor que la población general 2) t(19)=3.632, sign ≤ 0.02, se rechaza p≤0.65. IC de 0.7559 a 1.0441. 3) χ2(1)=19.938, sign < 0.02, se rechaza p≤0.65. Nombre Edad Estado civil Niños Parkdale 68 C 3 SAS Inst. 50 C 3 Cogentrix 65 C 3 Raeford 66 C 3 H&H Yarns 52 C 1 Harvey Ent. 44 C 4 Radiator 77 C 3 Parrish Tire 43 C 2 Spectrum 59 C 2 SE Hospital 45 C 4 Miller Bldg. 55 C 3 Pneumafil 55 S 0 Kroehler 50 C 3 Caro. Pete. 42 D 2 Tanner Cos. 64 C 4 Raycom Inc. 43 C 2 Cummins 57 C 4 W.R. Bonsal 62 C 3 Maola Milk 67 C 2 Waste Inds. 56 C 2 48. Lanzar una moneda Forme un grupo de estudiantes para realizar el experimento de lanzar una moneda. Sea x = la proporción de caras. a) Calcular el tamaño de la muestra necesario para que el error de muestreo sea inferior a 0.09 con una confianza del 95%. b) Realizar los lanzamientos con ese tamaño muestral y verificar que el IC contenga a la verdadera proporción poblacional (p = 0.5), 95% de las veces. III Análisis 1vi–1vd: Comparación entre grupos 49. Inhibidores de corrosión Se comparan 2 tipos de recubrimientos inhibidores de corrosión midiendo las profundidades máximas promedios yi. a) Estimar la diferencia verdadera con un intervalo de confianza del 90 %, b) ¿el recubrimiento B es un mejor protector de corrosión. Realizar el estudio retrospectivo 342 Jorge Carlos Carrá Problemas III Análisis 1vi–1vd: Comparación entre grupos de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower. A B 30 n (tamaño) 35 0.18 0.21 y (cm) 0.02 0.03 s (cm) R: a) IC =-0.0406 a -0.0194, b) sí. 50. Rodaje de dos tipos de neumáticos Un fabricante desea comparar el rodaje de dos tipos de neumáticos, A y B. Para ello se seleccionan aleatoriamente un neumático del tipo A y uno del tipo B y se colocan en las ruedas traseras de cada uno de 5 automóviles. Los datos se muestran en la tabla adjunta. Probar la hipótesis de igualdad entre los valores de A y B y hallar el intervalo de confianza del 95 % de la diferencia de desgaste si, a) los datos se toman sin aparear (como si los datos se asignaran a las 10 ruedas en forma aleatoria obteniéndose 10 datos), b) si los datos se consideran apareados por cada automóvil, llamado diseño aleatorizado en bloques (resultando 5 diferencias de observaciones). ¿Cómo planificaría este experimento: con diferencias apareadas o sin aparear? c) Relacionar gráficamente el IC con la PH de que no existe diferencia en cada caso. d) Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower y con el SPSS. Automóvil A B 1 10.6 10.2 2 9.8 9.4 3 12.3 11.8 4 9.7 9.1 5 8.8 8.3 R: a) IC =-1.45 a 2.41, b) IC =0.38 a 0.58. 51. Velocidad en la mecanografía Se seleccionan al azar 5 secretarias para probar la velocidad en la mecanografía (en palabras por minuto), en una máquina eléctrica A y en una máquina estándar B. Los resultados se registran en la siguiente tabla. a) ¿Justifican los datos que la velocidad aumenta al usar la máquina A?, usar α = 10 %. b) Realizar el cálculo suponiendo que las secretarias son distintas para cada máquina. ¿Cuáles son las ventajas y desventajas respecto de diseñar el experimento con 5 diferentes secretarias para cada máquina? Responder con un cálculo de la potencia para cada caso (poblaciones independientes o apareadas). c) Para las poblaciones apareadas, ¿es aceptable establecer que Δμ > 5.8 con una confianza del 90 %? Relacionar gráficamente el IC con la PH y realizar el estudio retrospectivo de la potencia versus el tamaño del efecto. Si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower y con el SPSS. Secretaria A B 1 82 73 2 77 69 3 79 75 4 68 62 5 84 71 R: SPSS y GPower. 52. Garantía de heladeras Dos marcas de heladeras A y B tienen una garantía de 1 año. Una muestra aleatoria de 50 heladeras A reveló que 12 se descompusieron antes de terminar la garantía. Una muestra de 60 de la marca B reveló que también 12 se descompusieron durante la garantía. Si una de estas 343 Capítulo 5 Inferencia Paramétrica I heladeras se descompuso antes de terminar la garantía, ¿cuál es la probabilidad de que sea de la marca A? Estimar la diferencia real entre las proporciones de fallas durante la garantía con un coeficiente de confianza de 0.98. Probar la aseveración de que existe diferencia entre las proporciones de heladeras descompuestas, con por lo menos 2 distribuciones distintas. Relacionar gráficamente el IC con esta PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: IC = -0.1449 a 0.2249. 53. Tratamiento para dejar de fumar Se somete a tratamiento a individuos previamente clasificados como Fumadores y No Fumadores. Los resultados se muestran en la siguiente tabla. Utilizando un nivel se significación del 5%, probar la aseveración del fabricante de que su tratamiento es eficaz. Verificar con el SPSS. nO Antes F NF 5 12 17 F Después NF 22 50 77 27 62 84 R: SPSS. 54. Fabricación de chips En la fabricación de chips, una medición clave son las anchuras de ciertas ventanas antes y después de un proceso de ataque químico. Se muestrearon 10 ventanas antes del ataque químico (en µm): 2.52 2.50 2.66 2.73 2.71 2.67 2.06 1.66 1.78 2.56. Después del ataque químico se seleccionaron otros 10 en forma independiente: 3.21 2.49 2.94 4.38 4.02 3.82 3.30 2.85 3.34 3.91 a) Explorar gráficamente el comportamiento de la relación entre ambas medias y ambas desviaciones estándar (α = 5%). b) Probar que el ancho promedio de la ventana antes del ataque químico es de 2.15 y después del ataque químico es de 3.14 (α = 5%). c) Probar que la diferencia verdadera de los anchos es de 0.15 al nivel del 5 %. d) ¿Es aceptable establecer que σ1 = σ2 con una confianza del 90 %? Responder con una prueba F y con una prueba de Levene. Relacionar gráficamente el IC con la PH en todas las pruebas. e) Para la prueba de hipótesis de la diferencia de medias, realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower y con el SPSS. R: d) IC = 0.16645 a 1.17259, e) IC = 0.1480 a 1.466. 55. Vehículos a gas versus gasoil Para reducir el costo anual de combustible, una compañía de transportes ha adquirido 100 vehículos a gas. Se hace un experimento con 100 vehículos a gas y 100 a gasoil. El costo por km de los vehículos a gas es de 6.70 centavos con una varianza de 0.36, en tanto que para los gasoleros es de 6.54 centavos con s2 = 0.40. ¿Muestran estos datos evidencia suficiente para indicar una diferencia significativa entre ambos? Usar un nivel de significación α = 0.10. . Relacionar gráficamente el IC con la PH. Analizar la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: zm = 1.83, p = 0.0672, IC = 0.017 a 0.303, sí. 56. Afección cardiaca En el departamento de cardiología de un hospital se registra que 52 de 1000 hombres y 23 de 1000 mujeres que ingresan al hospital tienen alguna afección cardiaca. Si una de esas personas tiene una afección cardíaca, ¿cuál es la probabilidad de que sea mujer? ¿Muestran estos datos evidencia suficiente para indicar una diferencia significativa entre ambos? Usar un nivel de 344 Jorge Carlos Carrá Problemas III Análisis 1vi–1vd: Comparación entre grupos significación α = 0.05 y probar con por lo menos 2 distribuciones distintas. Relacionar gráficamente el IC con la PH. Analizar la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con SPSS y GPower. R: zm = 3.41, p = 0.00065, IC = 0.0150 a 0.043, si. 57. Comparación de procesos de fabricación Con el objeto de comparar 2 procesos de fabricación, se eligen al azar 500 piezas de cada uno, como se muestra en la tabla siguiente. Probar la aseveración de que no hay diferencia entre ambos procesos al nivel 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Buena Regular Mala 440 47 13 A 414 46 10 B R: SPSS y GPower. 58. Salario vs lectura de diarios (capítulo 1) Un editor de periódicos se pregunta si la costumbre de la gente de leer diarios está relacionada con el salario de los lectores. Se aplica una encuesta obteniéndose, entre otros, los siguientes gráficos. 100.0% LECTURA 45.7% 26.8% Values 75.0% 17.5% 11.8% LECTURA nunca LECTURA a v eces 14.1% LECTURA mañana o tarde LECTURA ambas 23.7% 41.2% 19.5% 50.0% 10.9% 39.0% 39.2% 15.2% 25.0% 32.9% 28.3% 0.0% 14.6% 19.6% SALAR IO 300-500 SALAR IO 700-900 SALAR IO 500-- 700 SALAR IO 900-- 1100 SALARIO 345 Capítulo 5 Inferencia Paramétrica I 97 90 85 Values 80 70 60 46 50 41 40 SALAR IO 300-500 SALAR IO 500-- 700 SALAR IO 700-900 SALAR IO 900-- 1100 SALARIO Probar si ambas variables son independientes al nivel 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. 59. Calificaciones vs tiempo escuchando música (capítulo 1) Un educador tiene la opinión de que las calificaciones que obtienen los alumnos depende del tiempo que se pasan escuchando música. Se entrega un cuestionario a los estudiantes con dos preguntas: ¿Cuántas horas por semana escuchas música? ¿Qué promedio de calificaciones tienes? Del procesamiento resultaron los siguientes gráficos (entre otros). 100.0% 23.6% 8.4% 17.4% 11.6% CALIFIC 2--4 CALIFIC 4--6 43.2% CALIFIC 6--8 CALIFIC 8--10 21.1% 75.0% Values 18.2% 50.0% 28.4% 45.8% 20.0% 28.4% 25.0% 29.1% 10.3% 20.0% 0.0% 9.1% MÚSICA 0-- 5 25.3% 20.6% 11.6% 2.1% MÚSICA 5-- 10 MÚSICA 10- - 20 MÚSICA 20- - 30 MÚSICA 346 CALIFIC 5.8% Jorge Carlos Carrá CALIFIC 0--2 Problemas III Análisis 1vi–1vd: Comparación entre grupos Count MÚSICA Total 0--5 5--10 10--20 20--30 Total 55 95 155 95 400 Probar si ambas variables son independientes al nivel 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. 60. Economistas, ingenieros y abogados (capítulo 1) Se pregunta a 50 economistas, 40 ingenieros y 10 abogados si creen que la bolsa bajará, subirá o permanecerá igual en el próximo mes. EL 20 % de los economistas opina que subirá, mientras que el 40 % de ellos piensa que bajará. El 50 % de los ingenieros se inclina que permanecerá igual y tan solo el 5 % cree que bajará. Por último, la mitad de los abogados cree que subirá y la otra mitad cree que bajará. ¿Existe relación entre P y F? Utilizar α = 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. 61. Votantes (capítulo 1) Una muestra de 200 votantes reveló la siguiente información sobre 3 candidatos A, B y C. 28 votaron a favor de A 98 a favor de A o B pero no de C 42 a favor de B pero no de A o C 122 a favor de B o C pero no de A 64 a favor de C pero no de A o B 14 a favor de A y C pero no de B ¿Son independientes A y B? ¿A y C? ¿B y C? Utilizar α = 5%. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. 62. Juego de entrada al mercado (capítulo 3) Dos empresas A y B deben decidir si abrir un restaurant en un shopping. Las estrategias son Entrar, E y No entrar, N. Si las 2 empresas deciden N, la ganancia será 0 para ambas. Si un decide E y la otra N, la firma que entra gana 30000$. Si ambas deciden E, ambas pierden 10000$ pues no ha suficiente demanda para ambas. a) Obtener los equilibrios de Nash (puros y mixtos) y el valor del juego. Construir las formas normal y extensiva del juego. Se tomaron datos experimentales creando una simulación con el programa ComLabGame, de la cual resultaron las siguientes cantidad de elecciones de celdas: EE: 22, EN: 8, NE: 7, NN: 13. a) Probar si estos resultados son compatibles con la elección de cada una de las estrategias del juego. ¿Qué estrategia eligieron los jugadores? b) ¿Muestran estos datos evidencia suficiente para indicar una diferencia significativa entre las ganancias teórica y real de esa estrategia? Usar un nivel de significación α = 0.05 y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. 63. Clases de consulta Solo el 60% de los estudiantes de estadística aprobaron el primer parcial (variable A: Aprobado). 347 Capítulo 5 Inferencia Paramétrica I De quienes pasaron, el 85% concurrieron a clases de consulta (variable P: Primer Parcial). El 20% de los que no aprobaron, también concurrieron a clases de consulta. a) Hallar la probabilidad de que un estudiante haya aprobado, dado que concurrió a clases de consulta. b) Obtener el valor de chi-cuadrado y el coeficiente de contingencias entre la variable P y la variable C. Considerar n = 100. Probar la aseveración de que existe dependencia usando α = 5%. R: SPSS y GPower. 64. Período de entrenamiento Una operación de ensamblado de una fábrica requiere un período de entrenamiento de aproximadamente 1 mes. Se sugiere un nuevo método de entrenamiento y se ha realizado una prueba para comparar el nuevo método con el procedimiento estándar. El tiempo de ensamble (en minutos) se registró para cada empleado al final del período de entrenamiento y se muestran en la tabla adjunta. a) ¿Muestran estos datos evidencia suficiente para indicar que el tiempo para el nuevo procedimiento es menor? Usar un nivel de significación α = 0.05 y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Procedimiento Procedimiento estándar nuevo 32 44 35 40 37 35 31 27 35 31 29 32 28 34 25 31 41 34 R: SPSS y GPower. 65. Contenido de grasa de la carne Se desea estimar el contenido de grasa en la carne para poder determinar el precio de venta. Se consideran 2 métodos diferentes en 8 diferentes muestras de carne. Los resultados se muestran en la tabla de la figura. a) ¿Muestran estos datos evidencia suficiente para indicar una diferencia significativa entre ambos? Usar un nivel de significación α = 0.05 y relacionar gráficamente el IC con la PH. Realizar el estudio retrospectivo de la potencia versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. Método 1 23.1 27.1 25.0 27.6 22.2 27.1 23.2 24.7 Método 2 22.7 27.4 24.9 27.2 22.5 27.4 23.6 24.4 ∑ x = 200 ∑ x = 5030.36 ∑ y = 200.1 ∑ y = 5035.23 ∑ xy = 5032.37 ∑ D = −0.1 ∑ D = 0.85 2 2 2 66. Técnicas de auditoría Un auditor de una cadena de supermercados desea comparar la eficiencia de dos técnicas de auditoría diferentes. Para esto selecciona una muestra de 9 cuentas y les aplica la técnica A y a otras 9 cuentas les aplica la técnica B. En la tabla se indican el número de errores encontrados. a) Determinar si existe evidencia de una diferencia en el número medio de errores detectados por cada técnica, usar α =0.10, calcular para las diferencias un intervalo de confianza del 90%, b) si 348 Jorge Carlos Carrá Problemas III Análisis 1vi–1vd: Comparación entre grupos se aparean las observaciones y se calculan previamente las diferencias, ¿aumenta la cantidad de información que se obtiene?, responder calculando un intervalo de confianza del 90%. En todos los casos relacionar gráficamente el IC con la PH. c) Analizar la potencia retrospectiva versus el tamaño del efecto y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. A B x = 1113 125 89 x 2 = 137973 116 101 133 97 y = 880 115 95 y 2 = 86240 123 94 120 102 xy = 108831 132 98 D = 233 128 106 121 98 2 ∑ ∑ ∑ ∑ ∑ ∑ ∑D = 6551 67. Valor de las viviendas En la municipalidad se considera el uso de un modelo de evaluación por computadora para determinar el valor de cada una de las viviendas del municipio. Para ello se comparan las evaluaciones del modelo A con las de un tasador B. Se seleccionan al azar 10 viviendas mostrándose los resultados en la tabla adjunta. a) Analizando los resultados como un experimento apareado, ¿presentan los datos muestrales evidencia que indique una diferencia en el valor medio de ambos procedimientos? Usar α =0.05. b) Obtener un intervalo de confianza del 95% para Δμ. c) Si la información de la muestra es representativa de las 40000 viviendas del municipio, obtener un intervalo de confianza del 95% para la ganancia (perdida) total en las valuaciones si se usa el modelo. d) ¿Cuál es la ganancia (perdida) estimada en la valuación total de las viviendas? e) La municipalidad cobra 3% de impuestos del valor estimado de la valuación. ¿Qué cantidad en más (o menos) recaudará la dirección de rentas si usa el modelo de computadora? f) Obtener un intervalo de confianza del 95% para la cantidad en más (o menos) que el municipio recibirá en concepto de impuestos. g) Analizar la potencia retrospectiva versus el tamaño del efecto para la aseveración de que no existen diferencias en las medias y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. Verificar con el GPower y con el SPSS. R: a) tm(9) = 1.5267, p = 0.1612, no, b) IC = -288.95 a 1488.95, c) IC = -11558208 a 59558208, d) $ 24000000, e) $ 720000, f) IC =-346 759 a 1 786 759 Valuaciones ($) x = 338500 A B x 2 = 1.2153E + 10 1 21000 20000 2 37500 36000 y = 332500 3 42000 40000 y 2 = 1.1637E + 10 4 28000 28500 5 30000 31000 xy = 1.1886E + 10 6 36500 35000 D = 6000 7 44500 44000 8 23000 24500 D 2 = 1.7500E + 07 9 46000 44000 10 30000 29500 ∑ ∑ ∑ ∑ ∑ ∑ ∑ 68. ¿Los hombres ganan más que las mujeres? Se presume que los hombres ganan más que las mujeres en trabajos similares. En una fábrica se tomó una muestra de 38 operarios varones y se encontró que el salario medio por hora era 11.38$ y la desviación estándar de 1.84$. En una muestra de 45 mujeres resultó un salario medio 349 Capítulo 5 Inferencia Paramétrica I por hora de 8.42$ con una desviación estándar de 1.31$. a) Explorar gráficamente el comportamiento de la relación entre ambas medias. b) Probar que los operadores ganan más de 2$ por hora que las operadoras (α = 1%). c) Probar que las desviaciones estándar de ambas poblaciones son iguales (α = 1%), con una prueba F y con una prueba de Levene. En todos los casos relacionar gráficamente el IC con la PH. R: b) tm(81)=2.77 sign =0.003,los operadores hombres ganan más de 2$ por hora que las mujeres. c) Fm(37,44)=1.973, sign =0.015, las dispersiones de varones y de mujeres son iguales. IV Análisis 1vi–1vd: Asociación entre variables 69. Coeficiente de inteligencia (capítulo 1) Un grupo de investigadores desea estudiar si los estudiantes con alto coeficiente de inteligencia, CI, tienen también altas calificaciones en la escuela. Se sabe que esto es parcialmente cierto pues otros factores afectan el comportamiento académico. Se toma una muestra de 12 estudiantes y se obtienen los datos de la tabla siguiente. CI (x) 117 92 102 115 87 76 107 108 121 91 113 98 Calific(y) 3.7 2.6 3.3 2.2 2.4 1.8 2.8 3.2 3.8 3.0 4.0 3.5 a) Calcular la variación explicada, la variación no explicada, la variación total y el coeficiente de determinación. b) Obtener el coeficiente de correlación lineal y si corresponde, la ecuación de regresión con una medida de la precisión. c) Predecir la calificación promedio para un CI = 95 con el intervalo de predicción. d) Relacionar gráficamente el IC con la PH de que la pendiente es 0. Utilizar un nivel de significación del 0.05. e) Analizar la potencia retrospectiva de cada prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: Capítulo 1, SPSS y GPower. 70. Distancia y tiempo de entrega Un analista toma una muestra aleatoria de 10 embarques enviados por camión por una determinada compañía y registra la distancia y el tiempo de entrega (al mediodía más cercano). a) Calcular la variación explicada, la variación no explicada, la variación total y el coeficiente de determinación. b) Obtener el coeficiente de correlación lineal y si corresponde, la ecuación de regresión con una medida de la precisión. c) Predecir el número de días para 500km con el intervalo de predicción. d) Relacionar gráficamente el IC con la PH de que la pendiente es 0. Utilizar un nivel de significación del 0.01. e) Analizar la potencia retrospectiva de cada prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. x(km) y(días) 825 3.5 215 1 1070 4 550 2 480 1 920 3 1350 4.5 325 1.5 670 3 1215 5 R: Capítulo 1, SPSS y GPower. 71. Accidentes en los conductores más jóvenes Una compañía de seguros considera que se producen más accidentes en los conductores más jóvenes y que por lo tanto se les debe cobrar una prima mayor. Se realizó una muestra de 1200 personas en la que se relevó la edad y la situación en cuanto a los siniestros en los últimos 3 años. Esta información se presenta en la tabla adjunta. a) ¿Existe relación entre la edad de la persona y los siniestros? Utilizar un nivel de significación del 0.05. b) Analizar la potencia retrospectiva de la prueba y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. 350 Jorge Carlos Carrá Problemas V Análisis de Control de Calidad Situación Con Siniestro Sin Siniestro Edades 18–25 26–40 41–55 >56 54 60 55 22 180 235 434 160 R: SPSS y GPower. 72. Ecuación y = x2 En un archivo nuevo introducir diez pares de valores (x, y) de la ecuación y = x2. a) Obtener el diagrama de dispersión con el coeficiente de determinación, el coeficiente de correlación y la recta de regresión: y sobre x. b) Realizar una prueba de significación de los coeficientes de la recta al nivel 98%. c) Utilizar el modelo de regresión para elaborar una predicción de E(y) para un x arbitrariamente elegido por el estudiante, al nivel 95%. d) Utilizar el modelo de regresión para elaborar una predicción de y para un x arbitrariamente elegido por el estudiante, al nivel 95%. e) Relacionar gráficamente el IC con la PH de que la pendiente es 0. f) Analizar la potencia retrospectiva para las pruebas del coeficiente de correlación y de la pendiente y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. R: SPSS y GPower. 73. Valor revisado vs valor de libros Los auditores deben comparar el valor revisado x con el valor de libros y. Una muestra de 10 artículos, produjo la tabla siguiente. a) Obtener el diagrama de dispersión con el coeficiente de determinación, el coeficiente de correlación y la recta de regresión: y sobre x. b) Realizar una prueba de significación del coeficiente de correlación. c) Realizar una prueba de significación de los coeficientes de la recta al nivel 95%. d) Utilizar el modelo de regresión para elaborar una predicción de E(y) para un x de 80, al nivel 90%. e) Utilizar el modelo de regresión para elaborar una predicción de y para un x de 80, al nivel 90%. Explicar la diferencia respecto de la pregunta anterior, f) Convertir las variables en ordinales y obtener el coeficiente de correlación de Spearman con su significación. α = 5%. g) Relacionar gráficamente el IC con la PH de que la pendiente es 0. h) Analizar la potencia retrospectiva para los coeficientes de correlación y obtener la potencia observada para la pendiente y si corresponde a un caso no concluyente, calcular el tamaño de la muestra necesario para resolverlo. x y x = 701 8 11 13 15 6 9 31 28 43 40 125 135 39 38 278 277 58 55 100 99 ∑ ∑ x = 110873 ∑ y = 707 ∑ y = 112035 ∑ xy = 111378 ∑ D = −6 ∑ D = 152 2 2 2 R: SPSS y GPower. V Análisis de Control de Calidad 74. Contenido de grasa de cereales Archivo Grasa.txt Un productor de cereales desea asegurar la calidad del producto en cuanto al contenido de grasa, para lo cual verifica el proceso de producción cada hora, tomando una muestra de 3 envases. Los 351 Capítulo 5 Inferencia Paramétrica I resultados se indican en la tabla siguiente. En forma manual y con el SPSS, elaborar los diagramas de control adecuados para determinar si el proceso está fuera de control en algún momento. Muestra Grasa 1 12.5 15.6 13.3 2 16.1 17.1 14.9 3 17.2 16.1 21.2 4 12.4 17.0 13.1 5 18.3 16.3 15.9 6 19.2 8.4 13.3 7 14.1 17.0 15.2 8 15.6 13.3 13.6 9 13.9 14.9 15.5 10 18.7 21.2 20.1 11 15.3 13.1 13.7 12 14.1 15.9 18.0 13 15.6 13.3 18.1 14 13.9 14.9 17.7 15 18.7 21.2 8.4 16 11.1 13.8 11.9 17 16.5 15.9 18.0 18 18.0 12.0 18.1 19 17.8 11.2 17.7 20 11.5 15.9 8.4 75. Calorías que se muestra en las etiquetas Archivo Calorias.txt Una empresa de control ciudadano recibe quejas acerca de la veracidad en la cantidad de calorías que se muestra en la etiqueta de y una marca de chocolates. Para verificar esta afirmación, toma muestras de 4 barras de chocolate en cada uno de 10 lugares de expendio. Los resultados se indican en la tabla siguiente. En forma manual y con el SPSS, elaborar los diagramas de control adecuados para determinar el valor medio de la cantidad de calorías y si existen indicios de que esta cantidad está fuera de control, en algún lote. M1 M2 M3 M4 M5 M6 M7 M8 M9 M10 1 28.00 31.00 27.00 33.00 35.00 33.00 35.00 32.00 25.00 35.00 2 30.00 35.00 32.00 33.00 37.00 33.00 34.00 33.00 27.00 35.00 3 28.00 35.00 34.00 35.00 32.00 27.00 34.00 30.00 34.00 36.00 4 32.00 35.00 35.00 37.00 35.00 31.00 30.00 30.00 27.00 33.00 76. Número de acciones que suben Archivo Acciones.txt Un inversionista desea, toma una muestra aleatoria de 20 acciones durante 5 días consecutivos y cuenta el número de acciones que suben. Resume los resultados en la siguiente tabla, en donde 1 significa que subió. En forma manual y con el SPSS, elaborar los diagramas de control adecuados para determinar si es razonable creer que las posibilidades de que una acción suba o baje en un determinado día son 50 a 50. ¿Qué porcentaje de acciones debería subir en un día 352 Jorge Carlos Carrá Problemas Problemas con base de datos para que el proceso esté fuera de control? D1 D2 D3 D4 D5 0 1 0 1 1 0 0 0 0 0 1 0 0 0 1 1 1 0 0 1 0 0 0 1 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 1 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 1 1 1 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 0 1 0 1 0 0 0 0 1 0 77. Valijas extraviadas en el aeropuerto Las pérdidas de valijas extraviadas por vuelos en el aeropuerto de Bariloche se registran mensualmente, tomando muestras de tamaño 5. Los resultados de los últimos 15 meses se muestran en la tabla siguiente. 3 2 1 5 4 3 3 2 1 2 5 2 1 3 4 Determinar la media del número de pérdidas c por mes, del número de pérdidas u por mes y por unidad y los límites de estas cantidades. ¿Hay algún mes en el que el número de pérdidas esté fuera de control? 78. Control automático de errores de un procesador de textos Para analizar la efectividad del control automático de errores de un procesador de textos, el personal de informática de la universidad tomó 5 muestras de 25 páginas realizadas con este procesador. Este estudio reveló lo siguiente: 10 páginas con 11 errores 12 páginas con 15 errores 6 páginas con 12 errores 1 página con 2 errores 3 páginas con 7 errores Preparar diagramas p (porcentaje de páginas con errores) y diagramas c (cantidad de errores por página) para analizar la efectividad de este software. ¿Existe algún resultado fuera de control? Problemas con base de datos Todos los archivos que se mencionan en los problemas se encuentran en la dirección (acceso restringido a alumnos): http://www.aprehender.net/JCC/viewtopic.php?f=52&t=267 353 Capítulo 5 Inferencia Paramétrica I 79. Costo de la garantía Abrir el archivo garantia.sav Una compañía de venta de insumos electrónicos ofrece un año de garantía para los productos que vende. Para los 200 productos vendidos el año anterior, el costo que significó la garantía se encuentra en el archivo garantía.sav. El dueño de la compañía decide que a menos que la desviación estándar real sea menor que 13 $, comprará los insumos a otro mayorista. ¿Deberá cambiar de proveedor si se utiliza un nivel de significación de 0.01? Presentar los resultados de la prueba con una tabla elaborada en el visor del SPSS. Expresar el IC. Acompañar los resultados con diagramas de caja (editar los extremos, si existen). Con un histograma analizar visualmente el cumplimiento de los supuestos. R: χ2(199) = 289.88, sign≤0.01, la diferencia es significativa, se rechaza Ho: σ ≤ 13, deberá cambiar de proveedor. IC = de 13.88 a 17.99. 80. Solteros y casados Abrir el archivo trabajo.sav. Probar con un nivel de significación de 0.01 si el 90 % de las personas en la población, se encuentran ya sea solteras o casadas (variable c3). Realizar la prueba de 3 formas distintas. Expresar el IC. R: a) Binomial (0.903,1200,0.90), sign ≥ 0.01, no se rechaza la hipótesis p = 0.90 como proporción de los solteros y casados en toda la población. b) t(1199)=0.391, sign > 0.01, no se rechaza Ho. IC de 0.8866 a 0.9201 c) χ2 (1)=0.148, sign > 0.01, no se rechaza Ho. 81. Precio de venta de vehículos todo terreno Abrir el archivo TTerreno.sav Realizar una regresión múltiple entre la variable dependiente PVP (precio de venta al público) y las variables que en principio pueden pensarse que pueden explicar y predecir el precio de venta: Cilindro, Potencia, Peso, RPM, Plazas, Consurb, Velocida y Acelerac. a) Obtener la ecuación de regresión múltiple. Interpretar cada uno de los coeficientes. Observando la columna de significación de cada coeficiente de regresión, estimar las variables que no parecen ser aptas para predecir el PVP adoptando un α = 5%. b) Obtener una de las ecuaciones de ajuste que proporciona el programa en forma estadística: entrar todas las variables de escala del archivo en la caja de variables independientes, y en Method elegir Stepwise. El SPSS parte de un modelo con una sola variable (la de mayor correlación de Pearson con la variable dependiente). Luego las variables son examinadas en cada paso para entrar o salir del modelo, según criterios especificados por el usuario. Comparar la respuesta a) con la b). c) Obtener la gráfica del plano de regresión de PVP versus Peso y Cilindros. d) Obtener de entre las ecuaciones no lineales provistas por el SPSS, la que mejor ajuste a la relación entre las variables: PVP y Peso. Interpretar cada coeficiente. Obtener la gráfica. R: a) En valores estandarizados: PVP = 0,523 *cilindro - 0,227*potencia + 0,669*peso + 0,131*rpm - 0,007*plazas + 0,015*consurb - 0,025*velocida - 0,137*acelerac b) En valores estandarizados: PVP = 0,561*peso + 0,351*cons 120*+ 0,495*cilindro - 0,231*cc. d) Modelo cúbico: PVP = 3 998 400 – 3.6230*peso2 +0.002 *peso3. R2 = 0.710. 82. Práctica religiosa vs sentimiento nacionalista Abrir el archivo trabajo.sav. Si analizamos la práctica religiosa de los encuestados (c8), la ideología (c9), y el sentimiento nacionalista (c11) y todos ellos por comunidades autónomas (c15), vemos que: a) Los más practicantes de la religión son los ____________________ y los que menos son los________________ b) Los más de izquierda son los de_______________________ y los más de derecha son los de _________________ c) Los más nacionalistas son los de _____________________ y los menos nacionalistas los de ________________ 354 Jorge Carlos Carrá Problemas Problemas con base de datos 83. Demografía Contrastar las siguientes hipótesis: d) La muestra trabaja un promedio de 40 horas semanales (b3). e) La muestra se declara satisfecha con su trabajo (b36). (El punto neutro de la escala es 4) f) Ideológicamente, la muestra es de centro (c9). (El punto medio de la escala es 4) Efectuar los mismos 3 contrastes pero separando por grupos según se indica: g) Por sexo (c1). h) Por hábitat (c16). i) Por clase social (c10). R: a) Cantabria y Cataluña, b) País Vasco y La Rioja, c) Navarra y Cantabria, d) no, trabaja más de 40, e) si, f) no, es de izquierda, g) 1- los hombres no pues trabajan más de 40 horas, las mujeres si (p = 0.554), 2- si para ambos, 3- no, de izquierda, h) 1- en general trabajan más de 40 horas en hábitats de menos de 50000 habitantes y alrededor de 40 horas en hábitats de más de 50000 habitantes excepto el grupo de más de 250000 habitantes, 2- En todos los hábitats se sienten satisfechos con su trabajo (medias alrededor de 5 o superior), 3- En todos los hábitats la media está por debajo de 4 (tendencia a la izquierda), solo en el hábitats de entre 10001 y 50000 habitantes la media (3.81) no difiere significativamente de 4, i) 1- En todas las clases sociales la media es significativamente superior a 40 horas, excepto en el grupo de clase Media Alta, en que la media de horas es de 37.5 y no difiere significativamente de 40, 2- La tendencia parece ser que a medida que descendemos en la clase social, desciende también la satisfacción en el trabajo. El único grupo que no se muestra satisfecho con su trabajo es el de la clase Baja (media = 4.52, que no difiere significativamente de 4), 3- La clase Media Alta es la que más se aproxima a la ideología de centro (media = 3.578). A medida que descendemos en la clase social (de Media a Baja), la media tiende a valores más bajos (por lo tanto hacia la izquierda), todos significativamente inferiores al punto central (4). 84. Causas del desempleo Abrir el archivo trabajo.sav Las variables b13 a b21 indican las posibles causas del desempleo. Seguramente la evaluación por cada persona dependerá de si se encuentra con o sin trabajo (b1). Realizar una prueba t de diferencia entre el grupo de personas activas y no activas para cada variable. Ordenar los 9 resultados según el grado de significación. R: b15, b20, b21, b14, b18, b19, b16, b13, b17. 85. Antigüedad vs satisfacción Abrir el archivo trabajo.sav Contrastar la hipótesis de que los trabajadores de mayor antigüedad se declaran más o menos satisfechos (b36) que los de menor antigüedad. Para probarlo dividir la variable de escala b4, antigüedad, en 2 categorías a partir de la mediana de la misma. R: no es significativa 86. Situación en España Abrir el archivo trabajo.sav Los encuestados opinaron acerca de la situación en España en ese momento (a13), un año atrás (a14) y la previsión para un año después (a15). Contrastar las posibles diferencias entre cada uno 355 Capítulo 5 Inferencia Paramétrica I de los pares posibles (pruebas apareadas) y sacar conclusiones. Acompañar con un diagrama de barras que represente la media de los grupos y que contenga barras de error con intervalos confidenciales del 95%. R: a13-a14 actual más pesimista que un año atrás, (diferencia negativa, por lo tanto la media actual es menor), a13-a15 futuro más optimista que presente, a14-a15 futuro más optimista que presente. 87. Tiempos de trabajo Abrir el archivo trabajo.sav Completar los espacios en blanco: Los hombres en actividad de la muestra trabajan_________ (Sí/No) el mismo promedio de horas semanales (b3) que las mujeres en actividad. Los ______hombres en actividad de la muestra trabajan un promedio de ________horas/semana, mientras que las _______mujeres trabajan un promedio de ______ horas/semana. Con un riesgo α del 5% las varianzas de ambos grupos son ___________________ (Iguales/Desiguales) por lo que una t de ___________, con un grado de significación de __________, es signo inequívoco de que el promedio de horas/semana que trabajan los hombres y mujeres de la muestra ________ (Sí/No) difiere significativamente. Acompañar los resultados de las pruebas de comparación de medias con gráficos ilustrativos de barras de error y los de comparación de varianzas (dentro de cada prueba t con muestras independientes) con diagramas de caja. R: No-258-43.411-142-36.48-6.92-Iguales-4.76-0.0000-Sí. 88. Precio de los todoterrenos Abrir el archivo tterreno.sav. a) Calcular el precio medio de los todoterrenos por marcas, número de plazas y número de cilindros. Completar los espacios en blanco: La marca con un precio medio más alto de _______________ptas, es ________________que tiene una oferta en el mercado de _________todoterrenos. Por el contrario, la marca con un precio medio más bajo de _______________ptas, es ________________, aunque solo dispone de _________modelos en el mercado. Las marcas con mayor número de todoterrenos en el mercado son _________________________ y _____________________________-, con un total de _______modelos distintos cada una de ellas. b) Respecto al precio medio según el número de plazas, vemos que los que más abundan son los todoterrenos de ____plazas (un total de _____) y el grupo con un precio medio más alto, según este concepto son los de _______plazas (___________ptas), mientras que los más baratos son los de _______plazas (___________ptas). c) Respecto al número de cilindros, como cabía esperar, existe una notable diferencia entre los precios de los de 4 cilindros (____________ptas), de 6 cilindros (_______________ptas) y de 8 cilindros (____________ptas). R: a) 9759786-Mercedes-6-Lada-1733562-2-Nissan y Suzuki-19. b) 5-61-8-5172450-42460243. c) 3274610-5764428-7956841. 89. Precio vs consumo Abrir el archivo tterreno.sav Contrastar las siguientes hipótesis: a) El consumo promedio a 120 km/h es de 12 litros. b) La velocidad máxima promedio de los todoterrenos es de 155 km/h. c) El consumo urbano de los automóviles de 4 cilindros es de 12.2 litros. d) El precio promedio de los todoterrenos de la marca Nissan es de 4000000 ptas. e) El precio medio de los todoterrenos de la marca Land Rover es significativamente superior al de los de la marca Mitsubshi. Acompañar con un diagrama de cajas con las variables en el eje x y un diagrama de líneas que represente la media de los grupos. f) Los coches de 4 cilindros consumen en promedio lo mismo que los de 6 cilindros. Probar para cada una de las 3 variables de consumo: CONS90, CONS120 y CONSURB. g) Contrastar las tres variables de consumo de dos en dos y concluir si existen diferencias 356 Jorge Carlos Carrá Problemas Problemas con base de datos 90. 91. 92. 93. significativas entre ellas. Acompañar con un diagrama de 3 barras que representen la media de cada uno de los grupos y barras de error con intervalos confidenciales del 99%. R: a) Sí. b) No. c) No. d) Sí. e) No. f) No en los tres casos. g) CONS120-CONS90: Sí, CONS120-CONSURB: No, CONSURB-CONS90: Sí. General Social Survey Abrir el archivo GSS.sav. El GSS (General Social Survey) es un organismo de investigación norteamericano que anualmente encuesta a 1500 personas mayores de 18 años sobre muy distintos tópicos. a) Obtener un gráfico de barras de error con los datos de la variable que informa si el encuestado seguirá trabajando si se convirtiera en una persona rica (richwork). Contrastar la hipótesis de que los que opinan que continuarán trabajando son mayoría. Realizar la prueba de 3 formas distintas. Expresar el IC. b) Obtener un gráfico de barras de error para probar si el porcentaje de mujeres que seguirán trabajando si se convirtiera en una mujer rica, es el mismo que el de los hombres, (se debe recodificar con 0 y 1). Ejecutar el análisis estadístico apropiado. Escribir un corto resumen de los resultados. R: a) b(0.70,642, 0.5), p<0.05, por lo tanto se rechaza p=p0=0.5, t(641)=10.907, p<0.05, se rechaza p=p0=0.5. IC de 0.6622 a 0.7334 χ2(1)=100.5, p<0.05, se rechaza p=p0=0.5 b) χ2(1)=0.384, p>0.05, no se rechaza p1=p2. Eficacia de dos drogas Abrir el archivo gripe.sav. Una compañía que fabrica productos medicinales, prueba la eficacia de dos drogas distintas contra la gripe en dos grupos independientes de personas. Los resultados se encuentran en el archivo gripe.sav. Obtener un gráfico que permita explorar si existe diferencia entre ambas medicinas. Probar luego con un nivel de significación de 0.05 si existe diferencia significativa en la eficiencia entre las dos medicinas. R: χ2(1)= 0.035, sign≥0.05, la diferencia no es significativa, no se rechaza Ho: p1 = p2, acerca de que las drogas no son diferentes. Computadoras más rápidas Abrir el archivo Pal-Cal.sav. Una compañía fabricante de computadoras colocará en el mercado una computadora más rápida Pal que su modelo anterior Cal. Sin embargo en las pruebas de aceptación la velocidad de procesamiento de la Pal parece ser mas variable (la velocidad de procesamiento depende del programa que esté corriendo, de la cantidad de los datos de entrada y de la cantidad de los datos de salida). Se realizaron dos muestras de 1000 corridas a cada computadora. Los resultados del tiempo de procesamiento en centésimas de segundo se encuentran en el archivo Pal-Cal.sav. a) Probar si la diferencia de tiempos promedio es significativamente mayor en las computadoras Cal. Usar α =0.05. Expresar el IC. b) Al nivel α = 0.05 probar si la velocidad de procesamiento de Pal es mas variable que la de Cal. c) Acompañar los resultados con barras de error y diagramas de caja (editar los extremos). Nota: editar la estructura del archivo para conformar una variable tiempo y otra tipo de computadora. Si las pruebas son significativas, determinar cuál de las dos variables predomina. R: a) t(1504) = -36.54, sign < 0.05, la diferencia es significativa, se rechaza Ho: μcal ≥ μpal. IC de -26.41028 a -23.72002 b) F(1,1998) =316, sign < 0.05, la diferencia es significativa, se rechaza Ho: σcal ≤ σpal. Beneficios Sobre Ventas Abrir el archivo BENEFICI.SAV. Crear las variables (BSV = Beneficios Sobre Ventas): BSV94=BAI94/VENTAS94*100 357 Capítulo 5 Inferencia Paramétrica I BSV95=BAI95/VENTAS95*100 Seleccionar únicamente aquellas empresas con V95 entre -100 y 100. Obtener la ecuación de regresión simple entre BSV95 y BSV94: BSV95 = _______________+_________________* BSV94 Estandarizar ambas variables y obtener en la base de datos 2 nuevas variables ZBSV94 Y ZBSV95. La ecuación de regresión entre estas dos variables es: ZBSV95 = ______________+_______________* ZBSV94 El R2 = _____________Evidentemente la correlación simple entre las variables en ambas situaciones es la misma con un valor de R = _________. Seleccionar ahora únicamente a las empresas tal que -2 < ZRE_1 < 2, (la variable ZRE_1 contiene los residuos estandarizados de la regresión BSV95 en función de BSV94. Esto equivale a considerar como casos extremos a los que se separan más de 2 desviaciones estándar de su media. La identificación de casos atípicos es importante porque su presencia en la muestra puede distorsionar los resultados de la regresión. Quedan en el archivo un total de 76 empresas de las 81 iniciales, cuyo porcentaje promedio de beneficios en el año 1994 fue de __________puntos y en el año 1995 de ______. La correlación de Pearson entre ambos es de ____________puntos. El grado de significación es p =______. Se observa que es signo inequívoco de que existe una relación lineal significativa entre ambas variables. La ecuación de regresión entre las variables es ahora: BSV95 = _______________+__________________*BSV94 El R2 ha pasado a ser de ________ y su p = ________. Volvemos a hacer ahora un Scatterplot con BSV95 como VD y BSV94 como VI y trazamos la recta de regresión. Respuestas: 5.05839-0.515901—2.6421E-16-0.515901-0.35523-0.59601-7.324-10.013-0.8990.0000-3.682605-0.864310-0.80765-0.0000. 358 Jorge Carlos Carrá