Apuntes de Estadística II Prof. Alfonso Pitarque Dpto. Metodología (despacho M107) Facultad de Psicología TEMA 1. CONCEPTOS BÁSICOS DE INFERENCIA ESTADISTICA. 1. CONCEPTOS INTRODUCTORIOS. Una población es un conjunto de individuos que comparten determinada característica. Una muestra es un subconjunto de dicha población. Las variables que definen de forma numérica cualquier característica de una población reciben el nombre de parámetros (p.e. media, mediana, desviación típica, proporción, correlación,...), y suelen representarse en los manuales de estadística a través de letras griegas (p.e. µ suele representar la media, σ la desviación típica, σ2 la varianza, π la proporción, y ρ la correlación,...). Por su parte las variables que definen de forma numérica cualquier característica de una muestra reciben el nombre de estadísticos (p.e. media, mediana, desviación típica, proporción,...) y suelen representar con letras latinas (p.e. X suele representar la media muestral, s la desviación típica, s2 la varianza, P la proporción, y r la correlación,...). Para conducir cualquier investigación lo ideal sería poder medir a todos los sujetos que componen una población. De este modo tendríamos certeza absoluta de que nuestras conclusiones serían generalizables a dicha población. Pero por motivos obvios de economía de recursos y tiempo ello nunca suele ser posible (imaginemos p.e. que tuviéramos que medir a toda la población española). Sin embargo podemos trabajar con una muestra representativa de dicha población e intentar luego generalizar las conclusiones obtenidas en ella a toda la población. En el proceso de inferencia estadística intentamos, previo conocimiento de determinado estadístico, llegar a inferir o conocer determinado parámetro poblacional, a priori desconocido. Inferir coincide pues con el significado común de inducir (pasar del conocimiento de lo particular a lo general) como contrapuesto al de deducción (o proceso por el cual pasamos del conocimiento de lo general a lo particular). La característica primordial para que una inferencia sea válida es que la muestra sea representativa, es decir, que sea suficientemente grande y que haya sido obtenida por un tipo de muestreo adecuado (ver ver punto 2 de este tema). La estadística inferencial cubre dos grandes áreas de contenido: la estimación de parámetros y el contraste de hipótesis. En el primer caso (tema 2) nos valemos del conocimiento de determinado estadístico para llegar a conocer determinado parámetro (p.e. piénsese en los sondeos de opinión, encuestas, etc.). En el contraste de hipótesis (temas 3 a 5) nos valemos de la estimación de determinados parámetros para comprobar si determinadas relaciones entre 1 variables son ciertas o falsas. Por ejemplo imaginemos que un laboratorio farmaceútico quiere comprobar si dos medicamentos (A y B) son igualmente eficaces o no para reducir el insomnio. Para ello toma dos muestras de personas insomnes y las medica a una con el medicamento A y a la otra con el B (variable independiente). Finalizada la medicación mide a ambas muestras en la variable (dependiente) 'grado de insomnio manifiesto'. Si ambos medicamentos µ = µB µ ≠ µB son igualmente eficaces se verificará que A , en caso contrario A . Dada la relevancia de la estadística aplicada al contraste de hipótesis en todas las disciplinas científicas incidiremos prioritariamente en este curso en esta segunda línea de análisis. 2. PRINCIPALES TIPOS DE MUESTREO. La validez de una inferencia estadística descansa en la representatividad de la muestra con la que trabajemos. Tal representatividad se consigue a través de un muestreo y un tamaño de la muestra adecuados. Hay dos principales tipos de muestreo: el probabilístico, en el que cada individuo de la población tiene la misma probablidad de ser muestreado, y el no probabilístico, donde no se cumple tal premisa. Sólo el muestreo probabilístico garantiza la representativadad de la muestra. El no probabilístico se utiliza sólo para estudios previos asistemáticos (p.e. cuando pedimos voluntarios en clase para hacer el análisis inicial de los ítems de un nuevo cuestionario) y no será considerado aquí. Principales tipos de muestreo probabilístico o aleatorio: - muestro aleatorio simple: Consiste en elegir al azar (sin reemplazamiento) los n individuos de la muestra a partir de un listado de los N individuos que conforman la población. El problema de este muestreo es que sólo vale con poblaciones de las que dispongamos de un listado poblacional (lo que no siempre es posible). - sistemático: supone elegir al azar un individuo de los N/n primeros (o entero más próximo) de una población y luego ir escogiendo los situados de N/n en N/n posiciones más alejadas hasta conformar una lista de tamaño n. - estratificado: se utiliza cuando la población presenta estratos de características similares (lo que casi siempre ocurre en poblaciones grandes: individuos agrupados en distritos o barrios, ciudades, provincias, comunidades autónomas, 2 nacionalidades, tipo de colegios, edades, niveles educativos, etc.). Se extrae entonces una muestra aleatoria de sujetos de todos y cada uno de los estratos. Destaca aquí el llamado muestreo estratificado proporcional que consiste en conseguir que el tamaño de las muestras extraidas de cada estrato sea proporcional al número de sujetos que componen cada estrato a nivel poblacional. - por conglomerados: al igual que en muestreo estratificado se utiliza cuando la población se agrupa por estratos de características similares solo que aquí se aleatoriza qué estratos de entre todos los existentes van a ser incluidos en nuestra muestra (desechando el resto de estratos), y una vez seleccionados al azar dichos estratos elegimos al azar sujetos de los mismos. Es decir, la diferencia entre el muestro estratificado y por conglomerados estriba en que en el primero muestreamos todos los estratos (proporcionalmente o no), mientras que en el segundo sólo muestreamos aquellos estratos que han siddo seleccionados al azar de todos los estratos posibles. - polietápicos: combinan dos o más de los anteriores muestreos aleatorios, lo que es muy frecuente en poblaciones muy grandes. El segundo factor del que depende la representatividad de mi muestra es del tamaño muestral (n), que debe de ser suficientemente grande (p.e. todo elmundo puede entender que una muestra n=5 es difícil que sea representativa). En Psicología Experimental (y cuasi-experimental) se habla de muestras grandes a partir de 30-35 participantes. En Psicología correlacional y de encuestas el tamaño muestral suele ser más grande: casi todos los manuales de Estadística ofrecen tablas (ver p.e. la de abajo) que nos dan el tamaño muestral requerido (n) en base a: - N poblacional, bien sea conocido o infinito (poblaciones muy grandes) El nivel de riesgo α, o de confianza (1- α) con el que trabajemos (generalmente α=.05 en Psicología) El error de muestreo que estemos dispuestos a cometer (p.e. de ± 2%, o de ± 5%). 3 Por ejemplo para realizar una encuesta dirigida a toda la población española, para un nivel de riesgo α=.05, y un error de muestreo del ± 2%, necesitaríamos una muestra de un tamaño mínimo de 2500 personas ( ver León y Montero, 2002, pp. 111). 4 3. CONCEPTO DE DISTRIBUCION MUESTRAL DE UN ESTADISTICO. DISTRIBUCION MUESTRAL DE LA MEDIA. TEOREMA DEL LIMITE CENTRAL. Distribución muestral o distribución de muestras de un estadístico X es el proceso por el cual (1) seleccionamos de forma aleatoria sucesivas muestras de un mismo tamaño n; (2) calculamos dicho estadístico X en cada una de dichas muestras; (3) hallamos la frecuencia relativa o probabilidad de ocurrencia asociada a los valores que toma tal estadístico y (4) por último determinamos a qué distribución de probabilidad (normal, binomial,...) se adecúa tal distribución. Tal distribución recibe el nombre de distribución muestral del estadístico X (media, proporción, diferencia entre dos medias, cociente entre dos varianzas, etc.). Expliquemos por ejemplo la distribución muestral de la media. Sea p.e. una urna de 1000 bolas (población), 100 de ellas etiquetadas con el nº 0, 100 con el 1, ... y 100 con el 9. En este caso N µ = ∑ xi pi = 4.5; 1 σ= N ∑(xi 1 − µ)2pi = 2.87 Obtengamos las medias de 100 muestras aleatorias de tamaño 2 de aquella población (ver tabla 1). Representemos ahora gráficamente tales frecuencias relativas o probabilidades (ver figura 1). Obtenemos así la distribución muestral de la media (para muestras de n=2). Observemos como tal representación gráfica tiende a aproximarse a un modelo normal. Si en vez de 100 muestras de tamaño 2 hubiéramos extraído por ejemplo 10000 muestras del mismo tamaño observaríamos que su distribución muestral se adecuaría perfectamente a un modelo normal con media 4.5. Ello se fundamenta en la llamada Ley de los Grandes Números (Bernoulli) según la cual sólo promediando un número suficientemente grande de puntos muestrales podemos obtener una medición suficientemente precisa del valor esperado. En el caso de la media la probabilidad de que la variable aleatoria X difiera de µ más allá de mínimas diferencias casuales (ε) tiende a 0 cuando n tiende a infinito (en la práctica n>30). p( X − µ > ε) → 0 cuando n →∞ 5 Tabla 1. 0,20 0,16 Frec.rel. 0,12 0,08 0,04 0,00 0,0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 MEDIAS Figura 1. 6 Para conocer las distribuciones muestrales de los distintos estadísticos no es necesario recurrir a procedimientos empíricos (como el llevado a cabo arriba) sino que se han desarrollado distintos teoremas matemáticos que demuestran las distribuciones de probabilidad en que aquellas se basan. Así el Teorema Central del Límite (De Moivre) fundamenta matemáticamente la distribución muestral de la media, sin duda la distribución muestral más importante. Según tal teorema si de una población grande (con media µ y varianza σ2), distribuida normalmente o no, extraemos muestras al azar de tamaño grande (n>30) y calculamos en cada una de ellas su media entonces (1) la distribución muestral de las medias muestrales sigue un modelo normal; (2) la media de tal distribución de medias coincide con µ (X X = µ) y (3) la desviación típica tal distribución (también llamada error típico o estándar de la media) coincide con σ/ n (s X = σ/ n ) . El Teorema Central del Límite se expresa en forma abreviada así: X = N (µ, σ ) n Del punto (3) se deduce que la variabilidad de la distribución muestral de medias será siempre menor que la de la población, excepto cuando n=1, debido a que la variabilidad de una población siempre es mayor que la observada en una muestra aleatoria de ella. La importancia del conocimiento de las distribuciones muestrales de los principales estadísticos estriba en que gracias a ellas podemos asociar probabilidades a valores concretos de cada estadístico y así poder luego bien estimar los límites del intervalo de confianza en torno a los cuales si sitúa el parámetro a estimar (tema 9) o bien contrastar hipótesis relativas a dicho estadístico (temas 10 al 13). 7 4. PRINCIPALES DISTRIBUCIONES MUESTRALES. 4.1. MEDIA (conocida σ 2). σ ) n , de tal modo que, con muestras grandes, el Como queda dicho X−µ z= σ/ n se distribuirá de acuerdo al modelo normal estadístico tipificado normalizado z = N(0, 1) (Ej. 1.3. Pardo y San Martín, pp 69; San Martín et al, pp X = N (µ, 145). 4.2. MEDIA (desconocida σ 2). Esta distribución muestral tiene por media µ y por error típico sn-1/√n. El estadístico 𝑡 = ! !!! !!! / ! = ! !!! !/ !!! sigue un modelo t con n-1 g.l. Cuando n>30 t=N(0,1) (Ej. 1.4. Pardo y San Martín, pp 71; San Martín et al, pp 152). 4.3. VARIANZA. Si n ≤ 100 s 2n = χ 2n −1 ( n−1 2 2 n σ,σ 2(n − 1) ) n s 2n −1 = χ 2n −1 (σ 2, σ 2 ! !"! !! 2 n − 1) (n − 1) s 2n −1 σ Con fines prácticos es útil saber que el estadístico = siempre que la variable se distribuya normalmente en la población. 2 es una χ 2n −1 Cuando n>100 s 2n = s2n −1 = N (σ 2, σ 2 2) n por lo que el estadístico tipificado z= s2 − σ 2 σ 2 2/n es N(0, 1) (Ej. 1.5. Pardo y San Martín, pp 74; Ej. San Martín et al, pp 150). 8 4.4. PROPORCION. La distribución de muestras del estadístico proporción (P), extraídas de poblaciones dicotómicas (donde la proporción de casos asociados a uno de los dos estados es π) y muestreo con reposición, sigue el modelo binomial con media π y error típico π (1 − π ) n . Con muestras grandes, o cuando el producto nπ ≥ 5, podemos utilizar la aproximación a la curva normal tipificando P: z= P− π es π(1 − π) n N (0, 1) (Ejs. 1.6. y 1.7, Pardo y San Martín, pp 76-77; San Martín et al, pp 153). 9 TEMA 2. ESTIMACION DE PARAMETROS. 1. ESTIMACION PUNTUAL Cuando un estadístico es utilizado para estimar un parámetro desconocido θ se ^ le llama estimador ( θ ). Si dicha estimación es hecha de forma puntual, es decir, el valor de ^θ se toma como estimación concreta de θ hablamos de una estimación puntual. En el caso más frecuente de que la estimación de θ se lleve a cabo dando unos límites en torno a los cuales presumiblemente de halle θ hablaremos de una estimación por intérvalos (ej. San Martín et al, pp. 180). Los estimadores puntuales deben de cumplir una serie de propiedades matemáticas (insesgamiento, consistencia, eficiencia y suficiencia). Sin embargo, y dado que la estimación puntual se utiliza poco, nos basta con saber que los mejores estimadores puntuales de µ, σ y π son, respectivamente, X , s n −1 y P. 2. ESTIMACION POR INTERVALOS Se trata de estimar los límites en torno a los cuales se encontrará el parámetro θ (desconocido) a partir del conocimiento de la distribución muestral del estadístico ^θ , asumiendo de antemano una determinada probabilidad de errar (α) en nuestra estimación . El concepto de nivel de riesgo (α) hace referencia a la probabilidad (asumida por nosotros a priori; generalmente en Psicología α=.05) de equivocarnos en la estimación de θ , mientras que el concepto complementario de nivel de confianza (1-α) refleja la probabilidad de acertar en nuestra estimación. El intérvalo configurado por los límites superior e inferior de nuestra estimación se le conoce como intérvalo de confianza. El procedimiento para estimar el intervalo de confianza de θ es el siguiente (ejemplo en San Martín et al, pp. 185-190) . Supongamos que conocemos la distribución muestral del estadístico ^θ y que ésta es normal. Sabemos entonces que en una distribución de tal tipo entre la µ ± 1.96σ queda comprendida un área 10 de 0.95. Por tanto en la distribución muestral de ^θ debe verificarse con E(θˆ ) = θ que la probabilidad de que un valor de dicho estadístico se aleje de θ más de 1.96 errores típicos vale 0.05. En otras palabras, [( ) ( p θˆ − z1−α / 2 sˆθ ≤ θ ≤ θˆ + z1−α / 2 sθˆ )] = (1 − α) - Procedimiento de cálculo: 1. Establecer el nivel de riesgo (generalmente α=.05) 2. Hallar en tablas las probabilidades asociadas a los valores (α/2) y (1-α/2) correspondientes a la distribución muestral de (z 1− α/ 2 , t 1− α/ 2 , ^θ χ 21−α / 2 , .. .) . (s ) 3. Hallar el error típico del estadístico ^θ 4. Calcular los límites confidenciales (si ^θ se distribuye de forma normal): ^θ ± z s^ 1−α / 2 θ A la expresión z1− α/ 2 sθˆ se le conoce con el término de error máximo o error de muestreo e indica los límites en torno al cual se sitúa el parámetro con una probabilidad de acertar de 1-α. Por ejemplo en un sondeo publicado en un periódico antes de unas elecciones es frecuente encontrar expresiones como ésta: "la proporción de votantes del partido X se sitúa en el 35%, con un tamaño muestral de 1050 encuestas, nivel de confianza del 95 y error de muestreo 5". Ello quiere decir que en estos momentos la proporción de votantes a dicho partido estaría entre el 30 y el 40% con una probabilidad de errar del 5%. 11 3. PRINCIPALES INTERVALOS CONFIDENCIALES. 3.1. Intervalo confidencial para la media: 4.1.1. Conocida σ2: p )$% X − z 1−α/ 2 * σ & ≤ µ ≤ $% X + z 1−α/ 2 n' σ &+ = (1 − α) n ', 4.1.2. Desconocida σ2: p ()#$ X − t ( n −1; 1− α/ 2) * s n −1 % s n −1 % + #X + t ≤ µ ≤ = (1 − α) $ (n −1; 1−α / 2) n& n & ,- (Ejs. 2.1. Pardo y San Martín, pp 105; Cuadras et al, pp. 488; San Martín et al, pp. 192) En el SPSS: Analizar > Explorar + Estadísticos 3.2. Intervalo confidencial para la proporción: 4.2.1. Con muestras grandes: )# p *+$ P − z 1−α / 2 P(1 − P) % # & ≤ π ≤ $ P + z 1− α/ 2 n P(1 − P) % , & -. = (1 − α) n 4.2.2. Con muestras pequeñas: + # . z 21−α / 2 z 21−α / 2 % P(1 − P) n ' ( ,# % / P + − z + ≤ π ≤ 2 1−α / 2 n 2n 4n 2 & ,$ n + z 1− α/ 2 & $ / p, / = (1 − α) 2 2 # % z z P(1 − P) n 1− α/ 2 1−α / 2 ,, ≤ # // ( %' P + + z 1− α/ 2 + 2 2 & n $ 2n $ n + z & 4n 0 1− α/ 2 (Ejs. 2.3. Pardo y San Martín, pp 111; Cuadras et al, pps. 495 y 498; San Martín et al, pp. 196). 12 3.3. Intervalo confidencial para la varianza: 4.3.1. Con muestras pequeñas (n≤ 100) ,$ (n − 1)s 2 ' $ (n − 1)s 2 ' / 2 p -% 2 ≥ σ ≥ ( % χ2 ( 0 = (1 − α) & (n −1;1−α / 2) ) 1 .& χ ( n −1; α/ 2) ) 4.3.2. Con muestras grandes (n>100): p )*+#$ s 2 − z 1−α / 2 s 2 2 % ≤ σ 2 ≤ # s2 + z s2 $ n& 1− α/ 2 2 % ,- = (1 − α) n &. (Ejs. 2.2. Pardo y San Martín, pp 108; Cuadras et al, pp. 504; San Martín et al, pp. 204). 13 TEMA 3. CONTRASTE DE HIPOTESIS. 1. INTRODUCCION La estadística inferencial se aplica prioritariamente al contraste de hipótesis científicas: todo investigador en cualquier rama de la Ciencia comienza planteándose unas hipótesis de trabajo que se verán corroborada o no en base a los datos que haya obtenido en su investigación. La estadística así planteada le servirá para tomar decisiones: en base a los datos recogidos podrá afirmar que las hipótesis que a priori se planteó son ciertas o falsas. De forma muy esquemática una investigación (en cualquier rama de la ciencia) sigue una serie de pasos: 1) Planteamiento de hipótesis 2) Elección del nivel de riesgo que estamos dispuestos a asumir 3) Elección del diseño de investigación y selección de las muestras 4) Medición de la(s) variable dependiente 5) Selección de la prueba estadística a aplicar y análisis de datos. 6) Toma de decisiones Desarrollemos estos conceptos: 1) Planteamiento de hipótesis: Una hipótesis es una conjetura (que puede ser cierta o no) acerca de como se relacionan varias variables. Una hipótesis estadística es la formulación matemática de una hipótesis científica. Hay dos tipos de hipótesis estadísticas: - La hipótesis nula o de la igualdad (Ho) es generalmente la hipótesis que el investigador está interesado en refutar, siendo cierta cuando el efecto de la(s) variable independiente (VI) sobre la variable dependiente (VD) no es significativo. Se llama de la igualdad porque en su formulación siempre debe de aparecer un signo =. Imaginemos que un investigador quiere comparar la eficacia de dos medicamentos A y B en el tratamiento del TDAH. Un modo de hacerlo podría ser tomar una muestra de niños con TDAH y asignarlos al azar bien al grupo que toma el medicamento A bien al grupo que toma el medicamento B. Tras el período de tratamiento ambos grupos serían medidos en su sistomatología de hiperactividad (medida p.e. mediante cuestionarios específicos). Si es cierto que Ho es cierta entonces el número medio de síntomas de hiperactividad del grupo A tenderá a ser igual al número medio de de síntomas del grupo B, es decir, en términos poblacionales H o : µ A = µ B o tambien µ A − µ B = 0 . 14 A su vez H0 puede ser de dos tipos: (a) bilateral o de dos colas, cuando Ho se rechace tanto en el caso de que µ A > µ B como en el caso de que µ A < µ B . En este caso H se plantearía así: 0 H o : µ A = µ B o tambien µ A − µ B = 0 (b) unilateral o de una cola, cuando Ho se rechace sólo en el caso de que por ejemplo µ A > µ B , hablándose de una H0 unilateral derecha ; cuando Ho se rechace en el caso de que µ A < µ B entonces hablaremos de una H0 unilateral izquierda. La distribución muestral de Ho es siempre conocida, lo que nos permitirá asociar una probabilidad al estadístico que hayamos calculado (t, F, etc.), y en base a ella tomar una decisión estadística no ambigüa: p.e. en el programa SPSS si dicha probabilidad (Sig) es > de .05 entonces aceptaré siempre Ho (lo que en el ejemplo anterior supondría admitir que ambos medicamentos A y B producen resultados iguales), mientras que si dicha probabilidad (Sig) es ≤ de .05 entonces rechazaré siempre Ho (lo que en el ejemplo anterior supondría admitir que ambos medicamentos A y B producen resultados distintos). - La hipótesis alternativa o de la desigualdad (H1) es generalmente la hipótesis que el investigador está interesado en confirmar, denotando existe evidencia suficiente para pensar que Ho es falsa. Se llama de la desigualdad porque en su formulación nunca debe de aparecer un signo =. Dado que su distribición muestral es desconocida no se utiliza para tomar decisiones estadísticas. 2) Elección del nivel de riesgo (α). Ya quedó dicho que en Psicología se trabaja usualmente con niveles de riesgo de .05. 3) Elección del diseño de investigación: La palabra diseño hace referencia al modo en que el investigador decide asignar los sujetos a las condiciones o tratamientos experimentales. Existen multitud de diseños de investigación y se explicarán en profundidad en el módulo de “Diseños de Investigación en Psicología” de 4º curso. En nuestro ejemplo ya dijimos que optamos por asignar los sujetos al azar a las dos condiciones tratamentales. 4) Medición de la VD: En asignaturas como Psicometría se explican cómo debe llevarse a cabo una buena medición psicológica, características de la misma (fiabilidad, validez,...), etc. 15 5) Selección de la prueba estadística a aplicar (o estadístico de contraste) y análisis de datos: Una vez llevada a cabo la medición se hace necesario seleccionar la prueba estadística a aplicar en función del tipo de VI elegida, y de la naturaleza de la VD (cuantitativa, semicuantitativa o cualitativa). En la tabla inferior se presentan las principales pruebas estadísiticas de contraste de hipótesis que veremos en este módulo. En nuestro ejemplo el estadístico t= (X1 − X2 ) − (µ1 − µ 2 ) " n1s12 + n 2s22 %" 1 $ '$ + 1 %' # n1 + n2 − 2 &# n1 n 2 & es t n1 + n 2 −2 podría ser adecuado. Para su cálculo introduciremos los datos individuales en el programa SPSS, seleccionaremos la opción Analizar > comparar medias > t para muestras independientes y le pediremos que nos calcule dicho valor p y la probabilidad (sig) asociada al mismo. 6) Toma de decisiones: Las reglas de decisión se expresan siempre en términos de probabilidad. Como ya hemos dicho antes en el SPSS rechazaremos Ho si la probabilidad asociada a mi estadístico (sig) es menor o igual que α, mientras que aceptaremos Ho en caso contrario. En el caso de contrastes unilaterales se deberán cumplir dos condiciones para rechazar Ho: a) que las medias muestrales vayan en la dirección prevista y b) que al dividir sig/2 el resultado siga siendo menor o igual a .05. 16 En los manuales “clásicos” de Estadística la regla de decisión se suele formular así: "rechazaremos Ho si el valor del estadístico de contraste cae dentro de la llamada región crítica o de rechazo de Ho”. La región crítica se define como el conjunto de valores del estadístico de contraste que por estar muy alejados de Ho es muy poco probable ( ≤ α) que ocurran si Ho es verdadera. Es decir si mi estadístico de contraste cae dentro de la región de rechazo de Ho (zonas de α/2 en la siguiente figura) entonces rechazaré Ho, caso contrario la aceptaré. Para contrastes unilaterales la región crítica quedará toda ella bien a la derecha o a la izquierda de la distribución de Ho. Ejemplos de lo anteriormente dicho aparecen en ej 3.2. Pardo y San Martín, pp 142; pps. 246 y 260 de San Martín et al; pp. 33 de San Martín y Pardo, o pp. 334 (ej. 3 y 4) del Glass y Stanley, entre muchos otros libros. 17 2. TIPOS DE ERROR Y FACTORES QUE LOS AFECTAN Cuando tomamos una decisión estadística podemos cometer dos tipos de errores. La teoría de contraste de hipótesis de Pearson y Newman plantea los dos tipos de error que podemos cometer al aceptar o rechazar Ho. De un lado tenemos α (error tipo I) que refleja la probabilidad de rechazar Ho cuando en realidad es verdadera; ya quedó dicho que en Psicología y por convención α se suele mantener en .05. De otro lado nos encontramos con el error β (o error tipo II) que refleja la probabilidad de aceptar en nuestra decisión Ho como verdadera cuando en realidad es falsa. La interelación que se da entre estos dos tipos de error aparece más clara si representamos gráficamente la distribución muestral de Ho verdadera (conocida), junto con una de las distribuciones que representa H1 verdadera (decimos una de las distribuciones por que hay infinitas distribuciones que harían rechazar Ho; representaremos una sola de ella; además debemos recordar que la distribución muestral de H1 es desconocida): D E C I S I O N Acepto Ho Rechazo Ho Ho verdadera Ho falsa Decisión correcta (1 − α) error tipo II (β) error tipo I (α) Ho verdadera α/2 Decisión correcta (1 − β) Ho falsa β Aceptar Ho α/2 Rechazar Ho DECISION 18 Observemos que en este ejemplo H1 está planteada en términos bilaterales; el razonamiento sería similar si hubiera sido planteada unilateralmente, sólo que entonces toda la región de rechazo se hubiese situado bien a la derecha, bien a la izquierda de Ho. A 1-β se le llama también potencia de una prueba estadística. En toda toma de decisiones lo que interesa es minimizar α y β. Sin embargo podemos observar como uno y otro error son interdependientes en el sentido que si disminuimos uno de ellos aumentamos el otro (ejemplo Visauta y Batallé, pp. 54). El programa SPSS nos permite calcular α (a través de la probablidad -sig- asociada al valor del estadístico de contraste) y 1-β (pidiéndoselo en opciones). Dado que α suele tomar valores constantes iguales o inferiores a .05 lo que interesa es pues aumentar la potencia de la prueba (1-β). Las dos formas tiene el investigador de reducir β es o bien aumentar el tamaño de las muestras con las que trabaja, o bien aumentar el llamado tamaño del efecto que en una escala de 0 a 1 describe el grado en que la manipulación experimental que hago es o no efectiva, puesto que aumentando el tamaño del efecto conseguimos reducir el grado de solapamiento de las distribuciones de Ho verdadera y Ho falsa sea menor (ver figura anterior). El programa SPSS también permite calcular el tamaño del efecto (pidiéndoselo en opciones) a través del cálculo del estadístico eta cuadrado parcial (η2p en una escala de 0 a 1). Por último no hay que confundir la significación estadística con el tamaño del efecto. Muchas veces se piensa incorrectamente que una sig o p muy pequeña es indicativa de que la manipulación de la VI sobre la VD ha sido muy efectiva, es decir, de un tamaño del efecto muy alto. Y eso no siempre es así pues p depende del tamaño muestral: una p=0.03 podrá tender relevancia psicológica ante un n=30 p.e., pero la misma p ante un n=3000 no tiene ninguna relevancia. Por ello la relevancia de un contraste hay que verificarla observando el tamaño del efecto. 19 3. CONTRASTES DE HIPOTESIS PARA UNA MUESTRA. a) Contraste sobre la media: a1) Conocida σ2 : z= X − µ0 σ/ n es N (0, 1) con muestras grandes. Con muestras pequeñas (n<30) dicho estadístico seguirá una distribución muestral t con n-1 g.l. (Ejs. 3.2, 3.3., 3.4 y 4.1 de Pardo y San Martín, pps 142, 162, 169 y 187, respectivamente; San Martín et al, pp. 280). a2) Desconocida σ2 : Supuestos: con contrastes unilaterales es necesario que las muestras sean grandes (n>30) (Ej. 4.2. Pardo y San Martín, pp 190; San Martín et al, pp. 282; pp. 293 Glass y Stanley). b) Contraste sobre la proporción: z= P − π0 π 0 (1 − π 0 ) n es N(0, 1) Supuestos: población binomial, nπ ≥ 5 ; (Ej. San Martín et al, pp. 284; pp. 590 de Cuadras et al; Visauta y Batallé, pps. 77 y 78). 20 c) Contraste sobre la varianza: Si n≤ 100 Si n>100 z= s2 − σ 2 σ 2 2/n es N(0, 1) Supuestos: población normal. (Ejs. San Martín et al, pp. 286; Glass y Stanley, pp. 301; pp 88 deGotor; pp. 593 de Cuadras; Viasuata y Batallé, pps. 178-180). 21 TEMA 4. CONTRASTE DE HIPÓTESIS PARAMÉTRICO Vamos a ver en este tema las principales pruebas estadísticas utilizadas para contrastar hipótesis relativas a dos o más muestras o condiciones (bien sean éstas independientes o relacionadas). Por muestras independientes entendemos muestras formadas por sujetos que no guardan ninguna relación entre sí, como ocurre por ejemplo, cuando asignamos al azar los participantes a las distintas condiciones (es decir, cuando la VI es inter). Por muestras relacionadas entendemos aquellas entre las que haya sospecha de no ser realmente independientes, como ocurre p.e. cuando la VI es intra (es decir, ante mediciones repetidas de los mismos sujetos), o muestras formadas por familiares, etc. Para aplicar este tipo de pruebas (llamadas parámetricas) los datos han de satisfacer algunos supuestos generales (la VD ha de ser cuantitativa, distribuirse normalmente, tamaño muestral suficiente –no menos de 15 sujetos por condición-) y otros supuestos específicos de cada prueba. Cuando algunos de estos supuestos no se cumplen los datos deben de ser analizadas mediante pruebas no paramétricas (tema 5). a) Contraste sobre la diferencia de dos medias independientes: 2 2 (a1) conocidas σ 1 y σ 2 ) z= (X1 − X 2 ) − (µ 1 − µ 2 ) σ 21 σ 22 n1 + n 2 es N (0, 1) Supuestos: poblaciones normales; muestras grandes (n1+n2>30) e independientes. Si las muestras son pequeñas el anterior estadístico sigue un modelo t con n1+n2-2 gl. (Ej. 4.3. Pardo y Sanmartín, pp. 193) 22 2 2 (a2) desconocidas σ 1 y σ 2 aunque supuestamente iguales1 t= (X1 − X 2 ) − (µ 1 − µ 2 ) " n 1s 21 + n 2 s22 # $ n1 + n 2 − 2 es t n %" 1 1 & $ n + n %' ' 1 2 1 +n −2 2 Supuestos: poblaciones normales y muestras independientes. Si las muestras son grandes el anterior estadístico sigue un modelo N(0,1). (Ej. 4.4. Pardo y Sanmartín, pp. 196) 2 2 (a3) desconocidas σ 1 y σ 2 y diferentes2 es t con Supuestos: poblaciones normales y muestras independientes de tamaño más o menos similar. Si las muestras son grandes el anterior estadístico sigue un modelo N(0,1). (Ejs. 4.5. Pardo y Sanmartín, pp. 200; San Martín et al, pp. 293; Glass y Stanley, pp 295; Cuadras, pps. 606-610). (a4) ante muestras relacionadas o dependientes t= D−µ sd / n es t n −1 siendo D y s d , respectivamente, la media y cuasi-desviación típica de la distribución de las diferencias. Supuestos: poblaciones normales (Ej. 4.6. Pardo y Sanmartín, pp. 205; San Martín et al, pp. 296; Glass y Stanley, pp 298). 1 Para poner a prueba este supuesto hay que aplicar previamente el estadístico referido en el punto b1 de este mismo tema. 2 Para poner a prueba este supuesto hay que aplicar previamente el estadístico referido en el punto b1 de este mismo tema. 23 b) Contraste sobre el cociente entre dos varianzas: (b1) con muestras independientes Supuestos: poblaciones normales y muestras grandes. Poner la varianza mayor en el numerador (s12 ≥ s22 ) y utilizar contrastes unilaterales derechos (Ej. 4.6. Pardo y Sanmartín, pp. 214; San Martín et al, pp. 287; Cuadras, pps.598-600; Glass y Stanley, pp. 304). (b2) con muestras relacionadas o dependientes (Ej. San Martín et al, pp. 290; Cuadras, pps.601; Gotor, pp. 91; Glass y Stanley, pp. 306; Visauta y Batallé, pps. 185, 186) 24 EL ANOVA En el punto anterior hemos visto cómo a través de un test t o z se puede poner a prueba la hipótesis acerca de la diferencia entre dos medias. Pero en investigación experimental muy frecuentemente se ponen a prueba hipótesis relativas a si existen diferencias en la eficacia de k distintos tratamientos (k>2), es decir, hipótesis del tipo H 0 : µ 1 = µ 2 =.. .= µ k . Una posible solución para el caso de k muestras podría ser comparar por pares tales medias, hasta completar todas las posibles (k(k-1)/2) combinaciones. Sin embargo no es ésta una solución recomendable dado que α crece exponencialmente a medida que k aumenta: la probabilidad verdadera de cometer el error tipo I (p(α)) tras las (n(n-1)/2) comparaciones viene dada por la llamada desigualdad de Bonferroni (siendo α el nivel de riesgo que a priori estamos dispuestos a asumir): p(α) = 1 - (1-α)k Por ello se hace necesario desarrollar una nueva técnica de análisis estadístico que permita verificar hipótesis de ese tipo manteniendo a niveles constantes α. Esta técnica se conoce con el nombre de 'análisis de la varianza' (o también ANOVA, acrónimo de 'Analysis of variance'), y fue desarrollada por Fisher a partir de 1930. Podemos afirmar que el ANOVA es la técnica de análisis estadístico más utilizada en la investigación experimental y cuasi-experimental en Psicología (de hecho más del 75% de las artículos revisados son analizados a través de ANOVA), de tal modo que hoy no se puede hablar de hacer experimentación en cualquier rama de la Ciencia sin conocer la técnica básica de análisis paramétrico que es el ANOVA. Dado que no existe un único tipo de ANOVA, daremos un breve esquema clasificatorio de los distintos tipos de ANOVA. Como veremos ello conlleva hablar de los distintos tipos de diseño experimental, hasta tal punto que determinados autores (p.e. Winer, 1971) identifican el diseño con el modelo matématico de ANOVA que legitima su análisis. Podríamos hablar de los siguientes tipos de ANOVA en base a estos criterios clasificatorios: a) Por el número de factores (o VIs): Si manipulamos una sola VI se habla de ANOVA unifactorial. Cuando manipulamos más de una VI se habla de ANOVA factorial. En este último caso si se habla de un ANOVA factorial 4 x 2, significa que manipulamos 2 Vis, la primera con 4 niveles y la segunda con 2, lo que da un total de 8 condiciones o tratamientos experimentales distintos. En esta asignatura sólo analizaremos ANOVAS 25 unifactoriales, los ANOVAS factoriales se verán en el módulo de Diseños de investigación en Psicología (4º curso). b) Por el modo en cómo asignemos los sujetos a los tratamientos hablaremos de: b1). ANOVAs inter o de grupos al azar cuando asignemos al azar un grupo distinto de sujetos a cada uno de los tratamientos experimentales (hablándose entonces de VI inter o entresujeto -del inglés 'between subjects'). b2) ANOVAs intra o diseños de medidas repetidas cuando trabajemos con una única muestra que reciba todos los tratamientos experimentales (hablándose entonces de VI intrasujeto -del inglés 'within subjects'-). b3) ANOVAs factoriales mixtos cuando manipulemos al menos una variable inter y al menos una variable intrasujeto. P.e. si se habla de un ANOVA factorial 4 (inter) x 2 (intra), significa que manipulamos 2 Vis, la primera con 4 niveles inter (es decir con 4 muestras asignadas al azar a dichos niveles) y la segunda con 2 niveles intra (es decir, que las anteriores 4 muestras son medidas 2 veces en los niveles de esta VI intra) c) Por el número de VDs medidas: los ANOVAS que acabamos de ver se refieren a experimentos donde los sujetos son medidos en una sola VD (lo que suele ser lo más frecuente). Pero cuando trabajamos con más de una VD se suele hablar de MANOVA (siglas de 'Multivariate analysis of variance') asociados a los distintos tipos de ANOVA que acabamos de ver. 26 EL ANOVA UNIFACTORIAL INTER El ANOVA es una técnica que descompone la variabilidad observada en la VD como la suma de varios componentes independientes que pueden asignarse a causas distintas. Como dijimos arriba la hipótesis que se pone a prueba en un diseño de un factor de grupos al azar es del tipo H 0 : µ 1 = µ 2 =.. .= µ k (siendo k el número de niveles de la VI) frente la hipótesis alternativa que especifica que al menos una de aquellas igualdades no es satisfecha por los datos. Para poder aplicar un ANOVA inter de han de cumplir una serie de condiciones: a) La VD ha de ser cuantitativa (escala de intervalo o razón) b) Las puntuaciones de los sujetos en la VD se han de distribuir de acuerdo al modelo normal. La violación de este supuesto no suele acarrear consecuencias graves en el proceso de decisión estadística siempre y cuando las muestras con las que trabajemos sean grandes (n>35). De todos modos podemos verificar este supuesto aplicando en el SPSS las pruebas de Kolmogorov-Smirnov o de Shapiro-Wilks. c) Las varianzas de los k grupos han de ser similares, es decir, no deben diferir estadísticamente entre sí, o lo que es lo mismo, se debe verificar H 0 : σ 21 = σ 22 =.. .= σ 2k . A este requisito se le conoce como requisito de homoscedasticidad. Su incumplimiento no suele ser grave si las muestras son grandes y de un mismo tamaño, pero si éste varía entonces la probabilidad de cometer el error tipo I es mayor que α a medida que el grupo de tamaño menor es el que más variabilidad presenta. El SPSS permite poner a prueba este supuesto mediante el test de Levene (en Analizar > comparar medias > ANOVA de un factor) El modelo teórico lineal para un ANOVA inter descompone la puntuación de un sujeto i en el tratamiento j (Xij) como Xij = µ + αj + Eij (1) es decir define la puntuación Xij como la suma de tres componentes: µ es la media general en la VD de los distintos grupos de tratamiento, la cual es desconocida y constante para todas las observaciones. 27 αj representa el efecto puro del tratamiento j en el sujeto i, y Eij es el error experimental y representa todas las fuentes incontroladas de variación que afectan a la medida del sujeto i en el tratamiento j. ESTIMACION DE LOS PARAMETROS DEL MODELO. Se puede demostrar (ver p.e. Glass y Stanley, 1974; pp 343) que los respectivos estimadores insesgados de µ, αj y Eij son µˆ = XT αˆ j = Xj − XT Eˆ = X − X ij ij j K siendo XT la media general de todos los N sujetos (N = ∑ n j ) adscritos a todos los 1 tratamientos, y Xj la media de los sujetos adscritos al tratamiento j. Podemos ahora sustituir en (1) y quedaría X ij = X T + (X j − XT ) + (X ij − X j ) o lo que es lo mismo X ij − X T = (X j − XT ) + (X ij − X j ) (2) Esta igualdad es cierta para todas y cada una de las puntuaciones de nuestra investigación. Si ahora se suman todas las puntuaciones de todos los sujetos y elevamos cada miembro de la ecuación al cuadrado (para que los signos positivos y negativos no se anulen, dando un valor 0) llegamos a obtener: k ni ∑∑ 1 1 k ni k ni 1 1 1 1 (Xij − XT )2 = ∑ ∑ (X j − XT )2 + ∑ ∑ (X ij − X j )2 (3) El primer término a la izquierda de la igualdad se conoce con el nombre de suma de cuadrados total (SST) y representa la suma de las desviaciones al cuadrado de cada cantidad respecto a las media total, es decir, representa la variabilidad total de nuestros datos. El primer término a la derecha de la igualdad es la suma de cuadrados intergrupos (SSinter) o tratamental (SStrat), y representa la proporción de variabilidad del total debida al efecto puro de los tratamientos sobre los sujetos. El segundo término a la derecha de la igualdad es la suma de cuadrados de error o intragrupo (SSe) y representa la proporción de variabilidad del total que 28 no es debida al efecto de los tratamientos sobre los sujetos, siendo debida a otras causas, generalemente desconocidas y espúreas (diferencias individuales entre los sujetos que configuran cada muestra, efectos incontrolados de variables extrañas, etc.). Así pues podemos escribir (3) como SST = SSinter + SSe quedando descompuesta la variabilidad total de un diseño como la suma de dos componentes aditivos, uno que refleja la variabilidad debida al efecto 'puro' de los tratamientos y el otro que refleja la variabilidad debida a efectos espúreos. Nuestro objetivo será ahora relacionar estas sumas de cuadrados con el contraste de la hipótesis H 0 : µ 1 = µ 2 =.. .= µ k . La misión del experimentador será intentar reducir la SSe tanto como le sea posible mediante técnicas de control experimental (aleatorización, elección de un diseño adecuado,...), así como maximizar la SSinter (aplicando los tratamientos de forma óptima), pues de este modo, como vamos a explicar ahora, maximizará las posibilidades de rechazar la Ho, es decir, de demostrar que sus tratamientos producen efectos en la VD. En el módulo de Diseños de Investigación en Psicología (4º curso) se incidirá mucho en estos puntos. Pero antes presentaremos un ejemplo que clarificará estas ideas. EJEMPLO. Imaginemos que un investigador está interesado en comprobrar si son igualmente eficaces o no tres métodos de enseñanza del inglés (A1, A2, A3). Para ello toma al azar una muestra de 15 sujetos, y los asigna al azar a los 3 métodos y tras un curso de docencia mide a dichos grupos en la misma VD (p.e. notas en un examen de inglés). Por tanto la hipótesis que ponemos a prueba es H 0 : µ A1 = µ A 2 = µ A3 frente a H1 que especifica que al menos una de esas igualdades no es cierta. 29 Las puntuaciones con sus respectivas medias grupales y media total fueron Representemos en un continuo las 3 medias grupales, así como la media total y p.e. la puntuación del segundo sujeto del grupo A1 (que es un 2). XT A1 suj 2=2 A3 3.2 4.8 A2 5.26 7.8 de dinter dT Podemos apreciar como la igualdad (2) es cierta para el segundo sujeto del grupo A1 (así como también es cierto para todos y cada uno de los 15 sujetos de la investigación) X ij − X T = (X j − X T ) + (X ij − X j ) (2 - 5.26) = (3.2 - 5.26) + (2 - 3.2) dT = dinter + de distancia Total = distancia inter + distancia de error Vamos a ver ahora la relación de esto con el contraste de Ho: dinter representa el efecto de cada tratamiento sobre la VD, es decir, (X j − X T ) o lo que es lo mismo, la desviación de la media de cada grupo respecto a la media total. Se puede entender fácilmente que a medida que las 3 dinter (relativas a los tres grupos de tratamiento) difieran más entre sí 30 más posibilidades habrá de rechazar Ho. Si esto no se ve claro piénsese por ejemplo qué ocurriría si en nuestro ejemplo los 15 sujetos hubiesen obtenido una puntuación de 5 puntos. Entonces X A1 = X A 2 = X A3 = X T = 5 con lo que habría evidencia para pensar que Ho es claramente cierta. de representa (X ij − X j ) o, lo que es lo mismo, la desviación de cada sujeto respecto a su media grupal, es decir, el efecto distinto que un mismo tratamiento provoca sobre cada una de las personas de una muestra (debido a diferencias individuales,...). Probablemente si la unidad experimental fuese, en vez de personas, por ejemplo, máquinas (o mejor robots) probablemente de sería en cada caso 0, debido a que no existiría variabilidad intragrupal en la asimilación del tratamiento (es decir, cada uno de los 5 robots de cada grupo ante un mismo tratamiento darían una misma respuesta). Un ejemplo prototípico en el que la variabilidad de error sería nula podría ser éste: Xj = A1 3.2 3.2 3.2 3.2 3.2 A2 7.8 7.8 7.8 7.8 7.8 A3 4.8 4.8 4.8 4.8 4.8 3.2 7.8 4.8 X T = 5.26 Entendido esto podemos preguntarnos sobre cómo calcular la variabilidad inter e de error que hay en todos los datos de nuestro ejemplo. Para ello aplicaremos la expresión (3) obteniendo 66.9 = 54.5 + 12.4 SST = SSinter + SSe lo que quiere decir que de las 66.9 unidades de variabilidad que hay en nuestros datos 54.5 son debidas a los efectos 'puros' de los tratamientos y 12.4 a otras causas espúreas desconocidas. 31 LA TABLA DE ANOVA. Entendido el concepto de SS se hace necesario presentar un nuevo término conocido como grados de libertad (gl). En nuestro ejemplo las SS inter e intra (54.5 y 12.4) no son directamente comparables dado que el valor 12.4 viene de hallar las diferencias cuadráticas de 15 datos respecto a sus medias grupales, mientras que 54.5 viene de hallar las diferencias de tan sólo 3 datos (las medias grupales) respecto a la media total (si bien tales diferencias cuadráticas aparecen repetidas 5 veces cada una de ellas). El concepto de gl viene de las ciencias físicas en relación a características del movimiento de los objetos: un objeto que se mueve en línea recta tiene 1 gl; si se mueve en un plano tiene 2 gl; en el espacio, 3 gl,... En ANOVA los gl se refieren a criterios de ponderación de las SS. En concreto los gl asociados a las tres SS vistas son glT = N-1 gl inter = k-1 gle = N-k siendo k el número de tratamientos o condiciones experimentales y N el número K total de sujetos, es decir, N = ∑n j , verificándose siempre que glT = gl inter + 1 gle. Si ponderamos la SSinter por sus respectivos gl obtenemos la llamada media cuadrática inter (MSinter), mientras que si ponderamos la SSe por sus respectivos gl obtenemos la llamada media cuadrática de error (MSe). Tales MS representan varianzas1 y ya son directamente contrastables. ¿Se comprende ahora el porqué del nombre análisis de la varianza?. En nuestro ejemplo la MSinter = 27.25 y la MSe=1.03, luego podemos decir que en nuestros datos el efecto de los tratamientos es 26.46 (27.25/1.03) veces mayor que el efecto de factores espúreos. Podemos empezar pues a sospechar seriamente que Ho va a ser rechazada. Sin embargo para confirmar tal sospecha se requiere aplicar un test estadístico. 1 Obsérvese si no su similitud con la fórmula de la cuasi-varianza: 2 s = ∑(X − X) n −1 2 i 32 Si como hemos dicho MSinter y MSe representan varianzas, en el tema 11 vimos cómo para contrastar hipótesis acerca del cociente de dos varianzas utilizábamos un test F. En nuestro ejemplo pues F=26.46 que contrastado contra el centil 95 de una distribución F con 2 gl inter asociados al numerador y 12 gle asociados al denominador permitirá rechazar Ho para un nivel de riesgo de 0.05. Los anteriores conceptos suelen presentarse agrupados en una tabla denominada tabla de ANOVA que para nuestros datos quedaría así: FV inter error Total SS 54.5 12.4 66.9 GL 2 12 14 MS 27.25 1.03 F 26.46 p <.05 En ella FV son las abreviaturas de 'fuente de variación' que en este modelo hemos visto que son (excluida la total) 2 (la inter y la de error). El programa SPSS realiza estos cálculos (así como la prueba de Levene) mediante el comando Analizar > Comparar medias > ANOVA de un factor PRUEBAS A POSTERIORI Si tras un ANOVA hemos aceptado Ho (es decir la razón F no ha alcanzado la significación estadística) la interpretación de los datos es clara en el sentido que se confirma la idea de que los tratamientos no son eficaces sobre la VD (y ahí acaba el análisis estadístico). Pero cuando hemos rechazado Ho lo que significa es que al menos una de las diferencias entre pares de medias es significativamente. En nuestro ejemplo el haber obtenido una F significativa nos lleva a concluir que los distintos métodos del inglés producen resultados distintos pero no podemos decir todavía qué método es el más eficaz. Es decir rechazar Ho puede significar que sea cierta una de estas tres alternativas: (a) µ A1 ≠ µ A 2 = µ A3 (b) µ A1 = µ A 2 ≠ µ A3 o (c) µ A1 ≠ µ A 2 ≠ µ A3 33 Ls pruebas estadísticas a posteriori, llamadas así por que se aplican tras haber hallado una F significativa, nos ayudarán a elegir cuál de estas tres alternativas es la cierta. Todas ellas comparan las diferencias entre los pares de medias muestrales. Una primera solución podría ser aplicar k(k-1)/2 pruebas t sobre tales pares de medias si bien ya dijimos que no es ésta una solución recomendable dado que α crece exponencialmente a medida que k aumenta. En este caso Bonferroni recomendó rechazar Ho con niveles de riesgo menores o iguales a α/(k(k-1)/2). De este modo estas pruebas t a posteriori se denominan t de Bonferroni. Existen otras muchas pruebas a posteriori entre las que destacan las de Newman-Keuls, Scheffé, Tukey, etc. Más o menos todas llevan a resultado similares. El programa SPSS realiza todas ellas (seleccionándolas en opciones del ANOVA de un factor). 34 EL ANOVA UNIFACTORIAL INTRA Los ANOVAS intrasujeto son aquellos en los que una sola muestra de sujetos pasa por todas las condiciones experimentales (por lo que se llaman diseños de medidas repetidas). Presentan una gran ventaja de economía pues al trabajar con una única muestra los esfuerzos materiales y humanos que se involucran en la investigación son menores que los utilizados en un diseño de grupos al azar. Sin embargo presentan algunos desventajas que hay que conocer: En primer lugar no todas las VI admiten una manipulación intra. Sólo aquellas VI que son susceptibles de manipulación directa y que no producen efectos persistentes en el organismo de los participantes (es decir, que desaparecen entre una medición y otra) pueden manipularse intrasujeto, mientras que las manipuladas por selección (p.e. el sexo, la edad, el lugar de nacimiento, etc) sólo admiten manipulación inter. En segundo lugar, siempre que medidos a los sujetos varias veces en el tiempo se involucra el llamado efecto de la práctica: Cuando medimos a una muestra varias veces, su rendimiento en la segunda medición no sólo refleja el efecto de tal tratamiento si no la experiencia que han obtenido los sujetos en la primera medición, etc. Para hacer que el efecto de la práctica se reparta por igual entre todos los tratamientos podemos hacer principalmente dos cosas: (a) aleatorizar para cada sujeto el orden de administración de los tratamientos o (b) emplear procedimientos de contrabalenceo, es decir, hallar todas las posible formas de combinar el orden de presentación de las k condiciones experimentales (habrá k! formas posibles) y asignar cada una de ellas a uno o varios sujetos distintos (aunque de este modo nuestra muestra tendrá que ser de tamaño k! o un múltiplo de este número). Por último, las mediciones han de estar poco espaciadas en el tiempo dado que en caso contrario efectos madurativos de los sujetos pueden afectar a su rendimiento en la VD. En el módulo Diseños de Investigación en Psicología se explicarán ampliamente los conceptos anteriores, aunque es imprescindible conocerlos al hablar de los ANOVAS intra. El ANOVA intra supone el cumplimiento del supuesto de esfericidad de los datos (las varianzas y covarianzas de las puntuaciones de error (X ij − X j ) han de ser similares) que es analizado por el test W de Mauchly (y que debe de 35 darnos no significativo, sig >. 05). Si no se cumple el programa nos da otros estadísticos alternativos (p.e. Greenhouse-Geisser), o bien podemos recurrir a un análisis no paramétrico (ver tema 12). El SPSS realiza un ANOVA intra así: - Analizar > Modelo general lineal > medidas repetidas (ponemos nombre al factor y nº de niveles) - Comprobar si se cumple el supuesto de esfericidad (test de Mauchly) - Para hacer las pruebas a posteriori de Bonferroni ir a Opciones y meter nuestro factor en “Mostrar las medias para”, seleccionar “Comparar los efectos principales”+ “Ajuste del intervalo de confianza” +Bonferroni 36 TEMA 5. CONTRASTE DE HIPÓTESIS NO-PARAMÉTRICO Las pruebas de contraste de hipótesis no paramétricas se aplican - bien cuando la VD venga medida en una escala ordinal (variables semicuantitativas) o categorial (variables cualitativas) - bien cuando venga medida en una escala de intérvalo (variables cuantitativas) pero los supuestos teóricos en los que se basa la aplicación de las pruebas paramétricas (normalidad de la VD, independencia de los errores, homoscedasticidad, etc.) quedan seriamente dañados. La estadística no-paramétrica o de distribuciones libres, está libre de los supuestos sobre la distribución, o la dispersión e incluso es muy laxa sobre la condición de medida que deben respetar las observaciones, ya que no necesita utilizar puntuaciones exactas en sentido numérico, por lo que nos encontramos con técnicas fáciles y que sólo requieren conocimientos matemáticos elementales. En general, la estadística no-paramétrica es la alternativa imprescindible cuando no se puede usar la paramétrica. Sin embargo a igual de condiciones es siempre preferible utilizar una prueba paramétrica a una prueba no paramétrica dado que la potencia de aquellas es mayor, así como la interpretación de los resultados es más completa (por ejemplo las pruebas paramétricas permiten hallar las interacciones de las variables manipuladas, cosa que no podremos hacer desde una perspectiva no paramétrica). Como en el caso de la estadística paramétrica la prueba estadística responde al diseño experimental planteado. En concreto, en la estadística noparamétrica la selección de la prueba adecuada dependerá del número de condiciones o muestras experimentales que intervengan (1 condición, 2 condiciones o más de dos condiciones), del tipo de relación que se establece entre dichas condiciones (muestras independientes vs mediciones repetidas de una misma muestra o muestras relacionadas) y, del modelo de medición subyacente a los datos (escala nominal vs escala ordinal). Así mismo estas pruebas se pueden agrupar en base al objetivo que persiguen: a) Pruebas de bondad de ajuste (Ji-cuadrado, Kolmogorov): sirven para comprobar si existen diferencias significativas entre las puntuaciones en la VD de nuestra muestra y una distribución teórica conocida o supuesta bajo Ho (p.e. 37 si los datos se distribuyen uniformemente entre las distintas categorías nominales; si se distribuyen de formal normal, etc). b) Pruebas de posición (prueba de los signos o binomial): sirven para verificar si el número de puntuaciones que quedan por debajo de determinada posición o criterio (p.e. la mediana) se adecúa o no a lo predicho por Ho. c) Pruebas de independencia (Ji-cuadrado): analizan mediante tablas de contingencia y pruebas ji-cuadrado si existe relación entre dos variables categoriales relativas a una misma muestra de sujetos o no (es decir que si son variables relacionadas o independientes). Este punto se desarrollará en el tema 13. En la tabla inferior aparecen las principales pruebas que vamos a ver en este tema. 38 PRUEBAS NO PARAMÉTRICAS PARA UNA CONDICIÓN O MUESTRA De modo general y antes de presentar las técnicas concretas conviene señalar lo que se entiende por una condición o muestra, ya que una muestra por sí sola no indica nada si no se la compara con algún elemento de contraste. Hablar de una sola muestra indica, precisamente, que el elemento de comparación o contraste no es otra muestra sino la población, o algún tipo de distribución o de supuesto. 2 Prueba Chi-cuadrado (χ ) . La prueba ji-cuadrado fue sugerida por Karl Pearson como una forma de valorar la bondad del ajuste de unos datos a una distribución de probabilidad conocida. Desde entonces la prueba ji-cuadrado se ha convertido en una prueba muy aceptada y aplicable a múltiples usos cuando se dispone de datos independientes de tipo nominal. P.e. esta prueba es equivalente a hacer un contraste de hipótesis sobre una proporción (ver tema 10) cuando la VD es dicotómica. La prueba ji-cuadrado ofrece un test general sobre la existencia de diferencias entre las categorías que agrupan a los datos de la variable dependiente. La H0 indicaría que la proporción de elementos correspondiente a cada categoría de la variable independiente es consistente con una predicción específica. Por el contrario, la H1 representa una clara inconsistencia de los elementos observados en una categoría con respecto a la predicción específica. Para su cálculo como primer paso se requiere conocer las frecuencias empíricas (fe) que corresponden a cada una de las k categorías. Una vez obtenidas estas frecuencias en las distintas categorías o casillas, comparamos el valor de cada una de ellas con el valor esperado o frecuencia teórica (ft) que es de esperar cuando Ho es cierta. El valor esperado puede depender de una distribución teórica determinada con la que queremos comparar nuestros datos, o bien, sencillamente, reflejar que los datos se repartan por igual entre las distintas k categorías. A continuación calculamos k 2 (f e − f t) χ =∑ ft 1 2 39 χ2 k−1. Luego el que se distribuye según un modelo de probabilidad centil 95 de dicha distribución nos dará el punto que delimita la región de rechazo de Ho (en ji-cuadrado los contrastes son siempre unilaterales derechos). Para poder aplicar esta prueba es necesario el cumplimiento de una serie de condiciones: - si k=2 no debe utilizarse si alguna celdilla tiene una ft<5. En este caso podría aplicarse la prueba de Kolmogorov que luego veremos. - si k>2 no debe utilizarse si (a) más del 20% de las celdillas tienen ft<5 o (b) alguna tiene una ft<1. En estos casos es mejor aplicar la prueba de Kolmogorov o agrupar categorías. Para realizarla en el SPSS: Analizar > pruebas no paramétricas > cuadros de diálogo antiguos > Chi-cuadrado Ejemplos en Pardo y Sanmartín, 12.2, pp 553, 530 y 529; San Martín y Pardo pp. 78 (ejs. 1 y 2), 82 y 83; Siegel, 66. Prueba de Kolmogorov Al igual que el test chi-cuadrado es una prueba de bondad de ajuste que se aplica sobre cualquier tipo de datos (cualitativos agrupados en k categorías, semicuantitativos o cuantitativos). La ventaja que tiene sobre el test chicuadrado es que no requiere de la satisfación de supuesto teórico alguno por lo que es más utilizada que aquella. Su significado radica en comparar en todas las categorías la proporción de frecuencias acumuladas teóricas (pfat) que se da cuando Ho es cierta, contra la proporción de frecuencias acumuladas empíricas (pfae) y analizar si el punto de máxima discrepancia entre ambas proporciones hace rechazar Ho o no. La prueba de Kolmogorov (así como la de Shapiro-Wilk) es condición suficiente y necesaria para demostrar la normalidad de una distribución de datos. Ejemplos en San Martín y Pardo pps. 87 y 88. Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros de dialogo antiguos > K-S de una muestra 40 Prueba binomial o de los signos. Es una prueba de posición aplicada sobre datos cuantitativos o semicuantitativos que serán luego dicotomizados en función de si quedan por encima o por debajo del criterio que establece Ho (los que coinciden con el criterio se deshechan). A los queden por encima los etiquetaremos con un signo +, mientras que a los que queden por debajo los etiquetaremos con un signo -. Se tratará de ver hasta qué punto el número de signos + y de signos - está dentro de lo predicho por Ho. Ejemplos 9.1, pp 419, Pardo y San Martín. Ej. 3.9 pp. 105 y pp. 92 de San Martín y Pardo Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros de dialogo antiguos > binomial 41 PRUEBAS NO PARAMÉTRICAS INDEPENDIENTES PARA 2 MUESTRAS Prueba de Mann-Whitney La prueba de Mann-Whitney es adecuada cuando se quiere analizar dos muestras en un diseño entre sujetos cuya variable dependiente está representada por un modelo al menos ordinal. La prueba de Mann-Whitney es una alternativa poderosa a la paramétrica t para grupos independientes. La prueba de Mann-Whitney analiza las diferencias globales de los grupos, para lo cual atribuye rangos a la puntuación de cada sujeto como si se tratase de un solo conjunto de datos. En esta situación, si se cumple la H0 las diferencias entre las dos condiciones serán aleatorias y las puntuaciones mayores y menores, y por lo mismo los rangos, se repartirán en la misma medida en ambas condiciones experimentales. Por el contrario, si existe una clara preponderancia de rangos bajos o altos en una condición frente a la otra se supone que indica la eficacia del tratamiento y el rechazo de la H0. Ejemplos 9.3, pp 429, Pardo y San Martín; San Martín y Pardo pp. 128 y 132, Cuadras, 680, Siegel, 151. Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros de dialogo antiguos > 2 muestras independientes Prueba de Chi-Cuadrado Si comparamos si dos muestras independientes difieren en las k categorías nominales de una VD la información resumida se presenta en una tabla de contingencia 2 (grupos) x k categorías. La prueba de ji-cuadrado compara las frecuencias empíricas (fe) en cada celdilla de la tabla con las frecuencias teóricas (ft) esperadas bajo Ho. Las ft se calculan así: ftij = (total de la fila i) x (total de la columna j) / nº total de casos Obtenidas las ft para cada celdilla de la tabla de contigencia, calculamos el estadístico ji-cuadrado así: 42 Χ2 = Σi Σj ((feij-ftij)2 / ftij) que sigue una distribución de probabilidad gl = (filas-1)(columnas-1) de la tabla de contigencia. ji cuadrado con Para poder aplicar este estadístico las ft < 5 no deben de aparecer en más del 20% de las celdillas de la tabla de contingencia (en caso de que esto ocurriera lo mejor sería aplicar otra prueba como la de Kolmogorov). La prueba de ji-ciadrado también se utiliza para analizar si existen diferencias entre las proporciones (de una variable dicotómica o dicotomizada) entre dos o más muestras independientes. El programa SPSS nos permite el cálculo de dicho estadísitico así: Analizar > Estadísticos descriptivos > Tablas de contingencia. En Estadísticos seleccionaremos Chi-cuadrado. Si la sig del chi-cuadrado ≤ .05 querrá decir que hay diferencias entre ambas muestras, si sig es >.05 querrá decir que no hay diferencias. Hay que comprobar (en la nota a que aparace bajo la tabla de chicuadrado) que no más del 20% de las casillas tengan ft < 5. Por defecto el SPSS asigna valores esperados iguales para todas las categorías, pero podemos modificarlos asignando porcentajes distintos a cada categoría (p.e. si quisiéramos asignar un 70% a la categoria 1 y un 30% a la 2 pondríamos en añadir valores 70 y 30, respectivamente) Ejs 12.7 P&SM pp554; fichero GSS93: ¿Se reparte por igual el sexo? ¿Y las preferencias religiosas? Prueba de Kolmogorov Se puede utilizar en los mismos casos que ji-cuadrado sin estar pendientes de que no más del 20% de las casillas tengan ft < 5. Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros de dialogo antiguos > K-S de una muestra 43 PRUEBAS NO RELACIONADAS PARAMETRICAS PARA 2 CONDICIONES Prueba de Wilcoxon La prueba de Wilcoxon es apropiada cuando se tiene observaciones en pares y cuando el tipo de medición responde al menos al modelo ordinal. La prueba de Wilcoxon es una alternativa poderosa a la paramétrica t para grupos relacionados. Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros de dialogo antiguos > 2 muestras relacionadas Ejemplos 9.4, pp 432, Pardo y San Martín; San Martín y Pardo pp. 116, Cuadras, 693, Siegel, 101 y 104. Prueba de McNemar La prueba de McNemar analiza si existen cambios en una muestra medida dos veces en el tiempo (p.e. en diseños pre-post o antes-después) en una variable categorial dicotómica, es decir, compara dos proporciones relacionadas. En el SPSS bien a) selecionaremos Analizar > Estadísticos descriptivos > Tablas de contingencia y en Estadísticos seleccionaremos McNemar, o b) Pruebas no paramétricas > Cuadros de dialogo antiguos > 2 muestras relacionadas > McNemar Si la sig de McNemar es ≤ .05 querrá decir que hay un cambio significativo en entre ambos momentos temporales, mientras que si sig >.05 indicará que no ha habido un cambio significativo. 44 PRUEBAS PARA MAS DE 2 MUESTRAS INDEPENDIENTES. Prueba de Kruskall-Wallis. La prueba de Kruskal-Wallis es adecuada para analizar los datos derivados de más de dos (k) muestras o condiciones experimentales ejecutadas por grupos de sujetos diferentes y cuya VD soporta, al menos, un modelo ordinal. Es decir, esta prueba es adecuada para el análisis de un diseño entre sujetos con más de dos grupos medido al menos ordinalmente. La prueba de Kruskal-Wallis, puede considerarse, por tanto como una alternativa no-paramétrica al Análisis de la Varianza para grupos completamente aleatorizados. La estructura de esta prueba es similar a la de Mann-Whitney y el razonamiento, por tanto, se debe apoyar en los mismos postulados. Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros de dialogo antiguos > K muestras independientes Si hemos rechazado Ho y quisiéramos hacer pruebas a posteriori lo más correcto sería aplicar k(k-1)/2 pruebas de Mann-Whitney pero aplicando la corrección de Bonferroni, es decir, rechazando en cada una de ellas Ho con niveles de riesgo menores o iguales a α/(k(k-1)/2). Ejemplos 9.5, pp 436, Pardo y San Martín; San Martín y Pardo pp. 229 y 234, Siegel, 217, 220. Prueba de Ji-Cuadrado Es la generalización de la prueba de ji-cuadrado de dos muestras independientes a tres o más muestras independientes. En el programa SPSS Analizar > Estadísticos descriptivos > Tablas de contingencia. En Estadísticos seleccionaremos Chi-cuadrado. Ejs pps 535, 539 Pardo y San Martín. 45 PRUEBAS NO PARAMETRICAS PARA MAS DE 2 CONDICIONES RELACIONADAS. Prueba de Friedman Puede considerarse como una extensión de la prueba de Wilcoxon. La prueba de Friedman es una alternativa poderosa al análisis de varianza para un grupo de sujetos que reciben una variable intra. Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros de dialogo antiguos > K muestras relacionadas Si hemos rechazado Ho y quisiéramos hacer pruebas a posteriori lo más correcto sería aplicar k(k-1)/2 pruebas de Wilcoxon pero aplicando la corrección de Bonferroni, es decir, rechazando en cada una de ellas Ho con niveles de riesgo menores o iguales a α/(k(k-1)/2). Ejemplos 9.7, pp 445, o 9.16, pp 452, Pardo y San Martín. San Martín y Pardo pp. 251, Siegel, 119. Prueba de Cochran Se utiliza cuando comparamos más de 2 muestras relacionadas y la variable dependiente es dicotómica. Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros de dialogo antiguos > K muestras relacionadas. Si hemos rechazado Ho y quisiéramos hacer pruebas a posteriori lo más correcto sería aplicar k(k-1)/2 pruebas de McNemar pero aplicando la corrección de Bonferroni, es decir, rechazando en cada una de ellas Ho con niveles de riesgo menores o iguales a α/(k(k-1)/2). 46 TEMA 6. CONTRASTES PREDICCION EN ASOCIACION Y 1. Inferencia sobre la asociación entre datos categóricos. Como ya dijimos en el tema anterior, la información resumida relativa a dos variables cualitativas o categoriales se presenta en las llamadas tablas de contingencia. Para analizar el grado de asociación entre dichas variables se utilizan estadísticos basados en la prueba ji-cuadrado de Pearson (p.e. Phi y V de Cramer), que analiza el supuesto de independencia de dos variables categoriales comparando las frecuencias observadas (fo) en cada celdilla de la tabla con las frecuencias esperadas (fe) bajo la Ho del supuesto de independencia, que se calculan así: feij = (total de la fila i) x (total de la columna j) / nº total de casos Obtenidas las fe para cada celdilla de la tabla de contigencia, calculamos el estadístico ji-cuadrado así: Χ2 = Σi Σj ((foij-feij)2 / feij) que sigue una distribución de probabilidad gl = (filas-1)(columnas-1) de la tabla de contigencia. ji cuadrado con Para poder aplicar este estadístico las fe < 5 no deben de aparecer en más del 20% de las celdillas de la tabla de contingencia. La prueba de ji-cuadrado también se utiliza para analizar si existen diferencias entre las proporciones (de una variable dicotómica o dicotomizada) entre dos o más muestras independientes: si transformamos dichas proporciones en frecuencias observadas fo y configuramos una tabla de contingencia 2 (niveles de la variable dicotómica) x k muestras, la prueba de ji-cuadardo nos dirá si existen o no diferencias significativas entre dichas muestras en dicha variable dicotómica. El programa SPSS nos permite el cálculo de dicho estadísitico así: Analizar > Estadísticos descriptivos > Tablas de contingencia. En Estadísticos seleccionaremos Chi-cuadrado y la Phi y V de Cramer para calcular el grado de relación entre las dos variables en una escala de 0 a 1. Si la sig de la Phi o de la 47 V de Cramer ≤ .05 querrá decir que los datos no son independientes, es decir que están relacionadas, mientras que si sig > .05 es que son independientes, es decir que no hay relación entre ambas variables categoriales. Hay que comprobar (en la nota a que aparace bajo la tabla de chi-cuadrado) que no más del 20% de las casillas tengan fe < 5 Ejs pps 535, 539 Pardo y San Martín. 2. Inferencia sobre los coeficientes de regresión. Un modelo de regresión lineal es una ecuación de primer orden que asocia una variable dependiente (también llamada criterio), cuantitativa o semicuantitativa, a una o varias (k) variables independientes (también llamados predictores), cuantitativas, semicuantitativas, o cualitativas dicotómicas de acuerdo a una función lineal del tipo: VD = a + b1VI1 + b2VI2 + ... + bkVIk donde a es la constante de la recta (o punto donde dicha recta corta al eje de ordenadas cuando la VI vale 0) y las b representan la proporción de cambio que se observa en la VD por cada unidad de cambio de cada VI. Dado que cada VI viene medida en una escala distinta las b no son directamente comparables entre sí. Para ello el SPPS calcula también las betas de los modelos de regresión (o coeficientes tipificados o estandarizados, es decir, previa tipificación de las VIs) y que nos sirven además para analizar si la aportación de cada VI es significativa o no para nuestro modelo de regresión (si la sig asociada a una beta es ≤ .05 entonces es significativa, si es sig > .05 no lo es). Estimar un modelo de regresión lineal nos permite pues analizar tres objetivos principales: 1) analizar si el modelo en su conjunto (es decir con todas las VIs seleccionadas) es predictivo o no, viendo la R2 (que nos dice el porcentaje de varianza de la VD que explican las VIs) y la sig del ANOVA (si sig≤ .05 entonces el modelo es predictivo); 2) analizar el papel relativo que cada VI juega en el modelo (viendo las betas y su significación: si la sig de una beta ≤ .05 entonces dicha VI debe de ser incluida en el modelo, en caso contrario puede ser eliminada); 3) una vez comprobado que el modelo es predictivo, utilizarlo para pronosticar las puntuaciones en la VD de nuevos sujetos de los que disponemos sus puntuaciones en las VIs, sustituyendo sus valores en la 48 ecuación de regresión. Para hacer un modelo de regresión lineal en el SPSS seleccionaremos Analizar > Regresión > Lineales, eligiendo la variable criterio (VD) y la(s) variables predictoras (VIs). En Estadísticos elegiremos Durbin-Watson, Diagnóstico de Colinealidad. En Guardar: residuos no tipificados. En Opciones: Valores perdidos: reemplazar por la media. Por ejemplo imaginemos que en el fichero GSS93 queremos predecir los ingresos del encuestado en función de estas 5 VIs: años de escolarización, edad del encuestado, título escolar del padre, título escolar de la madre y horas diarias viendo TV. Obtendremos los siguientes resultados: Resumen del modelob Modelo 1 R ,459a R cuadrado ,210 R cuadrado Error típ. de la corregida estimación Durbin-Watson ,205 4,754 1,887 ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 4451,974 16703,911 21155,885 gl 5 739 744 Media cuadrática 890,395 22,603 F 39,392 Sig. ,000a Coeficientesa Modelo 1 (Constante) Años de escolarización Título escolar del padre Título escolar de la madre Edad del encuestado Horas diarias viendo TV Coeficientes no estandarizados B Error típ. ,655 1,191 ,643 ,068 ,044 ,178 ,043 ,229 ,097 ,015 -,433 ,095 Coeficientes tipificados Beta ,344 ,010 ,008 ,225 -,154 t ,550 9,395 ,249 ,190 6,564 -4,554 49 Sig. ,582 ,000 ,804 ,850 ,000 ,000 Nos indicarían que el ajuste global del modelo es significativo (sig=.0001), que dicho modelo explica el 21% de la varianza de la VD (a su vez R=.459 es la correlación r entre Y e Y', es decir, entre los valores reales en Y y los pronosticados por el modelo de regresión, respectivamente), y que las variables título escolar del padre y de la madre no aportan nada al mismo, por lo que podríamos eliminarlas. La beta de años de escolarización indica que por cada año de escolarización los ingresos aumentan en 0.344 unidades; la beta de edad indica que cada año aumenta los ingresos e .225 unidades y la beta de horas viendo TV indica que por cada hora de promedio diaria que se ve la TV los ingresos disminuyen en .154 unidades. Este mismo procedimiento de análisis es aplicable a otros modelos de regresión no lineal. Aspectos a tener en cuenta a la hora de estimar un modelo de regresión. a) Un modelo de regresión descansa sobre unos supuestos teóricos que han de ser verificados y tenidos en cuenta: a1) se asume que la relación entre los variables implicadas en el modelo ha de ser lineal, aunque este supuesto casi siempre se da por válido sin analizarlo a2) los residuos (Yi-Yi') han de ser independientes unos de otros, es decir no han de estar autocorrelacionados. En el SPSS este supuesto lo podemos comprobar mediante el cálculo estadístico de Durbin-Watson (Analizar > Regresión Lineales > Estadísticos: Residuos > Durbin-Watson) que debe 50 darnos valores comprendidos entre 1.5 y 2.5 para que se cumpla dicho supuesto. En nuestro ejemplo dicho estadístico vale 1.887 luego hay independiencia en los residuos. a3) la distribución de los residuos (Yi-Yi') ha de ser normal con media = 0. En el SPSS este supuesto lo podemos comprobar en Gráficos: Gráficos de residuos tipificados > Histograma y hacer una interpretación visual del mismo. O también podemos pedirle al SPSS que nos guarde los residuos como una nueva variable (primero en Analizar > Regresión Lineales > Estadísticios > Residuos > Diagnóstico por casos >Todos los casos , y a continuación en Guardar > Residuos > no tipificados) y a continuación hacer un test de normalidad de Kolmogorov-Smirnov o de Shapiro-Wilk sobre ellos (Analizar > Estadísticos descriptivos > Explorar > Gráficos > Gráficos con pruebas de normalidad). a4) No debe de haber colinealidad entre las distintas VI, es decir, no deben de estar muy correlacionadas entre sí. En el SPSS este supuesto lo podemos comprobar mediante Analizar > Regresión Lineales > Estadísticos > Diagnósticos de la colinealidad. En la tabla de Resultados etiquetada como "Diagnósticos de colinealidad" ningún "índice de condición" debería superar el valor 15 para que se cumpla de forma óptima el supuesto de no colinealidad (de 15 a 30 puntos indica colinealidad creciente, pero en ningún caso podremos aceptar un modelo con índices de condición superiores a 30 puntos). Además en "proporciones de varianza" debería de haber sólo una correlación alta por columna, siendo el resto bajas. Si se incumple este supuesto podríamos: 1) aumentar el tamaño de la muestra; 2) eliminar las VI redundantes o 3) promediar dichas VIs. En 51 nuestro ejemplo, sólo el índice de condición igual a 18.29 parece indicar cierta colinealidad entre las variables (aunque está alejado del valor crítico 30), pero las proporciones de varianza parecen correctas, por lo que en general podemos decir que no hay colinealidad en nuestros datos: Para comprender mejor el papel que juega la colinealidad entre las VIs es útil pedirle también al SPPS en la opción Estadísticos que calcule las correlaciones parciales y semiparciales. En nuestro ejemplo: Coeficientesa Modelo 1 (Constante) Años de escolarización Título escolar del padre Título escolar de la madre Edad del encuestado Horas diarias viendo TV Correlaciones Orden cero Parcial Semiparcial ,368 ,087 ,096 ,194 -,252 ,327 ,009 ,007 ,235 -,165 ,307 ,008 ,006 ,215 -,149 Las correlaciones de orden cero son la r de cada VI con la VD. La correlación parcial nos indica la r de cada VI con la VD tras eliminar de ambas el efecto del resto de VIs (es decir, tras eliminar la colinealidad). La semiparcial indica la r entre la VD y la VI, quitando el efecto que sobre la VD tienen el resto de VIs. b) Antes de calcular un modelo de regresión debemos prestar especial atención a los 'datos anómalos' (outliers; p.e. los que se salen del rango media ± 3 desviaciones típicas) tanto en la VD como en las VI, dado que uno sólo de dichos datos puede cambiarnos el poder predictivo del modelo de regresión drásticamente. Dichos datos pueden ser motivados por distintas causas: un error 52 en la transcripción, un sujeto anómalo o muy excepcional, etc. Es muy importante antes de calcular el modelo de regresión identificar y decidir qué hacer con dichos datos anómalos (eliminarlos, retenerlos,...). c) La situación ideal para un modelo de regresión es aquella donde observando la matriz de correlaciones entre todas las variables (criterio y predictoras) observamos correlaciones altas entre cada una de las variables predictoras con el criterio pero bajas entre sí. En tal caso todas dichas VI deben ser incorporadas al modelo. Muy comúnmente sin embargo se dan además intercorrelaciones altas entre las VIs, en tal caso puede llegar a darse el caso de colinealidad entre ellas (ver lo dicho arriba en el punto a4) d) Con respecto al número ideal de predictores hay que decir lo siguiente: d.1. La ratio tamaño de la muestra / número de predictores es crucial a la hora de poder generalizar nuestro modelo. Stevens propone un mínimo de 15 sujetos por cada VI que incorporemos a la ecuación de regresión d.2. Para resolver el problema del número ideal de predictores el método más adecuado es llevar a cabo un procedimiento de 'regresión escalonada o por pasos' (stepwise regression), de la hay que distintas versiones: a) El método de regresión escalonada hacia atrás consiste en tomar al principio todas las variables predictoras e ir eliminando de la ecuación de regresión todas aquellas que no aporten nada significativo al modelo (observando la importancia relativa de las betas de las distintas variables predictoras y eliminando de la ecuación de regresión aquellas VIs con betas no significativas). En la regresión escalonada hacia adelante se van añadiendo una a una las distintas VIs al modelo de regresión comenzando por las que más correlacionen con la VD hasta llegar a un punto en que añadir nuevas VIs no aporten una mejoría significativa la modelo. Hay que tener en cuenta aquí también la llamada desigualdad de Bonferroni, según la cual α aumenta de forma progresiva a medida que vamos incluyendo más predictores. Al respecto Stevens (pp. 68-69) llega a proponer contrastar la significatividad de R con niveles de riesgo α/p, siendo p el número de variables predictoras que incorporamos al modelo. d.3. Por último hay que decir que a igualdad de condiciones es preferible un modelo con pocas variables predictoras que con muchas (Stevens, pp 99). 53 TEMA 7. INTRODUCCION MULTIVARIADA. A LA ESTADISTICA En un sentido estricto las técnicas estadísticas multivariadas son aquellas que analizan más de una variable dependiente (como ocurre p.e. cuando trabajamos con encuestas, tests o cuestionarios). Se pueden dar varias importantes razones para justificar el uso de tales técnicas. Por ejemplo: En muchas ciencias, y en concreto en la Psicología, pocas veces la medición de una sola conducta refleja de forma precisa el influjo de las variables que la modulan, más bien en nuestra ciencia ocurre que 'todas las variables afectan a todas la variables'. Es decir muy a menudo es necesario conocer las intercorrelaciones que se dan entre amplios conjuntos de variables. El uso de las técnicas multivariadas ha aumentado mucho debido a la accesibilidad al uso de paquetes estadísticos computerizados. Se encuadran aquí un amplio conjunto de técnicas estadísticas: (a) técnicas de agrupación o de reducción de datos, cuyo objetivo es resumir o sintetizar la información contenida en un conjunto de n variables a un conjunto menor de m variables distintas (tal que m<n) de tal forma que sean capaces de eliminar la información redundante contenida en aquellas (p.e. Análisis Factorial o de Componentes Principales; Análisis de Conglomerados) (b) técnicas de clasificación de datos, cuyo objetivo es aplicar modelos de regresión para la clasificación de los sujetos en una o varias VD categoriales (p.e. Análisis Discriminante, Regresión logística, etc.) (c) técnicas de contraste de hipótesis experimentales (p.e. MANOVA, MANCOVA, etc.) Vamos a presentar someramente una prueba multivariada relativa a cada una de estas categorías. 54 TÉCNICAS DE AGRUPACIÓN DE DATOS: EL ANALISIS FACTORIAL (AF) O DE COMPONENTES PRINCIPALES (ACP) El AF (no confundir con Análisis de la Varianza ni con ANOVA factorial) es un método estadístico desarrollado por Thurstone que permite explicar n variables X1, ..., Xn mediante un reducido número de m variables latentes (hipotéticas) llamadas factores F1,...Fm tal que m<n. Cada uno de tales factores son combinaciones lineales de las variables originales X1, ..., Xn , siendo además ortogonales (incorrelacionados) entre sí. El AF es sin duda la técnica reductora de la dimensionalidad más empleada en ciencias sociales, como la Psicología. Toda la teoría de la inteligencia (factor g de Spearman, Thurstone, ...) y la personalidad (Cattell, Guildford,...) se basa en los resultados hallados a través del AF. En el módulo de Psicometría Sin embargo no es una técnica que permita extraer relaciones causales entre variables sino que es un técnica descriptiva de la dimensionalidad subyacente a un conjunto de variables. Aunque existen en realidad distintos métodos de AF (componentes principales, alfa, centroide,...) nos centraremos tan sólo en el primero de ellos por ser el más utilizado. En realidad el genéricamente llamado AF coincidiría (Tatsouka) con un ACP, al que a veces se le incorporan métodos de rotación oblicua, con el fin de que el resultado satisfaga el llamado 'principio de estructura simple' de Thurstone (ver más abajo), mejorando así su interpretabilidad. Por ello muchos manuales y en especial los paquetes estadísticos informatizados tienden a identificar AF con el análisis componentes principales. Comenzaremos explicando el significado intuitivo del AF a través de un ejemplo. Supongamos que pasamos 6 pruebas a 100 alumnos (vocabulario -V-, lectura -L-, idiomas -I-, aritmética -A-, física -F- y química -Q-) y obtenemos la siguiente matriz de correlaciones R (que es el punto de partida del AF; en negrita p<.01): V L I A F Q ________________________________________________ V 1 .72 .63 .09 .09 .00 L 1 .57 .15 .16 .09 I 1 .14 .15 .09 A 1 .57 .63 F 1 .72 Q 1 _________________________________________________ 55 Se puede apreciar como si tales 6 variables en realidad midiesen sólo dos cosas tal y como muestran los dos grupos de correlaciones significativas. El resultado de aplicar un AF (de componentes principales) sobre tal matriz es la siguiente matriz factorial o de componentes (en SPSS > Analizar > Reducción de dimensiones > Factor): 2 Pruebas F1 F2 h __________________________ V .83 .01 .70 L .79 .10 .63 I .70 .10 .50 A .10 .70 .50 F .10 .79 .63 Q .01 .83 .70 __________________________ λ 1.8231 1.8231 % var 30.385 30.385 __________________________ en negrita p<.01 Dicha tabla nos muestra cómo las 6 pruebas en realidad están midiendo dos factores o componentes (F1 y F2). Los números que aparecen en las columas F1 y F2 reciben el nombre de saturaciones o cargas factoriales y representan la correlación existente entre cada variable Xi con cada componente o factor Fn (desde ahora ain). ain = corr (Xi, Fn) Si las elevamos al cuadrado obtendremos la proporción de varianza del factor explicada por cada variable. Las h2 reciben el nombre de comunalidades y representan la proporción de varianza de la variable Xi explicada por los factores F1, ..., Fm . Observando las comunalidades podemos analizar qué variable es mejor o peor explicada por nuestro modelo factorial. Por último, el autovalor de un factor Fi es la varianza de la matriz de correlaciones (R) explicada por dicho factor y se define como λi = a21i + ...+a2ni Dividiendo λi entre el número total de variables (n) obtendremos la proporción 56 de varianza de R expresada por Fi . No existen criterios unívocos para determinar cuándo un factor es significativo o cuando puede ser desechado de la matriz factorial. Muy comúnmente en AF se suelen considerar como factores significativos aquellos con λ ≥ 1 (criterio de Kaiser), pero podemos optar también por desechar aquellos cuya varianza explicada no alcance un valor mínimo (p.e. del 15%). Por defecto el SPSS extrae los factores con autovalores mayores de 1 (criterio de Kaiser). Existen infinitas soluciones factoriales para una misma matriz de datos. La forma de conseguir una sola solución es imponer ciertos criterios que definen otros tantos tipos de AF (de componentes principales, centroide, de máxima verosimilitud, tipo de rotación, etc). Rotaciones ortogonales y oblicuas. Como señaló Thurstone en la mayoría de los casos es difícil encontrar una matriz factorial que defina unos factores claramente interpretables. La finalidad de la rotación es conseguir dar una mayor capacidad explicativa a los factores (principio de parsimonia). Con las ideas de estructura simple y de rotación de los factores intentó Thurstone resolver el problema. Una forma simple de entender el concepto de rotación factorial es concebir un espacio de m dimensiones ortogonales y representar en él las distintas cargas factoriales de la matriz factorial. P.e. podemos representar la matriz factorial de nuestro ejemplo sobre los dos factores hallados (izquierda) y rotarlos luego (manteniendo su ortogonalidad) un determinado número de grados α (derecha): 57 F1 F1 1 V .80 V L I L I .60 .40 .20 A F 0 .20 .40 .60 Q .80 F2 A F Q 1 F2 Como se puede apreciar la posición de las 6 variables en el espacio bifactorial es la misma, pero al rotar los ejes cambian sus coordenadas de proyección (cargas factoriales). Pues bien el objetivo de la rotación factorial es dar con una posición idónea de los factores sobre los que proyectar las variables, maximizando algunas saturaciones (aunque sea en detrimento de otras) para que los factores comunes queden destacados. En nuestro ejemplo es la figura de la izquierda la solución rotada mejor. La equivalencia entre una solución ortogonal rotada y no rotada se aprecia en que las comunalidades de las distintas variables siguen siendo las mismas, debido a que como queda dicho la solución factorial nunca es única. En nuestro ejemplo: ROTADA NO ROTADA 2 Pruebas F1 F2 h F1 F2 ________________________________________ V .83 .01 .70 .60 -.58 L .79 .10 .63 .63 -.49 I .70 .10 .50 .56 -.43 A .10 .70 .50 .56 .43 F .10 .79 .63 .63 .49 Q .01 .83 .70 .60 .58 _________________________________________ Sin embargo se puede apreciar que los autovalores varían. Existen diversos métodos de rotación ortogonal (varimax, quartimax,...). 58 En las rotaciones oblicuas (menos utilizadas) se permite que los factores dejen de ser ortogonales, es decir que sean correlacionados. Los factores oblicuos son entonces variables correlacionadas entre sí. Para orientar al investigador en sus técnicas de rotación Thurstone desarrolló cinco principios aplicables tanto a rotaciones ortogonales como oblicuas conocidos como el 'Principio de Estructura Simple' y que definen la solución factorial óptima: 1) Cada fila de la matriz factorial debe de tener al menos una carga cercana a 0. 2) En cada columna debe de haber, por lo menos, tantas cargas cercanas a 0 como factores haya. 3) Entre cada par de columnas debe de haber cargas altas en un factor y bajas en el otro (o a la inversa). 4) Ante 4 o más factores es interesante que una gran proporción de variables tengan cargas cercanas a 0 ante cada par de factores 5) En cualquier par de columnas de la matriz factorial debe de haber un número pequeño de variables con cargas altas en ambas. Estos criterios buscan encontrar variables 'puras', es decir, que saturen mucho en algunos factores y muy poco en otros en aras de facilitar la interpretación de los resultados. AF de segundo orden. Si correlacionamos las cargas factoriales de la matriz factorial A obtenidas tras haber llevado a cabo un AF, y a su vez factorizamos dicha matriz de correlaciones habremos llevado a cabo un AF de segundo orden. En él utilizamos los factores de primer orden como si fueran variables empíricas en aras de encontrar "factores detrás de los factores". El factor G de Spearman o el rasgo introversión-extroversión de Cattel han sido hallados de este modo. AF exploratorio y AF confirmatorio. Como acabamos de ver, generalmente el objetivo del AF es explorar la dimensionalidad subyacente a un cierto número de variables empíricas del modo más sencillo posible (AF exploratorio o simplemente AF). Sin embargo 59 otras veces el análisis se realiza con un conocimiento previo del número y/o estructura de los factores denominándose AF confirmatorio, pues pone a prueba si la hipótesis formulada a priori es cierta o no. Dicha hipótesis se plantea bien sobre el número de factores, su naturaleza (oblicuos, ortogonales, mixtos) o sobre las saturaciones de la matriz factorial. Un test chi2 permite confirmar la estructura formulada. 60 TÉCNICAS DE CLASIFICACIÓN DE DATOS: EL ANALISIS DISCRIMINANTE (AD) El AD es un modelo de regresión donde las VIs predictores son cuantitativas (o semicuantitativas, o incluso cualitativas dicotómicas) y la VD o criterio es cualitatativa (o semicuantitativa). Su objetivo es hallar la combinación lineal de variables predictoras (o función discriminante) que consiga discriminar mejor la pertenencia de las sujetos a las diferentes categorías de la VD. Una vez conocida dicha función discriminante podremos aplicarla para clasificar nuevos casos (p.e. ¿devolverá este cliente el préstamo si se lo concedemos?; ¿desarrollará alguna patología clínica?, ¿será un buen trabajador en nuestra empresa?, etc.). Cuando las VIs sean cualitativas es mejor emplear otra técnica clasificatoria llamada regresión logística. Tengamos N sujetos medidos, de forma continua en p variables predictoras, y de forma nomimal en una variable criterio donde quede explicita la pertenecia de cada sujeto a tal o cual grupo (1, 2, ..., k grupos de clasificación). Así, p.e: Sujetos Crit. Predictores Y X1, X2, ... Xp 1 1 23, 24 , ... 112 2 . 1 . 24, 54, ... . . 78 . 6 . 3 . 34, 45, ... . . ... 12 . N k 56, 87,... 32 Asumiendo que las VIs se distribuyen de acuerdo al modelo normal multivariado (se puede demostrar comprobando la normalidad de los componentes principales de p los predictores), que las matrices de covarianzas de las poblaciones no difieren entre sí (test de Box), que ninguna variable predictora sea una combinación lineal perfecta de otra (multicolinealidad), y que la ratio (N/p) ≥ 20 (ver Stevens, pp. 236, para que los resultados del análisis sean generalizables) entonces podemos llevar a cabo un AD sobre los datos, el cual nos permitirá hallar un doble objetivo (ver Klecka, 1980, pp. 8 y 9; Stevens, pp. 232): (a) Dar con las funciones discriminantes que mejor discriminen a los k grupos en las p variables predictoras. (b) Valernos de ellas para predecir la asignación 61 de los nuevos sujetos a los distintos grupos. Una función discriminate del tipo Y= v1 X1+ v2 X2 + ...+ vp Xp es pues aquella que maximiza las diferencias entre grupos de clasificación con el fin de minimizar el número de sujetos mal clasificados. Las v1+ v2+ ...+ vp reciben el nombre de coeficientes discriminantes (bien brutos o estandarizados). Para realizar un AD en SPSS seleccionaremos Analizar > Clasificar > Discriminante. Luego definiremos el rango de la VD y seleccionaremos los predictores. En Estadísticos seleccionaremos Medias, M de Box, ANOVAs Univariados (para analizar qué predictores son significativos) y coeficientes de la función no tipificados. En Clasificar seleccionaremos: Probablidades previas: Calcular según tamaños de los grupos. En Visualización: Tabla resumen. Y reemplazar valores perdidos por la media (para no perder muchos sujetos del análisis). Pongamos un ejemplo (basado en los datos del fichero GSS93): queremos predecir si una persona está a favor en contra de tener armas en casa (1: a favor; 2: en contra) en base a las respuestas de los sujetos a estas 6 VIs: edad, número de hijos, sexo, ingresos del encuestado, casado o no y años de escolarización. Los resultados fueron. Resultados de la prueba M de Box 15,930 F Aprox. ,743 gl1 21 gl2 132650,922 Sig. ,792 El test de BOX que las matrices de covarianzas son iguales. Contraste de las funciones 1 Lambda de Wilks Lambda de Wilks Chi-cuadrado ,944 36,116 gl 6 Sig. ,000 La Lambda de Wilks nos indica si la función discriminante obtenida abajo es o no significativa: En nuestro caso lo es y por lo tanto podríamos utilizarla para el 62 pronóstico de nuevos casos. Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 Edad del encuestado ,289 Número de hijos -,280 Sexo del entrevistado ,899 Ingresos del encuestado ,056 1991 ¿Casado? ,169 Años de escolarización ,199 Los coeficientes estandarizados de arriba son directamente comparables entre sí (pues están tipificados en una misma escala de medida) y nos dicen qué VI aparta más a la función discriminante y cuál menos. En nuestro ejemplo el sexo es la que más aporta al modelo: como hombre=1 y mujer=2 y .899 lleva signo positivo quiere decir que las mujeres son más reacias a tener armas que los hombres. A continuación viene la edad (a mayor edad se está más en contra de tener armas), .... Coeficientes de las funciones canónicas discriminantes Función 1 Edad del encuestado ,023 Número de hijos -,184 Sexo del entrevistado 1,838 Ingresos del encuestado ,011 1991 ¿Casado? ,340 Años de escolarización ,072 (Constante) -5,020 Coeficientes no tipificados 63 Estos son los coeficientes discriminantes brutos (sin tipificar). Es decir si quisiéramos pronosticar el comportamiento de un nuevo sujeto en la VD entonces sustituiríamos sus puntuaciones en los predictores de la siguiente ecuación y así sabríamos si estaría a favor (1) o en contra (2) de tener armas en casa (le asignaríamos a 1 o 2 en función del valor pronosticado más próximo a uno u otro): VD = -5.02 +.023*edad -.184*hijos + 1.838*sexo +.011*Ingresos + .34*casado +.07*Años escolarización Resultados de la clasificacióna Grupo de pertenencia pronosticado Oposición a los permisos de armas A Favor En Contra Original Recuento A Favor 811 En Contra 173 Casos desagrupados 516 % A Favor 100,0 En Contra 100,0 Casos desagrupados 100,0 a. Clasificados correctamente el 82,4% de los casos agrupados originales. 0 0 0 ,0 ,0 ,0 Total 811 173 516 100,0 100,0 100,0 Esta tabla nos indica que el modelo clasifica correctamente el 82.4% de los datos originales. 64 TÉCNICAS MULTIVARIADAS DE CONTRASTE DE HIPÓTESIS: EL MANOVA Es el equivalente multivariado del ANOVA donde comprobamos si la manipulación de una o varias VIs afecta o no sobre varias VDs. Como el ANOVA, el MANOVA requiere de la satisfación de determinados supuestos teóricos para poder ser aplicado (ver p.e. Bray y Maxwell, 1985; pp. 32; Stevens, pp. 205): 1) Las observaciones han de ser independientes, por lo que lo mejor es al azar los sujetos a los tratamientos de la VI. 2) Las observaciones de las VDs han de seguir una distribución multivariada normal. Hay que reseñar que la normalidad de cada una de las VDs no garantiza una normalidad multivariante. Un test de normalidad sobre sus componentes principales sí es condición necesaria y suficiente de normalidad multivariante. 3) Todos los grupos han de tener matrices de covarianzas similares, lo que se verifica llevando a cabo tests de homoscedasticidad sobre cada una de las VDs (test de Box). Para hacer un MANOVA con el SPSS selecionaremos Analizar > Modelo general lineal > Multivariante. En opciones seleccionaremos Pruebas de homogeneidad y en Post Hoc seleccionaremos una prueba a psoteriori (p.e. Scheffé). Pongamos un ejemplo. 15 sujetos son asignados al azar a 3 condiciones de una VI y son medidos luego en 2 VDs. Analizamos los datos con un MANOVA y obtenemos los siguientes resultados: Prueba de Box sobre la igualdad de las matrices de covarianzasa M de Box F gl1 gl2 Sig. 9,372 1,183 6 3588,923 ,312 El test de Box muestra que se cumple el supuesto de igual de las matrices de covarianzas. 65 Efecto vi Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy Contrastes multivariadosc Gl de la Valor F hipótesis Gl del error 1,192 5,907 6,000 24,000 a ,007 41,648 6,000 22,000 121,334 202,223 6,000 20,000 121,083 484,332b 3,000 12,000 Sig. ,001 ,000 ,000 ,000 Los resultados de la tabla anterior muestran que la VI afecta de forma significativa sobre ambas VD conjuntamente Pruebas de los efectos inter-sujetos Suma de Variable cuadrados Media Origen dependiente tipo III gl cuadrática a Model vd1 23794,600 3 7931,533 b vd2 548,200 3 182,733 vi vd1 23794,600 3 7931,533 vd2 548,200 3 182,733 Error vd1 880,400 12 73,367 vd2 6,800 12 ,567 Total vd1 24675,000 15 vd2 555,000 15 a. R cuadrado = ,964 (R cuadrado corregida = ,955) b. R cuadrado = ,988 (R cuadrado corregida = ,985) F 108,108 322,471 108,108 322,471 Sig. ,000 ,000 ,000 ,000 Los resultados de la tabla anterior muestran que la VI afecta de forma significativa a ambas VD de forma individual 66 Pruebas post hoc vd1 Scheffe a,b,c vi 1 2 3 Sig. N 5 5 5 Subconjunto 1 2 24,8000 44,2000 46,8000 1,000 ,892 vd2 Scheffea,b,c vi 1 2 3 Sig. N 5 5 5 1 2,8000 Subconjunto 2 3 6,4000 1,000 1,000 7,8000 1,000 Los resultados de la tabla vd1 muestran que la condición 1 difiere significativamente de las condiciones 2 y 3 (entre las que no hay diferencias) Los resultados de la tabla vd2 muestran que existen diferencias significativas entre las 3 condiciones de la VI. 67 TABLAS ESTADISTICAS 68 69 70 71 72 73