Apuntes de la asignatura

Anuncio
Apuntes de
Estadística II
Prof. Alfonso Pitarque
Dpto. Metodología (despacho M107)
Facultad de Psicología
TEMA 1. CONCEPTOS BÁSICOS DE INFERENCIA ESTADISTICA.
1. CONCEPTOS INTRODUCTORIOS.
Una población es un conjunto de individuos que comparten determinada
característica. Una muestra es un subconjunto de dicha población. Las variables
que definen de forma numérica cualquier característica de una población
reciben el nombre de parámetros (p.e. media, mediana, desviación típica,
proporción, correlación,...), y suelen representarse en los manuales de
estadística a través de letras griegas (p.e. µ suele representar la media, σ la
desviación típica, σ2 la varianza, π la proporción, y ρ la correlación,...). Por su
parte las variables que definen de forma numérica cualquier característica de
una muestra reciben el nombre de estadísticos (p.e. media, mediana, desviación
típica, proporción,...) y suelen representar con letras latinas (p.e. X suele
representar la media muestral, s la desviación típica, s2 la varianza, P la
proporción, y r la correlación,...).
Para conducir cualquier investigación lo ideal sería poder medir a todos los
sujetos que componen una población. De este modo tendríamos certeza absoluta
de que nuestras conclusiones serían generalizables a dicha población. Pero por
motivos obvios de economía de recursos y tiempo ello nunca suele ser posible
(imaginemos p.e. que tuviéramos que medir a toda la población española). Sin
embargo podemos trabajar con una muestra representativa de dicha población e
intentar luego generalizar las conclusiones obtenidas en ella a toda la población.
En el proceso de inferencia estadística intentamos, previo conocimiento de
determinado estadístico, llegar a inferir o conocer determinado parámetro
poblacional, a priori desconocido. Inferir coincide pues con el significado
común de inducir (pasar del conocimiento de lo particular a lo general) como
contrapuesto al de deducción (o proceso por el cual pasamos del conocimiento
de lo general a lo particular). La característica primordial para que una
inferencia sea válida es que la muestra sea representativa, es decir, que sea
suficientemente grande y que haya sido obtenida por un tipo de muestreo
adecuado (ver ver punto 2 de este tema).
La estadística inferencial cubre dos grandes áreas de contenido: la estimación de
parámetros y el contraste de hipótesis. En el primer caso (tema 2) nos valemos
del conocimiento de determinado estadístico para llegar a conocer determinado
parámetro (p.e. piénsese en los sondeos de opinión, encuestas, etc.). En el
contraste de hipótesis (temas 3 a 5) nos valemos de la estimación de
determinados parámetros para comprobar si determinadas relaciones entre
1
variables son ciertas o falsas. Por ejemplo imaginemos que un laboratorio
farmaceútico quiere comprobar si dos medicamentos (A y B) son igualmente
eficaces o no para reducir el insomnio. Para ello toma dos muestras de personas
insomnes y las medica a una con el medicamento A y a la otra con el B
(variable independiente). Finalizada la medicación mide a ambas muestras en la
variable (dependiente) 'grado de insomnio manifiesto'. Si ambos medicamentos
µ = µB
µ ≠ µB
son igualmente eficaces se verificará que A
, en caso contrario A
.
Dada la relevancia de la estadística aplicada al contraste de hipótesis en todas
las disciplinas científicas incidiremos prioritariamente en este curso en esta
segunda línea de análisis.
2. PRINCIPALES TIPOS DE MUESTREO.
La validez de una inferencia estadística descansa en la representatividad de la
muestra con la que trabajemos. Tal representatividad se consigue a través de un
muestreo y un tamaño de la muestra adecuados. Hay dos principales tipos de
muestreo: el probabilístico, en el que cada individuo de la población tiene la
misma probablidad de ser muestreado, y el no probabilístico, donde no se
cumple tal premisa. Sólo el muestreo probabilístico garantiza la
representativadad de la muestra. El no probabilístico se utiliza sólo para
estudios previos asistemáticos (p.e. cuando pedimos voluntarios en clase para
hacer el análisis inicial de los ítems de un nuevo cuestionario) y no será
considerado aquí.
Principales tipos de muestreo probabilístico o aleatorio:
- muestro aleatorio simple: Consiste en elegir al azar (sin reemplazamiento) los
n individuos de la muestra a partir de un listado de los N individuos que
conforman la población. El problema de este muestreo es que sólo vale con
poblaciones de las que dispongamos de un listado poblacional (lo que no
siempre es posible).
- sistemático: supone elegir al azar un individuo de los N/n primeros (o entero
más próximo) de una población y luego ir escogiendo los situados de N/n en
N/n posiciones más alejadas hasta conformar una lista de tamaño n.
- estratificado: se utiliza cuando la población presenta estratos de características
similares (lo que casi siempre ocurre en poblaciones grandes: individuos
agrupados en distritos o barrios, ciudades, provincias, comunidades autónomas,
2
nacionalidades, tipo de colegios, edades, niveles educativos, etc.). Se extrae
entonces una muestra aleatoria de sujetos de todos y cada uno de los estratos.
Destaca aquí el llamado muestreo estratificado proporcional que consiste en
conseguir que el tamaño de las muestras extraidas de cada estrato sea
proporcional al número de sujetos que componen cada estrato a nivel
poblacional.
- por conglomerados: al igual que en muestreo estratificado se utiliza cuando la
población se agrupa por estratos de características similares solo que aquí se
aleatoriza qué estratos de entre todos los existentes van a ser incluidos en
nuestra muestra (desechando el resto de estratos), y una vez seleccionados al
azar dichos estratos elegimos al azar sujetos de los mismos. Es decir, la
diferencia entre el muestro estratificado y por conglomerados estriba en que en
el primero muestreamos todos los estratos (proporcionalmente o no), mientras
que en el segundo sólo muestreamos aquellos estratos que han siddo
seleccionados al azar de todos los estratos posibles.
- polietápicos: combinan dos o más de los anteriores muestreos aleatorios, lo
que es muy frecuente en poblaciones muy grandes.
El segundo factor del que depende la representatividad de mi muestra es del
tamaño muestral (n), que debe de ser suficientemente grande (p.e. todo elmundo
puede entender que una muestra n=5 es difícil que sea representativa).
En Psicología Experimental (y cuasi-experimental) se habla de muestras
grandes a partir de 30-35 participantes.
En Psicología correlacional y de encuestas el tamaño muestral suele ser más
grande: casi todos los manuales de Estadística ofrecen tablas (ver p.e. la de
abajo) que nos dan el tamaño muestral requerido (n) en base a:
-
N poblacional, bien sea conocido o infinito (poblaciones muy grandes)
El nivel de riesgo α, o de confianza (1- α) con el que trabajemos (generalmente α=.05
en Psicología)
El error de muestreo que estemos dispuestos a cometer (p.e. de ± 2%, o de ± 5%).
3
Por ejemplo para realizar una encuesta dirigida a toda la población española, para un nivel de
riesgo α=.05, y un error de muestreo del ± 2%, necesitaríamos una muestra de un tamaño
mínimo de 2500 personas ( ver León y Montero, 2002, pp. 111).
4
3. CONCEPTO DE DISTRIBUCION MUESTRAL DE UN ESTADISTICO.
DISTRIBUCION MUESTRAL DE LA MEDIA. TEOREMA DEL LIMITE
CENTRAL.
Distribución muestral o distribución de muestras de un estadístico X es el
proceso por el cual (1) seleccionamos de forma aleatoria sucesivas muestras de
un mismo tamaño n; (2) calculamos dicho estadístico X en cada una de dichas
muestras; (3) hallamos la frecuencia relativa o probabilidad de ocurrencia
asociada a los valores que toma tal estadístico y (4) por último determinamos a
qué distribución de probabilidad (normal, binomial,...) se adecúa tal
distribución. Tal distribución recibe el nombre de distribución muestral del
estadístico X (media, proporción, diferencia entre dos medias, cociente entre
dos varianzas, etc.).
Expliquemos por ejemplo la distribución muestral de la media. Sea p.e. una urna
de 1000 bolas (población), 100 de ellas etiquetadas con el nº 0, 100 con el 1, ...
y 100 con el 9. En este caso
N
µ = ∑ xi pi = 4.5;
1
σ=
N
∑(xi
1
− µ)2pi = 2.87
Obtengamos las medias de 100 muestras aleatorias de tamaño 2 de aquella
población (ver tabla 1). Representemos ahora gráficamente tales frecuencias
relativas o probabilidades (ver figura 1).
Obtenemos así la distribución muestral de la media (para muestras de n=2).
Observemos como tal representación gráfica tiende a aproximarse a un modelo
normal. Si en vez de 100 muestras de tamaño 2 hubiéramos extraído por
ejemplo 10000 muestras del mismo tamaño observaríamos que su distribución
muestral se adecuaría perfectamente a un modelo normal con media 4.5. Ello se
fundamenta en la llamada Ley de los Grandes Números (Bernoulli) según la
cual sólo promediando un número suficientemente grande de puntos muestrales
podemos obtener una medición suficientemente precisa del valor esperado. En
el caso de la media la probabilidad de que la variable aleatoria X difiera de µ
más allá de mínimas diferencias casuales (ε) tiende a 0 cuando n tiende a
infinito (en la práctica n>30).
p( X − µ > ε) → 0 cuando
n →∞
5
Tabla 1.
0,20
0,16
Frec.rel.
0,12
0,08
0,04
0,00
0,0
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0
MEDIAS
Figura 1.
6
Para conocer las distribuciones muestrales de los distintos estadísticos no es
necesario recurrir a procedimientos empíricos (como el llevado a cabo arriba)
sino que se han desarrollado distintos teoremas matemáticos que demuestran las
distribuciones de probabilidad en que aquellas se basan. Así el Teorema
Central del Límite (De Moivre) fundamenta matemáticamente la distribución
muestral de la media, sin duda la distribución muestral más importante. Según
tal teorema si de una población grande (con media µ y varianza σ2), distribuida
normalmente o no, extraemos muestras al azar de tamaño grande (n>30) y
calculamos en cada una de ellas su media entonces (1) la distribución muestral
de las medias muestrales sigue un modelo normal; (2) la media de tal
distribución de medias coincide con µ (X X = µ) y (3) la desviación típica tal
distribución (también llamada error típico o estándar de la media) coincide
con σ/ n (s X = σ/ n ) .
El Teorema Central del Límite se expresa en forma abreviada así:
X = N (µ,
σ
)
n
Del punto (3) se deduce que la variabilidad de la distribución muestral de
medias será siempre menor que la de la población, excepto cuando n=1, debido
a que la variabilidad de una población siempre es mayor que la observada en
una muestra aleatoria de ella.
La importancia del conocimiento de las distribuciones muestrales de los
principales estadísticos estriba en que gracias a ellas podemos asociar
probabilidades a valores concretos de cada estadístico y así poder luego bien
estimar los límites del intervalo de confianza en torno a los cuales si sitúa el
parámetro a estimar (tema 9) o bien contrastar hipótesis relativas a dicho
estadístico (temas 10 al 13).
7
4. PRINCIPALES DISTRIBUCIONES MUESTRALES.
4.1. MEDIA (conocida σ 2).
σ
)
n , de tal modo que, con muestras grandes, el
Como queda dicho
X−µ
z=
σ/ n se distribuirá de acuerdo al modelo normal
estadístico tipificado
normalizado z = N(0, 1) (Ej. 1.3. Pardo y San Martín, pp 69; San Martín et al, pp
X = N (µ,
145).
4.2. MEDIA (desconocida σ 2).
Esta distribución muestral tiene por media µ y por error típico sn-1/√n. El
estadístico 𝑡 = !
!!!
!!! / !
= !
!!!
!/
!!!
sigue un modelo t con n-1 g.l.
Cuando n>30 t=N(0,1) (Ej. 1.4. Pardo y San Martín, pp 71; San Martín et al, pp
152).
4.3. VARIANZA.
Si n ≤ 100
s 2n = χ 2n −1 (
n−1 2 2
n σ,σ
2(n − 1)
)
n
s 2n −1 = χ 2n −1 (σ 2, σ 2
!
!"! !!
2
n − 1)
(n − 1) s 2n −1
σ
Con fines prácticos es útil saber que el estadístico
=
siempre que la variable se distribuya normalmente en la población.
2
es una χ 2n −1
Cuando n>100
s 2n = s2n −1 = N (σ 2, σ 2
2)
n
por lo que el estadístico tipificado
z=
s2 − σ 2
σ 2 2/n
es N(0, 1)
(Ej. 1.5. Pardo y San Martín, pp 74; Ej. San Martín et al, pp 150).
8
4.4. PROPORCION.
La distribución de muestras del estadístico proporción (P), extraídas de
poblaciones dicotómicas (donde la proporción de casos asociados a uno de los
dos estados es π) y muestreo con reposición, sigue el modelo binomial con
media π y error típico
π (1 − π )
n
.
Con muestras grandes, o cuando el producto nπ ≥ 5, podemos utilizar la
aproximación a la curva normal tipificando P:
z=
P− π
es
π(1 − π)
n
N (0, 1)
(Ejs. 1.6. y 1.7, Pardo y San Martín, pp 76-77; San Martín et al, pp 153).
9
TEMA 2. ESTIMACION DE PARAMETROS.
1. ESTIMACION PUNTUAL
Cuando un estadístico es utilizado para estimar un parámetro desconocido θ se
^
le llama estimador ( θ ). Si dicha estimación es hecha de forma puntual, es decir,
el valor de ^θ se toma como estimación concreta de θ hablamos de una
estimación puntual. En el caso más frecuente de que la estimación de θ se lleve
a cabo dando unos límites en torno a los cuales presumiblemente de halle θ
hablaremos de una estimación por intérvalos (ej. San Martín et al, pp. 180).
Los estimadores puntuales deben de cumplir una serie de propiedades
matemáticas (insesgamiento, consistencia, eficiencia y suficiencia). Sin
embargo, y dado que la estimación puntual se utiliza poco, nos basta con saber
que los mejores estimadores puntuales de µ, σ y π son, respectivamente, X , s n −1
y P.
2. ESTIMACION POR INTERVALOS
Se trata de estimar los límites en torno a los cuales se encontrará el parámetro θ
(desconocido) a partir del conocimiento de la distribución muestral del
estadístico ^θ , asumiendo de antemano una determinada probabilidad de errar
(α) en nuestra estimación . El concepto de nivel de riesgo (α) hace referencia a
la probabilidad (asumida por nosotros a priori; generalmente en Psicología
α=.05) de equivocarnos en la estimación de θ , mientras que el concepto
complementario de nivel de confianza (1-α) refleja la probabilidad de acertar en
nuestra estimación. El intérvalo configurado por los límites superior e inferior
de nuestra estimación se le conoce como intérvalo de confianza.
El procedimiento para estimar el intervalo de confianza de θ es el siguiente
(ejemplo en San Martín et al, pp. 185-190) . Supongamos que conocemos la
distribución muestral del estadístico ^θ y que ésta es normal. Sabemos entonces
que en una distribución de tal tipo entre la µ ± 1.96σ queda comprendida un área
10
de 0.95. Por tanto en la distribución muestral de ^θ debe verificarse con E(θˆ ) = θ
que la probabilidad de que un valor de dicho estadístico se aleje de θ más de
1.96 errores típicos vale 0.05. En otras palabras,
[(
)
(
p θˆ − z1−α / 2 sˆθ ≤ θ ≤ θˆ + z1−α / 2 sθˆ
)] = (1 − α)
- Procedimiento de cálculo:
1. Establecer el nivel de riesgo (generalmente α=.05)
2. Hallar en tablas las probabilidades asociadas a los valores (α/2)
y (1-α/2) correspondientes a la distribución muestral de
(z 1− α/ 2 ,
t 1− α/ 2 ,
^θ
χ 21−α / 2 , .. .) .
(s )
3. Hallar el error típico del estadístico ^θ
4. Calcular los límites confidenciales (si ^θ se distribuye de forma
normal):
^θ ± z
s^
1−α / 2
θ
A la expresión z1− α/ 2 sθˆ se le conoce con el término de error máximo o error de
muestreo e indica los límites en torno al cual se sitúa el parámetro con una
probabilidad de acertar de 1-α. Por ejemplo en un sondeo publicado en un
periódico antes de unas elecciones es frecuente encontrar expresiones como
ésta: "la proporción de votantes del partido X se sitúa en el 35%, con un tamaño
muestral de 1050 encuestas, nivel de confianza del 95 y error de muestreo 5".
Ello quiere decir que en estos momentos la proporción de votantes a dicho
partido estaría entre el 30 y el 40% con una probabilidad de errar del 5%.
11
3. PRINCIPALES INTERVALOS CONFIDENCIALES.
3.1. Intervalo confidencial para la media:
4.1.1. Conocida σ2:
p )$% X − z 1−α/ 2
*
σ &
≤ µ ≤ $% X + z 1−α/ 2
n'
σ &+
= (1 − α)
n ',
4.1.2. Desconocida σ2:
p ()#$ X − t ( n −1; 1− α/ 2)
*
s n −1 %
s n −1 % +
#X + t
≤
µ
≤
= (1 − α)
$
(n −1; 1−α / 2)
n&
n & ,-
(Ejs. 2.1. Pardo y San Martín, pp 105; Cuadras et al, pp. 488; San Martín et al,
pp. 192)
En el SPSS: Analizar > Explorar + Estadísticos
3.2. Intervalo confidencial para la proporción:
4.2.1. Con muestras grandes:
)#
p *+$ P − z 1−α / 2
P(1 − P) %
#
& ≤ π ≤ $ P + z 1− α/ 2
n
P(1 − P) % ,
& -. = (1 − α)
n
4.2.2. Con muestras pequeñas:
+
#
.
z 21−α / 2
z 21−α / 2 %
P(1 − P)
n
'
(
,#
%
/
P
+
−
z
+
≤
π
≤
2
1−α / 2
n
2n
4n 2 &
,$ n + z 1− α/ 2 & $
/
p,
/ = (1 − α)
2
2
#
%
z
z
P(1
−
P)
n
1−
α/
2
1−α
/
2
,, ≤ #
//
(
%' P +
+ z 1− α/ 2
+
2
2 &
n
$
2n
$
n
+
z
&
4n
0
1− α/ 2
(Ejs. 2.3. Pardo y San Martín, pp 111; Cuadras et al, pps. 495 y 498; San Martín
et al, pp. 196).
12
3.3. Intervalo confidencial para la varianza:
4.3.1. Con muestras pequeñas (n≤ 100)
,$ (n − 1)s 2 '
$ (n − 1)s 2 ' /
2
p -% 2
≥
σ
≥
(
% χ2
( 0 = (1 − α)
& (n −1;1−α / 2) ) 1
.& χ ( n −1; α/ 2) )
4.3.2. Con muestras grandes (n>100):
p )*+#$ s 2 − z 1−α / 2 s 2
2 % ≤ σ 2 ≤ # s2 + z
s2
$
n&
1− α/ 2
2 % ,- = (1 − α)
n &.
(Ejs. 2.2. Pardo y San Martín, pp 108; Cuadras et al, pp. 504; San Martín et al,
pp. 204).
13
TEMA 3. CONTRASTE DE HIPOTESIS.
1. INTRODUCCION
La estadística inferencial se aplica prioritariamente al contraste de hipótesis
científicas: todo investigador en cualquier rama de la Ciencia comienza
planteándose unas hipótesis de trabajo que se verán corroborada o no en base a
los datos que haya obtenido en su investigación. La estadística así planteada le
servirá para tomar decisiones: en base a los datos recogidos podrá afirmar que
las hipótesis que a priori se planteó son ciertas o falsas.
De forma muy esquemática una investigación (en cualquier rama de la ciencia)
sigue una serie de pasos:
1) Planteamiento de hipótesis
2) Elección del nivel de riesgo que estamos dispuestos a asumir
3) Elección del diseño de investigación y selección de las muestras
4) Medición de la(s) variable dependiente
5) Selección de la prueba estadística a aplicar y análisis de datos.
6) Toma de decisiones
Desarrollemos estos conceptos:
1) Planteamiento de hipótesis: Una hipótesis es una conjetura (que puede ser cierta o no)
acerca de como se relacionan varias variables. Una hipótesis estadística es la
formulación matemática de una hipótesis científica. Hay dos tipos de hipótesis
estadísticas:
-
La hipótesis nula o de la igualdad (Ho) es generalmente la hipótesis que el
investigador está interesado en refutar, siendo cierta cuando el efecto de la(s) variable
independiente (VI) sobre la variable dependiente (VD) no es significativo. Se llama de
la igualdad porque en su formulación siempre debe de aparecer un signo =.
Imaginemos que un investigador quiere comparar la eficacia de dos medicamentos A
y B en el tratamiento del TDAH. Un modo de hacerlo podría ser tomar una muestra de
niños con TDAH y asignarlos al azar bien al grupo que toma el medicamento A bien
al grupo que toma el medicamento B. Tras el período de tratamiento ambos grupos
serían medidos en su sistomatología de hiperactividad (medida p.e. mediante
cuestionarios específicos). Si es cierto que Ho es cierta entonces el número medio de
síntomas de hiperactividad del grupo A tenderá a ser igual al número medio de de
síntomas
del
grupo
B,
es
decir,
en
términos
poblacionales
H o : µ A = µ B o tambien µ A − µ B = 0 .
14
A su vez H0 puede ser de dos tipos:
(a) bilateral o de dos colas, cuando Ho se rechace tanto en el caso de que
µ A > µ B como en el caso de que µ A < µ B . En este caso H se plantearía así:
0
H o : µ A = µ B o tambien µ A − µ B = 0
(b) unilateral o de una cola, cuando Ho se rechace sólo en el caso de que por
ejemplo µ A > µ B , hablándose de una H0 unilateral derecha ; cuando Ho se rechace
en el caso de que µ A < µ B entonces hablaremos de una H0 unilateral izquierda.
La distribución muestral de Ho es siempre conocida, lo que nos permitirá asociar una
probabilidad al estadístico que hayamos calculado (t, F, etc.), y en base a ella tomar
una decisión estadística no ambigüa: p.e. en el programa SPSS si dicha probabilidad
(Sig) es > de .05 entonces aceptaré siempre Ho (lo que en el ejemplo anterior
supondría admitir que ambos medicamentos A y B producen resultados iguales),
mientras que si dicha probabilidad (Sig) es ≤ de .05 entonces rechazaré siempre Ho
(lo que en el ejemplo anterior supondría admitir que ambos medicamentos A y B
producen resultados distintos).
- La hipótesis alternativa o de la desigualdad (H1) es generalmente la
hipótesis que el investigador está interesado en confirmar, denotando existe
evidencia suficiente para pensar que Ho es falsa. Se llama de la
desigualdad porque en su formulación nunca debe de aparecer un signo =.
Dado que su distribición muestral es desconocida no se utiliza para tomar
decisiones estadísticas.
2) Elección del nivel de riesgo (α). Ya quedó dicho que en Psicología se trabaja
usualmente con niveles de riesgo de .05.
3) Elección del diseño de investigación: La palabra diseño hace referencia al
modo en que el investigador decide asignar los sujetos a las condiciones o
tratamientos experimentales. Existen multitud de diseños de investigación y se
explicarán en profundidad en el módulo de “Diseños de Investigación en
Psicología” de 4º curso. En nuestro ejemplo ya dijimos que optamos por
asignar los sujetos al azar a las dos condiciones tratamentales.
4) Medición de la VD: En asignaturas como Psicometría se explican cómo debe
llevarse a cabo una buena medición psicológica, características de la misma
(fiabilidad, validez,...), etc.
15
5) Selección de la prueba estadística a aplicar (o estadístico de contraste) y
análisis de datos: Una vez llevada a cabo la medición se hace necesario
seleccionar la prueba estadística a aplicar en función del tipo de VI elegida, y de
la naturaleza de la VD (cuantitativa, semicuantitativa o cualitativa).
En la tabla inferior se presentan las principales pruebas estadísiticas de contraste
de hipótesis que veremos en este módulo.
En nuestro ejemplo el estadístico
t=
(X1 − X2 ) − (µ1 − µ 2 )
" n1s12 + n 2s22 %" 1
$
'$ + 1 %'
# n1 + n2 − 2 &# n1 n 2 &
es t n1 + n 2 −2
podría ser adecuado. Para su cálculo introduciremos los datos individuales en el
programa SPSS, seleccionaremos la opción Analizar > comparar medias > t
para muestras independientes y le pediremos que nos calcule dicho valor p y la
probabilidad (sig) asociada al mismo.
6) Toma de decisiones: Las reglas de decisión se expresan siempre en términos
de probabilidad. Como ya hemos dicho antes en el SPSS rechazaremos Ho si la
probabilidad asociada a mi estadístico (sig) es menor o igual que α, mientras
que aceptaremos Ho en caso contrario. En el caso de contrastes unilaterales se
deberán cumplir dos condiciones para rechazar Ho: a) que las medias muestrales
vayan en la dirección prevista y b) que al dividir sig/2 el resultado siga siendo
menor o igual a .05.
16
En los manuales “clásicos” de Estadística la regla de decisión se suele formular
así: "rechazaremos Ho si el valor del estadístico de contraste cae dentro de la
llamada región crítica o de rechazo de Ho”. La región crítica se define como el
conjunto de valores del estadístico de contraste que por estar muy alejados de
Ho es muy poco probable ( ≤ α) que ocurran si Ho es verdadera. Es decir si mi
estadístico de contraste cae dentro de la región de rechazo de Ho (zonas de α/2
en la siguiente figura) entonces rechazaré Ho, caso contrario la aceptaré. Para
contrastes unilaterales la región crítica quedará toda ella bien a la derecha o a la
izquierda de la distribución de Ho.
Ejemplos de lo anteriormente dicho aparecen en ej 3.2. Pardo y San Martín, pp
142; pps. 246 y 260 de San Martín et al; pp. 33 de San Martín y Pardo, o pp.
334 (ej. 3 y 4) del Glass y Stanley, entre muchos otros libros.
17
2. TIPOS DE ERROR Y FACTORES QUE LOS AFECTAN
Cuando tomamos una decisión estadística podemos cometer dos tipos de
errores. La teoría de contraste de hipótesis de Pearson y Newman plantea los
dos tipos de error que podemos cometer al aceptar o rechazar Ho. De un lado
tenemos α (error tipo I) que refleja la probabilidad de rechazar Ho cuando en
realidad es verdadera; ya quedó dicho que en Psicología y por convención α se
suele mantener en .05. De otro lado nos encontramos con el error β (o error tipo
II) que refleja la probabilidad de aceptar en nuestra decisión Ho como verdadera
cuando en realidad es falsa. La interelación que se da entre estos dos tipos de
error aparece más clara si representamos gráficamente la distribución muestral
de Ho verdadera (conocida), junto con una de las distribuciones que representa
H1 verdadera (decimos una de las distribuciones por que hay infinitas
distribuciones que harían rechazar Ho; representaremos una sola de ella; además
debemos recordar que la distribución muestral de H1 es desconocida):
D
E
C
I
S
I
O
N
Acepto Ho
Rechazo Ho
Ho verdadera
Ho falsa
Decisión
correcta (1 − α)
error tipo II
(β)
error tipo I
(α)
Ho verdadera
α/2
Decisión
correcta (1 − β)
Ho falsa
β
Aceptar Ho
α/2
Rechazar Ho
DECISION
18
Observemos que en este ejemplo H1 está planteada en términos bilaterales; el
razonamiento sería similar si hubiera sido planteada unilateralmente, sólo que
entonces toda la región de rechazo se hubiese situado bien a la derecha, bien a la
izquierda de Ho.
A 1-β se le llama también potencia de una prueba estadística. En toda toma de
decisiones lo que interesa es minimizar α y β. Sin embargo podemos observar
como uno y otro error son interdependientes en el sentido que si disminuimos
uno de ellos aumentamos el otro (ejemplo Visauta y Batallé, pp. 54). El
programa SPSS nos permite calcular α (a través de la probablidad -sig- asociada
al valor del estadístico de contraste) y 1-β (pidiéndoselo en opciones).
Dado que α suele tomar valores constantes iguales o inferiores a .05 lo que
interesa es pues aumentar la potencia de la prueba (1-β). Las dos formas tiene el
investigador de reducir β es o bien aumentar el tamaño de las muestras con las
que trabaja, o bien aumentar el llamado tamaño del efecto que en una escala de
0 a 1 describe el grado en que la manipulación experimental que hago es o no
efectiva, puesto que aumentando el tamaño del efecto conseguimos reducir el
grado de solapamiento de las distribuciones de Ho verdadera y Ho falsa sea
menor (ver figura anterior). El programa SPSS también permite calcular el
tamaño del efecto (pidiéndoselo en opciones) a través del cálculo del estadístico
eta cuadrado parcial (η2p en una escala de 0 a 1).
Por último no hay que confundir la significación estadística con el tamaño del
efecto. Muchas veces se piensa incorrectamente que una sig o p muy pequeña es
indicativa de que la manipulación de la VI sobre la VD ha sido muy efectiva, es
decir, de un tamaño del efecto muy alto. Y eso no siempre es así pues p depende
del tamaño muestral: una p=0.03 podrá tender relevancia psicológica ante un
n=30 p.e., pero la misma p ante un n=3000 no tiene ninguna relevancia. Por ello
la relevancia de un contraste hay que verificarla observando el tamaño del
efecto.
19
3. CONTRASTES DE HIPOTESIS PARA UNA MUESTRA.
a) Contraste sobre la media:
a1) Conocida σ2 :
z=
X − µ0
σ/ n
es N (0, 1)
con muestras grandes. Con muestras pequeñas (n<30) dicho estadístico seguirá
una distribución muestral t con n-1 g.l. (Ejs. 3.2, 3.3., 3.4 y 4.1 de Pardo y San
Martín, pps 142, 162, 169 y 187, respectivamente; San Martín et al, pp. 280).
a2) Desconocida σ2 :
Supuestos: con contrastes unilaterales es necesario que las muestras sean
grandes (n>30) (Ej. 4.2. Pardo y San Martín, pp 190; San Martín et al, pp. 282;
pp. 293 Glass y Stanley).
b) Contraste sobre la proporción:
z=
P − π0
π 0 (1 − π 0 )
n
es
N(0, 1)
Supuestos: población binomial, nπ ≥ 5 ; (Ej. San Martín et al, pp. 284;
pp. 590 de Cuadras et al; Visauta y Batallé, pps. 77 y 78).
20
c) Contraste sobre la varianza:
Si n≤ 100
Si n>100
z=
s2 − σ 2
σ 2 2/n
es N(0, 1)
Supuestos: población normal. (Ejs. San Martín et al, pp. 286; Glass y Stanley,
pp. 301; pp 88 deGotor; pp. 593 de Cuadras; Viasuata y Batallé, pps. 178-180).
21
TEMA 4. CONTRASTE DE HIPÓTESIS PARAMÉTRICO
Vamos a ver en este tema las principales pruebas estadísticas utilizadas para
contrastar hipótesis relativas a dos o más muestras o condiciones (bien sean
éstas independientes o relacionadas). Por muestras independientes entendemos
muestras formadas por sujetos que no guardan ninguna relación entre sí, como
ocurre por ejemplo, cuando asignamos al azar los participantes a las distintas
condiciones (es decir, cuando la VI es inter). Por muestras relacionadas
entendemos aquellas entre las que haya sospecha de no ser realmente
independientes, como ocurre p.e. cuando la VI es intra (es decir, ante
mediciones repetidas de los mismos sujetos), o muestras formadas por
familiares, etc.
Para aplicar este tipo de pruebas (llamadas parámetricas) los datos han de
satisfacer algunos supuestos generales (la VD ha de ser cuantitativa, distribuirse
normalmente, tamaño muestral suficiente –no menos de 15 sujetos por
condición-) y otros supuestos específicos de cada prueba. Cuando algunos de
estos supuestos no se cumplen los datos deben de ser analizadas mediante
pruebas no paramétricas (tema 5).
a) Contraste sobre la diferencia de dos medias independientes:
2
2
(a1) conocidas σ 1 y σ 2 )
z=
(X1 − X 2 ) − (µ 1 − µ 2 )
σ 21 σ 22
n1 + n 2
es N (0, 1)
Supuestos: poblaciones normales; muestras grandes (n1+n2>30) e
independientes. Si las muestras son pequeñas el anterior estadístico sigue un
modelo t con n1+n2-2 gl. (Ej. 4.3. Pardo y Sanmartín, pp. 193)
22
2
2
(a2) desconocidas σ 1 y σ 2 aunque supuestamente iguales1
t=
(X1 − X 2 ) − (µ 1 − µ 2 )
" n 1s 21 + n 2 s22
#
$ n1 + n 2 − 2
es t n
%" 1
1
& $ n + n %'
' 1
2
1
+n −2
2
Supuestos: poblaciones normales y muestras independientes. Si las muestras son
grandes el anterior estadístico sigue un modelo N(0,1). (Ej. 4.4. Pardo y
Sanmartín, pp. 196)
2
2
(a3) desconocidas σ 1 y σ 2 y diferentes2
es t con
Supuestos: poblaciones normales y muestras independientes de tamaño más o
menos similar. Si las muestras son grandes el anterior estadístico sigue un
modelo N(0,1). (Ejs. 4.5. Pardo y Sanmartín, pp. 200; San Martín et al, pp. 293;
Glass y Stanley, pp 295; Cuadras, pps. 606-610).
(a4) ante muestras relacionadas o dependientes
t=
D−µ
sd / n
es t n −1
siendo D y s d , respectivamente, la media y cuasi-desviación típica de la
distribución de las diferencias. Supuestos: poblaciones normales (Ej. 4.6. Pardo
y Sanmartín, pp. 205; San Martín et al, pp. 296; Glass y Stanley, pp 298).
1
Para poner a prueba este supuesto hay que aplicar previamente el estadístico referido en el
punto b1 de este mismo tema.
2 Para poner a prueba este supuesto hay que aplicar previamente el estadístico referido en el
punto b1 de este mismo tema.
23
b) Contraste sobre el cociente entre dos varianzas:
(b1) con muestras independientes
Supuestos: poblaciones normales y muestras grandes. Poner la varianza mayor
en el numerador (s12 ≥ s22 ) y utilizar contrastes unilaterales derechos (Ej. 4.6.
Pardo y Sanmartín, pp. 214; San Martín et al, pp. 287; Cuadras, pps.598-600;
Glass y Stanley, pp. 304).
(b2) con muestras relacionadas o dependientes
(Ej. San Martín et al, pp. 290; Cuadras, pps.601; Gotor, pp. 91; Glass y Stanley,
pp. 306; Visauta y Batallé, pps. 185, 186)
24
EL ANOVA
En el punto anterior hemos visto cómo a través de un test t o z se puede poner a
prueba la hipótesis acerca de la diferencia entre dos medias. Pero en
investigación experimental muy frecuentemente se ponen a prueba hipótesis
relativas a si existen diferencias en la eficacia de k distintos tratamientos (k>2),
es decir, hipótesis del tipo H 0 : µ 1 = µ 2 =.. .= µ k . Una posible solución para el
caso de k muestras podría ser comparar por pares tales medias, hasta completar
todas las posibles (k(k-1)/2) combinaciones. Sin embargo no es ésta una
solución recomendable dado que α crece exponencialmente a medida que k
aumenta: la probabilidad verdadera de cometer el error tipo I (p(α)) tras las
(n(n-1)/2) comparaciones viene dada por la llamada desigualdad de Bonferroni
(siendo α el nivel de riesgo que a priori estamos dispuestos a asumir):
p(α) = 1 - (1-α)k
Por ello se hace necesario desarrollar una nueva técnica de análisis estadístico
que permita verificar hipótesis de ese tipo manteniendo a niveles constantes α.
Esta técnica se conoce con el nombre de 'análisis de la varianza' (o también
ANOVA, acrónimo de 'Analysis of variance'), y fue desarrollada por Fisher a
partir de 1930. Podemos afirmar que el ANOVA es la técnica de análisis
estadístico más utilizada en la investigación experimental y cuasi-experimental
en Psicología (de hecho más del 75% de las artículos revisados son analizados a
través de ANOVA), de tal modo que hoy no se puede hablar de hacer
experimentación en cualquier rama de la Ciencia sin conocer la técnica básica
de análisis paramétrico que es el ANOVA.
Dado que no existe un único tipo de ANOVA, daremos un breve esquema
clasificatorio de los distintos tipos de ANOVA. Como veremos ello conlleva
hablar de los distintos tipos de diseño experimental, hasta tal punto que
determinados autores (p.e. Winer, 1971) identifican el diseño con el modelo
matématico de ANOVA que legitima su análisis.
Podríamos hablar de los siguientes tipos de ANOVA en base a estos criterios
clasificatorios:
a) Por el número de factores (o VIs): Si manipulamos una sola VI se habla
de ANOVA unifactorial. Cuando manipulamos más de una VI se habla de
ANOVA factorial. En este último caso si se habla de un ANOVA factorial
4 x 2, significa que manipulamos 2 Vis, la primera con 4 niveles y la
segunda con 2, lo que da un total de 8 condiciones o tratamientos
experimentales distintos. En esta asignatura sólo analizaremos ANOVAS
25
unifactoriales, los ANOVAS factoriales se verán en el módulo de Diseños
de investigación en Psicología (4º curso).
b) Por el modo en cómo asignemos los sujetos a los tratamientos
hablaremos de:
b1). ANOVAs inter o de grupos al azar cuando asignemos al azar un
grupo distinto de sujetos a cada uno de los tratamientos
experimentales (hablándose entonces de VI inter o entresujeto -del
inglés 'between subjects').
b2) ANOVAs intra o diseños de medidas repetidas cuando trabajemos
con una única muestra que reciba todos los tratamientos
experimentales (hablándose entonces de VI intrasujeto -del inglés
'within subjects'-).
b3) ANOVAs factoriales mixtos cuando manipulemos al menos una
variable inter y al menos una variable intrasujeto. P.e. si se habla de
un ANOVA factorial 4 (inter) x 2 (intra), significa que manipulamos 2
Vis, la primera con 4 niveles inter (es decir con 4 muestras asignadas
al azar a dichos niveles) y la segunda con 2 niveles intra (es decir, que
las anteriores 4 muestras son medidas 2 veces en los niveles de esta
VI intra)
c) Por el número de VDs medidas: los ANOVAS que acabamos de ver se
refieren a experimentos donde los sujetos son medidos en una sola VD (lo
que suele ser lo más frecuente). Pero cuando trabajamos con más de una
VD se suele hablar de MANOVA (siglas de 'Multivariate analysis of
variance') asociados a los distintos tipos de ANOVA que acabamos de ver.
26
EL ANOVA UNIFACTORIAL INTER
El ANOVA es una técnica que descompone la variabilidad observada en la VD
como la suma de varios componentes independientes que pueden asignarse a
causas distintas. Como dijimos arriba la hipótesis que se pone a prueba en un
diseño de un factor de grupos al azar es del tipo H 0 : µ 1 = µ 2 =.. .= µ k (siendo k el
número de niveles de la VI) frente la hipótesis alternativa que especifica que al
menos una de aquellas igualdades no es satisfecha por los datos.
Para poder aplicar un ANOVA inter de han de cumplir una serie de
condiciones:
a) La VD ha de ser cuantitativa (escala de intervalo o razón)
b) Las puntuaciones de los sujetos en la VD se han de distribuir de acuerdo
al modelo normal. La violación de este supuesto no suele acarrear
consecuencias graves en el proceso de decisión estadística siempre y
cuando las muestras con las que trabajemos sean grandes (n>35). De todos
modos podemos verificar este supuesto aplicando en el SPSS las pruebas
de Kolmogorov-Smirnov o de Shapiro-Wilks.
c) Las varianzas de los k grupos han de ser similares, es decir, no deben
diferir estadísticamente entre sí, o lo que es lo mismo, se debe verificar
H 0 : σ 21 = σ 22 =.. .= σ 2k . A este requisito se le conoce como requisito de
homoscedasticidad. Su incumplimiento no suele ser grave si las muestras
son grandes y de un mismo tamaño, pero si éste varía entonces la
probabilidad de cometer el error tipo I es mayor que α a medida que el
grupo de tamaño menor es el que más variabilidad presenta. El SPSS
permite poner a prueba este supuesto mediante el test de Levene (en
Analizar > comparar medias > ANOVA de un factor)
El modelo teórico lineal para un ANOVA inter descompone la puntuación de un
sujeto i en el tratamiento j (Xij) como
Xij = µ + αj + Eij
(1)
es decir define la puntuación Xij como la suma de tres componentes:
µ es la media general en la VD de los distintos grupos de tratamiento, la
cual es desconocida y constante para todas las observaciones.
27
αj representa el efecto puro del tratamiento j en el sujeto i, y
Eij es el error experimental y representa todas las fuentes incontroladas de
variación que afectan a la medida del sujeto i en el tratamiento j.
ESTIMACION DE LOS PARAMETROS DEL MODELO.
Se puede demostrar (ver p.e. Glass y Stanley, 1974; pp 343) que los respectivos
estimadores insesgados de µ, αj y Eij son
µˆ = XT
αˆ j = Xj − XT
Eˆ = X − X
ij
ij
j
K
siendo XT la media general de todos los N sujetos (N = ∑ n j ) adscritos a todos los
1
tratamientos, y Xj la media de los sujetos adscritos al tratamiento j.
Podemos ahora sustituir en (1) y quedaría
X ij = X T + (X j − XT ) + (X ij − X j )
o lo que es lo mismo
X ij − X T = (X j − XT ) + (X ij − X j )
(2)
Esta igualdad es cierta para todas y cada una de las puntuaciones de nuestra
investigación. Si ahora se suman todas las puntuaciones de todos los sujetos y
elevamos cada miembro de la ecuación al cuadrado (para que los signos
positivos y negativos no se anulen, dando un valor 0) llegamos a obtener:
k ni
∑∑
1 1
k ni
k ni
1 1
1 1
(Xij − XT )2 = ∑ ∑ (X j − XT )2 + ∑ ∑ (X ij − X j )2
(3)
El primer término a la izquierda de la igualdad se conoce con el nombre de
suma de cuadrados total (SST) y representa la suma de las desviaciones al
cuadrado de cada cantidad respecto a las media total, es decir, representa la
variabilidad total de nuestros datos.
El primer término a la derecha de la igualdad es la suma de cuadrados
intergrupos (SSinter) o tratamental (SStrat), y representa la proporción de
variabilidad del total debida al efecto puro de los tratamientos sobre los sujetos.
El segundo término a la derecha de la igualdad es la suma de cuadrados de
error o intragrupo (SSe) y representa la proporción de variabilidad del total que
28
no es debida al efecto de los tratamientos sobre los sujetos, siendo debida a otras
causas, generalemente desconocidas y espúreas (diferencias individuales entre
los sujetos que configuran cada muestra, efectos incontrolados de variables
extrañas, etc.).
Así pues podemos escribir (3) como
SST = SSinter + SSe
quedando descompuesta la variabilidad total de un diseño como la suma de dos
componentes aditivos, uno que refleja la variabilidad debida al efecto 'puro' de
los tratamientos y el otro que refleja la variabilidad debida a efectos espúreos.
Nuestro objetivo será ahora relacionar estas sumas de cuadrados con el contraste
de la hipótesis H 0 : µ 1 = µ 2 =.. .= µ k . La misión del experimentador será intentar
reducir la SSe tanto como le sea posible mediante técnicas de control
experimental (aleatorización, elección de un diseño adecuado,...), así como
maximizar la SSinter (aplicando los tratamientos de forma óptima), pues de este
modo, como vamos a explicar ahora, maximizará las posibilidades de rechazar
la Ho, es decir, de demostrar que sus tratamientos producen efectos en la VD.
En el módulo de Diseños de Investigación en Psicología (4º curso) se incidirá
mucho en estos puntos.
Pero antes presentaremos un ejemplo que clarificará estas ideas.
EJEMPLO.
Imaginemos que un investigador está interesado en comprobrar si son
igualmente eficaces o no tres métodos de enseñanza del inglés (A1, A2, A3).
Para ello toma al azar una muestra de 15 sujetos, y los asigna al azar a los 3
métodos y tras un curso de docencia mide a dichos grupos en la misma VD (p.e.
notas en un examen de inglés). Por tanto la hipótesis que ponemos a prueba es
H 0 : µ A1 = µ A 2 = µ A3 frente a H1 que especifica que al menos una de esas
igualdades no es cierta.
29
Las puntuaciones con sus respectivas medias grupales y media total fueron
Representemos en un continuo las 3 medias grupales, así como la media total y
p.e. la puntuación del segundo sujeto del grupo A1 (que es un 2).
XT
A1
suj 2=2
A3
3.2
4.8
A2
5.26
7.8
de
dinter
dT
Podemos apreciar como la igualdad (2) es cierta para el segundo sujeto del
grupo A1 (así como también es cierto para todos y cada uno de los 15 sujetos de
la investigación)
X ij − X T = (X j − X T ) + (X ij − X j )
(2 - 5.26) = (3.2 - 5.26) + (2 - 3.2)
dT = dinter + de
distancia Total = distancia inter + distancia de error
Vamos a ver ahora la relación de esto con el contraste de Ho:
dinter representa el efecto de cada tratamiento sobre la VD, es decir,
(X j − X T )
o lo que es lo mismo, la desviación de la media de cada grupo
respecto a la media total. Se puede entender fácilmente que a medida que
las 3 dinter (relativas a los tres grupos de tratamiento) difieran más entre sí
30
más posibilidades habrá de rechazar Ho. Si esto no se ve claro piénsese por
ejemplo qué ocurriría si en nuestro ejemplo los 15 sujetos hubiesen
obtenido una puntuación de 5 puntos. Entonces X A1 = X A 2 = X A3 = X T = 5
con lo que habría evidencia para pensar que Ho es claramente cierta.
de representa (X ij − X j ) o, lo que es lo mismo, la desviación de cada sujeto
respecto a su media grupal, es decir, el efecto distinto que un mismo
tratamiento provoca sobre cada una de las personas de una muestra (debido
a diferencias individuales,...). Probablemente si la unidad experimental
fuese, en vez de personas, por ejemplo, máquinas (o mejor robots)
probablemente de sería en cada caso 0, debido a que no existiría
variabilidad intragrupal en la asimilación del tratamiento (es decir, cada
uno de los 5 robots de cada grupo ante un mismo tratamiento darían una
misma respuesta). Un ejemplo prototípico en el que la variabilidad de error
sería nula podría ser éste:
Xj =
A1
3.2
3.2
3.2
3.2
3.2
A2
7.8
7.8
7.8
7.8
7.8
A3
4.8
4.8
4.8
4.8
4.8
3.2
7.8
4.8
X T = 5.26
Entendido esto podemos preguntarnos sobre cómo calcular la variabilidad inter
e de error que hay en todos los datos de nuestro ejemplo. Para ello aplicaremos
la expresión (3) obteniendo
66.9 = 54.5 + 12.4
SST = SSinter + SSe
lo que quiere decir que de las 66.9 unidades de variabilidad que hay en nuestros
datos 54.5 son debidas a los efectos 'puros' de los tratamientos y 12.4 a otras
causas espúreas desconocidas.
31
LA TABLA DE ANOVA.
Entendido el concepto de SS se hace necesario presentar un nuevo término
conocido como grados de libertad (gl). En nuestro ejemplo las SS inter e intra
(54.5 y 12.4) no son directamente comparables dado que el valor 12.4 viene de
hallar las diferencias cuadráticas de 15 datos respecto a sus medias grupales,
mientras que 54.5 viene de hallar las diferencias de tan sólo 3 datos (las medias
grupales) respecto a la media total (si bien tales diferencias cuadráticas aparecen
repetidas 5 veces cada una de ellas). El concepto de gl viene de las ciencias
físicas en relación a características del movimiento de los objetos: un objeto que
se mueve en línea recta tiene 1 gl; si se mueve en un plano tiene 2 gl; en el
espacio, 3 gl,... En ANOVA los gl se refieren a criterios de ponderación de las
SS. En concreto los gl asociados a las tres SS vistas son
glT = N-1
gl inter = k-1
gle = N-k
siendo k el número de tratamientos o condiciones experimentales y N el número
K
total de sujetos, es decir, N =
∑n
j
, verificándose siempre que glT = gl inter +
1
gle.
Si ponderamos la SSinter por sus respectivos gl obtenemos la llamada media
cuadrática inter (MSinter), mientras que si ponderamos la SSe por sus
respectivos gl obtenemos la llamada media cuadrática de error (MSe).
Tales MS representan varianzas1 y ya son directamente contrastables. ¿Se
comprende ahora el porqué del nombre análisis de la varianza?.
En nuestro ejemplo la MSinter = 27.25 y la MSe=1.03, luego podemos decir
que en nuestros datos el efecto de los tratamientos es 26.46 (27.25/1.03) veces
mayor que el efecto de factores espúreos. Podemos empezar pues a sospechar
seriamente que Ho va a ser rechazada.
Sin embargo para confirmar tal sospecha se requiere aplicar un test estadístico.
1
Obsérvese si no su similitud con la fórmula de la cuasi-varianza:
2
s =
∑(X
− X)
n −1
2
i
32
Si como hemos dicho MSinter y MSe representan varianzas, en el tema 11
vimos cómo para contrastar hipótesis acerca del cociente de dos varianzas
utilizábamos un test F. En nuestro ejemplo pues F=26.46 que contrastado contra
el centil 95 de una distribución F con 2 gl inter asociados al numerador y 12 gle
asociados al denominador permitirá rechazar Ho para un nivel de riesgo de 0.05.
Los anteriores conceptos suelen presentarse agrupados en una tabla denominada
tabla de ANOVA que para nuestros datos quedaría así:
FV
inter
error
Total
SS
54.5
12.4
66.9
GL
2
12
14
MS
27.25
1.03
F
26.46
p
<.05
En ella FV son las abreviaturas de 'fuente de variación' que en este modelo
hemos visto que son (excluida la total) 2 (la inter y la de error).
El programa SPSS realiza estos cálculos (así como la prueba de Levene)
mediante el comando Analizar > Comparar medias > ANOVA de un factor
PRUEBAS A POSTERIORI
Si tras un ANOVA hemos aceptado Ho (es decir la razón F no ha alcanzado la
significación estadística) la interpretación de los datos es clara en el sentido que
se confirma la idea de que los tratamientos no son eficaces sobre la VD (y ahí
acaba el análisis estadístico).
Pero cuando hemos rechazado Ho lo que significa es que al menos una de las
diferencias entre pares de medias es significativamente. En nuestro ejemplo el
haber obtenido una F significativa nos lleva a concluir que los distintos métodos
del inglés producen resultados distintos pero no podemos decir todavía qué
método es el más eficaz. Es decir rechazar Ho puede significar que sea cierta
una de estas tres alternativas:
(a) µ A1 ≠ µ A 2 = µ A3
(b) µ A1 = µ A 2 ≠ µ A3
o (c) µ A1 ≠ µ A 2 ≠ µ A3
33
Ls pruebas estadísticas a posteriori, llamadas así por que se aplican tras haber
hallado una F significativa, nos ayudarán a elegir cuál de estas tres alternativas
es la cierta. Todas ellas comparan las diferencias entre los pares de medias
muestrales.
Una primera solución podría ser aplicar k(k-1)/2 pruebas t sobre tales pares de
medias si bien ya dijimos que no es ésta una solución recomendable dado que α
crece exponencialmente a medida que k aumenta. En este caso Bonferroni
recomendó rechazar Ho con niveles de riesgo menores o iguales a α/(k(k-1)/2).
De este modo estas pruebas t a posteriori se denominan t de Bonferroni.
Existen otras muchas pruebas a posteriori entre las que destacan las de
Newman-Keuls, Scheffé, Tukey, etc. Más o menos todas llevan a resultado
similares. El programa SPSS realiza todas ellas (seleccionándolas en opciones
del ANOVA de un factor).
34
EL ANOVA UNIFACTORIAL INTRA
Los ANOVAS intrasujeto son aquellos en los que una sola muestra de sujetos
pasa por todas las condiciones experimentales (por lo que se llaman diseños de
medidas repetidas). Presentan una gran ventaja de economía pues al trabajar
con una única muestra los esfuerzos materiales y humanos que se involucran en
la investigación son menores que los utilizados en un diseño de grupos al azar.
Sin embargo presentan algunos desventajas que hay que conocer:
En primer lugar no todas las VI admiten una manipulación intra. Sólo aquellas
VI que son susceptibles de manipulación directa y que no producen efectos
persistentes en el organismo de los participantes (es decir, que desaparecen
entre una medición y otra) pueden manipularse intrasujeto, mientras que las
manipuladas por selección (p.e. el sexo, la edad, el lugar de nacimiento, etc)
sólo admiten manipulación inter.
En segundo lugar, siempre que medidos a los sujetos varias veces en el tiempo
se involucra el llamado efecto de la práctica: Cuando medimos a una muestra
varias veces, su rendimiento en la segunda medición no sólo refleja el efecto de
tal tratamiento si no la experiencia que han obtenido los sujetos en la primera
medición, etc. Para hacer que el efecto de la práctica se reparta por igual entre
todos los tratamientos podemos hacer principalmente dos cosas: (a) aleatorizar
para cada sujeto el orden de administración de los tratamientos o (b) emplear
procedimientos de contrabalenceo, es decir, hallar todas las posible formas de
combinar el orden de presentación de las k condiciones experimentales (habrá
k! formas posibles) y asignar cada una de ellas a uno o varios sujetos distintos
(aunque de este modo nuestra muestra tendrá que ser de tamaño k! o un
múltiplo de este número).
Por último, las mediciones han de estar poco espaciadas en el tiempo dado que
en caso contrario efectos madurativos de los sujetos pueden afectar a su
rendimiento en la VD.
En el módulo Diseños de Investigación en Psicología se explicarán ampliamente
los conceptos anteriores, aunque es imprescindible conocerlos al hablar de los
ANOVAS intra.
El ANOVA intra supone el cumplimiento del supuesto de esfericidad de los
datos (las varianzas y covarianzas de las puntuaciones de error (X ij − X j ) han
de ser similares) que es analizado por el test W de Mauchly (y que debe de
35
darnos no significativo, sig >. 05). Si no se cumple el programa nos da otros
estadísticos alternativos (p.e. Greenhouse-Geisser), o bien podemos recurrir a
un análisis no paramétrico (ver tema 12).
El SPSS realiza un ANOVA intra así:
- Analizar > Modelo general lineal > medidas repetidas (ponemos nombre
al factor y nº de niveles)
- Comprobar si se cumple el supuesto de esfericidad (test de Mauchly)
- Para hacer las pruebas a posteriori de Bonferroni ir a Opciones y meter
nuestro factor en “Mostrar las medias para”, seleccionar “Comparar los
efectos principales”+ “Ajuste del intervalo de confianza” +Bonferroni
36
TEMA 5. CONTRASTE DE HIPÓTESIS
NO-PARAMÉTRICO
Las pruebas de contraste de hipótesis no paramétricas se aplican
- bien cuando la VD venga medida en una escala ordinal (variables
semicuantitativas) o categorial (variables cualitativas)
- bien cuando venga medida en una escala de intérvalo (variables cuantitativas)
pero los supuestos teóricos en los que se basa la aplicación de las pruebas
paramétricas (normalidad de la VD, independencia de los errores,
homoscedasticidad, etc.) quedan seriamente dañados.
La estadística no-paramétrica o de distribuciones libres, está libre de los
supuestos sobre la distribución, o la dispersión e incluso es muy laxa sobre la
condición de medida que deben respetar las observaciones, ya que no necesita
utilizar puntuaciones exactas en sentido numérico, por lo que nos encontramos
con técnicas fáciles y que sólo requieren conocimientos matemáticos
elementales.
En general, la estadística no-paramétrica es la alternativa imprescindible
cuando no se puede usar la paramétrica. Sin embargo a igual de condiciones es
siempre preferible utilizar una prueba paramétrica a una prueba no paramétrica
dado que la potencia de aquellas es mayor, así como la interpretación de los
resultados es más completa (por ejemplo las pruebas paramétricas permiten
hallar las interacciones de las variables manipuladas, cosa que no podremos
hacer desde una perspectiva no paramétrica).
Como en el caso de la estadística paramétrica la prueba estadística
responde al diseño experimental planteado. En concreto, en la estadística noparamétrica la selección de la prueba adecuada dependerá del número de
condiciones o muestras experimentales que intervengan (1 condición, 2
condiciones o más de dos condiciones), del tipo de relación que se establece
entre dichas condiciones (muestras independientes vs mediciones repetidas de
una misma muestra o muestras relacionadas) y, del modelo de medición
subyacente a los datos (escala nominal vs escala ordinal).
Así mismo estas pruebas se pueden agrupar en base al objetivo que
persiguen:
a) Pruebas de bondad de ajuste (Ji-cuadrado, Kolmogorov): sirven para
comprobar si existen diferencias significativas entre las puntuaciones en la VD
de nuestra muestra y una distribución teórica conocida o supuesta bajo Ho (p.e.
37
si los datos se distribuyen uniformemente entre las distintas categorías
nominales; si se distribuyen de formal normal, etc).
b) Pruebas de posición (prueba de los signos o binomial): sirven para
verificar si el número de puntuaciones que quedan por debajo de determinada
posición o criterio (p.e. la mediana) se adecúa o no a lo predicho por Ho.
c) Pruebas de independencia (Ji-cuadrado): analizan mediante tablas de
contingencia y pruebas ji-cuadrado si existe relación entre dos variables
categoriales relativas a una misma muestra de sujetos o no (es decir que si son
variables relacionadas o independientes). Este punto se desarrollará en el tema
13.
En la tabla inferior aparecen las principales pruebas que vamos a ver en
este tema.
38
PRUEBAS NO PARAMÉTRICAS PARA UNA CONDICIÓN O
MUESTRA
De modo general y antes de presentar las técnicas concretas conviene
señalar lo que se entiende por una condición o muestra, ya que una muestra por
sí sola no indica nada si no se la compara con algún elemento de contraste.
Hablar de una sola muestra indica, precisamente, que el elemento de
comparación o contraste no es otra muestra sino la población, o algún tipo de
distribución o de supuesto.
2
Prueba Chi-cuadrado (χ ) .
La prueba ji-cuadrado fue sugerida por Karl Pearson como una forma
de valorar la bondad del ajuste de unos datos a una distribución de
probabilidad conocida. Desde entonces la prueba ji-cuadrado se ha
convertido en una prueba muy aceptada y aplicable a múltiples usos cuando
se dispone de datos independientes de tipo nominal. P.e. esta prueba es
equivalente a hacer un contraste de hipótesis sobre una proporción (ver tema
10) cuando la VD es dicotómica.
La prueba ji-cuadrado ofrece un test general sobre la existencia de
diferencias entre las categorías que agrupan a los datos de la variable
dependiente. La H0 indicaría que la proporción de elementos
correspondiente a cada categoría de la variable independiente es consistente
con una predicción específica. Por el contrario, la H1 representa una clara
inconsistencia de los elementos observados en una categoría con respecto a
la predicción específica.
Para su cálculo como primer paso se requiere conocer las frecuencias
empíricas (fe) que corresponden a cada una de las k categorías. Una vez
obtenidas estas frecuencias en las distintas categorías o casillas,
comparamos el valor de cada una de ellas con el valor esperado o frecuencia
teórica (ft) que es de esperar cuando Ho es cierta. El valor esperado puede
depender de una distribución teórica determinada con la que queremos
comparar nuestros datos, o bien, sencillamente, reflejar que los datos se
repartan por igual entre las distintas k categorías. A continuación calculamos
k
2
(f e − f t)
χ =∑
ft
1
2
39
χ2
k−1. Luego el
que se distribuye según un modelo de probabilidad
centil 95 de dicha distribución nos dará el punto que delimita la región de
rechazo de Ho (en ji-cuadrado los contrastes son siempre unilaterales
derechos).
Para poder aplicar esta prueba es necesario el cumplimiento de una
serie de condiciones:
- si k=2 no debe utilizarse si alguna celdilla tiene una ft<5. En este
caso podría aplicarse la prueba de Kolmogorov que luego veremos.
- si k>2 no debe utilizarse si (a) más del 20% de las celdillas tienen
ft<5 o (b) alguna tiene una ft<1. En estos casos es mejor aplicar la prueba de
Kolmogorov o agrupar categorías.
Para realizarla en el SPSS: Analizar > pruebas no paramétricas >
cuadros de diálogo antiguos > Chi-cuadrado
Ejemplos en Pardo y Sanmartín, 12.2, pp 553, 530 y 529; San Martín y
Pardo pp. 78 (ejs. 1 y 2), 82 y 83; Siegel, 66.
Prueba de Kolmogorov
Al igual que el test chi-cuadrado es una prueba de bondad de ajuste que se
aplica sobre cualquier tipo de datos (cualitativos agrupados en k categorías,
semicuantitativos o cuantitativos). La ventaja que tiene sobre el test chicuadrado es que no requiere de la satisfación de supuesto teórico alguno por lo
que es más utilizada que aquella.
Su significado radica en comparar en todas las categorías la proporción de
frecuencias acumuladas teóricas (pfat) que se da cuando Ho es cierta, contra la
proporción de frecuencias acumuladas empíricas (pfae) y analizar si el punto de
máxima discrepancia entre ambas proporciones hace rechazar Ho o no.
La prueba de Kolmogorov (así como la de Shapiro-Wilk) es condición
suficiente y necesaria para demostrar la normalidad de una distribución de
datos. Ejemplos en San Martín y Pardo pps. 87 y 88.
Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros
de dialogo antiguos > K-S de una muestra
40
Prueba binomial o de los signos.
Es una prueba de posición aplicada sobre datos cuantitativos o
semicuantitativos que serán luego dicotomizados en función de si quedan por
encima o por debajo del criterio que establece Ho (los que coinciden con el
criterio se deshechan). A los queden por encima los etiquetaremos con un signo
+, mientras que a los que queden por debajo los etiquetaremos con un signo -.
Se tratará de ver hasta qué punto el número de signos + y de signos - está dentro
de lo predicho por Ho.
Ejemplos 9.1, pp 419, Pardo y San Martín. Ej. 3.9 pp. 105 y pp. 92 de San
Martín y Pardo
Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros
de dialogo antiguos > binomial
41
PRUEBAS
NO
PARAMÉTRICAS
INDEPENDIENTES
PARA
2
MUESTRAS
Prueba de Mann-Whitney
La prueba de Mann-Whitney es adecuada cuando se quiere analizar dos
muestras en un diseño entre sujetos cuya variable dependiente está representada
por un modelo al menos ordinal. La prueba de Mann-Whitney es una alternativa
poderosa a la paramétrica t para grupos independientes.
La prueba de Mann-Whitney analiza las diferencias globales de los
grupos, para lo cual atribuye rangos a la puntuación de cada sujeto como si se
tratase de un solo conjunto de datos. En esta situación, si se cumple la H0 las
diferencias entre las dos condiciones serán aleatorias y las puntuaciones
mayores y menores, y por lo mismo los rangos, se repartirán en la misma
medida en ambas condiciones experimentales. Por el contrario, si existe una
clara preponderancia de rangos bajos o altos en una condición frente a la otra se
supone que indica la eficacia del tratamiento y el rechazo de la H0.
Ejemplos 9.3, pp 429, Pardo y San Martín; San Martín y Pardo pp. 128 y
132, Cuadras, 680, Siegel, 151.
Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros
de dialogo antiguos > 2 muestras independientes
Prueba de Chi-Cuadrado
Si comparamos si dos muestras independientes difieren en las k categorías
nominales de una VD la información resumida se presenta en una tabla de
contingencia 2 (grupos) x k categorías. La prueba de ji-cuadrado compara las
frecuencias empíricas (fe) en cada celdilla de la tabla con las frecuencias
teóricas (ft) esperadas bajo Ho. Las ft se calculan así:
ftij = (total de la fila i) x (total de la columna j) / nº total de casos
Obtenidas las ft para cada celdilla de la tabla de contigencia, calculamos el
estadístico ji-cuadrado así:
42
Χ2 = Σi Σj ((feij-ftij)2 / ftij)
que sigue una distribución de probabilidad
gl = (filas-1)(columnas-1) de la tabla de contigencia.
ji
cuadrado
con
Para poder aplicar este estadístico las ft < 5 no deben de aparecer en más del
20% de las celdillas de la tabla de contingencia (en caso de que esto ocurriera lo
mejor sería aplicar otra prueba como la de Kolmogorov).
La prueba de ji-ciadrado también se utiliza para analizar si existen diferencias
entre las proporciones (de una variable dicotómica o dicotomizada) entre dos o
más muestras independientes.
El programa SPSS nos permite el cálculo de dicho estadísitico así: Analizar >
Estadísticos descriptivos > Tablas de contingencia. En Estadísticos
seleccionaremos Chi-cuadrado. Si la sig del chi-cuadrado ≤ .05 querrá decir que
hay diferencias entre ambas muestras, si sig es >.05 querrá decir que no hay
diferencias. Hay que comprobar (en la nota a que aparace bajo la tabla de chicuadrado) que no más del 20% de las casillas tengan ft < 5. Por defecto el SPSS
asigna valores esperados iguales para todas las categorías, pero podemos
modificarlos asignando porcentajes distintos a cada categoría (p.e. si
quisiéramos asignar un 70% a la categoria 1 y un 30% a la 2 pondríamos en
añadir valores 70 y 30, respectivamente)
Ejs 12.7 P&SM pp554; fichero GSS93: ¿Se reparte por igual el sexo? ¿Y las
preferencias religiosas?
Prueba de Kolmogorov
Se puede utilizar en los mismos casos que ji-cuadrado sin estar pendientes de
que no más del 20% de las casillas tengan ft < 5.
Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros
de dialogo antiguos > K-S de una muestra
43
PRUEBAS
NO
RELACIONADAS
PARAMETRICAS
PARA
2
CONDICIONES
Prueba de Wilcoxon
La prueba de Wilcoxon es apropiada cuando se tiene observaciones en
pares y cuando el tipo de medición responde al menos al modelo ordinal. La
prueba de Wilcoxon es una alternativa poderosa a la paramétrica t para grupos
relacionados.
Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros
de dialogo antiguos > 2 muestras relacionadas
Ejemplos 9.4, pp 432, Pardo y San Martín; San Martín y Pardo pp. 116,
Cuadras, 693, Siegel, 101 y 104.
Prueba de McNemar
La prueba de McNemar analiza si existen cambios en una muestra medida dos
veces en el tiempo (p.e. en diseños pre-post o antes-después) en una variable
categorial dicotómica, es decir, compara dos proporciones relacionadas. En el
SPSS bien a) selecionaremos Analizar > Estadísticos descriptivos > Tablas de
contingencia y en Estadísticos seleccionaremos McNemar, o b) Pruebas no
paramétricas > Cuadros de dialogo antiguos > 2 muestras relacionadas >
McNemar
Si la sig de McNemar es ≤ .05 querrá decir que hay un cambio significativo en
entre ambos momentos temporales, mientras que si sig >.05 indicará que no ha
habido un cambio significativo.
44
PRUEBAS PARA MAS DE 2 MUESTRAS INDEPENDIENTES.
Prueba de Kruskall-Wallis.
La prueba de Kruskal-Wallis es adecuada para analizar los datos derivados
de más de dos (k) muestras o condiciones experimentales ejecutadas por grupos
de sujetos diferentes y cuya VD soporta, al menos, un modelo ordinal. Es decir,
esta prueba es adecuada para el análisis de un diseño entre sujetos con más de
dos grupos medido al menos ordinalmente. La prueba de Kruskal-Wallis, puede
considerarse, por tanto como una alternativa no-paramétrica al Análisis de la
Varianza para grupos completamente aleatorizados.
La estructura de esta prueba es similar a la de Mann-Whitney y el
razonamiento, por tanto, se debe apoyar en los mismos postulados.
Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros
de dialogo antiguos > K muestras independientes
Si hemos rechazado Ho y quisiéramos hacer pruebas a posteriori lo más
correcto sería aplicar k(k-1)/2 pruebas de Mann-Whitney pero aplicando la
corrección de Bonferroni, es decir, rechazando en cada una de ellas Ho con
niveles de riesgo menores o iguales a α/(k(k-1)/2).
Ejemplos 9.5, pp 436, Pardo y San Martín; San Martín y Pardo pp. 229 y
234, Siegel, 217, 220.
Prueba de Ji-Cuadrado
Es la generalización de la prueba de ji-cuadrado de dos muestras
independientes a tres o más muestras independientes. En el programa SPSS
Analizar > Estadísticos descriptivos > Tablas de contingencia. En Estadísticos
seleccionaremos Chi-cuadrado.
Ejs pps 535, 539 Pardo y San Martín.
45
PRUEBAS NO PARAMETRICAS PARA MAS DE 2 CONDICIONES
RELACIONADAS.
Prueba de Friedman
Puede considerarse como una extensión de la prueba de Wilcoxon. La
prueba de Friedman es una alternativa poderosa al análisis de varianza para un
grupo de sujetos que reciben una variable intra.
Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros
de dialogo antiguos > K muestras relacionadas
Si hemos rechazado Ho y quisiéramos hacer pruebas a posteriori lo más
correcto sería aplicar k(k-1)/2 pruebas de Wilcoxon pero aplicando la
corrección de Bonferroni, es decir, rechazando en cada una de ellas Ho con
niveles de riesgo menores o iguales a α/(k(k-1)/2).
Ejemplos 9.7, pp 445, o 9.16, pp 452, Pardo y San Martín. San Martín y
Pardo pp. 251, Siegel, 119.
Prueba de Cochran
Se utiliza cuando comparamos más de 2 muestras relacionadas y la
variable dependiente es dicotómica.
Para realizarla en el SPSS: Analizar > Pruebas no paramétricas > Cuadros
de dialogo antiguos > K muestras relacionadas.
Si hemos rechazado Ho y quisiéramos hacer pruebas a posteriori lo más
correcto sería aplicar k(k-1)/2 pruebas de McNemar pero aplicando la
corrección de Bonferroni, es decir, rechazando en cada una de ellas Ho con
niveles de riesgo menores o iguales a α/(k(k-1)/2).
46
TEMA 6. CONTRASTES
PREDICCION
EN
ASOCIACION
Y
1. Inferencia sobre la asociación entre datos categóricos.
Como ya dijimos en el tema anterior, la información resumida relativa a dos
variables cualitativas o categoriales se presenta en las llamadas tablas de
contingencia. Para analizar el grado de asociación entre dichas variables se
utilizan estadísticos basados en la prueba ji-cuadrado de Pearson (p.e. Phi y V
de Cramer), que analiza el supuesto de independencia de dos variables
categoriales comparando las frecuencias observadas (fo) en cada celdilla de la
tabla con las frecuencias esperadas (fe) bajo la Ho del supuesto de
independencia, que se calculan así:
feij = (total de la fila i) x (total de la columna j) / nº total de casos
Obtenidas las fe para cada celdilla de la tabla de contigencia, calculamos el
estadístico ji-cuadrado así:
Χ2 = Σi Σj ((foij-feij)2 / feij)
que sigue una distribución de probabilidad
gl = (filas-1)(columnas-1) de la tabla de contigencia.
ji
cuadrado
con
Para poder aplicar este estadístico las fe < 5 no deben de aparecer en más del
20% de las celdillas de la tabla de contingencia.
La prueba de ji-cuadrado también se utiliza para analizar si existen diferencias
entre las proporciones (de una variable dicotómica o dicotomizada) entre dos o
más muestras independientes: si transformamos dichas proporciones en
frecuencias observadas fo y configuramos una tabla de contingencia 2 (niveles
de la variable dicotómica) x k muestras, la prueba de ji-cuadardo nos dirá si
existen o no diferencias significativas entre dichas muestras en dicha variable
dicotómica.
El programa SPSS nos permite el cálculo de dicho estadísitico así: Analizar >
Estadísticos descriptivos > Tablas de contingencia. En Estadísticos
seleccionaremos Chi-cuadrado y la Phi y V de Cramer para calcular el grado de
relación entre las dos variables en una escala de 0 a 1. Si la sig de la Phi o de la
47
V de Cramer ≤ .05 querrá decir que los datos no son independientes, es decir
que están relacionadas, mientras que si sig > .05 es que son independientes, es
decir que no hay relación entre ambas variables categoriales. Hay que
comprobar (en la nota a que aparace bajo la tabla de chi-cuadrado) que no más
del 20% de las casillas tengan fe < 5
Ejs pps 535, 539 Pardo y San Martín.
2. Inferencia sobre los coeficientes de regresión.
Un modelo de regresión lineal es una ecuación de primer orden que asocia una
variable dependiente (también llamada criterio), cuantitativa o semicuantitativa,
a una o varias (k) variables independientes (también llamados predictores),
cuantitativas, semicuantitativas, o cualitativas dicotómicas de acuerdo a una
función lineal del tipo:
VD = a + b1VI1 + b2VI2 + ... + bkVIk
donde a es la constante de la recta (o punto donde dicha recta corta al eje de
ordenadas cuando la VI vale 0) y las b representan la proporción de cambio que
se observa en la VD por cada unidad de cambio de cada VI.
Dado que cada VI viene medida en una escala distinta las b no son directamente
comparables entre sí. Para ello el SPPS calcula también las betas de los
modelos de regresión (o coeficientes tipificados o estandarizados, es decir,
previa tipificación de las VIs) y que nos sirven además para analizar si la
aportación de cada VI es significativa o no para nuestro modelo de regresión (si
la sig asociada a una beta es ≤ .05 entonces es significativa, si es sig > .05 no lo
es).
Estimar un modelo de regresión lineal nos permite pues analizar tres objetivos
principales: 1) analizar si el modelo en su conjunto (es decir con todas las VIs
seleccionadas) es predictivo o no, viendo la R2 (que nos dice el porcentaje de
varianza de la VD que explican las VIs) y la sig del ANOVA (si sig≤ .05
entonces el modelo es predictivo); 2) analizar el papel relativo que cada VI
juega en el modelo (viendo las betas y su significación: si la sig de una beta ≤
.05 entonces dicha VI debe de ser incluida en el modelo, en caso contrario
puede ser eliminada); 3) una vez comprobado que el modelo es predictivo,
utilizarlo para pronosticar las puntuaciones en la VD de nuevos sujetos de los
que disponemos sus puntuaciones en las VIs, sustituyendo sus valores en la
48
ecuación de regresión.
Para hacer un modelo de regresión lineal en el SPSS seleccionaremos Analizar
> Regresión > Lineales, eligiendo la variable criterio (VD) y la(s) variables
predictoras (VIs). En Estadísticos elegiremos Durbin-Watson, Diagnóstico de
Colinealidad. En Guardar: residuos no tipificados. En Opciones: Valores
perdidos: reemplazar por la media.
Por ejemplo imaginemos que en el fichero GSS93 queremos predecir los
ingresos del encuestado en función de estas 5 VIs: años de escolarización, edad
del encuestado, título escolar del padre, título escolar de la madre y horas diarias
viendo TV. Obtendremos los siguientes resultados:
Resumen del modelob
Modelo
1
R
,459a
R cuadrado
,210
R cuadrado
Error típ. de la
corregida
estimación
Durbin-Watson
,205
4,754
1,887
ANOVAb
Modelo
1
Regresión
Residual
Total
Suma de
cuadrados
4451,974
16703,911
21155,885
gl
5
739
744
Media
cuadrática
890,395
22,603
F
39,392
Sig.
,000a
Coeficientesa
Modelo
1
(Constante)
Años de escolarización
Título escolar del padre
Título escolar de la madre
Edad del encuestado
Horas diarias viendo TV
Coeficientes no estandarizados
B
Error típ.
,655
1,191
,643
,068
,044
,178
,043
,229
,097
,015
-,433
,095
Coeficientes
tipificados
Beta
,344
,010
,008
,225
-,154
t
,550
9,395
,249
,190
6,564
-4,554
49
Sig.
,582
,000
,804
,850
,000
,000
Nos indicarían que el ajuste global del modelo es significativo (sig=.0001), que
dicho modelo explica el 21% de la varianza de la VD (a su vez R=.459 es la
correlación r entre Y e Y', es decir, entre los valores reales en Y y los
pronosticados por el modelo de regresión, respectivamente), y que las variables
título escolar del padre y de la madre no aportan nada al mismo, por lo que
podríamos eliminarlas. La beta de años de escolarización indica que por cada
año de escolarización los ingresos aumentan en 0.344 unidades; la beta de edad
indica que cada año aumenta los ingresos e .225 unidades y la beta de horas
viendo TV indica que por cada hora de promedio diaria que se ve la TV los
ingresos disminuyen en .154 unidades.
Este mismo procedimiento de análisis es aplicable a otros modelos de regresión
no lineal.
Aspectos a tener en cuenta a la hora de estimar un modelo de regresión.
a) Un modelo de regresión descansa sobre unos supuestos teóricos que han de
ser verificados y tenidos en cuenta:
a1) se asume que la relación entre los variables implicadas en el modelo ha
de ser lineal, aunque este supuesto casi siempre se da por válido sin
analizarlo
a2) los residuos (Yi-Yi') han de ser independientes unos de otros, es decir
no han de estar autocorrelacionados. En el SPSS este supuesto lo podemos
comprobar mediante el cálculo estadístico de Durbin-Watson (Analizar >
Regresión Lineales > Estadísticos: Residuos > Durbin-Watson) que debe
50
darnos valores comprendidos entre 1.5 y 2.5 para que se cumpla dicho
supuesto. En nuestro ejemplo dicho estadístico vale 1.887 luego hay
independiencia en los residuos.
a3) la distribución de los residuos (Yi-Yi') ha de ser normal con media = 0.
En el SPSS este supuesto lo podemos comprobar en Gráficos: Gráficos de
residuos tipificados > Histograma y hacer una interpretación visual del
mismo. O también podemos pedirle al SPSS que nos guarde los residuos
como una nueva variable (primero en Analizar > Regresión Lineales >
Estadísticios > Residuos > Diagnóstico por casos >Todos los casos , y a
continuación en Guardar > Residuos > no tipificados) y a continuación
hacer un test de normalidad de Kolmogorov-Smirnov o de Shapiro-Wilk
sobre ellos (Analizar > Estadísticos descriptivos > Explorar > Gráficos >
Gráficos con pruebas de normalidad).
a4) No debe de haber colinealidad entre las distintas VI, es decir, no deben
de estar muy correlacionadas entre sí. En el SPSS este supuesto lo
podemos comprobar mediante Analizar > Regresión Lineales >
Estadísticos > Diagnósticos de la colinealidad. En la tabla de Resultados
etiquetada como "Diagnósticos de colinealidad" ningún "índice de
condición" debería superar el valor 15 para que se cumpla de forma óptima
el supuesto de no colinealidad (de 15 a 30 puntos indica colinealidad
creciente, pero en ningún caso podremos aceptar un modelo con índices de
condición superiores a 30 puntos). Además en "proporciones de varianza"
debería de haber sólo una correlación alta por columna, siendo el resto
bajas. Si se incumple este supuesto podríamos: 1) aumentar el tamaño de la
muestra; 2) eliminar las VI redundantes o 3) promediar dichas VIs. En
51
nuestro ejemplo, sólo el índice de condición igual a 18.29 parece indicar
cierta colinealidad entre las variables (aunque está alejado del valor crítico
30), pero las proporciones de varianza parecen correctas, por lo que en
general podemos decir que no hay colinealidad en nuestros datos:
Para comprender mejor el papel que juega la colinealidad entre las VIs es útil
pedirle también al SPPS en la opción Estadísticos que calcule las correlaciones
parciales y semiparciales. En nuestro ejemplo:
Coeficientesa
Modelo
1
(Constante)
Años de escolarización
Título escolar del padre
Título escolar de la madre
Edad del encuestado
Horas diarias viendo TV
Correlaciones
Orden cero
Parcial
Semiparcial
,368
,087
,096
,194
-,252
,327
,009
,007
,235
-,165
,307
,008
,006
,215
-,149
Las correlaciones de orden cero son la r de cada VI con la VD. La correlación
parcial nos indica la r de cada VI con la VD tras eliminar de ambas el efecto del
resto de VIs (es decir, tras eliminar la colinealidad). La semiparcial indica la r
entre la VD y la VI, quitando el efecto que sobre la VD tienen el resto de VIs.
b) Antes de calcular un modelo de regresión debemos prestar especial atención
a los 'datos anómalos' (outliers; p.e. los que se salen del rango media ± 3
desviaciones típicas) tanto en la VD como en las VI, dado que uno sólo de
dichos datos puede cambiarnos el poder predictivo del modelo de regresión
drásticamente. Dichos datos pueden ser motivados por distintas causas: un error
52
en la transcripción, un sujeto anómalo o muy excepcional, etc. Es muy
importante antes de calcular el modelo de regresión identificar y decidir qué
hacer con dichos datos anómalos (eliminarlos, retenerlos,...).
c) La situación ideal para un modelo de regresión es aquella donde observando
la matriz de correlaciones entre todas las variables (criterio y predictoras)
observamos correlaciones altas entre cada una de las variables predictoras con el
criterio pero bajas entre sí. En tal caso todas dichas VI deben ser incorporadas al
modelo. Muy comúnmente sin embargo se dan además intercorrelaciones altas
entre las VIs, en tal caso puede llegar a darse el caso de colinealidad entre ellas
(ver lo dicho arriba en el punto a4)
d) Con respecto al número ideal de predictores hay que decir lo siguiente:
d.1. La ratio tamaño de la muestra / número de predictores es crucial a la
hora de poder generalizar nuestro modelo. Stevens propone un mínimo de
15 sujetos por cada VI que incorporemos a la ecuación de regresión
d.2. Para resolver el problema del número ideal de predictores el método
más adecuado es llevar a cabo un procedimiento de 'regresión escalonada o
por pasos' (stepwise regression), de la hay que distintas versiones: a) El
método de regresión escalonada hacia atrás consiste en tomar al principio
todas las variables predictoras e ir eliminando de la ecuación de regresión
todas aquellas que no aporten nada significativo al modelo (observando la
importancia relativa de las betas de las distintas variables predictoras y
eliminando de la ecuación de regresión aquellas VIs con betas no
significativas). En la regresión escalonada hacia adelante se van añadiendo
una a una las distintas VIs al modelo de regresión comenzando por las que
más correlacionen con la VD hasta llegar a un punto en que añadir nuevas
VIs no aporten una mejoría significativa la modelo.
Hay que tener en cuenta aquí también la llamada desigualdad de
Bonferroni, según la cual α aumenta de forma progresiva a medida que
vamos incluyendo más predictores. Al respecto Stevens (pp. 68-69) llega a
proponer contrastar la significatividad de R con niveles de riesgo α/p,
siendo p el número de variables predictoras que incorporamos al modelo.
d.3. Por último hay que decir que a igualdad de condiciones es preferible
un modelo con pocas variables predictoras que con muchas (Stevens, pp
99).
53
TEMA 7. INTRODUCCION
MULTIVARIADA.
A
LA
ESTADISTICA
En un sentido estricto las técnicas estadísticas multivariadas son aquellas que
analizan más de una variable dependiente (como ocurre p.e. cuando trabajamos
con encuestas, tests o cuestionarios). Se pueden dar varias importantes razones
para justificar el uso de tales técnicas. Por ejemplo: En muchas ciencias, y en
concreto en la Psicología, pocas veces la medición de una sola conducta refleja
de forma precisa el influjo de las variables que la modulan, más bien en nuestra
ciencia ocurre que 'todas las variables afectan a todas la variables'. Es decir muy
a menudo es necesario conocer las intercorrelaciones que se dan entre amplios
conjuntos de variables. El uso de las técnicas multivariadas ha aumentado
mucho debido a la accesibilidad al uso de paquetes estadísticos computerizados.
Se encuadran aquí un amplio conjunto de técnicas estadísticas:
(a) técnicas de agrupación o de reducción de datos, cuyo objetivo es
resumir o sintetizar la información contenida en un conjunto de n variables
a un conjunto menor de m variables distintas (tal que m<n) de tal forma
que sean capaces de eliminar la información redundante contenida en
aquellas (p.e. Análisis Factorial o de Componentes Principales; Análisis de
Conglomerados)
(b) técnicas de clasificación de datos, cuyo objetivo es aplicar modelos de
regresión para la clasificación de los sujetos en una o varias VD
categoriales (p.e. Análisis Discriminante, Regresión logística, etc.)
(c) técnicas de contraste de hipótesis experimentales (p.e. MANOVA,
MANCOVA, etc.)
Vamos a presentar someramente una prueba multivariada relativa a cada una de
estas categorías.
54
TÉCNICAS DE AGRUPACIÓN DE DATOS: EL ANALISIS
FACTORIAL (AF) O DE COMPONENTES PRINCIPALES (ACP)
El AF (no confundir con Análisis de la Varianza ni con ANOVA factorial) es un
método estadístico desarrollado por Thurstone que permite explicar n variables
X1, ..., Xn mediante un reducido número de m variables latentes (hipotéticas)
llamadas factores F1,...Fm tal que m<n. Cada uno de tales factores son
combinaciones lineales de las variables originales X1, ..., Xn , siendo además
ortogonales (incorrelacionados) entre sí. El AF es sin duda la técnica reductora
de la dimensionalidad más empleada en ciencias sociales, como la Psicología.
Toda la teoría de la inteligencia (factor g de Spearman, Thurstone, ...) y la
personalidad (Cattell, Guildford,...) se basa en los resultados hallados a través
del AF. En el módulo de Psicometría Sin embargo no es una técnica que permita
extraer relaciones causales entre variables sino que es un técnica descriptiva de
la dimensionalidad subyacente a un conjunto de variables.
Aunque existen en realidad distintos métodos de AF (componentes principales,
alfa, centroide,...) nos centraremos tan sólo en el primero de ellos por ser el más
utilizado. En realidad el genéricamente llamado AF coincidiría (Tatsouka) con
un ACP, al que a veces se le incorporan métodos de rotación oblicua, con el fin
de que el resultado satisfaga el llamado 'principio de estructura simple' de
Thurstone (ver más abajo), mejorando así su interpretabilidad. Por ello muchos
manuales y en especial los paquetes estadísticos informatizados tienden a
identificar AF con el análisis componentes principales.
Comenzaremos explicando el significado intuitivo del AF a través de un
ejemplo. Supongamos que pasamos 6 pruebas a 100 alumnos (vocabulario -V-,
lectura -L-, idiomas -I-, aritmética -A-, física -F- y química -Q-) y obtenemos la
siguiente matriz de correlaciones R (que es el punto de partida del AF; en negrita
p<.01):
V
L
I
A
F
Q
________________________________________________
V
1
.72
.63
.09
.09
.00
L
1
.57
.15
.16
.09
I
1
.14
.15
.09
A
1
.57
.63
F
1
.72
Q
1
_________________________________________________
55
Se puede apreciar como si tales 6 variables en realidad midiesen sólo dos cosas
tal y como muestran los dos grupos de correlaciones significativas. El resultado
de aplicar un AF (de componentes principales) sobre tal matriz es la siguiente
matriz factorial o de componentes (en SPSS > Analizar > Reducción de
dimensiones > Factor):
2
Pruebas F1
F2
h
__________________________
V
.83
.01
.70
L
.79
.10
.63
I
.70
.10
.50
A
.10
.70
.50
F
.10
.79
.63
Q
.01
.83
.70
__________________________
λ
1.8231 1.8231
% var
30.385 30.385
__________________________
en negrita p<.01
Dicha tabla nos muestra cómo las 6 pruebas en realidad están midiendo dos
factores o componentes (F1 y F2). Los números que aparecen en las columas F1
y F2 reciben el nombre de saturaciones o cargas factoriales y representan la
correlación existente entre cada variable Xi con cada componente o factor Fn
(desde ahora ain).
ain = corr (Xi, Fn)
Si las elevamos al cuadrado obtendremos la proporción de varianza del factor
explicada por cada variable.
Las h2 reciben el nombre de comunalidades y representan la proporción de
varianza de la variable Xi explicada por los factores F1, ..., Fm . Observando las
comunalidades podemos analizar qué variable es mejor o peor explicada por
nuestro modelo factorial.
Por último, el autovalor de un factor Fi es la varianza de la matriz de
correlaciones (R) explicada por dicho factor y se define como
λi = a21i + ...+a2ni
Dividiendo λi entre el número total de variables (n) obtendremos la proporción
56
de varianza de R expresada por Fi .
No existen criterios unívocos para determinar cuándo un factor es significativo
o cuando puede ser desechado de la matriz factorial. Muy comúnmente en AF
se suelen considerar como factores significativos aquellos con λ ≥ 1 (criterio de
Kaiser), pero podemos optar también por desechar aquellos cuya varianza
explicada no alcance un valor mínimo (p.e. del 15%). Por defecto el SPSS
extrae los factores con autovalores mayores de 1 (criterio de Kaiser).
Existen infinitas soluciones factoriales para una misma matriz de datos. La
forma de conseguir una sola solución es imponer ciertos criterios que definen
otros tantos tipos de AF (de componentes principales, centroide, de máxima
verosimilitud, tipo de rotación, etc).
Rotaciones ortogonales y oblicuas.
Como señaló Thurstone en la mayoría de los casos es difícil encontrar una
matriz factorial que defina unos factores claramente interpretables. La finalidad
de la rotación es conseguir dar una mayor capacidad explicativa a los factores
(principio de parsimonia). Con las ideas de estructura simple y de rotación de
los factores intentó Thurstone resolver el problema.
Una forma simple de entender el concepto de rotación factorial es concebir un
espacio de m dimensiones ortogonales y representar en él las distintas cargas
factoriales de la matriz factorial. P.e. podemos representar la matriz factorial de
nuestro ejemplo sobre los dos factores hallados (izquierda) y rotarlos luego
(manteniendo su ortogonalidad) un determinado número de grados α (derecha):
57
F1
F1
1
V
.80
V
L
I
L
I
.60
.40
.20
A F
0
.20
.40
.60
Q
.80
F2
A F
Q
1
F2
Como se puede apreciar la posición de las 6 variables en el espacio bifactorial
es la misma, pero al rotar los ejes cambian sus coordenadas de proyección
(cargas factoriales). Pues bien el objetivo de la rotación factorial es dar con una
posición idónea de los factores sobre los que proyectar las variables,
maximizando algunas saturaciones (aunque sea en detrimento de otras) para que
los factores comunes queden destacados. En nuestro ejemplo es la figura de la
izquierda la solución rotada mejor.
La equivalencia entre una solución ortogonal rotada y no rotada se aprecia en
que las comunalidades de las distintas variables siguen siendo las mismas,
debido a que como queda dicho la solución factorial nunca es única. En nuestro
ejemplo:
ROTADA
NO ROTADA
2
Pruebas F1
F2
h
F1
F2
________________________________________
V
.83
.01
.70
.60
-.58
L
.79
.10
.63
.63
-.49
I
.70
.10
.50
.56
-.43
A
.10
.70
.50
.56
.43
F
.10
.79
.63
.63
.49
Q
.01
.83
.70
.60
.58
_________________________________________
Sin embargo se puede apreciar que los autovalores varían.
Existen diversos métodos de rotación ortogonal (varimax, quartimax,...).
58
En las rotaciones oblicuas (menos utilizadas) se permite que los factores dejen
de ser ortogonales, es decir que sean correlacionados. Los factores oblicuos son
entonces variables correlacionadas entre sí.
Para orientar al investigador en sus técnicas de rotación Thurstone desarrolló
cinco principios aplicables tanto a rotaciones ortogonales como oblicuas
conocidos como el 'Principio de Estructura Simple' y que definen la solución
factorial óptima:
1) Cada fila de la matriz factorial debe de tener al menos una carga cercana
a 0.
2) En cada columna debe de haber, por lo menos, tantas cargas cercanas a
0 como factores haya.
3) Entre cada par de columnas debe de haber cargas altas en un factor y
bajas en el otro (o a la inversa).
4) Ante 4 o más factores es interesante que una gran proporción de
variables tengan cargas cercanas a 0 ante cada par de factores
5) En cualquier par de columnas de la matriz factorial debe de haber un
número pequeño de variables con cargas altas en ambas.
Estos criterios buscan encontrar variables 'puras', es decir, que saturen mucho en
algunos factores y muy poco en otros en aras de facilitar la interpretación de los
resultados.
AF de segundo orden.
Si correlacionamos las cargas factoriales de la matriz factorial A obtenidas tras
haber llevado a cabo un AF, y a su vez factorizamos dicha matriz de
correlaciones habremos llevado a cabo un AF de segundo orden. En él
utilizamos los factores de primer orden como si fueran variables empíricas en
aras de encontrar "factores detrás de los factores". El factor G de Spearman o el
rasgo introversión-extroversión de Cattel han sido hallados de este modo.
AF exploratorio y AF confirmatorio.
Como acabamos de ver, generalmente el objetivo del AF es explorar la
dimensionalidad subyacente a un cierto número de variables empíricas del
modo más sencillo posible (AF exploratorio o simplemente AF). Sin embargo
59
otras veces el análisis se realiza con un conocimiento previo del número y/o
estructura de los factores denominándose AF confirmatorio, pues pone a prueba
si la hipótesis formulada a priori es cierta o no. Dicha hipótesis se plantea bien
sobre el número de factores, su naturaleza (oblicuos, ortogonales, mixtos) o
sobre las saturaciones de la matriz factorial. Un test chi2 permite confirmar la
estructura formulada.
60
TÉCNICAS DE CLASIFICACIÓN DE DATOS: EL ANALISIS
DISCRIMINANTE (AD)
El AD es un modelo de regresión donde las VIs predictores son cuantitativas (o
semicuantitativas, o incluso cualitativas dicotómicas) y la VD o criterio es
cualitatativa (o semicuantitativa). Su objetivo es hallar la combinación lineal de
variables predictoras (o función discriminante) que consiga discriminar mejor la
pertenencia de las sujetos a las diferentes categorías de la VD. Una vez
conocida dicha función discriminante podremos aplicarla para clasificar nuevos
casos (p.e. ¿devolverá este cliente el préstamo si se lo concedemos?;
¿desarrollará alguna patología clínica?, ¿será un buen trabajador en nuestra
empresa?, etc.). Cuando las VIs sean cualitativas es mejor emplear otra técnica
clasificatoria llamada regresión logística.
Tengamos N sujetos medidos, de forma continua en p variables predictoras, y
de forma nomimal en una variable criterio donde quede explicita la pertenecia
de cada sujeto a tal o cual grupo (1, 2, ..., k grupos de clasificación). Así, p.e:
Sujetos
Crit.
Predictores
Y
X1, X2, ...
Xp
1
1
23, 24 , ...
112
2
.
1
.
24, 54, ...
. .
78
.
6
.
3
.
34, 45, ...
. . ...
12
.
N
k
56, 87,...
32
Asumiendo que las VIs se distribuyen de acuerdo al modelo normal
multivariado (se puede demostrar comprobando la normalidad de los
componentes principales de p los predictores), que las matrices de covarianzas
de las poblaciones no difieren entre sí (test de Box), que ninguna variable
predictora sea una combinación lineal perfecta de otra (multicolinealidad), y que
la ratio (N/p) ≥ 20 (ver Stevens, pp. 236, para que los resultados del análisis
sean generalizables) entonces podemos llevar a cabo un AD sobre los datos, el
cual nos permitirá hallar un doble objetivo (ver Klecka, 1980, pp. 8 y 9;
Stevens, pp. 232):
(a) Dar con las funciones discriminantes que mejor discriminen a los k grupos
en las p variables predictoras. (b) Valernos de ellas para predecir la asignación
61
de los nuevos sujetos a los distintos grupos.
Una función discriminate del tipo Y= v1 X1+ v2 X2 + ...+ vp Xp es pues aquella
que maximiza las diferencias entre grupos de clasificación con el fin de
minimizar el número de sujetos mal clasificados. Las v1+ v2+ ...+ vp reciben el
nombre de coeficientes discriminantes (bien brutos o estandarizados).
Para realizar un AD en SPSS seleccionaremos Analizar > Clasificar >
Discriminante. Luego definiremos el rango de la VD y seleccionaremos los
predictores. En Estadísticos seleccionaremos Medias, M de Box, ANOVAs
Univariados (para analizar qué predictores son significativos) y coeficientes de
la función no tipificados. En Clasificar seleccionaremos: Probablidades previas:
Calcular según tamaños de los grupos. En Visualización: Tabla resumen. Y
reemplazar valores perdidos por la media (para no perder muchos sujetos del
análisis).
Pongamos un ejemplo (basado en los datos del fichero GSS93): queremos
predecir si una persona está a favor en contra de tener armas en casa (1: a favor;
2: en contra) en base a las respuestas de los sujetos a estas 6 VIs: edad, número
de hijos, sexo, ingresos del encuestado, casado o no y años de escolarización.
Los resultados fueron.
Resultados de la prueba
M de Box
15,930
F
Aprox.
,743
gl1
21
gl2
132650,922
Sig.
,792
El test de BOX que las matrices de covarianzas son iguales.
Contraste de las
funciones
1
Lambda de Wilks
Lambda de
Wilks
Chi-cuadrado
,944
36,116
gl
6
Sig.
,000
La Lambda de Wilks nos indica si la función discriminante obtenida abajo es o
no significativa: En nuestro caso lo es y por lo tanto podríamos utilizarla para el
62
pronóstico de nuevos casos.
Coeficientes estandarizados de las
funciones discriminantes canónicas
Función
1
Edad del encuestado
,289
Número de hijos
-,280
Sexo del entrevistado
,899
Ingresos del encuestado
,056
1991
¿Casado?
,169
Años de escolarización
,199
Los coeficientes estandarizados de arriba son directamente comparables entre sí
(pues están tipificados en una misma escala de medida) y nos dicen qué VI
aparta más a la función discriminante y cuál menos. En nuestro ejemplo el sexo
es la que más aporta al modelo: como hombre=1 y mujer=2 y .899 lleva signo
positivo quiere decir que las mujeres son más reacias a tener armas que los
hombres. A continuación viene la edad (a mayor edad se está más en contra de
tener armas), ....
Coeficientes de las funciones
canónicas discriminantes
Función
1
Edad del encuestado
,023
Número de hijos
-,184
Sexo del entrevistado
1,838
Ingresos del encuestado
,011
1991
¿Casado?
,340
Años de escolarización
,072
(Constante)
-5,020
Coeficientes no tipificados
63
Estos son los coeficientes discriminantes brutos (sin tipificar). Es decir si
quisiéramos pronosticar el comportamiento de un nuevo sujeto en la VD
entonces sustituiríamos sus puntuaciones en los predictores de la siguiente
ecuación y así sabríamos si estaría a favor (1) o en contra (2) de tener armas en
casa (le asignaríamos a 1 o 2 en función del valor pronosticado más próximo a
uno u otro):
VD = -5.02 +.023*edad -.184*hijos + 1.838*sexo +.011*Ingresos + .34*casado
+.07*Años escolarización
Resultados de la clasificacióna
Grupo de pertenencia
pronosticado
Oposición a los
permisos de armas
A Favor
En Contra
Original Recuento A Favor
811
En Contra
173
Casos desagrupados
516
%
A Favor
100,0
En Contra
100,0
Casos desagrupados
100,0
a. Clasificados correctamente el 82,4% de los casos agrupados originales.
0
0
0
,0
,0
,0
Total
811
173
516
100,0
100,0
100,0
Esta tabla nos indica que el modelo clasifica correctamente el 82.4% de los
datos originales.
64
TÉCNICAS MULTIVARIADAS DE CONTRASTE DE HIPÓTESIS:
EL MANOVA
Es el equivalente multivariado del ANOVA donde comprobamos si la
manipulación de una o varias VIs afecta o no sobre varias VDs.
Como el ANOVA, el MANOVA requiere de la satisfación de determinados
supuestos teóricos para poder ser aplicado (ver p.e. Bray y Maxwell, 1985; pp.
32; Stevens, pp. 205):
1) Las observaciones han de ser independientes, por lo que lo mejor es al
azar los sujetos a los tratamientos de la VI.
2) Las observaciones de las VDs han de seguir una distribución
multivariada normal. Hay que reseñar que la normalidad de cada una de las
VDs no garantiza una normalidad multivariante. Un test de normalidad
sobre sus componentes principales sí es condición necesaria y suficiente de
normalidad multivariante.
3) Todos los grupos han de tener matrices de covarianzas similares, lo que
se verifica llevando a cabo tests de homoscedasticidad sobre cada una de
las VDs (test de Box).
Para hacer un MANOVA con el SPSS selecionaremos Analizar > Modelo
general lineal > Multivariante. En opciones seleccionaremos Pruebas de
homogeneidad y en Post Hoc seleccionaremos una prueba a psoteriori (p.e.
Scheffé).
Pongamos un ejemplo. 15 sujetos son asignados al azar a 3 condiciones de una
VI y son medidos luego en 2 VDs. Analizamos los datos con un MANOVA y
obtenemos los siguientes resultados:
Prueba de Box sobre la
igualdad de las matrices de
covarianzasa
M de Box
F
gl1
gl2
Sig.
9,372
1,183
6
3588,923
,312
El test de Box muestra que se cumple el supuesto de igual de las matrices de
covarianzas.
65
Efecto
vi
Traza de Pillai
Lambda de Wilks
Traza de
Hotelling
Raíz mayor de
Roy
Contrastes multivariadosc
Gl de la
Valor
F
hipótesis
Gl del error
1,192
5,907
6,000
24,000
a
,007
41,648
6,000
22,000
121,334
202,223
6,000
20,000
121,083
484,332b
3,000
12,000
Sig.
,001
,000
,000
,000
Los resultados de la tabla anterior muestran que la VI afecta de forma
significativa sobre ambas VD conjuntamente
Pruebas de los efectos inter-sujetos
Suma de
Variable
cuadrados
Media
Origen dependiente
tipo III
gl
cuadrática
a
Model vd1
23794,600
3
7931,533
b
vd2
548,200
3
182,733
vi
vd1
23794,600
3
7931,533
vd2
548,200
3
182,733
Error
vd1
880,400
12
73,367
vd2
6,800
12
,567
Total
vd1
24675,000
15
vd2
555,000
15
a. R cuadrado = ,964 (R cuadrado corregida = ,955)
b. R cuadrado = ,988 (R cuadrado corregida = ,985)
F
108,108
322,471
108,108
322,471
Sig.
,000
,000
,000
,000
Los resultados de la tabla anterior muestran que la VI afecta de forma
significativa a ambas VD de forma individual
66
Pruebas post hoc
vd1
Scheffe
a,b,c
vi
1
2
3
Sig.
N
5
5
5
Subconjunto
1
2
24,8000
44,2000
46,8000
1,000
,892
vd2
Scheffea,b,c
vi
1
2
3
Sig.
N
5
5
5
1
2,8000
Subconjunto
2
3
6,4000
1,000
1,000
7,8000
1,000
Los resultados de la tabla vd1 muestran que la condición 1 difiere
significativamente de las condiciones 2 y 3 (entre las que no hay diferencias)
Los resultados de la tabla vd2 muestran que existen diferencias significativas
entre las 3 condiciones de la VI.
67
TABLAS ESTADISTICAS
68
69
70
71
72
73
Descargar