En el fichero Selectividad tienes datos referentes a las notas

Anuncio
NOMBRE:
Examen de Estadística – Facultad de Documentación
Junio 2009
En el fichero Comprensionlectora aparecen datos referidos a 66 niños sobre los cuáles se estudió el
efecto de tres métodos diferentes (llamados Basal, DRTA y Strat) para mejorar la comprensión lectora.
Los participantes en el estudio realizaron dos tests de comprensión lectora (PRE1, PRE2) antes de que el
método se pusiera en práctica, y otros dos tests (POST1, POST2) después de que el periodo de
instrucción hubiera concluido. Asimismo, se muestran en la hoja de datos una variable (Subject) que
asigna a cada participante en el estudio un número diferente, y otras dos variables Gusto_lect_niño,
Gusto_lect_padres que miden, para cada participante, el gusto por la lectura (A: alto, M: medio, B: bajo)
del niño y de sus padres, respectivamente. En lo que sigue, se utilizarán, salvo que se indique otra cosa,
niveles de significación del 5%.
PARTE I:
1.
a) Indica, a partir de un estudio descriptivo de la variable PRE1, si puede considerarse normal, y
si posee datos atípicos. (0’5 ptos.)
En Descripción + Datos numéricos + Análisis unidimensional, vemos que los coeficientes de
asimetría y curtosis tipificados
Asimetría tipi. = 0,259706
Curtosis típificada = -1,26031
están entre -2 y 2. En consecuencia, la variable puede considerarse normal. Por otra parte, del
gráfico de caja y bigotes vemos que no hay datos atípicos .
Gráfico de Caja y Bigotes
4
6
8
10
12
14
16
PRE1
b) Construye, a partir de los datos de la variable PRE1, una tabla de frecuencias con los datos
agrupados en cuatro clases, desde 4 hasta 16 (no es necesario que copies toda la tabla en la
respuesta que des, sólo las columnas que necesites para responder a lo que se pregunta). ¿Qué
porcentaje de niños obtuvo una puntuación en el test PRE1 inferior a 10? (0’5 ptos.)
Desde la ventana anterior, botón amarillo + tabla de frecuencias. Después, botón derecho +
opciones de ventana, nº de clases = 4, Límite inferior = 4, Límite superior = 16. Se obtiene:
Tabla de Frecuencias para PRE1
-------------------------------------------------------------------------------Límite
Límite
Frecuencia Frecuencia Frecuencia
Clase Inferior Superior
Marca
Frecuencia Relativa Acumulativa Acum.Rel.
-------------------------------------------------------------------------------menor o igual
4,0
3
0,0455
3
0,0455
1
4,0
7,0
5,5
13
0,1970
16
0,2424
2
7,0
10,0
8,5
22
0,3333
38
0,5758
3
10,0
13,0
11,5
21
0,3182
59
0,8939
4
13,0
16,0
14,5
7
0,1061
66
1,0000
mayor
16,0
0
0,0000
66
1,0000
-------------------------------------------------------------------------------Media = 9,78788
Desviación típica = 3,02052
Por lo tanto, por debajo de 10 tenemos al 57,58% de los datos.
c) Calcula cuál es la puntuación por encima de la cuál quedó el 25% de alumnos con mejor
comprensión lectura, en el test PRE2. ¿Qué nombre recibe la medida estadística que nos permite
calcular este valor? (0’5 ptos.)
Se trata del tercer cuartil; su valor es 6.0 (para determinarlo, Descripción + Datos numéricos +
Análisis unidimensional –variable PRES2-, botón amarillo + percentiles).
d) Suponiendo normalidad para la variable PRE1, indica si puede aceptarse, a un 10% de
significación, que la media de dicha variable sea 11. (0’5 ptos.)
Descripción + Datos numéricos + Análisis unidimensional –variable PRES1-, botón amarillo +
contraste de hipótesis; botón derecho + opciones de ventana + cambiamos la hipótesis nula a 11. Se
tiene
contraste t
----------Hipótesis nula: media = 11,0
Alternativa: no igual
Estadístico t = -3,26014
P-valor = 0,00177445
Por lo tanto, como 0.00177445 < 0.10, rechazamos H0 y no podemos aceptar que la media sea de 11.
2.
Nos indican que la estatura de los niños que participaron en el estudio es normal con media 1.40
cm, y desviación típica 0.20.
a) ¿Qué porcentaje de niños tiene una estatura inferior a 1.35 cm? ¿ Y entre 1.35 cm y
1.45 cm? (0’75 ptos.)
Descripción + distribuciones + distribuciones de probabilidad (dejamos la opción “normal”, que
sale por defecto). Botón derecho + opciones de análisis, cambiamos media = 1.40, desviación típica =
0.20. En Distribución Acumulativa, introducimos 1.35 y obtenemos que un 40.1292 % de los niños
están por debajo de 1.35 cm. Análogamente, para 1.45 obtenemos un 59.87% de niños por debajo
de ese valor. En consecuencia, entre ambos tendremos 19.74%.
b) ¿Por encima de qué valor está el 20% de los niños más altos? (0’75 ptos.)
Botón amarillo + CDF inverso + botón derecho + opciones de ventana + introducimos 0.80.
Obtenemos un valor de 1,56832.
3.
Calcula un intervalo de confianza con un nivel de confianza del 95% para la media de la
variable PRE1. Indica, a partir de él, cuál o cuáles de las siguientes puntuaciones pueden
considerarse estimaciones “razonables” para la media de PRE1: 8; 10; 13. (0’5 ptos.)
Descripción + Datos numéricos + Análisis unidimensional –variable PRES1-, botón amarillo +
intervalos de confianza. El intervalo para la media es:
95,0% intervalo de confianza para la media: 9,78788 +/- 0,742538
[9,04534;10,5304]
El único valor comprendido ahí es 10; por lo tanto, el resto de las estimaciones no serían
apropiadas.
4. En una escuela privada que no participó en el estudio se ha pasado también el test de PRE1. Sobre un
total de 100 alumnos de esa escuela, escogidos aleatoriamente, 65 obtuvieron una puntuación que puede
calificarse de “excelente”. A partir de estos datos, y con un 95% de confianza, ¿puede afirmarse que más
de la mitad de los alumnos de esa escuela posee una “excelente” comprensión lectora? (1 pto.)
Descripción + contraste de hipótesis. Se trata de un contraste sobre una proporción. La hipótesis
nula es Ho: p = 0.5, y la alternativa, H1: p>0.5. La proporción de la muestra es 0.65. Obtenemos:
Hipótesis Nula: proporción = 0,5
Alternativa: mayor que
p-Valor = 0,00175883
Rechazar la hipótesis nula para alpha = 0,05.
(obsérvese que hemos necesitado cambiar la alternativa). El p-valor es inferior a 0.05, luego
rechazamos la hipótesis nula y aceptamos la alternativa. En consecuencia, admitimos que la
proporción real de alumnos con “excelente” comprensión lectora es superior a 0.5.
PARTE II:
(NOTA: los alumnos que se examinen de todo el curso sólo deben hacer, de esta parte, los ejercicios:
3a, 4a, 4c, 5, 6a, 7)
1.
¿Puede aceptarse que las puntuaciones obtenidas en el test POST1 sean mayores que las
obtenidas en el test POST2? (1 pto.)
Comparación + Dos muestas + Comparación de muestras pareadas. Muestra 1 = POST1, Muestra
2 = POST 2. Como los coeficientes de asimetría y curtosis de la variable diferencia D = POST1 –
POST2 están entre -2 y 2,
Asimetría tipi. = 0,266826
Curtosis típificada = 0,421856
aceptamos que la diferencia D es normal. Por lo tanto, podemos utilizar tanto la media como la
mediana.
contraste t
----------Hipótesis nula: media = 0,0
Alternativa: mayor que
Estadístico t = 2,66255
P-valor = 0,004882
Contraste de los signos
----------------------Hipótesis nula: mediana = 0,0
Alternativa: mayor que
Número de valores inferiores a la mediana de H0: 21
Número de valores superiores a la mediana de H0: 36
Estadístico para grandes muestras = 1,85435 (aplicada la corrección por continuidad)
P-valor = 0,0318447
contraste de rangos con signo
----------------------------Hipótesis nula: mediana = 0,0
Alternativa: mayor que
Rango medio de los valores inferiores a la mediana: 33,4048
Rango medio de los valores superiores a la mediana: 40,6806
Estadístico para grandes muestras = 2,29736 (aplicada la corrección por continuidad)
P-valor = 0,010799
Puesto que todos los p-valores son inferiores a 0.05, todos avalan que efectivamente la puntuación
obtenida en POST1 supera a la de POST2.
2.
a) Comprueba, utilizando los tests de hipótesis apropiados, si las puntuaciones en el test POST1
de los niños en los que se aplicó el método Basal pueden considerarse normales. (0’5 ptos.)
Descripción + Distribuciones + Ajuste de distribuciones (datos no censurados). Datos = POST1,
Selección: Group = “Basal”. Vemos que el test chi-cuadrado no es aplicable, ya que da
frecuencias esperadas inferiores a 5. El resto de los tests, incluidos los tests de normalidad,
aceptan sobradamente. Por lo tanto, la distribución es normal.
Tests de Bondad de Ajuste para POST1
Contraste Chi-cuadrado
---------------------------------------------------------------------------Límite
Límite
Frecuencia
Frecuencia
Inferior
Superior
Observada
Esperada Chi-cuadrado
---------------------------------------------------------------------------menor o igual
4,00503
5
3,67
0,48
4,00503
5,49003
5
3,67
0,48
5,49003
6,68182
1
3,67
1,94
6,68182
7,87361
2
3,67
0,76
7,87361
9,3586
6
3,67
1,48
mayor
9,3586
3
3,67
0,12
---------------------------------------------------------------------------Chi-cuadrado = 5,27288 con 3 g.l.
P-Valor = 0,152869
Estadístico DMAS de Kolmogorov = 0,182897
Estadístico DMENOS de Kolmogorov = 0,0922005
Estadístico DN global de Kolmogorov = 0,182897
P-Valor aproximado = 0,461771
Tests para la Normalidad para POST1
Estadístico chi-cuadrado de bondad de ajuste = 15,8182
P-valor = 0,104957
Estadístico W de Shapiro-Wilks = 0,952849
P-valor = 0,356715
Puntuación Z para asimetría = 0,550622
P-valor = 0,58189
Puntuación Z para curtosis = -0,559073
P-valor = 0,576109
b) ¿Puede aceptarse, a un nivel de confianza del 90%, que las puntuaciones en el test POST1 de los
niños en los que se aplicó el método Basal están por encima de 5? (1 pto.)
Descripción + Datos numéricos + Análisis unidimensional + Datos = POST1, Selección: Group
= “Basal” + Botón amarillo + Contraste de hipótesis. Como la variable es normal, nos valen
todos los tests (tanto el de la media, como los de las medianas). Obtenemos:
contraste t
----------Hipótesis nula: media = 5,0
Alternativa: mayor que
Estadístico t = 2,85098
P-valor = 0,00478404
Contraste de los signos
----------------------Hipótesis nula: mediana = 5,0
Alternativa: mayor que
Número de valores inferiores a la mediana de H0: 5
Número de valores superiores a la mediana de H0: 12
Estadístico para grandes muestras = 1,45521 (aplicada la corrección por continuidad)
P-valor = 0,0728048
contraste de rangos con signo
----------------------------Hipótesis nula: mediana = 5,0
Alternativa: mayor que
Rango medio de los valores inferiores a la mediana: 9,6
Rango medio de los valores superiores a la mediana: 15,8333
Estadístico para grandes muestras = 2,05197 (aplicada la corrección por continuidad)
P-valor = 0,0200861
Todos los p-valores son menores que 0.10; por lo tanto, todos rechazan las hipótesis nulas
correspondientes, luego efectivamente podemos aceptar que las puntuaciones de POST1 están
por encima de 5.
3.
a) ¿Dirías que hay diferencias significativas entre los tres métodos (Basal, DRTA, Strat) en
cuanto a las puntuaciones obtenidas por los niños en el test POST1? (1 pto.)
Utilizamos un ANOVA, con variable respuesta = POST1, factor = GROUP (Comparación, Análisis
de la varianza, ANOVA simple).
Tabla ANOVA para POST1 según Group
Análisis de la Varianza
-----------------------------------------------------------------------------Fuente
Sumas de cuad.
Gl Cuadrado Medio Cociente-F
P-Valor
-----------------------------------------------------------------------------Entre grupos
108,121
2
54,0606
5,32
0,0073
Intra grupos
640,5
63
10,1667
-----------------------------------------------------------------------------Total (Corr.)
748,621
65
Como el p-valor es inferior a 0.05, rechazamos la igualdad de medias luego hay diferencias
significativas entre los tres métodos.
b) Comprueba si las hipótesis del modelo que has utilizado en el apartado anterior se verifican o
no en este caso (NOTA: observa que los datos están ordenados respecto a la variable Group).
¿Qué implica esto?
Las hipótesis son: normalidad para los residuos, homocedasticidad e independencia de las
observaciones; la última no puede comprobarse, ya que los datos han sido reordenados respecto a
la variable Group. En consecuencia, comprobamos únicamente las dos primeras.
Para verificar la normalidad de los residuos, guardamos los residuos, desde la ventana del ANOVA,
y procedemos como en el apartado 2a). Se acepta. Para comprobar la homocedasticidad, desde la
ventana de ANOVA simple, Botón amarillo + contraste de varianza. Obtenemos:
Contraste de Varianza
Contraste C de Cochran: 0,505642
P-valor = 0,0719811
Contraste de Bartlett: 1,06241
P-valor = 0,15452
Contraste de Hartley: 2,07787
Test de Levene: 2,12974
P-valor = 0,127348
Por lo tanto, a un 5% de significación (valor por defecto) aceptamos la homocedasticidad.
En consecuencia, y admitiendo que la tercera hipótesis se verifique, la conclusión del apartado a) es
fiable.
4.
a) ¿Tiene sentido tratar de predecir la puntuación obtenida en el test POST1, a partir de la
puntuación obtenida en PRE1, mediante un modelo lineal? Para justificar tu respuesta,
proporciona al menos un contraste de hipótesis, y un parámetro apropiado. (0’5 ptos.)
Utilizamos una regresión simple, Y=POST1, X=PRE1. Para ello, Dependencia + regresión
simple. Vemos que
Análisis de la Varianza
----------------------------------------------------------------------------Fuente
Suma de cuadrados
GL Cuadrado medio Cociente-F
P-Valor
----------------------------------------------------------------------------Modelo
239,743
1
239,743
30,15
0,0000
Residuo
508,878
64
7,95123
----------------------------------------------------------------------------Total (Corr.)
748,621
65
Coeficiente de Correlación = 0,565903
R-cuadrado = 32,0246 porcentaje
El p-valor indica que la correlación lineal es significativa, y el coeficiente de correlación indica
que el modelo es moderadamente bueno.
b) ¿Qué puntuación cabría esperar en POST1, utilizando el modelo anterior, para un niño que ha
obtenido una puntuación de 7 en PRE1? Indica cuál es la expresión (“fórmula”) que estás
utilizando para realizar dicha predicción. (0’5 ptos.)
Desde la ventana anterior, botón amarillo + predicciones + opciones de ventana + botón derecho +
X=7. El valor predicho es 6.30317. Este valor se obtiene sustituyendo PRE1=7, en la expresión
POST1 = 1,85243 + 0,63582*PRE1
que es la ecuación de la recta de regresión.
c) ¿Mejora esta predicción si añades, además de la información proporcionada por PRE1, la
proporcionada por PRE2? Justifica tu respuesta. (1 pto.)
Utilizamos una regresión múltiple: dependencia + regresión múltiple. La variable respuesta Y es
POST1, y los regresores son PRE1, PRE2. Vemos que el porcentaje de variabilidad explicada es
muy similar, 34.7527% frente al 32.0246% del modelo simple, y en cambio observamos que el
coeficiente de PRE2 puede considerarse 0.
Análisis de Regresión Múltiple
----------------------------------------------------------------------------Variable dependiente: POST1
----------------------------------------------------------------------------Error
Estadístico
Parámetro
Estimación
estándar
T
P-Valor
----------------------------------------------------------------------------CONSTANTE
1,12523
1,25329
0,897822
0,3727
PRE1
0,569865
0,121348
4,69612
0,0000
PRE2
0,268848
0,165646
1,62303
0,1096
-----------------------------------------------------------------------------
Por lo tanto, este modelo no mejora sustancialmente al otro.
5.
¿Puede afirmarse que el gusto por la lectura en los padres influye en el de los hijos? (1 pto.)
Aplicamos un contraste chi-cuadrado, siendo
las variables X=Gusto_lect_niños,
Y=Gusto_lect_padres. Descripción + datos cualitativos + tabulación cruzada+ botón derecho +
contraste chi-cuadrado. El p-valor es 0.0000, luego las variables no son independientes, con lo cuál
concluimos que el gusto por la lectura en los padres influye en el de los hijos. Cabe observar que la
frecuencia esperada de alguna celda es inferior a 5, pero si observamos la tabla de contingencia,
A
B
M
Columna
A
B
M
---------------------------------------|
12 |
3 |
8 |
|
18,18% |
4,55% |
12,12% |
---------------------------------------|
1 |
11 |
4 |
|
1,52% |
16,67% |
6,06% |
---------------------------------------|
6 |
2 |
19 |
|
9,09% |
3,03% |
28,79% |
---------------------------------------19
16
31
Total
23
34,85%
16
24,24%
27
40,91%
66
Total
28,79%
24,24%
46,97%
100,00%
vemos que claramente leen más los niños cuyos padres también leen. Por lo tanto, lo que indica el pvalor es correcto.
6.
Deseamos aplicar un ANOVA multifactorial para determinar si las variables Gusto_lect_niño y
GROUP poseen influencia sobre la puntuación obtenida en POST2.
a) Indica qué factores son significativos, y si es significativa la interacción entre ellos, con un
90% de confianza. ¿Cuáles de las variables consideradas poseen, entonces, influencia sobre la
puntuación obtenida en POST2? (1 pto.)
Comparación + Análisis de la varianza + ANOVA Factorial. Variable dependiente = POST2,
Factores = Gusto_lect_niño, Group. Además, botón derecho + opciones de análisis + orden de
interacción = 2.
Análisis de la Varianza paraPOST2 - Sumas de Cuadrados de Tipo III
-------------------------------------------------------------------------------Fuente
Suma de cuadrados
GL Cuadrado Medio Cociente-F
P-Valor
-------------------------------------------------------------------------------EFECTOS PRINCIPALES
A:Group
112,275
2
56,1375
9,92
0,0002
B:Gusto_lect_niño
32,7651
2
16,3826
2,90
0,0634
INTERACCIONES
AB
2,78993
4
0,697483
0,12
0,9735
RESIDUOS
322,469
57
5,65734
-------------------------------------------------------------------------------TOTAL (CORREGIDO)
451,53
65
-------------------------------------------------------------------------------Los cocientes F están basados en el error cuadrático medio residual.
Puesto que los p-valores correspondientes a los factores son inferiores a 0.10, ambos son
significativos. Sin embargo, el p-valor correspondiente a la interacción es grande, y por lo tanto la
interacción no es significativa.
b) Justifica, a partir de los resultados del apartado anterior, si es preferible un modelo con o sin
interacción. Fija el modelo que consideres más apropiado. A partir de ese modelo, y al nivel de
confianza del 90%, ¿cuántos grupos homogéneos aparecen para el factor Gusto_lect_niño? (0’5
ptos.) (NOTA: para cambiar el nivel de confianza a la hora de calcular grupos homogéneos,
desde la ventana correspondiente haz botón derecho + opciones de ventana).
Puesto que la interacción no es significativa, es preferible un modelo sin interacción. Así que botón
derecho + opciones de análisis + orden de interacción = 1. Ambos factores siguen siendo
significativos. Para estudiar los grupos homogéneos, botón amarillo + contraste múltiple de rangos.
Aparecen dos grupos homogéneos,
Método: 90,0 porcentaje LSD
Gusto_lect_niñoRecuento Media LS
Sigma LS
Grupos Homogéneos
-------------------------------------------------------------------------------B
16
5,51156
0,588092
X
M
27
6,90739
0,44673
X
A
23
7,31807
0,482796
X
--------------------------------------------------------------------------------
uno para niños con bajo o medio gusto por la lectura, y otro para niños con medio o alto gusto por
la lectura (NOTA: puesto que estamos trabajando a un 90% de confianza, debes cambiar el nivel
de confianza con botón derecho + opciones de ventana).
c) Calcula el valor del error experimental (en el modelo sin interacción), e interprétalo. (0’5
ptos.)
En el modelo sin interacción, tenemos
Análisis de la Varianza paraPOST2 - Sumas de Cuadrados de Tipo III
-------------------------------------------------------------------------------Fuente
Suma de cuadrados
GL Cuadrado Medio Cociente-F
P-Valor
-------------------------------------------------------------------------------EFECTOS PRINCIPALES
A:Group
109,743
2
54,8717
10,29
0,0001
B:Gusto_lect_niño
31,1505
2
15,5753
2,92
0,0615
RESIDUOS
325,259
61
5,33211
-------------------------------------------------------------------------------TOTAL (CORREGIDO)
451,53
65
-------------------------------------------------------------------------------Los cocientes F están basados en el error cuadrático medio residual.
El error experimental se puede estimar como la raíz cuadrada del cuadrado residual medio. De ese
modo, se obtiene un valor de 2,31, aproximadamente. Indica hasta dónde pueden llegar las
oscilaciones de los residuos (es decir, las oscilaciones en la predicción de la puntuación esperada
para POST2, para un niño con determinado gusto por la lectura y en el que se ha utilizado
determinado método de aprendizaje).
7.
Si desearas construir un índice de competencia lectora a partir de las variables PRE1, PRE2,
POST1, POST2, ¿qué clase de técnica utilizarías? (NOTA: no es necesario que lo hagas, sólo
que indiques el nombre de la técnica) Descríbela brevemente. (0’5 ptos.)
Un Análisis en Componentes Principales. Esta técnica permite condensar la información
proporcionada por un conjunto de variables cuantitativas en un número menor de variables; en
particular, es útil para elaborar índices.
Descargar