05 Capitulo 5

Anuncio
Capítulo V
Análisis de regresión y correlación
Introducción
En la investigación estadística es muy frecuente encontrar variables que están relacionadas o asociadas entre sí de alguna manera, como se estudió en el capítulo anterior.
Existen muchas variables, en especial cuantitativas, que se
relacionan en algún grado de otras, entonces es posible que una
de las variables pueda expresarse matemáticamente en función
de la otra. Por ejemplo, el peso de las personas está relacionada
con la estatura; el tiempo de servicio de trabajo activo tiene relación con la edad, un trabajador que ha acumulado por ejemplo
30 años de servicio tendrá mayor edad que otro con sólo 14
años de servicios; el ingreso o salario está relacionado frecuentemente con el nivel educativo; el ahorro familiar tiene relación con los ingresos; la demanda de un producto dependerá
de los precios, etc.
Estadísticamente interesa analizar la relación entre dos o
más variables, siempre que se tenga un indicio que entre ellas
existe por lo menos cierto grado de dependencia o asociación. Lo
importante es medir y expresar funcionalmente esta relación
mediante una función o modelo matemático.
En el enfoque del análisis de regresión se trata de predecir o
explicar el comportamiento de una variable Y a la que se denomina dependiente o variable respuesta, en función de otras variables X 1 ,..., X k denominadas independientes o variable regre-
[11]
213
soras; así como investigar si ellas están asociadas o correlacionadas entre si.
Análisis de regresión lineal simple
En muchos estudios se necesita identificar y cuantificar alguna
relación funcional entre una variable Y denominada dependiente y otra variable X denominada independiente. Esto se puede
plantear así: Y = f (X ) .
Es importante identificar cuál es la variable dependiente y
cuál es la variable independiente. Esto depende de la lógica y de
lo que el investigador intente medir. Así, si el Decano de una Facultad desea analizar la relación entre las notas de los estudiantes y el tiempo que los estudiantes dedican al estudio, es lógico
asumir que las notas dependen del tiempo dedicado al estudio.
Por tanto, "notas" es la variable dependiente y "tiempo" es la variable independiente.
A la variable dependiente también se le denomina variable
respuesta y a la variable independiente también se le denomina
explicativa o regresora.
Diagrama de dispersión
En el diagrama de dispersión se representan los pares de observaciones en el plano y es habitual colocar la variable independiente en el eje horizontal. A continuación se presenta algunos
tipos de diagramas de dispersión
Y
Y
.
.
. . .
.. ..
. . .
.. .
. . .
X
a) Relación lineal Positiva o Directa
214
. . .
X
b) Relación lineal Negativa o
Inversa
Y
Y
. ..
.. . . .. . ...
.. .
.. .
. .... .....
. ..
c) No hay Relación lineal
entre X e Y
..
. . .. . ..
X
d) Relación No Lineal
X
Como se puede ver en el gráfico (a), los valores de Y se incrementan linealmente conforme X crece. Por ejemplo, al aumentar
la partida presupuestal asignada por el gobierno a un colegio,
aumenta la posibilidad de atender una mayor demanda escolar,
gráfico (a).
Es diferente en el gráfico (b), porque cuando los valores de X
crecen, los valores de Y decrecen linealmente. Así por ejemplo,
cuando aumenta el número de horas semanales que los estudiantes dedican al estudio, disminuye el número de horas semanales
que dedican a las distracciones.
En el gráfico (c) no hay ninguna relación entre X e Y; mientras que el gráfico (d) muestra una relación curvilínea negativa
entre X e Y. Tomemos como ejemplo, la relación entre el valor de
reventa de un edificio escolar y sus años de uso; en el primer año,
el valor de reventa puede sufrir un fuerte descenso en su precio
original, luego, el valor de reventa disminuye con mucha menos
rapidez en los años siguientes.
Los gráficos propuestos son algunos tipos de gráficos que se
podrían utilizar para representar la relación entre dos variables;
sin embargo, los diagramas de dispersión no son suficientes para
determinar la relación entre ellas. Es necesario que utilicemos
procedimientos estadísticos para determinar la relación funcional más apropiada para un conjunto de datos (xi , yi ) a los que se
les denomina pares de observaciones.
Este tipo de gráfico se utiliza para la predicción. Es decir, a
partir de la relación entre dos variables, conocer en qué medida
215
se mantiene el aumento o crecimiento de una variable a partir del
aumento de otra variable o viceversa.
Ajuste de una función de regresión:
método de mínimos cuadrados
Ajustar una función de regresión significa buscar o definir la función que exprese con mayor precisión la relación entre las variables X e Y. Gráficamente será aquella función que mejor se adecue a la nube de puntos (xi , yi ) . En este sentido, es recomendable
como primer paso construir el "diagrama o nube de puntos", luego analizar su forma y decidir el tipo de función matemática para
la ecuación de regresión usando el método de mínimos cuadrados ordinarios.
Sólo son necesarios dos puntos para dibujar la línea recta
que representa esta relación lineal. La ecuación de una recta puede
expresarse como L: y = bxi + a , en donde a es el intercepto y
b es la pendiente de la recta. Esta recta queda determinada mediante la estimación de los parámetros a y b . Un procedimiento
matemático utilizado para estimar estos valores se denomina el
método de mínimos cuadrados ordinarios (MCO). El método de
MCO producirá una recta, Yˆ , que se extiende por el centro del
diagrama de dispersión. Los valores de Yˆ representan a los valores estimados de la variable dependiente o respuesta. La diferencia entre los valores observados de Y, yi ,sus respectivos valores estimados de Yˆ , yi , es el error. Debido a que algunos errores son negativos o algunos positivos, el MCO producirá una recta
tal que la suma de esos errores sea cero, es decir, ∑ ( yi − yˆ i ) = 0.
Obtenemos la estimación de a y b por el método MCO de
n
2
tal manera que el valor de SSE = ∑ ( yi − yˆ i ) sea mínimo, donde:
i =1
Y:
es la variable dependiente o respuesta,
:
es
la pendiente de la línea, llamada también coeficiente de
b
regresión para predecir la variable Y
a : es la constante.
216
Se demuestra que los valores a y b que hacen mínimo SSE,
satisfacen el denominado sistema de ecuaciones normales:
n
n
∑ yi = an + b∑ xi
i =1
i =1
n
n
n
i =1
i =1
i =1
∑ xi yi = a ∑ xi + b∑ xi
De ese sistema se deducen los siguientes valores para las
constantes a y b :
n
a=
n
n
n
∑ y ∑x −∑x ∑x y
i =1
i
i =1
2
i
i =1
2
i
i
n
 n 
n ∑ xi2 −  ∑ xi 
i =1
 i =1 
n
b=
i =1
i
n
n
n ∑ xi yi − ∑ xi ∑ yi
i =1
i =1
i =1


n ∑ x −  ∑ xi 
i =1
 i =1 
n
2
i
n
2
,
yˆ i = bxi + a se denomina la recta de regresión de mínimos
cuadrados o recta de regresión ajustada por el método de mínimos cuadrados. La línea de regresión (o recta de predicción) es la
línea recta que mejor representa la tendencia de los puntos en un
diagrama de dispersión.
La recta de regresión nos permite, basándonos en los datos
muestrales, estimar el valor yi de una variable Y - y denotar con
ŷi - correspondiente a un valor dado xi para una variable X ; es
suficiente reemplazar el valor de xi en la línea de regresión y encontraremos el correspondiente valor estimado para ŷi .
La ecuación general de la recta de regresión estimada por el
método de mínimos cuadrados es la siguiente: Yˆ = a + bX .
217
Ejemplo 5.1
Con los datos de la Tabla Nº 5.1, se hace el diagrama de dispersión y se utiliza el método de mínimos cuadrados para encontrar
el coeficiente de regresión lineal. ¿Cuál será el rendimiento en
educación superior (Y) para un estudiante con nota promedio 12
de rendimiento en secundaria (X)?.
Tabla 5.1: Rendimiento académico en secundaria y
en educación superior de un grupo de alumnos
ESTUDIANTES
Notas en secundaria
xi
Rendimiento en
educación superior
1
16
15
2
13
11
3
15
17
4
12
14
5
11
11
6
16
14
7
13
15
8
10
12
yi
Solución
Usando los comando del SPSS hacemos el diagrama de dispersión presentado en la Figura Nº 5.1.
a)
b)
218
Creamos la base de datos con las dos variables y seleccionamos los comandos siguientes.
GRAPHS/INTERATIVE/SCATTER/colocar en el eje X la
variable NOTAS DE SECUNDARIA y en el eje Y la variable
RENDIMIENTO EN EDUCACIÓN SUPERIOR/ FIT/ en FIT
LINE escoger TOTAL/ACEPTAR.
Rendimiento en secundaria
Figura Nº 5.1: Diagrama de dispersión de rendimiento en
secundaria y rendimiento en superior de un grupo de alumnos
Rendimiento en superior
c)
Se realizan los cálculos necesarios para estimar a y b :
xi
yi
xi2
xi yi
16
13
15
12
11
16
13
10
15
11
17
14
11
14
15
12
256
169
225
144
121
256
169
100
240
143
255
168
121
224
195
120
106
109
1440
1466
8
a=
8
8
8
∑ y ∑x −∑x ∑x y
i =1
i
2
i
i =1
i
i =1
i =1
2
i
i


n ∑ xi2 −  ∑ xi 
i =1
 i =1 
8
8
n
b=
n
i =1
i =1


n ∑ xi2 −  ∑ xi 
i =1
 i =1 
n
109 × 1440 − 106 × 1466
= 5.51,
2
8 × 1440 − (106)
=
8 × 1466 − 106 × 109
= 0.61,
2
8 × 1440 − (106)
n
n ∑ xi yi − ∑ xi ∑ yi
i =1
=
n
2
219
y luego la recta de regresión estimada por el método de mínimos cuadrados, de Y sobre X es la siguiente:
Yˆ = 5.51 + 0.61 X
Si un estudiante obtiene un rendimiento de 12 en secundaria, entonces su rendimiento esperado en educación secundaria
se obtiene reemplazando el valor dado para X ( =12) en la recta
definida, es decir:
Yˆ = 5.51 + 0.61 × 12 = 5.51 + 7.32 = 12.83.
Entonces, podemos estimar que un estudiante que obtuvo
un rendimiento en secundaria de 12, obtendrá aproximadamente 12.83 en educación superior.
Ejemplo 5.2
Se trata de un estudio sobre el rendimiento escolar. Se desea ajustar la recta de regresión entre los años de escolaridad de la madre (X) y las calificaciones de sus hijos en una prueba de matemáticas. Los datos son los siguientes:
Estudiantes
Años de escolaridad de
la madre
( xi )
Calificaciones de los hijos
en una prueba de
Matemática
( yi )
1
8
12
2
5
8
3
3
8
4
6
10
5
7
10
220
Solución
a)
El diagrama de dispersión nos indica que existe una buena
relación entre las variables.
Calificaciones en matemática
Años de escolaridad de la madre y calificaciones de los hijos
en una prueba de matemática
Años de escolaridad de la madre
Se observa que existe una relación directa y positiva entre
los años de escolaridad de la madre y las calificaciones en una
Prueba de matemática de los hijos.
b)
En el siguiente cuadro se presentan los cálculos auxiliares
para encontrar los coeficientes de la ecuación de regresión.
Estudiantes
xi
yi
xi yi
xi2
yi2
1
8
12
96
64
144
2
5
8
40
25
64
3
3
8
24
9
64
4
6
10
60
36
100
5
7
10
70
49
100
Totales
29
48
290
183
472
221
8
a=
8
8
8
∑ y ∑x −∑x ∑x y
i =1
i
2
i
i =1
i =1
i
i =1
2
i
i
=


n ∑ xi2 −  ∑ xi 
i =1
 i =1 
8
8
n
b=
n
n
n ∑ xi yi − ∑ xi ∑ yi
i =1
i =1
i =1


n ∑ xi2 −  ∑ xi 
i =1
 i =1 
n
( 48)(183) − ( 29( 290)
=5.05
5(183) − ( 29) 2
n
2
=
(5)( 290) − (29)( 48)
= 0.78.
5(183) − (29)2
La ecuación de regresión que va a servir para predecir el
desempeño de los hijos en función de los años de escolaridad de
la madre es la siguiente: Yˆ = 5.05 + 0.78 X .
Ejemplo 5.3
Resolveremos el ejemplo 5.2 con el auxilio del SPSS.
Solución
Presentamos la solución con el auxilio del SPSS, pero previamente
se tiene que crear la base de datos.
a) Para hacer el diagrama de dispersión se ejecutan los siguientes comandos:
GRAPHS/INTERATIVE/SCATTER/colocar en el X la variable AÑOS DE ESCOLARIDAD y en el eje Y la variable RENDIMIENTO/ FIT/ en FIT LINE escoger TOTAL/ACEPTAR.
b)
222
Para encontrar la ecuación de la recta de regresión, los comandos son los siguientes:
ANALYZE / REGRESSION/LINEAR/ en DEPENDENT escoger CALIFICACIONES y en INDEPENDENT escoger
AÑOS DE ESCOLARIDAD/ STATISTICS/ activar ESTIMATES y MODEL FIT/OK.
El output del SPSS muestra lo siguiente.
Linear
Regression
Y
y = 5.05 + 0.78 * X
R-Square = 0.81
X
Coefficientsa
Unstandardized Standardized
Coefficients
Coefficients
Model
1
(Constant)
Años de escolaridad
de la madre
B
Std. Error
5.054
1.318
.784
.218
Beta
.901
t
Sig.
3.834
.031
3.597
.037
a. Dependent variable: Calificaciones en una prueba de matemática
b
a
La recta de regresión lineal simple ajustada por el método de
mínimos cuadrados es:
Yˆ = 5.054 + 0.784 X ,
223
donde, manteniendo constante la variable años de escolaridad
de la madre aun podemos estimar la calificación promedio de los
hijos en la prueba de matemática, en 5.054 puntos. Un incremento
en los años de escolaridad de la madre de un año, por ejemplo, es
acompañado por un incremento en la calificación de sus hijos en la
prueba de matemática en 0.784 puntos.
Pruebas de hipótesis
La ecuación de regresión lineal simple indica que el valor medio
o esperado de y es una función lineal de X : E ( y ) = a + bX . Si el
valor de b no es igual a cero, llegamos a la conclusión de que las
dos variables se relacionan. Así, para probar si hay alguna relación importante debemos efectuar una prueba de hipótesis para
determinar si el valor de b no es igual a cero. Existen dos pruebas que se usan con más frecuencia. En ambas se requiere una
estimación de σ2.
Prueba t
La prueba t se utiliza para probar la significancia de los parámetros en el modelo de regresión lineal simple.
Usaremos los datos de la muestra para obtener las siguientes hipótesis acerca del parámetro b :
Paso 1:
Se plantea como hipótesis nula que el coeficiente b es igual a cero
y la hipótesis alternativa niega dicho enunciado.
H0 : b = 0
H1 : b ≠ 0
Paso 2: La estadística de prueba
t=
224
bˆ
tiene distribución t(n −1)
Sbˆ
donde:
b̂ : estimador del parámetro b .
Sbˆ =
S
∑ (X
i − X
)
2
es la desviación estándar de b̂ .
Con los datos de la muestra se encuentra el valor de la estadística de prueba, tc .
Paso 3:
α
Para un nivel de significancia α, P[t(n −1) < tteórico ] = 1 − . En la ta2
bla - t-Student se obtiene tteórico .
Paso 4:
Rechazamos H 0 si tc < −tα / 2 o tc > tα / 2 .
Con el valor p - valor: Rechazamos H 0 si el valor p - valor <
α, donde tα / 2 se basa en una distribución t con n − 2 grados de
libertad.
Si se Rechaza H 0 la conclusión será que b ≠ 0 y que hay una
relación estadísticamente significativa entre las dos variables. Sin
embargo, si no se puede rechazar H 0 , no tendremos la evidencia
suficiente para decir que existe una relación significativa.
Resumen de las hipótesis, estadística de prueba y regla de
decisión:
Hipótesis
Estadística de prueba
Regla de decisión
Rechazar la hipótesis nula, si:
H0 : b = 0
H1 : b > 0
t=
bˆ
Sbˆ
H0 : b = 0
H1 : b < 0
t=
bˆ
Sbˆ
tc < −t(1−α )
H0 : b = 0
H1 : b ≠ 0
t=
bˆ
Sbˆ
tc < −tα / 2 o tc > tα / 2
tc > t(1−α )
225
Ejemplo 5.4
Utilizando la información del ejemplo 5.3 realizaremos la pruebas de hipótesis acerca del parámetro b .
Solución
Paso 1: En la hipótesis nula se postula que el grado de escolaridad de la madre no explica el comportamiento de las calificaciones de los estudiantes:
H0 : b = 0
H1 : b ≠ 0
Paso 2: El valor de la estadística de prueba se calcula con los
resultados del SPSS,
Coefficientsa
Unstandardized Standardized
Coefficients
Coefficients
Model
1
B
Std. Error
(Constant)
5.054
1.31 8
ESCOLARI
.784
.21 8
Beta
t
Sig.
3.834
.031
.901
3.597
.037
a. Dependent variable: CALIFICA
b
a
El valor de la estadística de prueba es:
tc =
226
bˆ 0,784
=
= 3.596
Sbˆ 0,218
Sbˆ
Saˆ
[
]
Paso 3: Para = α = 0,05, P t(5 ) < tteórico = 0.975 . En la tabla t con 5
grados de libertad se encuentra el valor de tc = 3.596.
Paso 4: Como tc = 3.596 > t0, 975 = 3.16 , rechazamos H 0 y concluimos que es significativo en el modelo, considerando un nivel de
significación de 0.05.
Análisis de correlación lineal
Tipos de correlación lineal
Y
Y
. .
... ..
. .
.. .
. . .
. . .
X
X
a) Correlación positiva
Y
b) Correlación negativa
. . .
.. . . ...
. . . . . .
. ..
. . . .. .
c) Correlación nula
Correlación positiva o directa
Se dice que la correlación entre dos variables X e Y es positiva o
directa, cuando al aumentar la medida de una de las variables,
la otra variable también aumenta, esto se puede observar en el
gráfico (a).
227
Ejemplo 5.5
En la Tabla Nº 5.3 nos muestra las puntuaciones en Literatura
(X), y las puntuaciones en Lenguaje (Y ) de un grupo de alumnos
de un Centro Educativo. Haremos el diagrama de dispersión de
estas dos variables.
Tabla Nº 5.3: Puntuaciones en Literatura vs
Puntuaciones en Lenguaje de un grupo de alumnos
Nº SUJETO
1
2
3
4
5
6
7
xi
yi
5
8
12
16
16
24
8
12
20
30
30
42
40
50
Solución
Diseñando el diagrama de dispersión para las variables en estudio tenemos:
Puntuaciones en Literatura
Figura Nº 5.2
Puntuaciones en Literatura y Lenguaje de un grupo de alumnos
Puntuaciones en Lenguaje
228
Como se puede observar, cuando aumenta el valor de la variable X también aumenta el valor de la variable Y, de esto se concluye
que existe correlación positiva o directa entre las puntuaciones en
Literatura y puntuaciones en Lenguaje.
Correlación negativa o inversa
Se dice que la correlación entre dos variables X e Y es inversa o
negativa, cuando al aumentar la medida de una de las variables,
los valores de la otra disminuye, esto se puede observar en el gráfico (b).
Ejemplo 5.6
La Tabla Nº 5.4, nos muestra las puntuaciones en Literatura (X)
y las puntuaciones en Matemática (Y) de un grupo de alumnos
de un determinado Centro Educativo. Haremos el diagrama de
dispersión.
Tabla Nº 5.4: Puntuaciones en Literatura vs Puntuaciones en
Matemática de un grupo de alumnos
alumnos
xi
yi
1
10
30
2
30
15
3
38
37
4
40
25
5
60
35
6
65
05
7
80
20
8
90
10
229
Solución
Realizamos el diagrama de dispersión de las puntuaciones en
matemática y literatura; el output del SPSS nos muestra la siguiente figura.
Puntuaciones en Literatura
Figura Nº 5.3
Puntuaciones en Literatura y Matemática de un grupo de alumnos
Puntuaciones en Matemática
Como se puede apreciar, frente al aumento de las puntuaciones
en literatura (X ) disminuye las puntuaciones en matemática (Y ),
entonces la correlación entre X e Y es negativa o inversa.
Correlación nula
La correlación es nula, cuando las variables no están correlacionadas entre sí, esto lo podemos observar en el gráfico (c).
Ejemplo 5.7
En la Tabla Nº 5.5 la variable X corresponde a las puntuaciones
en Deporte y la variable Y corresponde a las puntuaciones en
Matemática de un grupo de alumnos.
230
Tabla Nº 5.5:
Puntuaciones en deporte vs. puntuaciones en
matemática de un grupo de alumnos
Nº sujeto
1
2
3
4
5
6
7
8
9
10
xi
yi
02
04
04
08
08
14
14
14
18
18
20
15
35
05
40
05
15
40
20
35
Solución
Realizando el diagrama de dispersión para las variables X e Y
tenemos:
Puntuaciones en Deporte
Figura Nº 5.4:
Puntuaciones en Deporte en Matemática de un grupo de alumnos
Puntuaciones en Matemática
Como se puede apreciar no existe una relación lineal entre las
puntuaciones en deporte (X ) y las puntuaciones en matemática (Y
).
231
Coeficiente de correlación de Pearson (r)
Obtención del coeficiente
El objetivo del análisis de correlación de Pearson es medir la intensidad de la asociación observada entre dos variables cuantitativas. También, representa la magnitud de la relación lineal
entre dos variables.
Promedio de los valores estandarizados
Algunas preguntas que puede responderse con el coeficiente de
correlación de Pearson son las siguientes:
¿Los estudiantes que leen más rápido que otros, tienden también a tener mejor rendimiento en el curso de matemáticas?.
¿Se relaciona directamente el tiempo de servicios en la docencia de los profesores con el salario promedio que reciben?.
¿Los alumnos que tienen altos coeficientes de inteligencia
tienden a tener notas altas en los cursos de lenguaje y literatura?.
El coeficiente de correlación de Pearson se utiliza en el análisis de información cuantitativa cuando se desea medir la asociación lineal entre dos variables cuantitativas.
Sus valores varían entre +1 y -1. El valor de +1, indica una
relación lineal directa y perfecta; el valor -1, una relación lineal
inversa y perfecta. El valor 0, indica ausencia de relación lineal.
Para obtener este coeficiente hay una gran variedad de expresiones matemáticas que son equivalentes destacando las siguientes:
a ) Para puntuaciones directas
Sean { x1 ,...., xn } e { y1 ,..., yn } conjunto de pares de observaciones de las variables X e Y. A continuación, en forma general se
presentan los cálculos auxiliares que facilitan la obtención del
coeficiente de correlación de Pearson y que posteriormente se ilustarará con ejemplos.
232
Individuos
xi
yi
xi2
yi2
xi yi
1
x1
x2
x3
y1
y2
y3
x12
x22
x32
y12
...
...
...
x1 y1
x2 y 2
x3 y3
xn
yn
2
n
2
n
2
3
...
...
n
n
Totales
y
n
∑x y
∑ yi2
∑ xi2
i =1
i =1
...
xn yn
n
n
∑ yi
i =1
y32
x
n
∑ xi
y
2
2
i =1
i =1
i
i
Luego, la fórmula para calcular el coeficiente de correlación
de Pearson es la siguiente:
r=
n ∑ xi yi − (∑ xi )(∑ yi )
[n∑ x
2
i
][
− (∑ xi ) n ∑ yi2 − (∑ yi )
2
2
]
b) Para puntuaciones Z (puntuaciones típicas)
Si los valores observados de la muestra previamente han sido
tipificados según las siguientes fórmulas:
z yi =
yi − y
donde
s yi
n
x=
∑x ,
i =1
i
y=
∑y
i =1
∑ (x − x )
n
n
i
,
s xi =
z xi =
i =1
n −1
∑ (y
n
2
i
xi − x
s xi
,
s yi =
i =1
i
−y
y
)
2
n −1
el coeficiente de correlación de Pearson toma la siguiente forma:
n
r =
∑z
i =1
xi
z yi
n −1
233
luego, mediante una prueba de hipótesis, comprobar si es mayor de lo que podría esperarse solamente por casualidad.
Propiedades
El valor de r va de -1 a +1, de donde se deduce que:
a) Si r > 0, existe correlación directa positiva,
b) Si r < 0, existe correlación inversa negativa,
c) Si r = +1, existe una correlación perfecta positiva,
d) Si r = -1, existe una correlación perfecta negativa,
e) Si r = 0, no existe correlación o los datos están incorrelacionados.
Para los valores intermedios entre 0 y 1, se deduce por ejemplo que si:
a) 0 ≤ r < 0,20 , la correlación es muy baja,
b) 0,20 ≤ r < 0,40 , existe una correlación baja,
c) 0,40 ≤ r < 0,70 , existe una buena correlación positiva,
d) 0,70 ≤ r < 1,00 , existe muy buena correlación positiva,
e) r = 1,00 , existe una perfecta correlación positiva,
f) − 1.0 ≤ r < −0.70 , existe muy buena correlación inversa,
g) r = −1,00 , existe una perfecta correlación inversa.
Prueba de hipótesis para el coeficientes de correlación de
Pearson
Luego de obtener el coeficiente de correlación de Pearson, el investigador puede plantearse preguntas como la siguiente: ¿ Es
estadísticamente significativa la relación entre el coeficiente de
inteligencia de un estudiante y su rendimiento académico?.
A continuación se presentan los pasos a seguir para realizar
pruebas de hipótesis relativas al coeficiente de correlación de
Pearson.
Paso 1: Postular la hipótesis de investigación como la hipótesis
alternativa, juntamente con otra hipótesis que la niega y a la que
se denomina hipótesis nula.
234
En la hipótesis nula se postula que no existe asociación entre
las variables, y en la hipótesis alternativa: se postula que existe
asociación entre las variables. La representación es la siguiente:
H0 : ρ = 0
H1 : ρ ≠ 0
donde
ρ es
el coeficiente de correlación poblacional entre
las dos variables.
Paso 2: Se sabe que la siguiente estadística está en función del
coeficiente de correlación muestral y bajo la hipótesis nula tiene
distribución t-Student con (n − 2) grados de libertad.
t=
r
1 − r2
n−2
~ t (n − 2) ,
por lo que se usa como la estadística de prueba para contrastar la hipótesis nula frente a la hipótesis alternativa. Denotemos con tc el valor de la estadística de prueba.
Paso 3: Como la hipótesis alternativa es de la forma " ≠ ", la prueba de hipótesis que se está planteando es bilateral y la región crítica será el intervalo (-∞,- tteórico )U( tteórico , ∞) y donde " tteórico " es la
abcisa de la distribución t-Student con (n − 2) de libertad, de
manera que P (t( n −2 ) < tteórico ) = 1 − α 2 .
Así por ejemplo, si se elige el nivel de significación α = 0.05 y
el tamaño de muestra es 23, se cumple P t( 21) < tteórico = 0.975 .
Luego, en la tabla t-Student se encuentra que el valor de tteórico es
2.08, por lo que la región de rechazo de la hipótesis nula es el
intervalo (-∞,-2.08)U(2.08, ∞).
(
)
Paso 4: Decisión: Rechazar la hipótesis nula de que no existe
relación entre las variables cuando tc cae en la región de rechazo
de la hipótesis nula.
235
Ejemplo 5.8
En la siguiente tabla se tiene la información para una muestra
aleatoria de 12 estudiantes que estudiaron el primer año de secundaria en el colegio Cabrera Tapia el año 2000. El primer día
de clases a todos ellos se les aplicó una prueba para obtener sus
coeficientes de inteligencia (X) en la escala Stanford-Binet y al
término del año se les aplicó una prueba de 35 items para evaluar su rendimiento en Matemáticas. α = 0.05.
Dicha tabla se acompaña con los cálculos necesarios para
obtener el coeficiente de correlación de Pearson.
Solución
X:
Y:
puntajes obtenidos en la prueba Stanford- Binet
rendimiento en matemáticas
Tabla Nº 5.7 Rendimiento de los estudiantes en matemáticas y puntajes
obtenidos en la prueba Stanford- Binet
Estudiante
CI
Puntaje
xi
yi
xi2
yi2
xi yi
1
2
3
4
5
6
7
8
9
10
11
12
120
112
110
120
103
126
113
114
106
108
128
109
17
15
15
19
12
20
15
17
14
14
19
14
14400
12544
12100
14400
10609
15876
12769
12996
11236
11664
16384
11881
289
225
225
361
144
400
225
289
196
196
361
196
2040
1680
1650
2280
1236
2520
1695
1938
1484
1512
2432
1526
Totales
1369
191
156859
3107
21993
236
Obtenemos el coeficiente de correlación de Pearson r
r=
12(21993) − 1369(191)
(12(156859) − (1369) )(12(3107) − (191) )
2
2
= 0,953
En la muestra se observa muy buena correlación directa y
positiva entre coeficiente de inteligencia y el rendimiento académico en el curso de matemáticas.
¿Es estadísticamente diferente de cero el valor encontrado?.
Responderemos la pregunta con la metodología de pruebas de
hipótesis.
Solución
Paso 1: No existe asociación entre el coeficiente de inteligencia
y el rendimiento académico es la hipótesis nula, y la hipótesis
alternativa niega esa afirmación.
H0 : ρ = 0
H1 : ρ ≠ 0
Paso 2: Para el coeficiente de correlación muestral r = 0.953 y
tamaño de muestra 12, el valor de la estadística de prueba es:
tc =
0.953
1 − 0.9532
10
= 9.93
Paso 3: Para encontrar la región crítica, se tiene en cuenta que α
= 0.05, n = 12 y P t(10) < tteórico = 0.975 . Por tanto, en la tabla tStudent se encuentra el valor de tteórico = 2.228. La región de rechazo de la hipótesis nula es el intervalo (-∞,-2.228)U(2.228, ∞).
(
)
Paso 4: Como el valor de tc = 9.93 cae en la región de rechazo de
la hipótesis nula, la decisión es rechazar la hipótesis de que no
existe asociación entre el rendimiento académico y los coeficientes de inteligencia, para un nivel de significación 0.05.
237
Ejemplo 5.9
Obtendremos el valor del coeficiente de correlación para los datos ejemplo 5.7 usando la fórmula de variables estandarizadas.
Previamente los valores de la variable serán estandarizados.
a) La estandarización de las variables se realiza con el auxilio
del SPSS, para lo que, previamente, con los datos del ejemplo 5, se crea la base de DATOS9-pearson. Los comandos son
los siguientes:
Abrir la base de DATOS9-pearson y ejecutar los comandos/
ANALYZE/DESCRIPTIVE STATISTICS/DESCRIPTIVE/seleccionar las variables COEFICIENTE DE INTELIGENCIA
y RENDIMIENTO ACADÉMICO/activar SAVE STANDARDIZED VALUES AS VARIABLES/OK.
En el editor del SPSS junto a los valores de las variables X e Y
se han creado dos columnas con los valores de las variables
originales estandarizadas, z xi z yi .
b)
238
xi
yi
z xi
z yi
120
112
110
120
103
126
113
114
106
108
128
109
17
15
15
19
12
20
15
17
14
14
19
14
0.7531
-0.2651
-0.5197
0.7532
-1.4107
1.5168
-0.1379
-0.0106
-1.0289
-0.7743
1.7714
-0.6470
0.4392
-0.3716
-0.3716
1.2501
-1.5879
1.6555
-0.3716
0.4392
0.7771
-0.7771
1.2501
-0.7771
Para calcular el coeficiente de correlación, ejecutar los siguientes comandos del SPSS:
ANALYZE/CORRELATE/BIVARIATE/ seleccionamos las
variables originales y las variables estandarizadas/activar
PEARSON/ OK.
En el output del SPSS se lee:
coeficiente de
inteligencia
Zscore: coeficiente
de inteligencia ( z yi )
n
r =
∑z
i =1
xi
rendimiento
Zscore:
rendimiento
( z yi )
Pearson Correlation
.953
.953
Pearson Correlation
.953
.953
z yi
n −1
= 0.953.
El valor del coeficiente de correlación entre las variables estandarizadas coinciden con el ya encontrado manualmente en el ejemplo anterior con los valores originales y con el también muestra el
output del SPSS para las variables originales coeficiente de inteligencia y rendimiento.
En lo que corresponde a pruebas de hipótesis, los pasos y
resultados son similares a los del ejemplo anterior.
Ejemplo 5.10
Se trata de un estudio sobre el rendimiento escolar. Se desea saber si existe correlación entre los años de escolaridad de la madre y las calificaciones de sus hijos en una prueba de matemáticas. Los datos son los siguientes.
Tabla Nº 5.6 Años de escolaridad de la madre y
calificaciones en una prueba de matemáticas
Estudiantes
Años de escolaridad
de la madre ( X )
Calificaciones de los hijos en
una prueba de Matemática ( Y )
1
2
3
4
5
8
5
3
6
7
12
8
8
10
10
239
En el siguiente cuadro se presentan los cálculos auxiliares:
Estudiantes
xi
yi
xi yi
xi2
yi2
1
8
12
96
64
144
2
5
8
40
25
64
3
3
8
24
9
64
4
6
10
60
36
100
5
7
10
70
49
100
n=5
29
48
290
183
472
Reemplazando los valores obtenidos en la ecuación de r para
puntuaciones directas obtenemos:
r=
5(290) − (29 )(48)
[5(183) − (29) ][5](472) − (8)
2
2
=
58
= 0,9
74 x56
El valor de +0,9 significa una alta correlación positiva, es
decir, el nivel de escolaridad de la madre está asociado linealmente al rendimiento académico de sus hijos en matemática.
Ejemplo 5.11
En la Tabla Nº 5.8 se tiene información de una muestra aleatoria
de 15 alumnos del Centro Educativo "Teresa Gonzales de Fanning". La encuesta fue aplicada a 150 estudiantes en Abril de 1998.
Se desea obtener el coeficiente de correlación entre las variables
puntajes obtenidos en aritmética y lenguaje.
240
Tabla Nº 5.8: Rendimiento y Edades de una muestra de estudiantes del
Colegio Teresa Gonzales de Fanning, 1998
Estud.
Aritmética
Lenguaje
Edad
Rendimiento
Promedio
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
15
14
13
12
11
13
15
15
16
12
11
8
10
15
13
16
15
12
12
10
15
15
16
17
15
12
9
11
14
15
14
14
15
16
16
17
17
16
15
15
16
17
17
18
15
13
14
14
14
12
15
15
14
14
14
9
11
13
15
13
Se ilustra los cálculos auxiliares del coeficiente de correlación de Pearson con los valores observados de las variables notas
en aritmética (X ) y notas en lenguaje (Y ).
Estudiantes
xi
yi
xi2
xi yi
yi2
1
2
3
4
5
6
7
8
9
10
15
14
13
12
11
13
15
15
16
12
16
15
12
12
10
15
15
16
17
15
225
196
169
144
121
169
225
225
256
144
240
210
156
144
110
195
225
240
272
180
256
225
144
144
100
225
225
256
289
225
Totales
193
204
2553
2691
2856
∑x
i
= 193
∑y
i
= 204
∑x
2
i
= 2553
∑x y
i
i
= 2691
∑y
2
i
= 2856
241
Luego reemplazando en la fórmula, el coeficiente de correlación entre las notas de aritmética y lenguaje vale:
r=
15(2691) − 193(204 )
15(2553) − (193)
2
15(2856) − (204 )
2
= 0,878
Se observa una correlación alta y positiva entre los puntajes
obtenidos en los cursos de aritmética y lenguaje.
¿Es estadísticamente significativo el coeficiente de correlación encontrado?. Responderemos con la metodología de pruebas de hipótesis.
Paso 1: En la hipótesis nula postulamos que no existe asociación
entre las notas de matemáticas y lenguaje y la hipótesis alternativa niega esa afirmación.
H0 : ρ = 0
H1 : ρ ≠ 0
Paso 2: Para el coeficiente de correlación muestral r = 0.878 y
tamaño de muestra 15, el valor de la estadística de prueba es:
tc =
0.878
1 − 0.8782 = 6.61
13
Paso 3: Para encontrar la región crítica, se tiene en cuenta que
α = 0.05, 15 y P t(13) < tteórico = 0.975 . Por tanto, en la tabla t-Student se encuentra el valor de tteórico = 2.16. La región de rechazo
de la hipótesis nula es el intervalo (-∞,-2.16)U(2.16, ∞).
(
)
Paso 4: Como el valor de tc = 6.61 cae en la región de rechazo de
la hipótesis nula, la decisión es rechazar la hipótesis de que no
existe asociación entre las notas de matemáticas y lenguaje, a un
nivel de significación 0.05.
242
Ejemplo 5.12
Para una muestra aleatoria de 7 docentes universitarios de la
Facultad de Derecho de una universidad prestigiosa se dispone
de la siguiente información con respecto a sus sueldos y el tiempo de servicio en la docencia. Obtendremos la relación entre esas
variables y veremos si la correlación encontrada es estadísticamente significativa.
Solución
X: Años de servicio de los docentes
a)
Y: Sueldos de los docentes
Obtenemos el coeficiente de correlación con la fórmula original, para lo cual realizamos los siguientes cálculos auxiliares:
profesor
Años de
servicio xi
sueldos
yi
xi2i
yi2i
xi yi
1
2
3
4
5
6
7
16
14
14
23
9
19
19
1182
1341
1561
1437
1415
1462
1288
256
196
196
529
81
361
361
1397124
1798281
2436721
2064969
2002225
2137444
1658944
18912
18774
21854
33051
12735
27778
24472
i =1
i
∑y
=
i =1
114
r=
=
n
n
n
∑x
Totales
i
=
9686
∑x
i =1
2
i
2
i
][
− (∑ xi ) n ∑ yi2 − (∑ yi )
2
2
n
=
∑x y =
13495708
157576
i =1
1980
n ∑ xi yi − (∑ xi )(∑ yi )
[n∑ x
n
∑y
=
2
i
i =1
i
i
]=
7(157576) − (114)(9686)
[7(1980) − 114 ][7(13495708) − 9686 ]
2
2
= -0.05
243
El valor obtenido nos indica una correlación nula entre las
variables involucradas. Es decir, para la muestra analizada las
variables años de servicio y sueldos no están correlacionadas.
Ejemplo 5.13
Usando la base DATOS11-educación se ajusta la recta de regresión entre las variables rendimiento promedio y rendimiento en el curso de álgebra, usando el método de mínimos cuadrados. Se obtienen el coeficiente de correlación y el diagrama
de dispersión.
Solución
Para el diagrama de dispersión, ajuste de la recta, el gráfico de la
recta de regresión ajustada por el método de mínimos cuadrados, y el coeficiente de correlación, ejecutamos los siguientes comandos:
a)
Abrir el archivo de DATOS11-educación.
GRAPHS/INTERATIVE/SCATTER/colocar en el X la variable ALGEBRA y en el eje Y la variable RENDIMIENTO PROMEDIO/ FIT/ en FIT LINE escoger TOTAL / ACEPTAR.
b)
Para encontrar la ecuación de la recta de regresión, los comandos son los siguientes:
ANALYZE / REGRESSION/LINEAR/ en DEPENDENT escoger RENDIMIENTO PROMEDIO y en INDEPENDENT escoger ÁLGEBRA/ STATISTICS/ activar ESTIMATES y MODEL FIT/OK.
c)
ANALYZE / CORRELATE /BIVARIATE/ seleccionamos las
variables originales y las variables estandarizadas/activar
PEARSON/ OK.
El output del SPSS nos muestra lo siguiente:
244
a)
El diagrama de dispersión y el gráfico de la recta de regresión
ajustada por el método de mínimos cuadrados.
Notas promedio
Notas de álgebra y calificación promedio de
profesores de educación secundaria
Notas álgebra
Observamos que las notas de álgebra y las calificaciones promedio de profesores que participaron en el programa de capacitación, tienen una relación directa y positiva.
b)
El coeficiente de correlación de Pearson:
Model Summary
Model
1
R
R Square
Adjusted
R Square
Std. Error of
the Estimate
.925ª
.855
.852
.52
a. Predictors: (Constant), NOTAS de ÁLGEBRA
r = 0,925 Coeficiente de correlación lineal
Se tiene una correlación alta y positiva entre las notas de álgebra y las calificaciones promedio que alcanzaron los profesores que
participaron en el programa de capacitación.
245
c)
Los coeficientes de la recta de regresión son:
Coefficientsa
Unstandardized Standardized
Coefficients
Coefficients
Model
1 (Constant)
NOTAS DE ÁLGEBRA
B
Std. Error
3.853
.477
.708
.043
Beta
t
Sig.
8.071
.000
.925
16.299
.000
a. Dependent variable: NOTAS PROMEDIO
a
b
y la recta de regresión ajustada por el método de mínimos cuadrados es:
Yˆ = 3.853 + 0.708X,
donde, manteniendo constante la variable notas de álgebra
aún podemos estimar la calificación promedio en 3.853 puntos.
Un incremento en la notas de álgebra de un punto, por ejemplo,
es acompañado por un incremento en la calificación promedio
de los profesores de educación secundaria en 0.708 puntos.
Regresión lineal múltiple
Introducción
En un modelo de regresión lineal múltiple, la variable dependiente o respuesta (Y ) es una función de dos o más variables independientes o regresoras. Un modelo de regresión con k variables
independientes o regresoras se puede expresar así:
Y = f (X 1 , X 2 , X 3 ,..., X k )
246
Explicaremos el análisis de regresión lineal múltiple con los
datos de la siguiente tabla, en la que se muestra los coeficientes
de inteligencia (IQ), los promedios de calificaciones y el tiempo
que 12 estudiantes dedican al estudio. Se desea predecir el promedio de las calificaciones de estos estudiantes en función de sus
coeficientes de inteligencia y de los tiempos que dedican al estudio. Se puede observar que se tiene dos variables, coeficiente de
inteligencia y tiempo dedicado al estudio, para explicar el comportamiento de las calificaciones promedio de los estudiantes.
Para el problema descrito se postula la forma general del modelo de regresión lineal múltiple:
Y = β 0 + β1 X 1 + β 2 X 2 + e
donde:
Y:
β 0 , β1 , β 2 :
X1 , X 2 :
e:
variable aleatoria denominada variable dependiente,
parámetros del modelo de regresión lineal múltiple,
variables independientes,
error aleatorio, mide el desajuste entre la realidad y
el modelo,
Esta ecuación es muy similar a la utilizada en la regresión lineal simple, excepto que agregamos otra variable independiente.
Para estimar los parámetros β 0 , β1 , β 2 se toma una muestra
de los valores ( yi , x1i , x2 i ) i = 1,..., n , y para cada individuo se
tiene el siguiente sistema de ecuaciones, yi = β 0 + β1 x1i + β 2 x2i + ei ,
donde yi es el i-ésimo valor de la variable Y, x1i , x2 i , los i-ésimos valores de las variables independientes X 1 , X 2 , por lo que
ei = yi − β 0 − β1 x1i − β 2 x2i . Luego, se usa el método de mínimos
cuadrados, es decir se buscan los valores de β0 , β1 , β 2 que hagan mínima la suma de cuadrados de los errores, es decir, que
ei2 .
minimicen
La solución conduce a un sistema de ecuaciones denominadas ecuaciones normales, a partir de las cuales, utilizando con-
∑
247
ceptos de álgebra matricial se encuentran los estimadores de los
parámetros β0 , β1 , β 2 tema que escapa de los objetivos del curso y que no será abordado aquí.
Los problemas de regresión múltiple serán resueltos con el
soporte del SPSS, puesto que en la mayoría de las investigaciones el número de observaciones y el número de variables es grande, lo que dificulta el trabajo manual.
Así, Yˆ = βˆ0 + βˆ1 X 1 + βˆ2 es las ecuación de la recta de regresión múltiple ajustada por el método de mínimos cuadrados.
Ejemplo 5.14
Para una muestra de 12 estudiantes se tiene la información adjunta en la siguiente tabla. Vamos a ajustar la recta de regresión
múltiple usando el método de mínimos cuadrados.
Promedio de calificaciones,
coeficiente intelectual y tiempo dedicado al estudio
Estudiante
Número
(X 1 )
IQ
Tiempo de
estudio (X 2 )
Promedio de
calificaciones (Y )
1
2
3
4
5
6
7
8
9
10
11
12
110
112
118
119
122
125
127
130
132
134
136
138
8
10
6
13
14
6
13
12
13
11
12
18
1.0
1.6
1.2
2.1
2.6
1.8
2.6
2.0
3.2
2.6
3.0
3.6
Solución
Postulamos el modelo Y = β 0 + β1 X 1 + β 2 X 2 + e , para estudiar la
relación entre las variables.
248
donde: X 1 : Coeficiente intelectual (IQ).
X 2 : Tiempo de estudio.
Y: Promedio de calificaciones
e : error
β 0 , β1 , β 2 : parámetros a estimar.
Usamos las opciones del SPSS
Activar el SPSS y crear los datos en un archivo de nombre:
COEFICIENTE.
En VARIABLE VIEW definir las siguientes variables: IQ,
TIEMPO y CALIFICA y en DATA VIEW colocar los datos de la
tabla. Ejecutar ANALYZE/ REGRESSION/LINEAR/ ingresar en
DEPENDENT la variable CALIFICA y en INDEPENDENT las variables IQ TIEMPO/OK.
El output del SPSS es el siguiente:
Coefficientsa
Unstandardized Standardized
Coefficients
Coefficients
Model
1
(Constant)
IQ
TIEMPO
B
Std. Error
Beta
t
Sig.
-5.249
,049
.118
1.166
.010
.028
.570
.509
-4.501
4.717
4.209
.001
.001
.002
a. Dependent variable: CALIFICA
βˆ0
β̂1
βˆ2
Las estimaciones de los parámetros son:
βˆ0 = −5.249
βˆ1 = 0.049
βˆ2 = 0.118
249
donde:
X 1 : Coeficiente intelectual (IQ).
X 2 : Tiempo dedicado al estudio.
A partir de los resultados anteriores se encuentra la ecuación de la recta de regresión múltiple ajustada por el método de
mínimos cuadrados:
Yˆ = −5.249 + 0.049 X 1 + 0.118 X 2 ,
donde, manteniendo constante la variable tiempo de estudio, un incremento en el coeficiente intelectual (IQ) de un punto,
por ejemplo, es acompañado por un incremento en el promedio
de calificaciones de 0.049 puntos. En forma similar, manteniendo constante la variable coeficiente intelectual, un incremento
de 1 hora en el tiempo de estudio, es acompañado por un incremento en el promedio de calificaciones de 0.118 puntos.
Coeficiente de determinación
El coeficiente de determinación, R 2 , multiplicado por 100, indica el porcentaje de la variación de la variable dependiente que es
explicado por las variables independientes del modelo.
Se puede demostrar que la suma de cuadrados del total,
∑ (y
i
)
− y , se puede dividir en dos componentes: la suma de
cuadrados debido a la regresión,
drados debido al error
donde:
∑ (yˆ
)
2
i
− y , y la suma de cua-
∑ ( y − yˆ ) . Es decir: SCT = SCR + SCE ,
2
i
i
SCT: suma de cuadrados del total.
SCR: suma de cuadrados debido a la regresión.
SCE: suma de cuadrados debido al error.
250
El término coeficiente de determinación múltiple mide la
bondad de ajuste para la ecuación de regresión múltiple. Este coeficiente se calcula como sigue:
R2 =
SCR
SCT
En nuestro ejemplo, la variable dependiente es el promedio
de calificaciones de un alumno y las variables independientes
son el coeficiente de inteligencia y el tiempo dedicado al estudio.
El valor del coeficiente de determinación es 0.91, valor que significa que, el 91% de las variaciones observadas en la calificación
promedio de los alumnos son explicables por las variaciones del
coeficiente de inteligencia y del tiempo dedicado al estudio.
El valor 0.09 = 1 - 0.91, llamado coeficiente de alienación,
indica que el 9% de las variaciones observadas en la calificación
promedio de los alumnos no son explicables por el modelo (en
este caso por las variaciones en el IQ y tiempo de estudio).
Pruebas de hipótesis
Las pruebas de hipótesis con respecto a los parámetros de la ecuación de regresión múltiple se basan en las estadísticas t de Student y F de Snedecor.
La prueba F se usa para determinar si hay una relación significativa entre la variable dependiente y el conjunto de todas
las variables independientes. En estas condiciones se denomina
prueba de significación global.
La prueba t de Student se aplica para determinar si cada
una de las variables independientes son significativas. Se hace
una prueba de hipótesis por separado para cada variable independiente en el modelo a cada una de esas pruebas de hipótesis
se denomina prueba de significación individual.
A continuación explicaremos la prueba F y la prueba t, y
aplicaremos para cada una el ejemplo sobre el coeficiente inteligencia de estudiantes.
251
Prueba F
Antes de describir los pasos de la prueba F necesitamos conocer
el concepto de cuadrado medio. Considerando que el modelo de
regresión múltiple tiene k variables independientes. El cuadrado medio (CMR, CME) es una suma de cuadrados dividida entre
sus grados de libertad correspondiente. En el caso de la regresión
múltiple, la suma de cuadrados del total tiene n - 1 grados de
libertad, la suma de cuadrados de regresión (SCR) tiene k grados de libertad y la suma de cuadrados del error tiene n - k - 1
grados de libertad.
CMR =
SCR
k
CME = S 2 =
SCE
n − k −1
El cuadrado medio del error es un estimador insesgado de σ2.
Prueba F para la significancia global
Si el modelo general es:
Y = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k + e , entonces:
H 0 : β1 = β 2 = ... = β k = 0
H 1 : Al menos uno de los parámetros no es igual a cero
Estadística de prueba
F=
CMR
CME
Regla de decisión
Con el estadístico de prueba: Rechazar Ho si Fc > Fα .
Con el valor p - value: Rechazar Ho si el valor p - value < α.
donde Fα es la abcisa de la distribución F con k grados de
libertad en el numerador y n - k - 1 grados de libertad en el
denominador.
252
Tabla de análisis de Varianza (ANOVA)
La tabla de análisis de varianza, proporciona la descomposición
de la suma de cuadrados de la regresión, los grados de libertad
asociados a cada suma de cuadrados, los cuadrados medios y los
resultados de la prueba F para el modelo de regresión múltiple.
El valor del estadístico de la prueba F aparece en la última
columna y se puede comparar con Fα con k grados de libertad en
el numerador y (n - k - 1) en el denominador (valor obtenido de
la tabla F-Snedecor) cuando la hipótesis nula es:
H 0 : β1 = β 2 = ... = β k para el modelo Y = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k + e .
Tabla ANOVA Regresión múltiple con k variables independientes
Fuente
Suma de
cuadrados
Grados de
libertad
Regresión
SCR
k
Error
SCE
n-k-1
Total
SCT
n-1
Cuadrado
Medio
CMR =
CME =
SCR
k
F=
CMR
CME
SCE
n − k −1
Ejemplo 5.15
Usando la información del ejemplo 5.14 vamos a hacer la prueba
de hipótesis referente a los dos parámetros poblacionales del
modelo Y = β 0 + β1 X 1 + β 2 X 2 + e .
Solución
Paso 1:
Las hipótesis se formula como sigue:
H 0 : β1 = β 2 = 0 H 1 : al menos uno de los parámetros es igual a cero.
253
Paso 2:
El valor de la estadística de prueba,, lo vamos a obtener utilizando los comandos del SPSS:
Crear el archivo: COEFICIENTE
Definir las variables en VARIABLE VIEW, por ejemplo, IQ,
TIEMPO y CALIFICA.Ejecutar:
ANALYZE/ REGRESSION/LINEAR/ Seleccionar/ ingresar
en DEPENDENT CALIFICA y
en INDEPENDENT las variables IQ TIEMPO/OK.
El output del SPSS muestra lo siguiente:
ANOVAb
Model
1
Regression
Residual
Total
Sum of
squares
df
Mean
Square
F
Sig.
6.389
.634
7.022
2
9
11
3.194
7.043E-02
45.353
.000a
a. Predictors: (Constant), TIEMPO, IQ
b. Dependent Variable: CALIFICA
CME
CMR
F
Estadística de prueba
Fc =
CMR 3.194
=
= 45.37
CME 0.0704
Paso 3:
[
]
Para α = 0.05, k = 2; n - k - 1 = 9, P F(2,9 ) > Fteórico = 0.05 en la
tabla - Snedecor se encuentra el valor de Fteórico = 4.26 . La región
de rechazo de la hipótesis nula es el intervalo (4.26; ∞).
254
Paso 4:
Como Fc = 45.37 > Fteórico = 4.26 entonces rechazamos H 0 y concluimos que al menos uno de los parámetros es diferente de cero.
Prueba t
Si la prueba F ha mostrado que la relación entre la variable dependiente y los regresores es estadísticamente significativo, se
puede hacer una prueba t para determinar la significancia de
cada uno de los parámetros individuales.
Así para cualquier parámetro β i se plantea lo siguiente:
Paso 1:
Para cualquier parámetro β i
H 0 : βi = 0
H1 : βi ≠ 0
Paso 2:
La distribución de la estadística de prueba es:
t=
βˆi
~ t(n −1)
sβˆi
Paso 3:
[
α
]
Para el nivel de significación α, P t(n −1) < tteórico = 1 − , en la ta2
bla t(n −1) se obtiene el valor teórico de t, tteórico . La región de rechazo es el intervalo − ∞,−t(teórico ) U t(teórico ), ∞ .
(
) (
)
Paso 4:
Si tteórico cae en la región de rechazo, entonces se rechaza la hipótesis nula.
255
Si retomamos el ejemplo anterior y queremos saber si es estadísticamente significativo plantearemos las siguientes hipótesis.
H 0 : βi = 0
H1 : βi ≠ 0
Paso 2:
Usando comandos del SPSS obtenemos la siguiente tabla:
Coefficientsa
Unstandardized Standardized
Coefficients
Coefficients
Model
1
(Constant)
IQ
TIEMPO
B
Std. Error
Beta
t
Sig.
-5.249
,049
.118
1.166
.010
.028
.570
.509
-4.501
4.717
4.209
.001
.001
.002
a. Dependent variable: CALIFICA
βˆ2
donde βˆ1 = 0,049
ba es:
βˆ1
Sβˆ
2
S βˆ
1
sβˆ = 0.010 y el valor de la estadística de pruetc =
βˆ1 0.049
=
= 4.9
sβ1 0.010
.
El valor de la t de Student con 9 grados de libertad y
α / 2 = 0.05 / 2 = 0.025 es, t0.9755 = 2.69 .
Paso 3:
En la tabla el valor de la de Student con 9 grados de libertad y
α / 2 = 0.05 / 2 = 0.025 es, t0.9755 = 2.69 . Para α = 0,05 se encuentra
que tteórico = t0,975 = 2,69 .
256
Paso 4:
Como tc = 4.9 > t0.975 = 2.69 rechazamos la hipótesis nula a un
nivel de significación de 0.05 y concluimos que la variable Coeficiente Intelectual (IQ) explica el comportamiento de las calificaciones de los estudiantes.
Trabajando con la misma metodología para el parámetro β 2 ,
se encuentra la siguiente tabla.
Coefficientsa
Unstandardized Standardized
Coefficients
Coefficients
Model
1
(Constant)
IQ
TIEMPO
B
Std. Error
Beta
t
Sig.
-5.249
,049
.118
1.166
.010
.028
.570
.509
-4.501
4.717
4.209
.001
.001
.002
a. Dependent variable: CALIFICA
βˆ1
βˆ2
Sβˆ
2
S βˆ
1
de donde el valor de la estadística de prueba es:
tc =
βˆ2 0.118
=
= 4.21
sβ2 0.028
y nuevamente se rechaza la hipótesis nula (β1 = 0 ) , porque
tc = 4.21 > 2.69, con un nivel de significación de 0.05.
Pruebas no paramétricas
En los temas estudiados a lo largo de este libro hemos podido
notar el importante lugar que le corresponde a la distribución
257
normal en la teoría estadística. Sin embargo, con frecuencia en muchas situaciones no se conoce si la distribución desde la cual se ha
seleccionado la muestra es tal que sea aplicable el teorema del límite central o si la aproximación a la distribución normal es lo suficientemente adecuada como para que los intervalos de confianza
resultantes y las pruebas de hipótesis basadas en la teoría normal
tengan validez. En tales situaciones se necesita de métodos estadísticos cuya aplicación sea independiente de la forma de la densidad.
Estos métodos se denominan métodos no paramétricos.
Los métodos no paramétricos que se desarrollarán en esta sección se aplican a familias muy extensas de distribuciones en vez
de familias caracterizadas por una forma funcional particular.
La estructura de la mayoría de los métodos no pramétricos
descansa en las estadísticas de orden. Las estadísticas de orden
representadas por: X(1), X(2),…,X(n) son la consecuencia de haber
ordenado la muestra aleatoria original X1, X2, …,Xn en forma ascendente. Es decir:
X(1), es la más pequeña en magnitud de todas las X's
X(2), es la segunda más pequeña en magnitud de todas las X's
.
.
.
X(n), es la más grande en magnitud de todas las X's
Se trabajará bajo el supuesto de que la muestra aleatoria proviene de una distribución continua. Esto implica que la probabilidad que dos observaciones muestrales sean iguales es cero. Es
decir, con probabilidad una las observaciones maestrales serán
ordenadas desde la más pequeña a la más grande sin tener en
este ordenamiento dos valores iguales. En la práctica, frecuentemente observamos en la muestra dos o más valores iguales denominados empates (ties); para lo cual dependiendo de la prueba se utilizará un factor de corrección por empates.
Posición y dispersión
258
En el caso paramétrico hemos utilizado la media y la desviación
estándar poblacionales como medidas de posición y dispersión
respectivamente, pero los métodos no paramétricos utilizan como
medida de posición a la mediana M, que es el punto que divide en dos partes iguales el área limitada por la función de densidad f(x), tal como se grafica a continuación.
En una distribución continua P( X ≥ M ) = P( X ≤ M ) =
f(x)
1
.
2
50%
del
área
50%
del
área
M
La mediana poblacional M, se estima mediante la mediana
muestral m. Para la obtención de la mediana como es conocido
primero deben organizarse los datos en forma ascendente, la mediana será el valor central si el número de datos es impar y será
la semisuma de los valores centrales si se cuenta con un número
par de datos. Es decir,
si n = 2k + 1
 x( k +1)

m =  x( k ) + x( k +1)
si n = 2k


2
La mediana muestral no es un estimador insesgado de la mediana poblacional, pero este sesgo tiende a cero al aumentar el
tamaño de la muestra. Como medida de dispersión se emplea
entre otras el rango intercuartil, la diferencia entre el cuartil 3 y
el cuartil 1: R = Q3 − Q1
Ejemplo 5.16
259
Se cuenta con los siguientes valores: x1 = 0.62, x2 = 0.98, x3 = ;
0.31, x = 0.81, x = 0.53 los cuales corresponden a n = 5 valores
4
5
observados de 5 ensayos independientes de un experimento. Se
determinará la mediana muestral.
•
•
En primer lugar se ordenan en forma ascendente las observaciones:
x = 0.31 < x = 0.53 < x = 0.62 < x
= 0.81 < x = 0.98
(1)
( 2)
(3)
( 4)
(5)
Como se cuenta con un número impar de observaciones la
mediana muestral es x = 0.62 .
(3)
En esta sección estudiaremos los siguientes métodos no paramétricos:
• Para una población: Prueba de Wilcoxon.
• Para dos poblaciones independientes: Prueba de MannWhitney
• Para tres o más muestras independientes: Prueba de Kruskall Wallis
• Prueba de bondad del ajuste: Prueba de Kolmogorov
Prueba de Wilcoxon
En algunas investigaciones se requiere probar una hipótesis nula
con respecto a la media poblacional, pero la distribución bajo estudio no es la distribución normal. En tal situación un procedimiento estadístico adecuado es la prueba de Wilcoxon, la cual
utiliza las magnitudes de las diferencias entre las mediciones y
el valor de la mediana poblacional propuesta en la hipótesis nula.
Supuestos
La prueba de Wilcoxon se basa en los siguientes supuestos.
1. La muestra X1,X2,..,Xn es una muestra aleatoria
2. La variable en estudio es continua
260
3.
4.
La población se distribuye simétricamente
La escala de medición es al menos de intervalo
Hipótesis
Se plantea a continuación la hipótesis nula con su respectiva hipótesis alternativa
I. H0 : M = M 0
II . H 0 : M ≥ M 0
III . H 0 : M ≤ M 0
H1 : M ≠ M 0
H1 : M < M 0
H1 : M > M 0
En cada uno de los casos con un nivel de significación α.
Procedimiento para la obtención de la estadística de
prueba
Cuando se utiliza la prueba de Wilcoxon se realizan los siguientes cálculos.
1.
2.
3.
4.
Se obtienen las diferencias Di = Xi -M0 , i = 1,2,…,n.
Si algún Xi es igual a M0 , éste es eliminado y como consecuencia el tamaño de la muestra disminuye.
Se ordenan las diferencias Di en forma ascendente sin considerar el signo de la diferencia. Es decir, se ordenan las diferencias en valor absoluto, |Di|. Si dos o más de los |Di| son
iguales, se obtiene el promedio de los rangos que ocupan las
diferencias empatadas y este valor es asignado a cada una
de las observaciones empatadas.
Se retoma el signo de la diferencia Di y es asignado al rango
respectivo.
Se obtienen y T + y T -, que representan a la suma de rangos
con signo positivo y negativo respectivamente.
La suma total de los rangos es:
n( n + 1)
−T−
T+ =
2
n( n + 1)
, entonces
2
Estadística de prueba
261
Dependiendo de la hipótesis alternativa planteada se considera
como estadística de prueba a T = min T + , T − , T + o T − .
Si la hipótesis nula H0 es verdadera, es decir, si la mediana
poblacional, M, es igual a la mediana hipotética, M0, y se cumplen los supuestos, la probabilidad de observar una diferencia Di
positiva es igual a la probabilidad de observar una diferencia negativa. Entonces al repetir el muestreo, el valor esperado de T+ es
igual al valor esperado de. En una muestra específica no sucede
que T + sea exactamente igual a T -. Sin embargo, cuando H0 es
verdadera no esperamos una gran diferencia entre ambos valores. Esto trae como consecuencia que un valor suficientemente
pequeño de T + o T - causa el rechazo de H0.
{
}
Valores críticos
En la Tabla G del Apéndice se encuentran los valores críticos d
de la estadística de prueba de Wilcoxon para muestras de tamaño 4 hasta 20 y distintos niveles de significación.
Región crítica
La región crítica depende de la hipótesis alternativa planteada.
En la siguiente tabla se resume los tres casos de la prueba de
hipótesis respecto de la mediana de una población.
Ejemplo 5.17
Hipótesis
I. H0 : M = M 0
H1 : M ≠ M 0
II . H 0 : M ≥ M 0
H1 : M < M 0
III . H 0 : M ≤ M 0
H1 : M > M 0
Estadística de Prueba
T = min{T + , T − }
T ≤d
T+
T+ ≤ d
T−
T− ≤ d
En cada caso con un nivel de significación α.
262
Regla de decisión
Rechazar, H 0 : M = M 0 si
Un psicólogo está interesado en tener evidencia suficiente para concluir que las calificaciones de destreza manual promedio en estudiantes discapacitados es diferente de 45 puntos. Para llevar a cabo
su estudio selecciona una muestra aleatoria de 25 estudiantes discapacitados y registra sus calificaciones de destreza manual. La
información que obtiene es la siguiente:
¿Los datos son concordantes con la propuesta del psicólogo?.
Utilice α = 0.05.
33
53
22
40
24
56
36
28
38
42
35
52
36
47
41
32
20
42
34
53
37
35
47
42
52
Solución.
Paso 1: Se plantean las hipótesis
Se trata de un problema de inferencia estadística acerca de la
mediana poblacional M : "calificación media de la destreza manual de una población de estudiantes discapacitados"
Hipótesis nula: La calificación media es M = 45, donde M0 = 45
puntos. Es decir,
H 0 : M = 45
Hipótesis alternativa: La calificación media es diferente de 45
puntos. Es decir,
H 1 : M ≠ 45
Paso 2:
En base a la muestra aleatoria se realizan los cálculos para obtener la estadística de prueba.
n = 25
263
Obs
xi
Di
rango
(|Di|)
sig ran
(|Di|)
Obs
xi
Di
rango
(|Di|)
sig ran
(|Di|)
1
2
3
4
5
6
7
8
9
10
11
12
13
33
53
22
40
24
56
36
28
38
42
35
52
52
-12
8
-23
-5
-21
11
-9
-17
-7
-3
-10
7
7
20
12
24
7
23
18,5
14,5
22
9
4
16,5
9
9
-20
12
-24
-7
-23
18,5
14,5
-22
-9
-4
16,5
9
9
14
15
16
17
18
19
20
21
22
23
24
25
36
47
41
32
20
42
34
53
37
35
47
42
-9
2
-4
-13
-25
-3
-11
8
-8
-10
2
-3
14,5
1,5
6
21
25
4
18,5
12
12
16,5
1,5
4
14,5
1,5
-6
-21
-25
-4
18,5
12
-12
16,5
1,5
-4
Suma total de rangos:
n( n + 1) 25( 26)
=
= 325
2
2
Suma de rangos positivos: T + = 63.5 ,
Suma de rangos negativos: T − = 261.5
Estadística de prueba:
T = mín{T + , T − }= mín{63.5, 261.5}= 63.5 .
Paso 3. Obtención de la región crítica
En la tabla G del Apéndice, el valor de d = 101. La región crítica
está conformada por T ≤ d y para nuestro ejemplo la región crítica es: T < 101 .
Paso 4. Decisión
264
Región de rechazo
101
T
El valor de T = 63.5 , se encuentra en la región de rechazo. Es
decir, T = 63.5 < 101 = d , lo cual implica el rechazo de la hipótesis nula. Es decir, en base a las observaciones muestrales, el psicólogo encuentra un soporte a su afirmación de que el puntaje
medio de las calificaciones de la destreza manual de la población de estudiantes discapacitados bajo estudio, es diferente de
45 puntos.
Análisis por computadora usando el SPSS
Debe señalarse que el SPSS no tiene el análisis para probar la
mediana poblacional en base a una muestra. Cuenta con el análisis para muestras relacionadas. Adaptaremos este procedimiento a nuestro caso procediendo de la siguiente forma:
1.
2.
3.
Utilizar el artificio de crear una variable que ha sido denominada Median, la cual contiene el valor de la mediana propuesta bajo la hipótesis nula.
Crear la variable Destrez, la cual contiene las 25 mediciones
de destreza manual de cada uno de los estudiantes.
Proceder a ejecutar los siguientes comandos: Analyze/
Nonparametric Test/ 2 Related Simples / Seleccionar las variables Median y Destrez/ Test Tipe activar Wilcoxon/ click
OK. A continuación mostramos el editor y el output.
EDITOR
OUTPUT
265
En Test Statistics el p-value = Wilcoxon
0.008 < 0.05,
entonces
se rechaza H0.
Signed
Ranks Test
Ranks
destrez mediana
Negative
Ranks
Positive
Ranks
Ties
Total
N
Mean
Rank
Sum of
Ranks
18(a)
14.53
261.50
7(b)
9.07
63.50
0(c)
25
a destrez < mediana
b destrez > mediana
c destrez = mediana
Test Statistics(b)
destrez mediana
Z
Asymp. Sig. (2-tailed)
-2.666(a)
.008
a Based on positive ranks.
b Wilcoxon Signed Ranks Test
Prueba de MANN-WHITNEY
Cuando el supuesto de que cada una de las poblaciones en estudio se distribuyen normalmente no se cumple, las pruebas de hipótesis para contrastar que las medias poblacionales son iguales
no pueden ejecutarse. Como alternativa se cuenta con un método no paramétrico, la prueba de Mann-Whitney, que es una prueba apropiada para contrastar la hipótesis de que las medianas
de dos poblaciones independientes son iguales, y donde la forma
funcional de estas poblaciones no está especificada. Este método
se basa en datos generados por dos muestras aleatorias independientes, seleccionadas de cada una de las poblaciones de interés.
Estas muestras son independientes en dos aspectos. Uno de ellos
es que existe independencia entre muestras y el otro aspecto es que
266
dentro de cada muestra las observaciones que la conforman también son independientes.
Esta prueba fue propuesta por Mann y Whitney (1947), además se tiene referencia que Wilcoxon (1945), propuso un procedimiento semejante. Es por ello que también es conocida como la
prueba de Wilcoxon-Mann-Whitney.
Supuestos
•
•
•
•
Las muestras aleatorias, X11, …., X1n1 y X21, …., X2n2, utilizadas para el análisis son seleccionadas independientemente
de sus respectivas poblaciones.
La variable de interés es continua.
La escala de medición observada es al menos ordinal.
Las dos poblaciones en estudio difieren sólo con respecto a
su posición.
Hipótesis
Se plantea a continuación la hipótesis nula con su respectiva hipótesis alternativa
I . H0 : M1 = M 2
II . H 0 : M 1 ≥ M 2
III . H 0 : M 1 ≤ M 2
H1 : M 1 ≠ M 2
H1 : M 1 < M 2
H1 : M 1 > M 2
Donde M 1 y M 2 representan las medianas de la población
1 y población 2 respectivamente. En cada uno de los casos las
pruebas se realizan con un nivel de significación α.
Procedimiento para la obtención de la estadística de
prueba
Para calcular la estadística de prueba se procede de la siguiente
forma.
1. Se combinan las dos muestras (de tamaños n1 y n2 ).
2. Las n1 + n2 observaciones son organizadas en forma ascen-
267
3.
4.
dente (desde la más pequeña a la más grande).
Se asignan los rangos a cada una de las n1 + n2 observaciones
teniendo en cuenta a que muestra pertenecen. Si dos o más
observaciones son iguales (empatan) se obtiene el promedio
de los rangos que ocupan dichas observaciones en el ordenamiento y este promedio es asignado a cada una de las observaciones empatadas.
Obtener la suma de los rangos asignados a la muestra 1:
S=
n1
∑ R( X ) .
1i
i =1
Estadística de Prueba
n (n +1)
La estadística de prueba es, T = S − 1 1
2
donde:
n1, es número de observaciones de la muestra 1, y
S, es la suma de los rangos asignados a la muestra 1 (después de
haber combinado las muestras).
Valores críticos
En la tabla H del Apéndice se encuentran los valores críticos wp
para de la estadística de prueba T, para tamaños n1 = 2,3,...,20 y
n2 = 2,3,...,20; y distintos valores de p = 0.001, 0.005, 0.01, 0.025,
0.05 y 0.10 (nivel de significación nominal).
Región crítica
La regla de decisión está en función a la hipótesis alternativa
planteada.
En la siguiente tabla se resume los tres casos de la prueba de
hipótesis relacionada a la comparación de las medianas de dos
poblaciones independientes.
268
Hipótesis
Estadística de Prueba
I. H 0 : M 1 = M 2
H1 : M 1 ≠ M 2
II. H 0 : M 1 ≥ M 2
H1 : M 1 < M 2
III. H 0 : M 1 ≤ M 2
H1 : M 1 > M 2
donde:
w
1−
α
2
Regla de decisión
Rechazar, H 0 : M 1 = M 2 si
T =S−
n1 ( n1 + 1)
2
T =S−
n1 (n1 + 1)
2
T < wα
T =S−
n1 ( n1 + 1)
2
T > w1−α
T < wα 2 o T > w1−α 2
= n1n2 − wα , equivalentemente w1−α = n1n2 − wα .
2
Gráficamente:
I. H 0 : M 1 = M 2
H1 : M 1 ≠ M 2
II. H 0 : M 1 ≥ M 2
H1 : M 1 < M 2
III. H 0 : M 1 ≤ M 2
H1 : M 1 > M 2
269
Ejemplo 5.18
Quince estudiantes de la Facultad de Administración y 15 estudiantes de la Facultad de Derecho, evaluaron sobre una base de
100 puntos la calidad de la atención recibida al momento de realizar el proceso de rectificación de matrícula en su respectiva
facultad. Los resultados se presentan a continuación.
Fac.Admin. 99 85 73 98 83 88 99 80 74 91 80 94 94 98 80
Fac. Derch. 78 74 69 79 57 78 79 68 59 91 89 55 60 55 79
¿En base a esta información se puede concluir que el puntaje
medio obtenido por la Facultad de Administración es diferente
que el obtenido por la Facultad de Derecho, con respecto a la calidad de atención al momento de realizar el proceso de rectificación de matrícula?.
Solución.
Las poblaciones en estudio son:
Población 1: alumnos de la Facultad de Administración
Población 2: alumnos de la Facultad de Derecho
Variable de interés: Puntaje asignado a la calidad de atención al
momento de realizar el proceso de rectificación de matrícula.
Paso 1: Se plantean las hipótesis
Hipótesis nula: El puntaje medio obtenido por la Facultad de
Administración es igual que el obtenido por la Facultad de Derecho, con respecto a la calidad de atención al momento de realizar el proceso de rectificación de matrícula. Es decir, H 0 : M 0 = M 1
Hipótesis alternativa:
270
H1 : M 0 ≠ M 1
Paso 2: En base a las muestras aleatorias se realizan los cálculos
para obtener la estadística de prueba.
Muestras
combinada
55
55
57
59
60
68
69
73
74
74
78
78
79
79
79
80
80
80
83
85
88
89
91
91
94
94
98
98
99
99
Suma de
rangos: S
rango
Administrac.
8
9,5
17
17
17
19
20
21
23,5
25,5
25,5
27,5
27,5
29,5
29,5
rango
Derecho
1,5
1,5
3
4
5
6
7
9,5
11,5
11,5
14
14
14
22
23,5
148
En este caso como ambos tamaños de muestra son iguales se
considerará como S, la suma de los rangos correspondientes a la
muestra de la población de la Facultad de Derecho.
271
Estadística de prueba:
T = 148 −
15(15 + 1)
= 28
2
Paso 3. Obtención de la región crítica
En la tabla H con n1 = 15, n2 = 15 y α = 0.05 se encuentra el valor de wα = 65 y el valor de w
1−
2
α
2
= 15(15) − 65 = 160 .
La región crítica está conformada por: T < 65
o
T > 160
Paso 4. Decisión
Se decide rechazar la hipótesis nula debido a que el valor de T =
28 < 65 = wα . Se puede concluir que las facultades de Adminis2
tración y de Derecho tienen diferentes puntajes medios, con
respecto a la calidad de atención al momento de realizar el proceso de rectificación de matrícula.
Análisis por computadora usando el SPSS
1.
272
Para este ejemplo se definen las variables:
puntaje que contiene los puntajes de las dos muestras y,
facultad que funciona como una etiqueta, 1: Facultad de
Administración y 2: Facultad de Derecho
2.
Proceder a ejecutar los siguientes comandos: Analyze/
Nonparametric Test/Two-Independent-Samples Test/
test type Mnn-Whitney U, llevar la variable puntaje a
test variable list y la variable facultad a grouping variable/ mediante define groups se indican los grupos/
click OK..
273
OUTPUT
NPar Tests
Mann-Whitney Test
Ranks
FACULTAD
PUNTAJE 1. Administración
2: erecho
Total
Test Statistics
Mann-Whitney U
Wilcoxon W
Z
Asymp. Sig. (2-tailed)
Exact Sig. 2*(1-tailed Sig.)
N
15
15
30
Mean Rani Sum of Ranks
21,13
317,00
9,87
148,00
PUNTAJE
28,000
148,000
-3,511
,000
,000
a Not corrected for ties.
b Grouping Variable: FACULTAD
La hipótesis nula es rechazada. Exact Sig < 0.05.
Prueba de Kruskall-Wallis
La prueba de Kruskall-Wallis es utilizada para detectar diferencias en las medidas de posición de tres o más poblaciones basándose en muestras aleatorias independientes. Esta prueba como
otras pruebas no paramétricas tiene la característica de utilizar
los rangos de las observaciones que conforman las muestras.
Se supone que se tiene k poblaciones continuas
F1 ( x ), F2 ( x ),..., Fk ( x ) de las cuales se seleccionan muestras aleatorias independientes, donde la i-ésima muestra es de tamaño
k
ni , i = 1,2,..., k y existe un total de n = ∑ ni observaciones en total.
i =1
274
Supuestos
1.
2.
3.
4.
5.
Los datos disponibles para el análisis consisten de k muestras
independientes de tamaños n1 , n2 ,..., nk respectivamente.
Las observaciones son independientes dentro de cada muestra y entre muestras.
La variable de interés es continua.
La escala de medición es al menos ordinal.
Las poblaciones desde las cuales se han seleccionado las
muestras son idénticas excepto para una diferencia en posición en al menos una de ellas.
Hipótesis
La hipótesis nula asociada al problema de k muestras es la que
plantea que las k muestras han sido seleccionadas de poblaciones idénticas: H 0 : F1 (x ) = F2 (x ) = ... = Fk (x ), ∀x y la hipótesis alternativa H 1 : Al menos una de las Fi (x ) es diferente.
Con un nivel de significación α.
Procedimiento para la obtención de la estadística de
prueba
k
1. Se combinan las n = ∑ ni observaciones de las muestras,
i =1
ordenándolas en forma ascendente.
2.
3.
4.
Se asigna el correspondiente rango a cada una de las observaciones ordenadas. Si existen observaciones empatadas, se
sustituyen los rangos de las observaciones empatadas por el
promedio de los rangos de estas.
Se calcula Ri , que representa a la suma de los rangos de las
ni observaciones que conforman la i-ésima muestra.
Se obtiene la estadística de prueba en base a los cálculos realizados anteriormente.
275
Estadística de prueba:
donde:
k = número de muestras.
ni = número de observaciones de la i-ésima muestra.
n = número total de observaciones en las k muestras combinadas.
Ri = suma de los rangos de la i-ésima muestra.
Equivalentemente la estadística, puede expresarse como:
H=
k
12
Ri2
∑ − 3(n + 1)
n( n + 1) i =1 ni
la cual tiene distribución ji cuadrado con k-1 grados de libertad. Es decir,
H ~ χ ( k −1)
Si existen observaciones empatadas el estadístico H, es corregido sustituyendo los rangos de las observaciones empatadas
por su rango promedio y considerando además el siguiente fac∑j (t 3j − t j )
tor de corrección: f c = 1 −
. Así la estadística H corren3 − n
gida es: H c =
H
fc
Valores críticos
En la Tabla C de Apéndice se encuentran los cuantiles de la distribución ji cuadrado.
Se rechaza la hipótesis nula para aquellos valores de
H > χ( k −1) .
Ejemplo 5.19
En base a las calificaciones obtenidas por cuatro grupos de aspirantes a Jefe de Práctica para el curso de Matemática, un investi-
276
gador está interesado en conocer si existe diferencia en las calificaciones medias de las poblaciones en estudio. Las calificaciones son
las siguientes:
Grupo 1
Grupo 2
Grupo 3
Grupo 4
85
92
83
79
81
69
75
69
83
81
72
79
90
59
78
67
62
83
76
94
89
80
88
Solución
Paso 1. Planteamiento de las hipótesis
Hipótesis nula: La cuatro poblaciones tiene calificaciones medias idénticas. Es decir, H 0 : F1 ( x ) = F2 ( x ) = F3 ( x ) = F4 ( x )
Hipótesis alternativa: La calificación media de al menos una
de las poblaciones es diferente.
Con un nivel de significación α = 0.05
Paso 2. En base a las observaciones de las cuatro muestras se
calcula el valor de la estadística de prueba.
GRUPO 1
Calificación Rango
85
92
83
79
81
69
18
22
16
10,5
13,5
4,5
n1 = 6 R1 = 84,5
GRUPO 2
GRUPO 3
GRUPO 4
Calificación Rango Calificación Rango Calificación
75
69
83
81
72
79
90
7
4,5
16
13,5
6
10,5
21
n2 = 7 R2 = 78,5
59
78
67
62
83
76
1
9
3
2
16
8
n3 = 6 R3 = 39
94
89
80
88
Rango
23
20
12
19
n4 = 4 R4 = 74
277
Estadística de prueba:
H=
H=
12 4 Ri2
∑ − 3(23 + 1)
23(24) i =1 ni
2
2
2
2
12 4  (84.5) (78.5) (39) (74) 
+
+
+
∑
 − 72 = 8.2796 ≅ 8.3
23(24) i =1  6
7
6
4 
Paso 3. Obtención de la región crítica
En la Tabla C del Apéndice para χ 0.05 (3) = 7.81 . La región crítica
está conformada por:
H > 7.81
Paso 4. Decisión
El valor de la estadística es H = 8.3 , este valor se encuentra en
la región de rechazo puesto que H = 8.3 > 7.81 = χ 0.05 (3) . Por lo
tanto la hipótesis nula es rechazada y puede concluirse que las
cuatro poblaciones son diferentes.
Análisis por computadora usando SPSS
1.
Para este ejemplo se definen las variables:
califica que contiene las calificaciones de las cuatro
muestras,
grupo que funciona como una etiqueta, 1: grupo 1, 2: grupo
2, 3: grupo 3, 4: grupo 4
2.
Proceder a ejecutar los siguientes comandos: Analyze/
Nonparametric/ k Independent Sample/ llevar la variable califica a Test Variable List y la variable grupo a
grouping variable/ mediante define groups se indican los
grupos/ OK.
278
279
OUTPUT
Kruskal-Wallis Test
Ranks
GRUPO
CALIFICA
1
2
3
4
Total
N
Rank
Mean
6
7
6
4
23
14,08
11,21
6,50
18,50
Test Statisticsa,b
CALIFICA
Chi-Square
df
Asymp. Sig.
8,308
3
,040
a. Kruskal Wallis Test
b. Grouping Variable: GRUPO
Se rechaza la hipótesis nula Asymp Sig < α.
Prueba de bondad de ajuste: Preuba de Kolmogorov-Smirnov
A través de la prueba de Kolmogorov-Smirnov se puede conocer
que tan adecuado es el ajuste de la distribución de los datos de
una muestra a una distribución teórica. La prueba debe su nombre a los matemáticos rusos: A. Kolmogorov y N.V. Smirnov,
quienes presentaron dos pruebas parecidas en la década de 1930.
En su procedimiento la prueba utiliza la función de distribución
teórica y la función de distribución empírica. La función de distribución empírica será expresada en términos de las estadísticas de orden X (1) , X ( 2 ) ,.., X ( n ) , de una muestra aleatoria de tama-
280
ño n, X 1 , X 2 ,.., X n . Cuando no existen observaciones iguales, la
función de distribución empírica está definida por,
0, x < x(1)

k
S n ( x ) =  , x( k ) ≤ x ≤ x( k +1) , k = 1,2,..., n − 1
n
1, x( n ) ≤ x
En este caso la función de distribución empírica Sn (x ) tiene
1
un salto de magnitud , que ocurre en cada observación. Si existen
n
nk observaciones iguales a xk , ocurre un salto de magnitud
nk
en xk .
n
Supuesto
La muestra aleatoria X 1 , X 2 ,.., X n , tamaño n proviene de una
población con función de distribución desconocida F (x ) .
Hipótesis
Se establece que F0 ( x ) es la función de distribución hipotética.
Hipótesis nula: H 0 : F ( x ) = F0 ( x ) ∀x
Hipótesis alternativa H1 : F ( x ) ≠ F0 ( x ) para algún x.
Procedimiento para la obtención de la estadística de
prueba
1.
2.
3.
En base a las observaciones muestrales se obtiene la función
de distribución empírica Sn (x ) ∀ x.
En base a las observaciones muestrales se obtiene la función
de distribución propuesta bajo la hipótesis nula F0 ( x ) ∀ x.
Se calcula la estadística de prueba Dn = Sup Sn ( x ) − F0 ( x ) .
− ∞< x < ∞
281
Región crítica
Se rechaza la hipótesis nula si el valor de la estadística Dn excede
al cuantil d1−α presentado en la Tabla I del Apéndice. Es decir, se
rechaza H 0 a un nivel de significación α si Dn > d1−α .
Si la muestra ha sido seleccionada desde la distribución hipotética, la discrepancia entre S n ( x ) y F0 ( x ) no debería ser demasiado grande.
Ejemplo 5.20
Se tiene interés en conocer si la presión sanguínea de los estudiantes del último año de la Escuela de Educación Física, sigue
una distribución normal. La información siguiente corresponde
a 20 estudiantes de la Escuela de Educación Física y que cursan
el último año de estudios.
162
130
147
153
141
177
154
157
157
137
151
179
141
134
151
167
146
157
143
161
Considere α = 0.05
Solución
En este caso la función de distribución F0 ( x ) , planteada en la
hipótesis nula es la distribución normal y la variable en estudio
es X : presión sanguínea.
Paso 1. Planteamiento de las hipótesis
Hipótesis nula: La presión sanguínea sigue una distribución
normal
Hipótesis alternativa: La presión sanguínea no está distribuida normalmente. α = 0.05
282
Paso 2. Cálculo de la estadística de prueba
Se organizarán las observaciones muestrales en forma ascendente, es decir se obtienen las estadísticas de orden y se calculan
S20 ( x ) y F0 ( x ) .
x
Frecuencia
z=
( x − 152)
13
F0 ( x )
S20 ( x ) D = S 20 ( x ) − F0 ( x )
130
1
-1,6923
0,0453
0,0500
0,0047
134
1
-1,3846
0,0831
0,1000
0,0169
137
1
-1,1538
0,1243
0,1500
0,0257
141
2
-0,8462
0,1987
0,2500
0,0513
143
1
-0,6923
0,2444
0,3000
0,0556
146
1
-0,4615
0,3222
0,3500
0,0278
147
1
-0,3846
0,3503
0,4000
0,0497
151
2
-0,0769
0,4693
0,5000
0,0307
153
1
0,0769
0,5307
0,5500
0,0193
154
1
0,1538
0,5611
0,6000
0,0389
157
3
0,3846
0,6497
0,7500
D = 0,1003
161
1
0,6923
0,7556
0,8000
0,0444
162
1
0,7692
0,7791
0,8500
0,0709
167
1
1,1538
0,8757
0,9000
0,0243
177
1
1,9231
0,9728
0,9500
0,0228
179
1
2,0769
0,9811
1,0000
0,0189
El valor calculado de la estadística de prueba es D = 0.1003 .
Región crítica
En la Tabla I, el valor del cuantil es d 0.95 = 0.294 . Así la región crítica es la siguiente: D > d 0.95 = 0.294 . La decisión en este caso es la de
no rechazar la hipótesis nula, puesto que D = 0.1003 < 0.294 = d 0.95 .
283
No se puede concluir que la población no se distribuya normalmente.
Análisis por computadora usando el SPSS
1.
Exploratoriamente puede visualizarse el comportamiento de
los datos y se observa que estos están muy próximos a la línea que representa a la distribución normal.
Expected Cm Prob
Normal P-P Plot of MEDIDA
Observed Cum Prob
En el Editor de datos se crea la variable medida y se ejecuta los
siguientes comandos: Analyse/Nonparametric/1-Sample K-S/Ingresar a Test Variable List la variable medida y activar Test Distribution la distribución normal/click OK
284
OUTPUT
NPar Tests
One-Sample Kolmogorov-Smirnov Test
MEDIDA
N
Normal Parameters a.b
Most Extreme
Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
Mean
Std. Deviation
Absolute
Positive
Negative
20
152,2500
13,0943
,108
,108
-,071
,485
,973
a. Test distribution is Normal.
b. Calculated from data.
No se rechaza la hipótesis nula porque Asymp. Sig>α = 0.05.
285
Ejerccios
En los siguientes casos identifique la variable dependiente e independiente (s).
a)
El presupuesto familiar destinado a la educación de los hijos
y los ingresos familiares.
El volumen de ventas de una empresa y la inversión en propaganda.
El número de hijos por familia y el nivel educativo de los
padres.
El analfabetismo, lugar de residencia y la expansión del servicio educativo.
La edad y el tiempo efectivo de servicio de los docentes afiliados al SUTEP.
b)
c)
d)
e)
Se realiza un estudio con 16 atletas de alto rendimiento, ocho
de potencia y ocho de resistencia; se les mide la extensión isométrica de la rodilla (X1) (en kilogramos fuerza) y el porcentaje de
la contracción muscular (X2). Se obtienen los siguientes datos; X2
es la variable dependiente (Y ).
Atletas de
X1
196
183
295
203
195
289
198
206.9
a)
b)
286
Potencia
X2
56
28.8
57.2
46
35.5
58.6
41.4
21.6
Atletas de
X1
161
142
122.5
123
176
156
126
95
resistencia
X2
98.4
70.8
35.4
74.5
79.5
62.1
74.3
67.7
Cree las bases de datos con los nombres ATLETA1 Y ATLETA2.
Haga el diagrama de dispersión.
c)
d)
e)
Usar comandos del SPSS y obtener el coeficiente de correlación
lineal e interprete.
Suponiendo que sea posible, realice el análisis de regresión
lineal simple e interprete los coeficientes.
Usando las correspondientes fórmulas, compruebe los valores encontrados.
A 10 candidatos a ingresar en un programa de doctorado en
psicología, se les aplica en la Facultad de Psicología una prueba
de personalidad (X) y un examen general de conocimientos (Y).
Obtuvieron las siguientes puntuaciones:
Candidato
X
Y
A
B
C
D
2.96 2.46 3.36 3.40
529 506 591 610
E
F
G
2.43 2.12 2.85
474 509 550
H
I
3.12 3.20
600 575
J
2.75
540
Realice el análisis de regresión y correlación lineal.
Un profesor de estadística realiza un estudio para investigar la relación que existe entre el rendimiento de sus estudiantes
en los exámenes y su ansiedad. Elige a diez estudiantes para el
experimento y antes de asistir al examen final, los 10 estudiantes
respondieron un cuestionario de ansiedad. A continuación se tiene
las calificaciones de la prueba final y los puntajes obtenidos en el
cuestionario de ansiedad.
Ansiedad
Examen Final
a.
b.
c.
28
82
41
58
35
63
39
89
31
92
42
64
50
55
46
70
45
51
37
72
Elabore el diagrama de dispersión. Utilice la ansiedad como la
variable X.
Describa la relación que muestra el diagrama de dispersión.
Suponga que la relación es lineal y calcule el valor de la r de
Pearson.
287
d.
Determine la línea de regresión por mínimos cuadrados para
predecir la calificación del examen final dado el nivel de ansiedad.
Si un estudiante tiene un nivel de ansiedad de 38, ¿qué valor
podría predecirse para su calificación en el examen final?.
e.
Se realiza un estudio con 10 estudiantes de postgrado en
Educación. X1 es el número de problemas resueltos correctamente por un estudiante; X2 son las puntuaciones obtenidas al aplicarles una prueba psicológica que mide autoestima de un estudiante y; Y es el número de problemas que cada estudiante; espera resolver correctamente en el examen final. Con los datos que
se presentan a continuación realice el análisis de regresión lineal
simple múltiple usando comandos del SPSS.
Estudiante
Número problemas
resueltos en clase
Puntuación en
autoestima
Número de problemas
que espera resolver
en el examen final
1
14
5
14
2
8
15
5
3
9
19
8
4
13
33
11
5
10
39
15
6
11
38
14
7
14
74
18
8
15
74
19
9
11
11
7
10
16
78
17
En la siguiente tabla se tienen las puntuaciones obtenidas por
21 estudiantes en tres pruebas psicológicas (X1, X2, X3).
a.
b.
288
Obtenga la base de datos usando comandos del SPSS.
Realice un análisis de regresión lineal de: Y con X1.
Realice un análisis de regresión lineal de: Y con X2.
Realice un análisis de regresión lineal de: Y con X3.
Realice un análisis de regresión múltiple.
c.
d.
e.
Puntuación de actitud ante la agresión
Y
X1
X2
X3
48
48
47
46
46
43
42
42
41
40
39
32
31
30
29
29
28
27
27
27
26
22
19
20
20
17
21
21
19
17
15
15
11
17
16
15
15
16
16
13
12
12
38
38
37
37
35
34
34
33
33
32
32
25
25
23
22
21
20
18
17
15
15
15
15
20
17
19
15
14
20
13
15
12
15
9
9
13
9
11
11
10
8
8
Se aplicó a un grupo de 18 adolescentes sordomudos la prueba de inteligencia de Wechsler para adultos (Wais) y cuatro subtest del DAT. Las puntuaciones de ambas aplicaciones son las
siguientes:
289
Adolescentes
Wais
Razonamiento Razonamiento
mecánico
abstracto
Relaciones
espaciales
Velocidad y
exactitud
Y
X1
X2
X3
1
48
22
38
15
25
2
48
19
38
15
40
3
47
20
37
20
21
4
46
20
37
17
20
5
46
17
35
19
18
6
43
21
34
15
17
7
42
21
34
14
31
8
42
19
33
20
35
9
41
17
33
13
35
10
40
15
32
15
27
11
39
15
32
12
17
12
32
11
25
15
28
13
31
17
25
9
29
14
30
16
23
9
37
15
29
15
22
13
29
16
29
15
21
9
39
17
28
16
20
11
28
18
27
16
18
11
38
a.
Obtenga la base de datos usando comandos del SPSS.
b.
Realice un análisis de regresión lineal de Y con cada uno de
los cuatro subtest del DAT:
c.
290
Realice un análisis de regresión lineal múltiple.
5.8 Se conocen las edades (X) y la presión sanguínea (Y) de 12
mujeres. Si
∑x
= 628,
a)
b)
c)
Encuentre la recta de regresión de Y sobre X.
Si una mujer tiene 49 años ¿Cuál sería su presión san-guínea?
Si una mujer tiene 72 años, ¿Cuál es la presión sanguínea
esperada?
i
∑y
i
= 1684,
∑x
2
i
= 34416,
∑y
2
i
= 238822,
∑x y
i
i
= 89894.
5.9 La siguiente tabla muestra las calificaciones obtenidas por
10 estudiantes en dos pruebas de Estadística:
X: Primera
Prueba
Y: Segunda
Prueba
a)
b)
c)
12
10
16
16
14
12
20
8
18
14
16
14
14
20
10
16
20
12
16
12
Haga el diagrama de dispersión.
Obtenga la recta de regresión Y de sobre X.
Si un estudiante obtuvo 14,7 en la primera prueba. ¿Cuánto
se espera que obtenga en la segunda prueba?.
Borrós y Fincias (1973) con el propósito de examinar cuál es
la influencia que los métodos de enseñanza, basados en el trabajo libre y creativo del alumno ejercen sobre su rendimiento escolar, llevaron a cabo una investigación con 122 niños y niñas, en
los que evaluaron los siguientes aspectos:
Creatividad:
Coeficiente intelectual:
Capacidad de orden:
Rendimiento escolar:
CREAT.
C.I.
ORDEN
RENDIM.
291
CASO ORDEN C.I.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
a)
b)
c)
292
8
6
5
3
4
6
7
4
4
3
6,5
5
3
5
5,5
4,5
4
10
7
8
6
10
7
5
9
7
7
6
6
4
114
103
97
94
88
76
116
86
97
91
123
63
92
86
84
63
88
128
102
115
93
130
90
90
102
102
99
100
88
74
RENDIM. CREAT. CASO ORDEN C.I. RENDIM. CREAT.
0,85
0,87
0,90
0,80
0,70
0,70
1,00
0,73
0,99
0,75
1,50
0,73
0,90
0,82
0,81
0,62
0,77
0,99
0,78
0,98
0,74
0,94
0,76
0,81
0,92
0,85
0,91
0,73
0,64
0,45
8,00
4,00
8,00
2,00
9,00
4,00
10,00
5,50
3,00
8,00
3,50
1,00
6,00
8,00
5,00
5,00
7,00
7,00
6,00
7,00
6,00
7,00
4,00
5,00
8,00
7,00
6,00
6,00
5,00
3,00
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
4
7
7
10
7
6
9
6
7
3
3,5
7
8
5
6
4
3
3
6
6
6
4
8
7
5
5
5
5
6
4
109
113
123
106
110
95
125
100
112
53
77
100
105
89
105
92
98
91
90
98
113
92
98
86
88
88
102
101
76
94
0,84
0,88
0,86
0,91
0,74
0,62
0,92
0,62
0,72
0,14
0,21
0,65
0,78
0,48
0,91
0,97
0,62
0,84
0,63
0,89
1,05
0,84
0,74
0,58
0,82
0,92
0,75
0,88
0,81
0,65
4,50
7,50
6,00
8,00
6,00
5,50
7,00
2,00
2,00
5,00
1,50
3,50
5,00
0,00
4,50
6,00
2,00
4,00
0,00
6,50
6,00
3,00
5,00
0,50
2,00
1,50
3,00
6,50
4,00
0,00
Use comandos del SPSS para crear el archivo de datos.
¿Existe relación entre inteligencia y creatividad?
Sobre la base de los datos obtenidos en esta experiencia podemos afirmar que a mayor creatividad corresponde una menor capacidad de orden?
d)
e)
f)
g)
h)
Sobre la base de los datos obtenidos en esta experiencia podemos afirmar que existe relación lineal entre rendimiento escolar y creatividad?.
¿Cuál es la recta que mejor permite predecir la variable rendimiento escolar en función de la variable creatividad? Interprete.
¿Manteniendo constante la capacidad intelectual de los
alumnos, la creatividad está relacionada con el rendimiento
escolar?.
En base a los datos obtenidos en esta experiencia podemos
afirmar que ¿existe relación lineal entre el rendimiento escolar y la inteligencia?.
¿Cuál es la ecuación de la recta que permite predecir el rendimiento escolar en función de la variable inteligencia? Interprete.
Con los datos de ejercicio 3.8, realice la prueba de MannWhitney.
Con los datos de la variable EXAMEN FINAL del ejercicio
5.4, responda lo siguiente:
a)
b)
¿Los datos se distribuyen normalmente?
¿Puede concluir que la mediana poblacional es diferente
de 68?
Con los datos de la variable PUNTUACIÓN DE AUTOESTIMA del ejercicio 5.5, responda lo siguiente:
a)
c)
¿Los datos se distribuyen normalmente?
¿Puede concluir que la mediana poblacional es diferente
de 50?
En tres regiones de un país se investiga el grado de propensión al ahorro de sus habitantes. Para verificar si la disposición al ahorro es similar en dichas regiones se obtiene una
293
muestra ciudades de cada una de ellas. Obteniéndose la siguiente información.
Muestra de
Región 1
Muestra de
Región 2
Muestra de
Región 3
0.251
0.326
0.146
0.093
0.172
0.140
0.204
0.318
0.109
0.112
0.306
0.241
Se puede concluir que el grado de propensión al ahorro es la
misma en las tres regiones. Use un nivel de significación α = 0.05.
294
Descargar