Capítulo V Análisis de regresión y correlación Introducción En la investigación estadística es muy frecuente encontrar variables que están relacionadas o asociadas entre sí de alguna manera, como se estudió en el capítulo anterior. Existen muchas variables, en especial cuantitativas, que se relacionan en algún grado de otras, entonces es posible que una de las variables pueda expresarse matemáticamente en función de la otra. Por ejemplo, el peso de las personas está relacionada con la estatura; el tiempo de servicio de trabajo activo tiene relación con la edad, un trabajador que ha acumulado por ejemplo 30 años de servicio tendrá mayor edad que otro con sólo 14 años de servicios; el ingreso o salario está relacionado frecuentemente con el nivel educativo; el ahorro familiar tiene relación con los ingresos; la demanda de un producto dependerá de los precios, etc. Estadísticamente interesa analizar la relación entre dos o más variables, siempre que se tenga un indicio que entre ellas existe por lo menos cierto grado de dependencia o asociación. Lo importante es medir y expresar funcionalmente esta relación mediante una función o modelo matemático. En el enfoque del análisis de regresión se trata de predecir o explicar el comportamiento de una variable Y a la que se denomina dependiente o variable respuesta, en función de otras variables X 1 ,..., X k denominadas independientes o variable regre- [11] 213 soras; así como investigar si ellas están asociadas o correlacionadas entre si. Análisis de regresión lineal simple En muchos estudios se necesita identificar y cuantificar alguna relación funcional entre una variable Y denominada dependiente y otra variable X denominada independiente. Esto se puede plantear así: Y = f (X ) . Es importante identificar cuál es la variable dependiente y cuál es la variable independiente. Esto depende de la lógica y de lo que el investigador intente medir. Así, si el Decano de una Facultad desea analizar la relación entre las notas de los estudiantes y el tiempo que los estudiantes dedican al estudio, es lógico asumir que las notas dependen del tiempo dedicado al estudio. Por tanto, "notas" es la variable dependiente y "tiempo" es la variable independiente. A la variable dependiente también se le denomina variable respuesta y a la variable independiente también se le denomina explicativa o regresora. Diagrama de dispersión En el diagrama de dispersión se representan los pares de observaciones en el plano y es habitual colocar la variable independiente en el eje horizontal. A continuación se presenta algunos tipos de diagramas de dispersión Y Y . . . . . .. .. . . . .. . . . . X a) Relación lineal Positiva o Directa 214 . . . X b) Relación lineal Negativa o Inversa Y Y . .. .. . . .. . ... .. . .. . . .... ..... . .. c) No hay Relación lineal entre X e Y .. . . .. . .. X d) Relación No Lineal X Como se puede ver en el gráfico (a), los valores de Y se incrementan linealmente conforme X crece. Por ejemplo, al aumentar la partida presupuestal asignada por el gobierno a un colegio, aumenta la posibilidad de atender una mayor demanda escolar, gráfico (a). Es diferente en el gráfico (b), porque cuando los valores de X crecen, los valores de Y decrecen linealmente. Así por ejemplo, cuando aumenta el número de horas semanales que los estudiantes dedican al estudio, disminuye el número de horas semanales que dedican a las distracciones. En el gráfico (c) no hay ninguna relación entre X e Y; mientras que el gráfico (d) muestra una relación curvilínea negativa entre X e Y. Tomemos como ejemplo, la relación entre el valor de reventa de un edificio escolar y sus años de uso; en el primer año, el valor de reventa puede sufrir un fuerte descenso en su precio original, luego, el valor de reventa disminuye con mucha menos rapidez en los años siguientes. Los gráficos propuestos son algunos tipos de gráficos que se podrían utilizar para representar la relación entre dos variables; sin embargo, los diagramas de dispersión no son suficientes para determinar la relación entre ellas. Es necesario que utilicemos procedimientos estadísticos para determinar la relación funcional más apropiada para un conjunto de datos (xi , yi ) a los que se les denomina pares de observaciones. Este tipo de gráfico se utiliza para la predicción. Es decir, a partir de la relación entre dos variables, conocer en qué medida 215 se mantiene el aumento o crecimiento de una variable a partir del aumento de otra variable o viceversa. Ajuste de una función de regresión: método de mínimos cuadrados Ajustar una función de regresión significa buscar o definir la función que exprese con mayor precisión la relación entre las variables X e Y. Gráficamente será aquella función que mejor se adecue a la nube de puntos (xi , yi ) . En este sentido, es recomendable como primer paso construir el "diagrama o nube de puntos", luego analizar su forma y decidir el tipo de función matemática para la ecuación de regresión usando el método de mínimos cuadrados ordinarios. Sólo son necesarios dos puntos para dibujar la línea recta que representa esta relación lineal. La ecuación de una recta puede expresarse como L: y = bxi + a , en donde a es el intercepto y b es la pendiente de la recta. Esta recta queda determinada mediante la estimación de los parámetros a y b . Un procedimiento matemático utilizado para estimar estos valores se denomina el método de mínimos cuadrados ordinarios (MCO). El método de MCO producirá una recta, Yˆ , que se extiende por el centro del diagrama de dispersión. Los valores de Yˆ representan a los valores estimados de la variable dependiente o respuesta. La diferencia entre los valores observados de Y, yi ,sus respectivos valores estimados de Yˆ , yi , es el error. Debido a que algunos errores son negativos o algunos positivos, el MCO producirá una recta tal que la suma de esos errores sea cero, es decir, ∑ ( yi − yˆ i ) = 0. Obtenemos la estimación de a y b por el método MCO de n 2 tal manera que el valor de SSE = ∑ ( yi − yˆ i ) sea mínimo, donde: i =1 Y: es la variable dependiente o respuesta, : es la pendiente de la línea, llamada también coeficiente de b regresión para predecir la variable Y a : es la constante. 216 Se demuestra que los valores a y b que hacen mínimo SSE, satisfacen el denominado sistema de ecuaciones normales: n n ∑ yi = an + b∑ xi i =1 i =1 n n n i =1 i =1 i =1 ∑ xi yi = a ∑ xi + b∑ xi De ese sistema se deducen los siguientes valores para las constantes a y b : n a= n n n ∑ y ∑x −∑x ∑x y i =1 i i =1 2 i i =1 2 i i n n n ∑ xi2 − ∑ xi i =1 i =1 n b= i =1 i n n n ∑ xi yi − ∑ xi ∑ yi i =1 i =1 i =1 n ∑ x − ∑ xi i =1 i =1 n 2 i n 2 , yˆ i = bxi + a se denomina la recta de regresión de mínimos cuadrados o recta de regresión ajustada por el método de mínimos cuadrados. La línea de regresión (o recta de predicción) es la línea recta que mejor representa la tendencia de los puntos en un diagrama de dispersión. La recta de regresión nos permite, basándonos en los datos muestrales, estimar el valor yi de una variable Y - y denotar con ŷi - correspondiente a un valor dado xi para una variable X ; es suficiente reemplazar el valor de xi en la línea de regresión y encontraremos el correspondiente valor estimado para ŷi . La ecuación general de la recta de regresión estimada por el método de mínimos cuadrados es la siguiente: Yˆ = a + bX . 217 Ejemplo 5.1 Con los datos de la Tabla Nº 5.1, se hace el diagrama de dispersión y se utiliza el método de mínimos cuadrados para encontrar el coeficiente de regresión lineal. ¿Cuál será el rendimiento en educación superior (Y) para un estudiante con nota promedio 12 de rendimiento en secundaria (X)?. Tabla 5.1: Rendimiento académico en secundaria y en educación superior de un grupo de alumnos ESTUDIANTES Notas en secundaria xi Rendimiento en educación superior 1 16 15 2 13 11 3 15 17 4 12 14 5 11 11 6 16 14 7 13 15 8 10 12 yi Solución Usando los comando del SPSS hacemos el diagrama de dispersión presentado en la Figura Nº 5.1. a) b) 218 Creamos la base de datos con las dos variables y seleccionamos los comandos siguientes. GRAPHS/INTERATIVE/SCATTER/colocar en el eje X la variable NOTAS DE SECUNDARIA y en el eje Y la variable RENDIMIENTO EN EDUCACIÓN SUPERIOR/ FIT/ en FIT LINE escoger TOTAL/ACEPTAR. Rendimiento en secundaria Figura Nº 5.1: Diagrama de dispersión de rendimiento en secundaria y rendimiento en superior de un grupo de alumnos Rendimiento en superior c) Se realizan los cálculos necesarios para estimar a y b : xi yi xi2 xi yi 16 13 15 12 11 16 13 10 15 11 17 14 11 14 15 12 256 169 225 144 121 256 169 100 240 143 255 168 121 224 195 120 106 109 1440 1466 8 a= 8 8 8 ∑ y ∑x −∑x ∑x y i =1 i 2 i i =1 i i =1 i =1 2 i i n ∑ xi2 − ∑ xi i =1 i =1 8 8 n b= n i =1 i =1 n ∑ xi2 − ∑ xi i =1 i =1 n 109 × 1440 − 106 × 1466 = 5.51, 2 8 × 1440 − (106) = 8 × 1466 − 106 × 109 = 0.61, 2 8 × 1440 − (106) n n ∑ xi yi − ∑ xi ∑ yi i =1 = n 2 219 y luego la recta de regresión estimada por el método de mínimos cuadrados, de Y sobre X es la siguiente: Yˆ = 5.51 + 0.61 X Si un estudiante obtiene un rendimiento de 12 en secundaria, entonces su rendimiento esperado en educación secundaria se obtiene reemplazando el valor dado para X ( =12) en la recta definida, es decir: Yˆ = 5.51 + 0.61 × 12 = 5.51 + 7.32 = 12.83. Entonces, podemos estimar que un estudiante que obtuvo un rendimiento en secundaria de 12, obtendrá aproximadamente 12.83 en educación superior. Ejemplo 5.2 Se trata de un estudio sobre el rendimiento escolar. Se desea ajustar la recta de regresión entre los años de escolaridad de la madre (X) y las calificaciones de sus hijos en una prueba de matemáticas. Los datos son los siguientes: Estudiantes Años de escolaridad de la madre ( xi ) Calificaciones de los hijos en una prueba de Matemática ( yi ) 1 8 12 2 5 8 3 3 8 4 6 10 5 7 10 220 Solución a) El diagrama de dispersión nos indica que existe una buena relación entre las variables. Calificaciones en matemática Años de escolaridad de la madre y calificaciones de los hijos en una prueba de matemática Años de escolaridad de la madre Se observa que existe una relación directa y positiva entre los años de escolaridad de la madre y las calificaciones en una Prueba de matemática de los hijos. b) En el siguiente cuadro se presentan los cálculos auxiliares para encontrar los coeficientes de la ecuación de regresión. Estudiantes xi yi xi yi xi2 yi2 1 8 12 96 64 144 2 5 8 40 25 64 3 3 8 24 9 64 4 6 10 60 36 100 5 7 10 70 49 100 Totales 29 48 290 183 472 221 8 a= 8 8 8 ∑ y ∑x −∑x ∑x y i =1 i 2 i i =1 i =1 i i =1 2 i i = n ∑ xi2 − ∑ xi i =1 i =1 8 8 n b= n n n ∑ xi yi − ∑ xi ∑ yi i =1 i =1 i =1 n ∑ xi2 − ∑ xi i =1 i =1 n ( 48)(183) − ( 29( 290) =5.05 5(183) − ( 29) 2 n 2 = (5)( 290) − (29)( 48) = 0.78. 5(183) − (29)2 La ecuación de regresión que va a servir para predecir el desempeño de los hijos en función de los años de escolaridad de la madre es la siguiente: Yˆ = 5.05 + 0.78 X . Ejemplo 5.3 Resolveremos el ejemplo 5.2 con el auxilio del SPSS. Solución Presentamos la solución con el auxilio del SPSS, pero previamente se tiene que crear la base de datos. a) Para hacer el diagrama de dispersión se ejecutan los siguientes comandos: GRAPHS/INTERATIVE/SCATTER/colocar en el X la variable AÑOS DE ESCOLARIDAD y en el eje Y la variable RENDIMIENTO/ FIT/ en FIT LINE escoger TOTAL/ACEPTAR. b) 222 Para encontrar la ecuación de la recta de regresión, los comandos son los siguientes: ANALYZE / REGRESSION/LINEAR/ en DEPENDENT escoger CALIFICACIONES y en INDEPENDENT escoger AÑOS DE ESCOLARIDAD/ STATISTICS/ activar ESTIMATES y MODEL FIT/OK. El output del SPSS muestra lo siguiente. Linear Regression Y y = 5.05 + 0.78 * X R-Square = 0.81 X Coefficientsa Unstandardized Standardized Coefficients Coefficients Model 1 (Constant) Años de escolaridad de la madre B Std. Error 5.054 1.318 .784 .218 Beta .901 t Sig. 3.834 .031 3.597 .037 a. Dependent variable: Calificaciones en una prueba de matemática b a La recta de regresión lineal simple ajustada por el método de mínimos cuadrados es: Yˆ = 5.054 + 0.784 X , 223 donde, manteniendo constante la variable años de escolaridad de la madre aun podemos estimar la calificación promedio de los hijos en la prueba de matemática, en 5.054 puntos. Un incremento en los años de escolaridad de la madre de un año, por ejemplo, es acompañado por un incremento en la calificación de sus hijos en la prueba de matemática en 0.784 puntos. Pruebas de hipótesis La ecuación de regresión lineal simple indica que el valor medio o esperado de y es una función lineal de X : E ( y ) = a + bX . Si el valor de b no es igual a cero, llegamos a la conclusión de que las dos variables se relacionan. Así, para probar si hay alguna relación importante debemos efectuar una prueba de hipótesis para determinar si el valor de b no es igual a cero. Existen dos pruebas que se usan con más frecuencia. En ambas se requiere una estimación de σ2. Prueba t La prueba t se utiliza para probar la significancia de los parámetros en el modelo de regresión lineal simple. Usaremos los datos de la muestra para obtener las siguientes hipótesis acerca del parámetro b : Paso 1: Se plantea como hipótesis nula que el coeficiente b es igual a cero y la hipótesis alternativa niega dicho enunciado. H0 : b = 0 H1 : b ≠ 0 Paso 2: La estadística de prueba t= 224 bˆ tiene distribución t(n −1) Sbˆ donde: b̂ : estimador del parámetro b . Sbˆ = S ∑ (X i − X ) 2 es la desviación estándar de b̂ . Con los datos de la muestra se encuentra el valor de la estadística de prueba, tc . Paso 3: α Para un nivel de significancia α, P[t(n −1) < tteórico ] = 1 − . En la ta2 bla - t-Student se obtiene tteórico . Paso 4: Rechazamos H 0 si tc < −tα / 2 o tc > tα / 2 . Con el valor p - valor: Rechazamos H 0 si el valor p - valor < α, donde tα / 2 se basa en una distribución t con n − 2 grados de libertad. Si se Rechaza H 0 la conclusión será que b ≠ 0 y que hay una relación estadísticamente significativa entre las dos variables. Sin embargo, si no se puede rechazar H 0 , no tendremos la evidencia suficiente para decir que existe una relación significativa. Resumen de las hipótesis, estadística de prueba y regla de decisión: Hipótesis Estadística de prueba Regla de decisión Rechazar la hipótesis nula, si: H0 : b = 0 H1 : b > 0 t= bˆ Sbˆ H0 : b = 0 H1 : b < 0 t= bˆ Sbˆ tc < −t(1−α ) H0 : b = 0 H1 : b ≠ 0 t= bˆ Sbˆ tc < −tα / 2 o tc > tα / 2 tc > t(1−α ) 225 Ejemplo 5.4 Utilizando la información del ejemplo 5.3 realizaremos la pruebas de hipótesis acerca del parámetro b . Solución Paso 1: En la hipótesis nula se postula que el grado de escolaridad de la madre no explica el comportamiento de las calificaciones de los estudiantes: H0 : b = 0 H1 : b ≠ 0 Paso 2: El valor de la estadística de prueba se calcula con los resultados del SPSS, Coefficientsa Unstandardized Standardized Coefficients Coefficients Model 1 B Std. Error (Constant) 5.054 1.31 8 ESCOLARI .784 .21 8 Beta t Sig. 3.834 .031 .901 3.597 .037 a. Dependent variable: CALIFICA b a El valor de la estadística de prueba es: tc = 226 bˆ 0,784 = = 3.596 Sbˆ 0,218 Sbˆ Saˆ [ ] Paso 3: Para = α = 0,05, P t(5 ) < tteórico = 0.975 . En la tabla t con 5 grados de libertad se encuentra el valor de tc = 3.596. Paso 4: Como tc = 3.596 > t0, 975 = 3.16 , rechazamos H 0 y concluimos que es significativo en el modelo, considerando un nivel de significación de 0.05. Análisis de correlación lineal Tipos de correlación lineal Y Y . . ... .. . . .. . . . . . . . X X a) Correlación positiva Y b) Correlación negativa . . . .. . . ... . . . . . . . .. . . . .. . c) Correlación nula Correlación positiva o directa Se dice que la correlación entre dos variables X e Y es positiva o directa, cuando al aumentar la medida de una de las variables, la otra variable también aumenta, esto se puede observar en el gráfico (a). 227 Ejemplo 5.5 En la Tabla Nº 5.3 nos muestra las puntuaciones en Literatura (X), y las puntuaciones en Lenguaje (Y ) de un grupo de alumnos de un Centro Educativo. Haremos el diagrama de dispersión de estas dos variables. Tabla Nº 5.3: Puntuaciones en Literatura vs Puntuaciones en Lenguaje de un grupo de alumnos Nº SUJETO 1 2 3 4 5 6 7 xi yi 5 8 12 16 16 24 8 12 20 30 30 42 40 50 Solución Diseñando el diagrama de dispersión para las variables en estudio tenemos: Puntuaciones en Literatura Figura Nº 5.2 Puntuaciones en Literatura y Lenguaje de un grupo de alumnos Puntuaciones en Lenguaje 228 Como se puede observar, cuando aumenta el valor de la variable X también aumenta el valor de la variable Y, de esto se concluye que existe correlación positiva o directa entre las puntuaciones en Literatura y puntuaciones en Lenguaje. Correlación negativa o inversa Se dice que la correlación entre dos variables X e Y es inversa o negativa, cuando al aumentar la medida de una de las variables, los valores de la otra disminuye, esto se puede observar en el gráfico (b). Ejemplo 5.6 La Tabla Nº 5.4, nos muestra las puntuaciones en Literatura (X) y las puntuaciones en Matemática (Y) de un grupo de alumnos de un determinado Centro Educativo. Haremos el diagrama de dispersión. Tabla Nº 5.4: Puntuaciones en Literatura vs Puntuaciones en Matemática de un grupo de alumnos alumnos xi yi 1 10 30 2 30 15 3 38 37 4 40 25 5 60 35 6 65 05 7 80 20 8 90 10 229 Solución Realizamos el diagrama de dispersión de las puntuaciones en matemática y literatura; el output del SPSS nos muestra la siguiente figura. Puntuaciones en Literatura Figura Nº 5.3 Puntuaciones en Literatura y Matemática de un grupo de alumnos Puntuaciones en Matemática Como se puede apreciar, frente al aumento de las puntuaciones en literatura (X ) disminuye las puntuaciones en matemática (Y ), entonces la correlación entre X e Y es negativa o inversa. Correlación nula La correlación es nula, cuando las variables no están correlacionadas entre sí, esto lo podemos observar en el gráfico (c). Ejemplo 5.7 En la Tabla Nº 5.5 la variable X corresponde a las puntuaciones en Deporte y la variable Y corresponde a las puntuaciones en Matemática de un grupo de alumnos. 230 Tabla Nº 5.5: Puntuaciones en deporte vs. puntuaciones en matemática de un grupo de alumnos Nº sujeto 1 2 3 4 5 6 7 8 9 10 xi yi 02 04 04 08 08 14 14 14 18 18 20 15 35 05 40 05 15 40 20 35 Solución Realizando el diagrama de dispersión para las variables X e Y tenemos: Puntuaciones en Deporte Figura Nº 5.4: Puntuaciones en Deporte en Matemática de un grupo de alumnos Puntuaciones en Matemática Como se puede apreciar no existe una relación lineal entre las puntuaciones en deporte (X ) y las puntuaciones en matemática (Y ). 231 Coeficiente de correlación de Pearson (r) Obtención del coeficiente El objetivo del análisis de correlación de Pearson es medir la intensidad de la asociación observada entre dos variables cuantitativas. También, representa la magnitud de la relación lineal entre dos variables. Promedio de los valores estandarizados Algunas preguntas que puede responderse con el coeficiente de correlación de Pearson son las siguientes: ¿Los estudiantes que leen más rápido que otros, tienden también a tener mejor rendimiento en el curso de matemáticas?. ¿Se relaciona directamente el tiempo de servicios en la docencia de los profesores con el salario promedio que reciben?. ¿Los alumnos que tienen altos coeficientes de inteligencia tienden a tener notas altas en los cursos de lenguaje y literatura?. El coeficiente de correlación de Pearson se utiliza en el análisis de información cuantitativa cuando se desea medir la asociación lineal entre dos variables cuantitativas. Sus valores varían entre +1 y -1. El valor de +1, indica una relación lineal directa y perfecta; el valor -1, una relación lineal inversa y perfecta. El valor 0, indica ausencia de relación lineal. Para obtener este coeficiente hay una gran variedad de expresiones matemáticas que son equivalentes destacando las siguientes: a ) Para puntuaciones directas Sean { x1 ,...., xn } e { y1 ,..., yn } conjunto de pares de observaciones de las variables X e Y. A continuación, en forma general se presentan los cálculos auxiliares que facilitan la obtención del coeficiente de correlación de Pearson y que posteriormente se ilustarará con ejemplos. 232 Individuos xi yi xi2 yi2 xi yi 1 x1 x2 x3 y1 y2 y3 x12 x22 x32 y12 ... ... ... x1 y1 x2 y 2 x3 y3 xn yn 2 n 2 n 2 3 ... ... n n Totales y n ∑x y ∑ yi2 ∑ xi2 i =1 i =1 ... xn yn n n ∑ yi i =1 y32 x n ∑ xi y 2 2 i =1 i =1 i i Luego, la fórmula para calcular el coeficiente de correlación de Pearson es la siguiente: r= n ∑ xi yi − (∑ xi )(∑ yi ) [n∑ x 2 i ][ − (∑ xi ) n ∑ yi2 − (∑ yi ) 2 2 ] b) Para puntuaciones Z (puntuaciones típicas) Si los valores observados de la muestra previamente han sido tipificados según las siguientes fórmulas: z yi = yi − y donde s yi n x= ∑x , i =1 i y= ∑y i =1 ∑ (x − x ) n n i , s xi = z xi = i =1 n −1 ∑ (y n 2 i xi − x s xi , s yi = i =1 i −y y ) 2 n −1 el coeficiente de correlación de Pearson toma la siguiente forma: n r = ∑z i =1 xi z yi n −1 233 luego, mediante una prueba de hipótesis, comprobar si es mayor de lo que podría esperarse solamente por casualidad. Propiedades El valor de r va de -1 a +1, de donde se deduce que: a) Si r > 0, existe correlación directa positiva, b) Si r < 0, existe correlación inversa negativa, c) Si r = +1, existe una correlación perfecta positiva, d) Si r = -1, existe una correlación perfecta negativa, e) Si r = 0, no existe correlación o los datos están incorrelacionados. Para los valores intermedios entre 0 y 1, se deduce por ejemplo que si: a) 0 ≤ r < 0,20 , la correlación es muy baja, b) 0,20 ≤ r < 0,40 , existe una correlación baja, c) 0,40 ≤ r < 0,70 , existe una buena correlación positiva, d) 0,70 ≤ r < 1,00 , existe muy buena correlación positiva, e) r = 1,00 , existe una perfecta correlación positiva, f) − 1.0 ≤ r < −0.70 , existe muy buena correlación inversa, g) r = −1,00 , existe una perfecta correlación inversa. Prueba de hipótesis para el coeficientes de correlación de Pearson Luego de obtener el coeficiente de correlación de Pearson, el investigador puede plantearse preguntas como la siguiente: ¿ Es estadísticamente significativa la relación entre el coeficiente de inteligencia de un estudiante y su rendimiento académico?. A continuación se presentan los pasos a seguir para realizar pruebas de hipótesis relativas al coeficiente de correlación de Pearson. Paso 1: Postular la hipótesis de investigación como la hipótesis alternativa, juntamente con otra hipótesis que la niega y a la que se denomina hipótesis nula. 234 En la hipótesis nula se postula que no existe asociación entre las variables, y en la hipótesis alternativa: se postula que existe asociación entre las variables. La representación es la siguiente: H0 : ρ = 0 H1 : ρ ≠ 0 donde ρ es el coeficiente de correlación poblacional entre las dos variables. Paso 2: Se sabe que la siguiente estadística está en función del coeficiente de correlación muestral y bajo la hipótesis nula tiene distribución t-Student con (n − 2) grados de libertad. t= r 1 − r2 n−2 ~ t (n − 2) , por lo que se usa como la estadística de prueba para contrastar la hipótesis nula frente a la hipótesis alternativa. Denotemos con tc el valor de la estadística de prueba. Paso 3: Como la hipótesis alternativa es de la forma " ≠ ", la prueba de hipótesis que se está planteando es bilateral y la región crítica será el intervalo (-∞,- tteórico )U( tteórico , ∞) y donde " tteórico " es la abcisa de la distribución t-Student con (n − 2) de libertad, de manera que P (t( n −2 ) < tteórico ) = 1 − α 2 . Así por ejemplo, si se elige el nivel de significación α = 0.05 y el tamaño de muestra es 23, se cumple P t( 21) < tteórico = 0.975 . Luego, en la tabla t-Student se encuentra que el valor de tteórico es 2.08, por lo que la región de rechazo de la hipótesis nula es el intervalo (-∞,-2.08)U(2.08, ∞). ( ) Paso 4: Decisión: Rechazar la hipótesis nula de que no existe relación entre las variables cuando tc cae en la región de rechazo de la hipótesis nula. 235 Ejemplo 5.8 En la siguiente tabla se tiene la información para una muestra aleatoria de 12 estudiantes que estudiaron el primer año de secundaria en el colegio Cabrera Tapia el año 2000. El primer día de clases a todos ellos se les aplicó una prueba para obtener sus coeficientes de inteligencia (X) en la escala Stanford-Binet y al término del año se les aplicó una prueba de 35 items para evaluar su rendimiento en Matemáticas. α = 0.05. Dicha tabla se acompaña con los cálculos necesarios para obtener el coeficiente de correlación de Pearson. Solución X: Y: puntajes obtenidos en la prueba Stanford- Binet rendimiento en matemáticas Tabla Nº 5.7 Rendimiento de los estudiantes en matemáticas y puntajes obtenidos en la prueba Stanford- Binet Estudiante CI Puntaje xi yi xi2 yi2 xi yi 1 2 3 4 5 6 7 8 9 10 11 12 120 112 110 120 103 126 113 114 106 108 128 109 17 15 15 19 12 20 15 17 14 14 19 14 14400 12544 12100 14400 10609 15876 12769 12996 11236 11664 16384 11881 289 225 225 361 144 400 225 289 196 196 361 196 2040 1680 1650 2280 1236 2520 1695 1938 1484 1512 2432 1526 Totales 1369 191 156859 3107 21993 236 Obtenemos el coeficiente de correlación de Pearson r r= 12(21993) − 1369(191) (12(156859) − (1369) )(12(3107) − (191) ) 2 2 = 0,953 En la muestra se observa muy buena correlación directa y positiva entre coeficiente de inteligencia y el rendimiento académico en el curso de matemáticas. ¿Es estadísticamente diferente de cero el valor encontrado?. Responderemos la pregunta con la metodología de pruebas de hipótesis. Solución Paso 1: No existe asociación entre el coeficiente de inteligencia y el rendimiento académico es la hipótesis nula, y la hipótesis alternativa niega esa afirmación. H0 : ρ = 0 H1 : ρ ≠ 0 Paso 2: Para el coeficiente de correlación muestral r = 0.953 y tamaño de muestra 12, el valor de la estadística de prueba es: tc = 0.953 1 − 0.9532 10 = 9.93 Paso 3: Para encontrar la región crítica, se tiene en cuenta que α = 0.05, n = 12 y P t(10) < tteórico = 0.975 . Por tanto, en la tabla tStudent se encuentra el valor de tteórico = 2.228. La región de rechazo de la hipótesis nula es el intervalo (-∞,-2.228)U(2.228, ∞). ( ) Paso 4: Como el valor de tc = 9.93 cae en la región de rechazo de la hipótesis nula, la decisión es rechazar la hipótesis de que no existe asociación entre el rendimiento académico y los coeficientes de inteligencia, para un nivel de significación 0.05. 237 Ejemplo 5.9 Obtendremos el valor del coeficiente de correlación para los datos ejemplo 5.7 usando la fórmula de variables estandarizadas. Previamente los valores de la variable serán estandarizados. a) La estandarización de las variables se realiza con el auxilio del SPSS, para lo que, previamente, con los datos del ejemplo 5, se crea la base de DATOS9-pearson. Los comandos son los siguientes: Abrir la base de DATOS9-pearson y ejecutar los comandos/ ANALYZE/DESCRIPTIVE STATISTICS/DESCRIPTIVE/seleccionar las variables COEFICIENTE DE INTELIGENCIA y RENDIMIENTO ACADÉMICO/activar SAVE STANDARDIZED VALUES AS VARIABLES/OK. En el editor del SPSS junto a los valores de las variables X e Y se han creado dos columnas con los valores de las variables originales estandarizadas, z xi z yi . b) 238 xi yi z xi z yi 120 112 110 120 103 126 113 114 106 108 128 109 17 15 15 19 12 20 15 17 14 14 19 14 0.7531 -0.2651 -0.5197 0.7532 -1.4107 1.5168 -0.1379 -0.0106 -1.0289 -0.7743 1.7714 -0.6470 0.4392 -0.3716 -0.3716 1.2501 -1.5879 1.6555 -0.3716 0.4392 0.7771 -0.7771 1.2501 -0.7771 Para calcular el coeficiente de correlación, ejecutar los siguientes comandos del SPSS: ANALYZE/CORRELATE/BIVARIATE/ seleccionamos las variables originales y las variables estandarizadas/activar PEARSON/ OK. En el output del SPSS se lee: coeficiente de inteligencia Zscore: coeficiente de inteligencia ( z yi ) n r = ∑z i =1 xi rendimiento Zscore: rendimiento ( z yi ) Pearson Correlation .953 .953 Pearson Correlation .953 .953 z yi n −1 = 0.953. El valor del coeficiente de correlación entre las variables estandarizadas coinciden con el ya encontrado manualmente en el ejemplo anterior con los valores originales y con el también muestra el output del SPSS para las variables originales coeficiente de inteligencia y rendimiento. En lo que corresponde a pruebas de hipótesis, los pasos y resultados son similares a los del ejemplo anterior. Ejemplo 5.10 Se trata de un estudio sobre el rendimiento escolar. Se desea saber si existe correlación entre los años de escolaridad de la madre y las calificaciones de sus hijos en una prueba de matemáticas. Los datos son los siguientes. Tabla Nº 5.6 Años de escolaridad de la madre y calificaciones en una prueba de matemáticas Estudiantes Años de escolaridad de la madre ( X ) Calificaciones de los hijos en una prueba de Matemática ( Y ) 1 2 3 4 5 8 5 3 6 7 12 8 8 10 10 239 En el siguiente cuadro se presentan los cálculos auxiliares: Estudiantes xi yi xi yi xi2 yi2 1 8 12 96 64 144 2 5 8 40 25 64 3 3 8 24 9 64 4 6 10 60 36 100 5 7 10 70 49 100 n=5 29 48 290 183 472 Reemplazando los valores obtenidos en la ecuación de r para puntuaciones directas obtenemos: r= 5(290) − (29 )(48) [5(183) − (29) ][5](472) − (8) 2 2 = 58 = 0,9 74 x56 El valor de +0,9 significa una alta correlación positiva, es decir, el nivel de escolaridad de la madre está asociado linealmente al rendimiento académico de sus hijos en matemática. Ejemplo 5.11 En la Tabla Nº 5.8 se tiene información de una muestra aleatoria de 15 alumnos del Centro Educativo "Teresa Gonzales de Fanning". La encuesta fue aplicada a 150 estudiantes en Abril de 1998. Se desea obtener el coeficiente de correlación entre las variables puntajes obtenidos en aritmética y lenguaje. 240 Tabla Nº 5.8: Rendimiento y Edades de una muestra de estudiantes del Colegio Teresa Gonzales de Fanning, 1998 Estud. Aritmética Lenguaje Edad Rendimiento Promedio 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 15 14 13 12 11 13 15 15 16 12 11 8 10 15 13 16 15 12 12 10 15 15 16 17 15 12 9 11 14 15 14 14 15 16 16 17 17 16 15 15 16 17 17 18 15 13 14 14 14 12 15 15 14 14 14 9 11 13 15 13 Se ilustra los cálculos auxiliares del coeficiente de correlación de Pearson con los valores observados de las variables notas en aritmética (X ) y notas en lenguaje (Y ). Estudiantes xi yi xi2 xi yi yi2 1 2 3 4 5 6 7 8 9 10 15 14 13 12 11 13 15 15 16 12 16 15 12 12 10 15 15 16 17 15 225 196 169 144 121 169 225 225 256 144 240 210 156 144 110 195 225 240 272 180 256 225 144 144 100 225 225 256 289 225 Totales 193 204 2553 2691 2856 ∑x i = 193 ∑y i = 204 ∑x 2 i = 2553 ∑x y i i = 2691 ∑y 2 i = 2856 241 Luego reemplazando en la fórmula, el coeficiente de correlación entre las notas de aritmética y lenguaje vale: r= 15(2691) − 193(204 ) 15(2553) − (193) 2 15(2856) − (204 ) 2 = 0,878 Se observa una correlación alta y positiva entre los puntajes obtenidos en los cursos de aritmética y lenguaje. ¿Es estadísticamente significativo el coeficiente de correlación encontrado?. Responderemos con la metodología de pruebas de hipótesis. Paso 1: En la hipótesis nula postulamos que no existe asociación entre las notas de matemáticas y lenguaje y la hipótesis alternativa niega esa afirmación. H0 : ρ = 0 H1 : ρ ≠ 0 Paso 2: Para el coeficiente de correlación muestral r = 0.878 y tamaño de muestra 15, el valor de la estadística de prueba es: tc = 0.878 1 − 0.8782 = 6.61 13 Paso 3: Para encontrar la región crítica, se tiene en cuenta que α = 0.05, 15 y P t(13) < tteórico = 0.975 . Por tanto, en la tabla t-Student se encuentra el valor de tteórico = 2.16. La región de rechazo de la hipótesis nula es el intervalo (-∞,-2.16)U(2.16, ∞). ( ) Paso 4: Como el valor de tc = 6.61 cae en la región de rechazo de la hipótesis nula, la decisión es rechazar la hipótesis de que no existe asociación entre las notas de matemáticas y lenguaje, a un nivel de significación 0.05. 242 Ejemplo 5.12 Para una muestra aleatoria de 7 docentes universitarios de la Facultad de Derecho de una universidad prestigiosa se dispone de la siguiente información con respecto a sus sueldos y el tiempo de servicio en la docencia. Obtendremos la relación entre esas variables y veremos si la correlación encontrada es estadísticamente significativa. Solución X: Años de servicio de los docentes a) Y: Sueldos de los docentes Obtenemos el coeficiente de correlación con la fórmula original, para lo cual realizamos los siguientes cálculos auxiliares: profesor Años de servicio xi sueldos yi xi2i yi2i xi yi 1 2 3 4 5 6 7 16 14 14 23 9 19 19 1182 1341 1561 1437 1415 1462 1288 256 196 196 529 81 361 361 1397124 1798281 2436721 2064969 2002225 2137444 1658944 18912 18774 21854 33051 12735 27778 24472 i =1 i ∑y = i =1 114 r= = n n n ∑x Totales i = 9686 ∑x i =1 2 i 2 i ][ − (∑ xi ) n ∑ yi2 − (∑ yi ) 2 2 n = ∑x y = 13495708 157576 i =1 1980 n ∑ xi yi − (∑ xi )(∑ yi ) [n∑ x n ∑y = 2 i i =1 i i ]= 7(157576) − (114)(9686) [7(1980) − 114 ][7(13495708) − 9686 ] 2 2 = -0.05 243 El valor obtenido nos indica una correlación nula entre las variables involucradas. Es decir, para la muestra analizada las variables años de servicio y sueldos no están correlacionadas. Ejemplo 5.13 Usando la base DATOS11-educación se ajusta la recta de regresión entre las variables rendimiento promedio y rendimiento en el curso de álgebra, usando el método de mínimos cuadrados. Se obtienen el coeficiente de correlación y el diagrama de dispersión. Solución Para el diagrama de dispersión, ajuste de la recta, el gráfico de la recta de regresión ajustada por el método de mínimos cuadrados, y el coeficiente de correlación, ejecutamos los siguientes comandos: a) Abrir el archivo de DATOS11-educación. GRAPHS/INTERATIVE/SCATTER/colocar en el X la variable ALGEBRA y en el eje Y la variable RENDIMIENTO PROMEDIO/ FIT/ en FIT LINE escoger TOTAL / ACEPTAR. b) Para encontrar la ecuación de la recta de regresión, los comandos son los siguientes: ANALYZE / REGRESSION/LINEAR/ en DEPENDENT escoger RENDIMIENTO PROMEDIO y en INDEPENDENT escoger ÁLGEBRA/ STATISTICS/ activar ESTIMATES y MODEL FIT/OK. c) ANALYZE / CORRELATE /BIVARIATE/ seleccionamos las variables originales y las variables estandarizadas/activar PEARSON/ OK. El output del SPSS nos muestra lo siguiente: 244 a) El diagrama de dispersión y el gráfico de la recta de regresión ajustada por el método de mínimos cuadrados. Notas promedio Notas de álgebra y calificación promedio de profesores de educación secundaria Notas álgebra Observamos que las notas de álgebra y las calificaciones promedio de profesores que participaron en el programa de capacitación, tienen una relación directa y positiva. b) El coeficiente de correlación de Pearson: Model Summary Model 1 R R Square Adjusted R Square Std. Error of the Estimate .925ª .855 .852 .52 a. Predictors: (Constant), NOTAS de ÁLGEBRA r = 0,925 Coeficiente de correlación lineal Se tiene una correlación alta y positiva entre las notas de álgebra y las calificaciones promedio que alcanzaron los profesores que participaron en el programa de capacitación. 245 c) Los coeficientes de la recta de regresión son: Coefficientsa Unstandardized Standardized Coefficients Coefficients Model 1 (Constant) NOTAS DE ÁLGEBRA B Std. Error 3.853 .477 .708 .043 Beta t Sig. 8.071 .000 .925 16.299 .000 a. Dependent variable: NOTAS PROMEDIO a b y la recta de regresión ajustada por el método de mínimos cuadrados es: Yˆ = 3.853 + 0.708X, donde, manteniendo constante la variable notas de álgebra aún podemos estimar la calificación promedio en 3.853 puntos. Un incremento en la notas de álgebra de un punto, por ejemplo, es acompañado por un incremento en la calificación promedio de los profesores de educación secundaria en 0.708 puntos. Regresión lineal múltiple Introducción En un modelo de regresión lineal múltiple, la variable dependiente o respuesta (Y ) es una función de dos o más variables independientes o regresoras. Un modelo de regresión con k variables independientes o regresoras se puede expresar así: Y = f (X 1 , X 2 , X 3 ,..., X k ) 246 Explicaremos el análisis de regresión lineal múltiple con los datos de la siguiente tabla, en la que se muestra los coeficientes de inteligencia (IQ), los promedios de calificaciones y el tiempo que 12 estudiantes dedican al estudio. Se desea predecir el promedio de las calificaciones de estos estudiantes en función de sus coeficientes de inteligencia y de los tiempos que dedican al estudio. Se puede observar que se tiene dos variables, coeficiente de inteligencia y tiempo dedicado al estudio, para explicar el comportamiento de las calificaciones promedio de los estudiantes. Para el problema descrito se postula la forma general del modelo de regresión lineal múltiple: Y = β 0 + β1 X 1 + β 2 X 2 + e donde: Y: β 0 , β1 , β 2 : X1 , X 2 : e: variable aleatoria denominada variable dependiente, parámetros del modelo de regresión lineal múltiple, variables independientes, error aleatorio, mide el desajuste entre la realidad y el modelo, Esta ecuación es muy similar a la utilizada en la regresión lineal simple, excepto que agregamos otra variable independiente. Para estimar los parámetros β 0 , β1 , β 2 se toma una muestra de los valores ( yi , x1i , x2 i ) i = 1,..., n , y para cada individuo se tiene el siguiente sistema de ecuaciones, yi = β 0 + β1 x1i + β 2 x2i + ei , donde yi es el i-ésimo valor de la variable Y, x1i , x2 i , los i-ésimos valores de las variables independientes X 1 , X 2 , por lo que ei = yi − β 0 − β1 x1i − β 2 x2i . Luego, se usa el método de mínimos cuadrados, es decir se buscan los valores de β0 , β1 , β 2 que hagan mínima la suma de cuadrados de los errores, es decir, que ei2 . minimicen La solución conduce a un sistema de ecuaciones denominadas ecuaciones normales, a partir de las cuales, utilizando con- ∑ 247 ceptos de álgebra matricial se encuentran los estimadores de los parámetros β0 , β1 , β 2 tema que escapa de los objetivos del curso y que no será abordado aquí. Los problemas de regresión múltiple serán resueltos con el soporte del SPSS, puesto que en la mayoría de las investigaciones el número de observaciones y el número de variables es grande, lo que dificulta el trabajo manual. Así, Yˆ = βˆ0 + βˆ1 X 1 + βˆ2 es las ecuación de la recta de regresión múltiple ajustada por el método de mínimos cuadrados. Ejemplo 5.14 Para una muestra de 12 estudiantes se tiene la información adjunta en la siguiente tabla. Vamos a ajustar la recta de regresión múltiple usando el método de mínimos cuadrados. Promedio de calificaciones, coeficiente intelectual y tiempo dedicado al estudio Estudiante Número (X 1 ) IQ Tiempo de estudio (X 2 ) Promedio de calificaciones (Y ) 1 2 3 4 5 6 7 8 9 10 11 12 110 112 118 119 122 125 127 130 132 134 136 138 8 10 6 13 14 6 13 12 13 11 12 18 1.0 1.6 1.2 2.1 2.6 1.8 2.6 2.0 3.2 2.6 3.0 3.6 Solución Postulamos el modelo Y = β 0 + β1 X 1 + β 2 X 2 + e , para estudiar la relación entre las variables. 248 donde: X 1 : Coeficiente intelectual (IQ). X 2 : Tiempo de estudio. Y: Promedio de calificaciones e : error β 0 , β1 , β 2 : parámetros a estimar. Usamos las opciones del SPSS Activar el SPSS y crear los datos en un archivo de nombre: COEFICIENTE. En VARIABLE VIEW definir las siguientes variables: IQ, TIEMPO y CALIFICA y en DATA VIEW colocar los datos de la tabla. Ejecutar ANALYZE/ REGRESSION/LINEAR/ ingresar en DEPENDENT la variable CALIFICA y en INDEPENDENT las variables IQ TIEMPO/OK. El output del SPSS es el siguiente: Coefficientsa Unstandardized Standardized Coefficients Coefficients Model 1 (Constant) IQ TIEMPO B Std. Error Beta t Sig. -5.249 ,049 .118 1.166 .010 .028 .570 .509 -4.501 4.717 4.209 .001 .001 .002 a. Dependent variable: CALIFICA βˆ0 β̂1 βˆ2 Las estimaciones de los parámetros son: βˆ0 = −5.249 βˆ1 = 0.049 βˆ2 = 0.118 249 donde: X 1 : Coeficiente intelectual (IQ). X 2 : Tiempo dedicado al estudio. A partir de los resultados anteriores se encuentra la ecuación de la recta de regresión múltiple ajustada por el método de mínimos cuadrados: Yˆ = −5.249 + 0.049 X 1 + 0.118 X 2 , donde, manteniendo constante la variable tiempo de estudio, un incremento en el coeficiente intelectual (IQ) de un punto, por ejemplo, es acompañado por un incremento en el promedio de calificaciones de 0.049 puntos. En forma similar, manteniendo constante la variable coeficiente intelectual, un incremento de 1 hora en el tiempo de estudio, es acompañado por un incremento en el promedio de calificaciones de 0.118 puntos. Coeficiente de determinación El coeficiente de determinación, R 2 , multiplicado por 100, indica el porcentaje de la variación de la variable dependiente que es explicado por las variables independientes del modelo. Se puede demostrar que la suma de cuadrados del total, ∑ (y i ) − y , se puede dividir en dos componentes: la suma de cuadrados debido a la regresión, drados debido al error donde: ∑ (yˆ ) 2 i − y , y la suma de cua- ∑ ( y − yˆ ) . Es decir: SCT = SCR + SCE , 2 i i SCT: suma de cuadrados del total. SCR: suma de cuadrados debido a la regresión. SCE: suma de cuadrados debido al error. 250 El término coeficiente de determinación múltiple mide la bondad de ajuste para la ecuación de regresión múltiple. Este coeficiente se calcula como sigue: R2 = SCR SCT En nuestro ejemplo, la variable dependiente es el promedio de calificaciones de un alumno y las variables independientes son el coeficiente de inteligencia y el tiempo dedicado al estudio. El valor del coeficiente de determinación es 0.91, valor que significa que, el 91% de las variaciones observadas en la calificación promedio de los alumnos son explicables por las variaciones del coeficiente de inteligencia y del tiempo dedicado al estudio. El valor 0.09 = 1 - 0.91, llamado coeficiente de alienación, indica que el 9% de las variaciones observadas en la calificación promedio de los alumnos no son explicables por el modelo (en este caso por las variaciones en el IQ y tiempo de estudio). Pruebas de hipótesis Las pruebas de hipótesis con respecto a los parámetros de la ecuación de regresión múltiple se basan en las estadísticas t de Student y F de Snedecor. La prueba F se usa para determinar si hay una relación significativa entre la variable dependiente y el conjunto de todas las variables independientes. En estas condiciones se denomina prueba de significación global. La prueba t de Student se aplica para determinar si cada una de las variables independientes son significativas. Se hace una prueba de hipótesis por separado para cada variable independiente en el modelo a cada una de esas pruebas de hipótesis se denomina prueba de significación individual. A continuación explicaremos la prueba F y la prueba t, y aplicaremos para cada una el ejemplo sobre el coeficiente inteligencia de estudiantes. 251 Prueba F Antes de describir los pasos de la prueba F necesitamos conocer el concepto de cuadrado medio. Considerando que el modelo de regresión múltiple tiene k variables independientes. El cuadrado medio (CMR, CME) es una suma de cuadrados dividida entre sus grados de libertad correspondiente. En el caso de la regresión múltiple, la suma de cuadrados del total tiene n - 1 grados de libertad, la suma de cuadrados de regresión (SCR) tiene k grados de libertad y la suma de cuadrados del error tiene n - k - 1 grados de libertad. CMR = SCR k CME = S 2 = SCE n − k −1 El cuadrado medio del error es un estimador insesgado de σ2. Prueba F para la significancia global Si el modelo general es: Y = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k + e , entonces: H 0 : β1 = β 2 = ... = β k = 0 H 1 : Al menos uno de los parámetros no es igual a cero Estadística de prueba F= CMR CME Regla de decisión Con el estadístico de prueba: Rechazar Ho si Fc > Fα . Con el valor p - value: Rechazar Ho si el valor p - value < α. donde Fα es la abcisa de la distribución F con k grados de libertad en el numerador y n - k - 1 grados de libertad en el denominador. 252 Tabla de análisis de Varianza (ANOVA) La tabla de análisis de varianza, proporciona la descomposición de la suma de cuadrados de la regresión, los grados de libertad asociados a cada suma de cuadrados, los cuadrados medios y los resultados de la prueba F para el modelo de regresión múltiple. El valor del estadístico de la prueba F aparece en la última columna y se puede comparar con Fα con k grados de libertad en el numerador y (n - k - 1) en el denominador (valor obtenido de la tabla F-Snedecor) cuando la hipótesis nula es: H 0 : β1 = β 2 = ... = β k para el modelo Y = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k + e . Tabla ANOVA Regresión múltiple con k variables independientes Fuente Suma de cuadrados Grados de libertad Regresión SCR k Error SCE n-k-1 Total SCT n-1 Cuadrado Medio CMR = CME = SCR k F= CMR CME SCE n − k −1 Ejemplo 5.15 Usando la información del ejemplo 5.14 vamos a hacer la prueba de hipótesis referente a los dos parámetros poblacionales del modelo Y = β 0 + β1 X 1 + β 2 X 2 + e . Solución Paso 1: Las hipótesis se formula como sigue: H 0 : β1 = β 2 = 0 H 1 : al menos uno de los parámetros es igual a cero. 253 Paso 2: El valor de la estadística de prueba,, lo vamos a obtener utilizando los comandos del SPSS: Crear el archivo: COEFICIENTE Definir las variables en VARIABLE VIEW, por ejemplo, IQ, TIEMPO y CALIFICA.Ejecutar: ANALYZE/ REGRESSION/LINEAR/ Seleccionar/ ingresar en DEPENDENT CALIFICA y en INDEPENDENT las variables IQ TIEMPO/OK. El output del SPSS muestra lo siguiente: ANOVAb Model 1 Regression Residual Total Sum of squares df Mean Square F Sig. 6.389 .634 7.022 2 9 11 3.194 7.043E-02 45.353 .000a a. Predictors: (Constant), TIEMPO, IQ b. Dependent Variable: CALIFICA CME CMR F Estadística de prueba Fc = CMR 3.194 = = 45.37 CME 0.0704 Paso 3: [ ] Para α = 0.05, k = 2; n - k - 1 = 9, P F(2,9 ) > Fteórico = 0.05 en la tabla - Snedecor se encuentra el valor de Fteórico = 4.26 . La región de rechazo de la hipótesis nula es el intervalo (4.26; ∞). 254 Paso 4: Como Fc = 45.37 > Fteórico = 4.26 entonces rechazamos H 0 y concluimos que al menos uno de los parámetros es diferente de cero. Prueba t Si la prueba F ha mostrado que la relación entre la variable dependiente y los regresores es estadísticamente significativo, se puede hacer una prueba t para determinar la significancia de cada uno de los parámetros individuales. Así para cualquier parámetro β i se plantea lo siguiente: Paso 1: Para cualquier parámetro β i H 0 : βi = 0 H1 : βi ≠ 0 Paso 2: La distribución de la estadística de prueba es: t= βˆi ~ t(n −1) sβˆi Paso 3: [ α ] Para el nivel de significación α, P t(n −1) < tteórico = 1 − , en la ta2 bla t(n −1) se obtiene el valor teórico de t, tteórico . La región de rechazo es el intervalo − ∞,−t(teórico ) U t(teórico ), ∞ . ( ) ( ) Paso 4: Si tteórico cae en la región de rechazo, entonces se rechaza la hipótesis nula. 255 Si retomamos el ejemplo anterior y queremos saber si es estadísticamente significativo plantearemos las siguientes hipótesis. H 0 : βi = 0 H1 : βi ≠ 0 Paso 2: Usando comandos del SPSS obtenemos la siguiente tabla: Coefficientsa Unstandardized Standardized Coefficients Coefficients Model 1 (Constant) IQ TIEMPO B Std. Error Beta t Sig. -5.249 ,049 .118 1.166 .010 .028 .570 .509 -4.501 4.717 4.209 .001 .001 .002 a. Dependent variable: CALIFICA βˆ2 donde βˆ1 = 0,049 ba es: βˆ1 Sβˆ 2 S βˆ 1 sβˆ = 0.010 y el valor de la estadística de pruetc = βˆ1 0.049 = = 4.9 sβ1 0.010 . El valor de la t de Student con 9 grados de libertad y α / 2 = 0.05 / 2 = 0.025 es, t0.9755 = 2.69 . Paso 3: En la tabla el valor de la de Student con 9 grados de libertad y α / 2 = 0.05 / 2 = 0.025 es, t0.9755 = 2.69 . Para α = 0,05 se encuentra que tteórico = t0,975 = 2,69 . 256 Paso 4: Como tc = 4.9 > t0.975 = 2.69 rechazamos la hipótesis nula a un nivel de significación de 0.05 y concluimos que la variable Coeficiente Intelectual (IQ) explica el comportamiento de las calificaciones de los estudiantes. Trabajando con la misma metodología para el parámetro β 2 , se encuentra la siguiente tabla. Coefficientsa Unstandardized Standardized Coefficients Coefficients Model 1 (Constant) IQ TIEMPO B Std. Error Beta t Sig. -5.249 ,049 .118 1.166 .010 .028 .570 .509 -4.501 4.717 4.209 .001 .001 .002 a. Dependent variable: CALIFICA βˆ1 βˆ2 Sβˆ 2 S βˆ 1 de donde el valor de la estadística de prueba es: tc = βˆ2 0.118 = = 4.21 sβ2 0.028 y nuevamente se rechaza la hipótesis nula (β1 = 0 ) , porque tc = 4.21 > 2.69, con un nivel de significación de 0.05. Pruebas no paramétricas En los temas estudiados a lo largo de este libro hemos podido notar el importante lugar que le corresponde a la distribución 257 normal en la teoría estadística. Sin embargo, con frecuencia en muchas situaciones no se conoce si la distribución desde la cual se ha seleccionado la muestra es tal que sea aplicable el teorema del límite central o si la aproximación a la distribución normal es lo suficientemente adecuada como para que los intervalos de confianza resultantes y las pruebas de hipótesis basadas en la teoría normal tengan validez. En tales situaciones se necesita de métodos estadísticos cuya aplicación sea independiente de la forma de la densidad. Estos métodos se denominan métodos no paramétricos. Los métodos no paramétricos que se desarrollarán en esta sección se aplican a familias muy extensas de distribuciones en vez de familias caracterizadas por una forma funcional particular. La estructura de la mayoría de los métodos no pramétricos descansa en las estadísticas de orden. Las estadísticas de orden representadas por: X(1), X(2),…,X(n) son la consecuencia de haber ordenado la muestra aleatoria original X1, X2, …,Xn en forma ascendente. Es decir: X(1), es la más pequeña en magnitud de todas las X's X(2), es la segunda más pequeña en magnitud de todas las X's . . . X(n), es la más grande en magnitud de todas las X's Se trabajará bajo el supuesto de que la muestra aleatoria proviene de una distribución continua. Esto implica que la probabilidad que dos observaciones muestrales sean iguales es cero. Es decir, con probabilidad una las observaciones maestrales serán ordenadas desde la más pequeña a la más grande sin tener en este ordenamiento dos valores iguales. En la práctica, frecuentemente observamos en la muestra dos o más valores iguales denominados empates (ties); para lo cual dependiendo de la prueba se utilizará un factor de corrección por empates. Posición y dispersión 258 En el caso paramétrico hemos utilizado la media y la desviación estándar poblacionales como medidas de posición y dispersión respectivamente, pero los métodos no paramétricos utilizan como medida de posición a la mediana M, que es el punto que divide en dos partes iguales el área limitada por la función de densidad f(x), tal como se grafica a continuación. En una distribución continua P( X ≥ M ) = P( X ≤ M ) = f(x) 1 . 2 50% del área 50% del área M La mediana poblacional M, se estima mediante la mediana muestral m. Para la obtención de la mediana como es conocido primero deben organizarse los datos en forma ascendente, la mediana será el valor central si el número de datos es impar y será la semisuma de los valores centrales si se cuenta con un número par de datos. Es decir, si n = 2k + 1 x( k +1) m = x( k ) + x( k +1) si n = 2k 2 La mediana muestral no es un estimador insesgado de la mediana poblacional, pero este sesgo tiende a cero al aumentar el tamaño de la muestra. Como medida de dispersión se emplea entre otras el rango intercuartil, la diferencia entre el cuartil 3 y el cuartil 1: R = Q3 − Q1 Ejemplo 5.16 259 Se cuenta con los siguientes valores: x1 = 0.62, x2 = 0.98, x3 = ; 0.31, x = 0.81, x = 0.53 los cuales corresponden a n = 5 valores 4 5 observados de 5 ensayos independientes de un experimento. Se determinará la mediana muestral. • • En primer lugar se ordenan en forma ascendente las observaciones: x = 0.31 < x = 0.53 < x = 0.62 < x = 0.81 < x = 0.98 (1) ( 2) (3) ( 4) (5) Como se cuenta con un número impar de observaciones la mediana muestral es x = 0.62 . (3) En esta sección estudiaremos los siguientes métodos no paramétricos: • Para una población: Prueba de Wilcoxon. • Para dos poblaciones independientes: Prueba de MannWhitney • Para tres o más muestras independientes: Prueba de Kruskall Wallis • Prueba de bondad del ajuste: Prueba de Kolmogorov Prueba de Wilcoxon En algunas investigaciones se requiere probar una hipótesis nula con respecto a la media poblacional, pero la distribución bajo estudio no es la distribución normal. En tal situación un procedimiento estadístico adecuado es la prueba de Wilcoxon, la cual utiliza las magnitudes de las diferencias entre las mediciones y el valor de la mediana poblacional propuesta en la hipótesis nula. Supuestos La prueba de Wilcoxon se basa en los siguientes supuestos. 1. La muestra X1,X2,..,Xn es una muestra aleatoria 2. La variable en estudio es continua 260 3. 4. La población se distribuye simétricamente La escala de medición es al menos de intervalo Hipótesis Se plantea a continuación la hipótesis nula con su respectiva hipótesis alternativa I. H0 : M = M 0 II . H 0 : M ≥ M 0 III . H 0 : M ≤ M 0 H1 : M ≠ M 0 H1 : M < M 0 H1 : M > M 0 En cada uno de los casos con un nivel de significación α. Procedimiento para la obtención de la estadística de prueba Cuando se utiliza la prueba de Wilcoxon se realizan los siguientes cálculos. 1. 2. 3. 4. Se obtienen las diferencias Di = Xi -M0 , i = 1,2,…,n. Si algún Xi es igual a M0 , éste es eliminado y como consecuencia el tamaño de la muestra disminuye. Se ordenan las diferencias Di en forma ascendente sin considerar el signo de la diferencia. Es decir, se ordenan las diferencias en valor absoluto, |Di|. Si dos o más de los |Di| son iguales, se obtiene el promedio de los rangos que ocupan las diferencias empatadas y este valor es asignado a cada una de las observaciones empatadas. Se retoma el signo de la diferencia Di y es asignado al rango respectivo. Se obtienen y T + y T -, que representan a la suma de rangos con signo positivo y negativo respectivamente. La suma total de los rangos es: n( n + 1) −T− T+ = 2 n( n + 1) , entonces 2 Estadística de prueba 261 Dependiendo de la hipótesis alternativa planteada se considera como estadística de prueba a T = min T + , T − , T + o T − . Si la hipótesis nula H0 es verdadera, es decir, si la mediana poblacional, M, es igual a la mediana hipotética, M0, y se cumplen los supuestos, la probabilidad de observar una diferencia Di positiva es igual a la probabilidad de observar una diferencia negativa. Entonces al repetir el muestreo, el valor esperado de T+ es igual al valor esperado de. En una muestra específica no sucede que T + sea exactamente igual a T -. Sin embargo, cuando H0 es verdadera no esperamos una gran diferencia entre ambos valores. Esto trae como consecuencia que un valor suficientemente pequeño de T + o T - causa el rechazo de H0. { } Valores críticos En la Tabla G del Apéndice se encuentran los valores críticos d de la estadística de prueba de Wilcoxon para muestras de tamaño 4 hasta 20 y distintos niveles de significación. Región crítica La región crítica depende de la hipótesis alternativa planteada. En la siguiente tabla se resume los tres casos de la prueba de hipótesis respecto de la mediana de una población. Ejemplo 5.17 Hipótesis I. H0 : M = M 0 H1 : M ≠ M 0 II . H 0 : M ≥ M 0 H1 : M < M 0 III . H 0 : M ≤ M 0 H1 : M > M 0 Estadística de Prueba T = min{T + , T − } T ≤d T+ T+ ≤ d T− T− ≤ d En cada caso con un nivel de significación α. 262 Regla de decisión Rechazar, H 0 : M = M 0 si Un psicólogo está interesado en tener evidencia suficiente para concluir que las calificaciones de destreza manual promedio en estudiantes discapacitados es diferente de 45 puntos. Para llevar a cabo su estudio selecciona una muestra aleatoria de 25 estudiantes discapacitados y registra sus calificaciones de destreza manual. La información que obtiene es la siguiente: ¿Los datos son concordantes con la propuesta del psicólogo?. Utilice α = 0.05. 33 53 22 40 24 56 36 28 38 42 35 52 36 47 41 32 20 42 34 53 37 35 47 42 52 Solución. Paso 1: Se plantean las hipótesis Se trata de un problema de inferencia estadística acerca de la mediana poblacional M : "calificación media de la destreza manual de una población de estudiantes discapacitados" Hipótesis nula: La calificación media es M = 45, donde M0 = 45 puntos. Es decir, H 0 : M = 45 Hipótesis alternativa: La calificación media es diferente de 45 puntos. Es decir, H 1 : M ≠ 45 Paso 2: En base a la muestra aleatoria se realizan los cálculos para obtener la estadística de prueba. n = 25 263 Obs xi Di rango (|Di|) sig ran (|Di|) Obs xi Di rango (|Di|) sig ran (|Di|) 1 2 3 4 5 6 7 8 9 10 11 12 13 33 53 22 40 24 56 36 28 38 42 35 52 52 -12 8 -23 -5 -21 11 -9 -17 -7 -3 -10 7 7 20 12 24 7 23 18,5 14,5 22 9 4 16,5 9 9 -20 12 -24 -7 -23 18,5 14,5 -22 -9 -4 16,5 9 9 14 15 16 17 18 19 20 21 22 23 24 25 36 47 41 32 20 42 34 53 37 35 47 42 -9 2 -4 -13 -25 -3 -11 8 -8 -10 2 -3 14,5 1,5 6 21 25 4 18,5 12 12 16,5 1,5 4 14,5 1,5 -6 -21 -25 -4 18,5 12 -12 16,5 1,5 -4 Suma total de rangos: n( n + 1) 25( 26) = = 325 2 2 Suma de rangos positivos: T + = 63.5 , Suma de rangos negativos: T − = 261.5 Estadística de prueba: T = mín{T + , T − }= mín{63.5, 261.5}= 63.5 . Paso 3. Obtención de la región crítica En la tabla G del Apéndice, el valor de d = 101. La región crítica está conformada por T ≤ d y para nuestro ejemplo la región crítica es: T < 101 . Paso 4. Decisión 264 Región de rechazo 101 T El valor de T = 63.5 , se encuentra en la región de rechazo. Es decir, T = 63.5 < 101 = d , lo cual implica el rechazo de la hipótesis nula. Es decir, en base a las observaciones muestrales, el psicólogo encuentra un soporte a su afirmación de que el puntaje medio de las calificaciones de la destreza manual de la población de estudiantes discapacitados bajo estudio, es diferente de 45 puntos. Análisis por computadora usando el SPSS Debe señalarse que el SPSS no tiene el análisis para probar la mediana poblacional en base a una muestra. Cuenta con el análisis para muestras relacionadas. Adaptaremos este procedimiento a nuestro caso procediendo de la siguiente forma: 1. 2. 3. Utilizar el artificio de crear una variable que ha sido denominada Median, la cual contiene el valor de la mediana propuesta bajo la hipótesis nula. Crear la variable Destrez, la cual contiene las 25 mediciones de destreza manual de cada uno de los estudiantes. Proceder a ejecutar los siguientes comandos: Analyze/ Nonparametric Test/ 2 Related Simples / Seleccionar las variables Median y Destrez/ Test Tipe activar Wilcoxon/ click OK. A continuación mostramos el editor y el output. EDITOR OUTPUT 265 En Test Statistics el p-value = Wilcoxon 0.008 < 0.05, entonces se rechaza H0. Signed Ranks Test Ranks destrez mediana Negative Ranks Positive Ranks Ties Total N Mean Rank Sum of Ranks 18(a) 14.53 261.50 7(b) 9.07 63.50 0(c) 25 a destrez < mediana b destrez > mediana c destrez = mediana Test Statistics(b) destrez mediana Z Asymp. Sig. (2-tailed) -2.666(a) .008 a Based on positive ranks. b Wilcoxon Signed Ranks Test Prueba de MANN-WHITNEY Cuando el supuesto de que cada una de las poblaciones en estudio se distribuyen normalmente no se cumple, las pruebas de hipótesis para contrastar que las medias poblacionales son iguales no pueden ejecutarse. Como alternativa se cuenta con un método no paramétrico, la prueba de Mann-Whitney, que es una prueba apropiada para contrastar la hipótesis de que las medianas de dos poblaciones independientes son iguales, y donde la forma funcional de estas poblaciones no está especificada. Este método se basa en datos generados por dos muestras aleatorias independientes, seleccionadas de cada una de las poblaciones de interés. Estas muestras son independientes en dos aspectos. Uno de ellos es que existe independencia entre muestras y el otro aspecto es que 266 dentro de cada muestra las observaciones que la conforman también son independientes. Esta prueba fue propuesta por Mann y Whitney (1947), además se tiene referencia que Wilcoxon (1945), propuso un procedimiento semejante. Es por ello que también es conocida como la prueba de Wilcoxon-Mann-Whitney. Supuestos • • • • Las muestras aleatorias, X11, …., X1n1 y X21, …., X2n2, utilizadas para el análisis son seleccionadas independientemente de sus respectivas poblaciones. La variable de interés es continua. La escala de medición observada es al menos ordinal. Las dos poblaciones en estudio difieren sólo con respecto a su posición. Hipótesis Se plantea a continuación la hipótesis nula con su respectiva hipótesis alternativa I . H0 : M1 = M 2 II . H 0 : M 1 ≥ M 2 III . H 0 : M 1 ≤ M 2 H1 : M 1 ≠ M 2 H1 : M 1 < M 2 H1 : M 1 > M 2 Donde M 1 y M 2 representan las medianas de la población 1 y población 2 respectivamente. En cada uno de los casos las pruebas se realizan con un nivel de significación α. Procedimiento para la obtención de la estadística de prueba Para calcular la estadística de prueba se procede de la siguiente forma. 1. Se combinan las dos muestras (de tamaños n1 y n2 ). 2. Las n1 + n2 observaciones son organizadas en forma ascen- 267 3. 4. dente (desde la más pequeña a la más grande). Se asignan los rangos a cada una de las n1 + n2 observaciones teniendo en cuenta a que muestra pertenecen. Si dos o más observaciones son iguales (empatan) se obtiene el promedio de los rangos que ocupan dichas observaciones en el ordenamiento y este promedio es asignado a cada una de las observaciones empatadas. Obtener la suma de los rangos asignados a la muestra 1: S= n1 ∑ R( X ) . 1i i =1 Estadística de Prueba n (n +1) La estadística de prueba es, T = S − 1 1 2 donde: n1, es número de observaciones de la muestra 1, y S, es la suma de los rangos asignados a la muestra 1 (después de haber combinado las muestras). Valores críticos En la tabla H del Apéndice se encuentran los valores críticos wp para de la estadística de prueba T, para tamaños n1 = 2,3,...,20 y n2 = 2,3,...,20; y distintos valores de p = 0.001, 0.005, 0.01, 0.025, 0.05 y 0.10 (nivel de significación nominal). Región crítica La regla de decisión está en función a la hipótesis alternativa planteada. En la siguiente tabla se resume los tres casos de la prueba de hipótesis relacionada a la comparación de las medianas de dos poblaciones independientes. 268 Hipótesis Estadística de Prueba I. H 0 : M 1 = M 2 H1 : M 1 ≠ M 2 II. H 0 : M 1 ≥ M 2 H1 : M 1 < M 2 III. H 0 : M 1 ≤ M 2 H1 : M 1 > M 2 donde: w 1− α 2 Regla de decisión Rechazar, H 0 : M 1 = M 2 si T =S− n1 ( n1 + 1) 2 T =S− n1 (n1 + 1) 2 T < wα T =S− n1 ( n1 + 1) 2 T > w1−α T < wα 2 o T > w1−α 2 = n1n2 − wα , equivalentemente w1−α = n1n2 − wα . 2 Gráficamente: I. H 0 : M 1 = M 2 H1 : M 1 ≠ M 2 II. H 0 : M 1 ≥ M 2 H1 : M 1 < M 2 III. H 0 : M 1 ≤ M 2 H1 : M 1 > M 2 269 Ejemplo 5.18 Quince estudiantes de la Facultad de Administración y 15 estudiantes de la Facultad de Derecho, evaluaron sobre una base de 100 puntos la calidad de la atención recibida al momento de realizar el proceso de rectificación de matrícula en su respectiva facultad. Los resultados se presentan a continuación. Fac.Admin. 99 85 73 98 83 88 99 80 74 91 80 94 94 98 80 Fac. Derch. 78 74 69 79 57 78 79 68 59 91 89 55 60 55 79 ¿En base a esta información se puede concluir que el puntaje medio obtenido por la Facultad de Administración es diferente que el obtenido por la Facultad de Derecho, con respecto a la calidad de atención al momento de realizar el proceso de rectificación de matrícula?. Solución. Las poblaciones en estudio son: Población 1: alumnos de la Facultad de Administración Población 2: alumnos de la Facultad de Derecho Variable de interés: Puntaje asignado a la calidad de atención al momento de realizar el proceso de rectificación de matrícula. Paso 1: Se plantean las hipótesis Hipótesis nula: El puntaje medio obtenido por la Facultad de Administración es igual que el obtenido por la Facultad de Derecho, con respecto a la calidad de atención al momento de realizar el proceso de rectificación de matrícula. Es decir, H 0 : M 0 = M 1 Hipótesis alternativa: 270 H1 : M 0 ≠ M 1 Paso 2: En base a las muestras aleatorias se realizan los cálculos para obtener la estadística de prueba. Muestras combinada 55 55 57 59 60 68 69 73 74 74 78 78 79 79 79 80 80 80 83 85 88 89 91 91 94 94 98 98 99 99 Suma de rangos: S rango Administrac. 8 9,5 17 17 17 19 20 21 23,5 25,5 25,5 27,5 27,5 29,5 29,5 rango Derecho 1,5 1,5 3 4 5 6 7 9,5 11,5 11,5 14 14 14 22 23,5 148 En este caso como ambos tamaños de muestra son iguales se considerará como S, la suma de los rangos correspondientes a la muestra de la población de la Facultad de Derecho. 271 Estadística de prueba: T = 148 − 15(15 + 1) = 28 2 Paso 3. Obtención de la región crítica En la tabla H con n1 = 15, n2 = 15 y α = 0.05 se encuentra el valor de wα = 65 y el valor de w 1− 2 α 2 = 15(15) − 65 = 160 . La región crítica está conformada por: T < 65 o T > 160 Paso 4. Decisión Se decide rechazar la hipótesis nula debido a que el valor de T = 28 < 65 = wα . Se puede concluir que las facultades de Adminis2 tración y de Derecho tienen diferentes puntajes medios, con respecto a la calidad de atención al momento de realizar el proceso de rectificación de matrícula. Análisis por computadora usando el SPSS 1. 272 Para este ejemplo se definen las variables: puntaje que contiene los puntajes de las dos muestras y, facultad que funciona como una etiqueta, 1: Facultad de Administración y 2: Facultad de Derecho 2. Proceder a ejecutar los siguientes comandos: Analyze/ Nonparametric Test/Two-Independent-Samples Test/ test type Mnn-Whitney U, llevar la variable puntaje a test variable list y la variable facultad a grouping variable/ mediante define groups se indican los grupos/ click OK.. 273 OUTPUT NPar Tests Mann-Whitney Test Ranks FACULTAD PUNTAJE 1. Administración 2: erecho Total Test Statistics Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. 2*(1-tailed Sig.) N 15 15 30 Mean Rani Sum of Ranks 21,13 317,00 9,87 148,00 PUNTAJE 28,000 148,000 -3,511 ,000 ,000 a Not corrected for ties. b Grouping Variable: FACULTAD La hipótesis nula es rechazada. Exact Sig < 0.05. Prueba de Kruskall-Wallis La prueba de Kruskall-Wallis es utilizada para detectar diferencias en las medidas de posición de tres o más poblaciones basándose en muestras aleatorias independientes. Esta prueba como otras pruebas no paramétricas tiene la característica de utilizar los rangos de las observaciones que conforman las muestras. Se supone que se tiene k poblaciones continuas F1 ( x ), F2 ( x ),..., Fk ( x ) de las cuales se seleccionan muestras aleatorias independientes, donde la i-ésima muestra es de tamaño k ni , i = 1,2,..., k y existe un total de n = ∑ ni observaciones en total. i =1 274 Supuestos 1. 2. 3. 4. 5. Los datos disponibles para el análisis consisten de k muestras independientes de tamaños n1 , n2 ,..., nk respectivamente. Las observaciones son independientes dentro de cada muestra y entre muestras. La variable de interés es continua. La escala de medición es al menos ordinal. Las poblaciones desde las cuales se han seleccionado las muestras son idénticas excepto para una diferencia en posición en al menos una de ellas. Hipótesis La hipótesis nula asociada al problema de k muestras es la que plantea que las k muestras han sido seleccionadas de poblaciones idénticas: H 0 : F1 (x ) = F2 (x ) = ... = Fk (x ), ∀x y la hipótesis alternativa H 1 : Al menos una de las Fi (x ) es diferente. Con un nivel de significación α. Procedimiento para la obtención de la estadística de prueba k 1. Se combinan las n = ∑ ni observaciones de las muestras, i =1 ordenándolas en forma ascendente. 2. 3. 4. Se asigna el correspondiente rango a cada una de las observaciones ordenadas. Si existen observaciones empatadas, se sustituyen los rangos de las observaciones empatadas por el promedio de los rangos de estas. Se calcula Ri , que representa a la suma de los rangos de las ni observaciones que conforman la i-ésima muestra. Se obtiene la estadística de prueba en base a los cálculos realizados anteriormente. 275 Estadística de prueba: donde: k = número de muestras. ni = número de observaciones de la i-ésima muestra. n = número total de observaciones en las k muestras combinadas. Ri = suma de los rangos de la i-ésima muestra. Equivalentemente la estadística, puede expresarse como: H= k 12 Ri2 ∑ − 3(n + 1) n( n + 1) i =1 ni la cual tiene distribución ji cuadrado con k-1 grados de libertad. Es decir, H ~ χ ( k −1) Si existen observaciones empatadas el estadístico H, es corregido sustituyendo los rangos de las observaciones empatadas por su rango promedio y considerando además el siguiente fac∑j (t 3j − t j ) tor de corrección: f c = 1 − . Así la estadística H corren3 − n gida es: H c = H fc Valores críticos En la Tabla C de Apéndice se encuentran los cuantiles de la distribución ji cuadrado. Se rechaza la hipótesis nula para aquellos valores de H > χ( k −1) . Ejemplo 5.19 En base a las calificaciones obtenidas por cuatro grupos de aspirantes a Jefe de Práctica para el curso de Matemática, un investi- 276 gador está interesado en conocer si existe diferencia en las calificaciones medias de las poblaciones en estudio. Las calificaciones son las siguientes: Grupo 1 Grupo 2 Grupo 3 Grupo 4 85 92 83 79 81 69 75 69 83 81 72 79 90 59 78 67 62 83 76 94 89 80 88 Solución Paso 1. Planteamiento de las hipótesis Hipótesis nula: La cuatro poblaciones tiene calificaciones medias idénticas. Es decir, H 0 : F1 ( x ) = F2 ( x ) = F3 ( x ) = F4 ( x ) Hipótesis alternativa: La calificación media de al menos una de las poblaciones es diferente. Con un nivel de significación α = 0.05 Paso 2. En base a las observaciones de las cuatro muestras se calcula el valor de la estadística de prueba. GRUPO 1 Calificación Rango 85 92 83 79 81 69 18 22 16 10,5 13,5 4,5 n1 = 6 R1 = 84,5 GRUPO 2 GRUPO 3 GRUPO 4 Calificación Rango Calificación Rango Calificación 75 69 83 81 72 79 90 7 4,5 16 13,5 6 10,5 21 n2 = 7 R2 = 78,5 59 78 67 62 83 76 1 9 3 2 16 8 n3 = 6 R3 = 39 94 89 80 88 Rango 23 20 12 19 n4 = 4 R4 = 74 277 Estadística de prueba: H= H= 12 4 Ri2 ∑ − 3(23 + 1) 23(24) i =1 ni 2 2 2 2 12 4 (84.5) (78.5) (39) (74) + + + ∑ − 72 = 8.2796 ≅ 8.3 23(24) i =1 6 7 6 4 Paso 3. Obtención de la región crítica En la Tabla C del Apéndice para χ 0.05 (3) = 7.81 . La región crítica está conformada por: H > 7.81 Paso 4. Decisión El valor de la estadística es H = 8.3 , este valor se encuentra en la región de rechazo puesto que H = 8.3 > 7.81 = χ 0.05 (3) . Por lo tanto la hipótesis nula es rechazada y puede concluirse que las cuatro poblaciones son diferentes. Análisis por computadora usando SPSS 1. Para este ejemplo se definen las variables: califica que contiene las calificaciones de las cuatro muestras, grupo que funciona como una etiqueta, 1: grupo 1, 2: grupo 2, 3: grupo 3, 4: grupo 4 2. Proceder a ejecutar los siguientes comandos: Analyze/ Nonparametric/ k Independent Sample/ llevar la variable califica a Test Variable List y la variable grupo a grouping variable/ mediante define groups se indican los grupos/ OK. 278 279 OUTPUT Kruskal-Wallis Test Ranks GRUPO CALIFICA 1 2 3 4 Total N Rank Mean 6 7 6 4 23 14,08 11,21 6,50 18,50 Test Statisticsa,b CALIFICA Chi-Square df Asymp. Sig. 8,308 3 ,040 a. Kruskal Wallis Test b. Grouping Variable: GRUPO Se rechaza la hipótesis nula Asymp Sig < α. Prueba de bondad de ajuste: Preuba de Kolmogorov-Smirnov A través de la prueba de Kolmogorov-Smirnov se puede conocer que tan adecuado es el ajuste de la distribución de los datos de una muestra a una distribución teórica. La prueba debe su nombre a los matemáticos rusos: A. Kolmogorov y N.V. Smirnov, quienes presentaron dos pruebas parecidas en la década de 1930. En su procedimiento la prueba utiliza la función de distribución teórica y la función de distribución empírica. La función de distribución empírica será expresada en términos de las estadísticas de orden X (1) , X ( 2 ) ,.., X ( n ) , de una muestra aleatoria de tama- 280 ño n, X 1 , X 2 ,.., X n . Cuando no existen observaciones iguales, la función de distribución empírica está definida por, 0, x < x(1) k S n ( x ) = , x( k ) ≤ x ≤ x( k +1) , k = 1,2,..., n − 1 n 1, x( n ) ≤ x En este caso la función de distribución empírica Sn (x ) tiene 1 un salto de magnitud , que ocurre en cada observación. Si existen n nk observaciones iguales a xk , ocurre un salto de magnitud nk en xk . n Supuesto La muestra aleatoria X 1 , X 2 ,.., X n , tamaño n proviene de una población con función de distribución desconocida F (x ) . Hipótesis Se establece que F0 ( x ) es la función de distribución hipotética. Hipótesis nula: H 0 : F ( x ) = F0 ( x ) ∀x Hipótesis alternativa H1 : F ( x ) ≠ F0 ( x ) para algún x. Procedimiento para la obtención de la estadística de prueba 1. 2. 3. En base a las observaciones muestrales se obtiene la función de distribución empírica Sn (x ) ∀ x. En base a las observaciones muestrales se obtiene la función de distribución propuesta bajo la hipótesis nula F0 ( x ) ∀ x. Se calcula la estadística de prueba Dn = Sup Sn ( x ) − F0 ( x ) . − ∞< x < ∞ 281 Región crítica Se rechaza la hipótesis nula si el valor de la estadística Dn excede al cuantil d1−α presentado en la Tabla I del Apéndice. Es decir, se rechaza H 0 a un nivel de significación α si Dn > d1−α . Si la muestra ha sido seleccionada desde la distribución hipotética, la discrepancia entre S n ( x ) y F0 ( x ) no debería ser demasiado grande. Ejemplo 5.20 Se tiene interés en conocer si la presión sanguínea de los estudiantes del último año de la Escuela de Educación Física, sigue una distribución normal. La información siguiente corresponde a 20 estudiantes de la Escuela de Educación Física y que cursan el último año de estudios. 162 130 147 153 141 177 154 157 157 137 151 179 141 134 151 167 146 157 143 161 Considere α = 0.05 Solución En este caso la función de distribución F0 ( x ) , planteada en la hipótesis nula es la distribución normal y la variable en estudio es X : presión sanguínea. Paso 1. Planteamiento de las hipótesis Hipótesis nula: La presión sanguínea sigue una distribución normal Hipótesis alternativa: La presión sanguínea no está distribuida normalmente. α = 0.05 282 Paso 2. Cálculo de la estadística de prueba Se organizarán las observaciones muestrales en forma ascendente, es decir se obtienen las estadísticas de orden y se calculan S20 ( x ) y F0 ( x ) . x Frecuencia z= ( x − 152) 13 F0 ( x ) S20 ( x ) D = S 20 ( x ) − F0 ( x ) 130 1 -1,6923 0,0453 0,0500 0,0047 134 1 -1,3846 0,0831 0,1000 0,0169 137 1 -1,1538 0,1243 0,1500 0,0257 141 2 -0,8462 0,1987 0,2500 0,0513 143 1 -0,6923 0,2444 0,3000 0,0556 146 1 -0,4615 0,3222 0,3500 0,0278 147 1 -0,3846 0,3503 0,4000 0,0497 151 2 -0,0769 0,4693 0,5000 0,0307 153 1 0,0769 0,5307 0,5500 0,0193 154 1 0,1538 0,5611 0,6000 0,0389 157 3 0,3846 0,6497 0,7500 D = 0,1003 161 1 0,6923 0,7556 0,8000 0,0444 162 1 0,7692 0,7791 0,8500 0,0709 167 1 1,1538 0,8757 0,9000 0,0243 177 1 1,9231 0,9728 0,9500 0,0228 179 1 2,0769 0,9811 1,0000 0,0189 El valor calculado de la estadística de prueba es D = 0.1003 . Región crítica En la Tabla I, el valor del cuantil es d 0.95 = 0.294 . Así la región crítica es la siguiente: D > d 0.95 = 0.294 . La decisión en este caso es la de no rechazar la hipótesis nula, puesto que D = 0.1003 < 0.294 = d 0.95 . 283 No se puede concluir que la población no se distribuya normalmente. Análisis por computadora usando el SPSS 1. Exploratoriamente puede visualizarse el comportamiento de los datos y se observa que estos están muy próximos a la línea que representa a la distribución normal. Expected Cm Prob Normal P-P Plot of MEDIDA Observed Cum Prob En el Editor de datos se crea la variable medida y se ejecuta los siguientes comandos: Analyse/Nonparametric/1-Sample K-S/Ingresar a Test Variable List la variable medida y activar Test Distribution la distribución normal/click OK 284 OUTPUT NPar Tests One-Sample Kolmogorov-Smirnov Test MEDIDA N Normal Parameters a.b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) Mean Std. Deviation Absolute Positive Negative 20 152,2500 13,0943 ,108 ,108 -,071 ,485 ,973 a. Test distribution is Normal. b. Calculated from data. No se rechaza la hipótesis nula porque Asymp. Sig>α = 0.05. 285 Ejerccios En los siguientes casos identifique la variable dependiente e independiente (s). a) El presupuesto familiar destinado a la educación de los hijos y los ingresos familiares. El volumen de ventas de una empresa y la inversión en propaganda. El número de hijos por familia y el nivel educativo de los padres. El analfabetismo, lugar de residencia y la expansión del servicio educativo. La edad y el tiempo efectivo de servicio de los docentes afiliados al SUTEP. b) c) d) e) Se realiza un estudio con 16 atletas de alto rendimiento, ocho de potencia y ocho de resistencia; se les mide la extensión isométrica de la rodilla (X1) (en kilogramos fuerza) y el porcentaje de la contracción muscular (X2). Se obtienen los siguientes datos; X2 es la variable dependiente (Y ). Atletas de X1 196 183 295 203 195 289 198 206.9 a) b) 286 Potencia X2 56 28.8 57.2 46 35.5 58.6 41.4 21.6 Atletas de X1 161 142 122.5 123 176 156 126 95 resistencia X2 98.4 70.8 35.4 74.5 79.5 62.1 74.3 67.7 Cree las bases de datos con los nombres ATLETA1 Y ATLETA2. Haga el diagrama de dispersión. c) d) e) Usar comandos del SPSS y obtener el coeficiente de correlación lineal e interprete. Suponiendo que sea posible, realice el análisis de regresión lineal simple e interprete los coeficientes. Usando las correspondientes fórmulas, compruebe los valores encontrados. A 10 candidatos a ingresar en un programa de doctorado en psicología, se les aplica en la Facultad de Psicología una prueba de personalidad (X) y un examen general de conocimientos (Y). Obtuvieron las siguientes puntuaciones: Candidato X Y A B C D 2.96 2.46 3.36 3.40 529 506 591 610 E F G 2.43 2.12 2.85 474 509 550 H I 3.12 3.20 600 575 J 2.75 540 Realice el análisis de regresión y correlación lineal. Un profesor de estadística realiza un estudio para investigar la relación que existe entre el rendimiento de sus estudiantes en los exámenes y su ansiedad. Elige a diez estudiantes para el experimento y antes de asistir al examen final, los 10 estudiantes respondieron un cuestionario de ansiedad. A continuación se tiene las calificaciones de la prueba final y los puntajes obtenidos en el cuestionario de ansiedad. Ansiedad Examen Final a. b. c. 28 82 41 58 35 63 39 89 31 92 42 64 50 55 46 70 45 51 37 72 Elabore el diagrama de dispersión. Utilice la ansiedad como la variable X. Describa la relación que muestra el diagrama de dispersión. Suponga que la relación es lineal y calcule el valor de la r de Pearson. 287 d. Determine la línea de regresión por mínimos cuadrados para predecir la calificación del examen final dado el nivel de ansiedad. Si un estudiante tiene un nivel de ansiedad de 38, ¿qué valor podría predecirse para su calificación en el examen final?. e. Se realiza un estudio con 10 estudiantes de postgrado en Educación. X1 es el número de problemas resueltos correctamente por un estudiante; X2 son las puntuaciones obtenidas al aplicarles una prueba psicológica que mide autoestima de un estudiante y; Y es el número de problemas que cada estudiante; espera resolver correctamente en el examen final. Con los datos que se presentan a continuación realice el análisis de regresión lineal simple múltiple usando comandos del SPSS. Estudiante Número problemas resueltos en clase Puntuación en autoestima Número de problemas que espera resolver en el examen final 1 14 5 14 2 8 15 5 3 9 19 8 4 13 33 11 5 10 39 15 6 11 38 14 7 14 74 18 8 15 74 19 9 11 11 7 10 16 78 17 En la siguiente tabla se tienen las puntuaciones obtenidas por 21 estudiantes en tres pruebas psicológicas (X1, X2, X3). a. b. 288 Obtenga la base de datos usando comandos del SPSS. Realice un análisis de regresión lineal de: Y con X1. Realice un análisis de regresión lineal de: Y con X2. Realice un análisis de regresión lineal de: Y con X3. Realice un análisis de regresión múltiple. c. d. e. Puntuación de actitud ante la agresión Y X1 X2 X3 48 48 47 46 46 43 42 42 41 40 39 32 31 30 29 29 28 27 27 27 26 22 19 20 20 17 21 21 19 17 15 15 11 17 16 15 15 16 16 13 12 12 38 38 37 37 35 34 34 33 33 32 32 25 25 23 22 21 20 18 17 15 15 15 15 20 17 19 15 14 20 13 15 12 15 9 9 13 9 11 11 10 8 8 Se aplicó a un grupo de 18 adolescentes sordomudos la prueba de inteligencia de Wechsler para adultos (Wais) y cuatro subtest del DAT. Las puntuaciones de ambas aplicaciones son las siguientes: 289 Adolescentes Wais Razonamiento Razonamiento mecánico abstracto Relaciones espaciales Velocidad y exactitud Y X1 X2 X3 1 48 22 38 15 25 2 48 19 38 15 40 3 47 20 37 20 21 4 46 20 37 17 20 5 46 17 35 19 18 6 43 21 34 15 17 7 42 21 34 14 31 8 42 19 33 20 35 9 41 17 33 13 35 10 40 15 32 15 27 11 39 15 32 12 17 12 32 11 25 15 28 13 31 17 25 9 29 14 30 16 23 9 37 15 29 15 22 13 29 16 29 15 21 9 39 17 28 16 20 11 28 18 27 16 18 11 38 a. Obtenga la base de datos usando comandos del SPSS. b. Realice un análisis de regresión lineal de Y con cada uno de los cuatro subtest del DAT: c. 290 Realice un análisis de regresión lineal múltiple. 5.8 Se conocen las edades (X) y la presión sanguínea (Y) de 12 mujeres. Si ∑x = 628, a) b) c) Encuentre la recta de regresión de Y sobre X. Si una mujer tiene 49 años ¿Cuál sería su presión san-guínea? Si una mujer tiene 72 años, ¿Cuál es la presión sanguínea esperada? i ∑y i = 1684, ∑x 2 i = 34416, ∑y 2 i = 238822, ∑x y i i = 89894. 5.9 La siguiente tabla muestra las calificaciones obtenidas por 10 estudiantes en dos pruebas de Estadística: X: Primera Prueba Y: Segunda Prueba a) b) c) 12 10 16 16 14 12 20 8 18 14 16 14 14 20 10 16 20 12 16 12 Haga el diagrama de dispersión. Obtenga la recta de regresión Y de sobre X. Si un estudiante obtuvo 14,7 en la primera prueba. ¿Cuánto se espera que obtenga en la segunda prueba?. Borrós y Fincias (1973) con el propósito de examinar cuál es la influencia que los métodos de enseñanza, basados en el trabajo libre y creativo del alumno ejercen sobre su rendimiento escolar, llevaron a cabo una investigación con 122 niños y niñas, en los que evaluaron los siguientes aspectos: Creatividad: Coeficiente intelectual: Capacidad de orden: Rendimiento escolar: CREAT. C.I. ORDEN RENDIM. 291 CASO ORDEN C.I. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 a) b) c) 292 8 6 5 3 4 6 7 4 4 3 6,5 5 3 5 5,5 4,5 4 10 7 8 6 10 7 5 9 7 7 6 6 4 114 103 97 94 88 76 116 86 97 91 123 63 92 86 84 63 88 128 102 115 93 130 90 90 102 102 99 100 88 74 RENDIM. CREAT. CASO ORDEN C.I. RENDIM. CREAT. 0,85 0,87 0,90 0,80 0,70 0,70 1,00 0,73 0,99 0,75 1,50 0,73 0,90 0,82 0,81 0,62 0,77 0,99 0,78 0,98 0,74 0,94 0,76 0,81 0,92 0,85 0,91 0,73 0,64 0,45 8,00 4,00 8,00 2,00 9,00 4,00 10,00 5,50 3,00 8,00 3,50 1,00 6,00 8,00 5,00 5,00 7,00 7,00 6,00 7,00 6,00 7,00 4,00 5,00 8,00 7,00 6,00 6,00 5,00 3,00 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 4 7 7 10 7 6 9 6 7 3 3,5 7 8 5 6 4 3 3 6 6 6 4 8 7 5 5 5 5 6 4 109 113 123 106 110 95 125 100 112 53 77 100 105 89 105 92 98 91 90 98 113 92 98 86 88 88 102 101 76 94 0,84 0,88 0,86 0,91 0,74 0,62 0,92 0,62 0,72 0,14 0,21 0,65 0,78 0,48 0,91 0,97 0,62 0,84 0,63 0,89 1,05 0,84 0,74 0,58 0,82 0,92 0,75 0,88 0,81 0,65 4,50 7,50 6,00 8,00 6,00 5,50 7,00 2,00 2,00 5,00 1,50 3,50 5,00 0,00 4,50 6,00 2,00 4,00 0,00 6,50 6,00 3,00 5,00 0,50 2,00 1,50 3,00 6,50 4,00 0,00 Use comandos del SPSS para crear el archivo de datos. ¿Existe relación entre inteligencia y creatividad? Sobre la base de los datos obtenidos en esta experiencia podemos afirmar que a mayor creatividad corresponde una menor capacidad de orden? d) e) f) g) h) Sobre la base de los datos obtenidos en esta experiencia podemos afirmar que existe relación lineal entre rendimiento escolar y creatividad?. ¿Cuál es la recta que mejor permite predecir la variable rendimiento escolar en función de la variable creatividad? Interprete. ¿Manteniendo constante la capacidad intelectual de los alumnos, la creatividad está relacionada con el rendimiento escolar?. En base a los datos obtenidos en esta experiencia podemos afirmar que ¿existe relación lineal entre el rendimiento escolar y la inteligencia?. ¿Cuál es la ecuación de la recta que permite predecir el rendimiento escolar en función de la variable inteligencia? Interprete. Con los datos de ejercicio 3.8, realice la prueba de MannWhitney. Con los datos de la variable EXAMEN FINAL del ejercicio 5.4, responda lo siguiente: a) b) ¿Los datos se distribuyen normalmente? ¿Puede concluir que la mediana poblacional es diferente de 68? Con los datos de la variable PUNTUACIÓN DE AUTOESTIMA del ejercicio 5.5, responda lo siguiente: a) c) ¿Los datos se distribuyen normalmente? ¿Puede concluir que la mediana poblacional es diferente de 50? En tres regiones de un país se investiga el grado de propensión al ahorro de sus habitantes. Para verificar si la disposición al ahorro es similar en dichas regiones se obtiene una 293 muestra ciudades de cada una de ellas. Obteniéndose la siguiente información. Muestra de Región 1 Muestra de Región 2 Muestra de Región 3 0.251 0.326 0.146 0.093 0.172 0.140 0.204 0.318 0.109 0.112 0.306 0.241 Se puede concluir que el grado de propensión al ahorro es la misma en las tres regiones. Use un nivel de significación α = 0.05. 294