Inferencia estadística III Análisis de Correlación

Anuncio
1
Inferencia estadística III
La inferencia estadística también se puede aplicar para:
1.
Conocer el grado de relación o asociación entre dos variables: análisis mediante el coeficiente de
correlación lineal de Pearson. Para representar esta relación se puede utilizar una representación gráfica
llamada diagrama de dispersión
2. Aplicar un modelo matemático y estimar el valor de una variable en función del valor de otra variable o
de otras variables. Se trata del modelo de análisis de regresión simple en el primer caso y el modelo de
análisis de regresión múltiple en el segundo caso (más de una variable)
Análisis de Correlación
En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables aleatorias. El
coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables. No predice una variable a
partir de otras sino que estudia el grado de asociación que hay entre las variables. En cambio, en el análisis de
regresión se efectúan predicciones de una variable o más (variable predictora) sobre una variable criterio.
El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre dos variables y
el sentido de su relación (positivo o negativo). Las variables tienen que ser cuantitativas y medidas en escala de
intervalo. Sus valores oscilan desde -1 hasta 1. La hipótesis nula señala que r = 0 en la población ( = 0)y la
hipótesis alternativa que r ≠ 0 ( ≠ 0). El coeficiente de correlación es un índice de tamaño del efecto pues
indica la magnitud de la relación encontrada entre dos variables.
Se puede dibujar un gráfico de dispersión o nube de puntos que nos orienta sobre la dirección de la relación
(positiva o negativa) y sobre la magnitud. En concreto, respecto a la magnitud de la relación, cuanto más ancha
sea la nube de puntos menor relación entre las variables. En cambio, cuanto más estrecha sea la nube de puntos
mayor será la relación (correlación) entre las variables y más acertados los pronósticos de Y en función de X
pues el error de estimación será menor. Una correlación lineal nula se representa por un conjunto de puntos
donde resulta casi imposible dibujar una recta. En este caso, no puede establecerse ningún tipo de relación entre
X e Y.
2
 Correlación lineal directa: el valor de r se aproxima a +1, es decir, valores mayores de X se vinculan
con valores mayores de Y. Cuando aumentan los valores de una variable también aumentan los valores
de la otra variable
 Correlación lineal inversa: el valor de r se aproxima a -1, es decir, valores mayores de una variable se
asocian con valores menores en la otra variable. Cuando aumentan los valores de una variable
disminuyen los valores de la otra variable
Conviene tener en cuenta dos cuestiones. Primero, a través de los resultados de un coeficiente de correlación no
se puede hablar de relaciones de causalidad. Dos, un coeficiente de correlación de Pearson igual a cero
indica que no hay ningún tipo de relación lineal entre las variables pero quizás podría haber relación no lineal.
El coeficiente de correlación de Pearson se utiliza cuando se postula una relación lineal entre las variables.
Por ejemplo, entre rendimiento y atención la relación es de tipo U invertida (no lineal) y ahí no sería adecuado
efectuar un coeficiente de correlación de Pearson.
Se puede realizar un contraste de hipótesis para comprobar si la correlación entre las variables va más
allá del azar (con t de Student y n-2 grados de libertad). Y la interpretación del contraste de hipótesis
mediante el coeficiente de correlación es la misma que se hace ante con la prueba de hipótesis tipo t de
Student o F del análisis de la varianza. Se trata de comparar el valor de alfa planteado a priori con el
valor p de probabilidad vinculado al valor del coeficiente de correlación obtenido.
Desde el supuesto de la Hipótesis nula se trata de demostrar que la distribución
muestral de correlaciones procedentes de una población caracterizada por una
correlación igual a cero sigue una distribución de Student con N-2 grados de libertad.
El numerado es la diferencia entre los valores de correlación (obtenido y el postulado
por la hipótesis nula) y el denominador es la desviación típica.
:
3
El valor de significación estadística vinculado al coeficiente de correlación señala la probabilidad de la
relación dentro de un modelo que asume que la relación es sólo fruto del azar (modelo nulo).
Un valor del coeficiente de correlación estadísticamente significativo señala que existe una relación entre las
variables que se puede explicar por algo más que el azar pero el tamaño de su efecto debe de plantearse dentro
de un contexto de investigación tal y como ya se señaló al hablar del tamaño del efecto anteriormente. Además,
conviene tener en cuenta que el coeficiente de correlación está relacionado con el tamaño de la muestra y
cuanto mayor la muestra mayor es el coeficiente de correlación. Por ello resulta más útil interpretar el valor del
coeficiente de correlación como proporción de varianza explicada (el cuadrado del coeficiente de correlación) o
proporción de varianza compartida entre las dos variables.
Modelos de análisis de regresión
El análisis de regresión se utiliza principalmente para modelar relaciones entre variables y para realizar
pronósticos o predicciones de respuestas a partir de variables explicativas (predictores). Su uso es sobre todo
para identificar variables explicativas y de este modo crear un modelo donde se seleccionan las variables que
están vinculadas con la respuesta, descartando aquellas que no aportan información. Además, permite detectar
interacciones entre las variables independientes que afectan a la variable dependiente o predicha.
El modelo de regresión predice el valor de una variable dependiente (variable respuesta Y, predicha o
explicada, variable criterio) basándose en el valor de al menos una variable independiente (variable
explicativa X o variable predictora).
-Se utiliza cuando la variable respuesta (dependiente) es de tipo numérico o cuantitativa.
-Cuando la respuesta (variable dependiente) es de tipo dicotómico se utiliza el modelo de regresión logística.
-En el modelo de regresión las variables explicativas (variables independientes) pueden ser numéricas y no
numéricas (nominales tipo dicotómico como variables dummy 1 0).
Si el modelo sólo tiene una variable independiente es un modelo de regresión simple y si consta de más de una
variable independiente es un modelo de regresión múltiple. El modelo de regresión múltiple forma parte de
las técnicas multivariadas.
Con la regresión lineal es posible modelar la relación entre las variables predictoras y predicha, de manera que
se puede determinar una expresión matemática que permita predecir la variable dependiente a partir de la o las
variables independientes. La regresión lineal estima los coeficientes de la ecuación lineal que predice mejor
el valor de la variable dependiente.
Los modelos de regresión pertenecen al Modelo Lineal General como el ANOVA y conducen a los mismos
resultados.
Con el objetivo de que las inferencias realizadas con la muestra sobre la población sean correctas es necesario
que los datos cumplan una serie de requisitos. Requisitos para poder aplicar el modelo de regresión:
1. Linealidad. Es necesario que en la población exista una relación lineal entre la variable respuesta y las
variables explicativas.
4
2. Normalidad y equidistribución de los residuos. Si el valor del estadístico Durbin Watson está
próximo a 2 entonces los residuos no están autocorrelacionados. Si su valor es 0 hay
autocorrelación perfecta positiva. Si vale 4 existe autocorrelación perfecta negativa.
3. Colinealidad. Si dos variables independientes están muy relacionadas entre sí y se incluyen en el modelo
es muy probable que ninguna de las dos resulte estadísticamente significativa. En cambio, si se incluye
una sola de ellas sí podría resultar estadísticamente significativa. El investigador debe examinar los
coeficientes para ver si se vuelven inestables al introducir una nueva variable. Si eso sucede entonces
existe colinealidad entre la nueva variable y las anteriores.
4. Número de variables independientes. Como regla general al menos tienen que existir 20 observaciones
por cada variable independiente que se considere a priori como teóricamente relevante. Si utilizamos
menos observaciones por variable es muy probable que aumente el error de Tipo II, es decir, disminuya
la potencia estadística del diseño de investigación.
Bondad del ajuste
Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que
mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar
modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación
Por lo tanto, la bondad de ajuste del modelo se interpreta con el valor de R2 (conocido como coeficiente de
determinación).
El coeficiente de determinación (R2) indica la proporción del ajuste que se ha conseguido con el modelo lineal.
Es decir, multiplicado por 100 señala el porcentaje de la variación de Y que se explica a través del modelo
lineal que se ha estimado a través de las variables X (independientes). A mayor porcentaje mejor es nuestro
modelo para predecir el comportamiento de la variable Y. Recordar que esto mismo es eta cuadrado en el
modelo de ANOVA.
El coeficiente de determinación (R2) también se puede interpretar como la proporción de varianza explicada por
la recta de regresión y su valor siempre estará entre 0 y 1. Cuanto más se acerque a uno mayor es la proporción
de varianza explicada. Una cuestión, a medida que se introducen más variables independientes mayor será el
valor de R2. Para evitar este posible sesgo, es mejor interpretar ‘R2 corregida’ ya que su valor disminuye
cuando se introducen variables independientes innecesarias.
La matriz de correlaciones entre las variables nos ayuda para identificar correlaciones lineales entre las
variables. La variable dependiente y las independientes pueden estar correlacionadas pero detectar
correlaciones entre pares de variables independientes es un problema que afecta a la colinealidad y alguna de
ellas deberá ser eliminada del modelo.
El coeficiente de determinación (R2) es el coeficiente de correlación al cuadrado. Es decir, representa el valor
del tamaño del efecto y se corresponde con eta cuadrado (2) del ANOVA.
 R2 indica la proporción de las variaciones explicadas por el modelo de regresión. Se trata de la varianza
explicada por las variables explicativas o predictorasdel modelo lineal.
 1-R2 indica la proporción de las variaciones no explicadas por el modelo de regresión. Se trata de la
varianza no explicada por las variables explicativas o predictoras, es decir, se atribuye al error.
5
Si la correlación fuese perfecta (1; -1) entonces el coeficiente de determinación sería 1. Es decir, todos los
puntos estarían situados a lo largo de la recta de regresión y no habría error de estimación (diferencia entre
puntuación obtenida y puntuación pronosticada por el modelo).
El ‘error típico de estimación’ es un concepto semejante al de la desviación típica (mide la dispersión
alrededor de la media) y en el análisis de regresión mide la dispersión de los datos alrededor de la recta de
regresión estimada.
SPSS y modelos de regresión
Inferencia estadística en el modelo de regresión
Una vez calculada la recta de regresión y el ajuste que se ha conseguido, el siguiente paso es analizar si la
regresión es válida y se puede utilizar para predecir. Para ello hay que contrastar si la correlación entre las
variables predictoras y predicha es diferente de cero. Es decir, se trata de comprobar si la estimación del modelo
de regresión es estadísticamente significativa de manera que las variables explicativas X son relevantes para
explicar la variable predicha Y. La prueba estadística consiste en contrastar si la pendiente de la recta de
regresión poblacional es diferente de cero de forma estadísticamente significativa (hipótesis nula plantea que la
pendiente es cero). Si es así entonces se puede esperar que exista una correlación lineal entre las variables.
Pasos a seguir:
1. Identificar X, Y
2. Construir el diagrama de dispersión
3. Estimar los parámetros del modelo (coeficientes)
4. Probar la significación estadística
5. Determinar la fuerza de la asociación entre las variables (R2)
6. Análisis de los residuos
Construir el diagrama de dispersión
Cuando el coeficiente de correlación entre dos variables es alto se puede considerar que el ajuste de la recta de
regresión también será alto. En aquellos casos en que el coeficiente de correlación lineal está “cercano” a +1 o a
–1, tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos (recta de mínimos
cuadrados). Uno de los principales usos de dicha recta será el de predecir o estimar los valores de Y que
6
obtendríamos para distintos valores de X. Estos conceptos quedarán representados en lo que se llama diagrama
de dispersión:
Modelo de regresión
Una modelo de regresión se representa como:
Y=b0 + b1X1 + …+bnXn + e
Donde:
 Y es la variable dependiente
 X representa a la/las variables independientes
 Los coeficientes del modelo b son calculados por el programa estadístico minimizando los residuos o
errores. b0 es la constante del modelo, b1 es la estimación de la pendiente en X1. La constante del
modelo (b0) es el valor promedio de Y cuando el valor de X es cero. b1 mide el cambio en el valor
promedio de Y como resultado de un cambio unitario en X.
 E es el residual del modelo
Por lo tanto, la puntuación predicha de Y por el modelo de regresión es:
Ypredicha =b0 + b1X1 + …+bnXn
Y la diferencia entre la puntuación predicha y la obtenida es el error del modelo de regresión.
El origen (o constante) de la ecuación de la recta de regresión (β ) representa el valor predicho en Y cuando la
0
variable X es igual a 0. El valor de la pendiente (β ) representa la inclinación de la recta de regresión respecto al
1
eje de abscisas, más concretamente, cuánto cambio se produce en Yˆ por cada unidad de incremento en X. En
este sentido, β representa un indicador de la relevancia del efecto que los cambios en X tienen sobre Y.
1
Cuando para los coeficientes b se estiman valores no estadísticamente significativos (cercanos al cero) entonces
la variable asociada se elimina del modelo. En caso contrario sí se considera la variable asociada de interés y se
introduce en el modelo de regresión.
Interpretación del modelo de regresión
7
La hipótesis nula señala que la variable respuesta o dependiente Y no está relacionada con las variables
independientes o predictoras X. La significación estadística de los contrastes se realiza ejecutando un análisis
de la varianza.
El programa estadístico analiza la significación estadística de los coeficientes vinculados a las variables
independientes. Si alguno de ellos no resulta estadísticamente significativo se puede eliminar del modelo para
simplificar. Pero, muy importante, si al eliminar una variable cambian los coeficientes del resto de
variables independientes, incluso podrían cambiar de signo, entonces muy posiblemente se trata de una
variable de confundido (tercera variable que actúa como variable mediadora) que habrá que controlar
en el diseño de investigación. En ese caso se debe dejar en el modelo aunque su coeficiente no sea
estadísticamente significativo.
Modelos de regresión múltiple
El modelo de regresión múltiple permite estudiar la relación entre varias variables independientes (predictoras o
explicativas) y otra variable dependiente (criterio, predicha o respuesta).
Por ejemplo se puede estudiar el coeficiente intelectual como variable predicha utilizando el tamaño del cerebro
y el sexo como variables predictoras independientes.
Conviene siempre tener muy presente que los modelos de regresión (en general el modelo lineal general) no
permiten hablar de causa-efecto. Eso es una cuestión que solamente el diseño de investigación y la metodología
empleada pueden resolver. Nada que ver con la técnica estadística por sí sola.
La relación entre las variables (colinealidad) también es otra cuestión que hay que tener en cuenta a la hora de
interpretar un modelo de regresión.
Ejecutar con el SPSS
ANALIZAR---REGRESIÓN--LINEAL
El método permite seleccionar el método de introducción de las variables independientes en el modelo de
regresión:
8
Método—Introducir. Procedimiento para la selección de variables en el que todas las variables de un bloque
se introducen en un solo paso. Es el método por defecto. Es nuestra opción.
Método—pasos sucesivos. En cada paso se introduce la variable independiente que no se encuentre ya en la
ecuación y que tenga la probabilidad para el estadístico razón F más pequeña, si esa probabilidad es
suficientemente pequeña. Las variables ya introducidas en la ecuación de regresión se eliminan de ella si su
probabilidad para F llega a ser suficientemente grande. El método termina cuando ya no hay más variables
candidatas a ser incluidas o eliminadas.
En Variable de selección se traslada una variable que limite el análisis a un subconjunto de casos que tengan un
valor particular para esta variable. Con Regla… se puede definir el subconjunto de casos que se emplearán para
estimar el modelo de regresión. Por ejemplo si se define con regla que es 4 entonces solamente se incluirán en
el análisis los casos para los que la variable de selección tenga un cuatro. Permite valores de cadena.
En Etiquetas de caso se designa una variable para identificar los puntos de los gráficos. Para cada punto de un
diagrama de dispersión podemos utilizar la herramienta de selección de puntos y mostrar el valor de la variable
de etiquetas de casos correspondiente al caso seleccionado.
Ponderación MCP. Permite obtener un modelo de mínimos cuadrados ponderados. Los puntos de los datos se
ponderan por los inversos de sus varianzas. Esto significa que las observaciones con varianzas grandes tienen
menor impacto en el análisis que las observaciones asociadas a varianzas pequeñas.
-Guardar… El botón Guardar… nos permite guardar los valores pronosticados, los residuos y medidas
relacionadas como nuevas variables que se añaden al archivo de datos de trabajo. El SPSS crea dos nuevas
variables en el editor de datos RES_1 y PRE_1 que recogen los residuos y las predicciones respectivamente.
Los valores pronosticados son los valores que el modelo de regresión predice para cada caso. Pueden ser:
1. No tipificados. Valor pronosticado por el modelo para la variable dependiente.
2. Tipificados. Cada valor pronosticado menos el valor predicho medio y dividido por la desviación típica de
los valores pronosticados. Los valores pronosticados tipificados tienen una media de 0 y una desviación típica
de 1.
Los valores de los residuos es el valor de la variable dependiente menos el valor pronosticado por la
regresión. Pueden ser de dos tipos:
1. No tipificados. Diferencia entre el valor observado y el valor pronosticado por el modelo.
2. Tipificados. El residuo dividido por una estimación de su error típico. Los residuos tipificados, que son
conocidos también como los residuos de Pearson o residuos estandarizados, tienen una media de 0 y una
desviación típica de 1.
- Opciones… El botón Opciones…nos permite controlar los criterios por los que se eligen las variables para
su inclusión o exclusión del modelo de regresión, suprimir el término constante y controlar la manipulación
de los valores perdidos.
Cuando accedemos a la opción de Estadísticos señalaremos las estimaciones de los coeficientes de regresión,
los descriptivos, los estadísticos de ajuste del modelo, la prueba de Durbin-Watson y los diagnósticos de la
colinealidad.
9
-Estimaciones. Señalan los coeficientes de regresión y medidas relacionadas. Los coeficientes no
estandarizados (no tipificados) son los coeficientes de regresión parcial que definen la ecuación de regresión en
puntuaciones directas. Los coeficientes estandarizados (β) son los coeficientes que definen la ecuación de
regresión en puntuaciones típicas. Estos coeficientes estandarizados ayudan a valorar la importancia relativa de
cada variable independiente dentro de la ecuación. Muestra las pruebas de significación de cada coeficiente, el
estadístico de contrate (t) así como su nivel crítico (Sig.). Una significación estadística pequeña (menor al alfa)
permite afirmar que el coeficiente es estadísticamente significativo.
2
-Ajuste del modelo. Muestra el coeficiente de correlación múltiple (R múltiple), y su cuadrado (R , coeficiente
de determinación, que expresa la proporción de varianza de la variable dependiente que está explicada por la
variable o variables independientes), la R cuadrado corregida y el error típico de la estimación (desviación
típica de los residuos). También, una tabla de ANOVA muestra las sumas de cuadrados, los grados de libertad,
las medias cuadráticas, el valor del estadístico F y el nivel crítico (Sig.) de la F.
-Cambio en R cuadrado. Nos muestra el cambio en el estadístico R2 que se produce al añadir o eliminar una
variable independiente. Si el cambio en R2 asociado a una variable es grande, significa que esa variable es un
buen predictor de la variable dependiente.
-Descriptivos. Muestra las medias de las variables, las desviaciones típicas y la matriz de correlaciones con las
probabilidades unilaterales.
-Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero, semiparcial y parcial. Los
valores del coeficiente de correlación van de -1 a 1. El signo del coeficiente indica la dirección de la relación y
su valor absoluto indica la fuerza de la relación. Los valores mayores indican que la relación es más estrecha.
La correlación parcial señala el grado de asociación lineal de cada variable independiente frente a la
dependiente excluyendo el resto de las variables independientes. Permite observar si se cumple la hipótesis de
linealidad.
-Diagnósticos de colinealidad. Muestra las tolerancias para las variables individuales y una variedad de
estadísticos para diagnosticar los problemas de colinealidad. La colinealidad (o multicolinealidad) es una
situación no deseable en la que una de las variables independientes es una función lineal de otras variables
independientes. Hay dos procedimientos: tolerancia y factor de inflación de la varianza (FIV). Valores bajos de
tolerancia o altos para FIV supone que existe colinealidad. Conviene tener en cuenta que estos métodos no
señalan las variables implicadas.
Residuos. Este recuadro nos permite seleccionar una de las opciones:
10
-Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados serialmente. Éste estadístico
oscila entre 0 y 4 y toma el valor 2 cuando los residuos son completamente independientes. Los valores
mayores de 2 indican autocorrelación positiva y los menores de 2 autocorrelación negativa. Suele asumirse que
los residuos son independientes si el estadístico de D-W está entre 1’5 y 2’5. También muestra estadísticos de
resumen para los residuos y los valores pronosticados.
-Diagnósticos por caso: Indica los valores por encima o por debajo de n veces alguna desviación típica. Es
decir, señala los valores atípicos que producen un gran residuo.
Gráficos
Con el botón Gráficos… obtenemos el cuadro de diálogo siguiente:
En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos estandarizados (ZPRED),
los residuos estandarizados o tipificados (ZRESID), los residuos eliminando la puntuación del sujeto (DRESID)
y los valores predichos ajustados (SDRESID).
Si se representan los residuos tipificados frente a las predicciones podremos contrastar la linealidad y la
igualdad de las varianzas.
-Dispersión 1 de 1. Nos muestra los diagramas de dispersión que queramos de la lista de la izquierda, para cada
par de variables, alternando anterior y siguiente.
-Gráficos de residuos tipificados. En este recuadro podemos elegir uno de los gráficos:
- Histograma: Crea un histograma de los residuos tipificados con una curva normal superpuesta.
- Gráfico de probabilidad normal: Muestra un gráfico de probabilidad normal de los residuos
tipificados. Se usa para comprobar la normalidad de los residuos tipificados. Si la variable se distribuye
normalmente, los puntos representados forman una línea recta diagonal.
-Generar todos los gráficos parciales. Genera todos los diagramas de dispersión de la variable dependiente
con cada una de las variables independientes. En la ecuación tienen uqe haber al menos dos variables
independientes para que se generen los gráficos parciales.
Interpretación de los gráficos.
1. Representar los residuos tipificados o estudentizados (ZRESID o SRESID) frente a los valores
pronosticados o predicciones tipificadas (ZPRED). El resultado tiene que ser una nube de puntos
totalmente aleatoria. Es decir, no se observan tendencias ni patrones en la representación gráfica. Si se
11
cumple esta condición se acepta la hipótesis de linealidad y de varianza constante (homocedasticidad)
de los errores. Dos supuestos del análisis de regresión.
2. Representar los valores observados frente a los predichos (DEPEND vs. ZPRED). Como resultado los
valores se deben de alinear en la diagonal del cuadrante, si hubiera mucha dispersión o variabilidad
entonces que no se cumple la hipótesis de homocedasticidad. Si la dispersión no es muy grande
entonces existe igualdad de varianzas.
Como la constante no resulta estadísticamente significativa la podemos eliminar de la ecuación de regresión.
Los valores de beta (pendiente de la recta de regresión) positivos indican una relación directa entre X e Y. Los
valores de beta negativos indican una relación inversa entre X e Y.
La hipótesis nula en los contrastes de hipótesis de las pendientes señala que beta=0. Como las tres variables
independientes tienen una pendiente estadísticamente significativa no se elimina ninguna variable del modelo.
Si alguna de ellas no hubiese sido estadísticamente significativa se podría eliminar del modelo de regresión.
Situación de análisis ‘ideal’:
Tener variables independientes altamente correlacionadas con la variable
dependiente pero con poca correlación entre sí.
Cuando se tiene colinealidad o multicolinealidad (correlación entre tres o más variables independientes del
modelo de regresión) entonces las variables están correlacionadas entre sí y se reduce el poder predictivo de las
12
variables independientes tomadas individualmente. En otras palabras, cuanto mayor la colinealidad menor es la
varianza explicada por cada variable independiente
Cómo detectar la colinealidad. Examinar la matriz de correlaciones entre las variables independientes. Si los
valores son altos es probable que exista colinealidad.
También se pueden observar los estadísticos de colinealidad. Existe multicolinealidad cuando:
A) Valor de tolerancia (TOL) próximo a cero
B) Factor de Inflación de la Varianza (FIV) superiores a 4
Simulación de la recta de regresión simple:
http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html
Recta de regresión: Ypredicha=0.311+3.066X
DATOS
1. Sitúa los pares de datos X e Y en una tabla.
2. Representa la nube de puntos de esos pares de datos
3. Dibuja una recta que una esos puntos buscando que pase lo más cercana posible por cada uno de los
puntos.
13
4.
5.
6.
7.
8.
9.
Ejecuta el análisis con el SPSS
Escribe la ecuación de regresión
Describe la bondad de ajuste
Describe si la recta de regresión es adecuada para definir la relación entre las variables.
Reflexiona sobre la colinealidad de los datos
Observa qué ocurre cuando uno de los puntos se separa y obtenemos una nueva recta de regresión.
Representa con una línea los errores del modelo. Observa el error de estimación.
10. Ejecuta con esos nuevos datos de nuevo la recta de regresión con el SPSS
14
15
Descargar