Regresión simple

Anuncio
Análisis de Regresión Simple
-Técnica estadística que se utiliza para ver que asociación hay entre 2
variables (dependiente e independiente).
 Análisis de Regresión Múltiple:
Se compara 1 variable dependiente para ver como cambia en función de
variables independientes.
 Correlación de Pearson:
Nos indica que tan fuerte son las asociaciones entre las variables.
*Ejemplo:
-33 pacientes.
-eje x  variable independiente (años).
-eje y  variable dependiente (presión sistólica).
x  sumatoria de las edades.
y  sumatoria de las presiones sistólicas.
xy  producto cruzado (se multiplica x.y y se van sumando).
Y = a + bx
-a  corresponde al intercepto, es decir, al punto donde cruza el eje y
(también se le conoce como n).
-b  corresponde a la pendiente (también conocida como m).
En el planteamiento de la hipótesis nula se dice que la pendiente es 0, es
decir b =0.
-Valor r de pearson  nos permite ver quién es el que ejerce más influencia.
-Línea de regresión  pasa por algunos datos, minimizando la suma de los
cuadrados de las diferencias entre los datos.
 Requisitos para un análisis de regresión:
-Dos variables contínuas (intervalares).
-Deben ser independientes una de otra.
-Deben tener distribución normal.
Pasos en el análisis de regresión:
1.-Calcular  número total (n).
 sumatoria de x (x).
 sumatoria de y (y).
 productos cruzados (xy).
 suma de cuadrados para x (x2) y para y (y2).
 promedio de x ( x ).
 promedio de y ( y ).
2.-Calcular   (x – x)2 =
  (y – y)2 =
x2 – (x) 2
n
y2 – (y) 2
n
  (x – x) . (y – y) =
1
2
xy – (x) . (y)
n
3.-Calcular intercepto (a) y la pendiente (b) 
m =  (x – x) . (y – y)
n = Y - mx
 (x – x)2
-Con n se puede calcular un valor "y", para un "x" determinado.
-Tanto "m" como "n" pueden ser negativos.
3
 Error Estándar de la curva:
Syx =
y2 – ay – bxy
n - 2
 Correlación de Pearson:
r = b
r = b
Sx/Sy
x2 – (x)2/n
y2 – (y)2/n
-El valor de "r" debe ser siempre menor a 1, pero puede ser negativo.
-El valor "r", entrega el valor de fuerza de asociación entre 2 variables, entre
más cerca de 1 mejor.
*Valores para r:
-Entre 0,65 a 1  buena.
-Entre 0,4 a 0,649  regular.
-Menor a 0,39  mala.
r2  proporción de la variación total en la variable y, dependiente, que es
explicado por la variación en la variable independiente x.
 Error Standar de a yb:
SEb= S2yx /  (x – x)2
variación de la pendiente.
SEa= S2yx x [1/n + x2/ (x – x)2]
cuanto puede ser el intercepto (varia. del intrecepto)
 Intervalo de Confianza (95%) de la pendiente:
b+- (t31-0,05)(SEb) = 1,22 +- (1,96) (0,2129).
= 1,22 +- 0,417.
buscado en tabla
m va entre 1,22-0,417 y 1,22+0,417.
Tests de significancia para Ho b=0:
t31 = b – 0 = 1,22 = 5,74 p 0,001
SEb
0,219
 Regresión Característica de una relación (Wikinson
1996):
-Existe una relación (cuando x  y).
-Que fuerza tiene (con r).
-Que tamaño tiene (con m) la relación.
-Que dirección tiene la relación (si m es + o -).
-Que patrón tiene la relación ( si  o ).
El valor de p en la tabla de análisis de varianza de regresión nos indica si el
modelo es sigificativo.
 Patrón:
Los plots y los estadísticos basados en los valores residuales nos dan
información acerca del patrón de la relación:
-Es lineal.
-Presentan algún valor escapado.
-Indican por los valores de cook, etc.  si hay influencias de los casos.
-Residuales con dirección particular.
-Residuales formando bandas horizontales.
-Residuales con distribución normal.
 Residuales estudentizados:
Se pueden dividir por el error estandar estimado, el reslutado es el residual
estudentizado.
En muestras grandes  5% de los residuales sean R.E.
 más 5% es decir excede a 2  casos influyentes.
Los R.E. miden la distancia vertical de los residuales, desde la línea de
regresión.
 Leverage:
Mide la distancia de un caso individual del promedio de la variable
independiente. Un caso con alto leverage  lejos del centro (promedio).
Estos casos son influyentes.
Mide la distribución horizontal desde el centro (promedio) de la variable
independiente.
 Distancia de Cook:
Combina la distancia horizontal y la vertical.
Es lo más cercano a indicarnos cuales son los casos influyentes.
Los casos influyentes están lejos de la línea de regresión, lejos de la cola de la
variable independiente.
Lo más probable es que tengan influencias significativas.
 Transferencia de datos:
Por ejemplo se puede pasar a Log10  ejemplo en cultivos bacterianos.
se puede elevar a la potencia, sacar la raíz, inverso o el arco del
seno.
 Como comparar 2 líneas de regresión:
Como por ejemplo femenino v/s masculino:
Para esto hay que comparar n, m y realizar un test para coincidencia de las
líneas, es decir ver si las líneas son diferentes o no.
 Análisis de regresión múltiple:
-Relación entre una variable dependiente y muchas variables independientes.
-En el gráfico plots se observaran múltiples plots de todas las variables.
Y = a + bx1 + bx2....bxn
 Análisis de regresión simple:
Relación de 2 variables, una dependiente y una independiente.
Y = a + bx
 Correlación de Pearson:
Fuerza de asociación entre 2 variables.
 Regresión múltiple:
Una variable dependiente v/s varias variables independientes.
Y = a + bx1 + bx2
Descargar