Y debe ser numérica.
𝒀 = 𝛽1 +𝛽2 +𝛽3…
β deben ser preguntas relacionadas alrededor de Y, que deben responder esa pregunta
Y.
-
Las preguntas deben ser lo más específicas posibles, no se debe poder
responder varias formas, sino que debe interpretarse y responderse de una
única manera/alternativa.
Correlación y regresión de dos variables numéricas
La distribución condicional si X e Y son dos variables numéricas, la distribución
condicional de Y . X es la distribución de Y entre las observaciones con valores
específicos de X.
La media condicional es la media de Y para distintos valores de X.
Decimos que dos variables son dependientes cuando la distribución condicionada de
una variable (Y) varía o no es la misma cuando la condicionamos a diferentes valores de
otra variable (X).
Dos variables son independientes cuando la distribución condicionada de una (Y) es la
misma o no varía cuando condicionamos para diferentes valores de la otra variable (X).
La dependencia de media es que la media de Y es diferente para distintos valores de X.
La covarianza nos dice si va para arriba o para abajo.
La correlación nos medirá no sólo la dirección (positiva o negativa) sino también la
intensidad, que tan fuerte está esta relación. Por ejemplo, si fuese una correlación de
0,8, nos dice que es positiva. Es un estadístico que mide relaciones lineales. Correlación
de -0,15, significa que entre X e Y.
¿Cuál es la relación entre la variable X e Y? Si solo pide el signo, podemos responder
con la correlación o con la covarianza, pero debe ser LINEAL (no concava).
Correlación de 0,80 positivo, el 80% de la variación de Y se puede interpretar por la
variación en X, y viceversa.
Correlación de -0,15 negativo, la relación sería negativa, sólo el 15% de la variación de
Y se puede explicar con el 85% de la variación de X.
El coeficiente de correlación entre dos variables numéricas nos mide el movimiento
conjunto lineal entre ambas.
MEDIDAS DE REGRESIÓN:
Muchas veces la línea no va a pasar por todos los puntos. Lo que haremos será una
línea recta que pasa por medio de los puntos y sea representativa.
¿Cómo dibujaremos esta recta?
-
Trataremos de trazar la línea que minimiza la distancia al cuadrado de todos los
puntos respecto al valor central.
Observo la nube de puntos, pero mi recta me dice que para un determinado valor de X,
me da la altura de la recta.