Subido por Maria Liz Barros Lobelo

Anlisis de Correlacin y de Reg

Anuncio
Análisis de correlación y de regresión simple
''jjJK'f
| Análisis de correlación y de regresión simple
Análisis de correlación
Técnica estadística usada para
medir la cercanía de la relación
lineal entre dos o más variables
en una escala de intervalo.
Análisis de regresión
Técnica estadística usada para
derivar una ecuación que relaciona una variable de criterio
con una o más variables de predicción; cuando se usa sólo una
variable de predicción, es el
análisis de regresión simple, y si
se utilizan dos o más, es el análisis de regresión múltiple.
El National Fluid Milk Processors Promotion Board tiene a su
cargo los anuncios de bigotes de
leche de celebridades. Una de
sus promociones actuales es un
"Milk Mustache Celebrity Calendar Event" anual, en que se envían
calendarios a diversos hogares. El
consejo mencionado está interesado en averiguar la correlación
de su presentación de calendarios de celebridades con las ventas de leche en galones. Según
información de Nielsen Homescan Data, las ventas de leche en
galones aumentaron 3.6%, en relación con las de un año atrás, en
los hogares que recibieron el
calendario de 1997, además de
incrementos de 9.7% de las mismas ventas en hogares con niños
de 6-12 años de edad.
Los análisis de correlación y de regresión son de uso frecuente entre los investigadores de mercados
para estudiar la relación entre dos o más variables. Aunque es común el uso indistinto de estos términos, existe una diferencia en su propósito. El análisis de correlación mide la cercanía de la relación
entre dos o más variables (véase el ejemplo del anuncio de leche), considerando la variación conjunta de las dos mediciones, ninguna de las cuales está sujeta a restricción por el experimentador. Por su
parte, el análisis de regresión se usa para derivar una ecuación que relaciona la variable de criterio
con una o más variables de predicción. En ello se considera la distribución de frecuencias de la variable de criterio cuando se mantienen fijas en diversos valores una o más de las variables de predicción.2
Es totalmente válido medir la cercanía de la relación entre variables sin derivar una ecuación estimada. De igual manera, puede entenderse el análisis de regresión sin investigar la cercanía de la
relación de las variables. Empero, es común derivar la ecuación y estudiar tal cercanía, por lo que
el conjunto de estas técnicas, no una u otra, suele denominarse análisis de regresión o correlación.
En cuanto a éste, debe comentarse también la distinción entre correlación y causalidad. El uso de
los términos variable dependiente (de criterio) y variable independiente (de predicción) para referirse a las mediciones en el análisis de correlación se deriva de la relación matemática funcional entre
las variables y no tiene nada que ver con la dependencia de una variable con respecto de otra en sentido causal. Por ejemplo, las técnicas podrían mostrar cierta correlación del ingreso alto con la tendencia a tomar vacaciones invernales en islas caribeñas, si bien sería un error suponer que el ingreso alto
es causa de que una persona viaje al sur cuando se desploman las temperaturas ambientales.
No existe nada en el análisis de correlación ni en ningún otro procedimiento matemático que
pueda usarse para establecer la causalidad. Lo único para lo que sirven estos procedimientos es pa-
Kroger no es ajeno a los beneficios del Milk Mustache Celebrity Calendar Event. Para quienes gustan de los
números, Nielsen Homescan Data reportó un aumento de 3.6% en las ventas de leche en galón, contra las
de un año atrás, en los hogares que recibieron el calendario 1999. Además, otro de 9.7% en las ventas de un
año antes en los hogares con niños de 6 a 12 años. Los desplegados publicitarios acerca del producto, como
éste, son una manera certera de impulsar la compra de galones de leche y mover el lechímetro. ¿Desea el
Celebrity Calendar 2000? Escríbame.
¿Quiere leche?
JUD WELLS, DAIRY CATEGORY MANAGER-KROGER COLUMBUS
© 1999 NATIONAL FLUID MILK PROCESSOR PROMOTION BOARD
Análisis de correlación y de regresión simple
677
automáticos disminuyó durante el periodo estudiado. Al mismo tiempo, las transacciones en puntos de venta con tarjetas de débito (es decir, pagar con tarjetas de débito en las cajas registradoras)
aumentaron en un sorprendente 35%. Los editores atribuyeron esta correlación inversa al desagrado
de los consumidores con los cargos por servicios en los cajeros automáticos. Señalaron que muchos
establecimientos minoristas no sólo permiten que sus clientes paguen las compras con tarjetas de
débito, sino que también les permiten hacer retiros de efectivo. Además, los minoristas, a diferencia de una porción creciente de cadenas de cajeros automáticos, no cobran ese servicio.4
El tema de los análisis de regresión y correlación se analiza a la luz de un ejemplo. Así, considere que un fabricante nacional de bolígrafos está interesado en investigar la eficacia de sus actividades
de mercadotecnia. La compañía usa mayoristas para distribuir los bolígrafos y complementa sus esfuerzos con representantes de ventas y anuncios televisivos. La empresa planea usar las ventas
anuales por territorio como medición de eficacia. Esos datos y la información del número de representantes de ventas que atienden un territorio están disponibles ya en los registros de la compañía.
Son más difíciles de determinar las otras características, con las cuales el fabricante busca relacionar
las ventas: anuncios televisivos y eficiencia de los mayoristas. A efecto de obtener información
sobre los anuncios televisivos en un territorio, los investigadores deben analizar las cédulas de publicidad y la cobertura de área de estudio por canal, a fin de determinar a cuáles áreas llegan los canales televisivos. Evaluar la eficiencia de los mayoristas requiere calificarlos en diversos criterios
y sumar las calificaciones en una medición global, en que 4 es sobresaliente, 3 es bueno, 2 es promedio y 1 es deficiente. El tiempo y gastos necesarios para generar datos de estas características de
publicidad y distribución ha hecho que la compañía decida analizar sólo una muestra de los territorios de ventas. Los datos de una muestra aleatoria simple de 40 territorios se presentan en el
anexo 21.1.
El efecto de cada una de las variables de la mezcla de mercadotecnia en las ventas puede estudiarse de diversas maneras. Una más bien evidente sería granear las ventas como función de cada una de
las variables. En la figura 21.1 se muestran las gráficas, llamadas diagramas de dispersión. La parte
A hace suponer que las ventas se incrementan cuando aumenta el número de anuncios televisivos
mensuales, y la parte B, que aumentan con el número de representantes de ventas que atiende el territorio. Por último, la parte C indica que existe poca relación entre las ventas de un territorio y la eficiencia del mayorista que los atiende.
Un vistazo más cercano a las partes A y B también refleja que sería posible resumir la relación entre las ventas y cada una de las variables de predicción si simplemente se traza una recta por los puntos de datos. Una forma de generar la relación de las ventas con los anuncios televisivos por número
de representantes sería "imaginarla", es decir, trazar visualmente una recta que pase por los puntos de
las gráficas. Esa recta correspondería a la línea de la relación "promedio" e indicaría el valor promedio de la variable de criterio, las ventas, con los valores dados de cualquiera de las variables de predicción, anuncios televisivos o número de representantes. Luego, podría añadirse a las gráficas, por
ejemplo, el número de anuncios televisivos en el territorio y leer el valor promedio de ventas esperadas en el territorio mismo. La dificultad del enfoque gráfico es que dos analistas podrían generar rectas distintas para describir la relación. Ello hace surgir la pregunta de cuál sería la recta más correcta
o cuál de ellas encajaría mejor en los datos.
Un enfoque alterno es generar matemáticamente una recta que una los datos. La ecuación general de una recta es y = a + f3X, donde a es la intersección 7, y /3 el coeficiente de la pendiente.
En este caso de Y ventas y X\ anuncios televisivos, la ecuación podría escribirse como Y= a¡ + P\X\,
mientras que la relación entre las Y ventas y los X2 representantes de ventas se representaría como
7= a2 + $2X2, donde el subíndice corresponde a la variable de predicción que se considera. Tal como está escrito, cada uno de estos es un modelo determinista. Cuando se sustituye el valor de la variable de predicción en la ecuación con los valores especificados de a y (3, se determina un valor
único de Y, sin considerar un margen de error.
En la investigación de fenómenos sociales pocas veces, si acaso, el error es cero. Así, podría sustituirse el modelo determinista por un modelo probabilistic, que debería incluir algunos supuestos
acerca del error. Por ejemplo, para trabajar con la relación de las ventas y el número de anuncios televisivos, considere el modelo:
Yi = aí+ftlXil + €i
678
Capítulo 21: Análisis de datos: investigación de relaciones
A N E X O 21 .1
Territorio
005
019
033
039
061
082
091
101
115
118
133
149
162
164
178
187
189
205
222
237
242
251
260
266
279
298
306
332
347
358
362
370
391
408
412
430
442
467
471
488
Ventas
(en miles),
Y
Publicidad
(anuncios televisivos por mes)
*
Número de
representantes de ventas
índice de
eficiencia de mayoristas
*2
*3
260.3
5
7
6
9
12
8
11
16
13
7
10
4
9
17
19
9
11
8
13
14
7
16
9
5
18
18
5
7
12
13
8
6
16
19
17
10
12
8
10
12
3
5
3
4
6
3
7
8
4
3
6
4
4
8
7
3
6
3
5
5
4
6
5
3
6
5
3
6
7
6
4
3
8
8
7
4
5
3
5
5
4
2
3
4
1
4
3
2
3
4
1
1
3
4
2
2
4
3
4
2
4
3
3
3
4
3
2
2
1
4
3
2
2
2
8
3
3
3
4
2
286.1
279.4
410.8
438.2
315.3
565.1
570.0
426.1
315.0
403.6
220.5
343.6
644.6
520.4
329.5
426.0
343.2
450.4
421.8
245.6
503.3
375.7
265.5
620.6
450.5
270.1
368.0
556.1
570.0
318.5
260.2
667.0
618.3
525.3
332.2
393.2
283.5
376.2
481.8
donde Y¡ es el valor de ventas en el territorio /-ésimo, Xü es la intensidad de la publicidad en ese mismo territorio y e, es el error relacionado con la observación z-ésima. Ésta es la forma del modelo que
se usa en el análisis de regresión. El término de error es parte del modelo. Representa el hecho de no
incluir todos los factores en el modelo, que hay un elemento impredecible en el comportamiento humano y que ocurren errores de medición.5 El modelo probabilístico considera el hecho de que el va-
Análisis de correlación y de regresión simple
619
F I G U R A2 1 . 1
FIGURA 21.2
lor Y no está determinado de manera unívoca por un valor dado de X¡. En vez de ello, lo único determinado por este último valor es el "valor promedio" de Y. Cabe esperar que sus valores fluctúen en
torno a ese promedio.
La solución matemática para encontrar la línea de ajuste óptimo del modelo probabilístico requiere de ciertos supuestos acerca de la distribución del término de error. La recta de ajuste óptima podría
definirse de maneras diversas. Es habitual considerar que es la línea que minimiza la suma de desviaciones al cuadrado alrededor de la línea (la solución de cuadrados mínimos). Considere la figura 21.2
y suponga que la línea trazada en la figura es una ecuación estimada. Use el acento circunflejo (A) para indicar un valor estimado y el error en la observación /-ésima es la diferencia entre el valor real de
6W
Capítulo 21: Análisis de datos: investigación de relaciones
Y, Y¡, con el valor estimado de Y, Y¡, es decir, e¡ =Y¡- Y¡. La solución de cuadrados mínimos se basa
en el principio de que la suma de estos errores al cuadrado debe ser tan pequeña como resulte posible,
es decir, que se debe minimizar 2"e?. Las estimaciones de muestras a\ y fi\ de los parámetros poblacionales verdaderos a\ y fi\ se determinan para satisfacer esta condición.
Son tres los supuestos simplificadores del término de error en la solución de cuadrados mínimos:
1. La media o valor promedio del término de error es cero.
2. La varianza del término de error es constante e independiente de los valores de la variable
de predicción.
3. Los valores del término de error son independientes entre sí.
Dados estos supuestos, es posible despejar fórmulas para obtener estimaciones seguras de los parámetros poblacionales «j, la intersección, y jo l5 la pendiente, pero es más usual calcularlos mediante computadora.6
Si se usan los datos del anexo 21.1 respecto de ventas (7) y anuncios televisivos mensuales (X{),
las estimaciones de «j y /3j serían 135.4 y 25.3, respectivamente.7 La ecuación se representa gráficamente en la figura 21.3. La pendiente de la recta está dada por p t . El valor de ésta, 25.3, hace suponer
que las ventas aumentan en 25 300 dólares por cada unidad de aumento en los anuncios televisivos.
Como se mencionó, se trata del estimado de una condición poblacional verdadera basada en una
muestra específica de 40 observaciones. Sin duda alguna, otra muestra distinta generaría un estimado
diferente. Por añadidura, todavía no se ha planteado si se trata de un resultado estadísticamente significativo o que podría haber ocurrido al azar. No obstante, es un elemento de información de suma importancia, que ayuda a determinar si el gasto en publicidad vale su rendimiento esperado. El estimado
del parámetro de intersección es a{ = 135.4, lo cual indica dónde cruza la recta al eje Y, puesto que se
trata del valor estimado de 7 cuando la variable de predicción es igual a cero.
FIGURA 21.3
Análisis de correlación y de regresión simple
681
Error estándar de la estimación
El examen de la figura 21.3 muestra que, a pesar de que la línea parece encajar razonablemente bien
en los puntos, todavía existe desviación de éstos en torno a ella. La magnitud de su desviación mide el ajuste. Es posible calcular una medición numérica de la variación de los puntos alrededor de
la línea, de manera similar al cálculo de la desviación estándar de una distribución de frecuencias.
Al igual que la media de la muestra es una estimación de la media verdadera de la población original, la recta dada por Y¡ = a{ + faX^ + e¡ es una estimación de la recta de regresión verdadera,
Yj = «! + jSjJQj + €j. Considere la varianza del error aleatorio e en torno a la recta de regresión verdadera o2^ es decir, oy/^2. Cuando se desconoce la varianza poblacional o2, una estimación sin sesgo
está dada por la raíz cuadrada de la desviación estándar de la muestra, s, a saber:
En forma similar, suponga que SY/X es una estimación sin sesgo de la varianza poblacional alrededor de la recta de regresión, (rY/x2. Ahora bien, puede demostrarse que la estimación de la muestra
de la varianza alrededor de la recta de regresión se relaciona con la suma de los errores al cuadrado; de
manera específica, es igual a:
Error estándar de la
estimación
Término usado en el análisis de
regresión para referirse al valor
absoluto de la variación en la variable de criterio, que se deja sin
explicación, o que no cuenta, en
la ecuación de regresión ajustada.
FIGURA 2 1 4
donde n es nuevamente el tamaño de la muestra, y sY/x2, el estimador sin sesgo de crY/x2, con Y¡ y Y¡
como valores observado y estimado de 7 para la observación /-ésima. La raíz cuadrada de esa cantidad, SY/X, se llama frecuentemente error estándar de la estimación, si bien es más descriptivo el término desviación estándar de la regresión.
La interpretación del error estándar de la estimación guarda paralelismo con el de la desviación
estándar. Considere un valor X{1. El error estándar de la estimación significa que Y¡ (ventas) tiende a
distribuirse en torno al valor Y¡ correspondiente -el punto en la recta- con desviación estándar igual
al error estándar de la estimación, con cualquier valor dado Xi{ de anuncios televisivos. Además, la
variación en torno a la línea es la misma en toda la longitud de la recta. La media aritmética, que es
el punto en la recta, cambia al hacerlo X^\ pero la distribución de los valores Y¡ alrededor de la línea
no se modifica con el número de anuncios televisivos. En la figura 21.4 se muestra la situación en el
supuesto de que el término de error tiene distribución rectangular, por dar un ejemplo.8 Note que
682
Capítulo 21: Análisis de datos: investigación de relaciones
el supuesto de SY/X constante sin importar el valor de Xix produce bandas paralelas en torno a la recta
de regresión.
Cuanto menor sea el error estándar de la estimación, mayor será la coincidencia de la recta con
los datos. En el caso de la recta relacionada con las ventas y los anuncios televisivos se trata de
SY/X = 59.6.
Inferencias acerca del coeficiente de pendiente
A
Se calculó anteriormente que el valor del coeficiente de pendiente j3j era 25.3. En dicho momento, no
se planteó la pregunta de si el resultado era estadísticamente significativo o aleatorio. Responder a
dicha pregunta requiere un supuesto adicional, a saber, que los errores se distribuyen de manera normal,
no rectangular, como se había pensado. Empero, antes de continuar debe resaltarse que los estimadores de cuadrados mínimos de los parámetros de la población original son los mejores estimadores lineales sin sesgo de los parámetros poblacionales verdaderos, sin importar la forma de la distribución
del término de error. Basta que se satisfagan los supuestos previos. Éste es un resultado notable del
teorema de Gauss-Markov. Se requieren supuestos de errores con distribución normal sólo si se pretende elaborar inferencias estadísticas acerca de los coeficientes de regresión.
Puede demostrarse que si e¿ son variables aleatorias de distribución normal, entonces ¡3l también
tiene distribución normal. En otras palabras, si se seleccionan muestras repetidas de la población de
territorios de ventas y se calcula un valor de j3j para cada muestra, la distribución de estas estimaciones sería normal y centrada en el parámetro poblacional verdadero fir Por añadidura, es posible
demostrar que la varianza de la distribución de los valores jSj o crfa2, es igual a:
Puesto que es desconocida la población crY/x2, tampoco se conoce erg 2 y se precisa estimarla. Esta estimación, que se denota como sfi2, se genera al sustituir aY/xcon el error estándar de la estimación SY/X:
Hasta este punto, la situación es la siguiente: dado el supuesto de errores de distribución normal,
/3t también tiene distribución normal, con media j3j y varianza afe 2 desconocida. Puesto que se carece de la varianza de la distribución de la muestra, es necesario usar un procedimiento similar al
utilizado cuando se derivó una inferencia de la media con desconocimiento de la varianza poblacional. Ese conjunto de condiciones requiere una prueba t para examinar la significancia estadística. La
prueba de significancia de j3j tiene un requisito similar. La hipótesis nula consiste en la ausencia de
relación lineal entre las variables y la hipótesis alternativa, si existe tal relación, es decir:
El estadístico de prueba es t = (J3, - j8,)/^, es decir, la pendiente estimada a partir de la muestra
menos la pendiente hipotética, resultado que se divide entre el error estándar de la estimación que tiene distribución t con n — 2 grados de libertad. En el ejemplo:
Análisis de correlación y de regresión simple
; 683
Con un nivel de significancia de 0.05, el valor de / en tablas con v = n — 2 = 38 grados de libertad
es 2.02. Puesto que el valor calculado de / excede su valor crítico, se rechaza la hipótesis nula; p\
difiere de cero en grado suficiente para justificar el supuesto de la relación lineal entre las ventas y
anuncios televisivos. Ahora bien, ello no significa que esa relación en verdad sea necesariamente lineal, sino sólo que la evidencia indica que Y (ventas) cambia al hacerlo X\ (anuncios televisivos) y
que si se usan X\ y la ecuación lineal podría tenerse una predicción de Y mejor que en caso de simplemente omitir X\.
¿Qué pasa si no se rechaza la hipótesis nula? Como se señaló, j3j es la pendiente de la recta supuesta sobre la región de observación e indica el cambio lineal en Y con el cambio de una unidad en
X\. Que no se rechace la hipótesis nula, de que /^ = O, no significa que sea inexistente la relación de
Yy X{. Son dos las posibilidades. En primer término, simplemente podría ser que se cometa un error
de tipo II al no rechazar una hipótesis nula falsa. En segundo lugar, sería factible que 7 y Xl tengan
una relación curvilínea perfecta y que se haya escogido el modelo incorrecto para describir la situación verdadera.
Coeficiente de correlación
Coeficiente de correlación
Término usado en el análisis de
regresión para designar la fuerza
de la relación lineal entre las variables de criterio y predictivas.
FIGURA 21.5
Hasta este punto, se ha analizado la relación funcional de Y con X. Suponga que también interesa la
intensidad de la relación lineal entre esas dos variables, lo cual lleva al concepto de coeficiente de
correlación. Se partió de dos supuestos adicionales al analizar el modelo de correlación. El primero,
que X¡ es una variable aleatoria. Una observación de muestra permite obtener valores de X¡ y Y¡. El
segundo, que las observaciones provienen de una distribución normal de dos variables, es decir, una
en que la variable Atiene distribución normal, al igual que la variable Y.
Ahora bien, considere la representación gráfica de una muestra de n observaciones, de una distribución normal de dos variables. Sea p la íuerza de la relación lineal entre dos variables en la población
original, y r la estimación de la muestra de p. Suponga también que la muestra de n observaciones ge-
684
Capítulo 21: Análisis de datos: investigación de relaciones
ñera la dispersión de puntos que se presenta en la figura 21.5 y divida la figura en cuatro cuadrantes,
que se forman al trazar líneas perpendiculares a los ejes x y y.
Considere las desviaciones de estos bisectores. Tome cualquier punto P con coordenadas (Xh 7¿)
y defina las desviaciones:
donde las minúsculas indican desviaciones en torno a una media. Está claro, con la observación de la
figura 21.5, que el producto x^ es:
• Positivo en cualquier punto del cuadrante I
• Negativo en cualquier punto del cuadrante II
• Positivo en cualquier punto del cuadrante III
• Negativo en cualquier punto del cuadrante IV
Por ende, parecería que es factible usar la cantidad S"= \x¡yi como medición de la relación lineal
entre ^ y 7, y:
• Si la relación es positiva, de modo que gran parte de los puntos se sitúa en los cuadrantes I y III,
S"= \x¡y¡ tiende a ser positiva.
• Si la relación es negativa, con muchos de los puntos en los cuadrantes II y IV, S"= [X^
tiende a ser negativa.
• Si no existe relación entre Xy Y, los puntos se dispersan en los cuatro cuadrantes y S"= \x-y¡ tiende a ser muy pequeña.
No obstante lo anterior, la cantidad 2" = py,- tiene dos defectos como medida de la relación lineal entre
Xy Y. El primero, que se puede incrementar arbitrariamente con la inclusión de más observaciones, es
decir, al incrementar el tamaño de la muestra. El segundo, que también puede recibir influencia arbitraria del cambio en la unidad de medición de X, Yo ambas, por ejemplo, al cambiar de metros a centímetros. Estos defectos pueden eliminarse al hacer que la medición de la fuerza de la relación lineal
sea una cantidad sin dimensiones y dividir entre n. El resultado es el coeficiente de correlación pearsoniano o de producto-momento, a saber:
donde sx es la desviación estándar de la variable X, y SY, la desviación estándar de la variable Y.
El coeficiente de correlación calculado a partir de los datos de la muestra es un estimado del parámetro de la población original p, y una parte del trabajo del investigador es usar r para poner a prueba hipótesis acerca de p. Ello resulta innecesario en el ejemplo, ya que la prueba de la hipótesis nula
HQ. p = O es equivalente a la prueba de la hipótesis nula H0: f3i = 0. En virtud de que ya se realizó
esta última prueba, la evidencia de la muestra lleva al rechazo de la hipótesis de que no existe relación lineal entre las ventas y los anuncios televisivos, es decir, al rechazo de //0: p = 0.
El coeficiente de correlación de producto-momento puede variar de - 1 a +1. La correlación positiva perfecta, en que un aumento dado de X determina con exactitud otro de 7, tiene coeficiente +1.
La correlación negativa perfecta, en que un incremento de ^determina exactamente una disminución
de 7, produce un coeficiente — 1. En la figura 21.6 se ilustran estas situaciones y otros diagramas de
dispersión y sus coeficientes de correlación respectivos. El examen de estos diagramas brinda cierta
apreciación de la magnitud del coeficiente de correlación relacionado con un grado de dispersión es-
Análisis de correlación y de regresión simple
^a^^ttliimr
FIGURA 21.6
Fuente: Ronald. E. Frank, Alfred A. Kuehn y William F. Massy, Quantitative Techniques in Marketing Analysis, Homewood, IL, Richard D. Irwin,
1962, p. 71. Reproducido con autorización.
Coeficiente de
determinación
Término usado en el análisis de
regresión para denotar la proporción relativa de la variación
total en la variable de criterio
que puede explicarse mediante
la ecuación de regresión ajustada.
pecífico. El cuadrado del coeficiente de correlación es el coeficiente de determinación. Ciertas manipulaciones algebraicas permiten demostrar que es igual a:
es decir, r2 = 1 menos el error estándar del estimado al cuadrado, dividido entre la varianza de la
muestra de la variable de criterio. A falta de variable de predicción, el mejor estimado de la variable de
criterio sería la media de la muestra. Si hubiera poca variabilidad en las muestras de un territorio a
otro, la media de la muestra sería un buen estimado de las ventas esperadas en cualquier territorio. Empero, la variabilidad considerable haría que fuese una estimación deficiente. Así, la varianza de las
muestras, sY2, es una medición del grado de "deficiencia" de ese procedimiento de estimación. La introducción de la covariable X podría mejorar los estimados de las ventas por territorio. Ello depende
686
;
Capítulo 21: Análisis de datos: investigación de relaciones
de cuan bien se adecué la ecuación a los datos. Puesto que sY/x2 mide la dispersión de los puntos
en torno a la recta de regresión, puede considerarse que es una medición de cuan "deficiente" es
un procedimiento de estimación que toma en cuenta la covariable. Ahora bien, si sY/x2 es de poca
cuantía en relación con sY2, sería factible afirmar que añadir la covariable mediante la ecuación de
regresión mejora sustantivamente las predicciones de la variable de criterio, las ventas. A la inversa, cuando sY/x2 es aproximadamente igual a sY2, se consideraría que agregar la covariable X no
sirve para mejorar las predicciones de Y. Por tanto, la proporción sY/x2/sY2 se conceptuaría como
la proporción de la variación que no se explica con la recta de regresión dividida entre la variación total, es decir:
r2 = 1 -
variación inexplicada
variación total
El miembro derecho de esta ecuación puede combinarse en una sola fracción, de modo que se tenga:
<,
r¿ =
variación total - variación inexplicada
: —
:
variación total
Al restar la variación inexplicada de la variación total, queda la "variación explicada", o sea, la
variación de Y que se explica con la inclusión deX. De tal suerte, puede considerarse que el coeficiente de determinación es igual a:
r2 =
variación explicada
variación total
donde se entiende que la variación total se mide con la varianza de Y. En el ejemplo de las ventas y
anuncios televisivos, r2 = 0.77. Ello significa que 77% de la variación en las ventas de un territorio a
otro se explica con la variación de la publicidad televisiva entre territorios. Por consiguiente, la estimación de las ventas en un territorio es mejor si se toman en cuenta los anuncios televisivos que al
hacer caso omiso de esa actividad publicitaria.
I Análisis de regresión múltiplí
La idea básica subyacente al análisis de regresión múltiple es la misma que en la regresión simple:
determinar la relación entre las variables independientes y dependiente, o variables de predicción y
de criterio. El análisis de regresión múltiple permite añadir diversas variables, de modo que la ecuación refleje los valores de un cierto número de variables de predicción, no una sola. El objetivo de esto es mejorar las predicciones de la variable de criterio.
Un observador irónico de muchos proyectos de investigación hizo diversos comentarios astutos
acerca del comportamiento de las variables y la forma en que suelen correlacionarse (Ventana de investigación 21.2). Convendría que el lector los tenga en mente mientras lee este apartado del análisis
de regresión múltiple.
Nomenclatura modificada
Un marco de notación modificado y más formal es valioso para comentar el análisis de regresión
múltiple. Considere el modelo de regresión general con tres variables de predicción. La ecuación
modificada:
la cual es una estado simplificado de la más elaborada y precisa ecuación.
Descargar