Intervalos de confianza e intervalos de predicción

Anuncio
Regresión Lineal Simple
Ing. Hernán Trujillo A.
4.8 Intervalos de confianza e intervalos de predicción
El error estándar de estimación (error típico) también se usa para establecer
intervalos de confianza cuando el tamaño de la muestra es grande y la dispersión
alrededor de la línea de regresión se aproxima a la distribución normal. En nuestro
ejemplo del número de llamadas de venta y el número de copiadoras vendidas, el
tamaño de muestra es pequeño; así es que necesitamos un factor de corrección
para justificar el tamaño de la muestra. Además cuando nos alejamos de la media
de la variable independiente (X), nuestras estimaciones están sujetas a mas
variaciones, y esto también necesitamos corregirlo.
Queremos dar intervalos de estimación de dos tipos. El primero , al que se le llama
intervalo de confianza, da el valor medio de Y para una X dada. Al segundo tipo de
estimación se le lama intervalo de predicción, y da el rango de valores de Y para
un valor determinado de X.
UN INTERVALO DE CONFIANZA
PARA LA MEDIA DE Y,DADO X
1
Y ' t * error

n
UN INTERVALO DE
PREDICCIÓN PARA Y, DADO X
Y ' t * error 1 
( X  X )2
( X ) 2
X2 
n
1

n
(X  X )2
( X ) 2
2
X


n
Ejemplo 1 : Volvamos al ejemplo de Copier Sales of America. Determine un
intervalo de confianza del95% para todos los representantes que hicieron 25
llamadas y un intervalo de predicción del 95% para Sara Baker, una representante
de ventas de la costa oeste que hizo 25 llamadas.
Solución: De nuevo, ocupamos los datos antes calculados, los cuales colocaremos
otra vez, para mayor comodidad.
Representante de venta
Llamadas de venta
Copiadoras vendida
X2
Y2
XY
(X)
(Y)
Tom Keller
20
30
400
900
600
Jeff Hall
40
60
1600
3600
2400
Briant Virost
20
40
400
1600
800
Gregg Fish
30
60
900
3600
1800
Susan Welch
10
30
900
300
Carlos Ramirez
10
40
1600
400
100
100
23
Regresión Lineal Simple
Ing. Hernán Trujillo A.
Rick Niles
20
40
400
1600
800
Mike Kiel
20
50
400
2500
1000
Mark Reynolds
20
30
400
900
600
Soni Jones
30
70
900
4900
2100
220
450
5600
22100
10800
TOTAL (

)
A. El primer paso es determinar el número de copiadoras que esperamos que venda
un representante que hizo 25 llamadas. Este número es:
Y '  18.947  1.1842X  18.947  1.1847(25)  48.5526
B. Para un intervalo de 95% de confianza, tenemos un α = 0.05. Este 5% lo
distribuiremos en una prueba de dos colas (2.5% en cada cola), para lo cual
buscamos el valor estadístico de t de student ( muestras pequeñas)en tablas para
n-2 = 10-2 = 8 grados de libertad y vemos que el valor de t es 2.306.
C. Ya anteriormente habíamos calculado el error estándar de estimación en 9.901.
D. Los demás cálculos que ocupamos los podemos obtener fácilmente de la
información proporcionada por la tabla.
 X  220
 X 2  5600
 X  220  22
X 
n
10
Sustituyendo estos valores en la fórmula:
48.5526 2.306* 9.901
1

10
(25  22) 2
(220) 2
5600
10
48.5526 7.6356
El intervalo de confianza del 95% para el número medio de copiadoras vendidas por
los representantes que hicieron 25 llamadas va de 40.917 a 56.1882.
El intervalo repredicción sería:
Suponga que queremos estimar el número de copiadoras vendidas por Sheila
Baker, quien hizo 25 llamadas.
48.5526 2.306* 9.901 1 
1

10
(25  22) 2
(220) 2
5600
10
48.5526 24.0756
24
Regresión Lineal Simple
Ing. Hernán Trujillo A.
El intervalo va de 24.478 a 72.627 copiadoras. Concluimos que el número de
copiadoras vendidas por Sheila Baker estará entre 24 y 73; este intervalo es
realmente grande. Es mucho más amplio que el intervalo para la media de todos los
vendedores que hicieron 25 llamadas. Es lógico que haya más variación en las
ventas estimadas de un individuo que de un grupo.
Resumiendo, hay una diferencia importante entre un intervalo de confianza y un
intervalo de predicción. Un intervalo de confianza se refiere a todos los casos
para un valor de X dado . Un intervalo de predicción se refiere a un caso
particular para un valor de X dado y será siempre más amplio que el otro.
Ejercicio 4.1 Reliable Forniture es una empresa familiar que durante muchos años
ha estado vendiendo a clientes minoristas en el área de Chicago. Se anuncian
extensamente en radio y TV haciendo hincapié en sus bajos precios y en sus fáciles
condiciones de crédito. Al propietario le gustaría estudiar la relación entre las
ventas y las cantidades gastadas en publicidad. Abajo se da la información de
ventas y de gastos en los últimos cuatro meses.
Mes
Julio
Agosto
Septiembre
Octubre
Gastos en publicidad
(millones de dólares)
Ingresos por ventas
(millones de dólares)
2
1
3
4
7
3
8
10
a) El propietario quiere predecir las ventas basándose en los gastos de
publicidad ¿ Cuál es la variable dependiente, y cuál la independiente?.
b) Dibuje un diagrama de dispersión.
c) Determine el coeficiente de correlación.
d) Determine el coeficiente de determinación e interprete.
e) Determine la ecuación de regresión.
f) Interprete el valor de a y de b
g) Estime las ventas si se gastan 3 millones en publicidad.
h) ¿Cuál es el error de estimación?.
i) Determine un intervalo de confianza del 90% para un mes típico en el que
se gastaron 3 millones de dólares en publicidad.
25
Regresión Lineal Simple
Ing. Hernán Trujillo A.
4.9 Prueba de Hipótesis del Coeficiente de Correlación.
Recuerde que la gerente de ventas de Copier Sales of América encontró que la
correlación entre el número de llamadas de venta y el número de copiadoras
vendidas era 0.759. Esto indica una fuerte relación entre las dos variables. Sin
embargo, en la muestra solo se tomaron 10 vendedores. ¿ Podría ser que la
correlación en la población fuera cero?. Esto significaría que la correlación 0.759
se debe a la casualidad. La población en este ejemplo son todos los vendedores que
son empleados en la compañía.
Para resolver este problema se necesita una prueba para contestar a la pregunta
obvia: ¿Podría tener la población, de la que se tomó la muestra, una correlación de
cero?. Dicho de otro modo, provine la r que se calculó de una población con
correlación cero?.
Es decir formularemos las siguientes hipótesis:
H0: r = 0 ( la correlación de la población es cero)
H1: r≠ 0 ( la correlación es diferente de cero)
Estadística de Prueba
Prueba t para el coeficiente de correlación
t
r n2
1 r 2
con n-2 grados de libertad
Veamos que pasa con nuestro ejemplo:
H0: r = 0
H1: r≠ 0
Estadística de prueba:
t
.759 10  2
1  (. 759 ) 2
 3.297
Empleando una prueba de dos colas para un α = 0.05 ,y 8 grados de libertad,
tenemos un valor crítico de t de 2.306, por lo que el valor de t que se obtuvo, cae en
la zona de rechazo.
Región de Aceptación
(No existe correlación)
Valor de t
-2.306
Región de rechazo
(Existe correlación)
2.306
Región de rechazo
(Existe correlación)
26
Regresión Lineal Simple
Ing. Hernán Trujillo A.
Desde este punto de vista, esto le indica al gerente de ventas que si hay
correlación en la población de vendedores con respecto al número de llamadas de
venta hechas y el número de copiadoras vendidas.
4.9 El valor F
SSR
F 1 ,
SSE
n2
Donde los grados de libertad del numerador siempre será igual a 1, y los grados de
libertad del denominador, igual a n-2.
SSE = Sumatoria del cuadrado de los errores el cual ya aprendiste a calcular
anteriormente, y también a identificarlo en el análisis de varianza de Excel.
A continuación se presenta un extracto de los resultados en Excel, tomando en
cuenta nuestro problema de ejemplo de Copier Sales of America.
SSR = sumatoria del promedio de los cuadrados. Su calculo se realiza de la
siguiente manera:
 (Y 'Y )
 Y =450/10 = 45
Donde Y =
SSR =
2
n
Y 'Y
(Y 'Y ) 2
5.612
66.315
-2.369
21.315
454.329
40
42.631
-2.369
5.612
30
60
54.473
9.473
89.737
Susan Welch
10
30
30.789
-14.211
201.952
Carlos Ramirez
10
40
30.789
-14.211
201.952
X
Y
Y’
Tom Keller
20
30
42.631
Jeff Hall
40
60
Briant Virost
20
Gregg Fish
27
Regresión Lineal Simple
Rick Niles
20
40
Mike Kiel
20
Mark Reynolds
Soni Jones
Ing. Hernán Trujillo A.
42.631
-2.369
5.612
50
42.631
-2.369
5.612
20
30
42.631
-2.369
5.612
30
70
54.473
9.473
SSR=

450
89.737
1065.789
De este modo,
1065.789
1
F=
 10.872
784.21
8
Note como F = t2
Es decir, el valor de t obtenido anteriormente
3.292 = 10.872
Estos resultados también aparecen en Excel, refiriéndonos a nuestro problema
anterior:
Ahora hacemos la prueba buscando el valor crítico en tablas F para un nivel de
significancia del 5%, 1 grado de libertad en el numerador, y 8 grados de libertad en
el numerador. El valor es 5.32
f (F )
F
5.32
10.87
De igual forma vemos que la hipótesis se rechaza
28
Descargar