Regresión Lineal Simple Ing. Hernán Trujillo A. 4.8 Intervalos de confianza e intervalos de predicción El error estándar de estimación (error típico) también se usa para establecer intervalos de confianza cuando el tamaño de la muestra es grande y la dispersión alrededor de la línea de regresión se aproxima a la distribución normal. En nuestro ejemplo del número de llamadas de venta y el número de copiadoras vendidas, el tamaño de muestra es pequeño; así es que necesitamos un factor de corrección para justificar el tamaño de la muestra. Además cuando nos alejamos de la media de la variable independiente (X), nuestras estimaciones están sujetas a mas variaciones, y esto también necesitamos corregirlo. Queremos dar intervalos de estimación de dos tipos. El primero , al que se le llama intervalo de confianza, da el valor medio de Y para una X dada. Al segundo tipo de estimación se le lama intervalo de predicción, y da el rango de valores de Y para un valor determinado de X. UN INTERVALO DE CONFIANZA PARA LA MEDIA DE Y,DADO X 1 Y ' t * error n UN INTERVALO DE PREDICCIÓN PARA Y, DADO X Y ' t * error 1 ( X X )2 ( X ) 2 X2 n 1 n (X X )2 ( X ) 2 2 X n Ejemplo 1 : Volvamos al ejemplo de Copier Sales of America. Determine un intervalo de confianza del95% para todos los representantes que hicieron 25 llamadas y un intervalo de predicción del 95% para Sara Baker, una representante de ventas de la costa oeste que hizo 25 llamadas. Solución: De nuevo, ocupamos los datos antes calculados, los cuales colocaremos otra vez, para mayor comodidad. Representante de venta Llamadas de venta Copiadoras vendida X2 Y2 XY (X) (Y) Tom Keller 20 30 400 900 600 Jeff Hall 40 60 1600 3600 2400 Briant Virost 20 40 400 1600 800 Gregg Fish 30 60 900 3600 1800 Susan Welch 10 30 900 300 Carlos Ramirez 10 40 1600 400 100 100 23 Regresión Lineal Simple Ing. Hernán Trujillo A. Rick Niles 20 40 400 1600 800 Mike Kiel 20 50 400 2500 1000 Mark Reynolds 20 30 400 900 600 Soni Jones 30 70 900 4900 2100 220 450 5600 22100 10800 TOTAL ( ) A. El primer paso es determinar el número de copiadoras que esperamos que venda un representante que hizo 25 llamadas. Este número es: Y ' 18.947 1.1842X 18.947 1.1847(25) 48.5526 B. Para un intervalo de 95% de confianza, tenemos un α = 0.05. Este 5% lo distribuiremos en una prueba de dos colas (2.5% en cada cola), para lo cual buscamos el valor estadístico de t de student ( muestras pequeñas)en tablas para n-2 = 10-2 = 8 grados de libertad y vemos que el valor de t es 2.306. C. Ya anteriormente habíamos calculado el error estándar de estimación en 9.901. D. Los demás cálculos que ocupamos los podemos obtener fácilmente de la información proporcionada por la tabla. X 220 X 2 5600 X 220 22 X n 10 Sustituyendo estos valores en la fórmula: 48.5526 2.306* 9.901 1 10 (25 22) 2 (220) 2 5600 10 48.5526 7.6356 El intervalo de confianza del 95% para el número medio de copiadoras vendidas por los representantes que hicieron 25 llamadas va de 40.917 a 56.1882. El intervalo repredicción sería: Suponga que queremos estimar el número de copiadoras vendidas por Sheila Baker, quien hizo 25 llamadas. 48.5526 2.306* 9.901 1 1 10 (25 22) 2 (220) 2 5600 10 48.5526 24.0756 24 Regresión Lineal Simple Ing. Hernán Trujillo A. El intervalo va de 24.478 a 72.627 copiadoras. Concluimos que el número de copiadoras vendidas por Sheila Baker estará entre 24 y 73; este intervalo es realmente grande. Es mucho más amplio que el intervalo para la media de todos los vendedores que hicieron 25 llamadas. Es lógico que haya más variación en las ventas estimadas de un individuo que de un grupo. Resumiendo, hay una diferencia importante entre un intervalo de confianza y un intervalo de predicción. Un intervalo de confianza se refiere a todos los casos para un valor de X dado . Un intervalo de predicción se refiere a un caso particular para un valor de X dado y será siempre más amplio que el otro. Ejercicio 4.1 Reliable Forniture es una empresa familiar que durante muchos años ha estado vendiendo a clientes minoristas en el área de Chicago. Se anuncian extensamente en radio y TV haciendo hincapié en sus bajos precios y en sus fáciles condiciones de crédito. Al propietario le gustaría estudiar la relación entre las ventas y las cantidades gastadas en publicidad. Abajo se da la información de ventas y de gastos en los últimos cuatro meses. Mes Julio Agosto Septiembre Octubre Gastos en publicidad (millones de dólares) Ingresos por ventas (millones de dólares) 2 1 3 4 7 3 8 10 a) El propietario quiere predecir las ventas basándose en los gastos de publicidad ¿ Cuál es la variable dependiente, y cuál la independiente?. b) Dibuje un diagrama de dispersión. c) Determine el coeficiente de correlación. d) Determine el coeficiente de determinación e interprete. e) Determine la ecuación de regresión. f) Interprete el valor de a y de b g) Estime las ventas si se gastan 3 millones en publicidad. h) ¿Cuál es el error de estimación?. i) Determine un intervalo de confianza del 90% para un mes típico en el que se gastaron 3 millones de dólares en publicidad. 25 Regresión Lineal Simple Ing. Hernán Trujillo A. 4.9 Prueba de Hipótesis del Coeficiente de Correlación. Recuerde que la gerente de ventas de Copier Sales of América encontró que la correlación entre el número de llamadas de venta y el número de copiadoras vendidas era 0.759. Esto indica una fuerte relación entre las dos variables. Sin embargo, en la muestra solo se tomaron 10 vendedores. ¿ Podría ser que la correlación en la población fuera cero?. Esto significaría que la correlación 0.759 se debe a la casualidad. La población en este ejemplo son todos los vendedores que son empleados en la compañía. Para resolver este problema se necesita una prueba para contestar a la pregunta obvia: ¿Podría tener la población, de la que se tomó la muestra, una correlación de cero?. Dicho de otro modo, provine la r que se calculó de una población con correlación cero?. Es decir formularemos las siguientes hipótesis: H0: r = 0 ( la correlación de la población es cero) H1: r≠ 0 ( la correlación es diferente de cero) Estadística de Prueba Prueba t para el coeficiente de correlación t r n2 1 r 2 con n-2 grados de libertad Veamos que pasa con nuestro ejemplo: H0: r = 0 H1: r≠ 0 Estadística de prueba: t .759 10 2 1 (. 759 ) 2 3.297 Empleando una prueba de dos colas para un α = 0.05 ,y 8 grados de libertad, tenemos un valor crítico de t de 2.306, por lo que el valor de t que se obtuvo, cae en la zona de rechazo. Región de Aceptación (No existe correlación) Valor de t -2.306 Región de rechazo (Existe correlación) 2.306 Región de rechazo (Existe correlación) 26 Regresión Lineal Simple Ing. Hernán Trujillo A. Desde este punto de vista, esto le indica al gerente de ventas que si hay correlación en la población de vendedores con respecto al número de llamadas de venta hechas y el número de copiadoras vendidas. 4.9 El valor F SSR F 1 , SSE n2 Donde los grados de libertad del numerador siempre será igual a 1, y los grados de libertad del denominador, igual a n-2. SSE = Sumatoria del cuadrado de los errores el cual ya aprendiste a calcular anteriormente, y también a identificarlo en el análisis de varianza de Excel. A continuación se presenta un extracto de los resultados en Excel, tomando en cuenta nuestro problema de ejemplo de Copier Sales of America. SSR = sumatoria del promedio de los cuadrados. Su calculo se realiza de la siguiente manera: (Y 'Y ) Y =450/10 = 45 Donde Y = SSR = 2 n Y 'Y (Y 'Y ) 2 5.612 66.315 -2.369 21.315 454.329 40 42.631 -2.369 5.612 30 60 54.473 9.473 89.737 Susan Welch 10 30 30.789 -14.211 201.952 Carlos Ramirez 10 40 30.789 -14.211 201.952 X Y Y’ Tom Keller 20 30 42.631 Jeff Hall 40 60 Briant Virost 20 Gregg Fish 27 Regresión Lineal Simple Rick Niles 20 40 Mike Kiel 20 Mark Reynolds Soni Jones Ing. Hernán Trujillo A. 42.631 -2.369 5.612 50 42.631 -2.369 5.612 20 30 42.631 -2.369 5.612 30 70 54.473 9.473 SSR= 450 89.737 1065.789 De este modo, 1065.789 1 F= 10.872 784.21 8 Note como F = t2 Es decir, el valor de t obtenido anteriormente 3.292 = 10.872 Estos resultados también aparecen en Excel, refiriéndonos a nuestro problema anterior: Ahora hacemos la prueba buscando el valor crítico en tablas F para un nivel de significancia del 5%, 1 grado de libertad en el numerador, y 8 grados de libertad en el numerador. El valor es 5.32 f (F ) F 5.32 10.87 De igual forma vemos que la hipótesis se rechaza 28