Distribución Normal estándar y cuadrados mı́nimos Universidad de Puerto Rico ESTA 3041 Prof. Héctor D. Torres Aponte 1. Distribución Normal estándar En efecto, todas las distribuciones Normales son lo mismo si usamos las unidades de medida σ alrededor de su media µ que es el centro. El proceso para cambiar nuestra distribución a estas variables se le conoce como estandarización. Definición 1.1. Si x es una observación de una distribución con media µ y desviación estándar σ, el valor estandar de x lo es z= x−µ σ Este valor estándar también se le conoce como valor-z. El valor-z nos indica cuantas desviaciones estándares está la observación original de si media y en que dirección. Las observaciones mayores que su media toman valores posı́tivos cuando se estandarizan mientras los valores que son menores a su media toman valores negativos. Ejemplo 1.1. El peso de una bolsa de “papitas” cuya etiqueta indica que es de 9oz es aproximadamente Normal con µ = 9.12oz y σ = 0.15oz. El peso estándar es z= weight − 9.12 0.15 Por ejemplo una bolsa que pese 9.3oz, su peso estandarizado lo es z= 9.3 − 9.12 = 1.2 0.15 o simplemente 1.2 desviaciones estándar por encima de la media. Similarmente una bolsa que pese 8.7oz tiene un peso estandarizado de z= 8.7 − 9.12 = −2.8 0.15 o 2.8 desviaciones por debajo de la media. Si las variables originales (antes de aplicar el proceso de estandarización) tenı́an una distribución normal, el proceso de estandarización no brinda una nueva escala (común) y esta distribución sigue siendo una Normal conocida como distribución Normal estándar. 1 Definición 1.2. La distribución Normal estándar es la distribución Normal N (0, 1) que tiene media 0 y desviación estándar 1. Si una variable x tiene una distribución Normal N (µ, σ) entonces la variable estándar lo es z= x−µ σ y tiene una distribución Normal. Ejemplo 1.2. ¿Cual es la proporción de todas las bolsas de “papitas” (cuya etiqueta indica que su peso es de 9oz) que pesan menos de 9.3oz? Utilizando los datos del Ejemplo 1, podemos decir que esta proporción es el área bajo curva N (9.12, 0.15) a la izquierda del punto 9.3. Como el peso estándar correspondiente a 9.3 onzas lo es 9.3 − 9.12 x−µ = = 1.2 σ 0.15 el área es la misma que el área bajo la curva de la distribución Normal estándar a la izquierda del punto z = 1.2. z= Table entry = 0.8849 z = 1.2 Figura 1: El área bajo la curva Normal estándar a la izquierda del punto z = 1.2 . Para encontrar este resultado de forma matemática necesitamos cálculo diferencial. Pero, como no tenemos esa herramienta podemos utilizar unas tablas de valores llamada probabilidades normales estándares. Definición 1.3 (Proceso para utilizar la tabla Normal estándar). en términos de la variable observada x. 1. Escriba el problema 2. Estandarizamos a x para re-escribir el problemas en términos de variables Normales estándares z. Dibujamos un diagrama para mostrar el área bajo la curva que queremos encontrar. 3. En contramos el área bajo la curva requerida utilizando la tabla Normal estándar que se encuentra en la contraportada del libro. Note que el área total de esta curva siempre es 1. 2 Ejemplo 1.3. La tasa de rendimiento anual de ciertas acciones se distribuye aproximadamente Normal. Desde el 1945, la bolsa de valores Standard & Poor’s 500 tiene un rendimiento anual promedio de 12 % con una desviación estándar de 16.5 %. Se toma esta distribución Normal para el rendimiento anual por largos periodos. ¿En que proporción de años el mercado baja? 1. Establecer el problema: Sea x la tasa de rendimiento anual de Standard & Poor’s 500. La variable x tiene una distribución Normal N (12, 16.5). Queremos saber la proporción cuando x < 0. 2. Estandarizamos: Restando la media de x y dividiendo por la desviación estándar, obtenemos: x < 0 x − 12 < 0 16.5 z < −0.73 3. Usamos la tabla: Utilizando la tabla para la distribución Normal estándar podemos ver que el área es 0.2327. El mercado va bajar anualmente un 23.27 % del tiempo. Note que el área a la derecha de −0.73 es 1 − 0.2327 = 0.7673. Lo que nos indica que la bolsa va a estar por encima un 76.73 % del tiempo (Ver Figura 2). Table entry = 0.2327 Area = 0.7673 z = – 0.73 Figura 2: Área bajo la curva en una curva Normal estandar Ejemplo 1.4. ¿Que porciento de años tendrı́a un rendimiento anual entre un 12 % y 50 %? 1. Queremos la proporción de los años entre 12 ≤ x ≤ 50. 2. Estandarizamos 12 ≤ 12 − 12 ≤ 16.5 0≤ x x−12 16.5 z 3 ≤ 50 50 − 12 ≤ 16.5 ≤ 2.30 3. Usando la tabla, el área entre 0 y 2.30 es el área por dejabo de 2.30 menos el área por debajo de 0 Ver Figura 3. De la tabla de distribución obtenemos: área entre 0 y 2.30 = área debajo de 2.30 − área debajo de 0.00 = 0.9893 − 0.5000 = 0.4893 Alrededor de 40 % de los años tienen un rendimiento anual entre 12 % y 50 %. Area = 0.5 Area = 0.4893 z=0 z = 2.3 Area = 0.9893 Figura 3: Área bajo la curva Normal estándar para el ejemplo 1.4 4 2. Regresión lineal y cuadrados mı́nimos Average amount of gas consumed per day in hundreds of cubic feet Definición 2.1. Una linea de regresión es una linea recta que describe como la variable respuesta y cambia respecto a la variable explicativa x. Usamos la linea de regresión para predecir los valores de y dado un valor x. 12 11 10 9 8 7 6 5 4 3 2 1 0 0 5 10 15 20 25 30 35 40 45 50 Average number of heating degree-days per day 55 Figura 4: Regresión lineal para el consumo de gas natural de cierta familia. La fı́gura 4 es un diagrama de disperción para el consumo de gas natural. Vemos que los datos tienen una relación lineal muy fuerte entre la temperatura y la cantidad promedio de gas consumido. La correlación es r = 0.9953, vemos que esta es muy cercano a r = 1. La linea de regresión dibujada en la Figura 4 representa muy bien los datos obtenidos en el diagrama de dispersión. Si queremos prenosticar cuanto gas podemos consumir cuando la temperatora está en 20 grados por dı́a entonces tenemos que localizar cuando x = 20, luego nos movemos hacı́a la linea y vemos el valor de y el cual es aproximadamente 4.9 miles de piés cúbicos de gas en ese mes. Obviamente como es una predicción, probablemente tenemos un error. Supongamos que en el mes que se hizo la predicción realmente consumieron 5.1 miles de piés cúbicos de gas natural, entonces nuestro error de predicción fue: error = observación y − predicción y = 5.1 − 4.9 = 0.2 Es por eso que queremos saber cual es la distancia mı́nima entre los puntos observados y la linea. La Figura 5 ilustra esta idea. Definición 2.2. La linea de regresión lineal de cuadrados mı́nimos de y respecto a x es la linea que representa la suma de los cuadrados de las distancias verticales de los puntos de la data hasta la linea haciendolos lo mas pequeño posible. 5 Average amount of gas consumed per day in hundreds of cubic feet 7.0 6.5 predicted ŷ 6.0 distance y – yˆ 5.5 observed y 5.0 4.5 20 22 24 26 28 30 Average number of heating degree-days per day 32 Definición 2.3. Suponga que tenemos data sobre una variable explicativa x y una variable respuesta y para n individuos. De esta data calculamos la media x̄ y ȳ y las desviaciones estándares sx y sy de las dos variables y su correlación r. La regresion lineal (cuadrados mı́nimos) es la linea definida por: ŷ = b0 + b1 x con pendiente b1 = r sy sx e intercepto b0 = ȳ − b1 x̄ Ejemplo 2.1. La linea de la Figura 4 es en efecto una regresión linear de cuadrados mı́nimos. Esta linea tiene una ecuación definida como: ŷ = 1.0892 + 0.1890x La pendiente de la regresión lineal es siempre importante para interpretar la data. La pendiente es la tasa de cambio de la cantidad de cambio en ŷ cuando x incrementa por 1. En este ejemplo b1 = 0.1890 lo que implica a que grado de temperatura adicional aumenta el consumo por 0.19 miles de piés cúbicos de gas natural. El intercepto de la regresión lineal es el valor ŷ cuando x = 0. Para la predicción es bastante sencillo. Si queremos predecir para 20 grados en el dı́a, sustituimos x = 20: ŷ = 1.0892 + (0.1890) (20) = 1.0892 + 3.78 = 4.869 6 Datos sobre la regresión lineal 1. La identificación de la variable explicativa y la variable respuesta es algo escencial al momento de establecer nuestra regresión. 2. Existe una relación entre la correlación y la pendiente de la regresión. La pendiente es b1 = r sy sx . Esta ecuación nos indica el cambio a travez de la linea de regresión, hay un cambio de una desviación in x respecto a r desviaciones estándares en y. 3. La linea de regresión siempre pasa por el punto (x̄, ȳ). 7